CN105590223A - 商户的商圈信息的标定 - Google Patents

商户的商圈信息的标定 Download PDF

Info

Publication number
CN105590223A
CN105590223A CN201410830454.1A CN201410830454A CN105590223A CN 105590223 A CN105590223 A CN 105590223A CN 201410830454 A CN201410830454 A CN 201410830454A CN 105590223 A CN105590223 A CN 105590223A
Authority
CN
China
Prior art keywords
trade company
commercial circle
information
subordinate
subordinate rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410830454.1A
Other languages
English (en)
Inventor
杨鸿超
郑建宾
王骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201410830454.1A priority Critical patent/CN105590223A/zh
Priority to PCT/CN2015/096383 priority patent/WO2016107373A1/zh
Priority to EP15875051.3A priority patent/EP3242263A4/en
Priority to KR1020177020162A priority patent/KR102025605B1/ko
Priority to JP2017534542A priority patent/JP6469230B2/ja
Priority to US15/535,969 priority patent/US20170372331A1/en
Publication of CN105590223A publication Critical patent/CN105590223A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0204Market segmentation
    • G06Q30/0205Location or geographical consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0206Price or cost determination based on market factors

Abstract

本发明涉及商户的商圈信息的标定,属于数据处理技术领域。本发明的标定商户的商圈信息的方法包括步骤:对消费用户的消费交易数据进行关联规则的挖掘计算处理,以获取商户之间的关联关系信息;基于所述关联关系信息以及所述商户中的至少部分商户的已标定的商圈信息,计算所述商户中商圈信息未标定的商户相对若干商圈的从属率;以及基于每个所述商户的从属率标定其商圈信息。本发明的商户的商圈信息的标定可以自动化实现,并且具有商圈信息标定准确、高效的特点。

Description

商户的商圈信息的标定
技术领域
本发明属于数据处理技术领域,涉及基于消费交易数据的处理来标定商户的商圈信息,尤其涉及通过对消费交易数据进行关联规则挖掘计算得到商户关联关系信息、并基于该关联关系信息来标定商户的商圈信息。
背景技术
城市中通常按照商业区域范围来划分商圈,存在各种级别的商圈,例如核心商圈、次级商圈和边缘商圈等。商户的位置信息通常通过商圈信息的形式来表述,例如,通常会将某个商户归属于某一商圈,从而标定该商户的商圈信息。
商户的商圈信息是开展针对商户的分析以及提供针对商户的服务的重要依据,并且在现在商业社会中越来越重要。然而,实际上的大部分涉及商户的数据集合中,很多商户的商圈信息都是不全面的,甚至是错误的,那么标定这部分缺失的商圈信息就成了一项必要工作。
当前,众多商户数据的持有者们在建立商户信息方面大多采用人工录入的方式来实现。这种通过人工录入商户的商圈信息,其最直接的缺点就是工作量庞杂巨大,需要耗费大量的人力成本和时间成本;第二个缺点就是商圈信息的录入标准不可控,不同的人可能采用不同的标准来录入商圈信息,这给后续过程中对数据的清洗和分析带来了困难;第三个缺点是商户位置信息的录入质量不可控,在人工录入的背景下,很多商户都会出现提供错误商圈信息的现象,并且还会出现由于录入者的失误或者主观错误导致的商户的商圈信息错误或遗漏。
有鉴于此,亟需提出一种方案来自动化、高效、准确地标定商户的商圈信息,或者标定所遗漏的商户的商圈信息、或修正商户的错误的商圈信息。
发明内容
本发明的目的之一在于,实现对商户的商圈信息的自动化标定。
本发明的又一目的在于,提高对商户的商圈信息的标定的准确性。
本发明的又一目的在于,提高对商户的商圈信息的标定效率。
为实现以上目的或者其他目的,本发明提供以下技术方案。
按照本发明的一方面,提供一种标定商户的商圈信息的方法,其包括步骤:
对消费用户的消费交易数据进行关联规则的挖掘计算处理,以获取商户之间的关联关系信息;
基于所述关联关系信息以及所述商户中的至少部分商户的已标定的商圈信息,计算所述商户中商圈信息未标定的商户相对若干商圈的从属率;以及
基于每个所述商户的从属率标定其商圈信息。
根据本发明一实施例的标定商户的商圈信息的方法,其中,所述获取关联关系信息的步骤包括:
将对应属于同一消费用户的消费交易数据进行归并,将归并的消费交易数据中涉及的所有商户列出以形成对应该消费用户的商户组数据;
以每个所述商户组数据为项集、对所有项集进行所述关联规则的挖掘计算处理,获取所述商户之间的1-频繁项集、2-频繁项集以及每个所述1-频繁项集和2-频繁项集分别所出现的频次(f);以及
至少基于所述2-频繁项集构建其中涉及到的商户的关联关系网,并存储以边集数组表示的所述关联关系网中的“边”对应的第一商户(A)和第二商户(B)之间的关联关系信息。
优选地,所述第一商户(A)和第二商户(B)之间对应的所述边集数组为:
<第一商户(A),第二商户(B),关联强度w AB >和/或<第二商户(B),第一商户(A),关联强度w AB >
其中,关联强度w AB 通过以下关系式(1)计算:
(1)
其中,f AB 为所述第一商户A和第二商户B对应的2-频繁项集出现的频次,f A f B 分别为第一商户A和第二商户B对应的1-频繁项集出现的频次,N为所有的商户组数据的总数。
可选地,所述关联规则的挖掘计算是基于Apriori或FP-Growth算法进行的。
根据本发明又一实施例的标定商户的商圈信息的方法,其中,计算所述从属率的步骤中使用独立瀑布模型来计算。
在之前所述任一实施例的方法中,计算所述从属率的步骤包括步骤:
假设所述第一商户(A)为已标定商圈信息的商户并且所述第一商户相对其所标定的商圈的从属率为A1,计算所述第二商户(B)相对该商圈的从属率B1,其中B1通过以下关系式(2)计算:
(2)
其中,p为该商圈从属传播概率;A 1 是所述第一商户相对其所标定的商圈的从属率;w AB 是所述第一商户(A)和所述第二商户(B)之间的关联强度。
在之前所述任一实施例的方法中,所述商户中的至少部分商户的已标定的商圈信息的商户被定义为所述关联关系网中的种子节点。
优选地,选取每个商圈中的核心知名商户作为该商圈的所述种子节点。
根据本发明再一实施例的标定商户的商圈信息的方法,其中,基于每个所述商户的从属率标定其商圈信息的步骤包括:
对应每个商圈信息未标定的商户的多个所述从属率,取其中最大的从属率;
判断所述最大的从属率是否大于或等于预定阈值;
在所述最大的从属率大于或等于预定阈值时,所述最大的从属率对应的商圈被标定为该商户的商圈信息;
在所述最大的从属率小于预定阈值时,则认为该商户无明显的商圈从属性,放弃对该商户的商圈信息的标定。
按照本发明的又一方面,提供一种标定商户的商圈信息的装置,其包括:
第一部件,其用于对消费用户的消费交易数据进行关联规则的挖掘计算处理以获取商户之间的关联关系信息;
第二部件,其用于基于所述关联关系信息以及所述商户中的至少部分商户的已标定的商圈信息,计算所述商户中商圈信息未标定的商户相对若干商圈的从属率;以及
第三部件,其用于基于每个所述商户的从属率标定其商圈信息。
根据本发明又一实施例的标定商户的商圈信息的装置,其中,所述第一部件包括:
第一子部件,其用于将对应属于同一消费用户的消费交易数据进行归并,将归并的消费交易数据中涉及的所有商户列出以形成对应该消费用户的商户组数据;
第二子部件,其用于以每个所述商户组数据为项集、对所有项集进行所述关联规则的挖掘计算处理,获取所述商户之间的1-频繁项集、2-频繁项集以及每个所述1-频繁项集和2-频繁项集分别所出现的频次(f);以及
第三子部件,其用于至少基于所述2-频繁项集构建其中涉及到的商户的关联关系网,并存储以边集数组表示的所述关联关系网中的“边”对应的第一商户(A)和第二商户(B)之间的关联关系信息。
优选地,在所述第三子部件中,所述第一商户(A)和第二商户(B)之间对应的所述边集数组为:
<第一商户(A),第二商户(B),关联强度w AB >和/或<第二商户(B),第一商户(A),关联强度w AB >
其中,关联强度w AB 通过以下关系式(1)计算:
(1)
其中,f AB 为所述第一商户A和第二商户B对应的2-频繁项集出现的频次,f A f B 分别为第一商户A和第二商户B对应的1-频繁项集出现的频次,N为所有的商户组数据的总数。
根据本发明又一实施例的标定商户的商圈信息的装置,其中,所述第二部件被配置为使用独立瀑布模型来计算。
在之前所述任一实施例的装置中,所述第二部件被配置以执行:
假设所述第一商户(A)为已标定商圈信息的商户并且所述第一商户相对其所标定的商圈的从属率为A1,计算所述第二商户(B)相对该商圈的从属率B1,其中B1通过以下关系式(2)计算:
(2)
其中,p为该商圈从属传播概率;A 1 是所述第一商户相对其所标定的商圈的从属率;w AB 是所述第一商户(A)和所述第二商户(B)之间的关联强度。
根据本发明再一实施例的标定商户的商圈信息的装置,其中,所第三部件被配置以执行:
对应每个商圈信息未标定的商户的多个所述从属率,取其中最大的从属率;
判断所述最大的从属率是否大于或等于预定阈值;
在所述最大的从属率大于或等于预定阈值时,所述最大的从属率对应的商圈被标定为该商户的商圈信息;
在所述最大的从属率小于预定阈值时,则认为该商户无明显的商圈从属性,放弃对该商户的商圈信息的标定。
本发明可以通过自动化地实现对商户的商圈信息的标定,可以避免人工标定的麻烦和不足,具有商圈信息标定准确、高效的特点。
附图说明
从结合附图的以下详细说明中,将会使本发明的上述和其他目的及优点更加完整清楚,其中,相同或相似的要素采用相同的标号表示。
图1是按照本发明一实施例的标定商户的商圈信息的方法的流程示意图。
具体实施方式
下面介绍的是本发明的多个可能实施例中的一些,旨在提供对本发明的基本了解,并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。容易理解,根据本发明的技术方案,在不变更本发明的实质精神下,本领域的一般技术人员可以提出可相互替换的其他实现方式。因此,以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明,而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。
在以下描述中,城市中对“商圈”的定义是已知的,例如,商圈对应的区域范围等均是已知的,以下揭示的标定商圈信息的方案的目的是获知某一商户的所属的商圈并将其进行标定或纠正,商户的类型、位置等并不是限制性的。
在本文中,包含k个项(item)的项集称为k-项集,其中k为大于或等于1的整数,例如1-项集、2-项集;k-项集中所包括的每个项称为k-项;可以通过计算k-项集的支持度并比对其支持度是否大于或等于相应的支持度阈值,来确定该k-项集是否为k-频繁项集。其中,支持度阈值是可以根据具体情况来设定的,k值大小不同的时,其对应的支持度阈值可以相同,也可以不相同。
图1所示为按照本发明一实施例的标定商户的商圈信息的方法的流程示意图。以下结合图1对本发明实施例的商户商圈信息的标定方法进行详细说明。
首先,步骤S110,归并同一消费用户的消费交易数据,形成商户组数据。在本发明的实施例中,商户之间的关联关系的建立是基于消费交易记录(也即消费交易数据)实现的,消费交易数据的内容通常至少包括消费用户信息和商户信息,消费用户即消费个体,消费用户和商户在消费交易数据的标识或表示形式不是限制性的,例如消费用户的标识可以是银行卡号、支付账号、物理人标识等等,商户的标识可以是商户名称、商户编号等等。
在该步骤的数据处理中,基于诸多的消费交易数据,将隶属于同一个消费用户的交易消费交易数据进行归并,得到归并的交易消费交易数据中涉及到的所有商户列出,从而可以将这些商户组成一条商户组数据,其即为对应该消费用户的商户组数据。
进一步,步骤S120,以每个所述商户组数据为项集、进行关联规则的挖掘计算处理。具体地,在该步骤中,以上步骤中可以得到对应每个消费用户的商户组数据,每个商户组数据定义为关联规则的挖掘处理中所用到的项集,项集中的包含的项的个数反映商户的个数,其不是限制性的,例如,k-项集对应包含k个商户。在该实施例中,可以利用关联规则的挖掘算法对诸多项集进行关联规则的挖掘计算处理,从而得到商户之间的1-频繁项集、2-频繁项集以及1-频繁项集和2-频繁项集分别出现的频次。具体地,关联规则的挖掘计算可以但不限于基于Apriori或FP-Growth算法进行,关联规则的挖掘计算所采用的算法可以随着关联规则的挖掘计算的发展而更新。
其中,在判断1-项集和2-项集分别是否为1-频繁项集和2-频繁项集时,可以通过计算其支持度并比对其支持度是否大于或等于相应的支持度阈值来实现,在此不再具体赘述。
进一步,步骤S130,以2-频繁项集构建关联关系网,并存储以边集数组表示的关联关系信息。在该步骤中,将以步骤S120挖掘得到的2-频繁项集进行存储,2-频繁项集中的2-频繁项即对应两个商户,在一个2-频繁项集中的对应的两个商户,即存在关联关系,这样,以商户为“节点”、每个2-频繁项集对应的两个商户的关联关系为“边”,为所有2-频繁项集中涉及到的所有商户构建了一个网状的关联结构,即关联关系网;该关联关系网可以以边集数组的形式来表示并存储所有边集数组,边集数组表示了该关联关系网中的“边”对应的起点的商户A和终点的商户B之间的关联关系信息,示例地,商户A和商户B之间的边集数组可以表示为:
<商户A,商户B,关联强度w AB >和/或者<商户B,商户A,关联强度w AB >
其中商户A是源节点/目标节点,商户B是目标节点/源节点,关联强度w AB 对应边集数组的边权重。
具体地,由于商户关联关系是无向的,也即每个2-频繁项集对应的边是无项的,所有每个2-频繁项集可以存储两条边,也即存储以上两个边集数组,其中关联强度w AB 由如下关系式(1)计算:
(1)
其中,f AB 为该商户A和B对对应的2-频繁项集出现的频次,f A 为商户A对应的1-频繁项集出现的频次,f B 为商户A对应的1-频繁项集出现的频次,N为步骤S110得到的商户组数据的总数。
以上步骤S110至步骤S130基本实现了对商户关联关系的建立,以下商圈信息的标定是基于上面得到的关联关系信息实现的。
进一步,步骤S140,计算商户中商圈信息未标定的商户相对若干商圈的从属率。
在本发明中,标定商圈信息未标定的商户的商圈信息的一个前提要求,是需要有至少一部分商户的商圈信息是已标定的(也即是已知并确认正确的)。通常地,对于某一商圈,其中涵盖的主要商户(例如核心的知名商户)的商圈信息是已知且确定的,可以将这些知名商户作为该商圈的已标定的商户;已标定的商户可以定义为其所属商圈的种子节点,例如,在这些知名商户出现在以上所述的关联关系网中时,可以将这些知名商户定义其所属商圈的种子节点。需要说明的是,每个商圈的种子节点的数目不是限制性的,但是,每个商圈的种子节点的数目越大,对本发明的标定结果的准确性提升越好,同时,种子节点应当选取该商圈的最具有代表的商户,这样也有利于提升发明的标定结果的准确性。并且,优选地,不同商圈之间的种子节点的数目不应差异过大,例如,不同商圈之间的种子节点的数目差异不超过20个,不同商圈之间的种子节点的数目差异的范围值可以通过在标定商户的商圈信息的模型训练过程中根据实际数据情况来调整。
在该实施例中,由这些种子节点出发,可以在商户之间的关联关系网中计算其他商户的相对若干商圈的从属率。
为方便说明,假设所有的商户隶属于两个商圈(其他数目的商圈可以本发明实施例的揭示以此类推),那么,在初始条件下认定所有的种子节点相对其所隶属的商圈的从属率为1,以下说明计算其他商户相对不同商圈的从属率。在本发明实施例中,借助“独立瀑布模型(IndependentCascadeModel)”来实现从属率的计算的,具体的操作过程如下。
首先需要说明的是,对于某一商圈,商户分为“已标定从属率”和“未标定从属率”这两类,初始情况下,只有种子节点是已标定从属率的,而所有的商户一旦被标定对于某一商圈的从属率,那么其对于该商圈的从属率不可以再被改变。
然后,对于每一个已标定相应商圈的从属率的商户,计算与该商户有关联的、且未被标定从属率的商户的从属率。示例地,假设商户A已被标定对于商圈1的从属率A1,或者A同时被标定了对于商圈1和商圈2的从属率分别为A1和A2(A1>A2),而商户B与A存在关联关系,也即商户B与商户A是对应至关联关系网中的一条边的两端点,并且商户B未被标定对于商圈1的从属率,通过以下关系式(2)计算商户B对于商圈1的从属率:
(2)
其中,p为商圈从属传播概率,该概率可以是一个预定义的一个确定数值,如0.1,也可以是一个按照某种规则变化的数值,例如,每有一个商户被标定相对该商圈的从属率,p的数值就变小;A 1 是已被标定的商户A对于商圈1的从属率,其是已知的;w AB 是商户A和商户B之间的关联强度,其通过以上关系式(1)计算并且是已经存储的。
以上关系式(2)中,商户B对于商圈1的从属率B1取()与数值1二者中的最小值,其中数值1反映最大概率1、也即从属率的最大可能值。
进一步重复以上步骤直至该商户相对其他更多的商户被计算并标定出来。例如,计算商户B相对商圈2的B1从属率B2
需要说明的是,在以上实施例中,尽管只是示例性地给出了基于独立瀑布模型来计算未标定商户相对若干商圈的从属率,本领域技术人员将理解到,基于以上的揭示和教导,可以应用其他类型的传播模型(例如线性阈值模型等等)来计算未标定商户相对已标定商户所对应的商圈的从属率。
进一步,步骤S150,对每个商圈信息未标定的商户的若干从属率,取其中最大的从属率。以商户B为例,取从属率B1和B2中的最大值,该最大值即对应的商圈即为商户B的候选从属商圈。
进一步,步骤S160,判断该最大的从属率是否大于或等于预定阈值。
如果商户对候选从属商圈的从属率达到了预定阈值σ,那么则判断该候选从属商圈为商户的从属商圈,该最大的从属率对应的商圈被标定为该商户的商圈信息,即对应步骤S180;如果该最大的从属率小于预定阈值σ,则认为该商户无明显的商圈从属性,放弃该商户的商圈信息的标定,即对应步骤S170。
需要说明的是,如果步骤S150中出现多个值相同的最大的从属率,并且如果在步骤S160中比较后,该多个最大的从属率均大于或等于预定阈值σ,表明该商户可能从属多个商圈;如果在步骤S160中比较后,该多个最大的从属率均小于预定阈值σ,表明该商户无明显的商圈从属性。
至此,依次执行以上步骤S140至S180,可以完成对每个商户的商圈信息的标定。需要说明的是,在以上步骤中实现商圈信息的标定的商户,可以作为已标定商圈信息的商户,从而可以为与该商户相关联的商户的商圈信息的标定提供基础。通过这样的不断传播,所有商户的商圈信息都可以实现标定。
需要理解的是,以上实施例揭示的商户的商圈信息的标定方法,不但可以对商圈信息未标定的商户进行商圈信息的标定,如果认为商圈信息已知的某商户的商圈信息存在错误时,也可以对应用以上方法过程对其进行重新标定,此时,存在错误的商圈信息的用户被看作为“商圈信息未标定的商户”。
将理解,以上流程图和/或框图以及相应的流程图和/或框图说明可以由计算机程序指令来实现。可以将这些计算机程序指令提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器以构成机器,以便由计算机或其他可编程数据处理设备的处理器执行的这些指令创建用于实施这些流程图和/或框图的一个或多个框中指定的功能/操作的部件。
并且,可以将这些计算机程序指令存储在计算机可读存储器中,这些指令可以指示计算机或其他可编程处理器以特定方式实现功能,以便存储在计算机可读存储器中的这些指令构成包含实施流程图和/或框图的一个或多个框中指定的功能/操作的指令部件的制作产品。
并且,可以将这些计算机程序指令加载到计算机或其他可编程数据处理器上以使一系列的操作步骤在计算机或其他可编程处理器上执行,以便构成计算机实现的进程,以使计算机或其他可编程数据处理器上执行的这些指令提供用于实施此流程图和/或框图的一个或多个框中指定的功能或操作的步骤。还应该注意在一些备选实现中,框中所示的功能/操作可以不按流程图所示的次序来发生。例如,依次示出的两个框实际可以基本同时地执行或这些框有时可以按逆序执行,具体取决于所涉及的功能/操作。
以上实施例的标定方法中,集合利用了数据挖掘方法,从而可以以自动化的手段实现商圈信息的标定,例如将商户信息数据集合中所缺失的商圈信息进行标定,并且弥补了手工录入的商户信息的不足,具有高效、准确的优点,为基于商户的数据分析和服务开展提供了便利。
并且,通过借鉴复杂网络理论中的信息传播模型——独立瀑布模型,来标定商户的商圈信息,这个步骤以商圈的从属为基本信息,试图将这一信息量在商户的关联关系网络中进行传播,使得没有商圈从属的商户也获得相应的商圈从属,独立瀑布模型作为传播模型的一种,具备可靠的数学基础,有利于保证了最终获得的商圈信息的准确性。
以上例子主要说明了本发明的标定商户的商圈信息的方法。尽管只对其中一些本发明的实施方式进行了描述,但是本领域普通技术人员应当了解,本发明可以在不偏离其主旨与范围内以许多其他的形式实施。因此,所展示的例子与实施方式被视为示意性的而非限制性的,在不脱离如所附各权利要求所定义的本发明精神及范围的情况下,本发明可能涵盖各种的修改与替换。

Claims (15)

1.一种标定商户的商圈信息的方法,其特征在于,包括步骤:
  对消费用户的消费交易数据进行关联规则的挖掘计算处理,以获取商户之间的关联关系信息;
  基于所述关联关系信息以及所述商户中的至少部分商户的已标定的商圈信息,计算所述商户中商圈信息未标定的商户相对若干商圈的从属率;以及
  基于每个所述商户的从属率标定其商圈信息。
2.如权利要求1所述的方法,其特征在于,所述获取关联关系信息的步骤包括:
  将对应属于同一消费用户的消费交易数据进行归并,将归并的消费交易数据中涉及的所有商户列出以形成对应该消费用户的商户组数据;
  以每个所述商户组数据为项集、对所有项集进行所述关联规则的挖掘计算处理,获取所述商户之间的1-频繁项集、2-频繁项集以及每个所述1-频繁项集和2-频繁项集分别所出现的频次(f);以及
  至少基于所述2-频繁项集构建其中涉及到的商户的关联关系网,并存储以边集数组表示的所述关联关系网中的“边”对应的第一商户(A)和第二商户(B)之间的关联关系信息。
3.如权利要求2所述的方法,其特征在于,所述第一商户(A)和第二商户(B)之间对应的所述边集数组为:
 <第一商户(A),第二商户(B),关联强度w AB >和/或<第二商户(B),第一商户(A),关联强度w AB >
  其中,关联强度w AB 通过以下关系式(1)计算:
           (1)
  其中,f AB 为所述第一商户A和第二商户B对应的2-频繁项集出现的频次,f A f B 分别为第一商户A和第二商户B对应的1-频繁项集出现的频次,N为所有的商户组数据的总数。
4.如权利要求1所述的方法,其特征在于,所述关联规则的挖掘计算是基于Apriori或FP-Growth算法进行的。
5.如权利要求1所述的方法,其特征在于,计算所述从属率的步骤中使用独立瀑布模型来计算。
6.如权利要求3所述的方法,其特征在于,计算所述从属率的步骤包括步骤:
  假设所述第一商户(A)为已标定商圈信息的商户并且所述第一商户相对其所标定的商圈的从属率为A1,计算所述第二商户(B)相对该商圈的从属率B1,其中从属率B1通过以下关系式(2)计算:
        (2)
  其中,p为该商圈从属传播概率;A 1 是所述第一商户相对其所标定的商圈的从属率;w AB 是所述第一商户(A)和所述第二商户(B)之间的关联强度。
7.如权利要求3所述的方法,其特征在于,所述商户中的至少部分商户的已标定的商圈信息的商户被定义为所述关联关系网中的种子节点。
8.如权利要求7所述的方法,其特征在于,选取每个商圈中的核心知名商户作为该商圈的所述种子节点。
9.如权利要求1所述的方法,其特征在于,基于每个所述商户的从属率标定其商圈信息的步骤包括:
  对应每个商圈信息未标定的商户的多个所述从属率,取其中最大的从属率;
  判断所述最大的从属率是否大于或等于预定阈值;
  在所述最大的从属率大于或等于预定阈值时,所述最大的从属率对应的商圈被标定为该商户的商圈信息;
  在所述最大的从属率小于预定阈值时,则认为该商户无明显的商圈从属性,放弃对该商户的商圈信息的标定。
10.一种标定商户的商圈信息的装置,其特征在于,包括:
  第一部件,其用于对消费用户的消费交易数据进行关联规则的挖掘计算处理以获取商户之间的关联关系信息;
  第二部件,其用于基于所述关联关系信息以及所述商户中的至少部分商户的已标定的商圈信息,计算所述商户中商圈信息未标定的商户相对若干商圈的从属率;以及
  第三部件,其用于基于每个所述商户的从属率标定其商圈信息。
11.如权利要求10所述的装置,其特征在于,所述第一部件包括:
  第一子部件,其用于将对应属于同一消费用户的消费交易数据进行归并,将归并的消费交易数据中涉及的所有商户列出以形成对应该消费用户的商户组数据;
  第二子部件,其用于以每个所述商户组数据为项集、对所有项集进行所述关联规则的挖掘计算处理,获取所述商户之间的1-频繁项集、2-频繁项集以及每个所述1-频繁项集和2-频繁项集分别所出现的频次(f);以及
  第三子部件,其用于至少基于所述2-频繁项集构建其中涉及到的商户的关联关系网,并存储以边集数组表示的所述关联关系网中的“边”对应的第一商户(A)和第二商户(B)之间的关联关系信息。
12.如权利要求11所述的装置,其特征在于,在所述第三子部件中,所述第一商户(A)和第二商户(B)之间对应的所述边集数组为:
 <第一商户(A),第二商户(B),关联强度w AB >和/或<第二商户(B),第一商户(A),关联强度w AB >
  其中,关联强度w AB 通过以下关系式(1)计算:
            (1)
  其中,f AB 为所述第一商户A和第二商户B对应的2-频繁项集出现的频次,f A f B 分别为第一商户A和第二商户B对应的1-频繁项集出现的频次,N为所有的商户组数据的总数。
13.如权利要求10所述的装置,其特征在于,所述第二部件被配置为使用独立瀑布模型来计算。
14.如权利要求12所述的装置,其特征在于,所述第二部件被配置以执行:
  假设所述第一商户(A)为已标定商圈信息的商户并且所述第一商户相对其所标定的商圈的从属率为A1,计算所述第二商户(B)相对该商圈的从属率B1,其中从属率B1通过以下关系式(2)计算:
            (2)
  其中,p为该商圈从属传播概率;A 1 是所述第一商户相对其所标定的商圈的从属率;w AB 是所述第一商户(A)和所述第二商户(B)之间的关联强度。
15.如权利要求10所述的装置,其特征在于,所第三部件被配置以执行:
  对应每个商圈信息未标定的商户的多个所述从属率,取其中最大的从属率;
  判断所述最大的从属率是否大于或等于预定阈值;
  在所述最大的从属率大于或等于预定阈值时,所述最大的从属率对应的商圈被标定为该商户的商圈信息;
  在所述最大的从属率小于预定阈值时,则认为该商户无明显的商圈从属性,放弃对该商户的商圈信息的标定。
CN201410830454.1A 2014-12-29 2014-12-29 商户的商圈信息的标定 Pending CN105590223A (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201410830454.1A CN105590223A (zh) 2014-12-29 2014-12-29 商户的商圈信息的标定
PCT/CN2015/096383 WO2016107373A1 (zh) 2014-12-29 2015-12-04 商户的商圈信息的标定
EP15875051.3A EP3242263A4 (en) 2014-12-29 2015-12-04 Marking of business district information of a merchant
KR1020177020162A KR102025605B1 (ko) 2014-12-29 2015-12-04 상인의 상업지역 정보의 표시
JP2017534542A JP6469230B2 (ja) 2014-12-29 2015-12-04 マーチャントのビジネスサークル情報の確定
US15/535,969 US20170372331A1 (en) 2014-12-29 2015-12-04 Marking of business district information of a merchant

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410830454.1A CN105590223A (zh) 2014-12-29 2014-12-29 商户的商圈信息的标定

Publications (1)

Publication Number Publication Date
CN105590223A true CN105590223A (zh) 2016-05-18

Family

ID=55929788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410830454.1A Pending CN105590223A (zh) 2014-12-29 2014-12-29 商户的商圈信息的标定

Country Status (6)

Country Link
US (1) US20170372331A1 (zh)
EP (1) EP3242263A4 (zh)
JP (1) JP6469230B2 (zh)
KR (1) KR102025605B1 (zh)
CN (1) CN105590223A (zh)
WO (1) WO2016107373A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133289A (zh) * 2017-04-19 2017-09-05 银联智策顾问(上海)有限公司 一种确定商圈的方法和装置
CN109447669A (zh) * 2018-08-07 2019-03-08 中国银联股份有限公司 一种商圈模型建立方法及其系统
CN109684563A (zh) * 2018-11-19 2019-04-26 银联智惠信息服务(上海)有限公司 商圈识别方法、装置以及计算机存储介质
CN109947865A (zh) * 2018-09-05 2019-06-28 中国银联股份有限公司 商户分类方法及商户分类系统
CN112488748A (zh) * 2020-11-18 2021-03-12 银联智惠信息服务(上海)有限公司 数据标识匹配方法及装置、存储介质、计算设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393671A (zh) * 2008-10-28 2009-03-25 中国工商银行股份有限公司 一种基于银行卡的商户信息处理方法、装置与系统
CN102467714A (zh) * 2010-11-04 2012-05-23 长茂科技股份有限公司 网络商圈建构方法及其系统
CN102541886A (zh) * 2010-12-20 2012-07-04 郝敬涛 一种识别用户群和用户之间关系的系统和方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185559B1 (en) * 1997-05-09 2001-02-06 Hitachi America, Ltd. Method and apparatus for dynamically counting large itemsets
US6430539B1 (en) * 1999-05-06 2002-08-06 Hnc Software Predictive modeling of consumer financial behavior
US6907426B2 (en) * 2001-05-17 2005-06-14 International Business Machines Corporation Systems and methods for identifying and counting instances of temporal patterns
KR100738899B1 (ko) * 2004-11-02 2007-07-12 한국정보통신주식회사 신용카드 결제 시스템을 이용한 창업 및 경영 지원 서비스제공 시스템
US7836004B2 (en) * 2006-12-11 2010-11-16 International Business Machines Corporation Using data mining algorithms including association rules and tree classifications to discover data rules
US20110082718A1 (en) * 2009-10-06 2011-04-07 Bank Of America Corporation Analyzing Patterns within Transaction Data
US20080319777A1 (en) * 2007-06-20 2008-12-25 Roland Hoff Business transaction issue manager
US8781881B2 (en) * 2007-08-14 2014-07-15 Visa U.S.A. Inc. Merchant benchmarking tool
US8738486B2 (en) * 2007-12-31 2014-05-27 Mastercard International Incorporated Methods and apparatus for implementing an ensemble merchant prediction system
JP5528292B2 (ja) * 2010-10-14 2014-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 意味のある頻出アイテムセットを抽出するシステム、方法及びプログラム
JP5594427B2 (ja) * 2011-03-18 2014-09-24 富士通株式会社 秘匿データ処理方法、プログラム及び装置
CN102810193B (zh) * 2011-06-02 2017-02-22 阿里巴巴集团控股有限公司 一种关联产品信息的显示方法及系统
US20130090983A1 (en) * 2011-10-06 2013-04-11 Revionics, Inc. System and method for tiered offer forecasting
CN103426096A (zh) * 2012-05-14 2013-12-04 阿里巴巴集团控股有限公司 一种推荐用户的方法及装置
US9672495B2 (en) * 2014-12-23 2017-06-06 Sap Se Enhancing frequent itemset mining
US10147108B2 (en) * 2015-04-02 2018-12-04 The Nielsen Company (Us), Llc Methods and apparatus to identify affinity between segment attributes and product characteristics
US10528958B2 (en) * 2015-08-18 2020-01-07 Mastercard International Incorporated Systems and methods for generating relationships via a property graph model
CN107102999B (zh) * 2016-02-22 2021-09-10 阿里巴巴集团控股有限公司 关联分析方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393671A (zh) * 2008-10-28 2009-03-25 中国工商银行股份有限公司 一种基于银行卡的商户信息处理方法、装置与系统
CN102467714A (zh) * 2010-11-04 2012-05-23 长茂科技股份有限公司 网络商圈建构方法及其系统
CN102541886A (zh) * 2010-12-20 2012-07-04 郝敬涛 一种识别用户群和用户之间关系的系统和方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133289A (zh) * 2017-04-19 2017-09-05 银联智策顾问(上海)有限公司 一种确定商圈的方法和装置
CN107133289B (zh) * 2017-04-19 2020-06-30 银联智策顾问(上海)有限公司 一种确定商圈的方法和装置
CN109447669A (zh) * 2018-08-07 2019-03-08 中国银联股份有限公司 一种商圈模型建立方法及其系统
CN109947865A (zh) * 2018-09-05 2019-06-28 中国银联股份有限公司 商户分类方法及商户分类系统
CN109684563A (zh) * 2018-11-19 2019-04-26 银联智惠信息服务(上海)有限公司 商圈识别方法、装置以及计算机存储介质
CN112488748A (zh) * 2020-11-18 2021-03-12 银联智惠信息服务(上海)有限公司 数据标识匹配方法及装置、存储介质、计算设备
CN112488748B (zh) * 2020-11-18 2024-01-05 银联智惠信息服务(上海)有限公司 数据标识匹配方法及装置、存储介质、计算设备

Also Published As

Publication number Publication date
JP6469230B2 (ja) 2019-02-13
KR102025605B1 (ko) 2019-09-27
KR20180005153A (ko) 2018-01-15
JP2018500686A (ja) 2018-01-11
EP3242263A4 (en) 2018-05-23
WO2016107373A1 (zh) 2016-07-07
US20170372331A1 (en) 2017-12-28
EP3242263A1 (en) 2017-11-08

Similar Documents

Publication Publication Date Title
CN105590223A (zh) 商户的商圈信息的标定
Fischer et al. Spatial data analysis: models, methods and techniques
CN103678669A (zh) 一种社交网络中的社区影响力评估系统及方法
Liu et al. Multimodel uncertainty changes in simulated river flows induced by human impact parameterizations
CN104102696A (zh) 一种内容推荐方法及装置
CN108377201A (zh) 网络异常感知方法、装置、设备及计算机可读存储介质
CN110232471A (zh) 一种降水传感网节点布局优化方法及装置
CN107067282B (zh) 一种消费品返利销售营销管理系统及其使用方法
CN110413722B (zh) 地址选择方法、装置以及非瞬时性存储介质
Jensen-Butler Gravity models as planning tools: A review of theoretical and operational problems
CN108764348A (zh) 基于多个数据源的数据采集方法及系统
Schiff et al. Robust message-passing for statistical inference in sensor networks
CN109993562B (zh) 一种满意度仿真方法、装置及终端设备
Fränti et al. Averaging GPS segments competition 2019
CN116304391B (zh) 一种地图区域框选后的推荐选区生成方法及系统
CN105989509A (zh) 面向智能终端的业务推荐方法及装置
CN109936465A (zh) 一种云平台资源利用率评估方法及装置
US10726367B2 (en) Resource allocation forecasting
CN106412796A (zh) 一种推荐方法及系统
CN106959953A (zh) 一种基于统计特征的社交网络用户关系的计算方法
CN115222483A (zh) 金融产品推荐方法、装置、电子设备及存储介质
CN110969491B (zh) 一种基于网络路径的商品推送方法、系统及设备
CN107300390B (zh) 一种河网水动力模型的实时校正方法和实时校正系统
Sadahiro Perception of spatial dispersion in point distributions
CN104639649A (zh) 一种计算个人网络属性值的方法及其系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160518