CN112581062A - 基于关系挖掘的快件收发组织发现方法及相关设备 - Google Patents
基于关系挖掘的快件收发组织发现方法及相关设备 Download PDFInfo
- Publication number
- CN112581062A CN112581062A CN202011562929.5A CN202011562929A CN112581062A CN 112581062 A CN112581062 A CN 112581062A CN 202011562929 A CN202011562929 A CN 202011562929A CN 112581062 A CN112581062 A CN 112581062A
- Authority
- CN
- China
- Prior art keywords
- receiving
- relationship network
- transceiving
- address
- recipient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008520 organization Effects 0.000 title claims abstract description 242
- 238000000034 method Methods 0.000 title claims abstract description 115
- 238000005065 mining Methods 0.000 title claims abstract description 54
- 238000012545 processing Methods 0.000 claims abstract description 16
- 230000011218 segmentation Effects 0.000 claims description 48
- 230000002776 aggregation Effects 0.000 claims description 47
- 238000004220 aggregation Methods 0.000 claims description 47
- 238000010606 normalization Methods 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 12
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 20
- 238000004590 computer program Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000007689 inspection Methods 0.000 description 3
- 230000001788 irregular Effects 0.000 description 3
- 241000282994 Cervidae Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241000257303 Hymenoptera Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
- G06Q10/0831—Overseas transactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种基于关系挖掘的快件收发组织发现方法、装置、电子设备及存储介质。该方法包括:获取包括收件地址和收件人的报关单数据;根据所述收件地址之间的相似度,形成地址簇;将所述地址簇中的收件人、收件地址作为节点,将收件人之间的关系、收件地址之间的关系以及收件人和收件地址之间的关系作为边,构建图;根据所述图中的收件地址的类型,对所述图中的节点和边进行处理,获得连通子图;根据所述连通子图确定快件收发组织关系网络。该方法可以快速、准确地发现快件收发组织关系网络。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种基于关系挖掘的快件收发组织发现方法、装置、电子设备及存储介质。
背景技术
随着国际物流的发展,入境快件数量快速增长,如何对海量快件进行高效且精准的监管与查验,是海关面临的一大挑战。在海关的监管过程中,如何识别“化整为零”“蚂蚁搬家”的有组织行为,以及挖掘代购团伙组织,是一项重要的任务。
在海关快件查验的业务场景中,关系的定义与构建涉及复杂的业务场景,需要对报关单内容进行挖掘从而构建关系,相关技术中的业务场景的构建方法并不适用;而且,在网络中进行社团或组织发现的过程中,相关技术中的聚类算法复杂度较高,在实际业务中也不能有效应用。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种基于关系挖掘的快件收发组织发现方法、装置、电子设备及存储介质,该方法可以快速、准确地发现快件收发组织关系网络。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开实施例提供一种基于关系挖掘的快件收发组织发现方法,包括:获取包括收件地址和收件人的报关单数据;根据收件地址之间的相似度,形成地址簇;将地址簇中的收件人、收件地址作为节点,将收件人之间的关系、收件地址之间的关系以及收件人和收件地址之间的关系作为边,构建图;根据图中的收件地址的类型,对图中的节点和边进行处理,获得连通子图;根据连通子图确定快件收发组织关系网络。
在本公开一些示例性实施例中,上述方法还包括:对收件地址进行清洗,获得收件地址的收件地址信息;对收件地址信息进行分词,获得收件地址的分词结果;根据收件地址的收件地址信息和分词结果,确定收件地址之间的相似度。
在本公开一些示例性实施例中,对收件地址进行清洗,获得收件地址信息,包括:删除收件地址中的预设字符,并转换收件地址中的字符格式,以使收件地址中的字符格式相同;根据最大正向匹配法获得收件地址信息中的省信息;若收件地址信息中不含有省信息,则根据最大正向匹配法获得收件地址信息中的市信息,且根据市信息确定省信息;若收件地址信息中不含有市信息,则根据最大正向匹配法获得收件地址信息中的区信息,且根据省信息和区信息确定市信息;若收件地址信息中不含有区信息,则根据最大正向匹配法获得收件地址信息中的镇信息,且根据省信息、市信息和镇信息确定区信息。
在本公开一些示例性实施例中,根据收件地址的收件地址信息和分词结果,确定收件地址之间的相似度,包括:确定收件地址的收件地址信息之间的相似度;确定收件地址的分词结果中各部分之间的相似度;根据分词结果中各部分之间的相似度,确定收件地址的分词结果之间的相似度;对收件地址的收件地址信息之间的相似度和收件地址的分词结果之间的相似度加权求和,获得收件地址之间的相似度。
在本公开一些示例性实施例中,根据图中的收件地址的类型,对图中的节点和边进行处理,获得连通子图,包括:若连通子图中的收件地址为公共区域,确定与收件地址相连的目标收件人,将目标收件人中度为预设常数的目标收件人对应的节点及其相连的边删除,获得连通子图;若连通子图中的收件地址为非公共区域,确定与收件地址相连的目标收件人,若目标收件人之间不存在直接相连的边,且目标收件人之间通过收件地址对应的节点相连,则将收件地址和目标收件人之间的边删除,获得连通子图。
在本公开一些示例性实施例中,其特征在于,根据连通子图确定快件收发组织关系网络,包括:将连通子图中总节点数量大于2的连通子图确定为快件收发组织关系网络。
在本公开一些示例性实施例中,上述方法还包括:将收件人和收件地址均相同的报关单的出现次数作为收件人和收件地址之间对应的边的边权重;将预设字段相同的报关单的出现次数作为对应的收件人之间对应的边的边权重;将预设字段相同的报关单的出现次数作为对应的收件地址之间对应的边的边权重;其中,预设字段包括收件人电话、发件人、发件人城市、提运单号码、物品列表、物品价值中的至少一个。
在本公开一些示例性实施例中,上述方法还包括:根据收发组织关系网络中各节点对应的边及边权重,确定收发组织关系网络中各节点的集聚系数和平均集聚系数;若收发组织关系网络的平均集聚系数大于第一平均集聚系数阈值,收发组织关系网络的收件人数量大于第一数量,收发组织关系网络中集聚系数为集聚系数阈值的节点占比小于预设比例,收发组织关系网络的物品种类大于第二数量,收发组织关系网络的物品申报频率大于第三数量,且收发组织关系网络的平均购买次数大于第四数量,则将收发组织关系网络的风险等级确定为第一风险等级。
在本公开一些示例性实施例中,上述方法还包括:分别对收发组织关系网络的申报频率、收发组织关系网络的平均申报价值、收发组织关系网络的各物品的平均购买次数、收发组织关系网络的各收件人的物品种类进行归一化,获得申报频率的归一化结果、平均申报价值的归一化结果、平均购买次数的归一化结果和物品种类的归一化结果;将申报频率的归一化结果、平均申报价值的归一化结果、平均购买次数的归一化结果、物品种类的归一化结果及平均集聚系数加权后相加,获得收发组织关系网络的风险值;根据收发组织关系网络的风险值,对收发组织关系网络进行排序。
在本公开一些示例性实施例中,上述方法还包括:若收发组织关系网络的平均集聚系数大于第二集聚系数阈值,收发组织关系网络的边的数量大于第五数量,且收发组织关系网络的物品申报频率大于第六数量,则将收发组织关系网络的风险等级确定为第二风险等级。
在本公开一些示例性实施例中,上述方法还包括:若收发组织关系网络的边的数量大于第七数量,且收发组织关系网络的收件人对应的节点数量大于第八数量,则将收发组织关系网络的风险等级确定为第三风险等级。
在本公开一些示例性实施例中,上述方法还包括:若收发组织关系网络的风险等级确定为第一风险等级,且收发组织关系网络的物品数量大于物品数量阈值或者收发组织关系网络的物品种类数量大于物品种类数量阈值,则将收发组织关系网络中的收件地址对应的物品用途确定为商用用途;若收发组织关系网络的风险等级确定为第二风险等级,且收发组织关系网络的物品数量大于物品数量阈值或者收发组织关系网络的物品种类数量大于物品种类数量阈值并且收发组织关系网络的总价值大于或等于预设价值,则将收发组织关系网络中的收件地址对应的物品用途确定为商用用途;若收发组织关系网络的风险等级确定为第三风险等级,且收发组织关系网络的物品数量大于物品数量阈值或者收发组织关系网络的物品种类数量大于物品种类数量阈值、收发组织关系网络的总价值大于或等于预设价值并且收发组织关系网络的收件频率大于频率阈值,则将收发组织关系网络中的收件地址对应的物品用途确定为商用用途。
本公开实施例提供一种基于关系挖掘的快件收发组织发现装置,包括:数据获取模块,用于获取包括收件地址和收件人的报关单数据;地址簇形成模块,用于根据收件地址之间的相似度,形成地址簇;图构建模块,用于将地址簇中的收件人、收件地址作为节点,将收件人之间的关系、收件地址的关系以及收件人和收件地址之间的关系作为边,构建图;连通子图获得模块,用于根据图中的收件地址的类型,对图中的节点和边进行处理,获得连通子图;关系网络确定模块,用于根据连通子图确定快件收发组织关系网络。
本公开实施例提供一种电子设备,包括:至少一个处理器;存储装置,用于存储至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现如上述任一种基于关系挖掘的快件收发组织发现方法。
本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述任一种基于关系挖掘的快件收发组织发现方法。
本公开一些实施例提供的基于关系挖掘的快件收发组织发现方法,根据报关单数据中的收件地址之间的相似度形成地址簇,可以获得联系密切的地址簇;将地址簇中的收件人、收件地址作为节点,将各节点之间的关系作为边,可以构建基于报关单数据中收件人和收件地址的图,对图中的节点和边进行处理,可以获得连通子图,根据连通子图确定快件收发组织关系网络,可以快速、准确地发现快件收发组织关系网络,便于对快件高效、准确的监管与查验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本公开实施例的基于关系挖掘的快件收发组织发现方法的示例性系统架构的示意图。
图2是根据一示例性实施方式示出的一种基于关系挖掘的快件收发组织发现方法的流程图。
图3是根据一示例性实施方式示出一种连通子图的示意图。
图4是根据一示例性实施方式示出的另一种基于关系挖掘的快件收发组织发现方法的流程图。
图5是根据一示例性实施方式示出的另一种基于关系挖掘的快件收发组织发现方法的流程图。
图6是根据一示例性实施方式示出一种清洗收件地址的流程图。
图7是根据一示例性实施方式示出的另一种基于关系挖掘的快件收发组织发现方法的流程图。
图8是根据一示例性实施方式示出一种计算收件地址相似度的流程图。
图9是根据一示例性实施方式示出的另一种基于关系挖掘的快件收发组织发现方法的流程图。
图10是根据一示例性实施方式示出的一种基于关系挖掘的快件收发组织发现装置的框图。
图11根据一示例性实施方式示出的一种电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图1示出了可以应用本公开实施例的基于关系挖掘的快件收发组织发现方法的示例性系统架构的示意图。
如图1所示,该系统架构可以包括服务器101、网络102和终端设备103。网络102用以在终端设备103和服务器101之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
服务器101可以是提供各种服务的服务器,例如对用户利用终端设备103所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理,并将处理结果反馈给终端设备。
服务器101可例如获取包括收件地址和收件人的报关单数据;根据收件地址之间的相似度,形成地址簇;服务器101可例如将地址簇中的收件人、收件地址作为节点,将收件人之间的关系、收件地址之间的关系以及收件人和收件地址之间的关系作为边,构建图;服务器101可例如根据图中的收件地址的类型,对图中的节点和边进行处理,获得连通子图;服务器101可例如根据连通子图确定快件收发组织关系网络。
服务器101可例如显示快件收发组织关系网络,也可以将快件收发组织关系网络发送给终端设备103,终端设备103可以用于显示快件收发组织关系网络。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,服务器101可以是一个实体的服务器,还可以为多个服务器组成的服务器集群,还可以是云端服务器,根据实际需要,可以具有任意数目的终端设备、网络和服务器。
下面,将结合附图及实施例对本公开示例实施例中的基于关系挖掘的快件收发组织发现方法的各个步骤进行更详细的说明。
图2是根据一示例性实施方式示出的一种基于关系挖掘的快件收发组织发现方法的流程图。本公开实施例提供的方法可以由如图1所示的服务器中执行,但本公开并不限定于此。
如图2所示,本公开实施例提供的基于关系挖掘的快件收发组织发现方法可以包括以下步骤。
在步骤S201中,获取包括收件地址和收件人的报关单数据。
本公开实施例中,报关单数据可以为进口的、报关类别为B类的报关单数据,B类报关单即海关现行法规规定的限值内予以免税的物品。报关单数据可以包括报关单号、提运单号、发件人、发件人地址、收件人、收件地址、收件人电话号码、申报物品列表、申报物品总价值、申报物品单价、申报物品件数、申报物品种类、收件人证件号等,但本公开并不限定于此。
在步骤S202中,根据收件地址之间的相似度,形成地址簇。
本公开实施例中,可以根据需要预先设定相似度阈值,将收件地址之间的相似度大于相似度阈值的收件地址对应的报关单数据作为一个地址簇。可以将收件地址较近的收件地址对应的报关单数据作为一个地址簇,例如,可以将收件地址为同一小区的报关单数据作为一个地址簇。
在步骤S203中,将地址簇中的收件人、收件地址作为节点,将收件人之间的关系、收件地址之间的关系以及收件人和收件地址之间的关系作为边,构建图。
本公开实施例中,可以针对每个地址簇,提取每个地址簇中组成图的节点,依据规则生成关系边,将每个地址簇转化为图。
本公开实施例中,地址簇中的收件人可以有一个或多个,收件地址也可以有一个或多个,可以将地址簇中的收件人和收件地址作为图的节点,将两个收件人之间的关系作为这两个收件人对应的节点之间的边,将两个收件地址之间的关系作为这两个收件地址对应的节点之间的边,将收件人和收件地址之间的关系作为收件人对应的节点和收件地址对应的节点之间的边。
在步骤S204中,根据图中的收件地址的类型,对图中的节点和边进行处理,获得连通子图。
本公开实施例中,可以考虑公共区域的影响,根据图中的收件地址是否属于公共区域,对图中的节点和边进行不同的处理,获得连通子图。公共区域可以为医院、学校等,但本公开并不限定于此。
对图中的节点和边进行处理,例如,可以将图中关系较弱的节点和边删除,获得连通子图。
图3是根据一示例性实施方式示出一种连通子图的示意图。
如图3所示,该连通子图的节点包括收件人A、收件人B、收件人C、收件人D、收件人E、收件人F、收件人G、收件人H、收件地址1和收件地址2。
在示例性实施例中,若连通子图中的收件地址为公共区域,确定与收件地址相连的目标收件人,将目标收件人中度为预设常数的目标收件人对应的节点及其相连的边删除,获得连通子图。
本公开实施例中,预设常数可以设为1,度可以表示节点的边的数量。
以图3中的收件地址1为例进行说明,若收件地址1为公共区域,则与收件地址1相连的目标收件人为收件人D,可以对收件人D进行度分析,从图3中可以看出,收件人D对应的节点的度为6,即有6条与收件人D对应的节点相连的边,则保留收件人D对应的节点及其相连的边;若收件人D对应的节点的度为1,即只有一条与收件人D对应的节点相连的边,则将收件人D对应的节点及其相连的边删除。
在示例性实施例中,若连通子图中的收件地址为非公共区域,确定与收件地址相连的目标收件人,若目标收件人之间不存在直接相连的边,且目标收件人之间通过收件地址对应的节点相连,则将收件地址和目标收件人之间的边删除,获得连通子图。
以图3中的收件地址2为例进行说明,若收件地址2不是公共区域,则与收件地址2相连的目标收件人为收件人E、收件人F、收件人G、收件人H、收件人A、收件人B、收件人C。以收件人E和收件人F的关系为例进行说明,若收件人E和收件人F之间不存在直接相连的边,且收件人E和收件人F之间仅通过收件地址2对应的节点相连,则可以将收件人E和收件地址2之间的边删除,将收件人F和收件地址2之间的边删除。
在步骤S205中,根据连通子图确定快件收发组织关系网络。
在示例性实施例中,可以将连通子图中总节点数量大于2的连通子图确定为快件收发组织关系网络。
本公开实施例中,可以将连通子图中总节点数量小于或等于2的连通子图删除,将总节点数量大于2的连通子图确定为收发组织关系网络,该收发组织关系网络可以看作是一个潜在的代购团伙。
本公开实施例提供的基于关系挖掘的快件收发组织发现方法,根据报关单数据中的收件地址之间的相似度形成地址簇,可以获得联系密切的地址簇;将地址簇中的收件人、收件地址作为节点,将各节点之间的关系作为边,可以构建基于报关单数据中收件人和收件地址的图,对图中的节点和边进行处理,可以获得连通子图,根据连通子图确定快件收发组织关系网络,可以快速、准确地发现快件收发组织关系网络,便于对快件高效、准确的监管与查验。
图4是根据一示例性实施方式示出的另一种基于关系挖掘的快件收发组织发现方法的流程图。
本公开实施例中,在图2所示的基于关系挖掘的快件收发组织发现方法的基础上,图4所示的基于关系挖掘的快件收发组织发现方法还可以包括以下步骤。
在步骤S401中,对收件地址进行清洗,获得收件地址的收件地址信息。
本公开实施例中,可以对收件地址进行清洗,删除收件地址中不规范的字符,将收件地址中格式不统一的字符进行转换,删除收件地址中的邮编、手机号等,并使用最大正向匹配法依次匹配出收件地址中的省、市、区、镇信息。
在步骤S402中,对收件地址信息进行分词,获得收件地址的分词结果。
本公开实施例中,可以对清洗后的收件地址信息进行分词,可以获得省、市、区、镇、区域、道路、小区、工厂(大厦、工业园区等)、学校、其它单位、楼号及门牌号、其它信息未知等多个分词结果。
在步骤S403中,根据收件地址的收件地址信息和分词结果,确定收件地址之间的相似度。
以收件地址A和收件地址B为例进行说明,对收件地址A进行清洗,可以获得收件地址A的收件地址信息,对收件地址A的收件地址信息进行分词,可以获得收件地址A的分词结果,对收件地址B进行清洗,可以获得收件地址B的收件地址信息,对收件地址B的收件地址信息进行分词,可以获得收件地址B的分词结果。可以计算收件地址A的收件地址信息和收件地址B的收件地址信息之间的相似度,计算收件地址A的分词结果和收件地址B的分词结果之间的相似度,将收件地址之间的相似度和分词结果之间的相似度加权求和,作为收件地址A和收件地址B之间的相似度。
本公开实施例中,可以使用正则表达式从报关单数据中的物品名称中提取出物品的数量,可以对以片装为计量单位的物品数量(如片装的面膜)和单价低于10的物品的数量进行修正,例如,可以将其原有的数量除以10得到修正后的物品数量,并可以将修正后的物品数量、物品总价、物品单价通过报关单号合并到对应的形成地址簇的报关单数据中。
图5是根据一示例性实施方式示出的另一种基于关系挖掘的快件收发组织发现方法的流程图。
本公开实施例中,与图4所示的基于关系挖掘的快件收发组织发现方法不同的是,图5所示的基于关系挖掘的快件收发组织发现方法进一步提供了如何对收件地址进行清洗,获得收件地址信息,也即提供了上述步骤S401的一种实施例。
如图5所示,步骤S401可以包括以下步骤。
在步骤S4011中,删除收件地址中的预设字符,并转换收件地址中的字符格式,以使收件地址中的字符格式相同。
本公开实施例中,可以对收件地址进行数据清洗,去除收件地址中不规范的字符,不规范的字符例如可以为“/、空格”等,可以将中英文下的字符进行统一,可以将中文下的字符转换为英文下的字符,例如将中文下的‘()’转换为英文下的‘()’,可以对大小写字母进行统一,将大写字母转换为小写字母,或将小写字母转换为大写字母,可以删除收件地址中的邮编、手机号码等。
在步骤S4012中,根据最大正向匹配法获得收件地址信息中的省信息。
图6是根据一示例性实施方式示出一种清洗收件地址的流程图。
本公开实施例中,参考图6,可以根据最大正向匹配法匹配获得收件地址信息中的省信息,若收件地址中含有省信息,或者,若收件地址中不含有省信息,则根据最大正向匹配法匹配获得收件地址信息中的市信息。
在步骤S4013中,若收件地址信息中不含有省信息,则根据最大正向匹配法获得收件地址信息中的市信息,且根据市信息确定省信息。
本公开实施例中,参考图6,若收件地址中不含有省信息,则根据最大正向匹配法匹配获得收件地址信息中的市信息,并根据获得的市信息确定省信息并补充省信息。例如,获得的收件地址信息中的市信息为石家庄市,则可以确定省信息应为河北省,将省信息补入收件地址信息中。
本公开实施例中,参考图6,若收件地址中含有省信息且含有市信息,则继续根据最大正向匹配法匹配获得收件地址中的市信息。
在步骤S4014中,若收件地址信息中不含有市信息,则根据最大正向匹配法获得收件地址信息中的区信息,且根据省信息和区信息确定市信息。
本公开实施例中,参考图6,若收件地址中不含有市信息,则根据最大正向匹配法匹配获得收件地址信息中的区信息,并根据获得的区信息确定市信息并补充市信息。例如,获得的收件地址信息中的区信息为鹿泉区,则可以确定市信息应为石家庄市,将市信息补入收件地址信息中。
本公开实施例中,参考图6,若收件地址中含有省信息但不含有市信息,则可以根据最大正向匹配法获得收件地址信息中的区信息,并根据省信息和区信息确定市信息。
本公开实施例中,参考图6,若收件地址中含有省信息、含有市信息且含有区信息,则继续根据最大正向匹配法匹配获得收件地址中的镇信息。
在步骤S4015中,若收件地址信息中不含有区信息,则根据最大正向匹配法获得收件地址信息中的镇信息,且根据省信息、市信息和镇信息确定区信息。
本公开实施例中,参考图6,若收件地址中不含有区信息,则根据最大正向匹配法匹配获得收件地址信息中的镇信息,并根据获得的镇信息确定区信息并补充区信息。例如,获得的收件地址信息中的镇信息为寺家庄镇,则可以确定区信息应为鹿泉区,将区信息补入收件地址信息中。
本公开实施例中,参考图6,若收件地址中含有省信息、市信息但不含有区信息,则可以根据最大正向匹配法获得收件地址信息中的镇信息,并根据省信息、市信息和镇信息确定市信息。本公开实施例中,在对收件地址进行清洗后,可以获得收件地址信息,收件地址信息可以包括省信息、市信息、区信息、镇信息和剩余地址信息。
本公开实施例中,通过匹配下一级的收件地址信息确定并补充上一级的收件地址信息,可以获得完整、准确的收件地址信息。
图7是根据一示例性实施方式示出的另一种基于关系挖掘的快件收发组织发现方法的流程图。
本公开实施例中,与图4所示的基于关系挖掘的快件收发组织发现方法不同的是,图7所示的基于关系挖掘的快件收发组织发现方法进一步提供了如何根据收件地址的收件地址信息和分词结果,确定收件地址之间的相似度,也即提供了上述步骤S403的一种实施例。
如图7所示,步骤S403可以包括以下步骤。
在步骤S4031中,确定收件地址的收件地址信息之间的相似度。
图8是根据一示例性实施方式示出一种计算收件地址相似度的流程图。
本公开实施例中,参考图8,以计算收件地址A和收件地址B的相似度为例进行说明,在获得收件地址A的收件地址信息和收件地址B的收件地址信息后,可以根据Jaro-Winkler(杰罗·温克勒)距离算法计算收件地址A的收件地址信息和收件地址B的收件地址信息之间的相似度。
需要说明的是,本公开实施例中,也可以根据其他相似度计算方法计算收件地址的相似度,本公开对此不做限定。
在步骤S4032中,确定收件地址的分词结果中各部分之间的相似度。
本公开实施例中,参考图8,仍以计算收件地址A和收件地址B的相似度为例进行说明,在获得收件地址A的分词结果和收件地址B的分词结果后,可以根据Jaro-Winkler距离算法分别计算收件地址A的分词结果中各部分和收件地址B的分词结果中各部分之间的相似度。
在步骤S4033中,根据分词结果中各部分之间的相似度,确定收件地址的分词结果之间的相似度。
本公开实施例中,参考图8,可以对分词结果中各部分之间的相似度进行加权求和,获得收件地址的分词结果之间的相似度。
在步骤S4034中,对收件地址的收件地址信息之间的相似度和收件地址的分词结果之间的相似度加权求和,获得收件地址之间的相似度。
本公开实施例中,可以根据以下公式确定收件地址之间的相似度:
其中similarity表示收件地址之间的相似度,similarityall表示收件地址的收件地址信息之间的相似度,α表示小于1的权重调和系数,similaritypart_i表示分词结果中第i部分的字符串的相似度,i为大于或等于1的整数,表示对分词结果中各部分的权重系数。
本公开实施例中,在确定收件地址之间的相似度之后,可以将相似的收件地址进行替换,例如,“3楼4层210室”和“3楼4210”实际上是一个收件地址,可以根据收件地址之间的相似度,将相似的收件地址进行替换,可以将“3楼4210”替换为“3楼4层210室”,使相似的收件地址统一为相同的收件地址。
本公开实施例中,可以根据以下情况对收件地址进行处理:
(1)若两个收件地址中的所有字符相同,则返回相似度结果为1。
(2)若两个收件地址之间的相似度大于0.9,且两个收件地址的字符串的末尾三个字符相同时,则对两个收件地址的最后三个字符进行判断,若两个收件地址的最后三个字符不存在字母和数字时,则返回相似度结果为1;若两个收件地址的最后三个字符存在字母或数字时,对两个收件地址的楼号、门牌号进行数字提取,如3楼4层210室,提取的结果为34210,若两个收件地址提取出的结果相同,则返回相似度结果为1。
(3)若两个收件地址以分词结果中的学校或工厂为结尾,且两个收件地址中的学校的分词结果或工厂的分词结果相同不为空且两个收件地址的相似度大于0.8,则返回相似度结果为1。
(4)若相似度结果大于等于0.9,说明两个地址十分接近,判断两个地址中的楼号门牌号是否相同。在利用正则匹配提取地址中的楼号门牌号时,首先要正则匹配出道路和路号,将道路和路号删除,排除地址中路号的影响。若提取出的结果都不为null(空)且相同,返回相似度为1;若结果都不为null且不相同,返回相似度为0;否则返回算法计算出的相似度值。
(5)若收件地址在前面四种情况下无法匹配,则返回根据上述方法计算出的相似度。
通过以上方法对收件地址进行处理后,可以将相似度的阈值设置为0.97,若相似度大于等于0.97时,将两个收件地址统一为相同的收件地址。
图9是根据一示例性实施方式示出的另一种基于关系挖掘的快件收发组织发现方法的流程图。
本公开实施例中,在图2所示的基于关系挖掘的快件收发组织发现方法的基础上,图9所示的基于关系挖掘的快件收发组织发现方法还可以包括以下步骤。
在步骤S901中,将收件人和收件地址均相同的报关单的出现次数作为收件人和收件地址之间对应的边的边权重。
本公开实施例中,图中可以有两类节点:收件人、收件地址。图中可以包括三大类关系:收件人和收件地址、收件人和收件人、收件地址和收件地址。
本公开实施例中,对收件人和收件地址之间对应的边的边权重可以根据报关单中该收件人和该收件地址同时出现的报关单的数量确定。
在步骤S902中,将预设字段相同的报关单的出现次数作为对应的收件人之间对应的边的边权重。
其中,预设字段包括收件人电话、发件人、发件人城市、提运单号码、物品列表、物品价值中的至少一个。
本公开实施例中,可以将报关单数据中以下字段相同的报关单的数量作为收件人之间对应的边的边权重:
(1)[收件人电话]
(2)[发件人,发件人城市,提运单号码]
(3)[发件人,发件人城市,提运单号码,价值]
(4)[发件人,发件人城市,货物列表]
(5)[发件人,发件人城市,货物列表,价值]
在步骤S903中,将预设字段相同的报关单的出现次数作为对应的收件地址之间对应的边的边权重。
本公开实施例中,收件地址之间对应的边的边权重的确定方法和收件人之间对应的边的边权重的确定方法类似,在此不再赘述。
在示例性实施例中,基于关系挖掘的快件收发组织发现方法还可以包括:根据收发组织关系网络中各节点对应的边及边权重,确定收发组织关系网络中各节点的集聚系数和平均集聚系数。
本公开实施例中,集聚系数可以用来描述一个图中的节点之间结集成团的程度的系数,具体为一个节点的邻接节点间相互连接的程度。集聚系数为0可以表示节点的邻接节点间连接的程度较低,节点间连接稀疏。平均集聚系数可以为图中所有节点的集聚系数的均值。
在示例性实施例中,基于关系挖掘的快件收发组织发现方法还可以包括:若收发组织关系网络的平均集聚系数大于第一平均集聚系数阈值,收发组织关系网络的收件人数量大于第一数量,收发组织关系网络中集聚系数为集聚系数阈值的节点占比小于预设比例,收发组织关系网络的物品种类大于第二数量,收发组织关系网络的物品申报频率大于第三数量,且收发组织关系网络的平均购买次数大于第四数量,则将收发组织关系网络的风险等级确定为第一风险等级。
其中,第一风险等级可以为高风险等级。第一平均集聚系数阈值可以根据需要设置,例如可以设置为0.05;第一数量可以根据需要设置,例如可以设置为4;预设比例可以根据需要设置,例如可以设置为1/3;第二数量可以根据需要设置,例如可以设置为3;第三数量可以根据需要设置,例如可以设置为1;第四数量可以根据需要设置,例如可以设置为1。
本公开实施例中,在高风险等级中,收件人之间密集程度较高,且收发知足关系网络整体的申报频率和平均每次的申报价值较高。在高风险等级下,收发知足关系网络中至少存在4个不同的收件人节点,网络的平均集聚系数大于0.05,并且网络中节点集聚系数为0的数量少于网络所有节点数量的1/3(使得网络更加密集),网络中商品的种类至少为3,商品申报频率大于等于1,且网络中的不同商品的平均购买次数大于1。
在示例性实施例中,基于关系挖掘的快件收发组织发现方法还可以包括:分别对收发组织关系网络的申报频率、收发组织关系网络的平均申报价值、收发组织关系网络的各物品的平均购买次数、收发组织关系网络的各收件人的物品种类进行归一化,获得申报频率的归一化结果、平均申报价值的归一化结果、平均购买次数的归一化结果和物品种类的归一化结果;将申报频率的归一化结果、平均申报价值的归一化结果、平均购买次数的归一化结果、物品种类的归一化结果及平均集聚系数加权后相加,获得收发组织关系网络的风险值;根据收发组织关系网络的风险值,对收发组织关系网络进行排序。
本公开实施例中,在确定快件收发组织关系网络的风险等级之后,可以对该风险等级之下的快件收发组织关系网络进行内部排序。
以高风险等级的快件收发组织关系网络为例,可以根据网络的平均集聚系数、网络的申报频率、网络的平均申报价值、网络中每个商品的平均购买次数和平均每个收件人购买商品的种类确定风险值。可以将平均集聚系数的权重设置为0.05,将申报频率的权重设置为0.3,平均申报价值的权重设设置为0.25,每个商品的平均购买次数的权重设设置为0.15,平均每个收件人购买商品的种类设设置为0.25,可以对平均集聚系数的权重、申报频率、平均申报价值、平均购买次数和购买商品的种类进行归一化处理,对这些值根据上述权重加权再相加,从而获得快件收发组织关系网络的风险值。可以根据快件收发组织关系网络的风险值,对快件收发组织关系网络进行排序。
在示例性实施例中,基于关系挖掘的快件收发组织发现方法还可以包括:若收发组织关系网络的平均集聚系数大于第二集聚系数阈值,收发组织关系网络的边的数量大于第五数量,且收发组织关系网络的物品申报频率大于第六数量,则将收发组织关系网络的风险等级确定为第二风险等级。
其中,第二风险等级可以为中风险等级。第二平均集聚系数阈值可以根据需要设置,例如可以设置为0;第五数量可以根据需要设置,例如可以设置为4;第六数量可以根据需要设置,例如可以设置为0.51。
本公开实施例中,在中风险等级下,网络的平均集聚系数大于0,可以表示部分节点间的连接密度高;网络中的收件人节点至少为2,网络中相连的边数至少为4,且网络整体的商品申报频率大于等于0.5。
在示例性实施例中,基于关系挖掘的快件收发组织发现方法还可以包括:若收发组织关系网络的边的数量大于第七数量,且收发组织关系网络的收件人对应的节点数量大于第八数量,则将收发组织关系网络的风险等级确定为第三风险等级。
其中,第三风险等级可以为低风险等级。第七数量可以根据需要设置,例如可以设置为3;第八数量可以根据需要设置,例如可以设置为2。
本公开实施例中,在低风险下,网络的密集度较低,不容易形成一个小网络,网络中的收件人节点至少为2,且网络至少存在3条相连的边。
上述三种风险等级、三种风险等级对应的等级描述、风险处理和风险判断可以如表一所示。
表一
本公开实施例中,可以对每个收发组织关系网络进行分析,判断首发组织关系网络中的收件地址对应的物品用途,物品用途可以包括商用用途和自用用途。
在示例性实施例中,基于关系挖掘的快件收发组织发现方法还可以包括:若收发组织关系网络的风险等级确定为第一风险等级,且收发组织关系网络的物品数量大于物品数量阈值或者收发组织关系网络的物品种类数量大于物品种类数量阈值,则将收发组织关系网络中的收件地址对应的物品用途确定为商用用途。
其中,物品数量阈值可以根据需要设置,例如可以设置为6;物品种类数量阈值可以根据需要设置,例如可以设置为10。
本公开实施例中,若收发组织关系网络的等级划分为高风险,且该网络中的某一商品数量大于6或者商品种类数量大于10,则可以判断该收发组织关系中的收件地址对应的物品用途为商用用途,否则为自用用途。
在示例性实施例中,基于关系挖掘的快件收发组织发现方法还可以包括:若收发组织关系网络的风险等级确定为第二风险等级,且收发组织关系网络的物品数量大于物品数量阈值或者收发组织关系网络的物品种类数量大于物品种类数量阈值并且收发组织关系网络的总价值大于或等于预设价值,则将收发组织关系网络中的收件地址对应的物品用途确定为商用用途。
其中,预设价值可以根据需要设置,例如可以设置为1000。
本公开实施例中,若收发组织关系网络的等级划分为中风险,且该网络中的某一商品数量大于6或者商品种类数量大于10,并且该网络中商品的总价值大于或等于1000,则判断该地址下的商品为商用用途,否则为自用用途。
在示例性实施例中,基于关系挖掘的快件收发组织发现方法还可以包括:若收发组织关系网络的风险等级确定为第三风险等级,且收发组织关系网络的物品数量大于物品数量阈值或者收发组织关系网络的物品种类数量大于物品种类数量阈值、收发组织关系网络的总价值大于或等于预设价值并且收发组织关系网络的收件频率大于频率阈值,则将收发组织关系网络中的收件地址对应的物品用途确定为商用用途。
其中,频率阈值可以根据需要设置,例如可以设置为1。
本公开实施例中,若收发组织关系网络的等级划分为低风险,且该网络中的某一商品数量大于6或者商品种类数量大于10,并且该网络中商品的总价值大于或等于1000,且该收发组织关系网络的收件频率大于1,则判断该地址下的商品为商用用途,否则为自用用途。
本公开实施例提供的基于关系挖掘的快件收发组织发现方法,可以确定收发组织关系网络的风险等级,在对待通关的包裹进行查验时,可以重点查验风险等级较高的收发组织关系网络对应的收件人和收件地址申报的包裹,提高检验效率。
需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图10是根据一示例性实施方式示出的一种基于关系挖掘的快件收发组织发现装置的框图。
如图10所示,基于关系挖掘的快件收发组织发现装置1000可以包括:数据获取模块1001、地址簇形成模块1002、图构建模块1003、连通子图获得模块1004及关系网络确定模块1005。
其中,数据获取模块1001可以用于获取包括收件地址和收件人的报关单数据;地址簇形成模块1002可以用于根据收件地址之间的相似度,形成地址簇;图构建模块1003可以用于将地址簇中的收件人、收件地址作为节点,将收件人之间的关系、收件地址的关系以及收件人和收件地址之间的关系作为边,构建图;连通子图获得模块1004可以用于根据图中的收件地址的类型,对图中的节点和边进行处理,获得连通子图;关系网络确定模块1005可以用于根据连通子图确定快件收发组织关系网络。
在示例性实施例中,基于关系挖掘的快件收发组织发现装置1000还可以包括:地址清洗模块,可以用于对收件地址进行清洗,获得收件地址的收件地址信息;分词结果获得模块,可以用于对收件地址信息进行分词,获得收件地址的分词结果;相似度确定模块,可以用于根据收件地址的收件地址信息和分词结果,确定收件地址之间的相似度。
在示例性实施例中,地址清洗模块可以包括:字符转换单元,可以用删除收件地址中的预设字符,并转换收件地址中的字符格式,以使收件地址中的字符格式相同;省信息获得模块,可以用于根据最大正向匹配法获得收件地址信息中的省信息;市信息获得模块,可以用于若收件地址信息中不含有省信息,则根据最大正向匹配法获得收件地址信息中的市信息,且根据市信息确定省信息;区信息获得模块,可以用于若收件地址信息中不含有市信息,则根据最大正向匹配法获得收件地址信息中的区信息,且根据省信息和区信息确定市信息;区信息获得模块,可以用于若收件地址信息中不含有区信息,则根据最大正向匹配法获得收件地址信息中的镇信息,且根据省信息、市信息和镇信息确定区信息。
在示例性实施例中,相似度确定模块可以包括:第一相似度确定单元,可以用于确定收件地址的收件地址信息之间的相似度;第二相似度确定单元,可以用于确定收件地址的分词结果中各部分之间的相似度;第三相似度确定单元,可以用于根据分词结果中各部分之间的相似度,确定收件地址的分词结果之间的相似度;相似度获得单元,可以用于对收件地址的收件地址信息之间的相似度和收件地址的分词结果之间的相似度加权求和,获得收件地址之间的相似度。
在示例性实施例中,连通子图获得模块1004可以包括:第一连通子图获得单元,可以用于若连通子图中的收件地址为公共区域,确定与收件地址相连的目标收件人,将目标收件人中度为预设常数的目标收件人对应的节点及其相连的边删除,获得连通子图;第二连通子图获得单元,可以用于若连通子图中的收件地址为非公共区域,确定与收件地址相连的目标收件人,若目标收件人之间不存在直接相连的边,且目标收件人之间通过收件地址对应的节点相连,则将收件地址和目标收件人之间的边删除,获得连通子图。
在示例性实施例中,关系网络确定模块可以包括:关系网络确定单元,可以用于将连通子图中总节点数量大于2的连通子图确定为快件收发组织关系网络。
在示例性实施例中,基于关系挖掘的快件收发组织发现装置1000还可以包括:第一边权重确定模块,可以用于将收件人和收件地址均相同的报关单的出现次数作为收件人和收件地址之间对应的边的边权重;第二边权重确定模块,可以用于将预设字段相同的报关单的出现次数作为对应的收件人之间对应的边的边权重;第三边权重确定模块,可以用于将预设字段相同的报关单的出现次数作为对应的收件地址之间对应的边的边权重;其中,预设字段包括收件人电话、发件人、发件人城市、提运单号码、物品列表、物品价值中的至少一个。
在示例性实施例中,基于关系挖掘的快件收发组织发现装置1000还可以包括:集聚系数确定模块,可以用于根据收发组织关系网络中各节点对应的边及边权重,确定收发组织关系网络中各节点的集聚系数和平均集聚系数;第一风险等级确定模块,可以用于若收发组织关系网络的平均集聚系数大于第一聚集系数阈值,收发组织关系网络的收件人数量大于第一数量,收发组织关系网络中集聚系数为集聚系数阈值的节点占比小于预设比例,收发组织关系网络的物品种类大于第二数量,收发组织关系网络的物品申报频率大于第三数量,且收发组织关系网络的平均购买次数大于第四数量,则将收发组织关系网络的风险等级确定为第一风险等级。
在示例性实施例中,基于关系挖掘的快件收发组织发现装置1000还可以包括:归一化模块,可以用于分别对收发组织关系网络的申报频率、收发组织关系网络的平均申报价值、收发组织关系网络的各物品的平均购买次数、收发组织关系网络的各收件人的物品种类进行归一化,获得申报频率的归一化结果、平均申报价值的归一化结果、平均购买次数的归一化结果和物品种类的归一化结果;风险值获得模块,可以用于将申报频率的归一化结果、平均申报价值的归一化结果、平均购买次数的归一化结果、物品种类的归一化结果及平均集聚系数加权后相加,获得收发组织关系网络的风险值;排序模块,可以用于根据收发组织关系网络的风险值,对收发组织关系网络进行排序。
在示例性实施例中,基于关系挖掘的快件收发组织发现装置1000还可以包括:第二风险等级确定模块,可以用于若收发组织关系网络的平均集聚系数小于或等于第一聚集系数阈值且大于集聚系数阈值,收发组织关系网络的边的数量大于第五数量,且收发组织关系网络的物品申报频率大于第六数量,则将收发组织关系网络的风险等级确定为第二风险等级。
在示例性实施例中,基于关系挖掘的快件收发组织发现装置1000还可以包括:第三风险等级确定模块,可以用于若收发组织关系网络的边的数量大于第七数量,且收发组织关系网络的收件人对应的节点数量大于第八数量,则将收发组织关系网络的风险等级确定为第三风险等级。
在示例性实施例中,基于关系挖掘的快件收发组织发现装置1000还可以包括:第一用途确定模块,可以用于若收发组织关系网络的风险等级确定为高风险,且收发组织关系网络的物品数量大于物品数量阈值或者收发组织关系网络的物品种类数量大于物品种类数量阈值,则将收发组织关系网络中的收件地址对应的物品用途确定为商用用途;第二用途确定模块,可以用于若收发组织关系网络的风险等级确定为中风险,且收发组织关系网络的物品数量大于物品数量阈值或者收发组织关系网络的物品种类数量大于物品种类数量阈值并且收发组织关系网络的总价值大于或等于预设价值,则将收发组织关系网络中的收件地址对应的物品用途确定为商用用途;第三用途确定模块,可以用于若收发组织关系网络的风险等级确定为低风险,且收发组织关系网络的物品数量大于物品数量阈值或者收发组织关系网络的物品种类数量大于物品种类数量阈值、收发组织关系网络的总价值大于或等于预设价值并且收发组织关系网络的收件频率大于频率阈值,则将收发组织关系网络中的收件地址对应的物品用途确定为商用用途。
需要注意的是,上述附图中所示的框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图11是根据一示例性实施方式示出的一种电子设备的结构示意图。需要说明的是,图11示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图11所示,电子设备1100包括中央处理单元(CPU)1101,其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。在RAM 1103中,还存储有系统1100操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
以下部件连接至I/O接口1105:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,发送单元还可以被描述为“向所连接的服务端发送图片获取请求的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取包括收件地址和收件人的报关单数据;根据所述收件地址之间的相似度,形成地址簇;将所述地址簇中的收件人、收件地址作为节点,将收件人之间的关系、收件地址之间的关系以及收件人和收件地址之间的关系作为边,构建图;根据所述图中的收件地址的类型,对所述图中的节点和边进行处理,获得连通子图;根据所述连通子图确定快件收发组织关系网络以上具体地示出和描述了本发明的示例性实施方式。
应可理解的是,本发明不限于这里描述的详细结构、设置方式或实现方法;相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
Claims (15)
1.一种基于关系挖掘的快件收发组织发现方法,其特征在于,包括:
获取包括收件地址和收件人的报关单数据;
根据所述收件地址之间的相似度,形成地址簇;
将所述地址簇中的收件人、收件地址作为节点,将收件人之间的关系、收件地址之间的关系以及收件人和收件地址之间的关系作为边,构建图;
根据所述图中的收件地址的类型,对所述图中的节点和边进行处理,获得连通子图;
根据所述连通子图确定快件收发组织关系网络。
2.根据权利要求1所述的方法,其特征在于,还包括:
对所述收件地址进行清洗,获得所述收件地址的收件地址信息;
对所述收件地址信息进行分词,获得所述收件地址的分词结果;
根据所述收件地址的收件地址信息和分词结果,确定所述收件地址之间的相似度。
3.根据权利要求2所述的方法,其特征在于,对所述收件地址进行清洗,获得收件地址信息,包括:
删除所述收件地址中的预设字符,并转换所述收件地址中的字符格式,以使所述收件地址中的字符格式相同;
根据最大正向匹配法获得所述收件地址信息中的省信息;
若所述收件地址信息中不含有省信息,则根据最大正向匹配法获得所述收件地址信息中的市信息,且根据所述市信息确定所述省信息;
若所述收件地址信息中不含有市信息,则根据最大正向匹配法获得所述收件地址信息中的区信息,且根据所述省信息和所述区信息确定所述市信息;
若所述收件地址信息中不含有区信息,则根据最大正向匹配法获得所述收件地址信息中的镇信息,且根据所述省信息、所述市信息和所述镇信息确定所述区信息。
4.根据权利要求2所述的方法,其特征在于,根据所述收件地址的收件地址信息和分词结果,确定所述收件地址之间的相似度,包括:
确定所述收件地址的收件地址信息之间的相似度;
确定所述收件地址的分词结果中各部分之间的相似度;
根据所述分词结果中各部分之间的相似度,确定所述收件地址的分词结果之间的相似度;
对所述收件地址的收件地址信息之间的相似度和所述收件地址的分词结果之间的相似度加权求和,获得所述收件地址之间的相似度。
5.根据权利要求1所述的方法,其特征在于,根据所述图中的收件地址的类型,对所述图中的节点和边进行处理,获得连通子图,包括:
若所述连通子图中的收件地址为公共区域,确定与所述收件地址相连的目标收件人,将所述目标收件人中度为预设常数的目标收件人对应的节点及其相连的边删除,获得所述连通子图;
若所述连通子图中的收件地址为非公共区域,确定与所述收件地址相连的目标收件人,若所述目标收件人之间不存在直接相连的边,且所述目标收件人之间通过所述收件地址对应的节点相连,则将所述收件地址和所述目标收件人之间的边删除,获得所述连通子图。
6.根据权利要求5所述的方法,其特征在于,根据所述连通子图确定快件收发组织关系网络,包括:
将所述连通子图中总节点数量大于2的连通子图确定为所述快件收发组织关系网络。
7.根据权利要求1所述的方法,其特征在于,还包括:
将收件人和收件地址均相同的报关单的出现次数作为所述收件人和所述收件地址之间对应的边的边权重;
将预设字段相同的报关单的出现次数作为对应的收件人之间对应的边的边权重;
将预设字段相同的报关单的出现次数作为对应的收件地址之间对应的边的边权重;
其中,所述预设字段包括收件人电话、发件人、发件人城市、提运单号码、物品列表、物品价值中的至少一个。
8.根据权利要求7所述的方法,其特征在于,还包括:
根据所述收发组织关系网络中各节点对应的边及边权重,确定所述收发组织关系网络中各节点的集聚系数和平均集聚系数;
若所述收发组织关系网络的平均集聚系数大于第一平均集聚系数阈值,所述收发组织关系网络的收件人数量大于第一数量,所述收发组织关系网络中集聚系数为集聚系数阈值的节点占比小于预设比例,所述收发组织关系网络的物品种类大于第二数量,所述收发组织关系网络的物品申报频率大于第三数量,且所述收发组织关系网络的平均购买次数大于第四数量,则将所述收发组织关系网络的风险等级确定为第一风险等级。
9.根据权利要求8所述的方法,其特征在于,还包括:
分别对所述收发组织关系网络的申报频率、所述收发组织关系网络的平均申报价值、所述收发组织关系网络的各物品的平均购买次数、所述收发组织关系网络的各收件人的物品种类进行归一化,获得所述申报频率的归一化结果、所述平均申报价值的归一化结果、所述平均购买次数的归一化结果和所述物品种类的归一化结果;
将所述申报频率的归一化结果、所述平均申报价值的归一化结果、所述平均购买次数的归一化结果、所述物品种类的归一化结果及所述平均集聚系数加权后相加,获得所述收发组织关系网络的风险值;
根据所述收发组织关系网络的风险值,对所述收发组织关系网络进行排序。
10.根据权利要求8所述的方法,其特征在于,还包括:
若所述收发组织关系网络的平均集聚系数大于第二集聚系数阈值,所述收发组织关系网络的边的数量大于第五数量,且所述收发组织关系网络的物品申报频率大于第六数量,则将所述收发组织关系网络的风险等级确定为第二风险等级。
11.根据权利要求9所述的方法,其特征在于,还包括:
若所述收发组织关系网络的边的数量大于第七数量,且所述收发组织关系网络的收件人对应的节点数量大于第八数量,则将所述收发组织关系网络的风险等级确定为第三风险等级。
12.根据权利要求1所述的方法,其特征在于,还包括:
若所述收发组织关系网络的风险等级确定为第一风险等级,且所述收发组织关系网络的物品数量大于物品数量阈值或者所述收发组织关系网络的物品种类数量大于物品种类数量阈值,则将所述收发组织关系网络中的收件地址对应的物品用途确定为商用用途;
若所述收发组织关系网络的风险等级确定为第二风险等级,且所述收发组织关系网络的物品数量大于所述物品数量阈值或者所述收发组织关系网络的物品种类数量大于所述物品种类数量阈值并且所述收发组织关系网络的总价值大于或等于预设价值,则将所述收发组织关系网络中的收件地址对应的物品用途确定为商用用途;
若所述收发组织关系网络的风险等级确定为第三风险等级,且所述收发组织关系网络的物品数量大于所述物品数量阈值或者所述收发组织关系网络的物品种类数量大于所述物品种类数量阈值、所述收发组织关系网络的总价值大于或等于预设价值并且所述收发组织关系网络的收件频率大于频率阈值,则将所述收发组织关系网络中的收件地址对应的物品用途确定为商用用途。
13.一种基于关系挖掘的快件收发组织发现装置,其特征在于,包括:
数据获取模块,用于获取包括收件地址和收件人的报关单数据;
地址簇形成模块,用于根据所述收件地址之间的相似度,形成地址簇;
图构建模块,用于将所述地址簇中的收件人、收件地址作为节点,将收件人之间的关系、收件地址的关系以及收件人和收件地址之间的关系作为边,构建图;
连通子图获得模块,用于根据所述图中的收件地址的类型,对所述图中的节点和边进行处理,获得连通子图;
关系网络确定模块,用于根据所述连通子图确定快件收发组织关系网络。
14.一种电子设备,其特征在于,包括:
至少一个处理器;
存储装置,用于存储至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现如权利要求1至13中任一项所述的方法。
15.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,所述可执行指令被处理器执行时实现如权利要求1至13任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011562929.5A CN112581062A (zh) | 2020-12-25 | 2020-12-25 | 基于关系挖掘的快件收发组织发现方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011562929.5A CN112581062A (zh) | 2020-12-25 | 2020-12-25 | 基于关系挖掘的快件收发组织发现方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112581062A true CN112581062A (zh) | 2021-03-30 |
Family
ID=75140566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011562929.5A Pending CN112581062A (zh) | 2020-12-25 | 2020-12-25 | 基于关系挖掘的快件收发组织发现方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112581062A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130036668A (ko) * | 2011-10-04 | 2013-04-12 | 주식회사 퍼플프렌즈 | 국내외 온라인 쇼핑몰 주문상품 간편배송대행 시스템 및 간편배송 대행 방법 |
CN107194767A (zh) * | 2017-05-17 | 2017-09-22 | 深圳前海跨海侠跨境电子商务有限公司 | 一种用于代购平台的风险提示方法及系统 |
CN110288286A (zh) * | 2019-05-21 | 2019-09-27 | 深圳壹账通智能科技有限公司 | 基于身份验证的物品入库方法、装置、设备及存储介质 |
WO2020147488A1 (zh) * | 2019-01-17 | 2020-07-23 | 阿里巴巴集团控股有限公司 | 异常群体识别方法及装置 |
-
2020
- 2020-12-25 CN CN202011562929.5A patent/CN112581062A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130036668A (ko) * | 2011-10-04 | 2013-04-12 | 주식회사 퍼플프렌즈 | 국내외 온라인 쇼핑몰 주문상품 간편배송대행 시스템 및 간편배송 대행 방법 |
CN107194767A (zh) * | 2017-05-17 | 2017-09-22 | 深圳前海跨海侠跨境电子商务有限公司 | 一种用于代购平台的风险提示方法及系统 |
WO2020147488A1 (zh) * | 2019-01-17 | 2020-07-23 | 阿里巴巴集团控股有限公司 | 异常群体识别方法及装置 |
CN110288286A (zh) * | 2019-05-21 | 2019-09-27 | 深圳壹账通智能科技有限公司 | 基于身份验证的物品入库方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108182253B (zh) | 用于生成信息的方法和装置 | |
US20150161545A1 (en) | Visualization of spare parts inventory | |
CN110689395B (zh) | 用于推送信息的方法和装置 | |
CN110555172A (zh) | 用户关系挖掘方法及装置、电子设备和存储介质 | |
CN113628005A (zh) | 基于电商会话大数据的推送更新方法及大数据ai系统 | |
CN113722617A (zh) | 企业实际办公地址的识别方法、装置及电子设备 | |
CN116029637A (zh) | 跨境电商物流渠道智能推荐方法及装置、设备、存储介质 | |
CN110619400A (zh) | 用于生成订单信息的方法和装置 | |
CN111967808A (zh) | 确定物流对象收货方式的方法、装置、电子设备及存储介质 | |
CN110992215A (zh) | 基于语义分析的旅游服务推荐系统、数据库和推荐方法 | |
CN110807159B (zh) | 数据标记方法、装置、存储介质及电子设备 | |
CN113554438A (zh) | 账号的识别方法、装置、电子设备及计算机可读介质 | |
CN112581062A (zh) | 基于关系挖掘的快件收发组织发现方法及相关设备 | |
CN111915256A (zh) | 构建派件围栏的方法、异地签收识别方法及相关设备 | |
CN111724089A (zh) | 一种订单收派分配方法、系统、终端及存储介质 | |
CN113077292B (zh) | 一种用户分类方法、装置、存储介质及电子设备 | |
CN112925774B (zh) | 地址数据的清洗方法及装置、存储介质、计算机设备 | |
CN112100165B (zh) | 基于质量评估的交通数据处理方法、系统、设备和介质 | |
CN113822301B (zh) | 分拣中心的分类方法及装置、存储介质、电子设备 | |
CN110766431A (zh) | 判断用户对优惠券是否敏感的方法和装置 | |
CN115147195A (zh) | 一种招标采购风险监控方法、装置、设备及介质 | |
CN114202418A (zh) | 信息处理方法、装置、设备及介质 | |
CN113869904A (zh) | 可疑数据识别方法、装置、电子设备、介质和计算机程序 | |
CN114282121A (zh) | 业务节点推荐方法、系统、设备及存储介质 | |
CN114706899A (zh) | 快递数据的敏感度计算方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |