CN111832998A - 一种判断寄递电话号码真实使用者的方法及装置 - Google Patents

一种判断寄递电话号码真实使用者的方法及装置 Download PDF

Info

Publication number
CN111832998A
CN111832998A CN202010707689.7A CN202010707689A CN111832998A CN 111832998 A CN111832998 A CN 111832998A CN 202010707689 A CN202010707689 A CN 202010707689A CN 111832998 A CN111832998 A CN 111832998A
Authority
CN
China
Prior art keywords
data
data table
information
telephone number
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010707689.7A
Other languages
English (en)
Other versions
CN111832998B (zh
Inventor
张鹏飞
喻波
王志海
安鹏
王志华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wondersoft Technology Co Ltd
Original Assignee
Beijing Wondersoft Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wondersoft Technology Co Ltd filed Critical Beijing Wondersoft Technology Co Ltd
Priority to CN202010707689.7A priority Critical patent/CN111832998B/zh
Publication of CN111832998A publication Critical patent/CN111832998A/zh
Application granted granted Critical
Publication of CN111832998B publication Critical patent/CN111832998B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Analysis (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Probability & Statistics with Applications (AREA)
  • Strategic Management (AREA)
  • Algebra (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种判断寄递信息中电话号码真实使用者的方法及装置,所述方法包括:获取数据信息,所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据,在数据库中合并数据信息,得到合并数据表;对合并数据表中的数据进行分组、合并,得到处理后的数据表;获取概率计算模板,从所述概率计算模板获取概率规则;基于所述概率规则,使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算。根据本发明的方案,对寄递数据中发件人或收件人所填的电话号码的真实使用者是否是该发件人或收件人进行判断。在大规模数据下,当有多个人员使用同一个号码混淆查询视线时,可快速定位该号码的真实使用者。

Description

一种判断寄递电话号码真实使用者的方法及装置
技术领域
本发明涉及数据处理领域,尤其涉及一种判断寄递电话号码真实使用者的方法及装置。
背景技术
随着互联网技术的日益成熟及人们生活水平的大幅度提高,越来越多的人选择在网络上购物消费,这也促进了寄递行业的快速发展壮大,为更多的劳动力提供了就业机会。因此,产生的寄递数据越来越多,为了使用、管理数据,必不可少的,需要提高数据的准确性。虽然目前办理电话号码都必须使用身份证实名注册,但实名注册之后并不一定是注册人在使用该电话号码,所以仅根据运营商的开户信息不能确定寄递信息中的寄递电话是该注册人在使用或是其他人在使用。因此,造成注册使用的身份信息和寄递信息中的寄递姓名不能完全匹配。为了对数据进行分析,需要提高数据的准确性,也需要对寄递数据中发件人或收件人所填的电话号码的真实使用者是否是该发件人或收件人进行判断。
但现有技术中并不存在对寄递数据中发件人或收件人所填的电话号码的真实使用者是否是该发件人或收件人进行判断的方法。
发明内容
为解决上述技术问题,本发明提出了一种判断寄递电话号码真实使用者的方法及装置,所述方法及装置,用以解决现有技术中缺少对寄递数据中发件人或收件人所填的电话号码的真实使用者是否是该发件人或收件人进行判断的技术问题。
根据本发明的第一方面,提供一种判断寄递电话号码真实使用者的方法,所述方法包括以下步骤:
步骤S101:获取数据信息,所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据,在数据库中合并数据信息,得到合并数据表;并对数据信息依据数据内容、来源进行分区存储;
步骤S102:对合并数据表中的数据进行分组、合并,得到处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数;
步骤S103:获取概率计算模板,从所述概率计算模板获取概率规则;
步骤S104:基于所述概率规则,使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算。
进一步地,所述步骤S101的所述在数据库中合并数据信息,包括:根据获取到的寄递数据,从寄递数据中提取运单号、寄件人信息及收件人信息;再根据寄件人信息、收件人信息分别查询运营商开户数据、房产数据、车辆数据以及法人数据,使寄递数据的每一个运单号对应两条数据记录,分别为第一记录和第二记录;所述第一记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的寄件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;所述第二记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的收件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;得到待计算数据;
所述该运单号对应的寄件人电话号、该运单号对应的收件人电话号均对应于电话号列,该电话号对应的开户人姓名,均对应于姓名列;
在数据库中合并数据信息,并对数据信息依据数据内容、来源进行分区存储,还包括:使用greenplum数据库,利用应用场景标志dt、快递类型code为数据信息进行分区;
对于应用场景标志dt,dt=1表示该数据为发件数据,dt=2表示该数据为收件数据,dt=3表示数据为运营商开户数据,dt=4表示数据至少为房产数据、车辆、法人数据之一;
对于快递类型code,先获取该数据信息对应的应用场景标志dt,若dt=1或dt=2,则该快递类型code为快递公司名称缩写;若dt=3,则该快递类型code标记为kh,若dt=4,则该快递类型code标记为ybss。
进一步地,所述步骤S102包括:获取合并数据表,使用sql,根据姓名、电话号,将合并数据表中的数据分组,对于姓名、电话号均相同的记录,将地址去重,对于具有多个地址的,使用符号&连接多个地址,并对应用场景dt进行逻辑计数,生成处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数。
进一步地,所述概率规则为:当寄递次数至少为2时,即寄快递、收快递累计至少2次时,也即dt=1和dt=2的计数和至少为2时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.6;
当寄递次数为1时,即仅寄快递1次或收快递1次时,也即dt=1和dt=2的计数和为1时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.3;
当运营商开户数据计数大于0,dt=3的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.15;
当房产信息、车辆数据、法人数据的计数大于0,即dt=4的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.25。
根据本发明第二方面,提供一种判断寄递电话号码真实使用者的装置,所述装置包括:
合并数据表生成模块:获取数据信息,所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据,在数据库中合并数据信息,得到合并数据表;并对数据信息依据数据内容、来源进行分区存储;
处理后数据表生成模块:对合并数据表中的数据进行分组、合并,得到处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数;
获取模块:获取概率计算模板,从所述概率计算模板获取概率规则;
计算模块:基于所述概率规则,使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算。
进一步地,所述合并数据表生成模块的所述在数据库中合并数据信息,包括:根据获取到的寄递数据,从寄递数据中提取运单号、寄件人信息及收件人信息;再根据寄件人信息、收件人信息分别查询运营商开户数据、房产数据、车辆数据以及法人数据,使寄递数据的每一个运单号对应两条数据记录,分别为第一记录和第二记录;所述第一记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的寄件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;所述第二记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的收件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;得到待计算数据;
所述该运单号对应的寄件人电话号、该运单号对应的收件人电话号均对应于电话号列,该电话号对应的开户人姓名,均对应于姓名列;
在数据库中合并数据信息,并对数据信息依据数据内容、来源进行分区存储,还包括:使用greenplum数据库,利用应用场景标志dt、快递类型code为数据信息进行分区;
对于应用场景标志dt,dt=1表示该数据为发件数据,dt=2表示该数据为收件数据,dt=3表示数据为运营商开户数据,dt=4表示数据至少为房产数据、车辆、法人数据之一;
对于快递类型code,先获取该数据信息对应的应用场景标志dt,若dt=1或dt=2,则该快递类型code为快递公司名称缩写;若dt=3,则该快递类型code标记为kh,若dt=4,则该快递类型code标记为ybss。
进一步地,所述处理后数据表生成模块包括:生成子模块,用于获取合并数据表,使用sql,根据姓名、电话号,将合并数据表中的数据分组,对于姓名、电话号均相同的记录,将地址去重,对于具有多个地址的,使用符号&连接多个地址,并对应用场景dt进行逻辑计数,生成处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数。
进一步地,所述概率规则为:当寄递次数至少为2时,即寄快递、收快递累计至少2次时,也即dt=1和dt=2的计数和至少为2时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.6;
当寄递次数为1时,即仅寄快递1次或收快递1次时,也即dt=1和dt=2的计数和为1时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.3;
当运营商开户数据计数大于0,dt=3的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.15;
当房产信息、车辆数据、法人数据的计数大于0,即dt=4的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.25。
根据本发明第三方面,提供一种判断寄递电话号码真实使用者的系统,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述的一种判断寄递电话号码真实使用者的方法。
根据本发明第四方面,提供一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述的一种判断寄递电话号码真实使用者的方法。
根据本发明的上述方案,对寄递数据中发件人或收件人所填的电话号码的真实使用者是否是该发件人或收件人进行判断。在大规模数据下,当有多个人员使用同一个号码混淆查询视线时,可快速定位该号码的真实使用者,为不同方向的数据提取和查询准确性提供强有力的帮助与支撑。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明提供如下附图进行说明。在附图中:
图1为本发明一个实施方式的判断寄递信息中电话号码真实使用者的方法流程图;
图2为本发明一个实施方式的使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算示意图;
图3为本发明一个实施方式的判断寄递信息中电话号码真实使用者的系统架构图;
图4为本发明一个实施方式的判断寄递信息中电话号码真实使用者的装置结构框图。
具体实施方式
定义:
寄递:指邮局寄送邮件,也指邮局递送邮件,本文中特指快递公司的快递。
Spark:Apache Spark就专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架。Spark拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是,Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此,Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先结合图1说明为本发明一个实施方式的识别打印文件的敏感内容的方法流程图。如图1所示,所述方法包括以下步骤:
步骤S101:获取数据信息,所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据,在数据库中合并数据信息,得到合并数据表;并对数据信息依据数据内容、来源进行分区存储;
步骤S102:对合并数据表中的数据进行分组、合并,得到处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数;
步骤S103:获取概率计算模板,从所述概率计算模板获取概率规则;
步骤S104:基于所述概率规则,使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算。
所述步骤S101:获取数据信息,所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据,在数据库中合并数据信息,得到合并数据表;并对数据信息依据数据内容、来源进行分区存储;包括:
所述寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据要以从多个数据源获取。
所述在数据库中合并数据信息,包括:根据获取到的寄递数据,从寄递数据中提取运单号、寄件人信息及收件人信息;再根据寄件人信息、收件人信息分别查询运营商开户数据、房产数据、车辆数据以及法人数据,使寄递数据的每一个运单号对应两条数据记录,分别为第一记录和第二记录;所述第一记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的寄件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;所述第二记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的收件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;得到待计算数据;
所述该运单号对应的寄件人电话号、该运单号对应的收件人电话号均对应于电话号列,该电话号对应的开户人姓名,均对应于姓名列。
在数据库中合并数据信息,并对数据信息依据数据内容、来源进行分区存储,还包括:使用greenplum数据库,利用应用场景标志dt、快递类型code为数据信息进行分区;
对于应用场景标志dt,dt=1表示该数据为发件数据,dt=2表示该数据为收件数据,dt=3表示数据为运营商开户数据,dt=4表示数据至少为房产数据、车辆、法人数据之一;
对于快递类型code,先获取该数据信息对应的应用场景标志dt,若dt=1或dt=2,则该快递类型code为快递公司名称缩写;若dt=3,则该快递类型code标记为kh,若dt=4,则该快递类型code标记为ybss。
本实施例中,合并后生成的记录如表1所示。
Figure BDA0002594922110000091
表1
所述步骤S102:对合并数据表中的数据进行分组、合并,得到处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数;包括:
获取合并数据表,使用sql,根据姓名、电话号,将合并数据表中的数据分组,对于姓名、电话号均相同的记录,将地址去重,对于具有多个地址的,使用符号&连接多个地址,并对应用场景dt进行逻辑计数,生成处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数。
本实施例中,表1中的数据经过处理后,得到的处理后的数据表如下表2所示。
姓名 电话 地址 dt=1 dt=2 dt=3 dt=4
张三 13619192929 地址一&地址五 1 0 0 1
李四 13899029983 地址二 2 0 0 0
王五 17799092278 地址三 0 0 1 0
钱七 17799092278 地址六&地址七 1 1 0 1
程六 13881819900 地址四 0 0 1 0
表2
结合表1和表2可以看出,张三在发送快递及与房产、车辆、法人等相关使用场景下,使用过其对应的电话号码;李四在两次发送快递时使用其对应的电话号码;王五在运营商处获得的信息中使用过其对应的号码,钱七使用的号码与王五一致,钱七在发快递、收快递、以及与房产、车辆、法人等相关使用场景下,均使用过该号码。程六在运营商处获得的信息中使用过其对应的号码。
所述步骤S103:获取概率计算模板,从所述概率计算模板获取概率规则,其概率计算模板可以由用户根据使用需求动态配置。
本实施例中,所述概率规则为:当寄递次数至少为2时,即寄快递、收快递累计至少2次时,也即dt=1和dt=2的计数和至少为2时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.6;
当寄递次数为1时,即仅寄快递1次或收快递1次时,也即dt=1和dt=2的计数和为1时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.3;
当运营商开户数据计数大于0,dt=3的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.15;
当房产信息、车辆数据、法人数据的计数大于0,即dt=4的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.25;
步骤S104:基于所述概率规则,使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算,如图2所示。包括:
基于所述概率规则及处理后的数据表中的该电话号码在不同应用场景应用的次数,将各应用场景各自对应的标志dt的数值以连接符&连接;由Spark分别针对各应用场景进行概率计算;再将各应用场景对应的概率值求和。
对如表2中的处理后的数据表,按所述概率规则进行计算后,得到的概率表如表3所示。
姓名 电话 地址 desc rate
张三 13619192929 地址一&地址五 1&0&0&1 0.55
李四 13899029983 地址二 2&0&0&0 0.6
王五 17799092278 地址三 0&0&1&0 0.15
钱七 17799092278 地址六 1&1&0&1 0.75
程六 13881819900 地址四 0&0&1&0 0.15
表3
从表3中,可以看出人员与当前使用的电话号码的匹配度,特别注意王五与钱七的数据,两人共用同一个号码,该号码是王五注册的,但实际使用是由钱七使用,根据数据计算结果,可以大概率地判定此号码的真实使用者是钱七。对于海量数据,计算出来的真实使用者的概率会更趋近于实际情况。
图3为本发明一个实施方式的判断寄递信息中电话号码真实使用者的系统架构图,具体如图3所示。
本发明实施例进一步给出一种判断寄递信息中电话号码真实使用者的装置,如图4所示,所述装置包括:
合并数据表生成模块:获取数据信息,所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据,在数据库中合并数据信息,得到合并数据表;并对数据信息依据数据内容、来源进行分区存储;
处理后数据表生成模块:对合并数据表中的数据进行分组、合并,得到处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数;
获取模块:获取概率计算模板,从所述概率计算模板获取概率规则;
计算模块:基于所述概率规则,使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算。
本发明实施例进一步给出一种判断寄递信息中电话号码真实使用者的系统,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述的一种判断寄递信息中电话号码真实使用者的方法。
本发明实施例进一步给出一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述的一种判断寄递信息中电话号码真实使用者的方法。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,实体机服务器,或者网络云服务器等,需安装Windows或者Windows Server操作系统)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种判断寄递信息中电话号码真实使用者的方法,其特征在于,包括以下步骤:
步骤S101:获取数据信息,所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据,在数据库中合并数据信息,得到合并数据表;并对数据信息依据数据内容、来源进行分区存储;
步骤S102:对合并数据表中的数据进行分组、合并,得到处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数;
步骤S103:获取概率计算模板,从所述概率计算模板获取概率规则;
步骤S104:基于所述概率规则,使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算。
2.如权利要求1所述的判断寄递信息中电话号码真实使用者的方法,其特征在于,所述步骤S101的所述在数据库中合并数据信息,包括:根据获取到的寄递数据,从寄递数据中提取运单号、寄件人信息及收件人信息;再根据寄件人信息、收件人信息分别查询运营商开户数据、房产数据、车辆数据以及法人数据,使寄递数据的每一个运单号对应两条数据记录,分别为第一记录和第二记录;所述第一记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的寄件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;所述第二记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的收件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;得到待计算数据;
所述该运单号对应的寄件人电话号、该运单号对应的收件人电话号均对应于电话号列,该电话号对应的开户人姓名,均对应于姓名列;
在数据库中合并数据信息,并对数据信息依据数据内容、来源进行分区存储,还包括:使用greenplum数据库,利用应用场景标志dt、快递类型code为数据信息进行分区;
对于应用场景标志dt,dt=1表示该数据为发件数据,dt=2表示该数据为收件数据,dt=3表示数据为运营商开户数据,dt=4表示数据至少为房产数据、车辆、法人数据之一;
对于快递类型code,先获取该数据信息对应的应用场景标志dt,若dt=1或dt=2,则该快递类型code为快递公司名称缩写;若dt=3,则该快递类型code标记为kh,若dt=4,则该快递类型code标记为ybss。
3.如权利要求1所述的判断寄递信息中电话号码真实使用者的方法,其特征在于,所述步骤S102包括:获取合并数据表,使用sql,根据姓名、电话号,将合并数据表中的数据分组,对于姓名、电话号均相同的记录,将地址去重,对于具有多个地址的,使用符号&连接多个地址,并对应用场景dt进行逻辑计数,生成处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数。
4.如权利要求1所述的判断寄递信息中电话号码真实使用者的方法,其特征在于,所述概率规则为:当寄递次数至少为2时,即寄快递、收快递累计至少2次时,也即dt=1和dt=2的计数和至少为2时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.6;
当寄递次数为1时,即仅寄快递1次或收快递1次时,也即dt=1和dt=2的计数和为1时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.3;
当运营商开户数据计数大于0,dt=3的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.15;
当房产信息、车辆数据、法人数据的计数大于0,即dt=4的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.25。
5.一种判断寄递信息中电话号码真实使用者的装置,其特征在于,所述装置包括:
合并数据表生成模块:获取数据信息,所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据,在数据库中合并数据信息,得到合并数据表;并对数据信息依据数据内容、来源进行分区存储;
处理后数据表生成模块:对合并数据表中的数据进行分组、合并,得到处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数;
获取模块:获取概率计算模板,从所述概率计算模板获取概率规则;
计算模块:基于所述概率规则,使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算。
6.如权利要求5所述的判断寄递信息中电话号码真实使用者的装置,其特征在于,所述合并数据表生成模块的所述在数据库中合并数据信息,包括:根据获取到的寄递数据,从寄递数据中提取运单号、寄件人信息及收件人信息;再根据寄件人信息、收件人信息分别查询运营商开户数据、房产数据、车辆数据以及法人数据,使寄递数据的每一个运单号对应两条数据记录,分别为第一记录和第二记录;所述第一记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的寄件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;所述第二记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的收件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;得到待计算数据;
所述该运单号对应的寄件人电话号、该运单号对应的收件人电话号均对应于电话号列,该电话号对应的开户人姓名,均对应于姓名列;
在数据库中合并数据信息,并对数据信息依据数据内容、来源进行分区存储,还包括:使用greenplum数据库,利用应用场景标志dt、快递类型code为数据信息进行分区;
对于应用场景标志dt,dt=1表示该数据为发件数据,dt=2表示该数据为收件数据,dt=3表示数据为运营商开户数据,dt=4表示数据至少为房产数据、车辆、法人数据之一;
对于快递类型code,先获取该数据信息对应的应用场景标志dt,若dt=1或dt=2,则该快递类型code为快递公司名称缩写;若dt=3,则该快递类型code标记为kh,若dt=4,则该快递类型code标记为ybss。
7.如权利要求5所述的判断寄递信息中电话号码真实使用者的装置,其特征在于,所述处理后数据表生成模块包括:生成子模块,用于获取合并数据表,使用sql,根据姓名、电话号,将合并数据表中的数据分组,对于姓名、电话号均相同的记录,将地址去重,对于具有多个地址的,使用符号&连接多个地址,并对应用场景dt进行逻辑计数,生成处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数。
8.如权利要求5所述的判断寄递信息中电话号码真实使用者的装置,其特征在于,所述概率规则为:当寄递次数至少为2时,即寄快递、收快递累计至少2次时,也即dt=1和dt=2的计数和至少为2时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.6;
当寄递次数为1时,即仅寄快递1次或收快递1次时,也即dt=1和dt=2的计数和为1时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.3;
当运营商开户数据计数大于0,dt=3的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.15;
当房产信息、车辆数据、法人数据的计数大于0,即dt=4的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.25。
9.一种判断寄递信息中电话号码真实使用者的系统,其特征在于,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如权利要求1-4之任一项所述的判断寄递信息中电话号码真实使用者的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如权利要求1-4之任一项所述的判断寄递信息中电话号码真实使用者的方法。
CN202010707689.7A 2020-07-21 2020-07-21 一种判断寄递电话号码真实使用者的方法及装置 Active CN111832998B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010707689.7A CN111832998B (zh) 2020-07-21 2020-07-21 一种判断寄递电话号码真实使用者的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010707689.7A CN111832998B (zh) 2020-07-21 2020-07-21 一种判断寄递电话号码真实使用者的方法及装置

Publications (2)

Publication Number Publication Date
CN111832998A true CN111832998A (zh) 2020-10-27
CN111832998B CN111832998B (zh) 2024-04-05

Family

ID=72924587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010707689.7A Active CN111832998B (zh) 2020-07-21 2020-07-21 一种判断寄递电话号码真实使用者的方法及装置

Country Status (1)

Country Link
CN (1) CN111832998B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010107811A (ko) * 2001-10-15 2001-12-07 김시율 전화번호를 이용한 주소검색 및 우편물발송대행 시스템
KR20060093640A (ko) * 2005-02-22 2006-08-25 임성호 인터넷주민등록번호를 이용한 실명인증 방법 및 시스템
CN101551815A (zh) * 2009-05-13 2009-10-07 陈福 一种实名隐私保护换号查询系统与查询方法
US20150054639A1 (en) * 2006-08-11 2015-02-26 Michael Rosen Method and apparatus for detecting mobile phone usage
CN105574696A (zh) * 2015-12-17 2016-05-11 深圳市从晶科技有限公司 快递实名制认证方法及系统
CN105608550A (zh) * 2016-01-29 2016-05-25 重庆珂擎物联科技有限公司 用于邮件/快件实名制收寄及监督/核查/管理的方法
CN106296067A (zh) * 2016-07-22 2017-01-04 孙巍 一种基于移动互联技术的快递包裹信息管理方法及系统
CN108416551A (zh) * 2018-02-12 2018-08-17 安徽千云度信息技术有限公司 一种基于大数据的寄递物流信息管理平台
CN110362607A (zh) * 2019-06-11 2019-10-22 中国平安财产保险股份有限公司 异常号码识别方法、装置、计算机设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010107811A (ko) * 2001-10-15 2001-12-07 김시율 전화번호를 이용한 주소검색 및 우편물발송대행 시스템
KR20060093640A (ko) * 2005-02-22 2006-08-25 임성호 인터넷주민등록번호를 이용한 실명인증 방법 및 시스템
US20150054639A1 (en) * 2006-08-11 2015-02-26 Michael Rosen Method and apparatus for detecting mobile phone usage
CN101551815A (zh) * 2009-05-13 2009-10-07 陈福 一种实名隐私保护换号查询系统与查询方法
CN105574696A (zh) * 2015-12-17 2016-05-11 深圳市从晶科技有限公司 快递实名制认证方法及系统
CN105608550A (zh) * 2016-01-29 2016-05-25 重庆珂擎物联科技有限公司 用于邮件/快件实名制收寄及监督/核查/管理的方法
CN106296067A (zh) * 2016-07-22 2017-01-04 孙巍 一种基于移动互联技术的快递包裹信息管理方法及系统
CN108416551A (zh) * 2018-02-12 2018-08-17 安徽千云度信息技术有限公司 一种基于大数据的寄递物流信息管理平台
CN110362607A (zh) * 2019-06-11 2019-10-22 中国平安财产保险股份有限公司 异常号码识别方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111832998B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN110795919A (zh) 一种pdf文档中的表格抽取方法、装置、设备及介质
CN110020086B (zh) 一种用户画像查询方法及装置
WO2019062081A1 (zh) 业务员画像形成方法、电子装置及计算机可读存储介质
CN110929125A (zh) 搜索召回方法、装置、设备及其存储介质
CN111858922A (zh) 服务方信息查询方法、装置、电子设备以及存储介质
CN106933878B (zh) 一种信息处理方法及装置
CN111400448A (zh) 对象的关联关系分析方法及装置
CN110765760A (zh) 一种法律案件分配方法、装置、存储介质和服务器
CN110019542B (zh) 企业关系的生成、生成组织成员数据库及识别同名成员
CN112241458B (zh) 文本的知识结构化处理方法、装置、设备和可读存储介质
CN113326363A (zh) 搜索方法及装置、预测模型训练方法及装置、电子设备
CN117216239A (zh) 文本去重方法、装置、计算机设备及存储介质
CN110380952B (zh) 邮件收发方法及装置
CN111930963A (zh) 知识图谱生成方法、装置、电子设备及存储介质
CN111832998A (zh) 一种判断寄递电话号码真实使用者的方法及装置
CN110674383A (zh) 舆情查询方法、装置及设备
WO2018205460A1 (zh) 获取目标用户的方法、装置、电子设备及介质
CN114706899A (zh) 快递数据的敏感度计算方法、装置、存储介质及设备
CN116263770A (zh) 基于数据库的业务数据存储方法、装置、终端设备及介质
CN113987206A (zh) 异常用户的识别方法、装置、设备及存储介质
JP4217132B2 (ja) コミュニティ位置インデックスサーバ
CN113902404A (zh) 基于人工智能的员工晋升分析方法、装置、设备及介质
CN113407657A (zh) 基于单级数据库的数据查询方法、装置、设备及存储介质
CN111782674A (zh) 一种任务查询方法及装置
CN117493466B (zh) 财务数据同步方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant