CN111832998A

CN111832998A - 一种判断寄递电话号码真实使用者的方法及装置

Info

Publication number: CN111832998A
Application number: CN202010707689.7A
Authority: CN
Inventors: 张鹏飞; 喻波; 王志海; 安鹏; 王志华
Original assignee: Beijing Wondersoft Technology Co Ltd
Current assignee: Beijing Wondersoft Technology Co Ltd
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-10-27
Anticipated expiration: 2040-07-21
Also published as: CN111832998B

Abstract

本发明提供一种判断寄递信息中电话号码真实使用者的方法及装置，所述方法包括：获取数据信息，所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据，在数据库中合并数据信息，得到合并数据表；对合并数据表中的数据进行分组、合并，得到处理后的数据表；获取概率计算模板，从所述概率计算模板获取概率规则；基于所述概率规则，使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算。根据本发明的方案，对寄递数据中发件人或收件人所填的电话号码的真实使用者是否是该发件人或收件人进行判断。在大规模数据下，当有多个人员使用同一个号码混淆查询视线时，可快速定位该号码的真实使用者。

Description

一种判断寄递电话号码真实使用者的方法及装置

技术领域

本发明涉及数据处理领域，尤其涉及一种判断寄递电话号码真实使用者的方法及装置。

背景技术

随着互联网技术的日益成熟及人们生活水平的大幅度提高，越来越多的人选择在网络上购物消费，这也促进了寄递行业的快速发展壮大，为更多的劳动力提供了就业机会。因此，产生的寄递数据越来越多，为了使用、管理数据，必不可少的，需要提高数据的准确性。虽然目前办理电话号码都必须使用身份证实名注册，但实名注册之后并不一定是注册人在使用该电话号码，所以仅根据运营商的开户信息不能确定寄递信息中的寄递电话是该注册人在使用或是其他人在使用。因此，造成注册使用的身份信息和寄递信息中的寄递姓名不能完全匹配。为了对数据进行分析，需要提高数据的准确性，也需要对寄递数据中发件人或收件人所填的电话号码的真实使用者是否是该发件人或收件人进行判断。

但现有技术中并不存在对寄递数据中发件人或收件人所填的电话号码的真实使用者是否是该发件人或收件人进行判断的方法。

发明内容

为解决上述技术问题，本发明提出了一种判断寄递电话号码真实使用者的方法及装置，所述方法及装置，用以解决现有技术中缺少对寄递数据中发件人或收件人所填的电话号码的真实使用者是否是该发件人或收件人进行判断的技术问题。

根据本发明的第一方面，提供一种判断寄递电话号码真实使用者的方法，所述方法包括以下步骤：

步骤S101：获取数据信息，所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据，在数据库中合并数据信息，得到合并数据表；并对数据信息依据数据内容、来源进行分区存储；

步骤S102：对合并数据表中的数据进行分组、合并，得到处理后的数据表，所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数；

步骤S103：获取概率计算模板，从所述概率计算模板获取概率规则；

步骤S104：基于所述概率规则，使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算。

进一步地，所述步骤S101的所述在数据库中合并数据信息，包括：根据获取到的寄递数据，从寄递数据中提取运单号、寄件人信息及收件人信息；再根据寄件人信息、收件人信息分别查询运营商开户数据、房产数据、车辆数据以及法人数据，使寄递数据的每一个运单号对应两条数据记录，分别为第一记录和第二记录；所述第一记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的寄件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据；所述第二记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的收件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据；得到待计算数据；

所述该运单号对应的寄件人电话号、该运单号对应的收件人电话号均对应于电话号列，该电话号对应的开户人姓名，均对应于姓名列；

在数据库中合并数据信息，并对数据信息依据数据内容、来源进行分区存储，还包括：使用greenplum数据库，利用应用场景标志dt、快递类型code为数据信息进行分区；

对于应用场景标志dt，dt＝1表示该数据为发件数据，dt＝2表示该数据为收件数据，dt＝3表示数据为运营商开户数据，dt＝4表示数据至少为房产数据、车辆、法人数据之一；

对于快递类型code，先获取该数据信息对应的应用场景标志dt，若dt＝1或dt＝2，则该快递类型code为快递公司名称缩写；若dt＝3，则该快递类型code标记为kh，若dt＝4，则该快递类型code标记为ybss。

进一步地，所述步骤S102包括：获取合并数据表，使用sql，根据姓名、电话号，将合并数据表中的数据分组，对于姓名、电话号均相同的记录，将地址去重，对于具有多个地址的，使用符号&连接多个地址，并对应用场景dt进行逻辑计数，生成处理后的数据表，所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数。

进一步地，所述概率规则为：当寄递次数至少为2时，即寄快递、收快递累计至少2次时，也即dt＝1和dt＝2的计数和至少为2时，处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.6；

当寄递次数为1时，即仅寄快递1次或收快递1次时，也即dt＝1和dt＝2的计数和为1时，处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.3；

当运营商开户数据计数大于0，dt＝3的计数大于0时，处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.15；

当房产信息、车辆数据、法人数据的计数大于0，即dt＝4的计数大于0时，处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.25。

根据本发明第二方面，提供一种判断寄递电话号码真实使用者的装置，所述装置包括：

合并数据表生成模块：获取数据信息，所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据，在数据库中合并数据信息，得到合并数据表；并对数据信息依据数据内容、来源进行分区存储；

处理后数据表生成模块：对合并数据表中的数据进行分组、合并，得到处理后的数据表，所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数；

获取模块：获取概率计算模板，从所述概率计算模板获取概率规则；

计算模块：基于所述概率规则，使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算。

进一步地，所述合并数据表生成模块的所述在数据库中合并数据信息，包括：根据获取到的寄递数据，从寄递数据中提取运单号、寄件人信息及收件人信息；再根据寄件人信息、收件人信息分别查询运营商开户数据、房产数据、车辆数据以及法人数据，使寄递数据的每一个运单号对应两条数据记录，分别为第一记录和第二记录；所述第一记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的寄件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据；所述第二记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的收件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据；得到待计算数据；

进一步地，所述处理后数据表生成模块包括：生成子模块，用于获取合并数据表，使用sql，根据姓名、电话号，将合并数据表中的数据分组，对于姓名、电话号均相同的记录，将地址去重，对于具有多个地址的，使用符号&连接多个地址，并对应用场景dt进行逻辑计数，生成处理后的数据表，所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数。

根据本发明第三方面，提供一种判断寄递电话号码真实使用者的系统，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如前所述的一种判断寄递电话号码真实使用者的方法。

根据本发明第四方面，提供一种计算机可读存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如前所述的一种判断寄递电话号码真实使用者的方法。

根据本发明的上述方案，对寄递数据中发件人或收件人所填的电话号码的真实使用者是否是该发件人或收件人进行判断。在大规模数据下，当有多个人员使用同一个号码混淆查询视线时，可快速定位该号码的真实使用者，为不同方向的数据提取和查询准确性提供强有力的帮助与支撑。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明提供如下附图进行说明。在附图中：

图1为本发明一个实施方式的判断寄递信息中电话号码真实使用者的方法流程图；

图2为本发明一个实施方式的使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算示意图；

图3为本发明一个实施方式的判断寄递信息中电话号码真实使用者的系统架构图；

图4为本发明一个实施方式的判断寄递信息中电话号码真实使用者的装置结构框图。

具体实施方式

定义：

寄递：指邮局寄送邮件，也指邮局递送邮件，本文中特指快递公司的快递。

Spark：Apache Spark就专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架。Spark拥有Hadoop MapReduce所具有的优点，但不同于MapReduce的是，Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此，Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先结合图1说明为本发明一个实施方式的识别打印文件的敏感内容的方法流程图。如图1所示，所述方法包括以下步骤：

所述步骤S101：获取数据信息，所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据，在数据库中合并数据信息，得到合并数据表；并对数据信息依据数据内容、来源进行分区存储；包括：

所述寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据要以从多个数据源获取。

所述在数据库中合并数据信息，包括：根据获取到的寄递数据，从寄递数据中提取运单号、寄件人信息及收件人信息；再根据寄件人信息、收件人信息分别查询运营商开户数据、房产数据、车辆数据以及法人数据，使寄递数据的每一个运单号对应两条数据记录，分别为第一记录和第二记录；所述第一记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的寄件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据；所述第二记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的收件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据；得到待计算数据；

所述该运单号对应的寄件人电话号、该运单号对应的收件人电话号均对应于电话号列，该电话号对应的开户人姓名，均对应于姓名列。

本实施例中，合并后生成的记录如表1所示。

表1

所述步骤S102：对合并数据表中的数据进行分组、合并，得到处理后的数据表，所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数；包括：

获取合并数据表，使用sql，根据姓名、电话号，将合并数据表中的数据分组，对于姓名、电话号均相同的记录，将地址去重，对于具有多个地址的，使用符号&连接多个地址，并对应用场景dt进行逻辑计数，生成处理后的数据表，所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数。

本实施例中，表1中的数据经过处理后，得到的处理后的数据表如下表2所示。

姓名	电话	地址	dt＝1	dt＝2	dt＝3	dt＝4
							张三	13619192929	地址一&地址五	1	0	0	1
李四	13899029983	地址二	2	0	0	0
							王五	17799092278	地址三	0	0	1	0
钱七	17799092278	地址六&地址七	1	1	0	1
							程六	13881819900	地址四	0	0	1	0

表2

结合表1和表2可以看出，张三在发送快递及与房产、车辆、法人等相关使用场景下，使用过其对应的电话号码；李四在两次发送快递时使用其对应的电话号码；王五在运营商处获得的信息中使用过其对应的号码，钱七使用的号码与王五一致，钱七在发快递、收快递、以及与房产、车辆、法人等相关使用场景下，均使用过该号码。程六在运营商处获得的信息中使用过其对应的号码。

所述步骤S103：获取概率计算模板，从所述概率计算模板获取概率规则，其概率计算模板可以由用户根据使用需求动态配置。

本实施例中，所述概率规则为：当寄递次数至少为2时，即寄快递、收快递累计至少2次时，也即dt＝1和dt＝2的计数和至少为2时，处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.6；

当房产信息、车辆数据、法人数据的计数大于0，即dt＝4的计数大于0时，处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.25；

步骤S104：基于所述概率规则，使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算，如图2所示。包括：

基于所述概率规则及处理后的数据表中的该电话号码在不同应用场景应用的次数，将各应用场景各自对应的标志dt的数值以连接符&连接；由Spark分别针对各应用场景进行概率计算；再将各应用场景对应的概率值求和。

对如表2中的处理后的数据表，按所述概率规则进行计算后，得到的概率表如表3所示。

姓名	电话	地址	desc	rate
					张三	13619192929	地址一&地址五	1&0&0&1	0.55
李四	13899029983	地址二	2&0&0&0	0.6
					王五	17799092278	地址三	0&0&1&0	0.15
钱七	17799092278	地址六	1&1&0&1	0.75
					程六	13881819900	地址四	0&0&1&0	0.15

表3

从表3中，可以看出人员与当前使用的电话号码的匹配度，特别注意王五与钱七的数据，两人共用同一个号码，该号码是王五注册的，但实际使用是由钱七使用，根据数据计算结果，可以大概率地判定此号码的真实使用者是钱七。对于海量数据，计算出来的真实使用者的概率会更趋近于实际情况。

图3为本发明一个实施方式的判断寄递信息中电话号码真实使用者的系统架构图，具体如图3所示。

本发明实施例进一步给出一种判断寄递信息中电话号码真实使用者的装置，如图4所示，所述装置包括：

本发明实施例进一步给出一种判断寄递信息中电话号码真实使用者的系统，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如前所述的一种判断寄递信息中电话号码真实使用者的方法。

本发明实施例进一步给出一种计算机可读存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如前所述的一种判断寄递信息中电话号码真实使用者的方法。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，实体机服务器，或者网络云服务器等，需安装Windows或者Windows Server操作系统)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种判断寄递信息中电话号码真实使用者的方法，其特征在于，包括以下步骤：

2.如权利要求1所述的判断寄递信息中电话号码真实使用者的方法，其特征在于，所述步骤S101的所述在数据库中合并数据信息，包括：根据获取到的寄递数据，从寄递数据中提取运单号、寄件人信息及收件人信息；再根据寄件人信息、收件人信息分别查询运营商开户数据、房产数据、车辆数据以及法人数据，使寄递数据的每一个运单号对应两条数据记录，分别为第一记录和第二记录；所述第一记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的寄件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据；所述第二记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的收件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据；得到待计算数据；

3.如权利要求1所述的判断寄递信息中电话号码真实使用者的方法，其特征在于，所述步骤S102包括：获取合并数据表，使用sql，根据姓名、电话号，将合并数据表中的数据分组，对于姓名、电话号均相同的记录，将地址去重，对于具有多个地址的，使用符号&连接多个地址，并对应用场景dt进行逻辑计数，生成处理后的数据表，所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数。

4.如权利要求1所述的判断寄递信息中电话号码真实使用者的方法，其特征在于，所述概率规则为：当寄递次数至少为2时，即寄快递、收快递累计至少2次时，也即dt＝1和dt＝2的计数和至少为2时，处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.6；

5.一种判断寄递信息中电话号码真实使用者的装置，其特征在于，所述装置包括：

6.如权利要求5所述的判断寄递信息中电话号码真实使用者的装置，其特征在于，所述合并数据表生成模块的所述在数据库中合并数据信息，包括：根据获取到的寄递数据，从寄递数据中提取运单号、寄件人信息及收件人信息；再根据寄件人信息、收件人信息分别查询运营商开户数据、房产数据、车辆数据以及法人数据，使寄递数据的每一个运单号对应两条数据记录，分别为第一记录和第二记录；所述第一记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的寄件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据；所述第二记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的收件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据；得到待计算数据；

7.如权利要求5所述的判断寄递信息中电话号码真实使用者的装置，其特征在于，所述处理后数据表生成模块包括：生成子模块，用于获取合并数据表，使用sql，根据姓名、电话号，将合并数据表中的数据分组，对于姓名、电话号均相同的记录，将地址去重，对于具有多个地址的，使用符号&连接多个地址，并对应用场景dt进行逻辑计数，生成处理后的数据表，所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数。

8.如权利要求5所述的判断寄递信息中电话号码真实使用者的装置，其特征在于，所述概率规则为：当寄递次数至少为2时，即寄快递、收快递累计至少2次时，也即dt＝1和dt＝2的计数和至少为2时，处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.6；

9.一种判断寄递信息中电话号码真实使用者的系统，其特征在于，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如权利要求1-4之任一项所述的判断寄递信息中电话号码真实使用者的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如权利要求1-4之任一项所述的判断寄递信息中电话号码真实使用者的方法。