CN114466314B

CN114466314B - 一种基于基站定位的固定人群手机号筛查方法

Info

Publication number: CN114466314B
Application number: CN202210113142.3A
Authority: CN
Inventors: 陈尧
Original assignee: Chongqing Huatang Yunshu Technology Co ltd
Current assignee: Chongqing Huatang Yunshu Technology Co ltd
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2024-04-02
Anticipated expiration: 2042-01-29
Also published as: CN114466314A

Abstract

本发明提出了一种基于基站定位的固定人群手机号筛查方法，包括以下步骤：S1，采集数据；S2，将采集的数据发送至平台；S3，平台对数据进行分析；S4，向用户前端输出分析结果。本发明能够通过运营商基站定位SIM卡位置获得在某区域内的手机号码，并根据条件筛选出该区域常住人口的手机号码。

Description

一种基于基站定位的固定人群手机号筛查方法

技术领域

本发明涉及定位技术领域，特别是涉及一种基于基站定位的固定人群手机号筛查方法。

背景技术

云通信业务因其方便快捷、性价比高的优势深受企业及政府部门青睐，现目前企业及政府单位所发送的对象均通过用户注册、信息收集、渠道购买等方式获得。获取方式相对被动且准确度不高。本发明旨在解决如何通过运营商基站定位SIM卡位置获得在某区域内的手机号码，并根据条件筛选出该区域常住人口的手机号码。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于基站定位的固定人群手机号筛查方法。

为了实现本发明的上述目的，本发明提供了一种基于基站定位的固定人群手机号筛查方法，包括以下步骤：

S1，采集数据；包括满足条件的手机号和手机短信。

S2，将采集的数据发送至平台；

S3，平台对数据进行分析；

S4，向用户前端输出分析结果。

进一步地，所述S1中的采集数据包括：

S1-1，根据第一条件和第二条件设置定时采集任务；

S1-2，通过采集任务依次向运营商的基站软件发送数据请求。

进一步地，所述第一条件为人的休息位置，当处于相同位置连续ζ小时，则该区域为休息位置；第二条件为人的休息时间；所述采集任务包括采集时间、采集区域。

进一步地，所述S2中的采集数据包括：

S2-1，运营商基站软件接收到平台的数据请求后，将采集的数据发送至平台；

S2-2，通过基站位置数据库和地图数据配合，对SIM卡中的通信ID进行定位，将在该采集时间并在该采集区域的手机号码通过接口将数据发送至平台；

S2-3，将基站软件返回数据按照所述采集任务的类别分别存入不同的数据表中。

进一步地，所述S3包括：

S3-1，使用SQL语句对数据库中的数据表进行数据比对查重，找出重复的数据；

S3-2，判断重复的数据出现的次数是否超过阈值，若超过则为区域常住人口。

进一步地，还包括：

所述采集的信息还包括短信，通过对短信的数据分析筛查出有害信息，利用基站定位对发出有害信息的SIM卡进行追踪。

进一步地，所述通过对短信的数据分析筛查出有害信息包括：

S1，通过包含黑名单和白名单的数据集对AI智能识别系统进行训练；以及采用分词技术提取数据集中的关键信息，对AI智能识别系统训练；

S2，通过正则表达式对短信做初步筛查，判断短信内容中是否包含手机号码、链接、IP地址、验证码之一或者任意组合，若存在，则拦截率增加O，执行步骤S5；若不存在，O为0，执行下一步骤；其中O表示基于初步筛查的短信有害概率值；

S3，将短信输入训练好的AI智能识别系统，对短信采用分词技术，计算最大信息冗余MIR，然后进行第一次通过判断，若通过所述第一次通过判断且O为0，则短信通过；若不通过所述第一次通过判断则计算出基于短信冗余度的短信有害概率值Q₁；

S4，将分词插入到分词词库中，计算基于分词属性的短信有害概率值Q₂，然后进行第二次通过判断，若通过所述第二次通过判断且O为0，则短信通过；若不通过所述第二次通过判断则计算出拦截率Q；

S5，将拦截率Q与最小阈值、最大阈值进行比较：若小于最小阈值则短信通过，若大于最大阈值则短信拦截；若处于最小阈值～最大阈值之间则将该条短信将转至人工审核库，待人工审核进行通过；其中最小阈值小于最大阈值。

进一步地，进一步地，所述AI智能识别系统包括CNN卷积网络。

进一步地，所述S3包括：

S3-1，运用word分词技术将短信的文本内容拆分成若干个词；

S3-2，删除停用词；

S3-3，将各个分词进行排列得到特征向量，作为AI智能识别系统卷积层的输入；

S3-4，计算最大信息冗余MIR，并进行第一次通过判断，若不通过则执行下一步骤；

S3-5，计算出基于短信冗余度的短信有害概率值Q₁。

进一步地，所述S3-3中的卷积层采用多个不同尺寸的卷积核，有助于捕捉不同维度的信息。

所述每个卷积核提取出不同的类型特征，得到不同的特征维度信息：

其中J_k表示第k个卷积核对应的特征维度信息；

θ(·)表示激活函数；

K表示卷积核的个数；

d_k表示第k个卷积核的特征值；

为卷积运算；

F_i ^k表示第k个卷积核时第i层的特征；

F_i ^k-1表示第k-1个卷积核时第i层的特征；

b表示影响因子。

进一步地，所述S3-4包括：

MIR＝[y(x)-t]

其中x表示短信的字符数；

y(x)表示x的冗余值；

t表示当前信号通道值；

[]表示截断取整；

冗余值y(x)的计算公式如下：

其中m、n表示偏移调整系数；

S表示短信的来源种类数，有网站公司，虚拟平台，以及个人用户端；

h_s表示来源s的信道频率系数；

p(x)表示x需要的网关通信量；

然后对冗余值y(x)进行第一次通过判断：

(1)当x趋近于0时，趋近于一个常数，

(2)MIR≤δ，δ为设定的最大冗余值，

若通过第一次通过判断且基于初步筛查的短信有害概率值O＝0，则拦截率Q为0，短信通过；此时短信为无效内容，例如空白短信，单纯无逻辑的符号等。

进一步地，所述S3-5包括：

其中Q₁表示基于短信冗余度的短信有害概率值；

L表示特征向量的行列数，若不足位数，则用0进行补位；

y(x)表示x的冗余值；

x表示短信的字符数；

表示w_i的转置；

w_i表示特征向量第i行的有害概率值；

w_j表示特征向量第j行的有害概率值。

进一步地，所述S4包括：

S4-1，根据分词词库中的分词属性，能得到基于分词属性的短信有害概率值Q₂：

Q₂＝max(Xw_u)

其中max(·)表示取最大值；

Xw_u表示分词u的拦截率；

S4-2，进行第二次通过判断：如果Q₂＜λ且基于初步筛查的短信有害概率值O＝0，则拦截率Q为0，短信通过，其中λ表示分词筛选阈值；如果Q₂＞λ，则基于分词属性的短信有害概率值变为Q₃：

其中I表示分词集合；

Xw_uv表示分词u、v共同出现时的拦截率；

c_uv表示第u个分词相关联的第v个分词；

Fw_uv表示分词u、v共同出现的词频数；

S4-3，得到拦截率Q：

Q＝αQ₁+βQ₃+O

其中α为基于短信冗余度的短信有害概率权重系数；

β为基于分词属性的短信有害概率权重系数；

Q₁表示基于短信冗余度的短信有害概率值；

O为基于初步筛查的短信有害概率值。

进一步地，还包括：通过第三方安全登录查询所述平台的数据，具体包括以下步骤：S1，注册操作：第三方登录平台接收到电子表单，并将电子表单的信息插入到dbo.user表中，然后通过验证方式一验证电子表单上的信息，若信息正确，则注册成功；同时还会自动生成一条唯一的秘钥userKey和身份认证信息的唯一识别码userIMEI；

S2，绑定操作：其他平台接收到userKey和userIMEI，并通过验证方式二进行验证，若验证成功则完成登录绑定；

S3，登录其他平台：通过第三方登录平台获取动态密码，同时向动态密码库dbo.One-TimePWD插入一条包含当前时间T、动态密码的数据，然后其他平台判断是否有接收到userIMEI和动态密码，若是，其他平台会获取当前时间T，最后通过验证方式三进行验证，若验证成功则登录成功。

进一步地，所述S1中的电子表单包括：姓名userName、身份证号userIDCard、性别userSex之一或者任意组合；

所述验证方式一包括：将电子表单的信息与公安数据库进行比对，验证一致则注册成功。

进一步地，所述S2中的验证方式二包括：

第三方登录平台利用其他平台接收到的userIMEI查询dbo.user表，得到查询结果userKey，并将查询结果与其他平台接收到的userKey和userIMEI进行比对，

若第三方登录平台的userkey与userIMEI的值均等于查询结果则绑定成功，否则绑定失败。

进一步地，还包括：

绑定成功后，其他平台将会根据授权协议向第三方登录平台的账号列表库dbo.Accuntlist中插入平台名称、域名、关联账号信息，同时其他平台的信息将在第三方登录平台的前端软件中展示出来。

进一步地，所述S3中的验证方式三包括：

根据其他平台接收到的userIMEI查询表dbo.One-TimePWD，得到查询结果，对查询结果与其他平台接收到的动态密码、userIMEI与当前时间T的均等于查询结果则登录成功，否则登录失败。

所述查询结果包括：第三方登录平台的动态密码、userIMEI与当前时间T。

进一步地，还包括：

无论用户登录成功或失败，其他平台均会按照授权协议向第三方登录平台的登录日志表dbo.LoginLog中插入登录结果信息。

进一步地，在步骤S3中登录其他平台时，其登录其他平台账号和密码通过公钥、私钥的方式实现登录：密钥系统生成短期私钥，将短期私钥发送给第三方登录平台，然后其他平台通过公钥进行解密，从而完成登录。

进一步地，所述短期私钥的生成方法包括：

pk＝Private key generation algorithm(G₁&g₁&g₂&H(c)&d)，

其中&表示字符连接符；

Private key generation algorithm()表示短期私钥生成函数；

g₁表示G₁中元素个数；

G₁表示其他平台的账号或密码；

g₂表示d的二进制长度；

H(c)表示哈希函数值；

d表示素数。

进一步地，所述哈希函数值H(c)为：

H(c)＝HASH|c·lN|

其中c表示哈希系数；c∈(0,1]；

HASH| |表示哈希函数；

·表示字符原点；

l表示随机字符串N的个数；

N表示随机字符串。

进一步地，还包括：

其他平台通过openAPI调取第三方登录平台的用户数据：当其他平台向第三方登录平台发送数据请求时需要通过身份验证和秘钥验证方可获得临时令牌；

所述身份验证包括：将其他平台向的userIMEI与第三方登录平台的userIMEI进行比对，若相同，则验证成功；

所述秘钥验证包括：将其他平台向的userKey与第三方登录平台的userKey进行比对，若相同，则验证成功。

综上所述，由于采用了上述技术方案，本发明能够通过运营商基站定位SIM卡位置获得在某区域内的手机号码，并根据条件筛选出该区域常住人口的手机号码。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明技术实现流程图。

图2是本发明平台筛查功能流程示意图。

图3是本发明筛查有害信息的结构示意图。

图4是本发明筛查有害信息的具体实施流程示意图。

图5是本发明第三方安全登录的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

本发明是基于运营商基站定位功能来实现SIM卡信息的获取，再根据人的生活作息规律进行手机号的筛选，最终得到我们所选区域的常住人口的手机号码。本发明由信息收集模块、数据采集模块、数据处理模块、存储模块组成。其中信息采集模块主要负责收集前端用户的任务表单信息；数据采集模块主要负责创建定时采集任务，通过API接口向基站软件发送数据请求；数据处理模块主要负责对采集的数据筛选；存储模块主要用于存储任务记录、用户信息、任务结果等。

本发明的具体技术实现主要包含以下几点，如图1所示：

S1：根据人的休息时间和休息位置设置定时采集任务；

S2：通过采集任务依次向运营商的基站软件发送数据请求；

S3：运营商基站软件接收到平台的数据请求后，通过基站位置数据库和地图数据配合，对SIM卡中的通信ID进行定位，将在该采集时间并在该采集区域的手机号码通过接口将数据发送至平台；

S4：将基站软件返回数据分别存入不同的数据表中；

S5：使用SQL语句对数据库中的表进行数据比对查重，找出重复的数据；

S6：向用户前端输出分析结果。

具体实施例如图2所示：

1、本发明可根据用户采集需求设定采集天数，该具体实施方式示例所设定的采集天数为2天。

2、通过用户前端获取到用户设定的采集任务开始时间为“yyyy-m-d hh:mm:ss”，采集区域为M，则通过定时任务向基站软件采集五次数据样品。第一次采集时间为yyyy-m-dhh:mm:ss，采集区域为M；第二次采集时间为yyyy-m-d hh:mm:ss+12小时，采集区域为M；第三次采集时间为yyyy-m-d hh:mm:ss，+24小时采集区域为M；第四次采集时间为yyyy-m-dhh:mm:ss+36小时，采集区域为M。(举例：若用户设定采集任务的采集时间为：2022-01-0100:00:00，采集区域为：M。那么第一次数据采集的时间为2022-01-01 00:00:00，采集区域为M,最终采集到的数据样品为图二S_DATA-A；第二次数据采集的时间为2022-01-01 12:00:00，采集区域为M,最终采集到的数据样品为图二S_DATA-C；第三次数据采集的时间为2022-01-02 00:00:00，采集区域为M,最终采集到的数据样品为图二S_DATA-B；第四次数据采集的时间为2022-01-02 12:00:00，采集区域为M,最终采集到的数据样品为图二S_DATA-D。)

3、对在同一采集区域在同时间段不同日期获得的采样数据S_DATA-A(201)和S_DATA-B(202)进行查重对比(203)，提取重复数据F_DATA-A(204)代表连续两天凌晨12点处于采集区域M的人群。

4、将在同一采集区域在同时间段不同日期的采样数据S_DATA-C(205)和S_DATA-D(206)进行查重对比(207)，提取重复数据F_DATA-B(208)代表连续两天中午12点处于采集区域M的人群。

5、将所提取到的数据F_DATA-A和F_DATA-B放入数据库表F_DATA(209)，并向前端用户输出筛查结果。

筛查有害信息的结构示意图如图3所示，包括：

内容获取模块101、人工审核库已判断内容模块102、工程师提供内容模块103、自助学习模块104、内容拆分模块105、更新分词词库模块106，

内容获取模块101的数据输入端分别与人工审核库已判断内容模块102的数据输出端、工程师提供内容模块103的数据输出端相连，内容获取模块101的数据输出端与自主学习模块104的数据输入端相连，自主学习模块104的数据输出端与内容拆分模块105的数据输入端相连，内容拆分模块105的数据输出端与更新分词词库模块106的数据输入端相连。

内容获取模块101：AI智能识别系统的学习内容来源于步骤102人工审核库已判断内容和步骤103工程师提供内容两大数据集；

自助学习模块104：AI智能识别系统通过文字库自主学习文字内容，每一条文本内容均有唯一编号textID，给AI智能识别系统设定一个定期扫描素材库的任务，若有新增的素材，则对该素材进行分析；

内容拆分模块105、更新分词词库模块106：将文本内容拆分成若干个分词，根据每一个分词查询分词词库，若词频数为0，则向分词词库插入该分词，若分词词频数大于0，则在该分词的词频数加1，拦截/通过数加1，并更新拦截率。

筛查有害信息的具体实施流程示意图如图4所示，包括以下步骤：

步骤201：终端或平台用户编辑短信；

步骤202：发送短信；

步骤203：短信需经过AI智能识别系统的分析审核，然后根据识别结果执行步骤204、步骤206、步骤207中的任意一种；

步骤204：短信内容无异常，执行步骤205；

步骤205：可直接发送，并返回用户发送成功信息；

步骤206：识别到疑似违规内容，执行步骤208；

步骤207：识别到违规内容，则将该信息返回用户重新编辑，执行步骤201；

步骤208：将疑似违规短信移至人工审核库进行人工审核，然后根据审核结果执行步骤209、步骤210中的任意一种；

步骤209：人工审核未违规，则执行步骤205，同时将该短信返回人工审核库已判断内容模块102进行AI智能识别系统再学习；

步骤210：人工审核确认违规，则将该信息返回用户重新编辑，同时将该短信返回人工审核库已判断内容模块102进行AI智能识别系统再学习。

第三方安全登录的结构示意图如图5所示，包括以下步骤：

【步骤101】其他平台通过openAPI调取第三方登录平台的用户数据，当其他平台向第三方登录平台发送数据请求时需要通过身份验证和秘钥验证方可获得临时令牌。

【步骤102】用户在注册本平台时，用户通过电子表单填写的注册信息均会插入到dbo.user表中，同时还会自动生成一条唯一的秘钥userKey和身份认证信息的唯一识别码userIMEI。

【步骤103】若用户需要将其他平台与第三方平台进行登录绑定时，则需要手动输入userKey和userIMEI并点击绑定按钮。

【步骤104】用户点击绑定按钮后，其他平台会根据用户输入的信息userIMEI查询dbo.user表。

【步骤105】对查询结果与用户输入的信息进行比对，用户输入的userkey与userIMEI的值均等于查询结果则绑定成功，否则绑定失败。

【步骤106】绑定成功后，其他平台将会根据授权协议向第三方登录平台的账号列表库dbo.Accuntlist中插入平台名称、域名、关联账号等信息。同时其他平台的信息将在第三方登录平台的前端软件中展示出来。

【步骤107】绑定成功后用户用第三方登录平台登录其他平台时，需在第三方登录平台的前端软件中找到对应的其他平台，并点击获取动态密码按钮。点击按钮的同时，前端软件会向动态密码库dbo.One-TimePWD插入一条包含当前时间、当前密码的数据。

【步骤108】用户在其他平台输入userIMEI和动态密码后点击登录按钮时，其他平台会获取当前时间T，并根据userIMEI查询表dbo.One-TimePWD。

【步骤109】对查询结果与用户输入的信息进行比对，用户输入的动态密码、userIMEI与当前时间T的均等于查询结果则登录成功，否则登录失败。

【步骤110】无论用户登录成功或失败，其他平台均会按照授权协议向第三方登录平台的登录日志表dbo.LoginLog中插入登录结果信息。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于基站定位的固定人群手机号筛查方法，其特征在于，包括以下步骤：

S1，采集数据；

S1-1，根据第一条件和第二条件设置定时采集任务；

S1-2，通过采集任务依次向运营商的基站软件发送数据请求；

所述第一条件为人的休息位置，第二条件为人的休息时间；所述采集任务包括采集时间、采集区域；

S2，将采集的数据发送至平台；

S2-3，将基站软件返回数据按照所述采集任务的类别分别存入不同的数据表中；

S3，平台对数据进行分析；

S3-2，判断重复的数据出现的次数是否超过阈值，若超过则为区域常住人口；

S4，向用户前端输出分析结果；

所述采集数据还包括短信，通过对短信的数据分析筛查出有害信息，利用基站定位对发出有害信息的SIM卡进行追踪；

所述通过对短信的数据分析筛查出有害信息包括：

S01，通过包含黑名单和白名单的数据集对AI智能识别系统进行训练；以及采用分词技术提取数据集中的关键信息，对AI智能识别系统训练；

S02，通过正则表达式对短信做初步筛查，判断短信内容中是否包含手机号码、链接、IP地址、验证码之一或者任意组合，若存在，则拦截率增加O，执行步骤S05；若不存在，O为0，执行下一步骤；其中O表示基于初步筛查的短信有害概率值；

S03，将短信输入训练好的AI智能识别系统，对短信采用分词技术，计算最大信息冗余MIR，然后进行第一次通过判断，若通过所述第一次通过判断且O为0，则短信通过；若不通过所述第一次通过判断则计算出基于短信冗余度的短信有害概率值Q₁；

S04，将分词插入到分词词库中，计算基于分词属性的短信有害概率值Q₂，然后进行第二次通过判断，若通过所述第二次通过判断且O为0，则短信通过；若不通过所述第二次通过判断则计算出拦截率Q；

S05，将拦截率Q与最小阈值、最大阈值进行比较：若小于最小阈值则短信通过，若大于最大阈值则短信拦截；若处于最小阈值～最大阈值之间则将短信将转至人工审核库，待人工审核进行通过；其中最小阈值小于最大阈值。

2.根据权利要求1所述的一种基于基站定位的固定人群手机号筛查方法，其特征在于，所述S03包括：

S3-1，运用word分词技术将短信的文本内容拆分成若干个词；

S3-2，删除停用词；

S3-5，计算出基于短信冗余度的短信有害概率值Q₁；

所述S3-3中的卷积层采用多个不同尺寸的卷积核，有助于捕捉不同维度的信息；

其中J_k表示第k个卷积核对应的特征维度信息；

θ(·)表示激活函数；

K表示卷积核的个数；

d_k表示第k个卷积核的特征值；

为卷积运算；

F_i ^k表示第k个卷积核时第i层的特征；

F_i ^k-1表示第k-1个卷积核时第i层的特征；

b表示影响因子。