CN116361357A - 一种挖掘短信回执数据推理手机号码状态的方法 - Google Patents
一种挖掘短信回执数据推理手机号码状态的方法 Download PDFInfo
- Publication number
- CN116361357A CN116361357A CN202310188074.1A CN202310188074A CN116361357A CN 116361357 A CN116361357 A CN 116361357A CN 202310188074 A CN202310188074 A CN 202310188074A CN 116361357 A CN116361357 A CN 116361357A
- Authority
- CN
- China
- Prior art keywords
- short message
- mobile phone
- phone number
- message receipt
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000005065 mining Methods 0.000 title claims abstract description 14
- 230000002159 abnormal effect Effects 0.000 claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 12
- 238000007418 data mining Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000006698 induction Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000030279 gene silencing Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及一种挖掘短信回执数据推理手机号码状态的方法。该方法第一步先查表,召回发送成功的短信回执和可确认是由于手机号码状态异常导致发送失败的短信回执,如果短信发送失败原因不明,则按发送内容、手机号码所在地、手机号码运营商等分组挖掘是由手机号码状态异常导致发送失败的短信回执;该方法第二步在第一步召回的短信回执的基础上,进一步利用隐马尔卡夫建模手机号码状态在时间上的相关性,从短信回执无监督推理出手机号码具体的状态,包括实号、空号、沉默号和风险号。该发明充分利用了群发系统海量的短信回执数据,检测成本只是一些计算成本和存储成本,同时也不会对运营商的系统带来压力和手机号码状态分类准确率高等优点。
Description
技术领域
本发明涉及数据处理领域,具体为一种挖掘短信回执数据推理手机号码状态的方法。
背景技术
手机号码状态分类推理(实号、空号、沉默号和风险号)有多个应用场景。比如,去除空号可以节约电话销售和短信推送的时间成本和提高工作效率;通过检测去除风险号,可以减少电话销售和短信推送的被投诉风险;号码检测可以为各类电商行业的防欺诈/防作弊等提供数据分析;在APP/网站运营推广过程中,通过号码状态检测可以帮助筛选出精准用户。现业内主要有两类手机号码状态推理方法。第一种方法是将客户提交的手机号码与三大运营商的实时接口数据进行比对,从而获取手机号码的最新状态。这种方法检测一个号码仅需几厘钱,但当检测号码量巨大比如上亿,检测成本还是不可忽视的,同时对运营商的系统也会带来了巨大的压力,特别是考虑到手机号码状态的时效性。第二种方法是分析短信群发的副产品-短信回执数据,通过人工归纳总结或者机器学习的方法得到短信回执代码到手机号码状态集合映射表,该方法推理手机号码状态的成本基本为零同时也不会给运营商的系统带来压力,然而对于很多短信回执代码,该方法不能精准地估计手机号码的状态。本发明是第二种方法的改进,该发明先借助数据挖掘技术挖掘出异常手机号码,原理是利用手机号码关联性比如短时间窗口内相同地域短信回执可以消除是否地域屏蔽的不确定性,后借助隐马尔可夫算法建模手机号码状态间的时间相关性,进一步减少手机号码状态推理过程中的不确定性,从而精准估计手机号码的状态。
发明内容
本发明为了解决背景技术中存在的问题,目的在于提供了一种挖掘短信回执数据推理手机号码状态的方法,用以解决上述情况。
用于解决问题的方案
一种挖掘短信回执数据推理手机号码状态的方法,所述方法包括:
S1:获取短信回执代码,对短信回执代码利用预设的表单进行查询判断处理;若短信发送成功,召回所述短信回执并操作结束;若短信发送失败,根据预设的表单查询短信回执代码,判断失败原由;
S2:若归属于第一失败原由,召回短信回执并操作结束;若归属于第二失败原由,不召回短信回执并操作结束;若归属于第三失败原由,通过数据挖掘筛选出第一失败原由的短信回执,召回短信回执并操作结束;
S3:基于上述召回的短信回执,利用隐马尔科夫算法建模手机号码状态在时间上的关联性,精准推理手机号码状态。
进一步,所述预设的表单为短信发送回执状态代码对照表。
进一步,所述第一失败原由包括:原因明确并且是手机号码状态异常;所述第二失败原由包括:原因明确并且不是手机号码状态异常;所述第三失败原由包括:短信发送失败原因不明。
进一步,所述数据挖掘筛选,具体包括:
S21:第一筛选条件;挑选短信发送时间在指定时间窗口内、发送内容相同、手机号码所在地相同、手机号码运营商运营商相同、短信通道相同的一批短信回执;判断这批短信回执里面是否有一定比例的短信发送成功,如果有一定比例的短信说明发送成功,则失败原因可以排除关键词拦截、地域屏蔽和网关出错,进入下一S22,否则不召回短信回执并操作结束;
S22:第二筛选条件;如果发送时间晚于指定时间范围,有一定比例的短信发送成功,则进一步排除超频或金额不足的发送失败原因,判断原因明确并且是手机号码状态异常,召回该短信回执并操作结束,否则不召回短信回执并操作结束。
进一步,所述步骤S3具体包括:
S31:对召回的短信回执根据手机号码进行分组,将分组后的每组短信回执按短信发送时间排序;
S32:将排序后的每组短信回执代码构成一个观察序列,将预设的手机号码状态集合和时间间隔标签集合组合得到马尔可夫模型隐状态集合,利用Baum-Welch算法拟合所有观察序列,建立隐马尔科夫模型;
S33:利用上述建立的隐马尔科夫模型进行维特比解码所述观察序列对应的隐状态序列,从而得到手机号码状态序列。
有益效果:
上述技术方案的有益效果在于:
该方法第一步先查表,召回发送成功和手机号码状态异常对应的短信回执,如果短信发送失败原因不明,则按发送内容、手机号码所在地、手机号码运营商等分组挖掘手机号码状态异常对应的短信回执;该方法第二步在第一步召回的短信回执基础上,进一步利用隐马尔卡夫建模手机号码状态时间上的相关性,从短信回执无监督推理出手机号码具体的状态,包括实号、空号、沉默号和风险号。该发明充分利用了群发系统海量的短信回执数据,检测成本只是一些计算成本和存储成本,同时也不会对运营商的系统带来压力,手机号码状态分类准确率高等优点。
附图说明
图1是本发明的整体流程图。
具体实施方式
下面结合实施例描述本发明具体实施方式:
需要说明的是,本说明书所示意的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
实施例1:
如图1所示,一种挖掘短信回执数据推理手机号码状态的方法,所述方法包括:
S1:获取短信回执代码,对短信回执代码利用预设的表单进行查询判断处理;若短信发送成功,召回所述短信回执并操作结束;若短信发送失败,根据预设的表单查询短信回执代码,判断失败原由;
S2:若归属于第一失败原由,召回短信回执并操作结束;若归属于第二失败原由,不召回短信回执并操作结束;若归属于第三失败原由,通过数据挖掘筛选出第一失败原由的短信回执,召回短信回执并操作结束;
S3:基于上述召回的短信回执,利用隐马尔科夫算法建模手机号码状态在时间上的关联性,精准推理手机号码状态。
进一步,所述预设的表单为短信发送回执状态代码对照表。
进一步,所述第一失败原由包括:原因明确并且是手机号码状态异常;所述第二失败原由包括:原因明确并且不是手机号码状态异常;所述第三失败原由包括:短信发送失败原因不明。
进一步,所述数据挖掘筛选,具体包括:
S21:第一筛选条件;挑选短信发送时间在指定时间窗口内、发送内容相同、手机号码所在地相同、手机号码运营商运营商相同、短信通道相同的一批短信回执;判断这批短信回执里面是否有一定比例的短信发送成功,如果有一定比例的短信说明发送成功,则失败原因可以排除关键词拦截、地域屏蔽和网关出错,进入下一S22,否则不召回短信回执并操作结束;
S22:第二筛选条件;如果发送时间晚于指定时间范围,有一定比例的短信发送成功,则进一步排除超频或金额不足的发送失败原因,判断原因明确并且是手机号码状态异常,召回该短信回执并操作结束,否则不召回短信回执并操作结束。
进一步,所述步骤S3具体包括:
S31:对召回的短信回执根据手机号码进行分组,将分组后的每组短信回执按短信发送时间排序;
S32:将排序后的每组短信回执代码构成一个观察序列,将预设的手机号码状态集合和时间间隔标签集合组合得到马尔可夫模型隐状态集合,利用Baum-Welch算法拟合所有观察序列,建立隐马尔科夫模型;
S33:利用上述建立的隐马尔科夫模型进行维特比解码所述观察序列对应的隐状态序列,从而得到手机号码状态序列。
实施例2:
本实施例2应用于实施例1,具体为:
假定有一张由人工归纳总结或者机器学习等方法得到的短信回执代码到手机号码状态集合映射表T,二步挖掘海量短信回执数据归纳推理手机号码状态的一个实施例子如下:
召回:发送成功的短信回执和手机号码状态异常的短信回执。具体流程如下:针对每条短信回执m(为了清楚叙述,进一步标记发送该短信的手机号码为h,标记该短信内容为c,标记该短信发送时间为t),执行如下操作:
第一步:短信回执m对应的代码当建,查映射表T判断该短信是否发送成功;
第二步:如果发送成功,判断手机号码h的状态正常,召回该短信回执m并操作结束;
第三步:如果发送失败,查映射表T判断该短信发送失败的原因。如果原因明确并且是手机号码状态异常,那么召回该短信回执m并操作结束;如果原因明确并且原因不是手机号码状态异常,那么不召回该短信回执m并操作结束;如果原因不明确,转第四步;
第四步:如果(短信发送失败)原因不明,通过数据挖掘的方法确定失败原因是否是由手机号码异常引起的,具体数据挖掘方法是;
先挑选短信发送指定时间窗口内(也就是说,和t的时间间隔在指定范围内,60秒内)、发送内容(等同于c)相同、手机号码(和手机号码h)所在地相同、手机号码运营商(手机号码h)运营商相同和短信通道相同的一批短信回执,如果这批短信回执里面有一定的比例发送成功,那么可以排除关键词拦截、地域屏蔽和网关出错这三种短信发送失败原因,进一步,如果发送时间晚于(也就是发送时间大于t)指定时间范围(比如60秒)内的短信回执里面有一定比例发送成功,则进一步排除超频、金额不足等发送失败原因,这这则认为短信发送失败原因明确并且是手机号码状态异常,召回该短信回执m并操作结束;
精分:进一步处理召回的短信回执,利用隐马尔科夫算法建模手机号码状态在时间上的关联性,推理手机号码状态{实号、空号、沉默号和风险号}。
首先:按手机号码先分组第一步召回的短信回执,每组按短信发送时间排序组内短信回执数据;
其次:将排序后的每组短信回执代码构成一观察序列,将手机号码状态集合{实号、空号、沉默号和风险号}和时间间隔标签集合{开始、一个月内、一个月到二个月内,二个月到三个月内,三个月到四个月内,四个月到五个月内,五个月到六个月内,超过六个月}组合得到隐状态集合,总计32个状态空间。利用EM算法(具体Baum-Welch算法)拟合全部观察序列,训练得到隐马尔科夫模型;
最后:对于每一观察序列,利用维特比(viterbi)算法解码得到对应的隐状态序列,从而得到每个观察序列对应到的手机号码状态序列。
EM算法:最大期望算法(Expectation-Maximizationalgorithm,EM);
维特比算法:一种动态规划算法用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列,特别是在马尔可夫信息源上下文和隐马尔可夫模型中。术语“维特比路径”和“维特比算法”也被用于寻找观察结果最有可能解释相关的动态规划算法。例如在统计句法分析中动态规划算法可以被用于发现最可能的上下文无关的派生(解析)的字符串,有时被称为“维特比分析”。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
Claims (5)
1.一种挖掘短信回执数据推理手机号码状态的方法,其特征在于,所述方法包括:
S1:获取短信回执代码,对短信回执代码利用预设的表单进行查询判断处理;若短信发送成功,召回所述短信回执并操作结束;若短信发送失败,根据预设的表单查询短信回执代码,判断失败原由;
S2:若归属于第一失败原由,召回短信回执并操作结束;若归属于第二失败原由,不召回短信回执并操作结束;若归属于第三失败原由,通过数据挖掘筛选出第一失败原由的短信回执,召回短信回执并操作结束;
S3:基于上述召回的短信回执,利用隐马尔科夫算法建模手机号码状态在时间上的关联性,精准推理手机号码状态。
2.根据权利要求1所述的一种挖掘短信回执数据推理手机号码状态的方法,其特征在于,所述预设的表单为短信发送回执状态代码对照表。
3.根据权利要求1所述的一种挖掘短信回执数据推理手机号码状态的方法,其特征在于,所述第一失败原由包括:原因明确并且是手机号码状态异常;所述第二失败原由包括:原因明确并且不是手机号码状态异常;所述第三失败原由包括:短信发送失败原因不明。
4.根据权利要求1所述的一种挖掘短信回执数据推理手机号码状态的方法,其特征在于,所述数据挖掘筛选,具体包括:
S21:第一筛选条件;挑选短信发送时间在指定时间窗口内、发送内容相同、手机号码所在地相同、手机号码运营商运营商相同、短信通道相同的一批短信回执;判断这批短信回执里面是否有一定比例的短信发送成功,如果有一定比例的短信说明发送成功,则失败原因可以排除关键词拦截、地域屏蔽和网关出错,进入下一S22,否则不召回短信回执并操作结束;
S22:第二筛选条件;如果发送时间晚于指定时间范围,有一定比例的短信发送成功,则进一步排除超频或金额不足的发送失败原因,判断原因明确并且是手机号码状态异常,召回该短信回执并操作结束,否则不召回短信回执并操作结束。
5.根据权利要求1所述的一种挖掘短信回执数据推理手机号码状态的方法,其特征在于,所述步骤S3具体包括:
S31:对召回的短信回执根据手机号码进行分组,将分组后的每组短信回执按短信发送时间排序;
S32:将排序后的每组短信回执代码构成一个观察序列,将预设的手机号码状态集合和时间间隔标签集合组合得到马尔可夫模型隐状态集合,利用Baum-Welch算法拟合所有观察序列,建立隐马尔科夫模型;
S33:利用上述建立的隐马尔科夫模型进行维特比解码所述观察序列对应的隐状态序列,从而得到手机号码状态序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310188074.1A CN116361357A (zh) | 2023-03-02 | 2023-03-02 | 一种挖掘短信回执数据推理手机号码状态的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310188074.1A CN116361357A (zh) | 2023-03-02 | 2023-03-02 | 一种挖掘短信回执数据推理手机号码状态的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116361357A true CN116361357A (zh) | 2023-06-30 |
Family
ID=86938991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310188074.1A Pending CN116361357A (zh) | 2023-03-02 | 2023-03-02 | 一种挖掘短信回执数据推理手机号码状态的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116361357A (zh) |
-
2023
- 2023-03-02 CN CN202310188074.1A patent/CN116361357A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111143102B (zh) | 异常数据检测方法、装置、存储介质及电子设备 | |
CN111563041B (zh) | 一种测试用例按需精准执行方法 | |
CN105721187A (zh) | 一种业务故障诊断方法及装置 | |
CN111597122B (zh) | 一种基于历史缺陷数据挖掘的软件故障注入方法 | |
CN113282461A (zh) | 传输网的告警识别方法和装置 | |
CN117421217B (zh) | 一种软件功能自动测试方法、系统、终端及介质 | |
CN116708038B (zh) | 基于资产测绘的工业互联网企业网络安全威胁识别方法 | |
CN116136950B (zh) | 芯片验证方法、装置、系统、电子设备及存储介质 | |
CN111400435B (zh) | 邮件告警收敛方法、装置、计算机设备及存储介质 | |
CN114238980A (zh) | 一种工控设备漏洞挖掘方法、系统、设备及存储介质 | |
CN111581110B (zh) | 一种业务数据准确性检测方法、装置、系统及存储介质 | |
CN115982655A (zh) | 一种基于决策树的缺失数据流程异常预测方法 | |
CN116361357A (zh) | 一种挖掘短信回执数据推理手机号码状态的方法 | |
CN117669484A (zh) | 一种芯片仿真日志检查方法、装置及可读介质 | |
CN111413952A (zh) | 机器人故障检测方法、装置、电子设备及可读存储介质 | |
CN107682173B (zh) | 基于交易模型的自动故障定位方法和系统 | |
CN114564758A (zh) | 一种运维数据的管理方法及其系统 | |
CN114331688A (zh) | 一种银行柜面系统业务批量运行状态检测方法及装置 | |
CN114676054A (zh) | 一种测试数据生成方法、装置、设备、介质及产品 | |
CN109491921B (zh) | 埋点信息的管理方法和系统 | |
CN111798237A (zh) | 基于应用日志的异常交易诊断方法及系统 | |
CN112379656A (zh) | 工业系统异常数据的检测的处理方法、装置、设备和介质 | |
CN113051307A (zh) | 告警信号的分析方法、设备、存储介质及装置 | |
CN115545677B (zh) | 基于自动化用例执行情况的上线流程规范检测方法和系统 | |
CN116501531B (zh) | 用于监测软件运行数据安全的软件插件配置方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |