CN113887551B - 基于话单数据的目标人分析方法、终端设备及存储介质 - Google Patents

基于话单数据的目标人分析方法、终端设备及存储介质 Download PDF

Info

Publication number
CN113887551B
CN113887551B CN202110940516.4A CN202110940516A CN113887551B CN 113887551 B CN113887551 B CN 113887551B CN 202110940516 A CN202110940516 A CN 202110940516A CN 113887551 B CN113887551 B CN 113887551B
Authority
CN
China
Prior art keywords
call
analyzed
data
target person
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110940516.4A
Other languages
English (en)
Other versions
CN113887551A (zh
Inventor
林文彬
蔡淋强
宿明章
许顺鹏
林伟峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN202110940516.4A priority Critical patent/CN113887551B/zh
Publication of CN113887551A publication Critical patent/CN113887551A/zh
Application granted granted Critical
Publication of CN113887551B publication Critical patent/CN113887551B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于话单数据的目标人分析方法、终端设备及存储介质,该方法中包括:根据待分析号码和目标人号码采集对应的话单数据;分别判断待分析号码和目标人号码在待分析时间范围内的每天中是否有进行通话;将待分析时间范围内每天对应的通话标志按天数顺序拼接为该待分析时间范围对应的通话数据;将待分析号码的通话数据与目标人号码的通话数据按位进行或运算后,根据或运算结果计算第一相似度;根据待分析号码和目标人号码的通话对象计算第二相似度;将第一相似度与第二相似度进行加权求和后得到最终相似度,根据最终相似度判断是否为目标号码。本发明解决了当前用户人工研判话单数据时遇到的分析难度大、挖掘时间久、投入人力多等问题。

Description

基于话单数据的目标人分析方法、终端设备及存储介质
技术领域
本发明涉及数据分析领域,尤其涉及一种基于话单数据的目标人分析方法、终端设备及存储介质。
背景技术
目前大部分产品对于话单的分析主要对手机号码的通联明细、主要通联对象、共同通话对象、通话时长、通话时间段等进行分析。对于团伙的挖掘各个行业的特点都各不一样。而且,对于目标人的分析在很多场景下已经不再是只对单个人的分析,慢慢的都是对一个非法团伙的分析,需要通过一个点挖掘出一个面。
不同的行业或者不同的场景,都有不一样的分析方法。用户以往对于话单挖掘团伙的方式是基于人工的研判,通过人工调取话单数据,分析话单数据,比对目标人话单规律挖掘出疑似团伙。这样在分析部分目标人的情况下可以较快的出具结论,但对于多个目标人的情况就会显得异常麻烦,挖掘一个团伙会非常耗时,也会存在较大的遗漏。
发明内容
为了解决上述问题,本发明提出了一种基于话单数据的目标人分析方法、终端设备及存储介质。
具体方案如下:
一种基于话单数据的目标人分析方法,包括以下步骤:
S101:根据待分析号码和目标人号码采集对应的话单数据;
S102:根据待分析时间范围和话单数据中的通话时间,以天为单位,分别判断待分析号码和目标人号码在待分析时间范围内的每天中是否有进行通话,如果是,则设定该天对应的通话标志为1,否则,设定该天对应的通话标志为0;
S103:将待分析时间范围内每天对应的通话标志按天数顺序拼接为该待分析时间范围对应的通话数据;
S104:将待分析号码的通话数据与目标人号码的通话数据按位进行或运算后,将或运算结果中相邻位为0时0的个数的最大值与目标人号码的通话数据中相邻位为0时0的个数的最大值的比值作为第一相似度;
S105:根据待分析号码和目标人号码的话单数据,分别提取待分析号码和目标人号码的所有通话对象,计算待分析号码的所有通话对象组成的集合与目标人号码的所有通话对象组成的集合的交集,将交集中包含的通话对象的个数与目标人号码的通话对象的个数的比值作为第二相似度;
S106:将第一相似度与第二相似度进行加权求和后得到最终相似度,根据最终相似度与相似度阈值的大小关系判断待分析号码是否为目标号码。
进一步的,在最终相似度的计算中,如果待分析号码的通话对象中包含特殊号码,则设定最终相似度在第一相似度与第二相似度进行加权求和的基础上还增加表征特殊号码的第三相似度。
进一步的,特殊号码包括卫星号码、虚拟号码和关境外号码。
一种基于话单数据的目标人分析方法,包括以下步骤:
S201:根据目标人号码和其对应的多个待分析号码采集对应的话单数据;
S202:将所有话单数据中的标题字段和属性值按照预设的格式进行映射;
S203:对话单数据中的特殊号码进行打标;
S204:删除话单数据中的无效数据;
S205:将各话单数据中的通话时间减去1秒后,判断是否存在相同数据,如果存在则将原始数据与减去1秒后的数据进行合并;
S206:将经过步骤S202~S205处理后的待分析号码对应的话单数据生成待分析列表,依序对待分析列表中的各话单数据执行步骤S102~S106,以判断各话单数据对应的待分析号码是否为目标号码。
进一步的,话单数据中的无效数据包括没有被呼叫方号码的数据。
一种基于话单数据的目标人分析终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。
本发明采用如上技术方案,解决了当前用户人工研判话单数据时遇到的分析难度大、挖掘时间久、投入人力多等问题,对于目标人团伙挖掘具有较高的实用性和应用价值。
附图说明
图1所示为本发明实施例一的流程图。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。
现结合附图和具体实施方式对本发明进一步说明。
实施例一:
本发明实施例提供了一种基于话单数据的目标人分析方法,如图1所示,所述方法包括以下步骤:
S101:根据待分析号码和目标人号码采集对应的话单数据。
该实施例中话单数据根据号码通过平台的调单功能自动调取。
话单数据包括呼叫方号码、被叫方号码和通话时间。
S102:根据待分析时间范围和话单数据中的通话时间,以天为单位,分别判断待分析号码和目标人号码在待分析时间范围内的每天中是否有进行通话,如果是,则设定该天对应的通话标志为1,否则,设定该天对应的通话标志为0。
待分析时间范围以天为单位,如6月1日至6月10日。
每天中是否有进行通话通过话单数据中是否有该天对应的通话时间进行判断。
S103:将待分析时间范围内每天对应的通话标志按天数顺序拼接为该待分析时间范围对应的通话数据。
如待分析时间范围为10天,仅在第6天有通话,则对应的通话数据为 0000010000。
S104:将待分析号码的通话数据与目标人号码的通话数据按位进行或运算后,将或运算结果中相邻位为0时0的个数的最大值与目标人号码的通话数据中相邻位为0时0的个数的最大值的比值作为第一相似度。
如目标人号码的通话数据为0000010000,待分析号码的通话数据为 1000011010,则或运算结果为1000011010。
或运算结果中相邻位为0时0的个数分别为4、1、1,最大值为4;目标人号码的通话数据中相邻位为0时0的个数分别为5和4,最大值为5;则第一相似度为4/5=0.8。
S105:根据待分析号码和目标人号码的话单数据,分别提取待分析号码和目标人号码的所有通话对象,计算待分析号码的所有通话对象组成的集合与目标人号码的所有通话对象组成的集合的交集,将交集中包含的通话对象的个数与目标人号码的通话对象的个数的比值作为第二相似度。
待分析号码的通话对象为待分析号码作为呼叫方时对应的被呼叫方,或者待分析号码作为被呼叫方时对应的呼叫方。目标人号码的通话对象同理。
如目标人号码有10个通话对象,待分析号码有8个通话对象,两者的交集有5个通话对象,则第二相似度为5/10=0.5。
S106:将第一相似度与第二相似度进行加权求和后得到最终相似度,根据最终相似度与相似度阈值的大小关系判断待分析号码是否为目标号码。
该实施例中设定第一相似度的权重为0.8,第二相似度的权重为0.2,在其他实施例中本领域技术人员可以根据需要进行设定,在此不做限制。
进一步的,该实施例中考虑到一些特殊号码(如卫星电话、虚拟号码或者关境外号码等)会增加目标的概率,因此,设定在最终相似度的计算中,如果待分析号码的通话对象中包含特殊号码,则设定最终相似度在第一相似度与第二相似度进行加权求和的基础上还增加表征特殊号码的第三相似度。
在实际应用过程中,由于每个目标人号码对应的待分析号码往往包括多个,因此,该实施例中还包括对大批量的待分析号码的综合处理方式,具体包括以下步骤:
S201:根据目标人号码和其对应的多个待分析号码采集对应的话单数据。
S202:将所有话单数据中的标题字段和属性值按照预设的格式进行映射。
S203:对话单数据中的特殊号码进行打标。
S204:删除话单数据中的无效数据。
S205:将各话单数据中的通话时间减去1秒后,判断是否存在相同数据,如果存在则将原始数据与减去1秒后的数据进行合并。
S206:将经过步骤S202~S205处理后的待分析号码对应的话单数据生成待分析列表,依序对待分析列表中的各话单数据执行步骤S102~S106,以判断各话单数据对应的待分析号码是否为目标号码。
通过步骤S202中的映射处理可以对格式进行统一。
话单数据中的无效数据包括没有被呼叫方号码的数据,如标记为AAAA计费请求的数据、上网数据等等。
通话时间相差1秒内的两个话单数据可能是呼叫方和被呼叫方两者的话单数据,由于呼叫方与被呼叫方所处的运营商不同或所在地不同所造成的时间误差。通过将两者合并,可以避免相同数据的重复处理。
本发明实施例解决了当前用户人工研判话单数据时遇到的分析难度大、挖掘时间久、投入人力多等问题。通过本实施例方案不仅解决了不同数据之间的格式差异问题和数据重复问题,而且还解决了平时人为的重复工作,对于目标人团伙挖掘具有较高的实用性和应用价值。
实施例二:
本发明还提供一种基于话单数据的目标人分析终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。
进一步地,作为一个可执行方案,所述基于话单数据的目标人分析终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述基于话单数据的目标人分析终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,上述基于话单数据的目标人分析终端设备的组成结构仅仅是基于话单数据的目标人分析终端设备的示例,并不构成对基于话单数据的目标人分析终端设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述基于话单数据的目标人分析终端设备还可以包括输入输出设备、网络接入设备、总线等,本发明实施例对此不做限定。
进一步地,作为一个可执行方案,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述基于话单数据的目标人分析终端设备的控制中心,利用各种接口和线路连接整个基于话单数据的目标人分析终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述基于话单数据的目标人分析终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。
所述基于话单数据的目标人分析终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory) 以及软件分发介质等。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。

Claims (7)

1.一种基于话单数据的目标人分析方法,其特征在于,包括以下步骤:
S101:根据待分析号码和目标人号码采集对应的话单数据;
S102:根据待分析时间范围和话单数据中的通话时间,以天为单位,分别判断待分析号码和目标人号码在待分析时间范围内的每天中是否有进行通话,如果是,则设定该天对应的通话标志为1,否则,设定该天对应的通话标志为0;
S103:将待分析时间范围内每天对应的通话标志按天数顺序拼接为该待分析时间范围对应的通话数据;
S104:将待分析号码的通话数据与目标人号码的通话数据按位进行或运算后,将或运算结果中相邻位为0时0的个数的最大值与目标人号码的通话数据中相邻位为0时0的个数的最大值的比值作为第一相似度;
S105:根据待分析号码和目标人号码的话单数据,分别提取待分析号码和目标人号码的所有通话对象,计算待分析号码的所有通话对象组成的集合与目标人号码的所有通话对象组成的集合的交集,将交集中包含的通话对象的个数与目标人号码的通话对象的个数的比值作为第二相似度;
S106:将第一相似度与第二相似度进行加权求和后得到最终相似度,根据最终相似度与相似度阈值的大小关系判断待分析号码是否为目标号码。
2.根据权利要求1所述的基于话单数据的目标人分析方法,其特征在于:在最终相似度的计算中,如果待分析号码的通话对象中包含特殊号码,则设定最终相似度在第一相似度与第二相似度进行加权求和的基础上还增加表征特殊号码的第三相似度。
3.根据权利要求2所述的基于话单数据的目标人分析方法,其特征在于:特殊号码包括卫星号码、虚拟号码和关境外号码。
4.一种基于话单数据的目标人分析方法,其特征在于,包括以下步骤:
S201:根据目标人号码和其对应的多个待分析号码采集对应的话单数据;
S202:将所有话单数据中的标题字段和属性值按照预设的格式进行映射;
S203:对话单数据中的特殊号码进行打标;
S204:删除话单数据中的无效数据;
S205:将各话单数据中的通话时间减去1秒后,判断是否存在相同数据,如果存在则将原始数据与减去1秒后的数据进行合并;
S206:将经过步骤S202~S205处理后的待分析号码对应的话单数据生成待分析列表,依序对待分析列表中的各话单数据执行步骤S102~S106,以判断各话单数据对应的待分析号码是否为目标号码。
5.根据权利要求4所述的基于话单数据的目标人分析方法,其特征在于:话单数据中的无效数据包括没有被呼叫方号码的数据。
6.一种基于话单数据的目标人分析终端设备,其特征在于:包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~5中任一所述方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1~5中任一所述方法的步骤。
CN202110940516.4A 2021-08-17 2021-08-17 基于话单数据的目标人分析方法、终端设备及存储介质 Active CN113887551B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110940516.4A CN113887551B (zh) 2021-08-17 2021-08-17 基于话单数据的目标人分析方法、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110940516.4A CN113887551B (zh) 2021-08-17 2021-08-17 基于话单数据的目标人分析方法、终端设备及存储介质

Publications (2)

Publication Number Publication Date
CN113887551A CN113887551A (zh) 2022-01-04
CN113887551B true CN113887551B (zh) 2022-09-09

Family

ID=79011099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110940516.4A Active CN113887551B (zh) 2021-08-17 2021-08-17 基于话单数据的目标人分析方法、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN113887551B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114896298A (zh) * 2022-04-14 2022-08-12 厦门市美亚柏科信息股份有限公司 一种同类型标签数据预测方法、终端设备及存储介质
CN115086488B (zh) * 2022-07-27 2022-10-25 广东创新科技职业学院 一种号码分类方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101854439A (zh) * 2010-02-04 2010-10-06 深圳市同洲电子股份有限公司 一种基于话单的人际关系网的分析方法与系统
CN102387512A (zh) * 2011-10-19 2012-03-21 北京交通大学 基于向量空间模型的重入网分析方法
CN111884821A (zh) * 2020-03-27 2020-11-03 马洪涛 话单数据处理展示方法、装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9413877B2 (en) * 2010-03-30 2016-08-09 Elysium Publishing, Inc. Method and system for automatic call tracking and analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101854439A (zh) * 2010-02-04 2010-10-06 深圳市同洲电子股份有限公司 一种基于话单的人际关系网的分析方法与系统
CN102387512A (zh) * 2011-10-19 2012-03-21 北京交通大学 基于向量空间模型的重入网分析方法
CN111884821A (zh) * 2020-03-27 2020-11-03 马洪涛 话单数据处理展示方法、装置及电子设备

Also Published As

Publication number Publication date
CN113887551A (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
CN110598157B (zh) 目标信息识别方法、装置、设备及存储介质
CN113887551B (zh) 基于话单数据的目标人分析方法、终端设备及存储介质
CN107886414B (zh) 一种订单合并方法和设备以及计算机存储介质
CN113377958B (zh) 一种文档分类方法、装置、电子设备以及存储介质
CN108366052B (zh) 验证短信的处理方法及系统
CN112949767A (zh) 样本图像增量、图像检测模型训练及图像检测方法
CN111652381A (zh) 数据集贡献度评估方法、装置、设备及可读存储介质
CN113268567A (zh) 多属性文本匹配方法、装置、设备和存储介质
CN113240071A (zh) 图神经网络处理方法、装置、计算机设备及存储介质
CN110895811B (zh) 一种图像篡改检测方法和装置
CN115936895A (zh) 基于人工智能的风险评估方法、装置、设备及存储介质
CN113904943B (zh) 账号检测方法、装置、电子设备和存储介质
CN113792033A (zh) 一种基于Spark的数据质量核查方法、装置、存储介质及终端
CN113344064A (zh) 事件处理方法和装置
CN116361567B (zh) 应用于云办公的数据处理方法及系统
CN115146653B (zh) 对话剧本构建方法、装置、设备及存储介质
CN111046393A (zh) 漏洞信息上传方法、装置、终端设备及存储介质
CN113239687B (zh) 一种数据处理方法和装置
CN113590447B (zh) 埋点处理方法和装置
CN116703555A (zh) 一种预警方法、装置、电子设备及计算机可读介质
CN111582648A (zh) 用户策略生成方法、装置及电子设备
CN111309884A (zh) 机器人对话方法、装置、介质及电子设备
US10466965B2 (en) Identification of users across multiple platforms
CN110992067B (zh) 消息推送方法、装置、计算机设备及存储介质
CN113312549B (zh) 一种域名处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant