CN110210653B - 电信诈骗演变分析预测方法、装置、设备及介质 - Google Patents

电信诈骗演变分析预测方法、装置、设备及介质 Download PDF

Info

Publication number
CN110210653B
CN110210653B CN201910403476.2A CN201910403476A CN110210653B CN 110210653 B CN110210653 B CN 110210653B CN 201910403476 A CN201910403476 A CN 201910403476A CN 110210653 B CN110210653 B CN 110210653B
Authority
CN
China
Prior art keywords
index
fraud
characteristic
target group
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910403476.2A
Other languages
English (en)
Other versions
CN110210653A (zh
Inventor
王波
郭翔宇
郭向红
孙颖飞
白晶晶
包志刚
孙加峰
魏国华
张景钊
蔚丽娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Inner Mongolia Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Inner Mongolia Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Inner Mongolia Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201910403476.2A priority Critical patent/CN110210653B/zh
Publication of CN110210653A publication Critical patent/CN110210653A/zh
Application granted granted Critical
Publication of CN110210653B publication Critical patent/CN110210653B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Educational Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种电信诈骗演变分析预测方法、装置、设备及介质。该方法包括:获取目标群体的基础信息和通信行为指标数据;按照预定筛选规则,对所述指标数据进行筛选,获得目标群体特征指标,所述目标群体特征指标包括:通话次数、主叫次数和诈骗热门词;计算指定时间窗口内的所述目标群体特征指标对应的指标值,形成目标群体的特征指标时间序列;基于所述目标群体的特征指标时间序列,采用时间序列预测方法,预测目标群体特征指标的值。根据本发明实施例,能够提前了解未来诈骗活动特点发展方向,提早展开防范措施,减少通讯诈骗案件的发生。

Description

电信诈骗演变分析预测方法、装置、设备及介质
技术领域
本发明属于大数据领域和信息安全领域,尤其涉及一种基于大数据技术的电信诈骗演变分析预测方法。
背景技术
目前,电信诈骗包括指犯罪分子通过电话、网络和短信方式,编造虚假信息,设置骗局,对受害人实施远程、非接触式的诈骗,诱使受害人给犯罪分子打款或转账的犯罪行为。
目前防诈骗手段主要集中于提高民众自身警惕性和加强防诈骗打击力度两方面。提升打击力度方面,主要是电信机构配合公安机关,加强监测预警机制,减少通讯诈骗案件的发生。针对电信诈骗的监测和预警是目前电信诈骗分析主要聚焦点。
随着公安机关对电信诈骗的治理打击和民众防范意识的提升,犯罪团伙也不断变换行骗手段,造成电信诈骗活动特征随时间变化的特点。追踪和分析这些变化,不仅可以为防范当前的行骗手段和方法提供依据,也可以了解电信诈骗的渊源和历史演变路线,进一步可以模拟、预测其后续发展趋势。但是,针对目前关于电信诈骗分析集中在电信诈骗的识别上,少有涉及分析预测电信诈骗活动随时间演变情况。
发明内容
本发明实施例提供一种电信诈骗演变分析预测方法、装置、设备及计算机存储介质,能够提前了解未来诈骗活动特点发展方向,提早展开防范措施,减少通讯诈骗案件的发生。
一方面,本发明实施例提供一种电信诈骗演变分析预测方法,方法包括:获取目标群体的基础信息和通信行为指标数据;按照预定筛选规则,对所述指标数据进行筛选,获得目标群体特征指标,所述目标群体特征指标包括:通话次数、主叫次数和诈骗热门词;计算指定时间窗口内的所述目标群体特征指标对应的指标值,形成目标群体的特征指标时间序列;基于所述目标群体的特征指标时间序列,采用时间序列预测方法,预测目标群体特征指标的值。
所述目标群体为诈骗方群体或受害方群体。
所述指定项为目标群体,所述方法还包括:通过预设的分析方法,选取出N个特征指标,作为目标群体特征指标;计算指定时间窗口内的目标群体特征指标值,形成目标群体的特征指标时间序列;基于所述目标群体的特征指标时间序列,采用时间序列预测方法,预测目标群体特征指标在下一个时间窗口内的值。
对历史积累的电信诈骗案件中的号码添加标记,所述标记为以下各项中的至少一项:诈骗方号码、受害方号码。
预定筛选规则包括:采用因子分析方法、主成分分析方法和基于信息熵的属性选择方法对所述指标数据进行筛选。
计算指定时间窗口内所述目标群体中的每个个体的特征指标值,然后按照指标类型计算目标群体特征指标值。
指标类型包括数值型指标和分类型指标。
计算目标群体数值型指标包括:将所述目标个体特征指标值通过3-sigma异常监测方法剔除异常值后,计算其算术平均数得到目标群体特征指标值;
计算目标群体分类型指标包括:按指标取值的类别数形成多个子指标,每个子指标对应一个类别,分别计算子指标的取值,取值最大子指标代表的类别,得到目标群体特征指标值。
所述时间序列预测方法可以为移动平均时间序列预测方法,所述移动平均时间序列预测方法为:Ft+1=ωtAtt-1At-1+…+ωt-pAt-p,其中Ft+1为特征指标在下一个时间窗口预测值,ωi为第i时间窗口指标的权重,Ai为第i时间窗口指标值,p为移动时期数,所述权重基于信息熵计算得出。
所述指定项为诈骗热门词,所述方法还包括:通过自然语言处理和语音转换文本的方法提取诈骗热门词;计算指定时间窗口内的诈骗热门词的词频,形成诈骗热门词的词频时间序列;基于所述诈骗热门词的词频时间序列,采用时间序列预测方法,预测诈骗热门词在下一个时间窗口内的值。
按下述方法确定热门词所处的生命周期阶段,
处于上升期的热词:Ft+1>At,At>At-1,At-1>At-2
处于下降期的热词:Ft+1<At,At<At-1,At-1<At-2
处于平稳期的热词:
Figure BDA0002060510170000031
Figure BDA0002060510170000032
其中,Ft+1是下一个时间窗口内热门词词频预测值,Ai是第i时间窗口内词频,t是当前时间窗口,
Figure BDA0002060510170000033
增福阈值。
另一方面,本发明实施例提供了一种处理装置,装置包括:
指标选取模块,用于获取目标群体的基础信息和通信行为指标数据,并按照预定筛选规则,对所述指标数据进行筛选,获得目标群体特征指标,所述目标群体特征指标包括:通话次数、主叫次数和诈骗热门词;
指标时序序列形成模块,用于计算指定时间窗口内的所述目标群体特征指标对应的指标值,形成目标群体的特征指标时间序列;
指标时序序列预测模块,基于所述目标群体的特征指标时间序列,采用时间序列预测方法,预测目标群体特征指标的值。
再一方面,本发明实施例提供了一种计算设备,设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现如本发明实施例提供的计算方法。
再一方面,本发明实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如本发明实施例提供的处理方法。
本发明实施例的电信诈骗演变分析预测方法、装置、设备及计算机存储介质,通过基于大数据技术,按定义的时间窗口提取诈骗活动特征指标值,再结合时间序列预测方法,预测指标未来发展趋势,从而实现对诈骗活动未来特点的预测。电信诈骗活动特征指标包括诈骗方群体特征指标、目标群体特征指标、受害方群体特征指标、诈骗热门词等,弥补了现有电信诈骗领域分析集中在诈骗识别的局限,从电信诈骗指标历史演变角度提出了一种电信诈骗分析预测方法和系统。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的电信诈骗分析预测方法流程示意图;
图2是本发明实施例提供的处理方法的流程示意图;
图3是本发明实施例提供的电信诈骗分析预测系统示意图;
图4是本发明实施例提供的处理装置的结构示意图;
图5是本发明实施例提供的示例性硬件架构的示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了能够提前了解未来诈骗活动特点发展方向,本发明实施例提供了一种电信诈骗演变分析预测方法,下面首先对本发明实施例所提供的电信诈骗演变分析预测方法进行详细描述。
图1所示为本发明实施例的电信诈骗演变分析预测方法流程示意图,所示方法包括:
S101,获取目标群体的基础信息和通信行为指标数据;按照预定筛选规则,对所述指标数据进行筛选,获得目标群体特征指标,所述目标群体特征指标包括:通话次数、主叫次数和诈骗热门词;
S102,计算指定时间窗口内的目标群体特征指标对应的指标值,形成目标群体的特征指标时间序列;
S103,基于所述目标群体的特征指标时间序列,采用时间序列预测方法,预测目标群体特征指标的值。
本发明提出的电信诈骗演变分析预测方法,基于历史积累的电信诈骗案件中的目标群体号码,选定目标群体特征指标,电信诈骗活动特征指标包括诈骗方群体特征指标、受害方群体特征指标和诈骗热门词等。按照选定的特征指标采集数据,采集工作根据定义的时间窗口执行,每次采集一个或几个时间窗口内的数据。然后基于大数据技术,按定义的时间窗口提取诈骗活动特征指标值,形成指标时间序列,再结合时间序列预测方法,预测指标未来发展趋势,包括诈骗方、受害方和热门词等的预测。
本发明通过诈骗活动历史演变及发展趋势情况对比分析将特征指标及其取值按照时间顺序对比展现,实现从诈骗方、受害方追踪诈骗活动特征的历史演变情况,从而实现对诈骗活动未来特点的预测。本发明从电信诈骗指标历史演变角度提出了一种电信诈骗分析预测方案,能够了解未来诈骗活动特点发展方向,提早展开防范措施。
在一个实施例中,目标群体为诈骗方群体,具体地,诈骗方是电信欺诈中行骗的一方,诈骗方群体特征分析预测可以了解当前诈骗方的特点以及未来演变趋势,为电信诈骗识别和防范提供依据。
在一个实施例中,目标群体为受害方群体,具体地,受害方是指诈骗案件中受到经济损失的一方,受害方群体特征分析预测可以了解电信诈骗中容易受骗的用户特征,从而使得宣传教育更具有针对性,可以理解的是,受害方群体包括已经受害用户和行骗未遂的用户,从受众的角度分析诈骗的演变趋势,可以有针对性的对符合受害群体特征的用户进行宣传教育。
在一个实施例中,对历史积累的电信诈骗案件中的号码添加标记,所述标记为以下各项中的至少一项:诈骗方号码、受害方号码,具体地,如果某号码在历史案件中有过行骗记录,则被标记为诈骗方号码,如果某号码在历史案件记录中有过被骗记录或者被骗未遂记录,则被标记为受害方号码,如果没有上述提到的任一项记录,则不被标记。
在一个实施例中,所述预定筛选规则包括:采用因子分析方法、主成分分析方法和基于信息熵的属性选择方法对所述指标数据进行筛选,具体地,先采用因子分析和主成分分析方法剔除诈骗方群体特征指标中的冗余指标和互相关性高的指标,然后基于信息熵的属性选择方法,选取出重要的TOP N指标,作为诈骗方群体特征指标。
在一个实施例中,所述预定筛选规则包括:采用因子分析方法、主成分分析方法和基于信息熵的属性选择方法对所述指标数据进行筛选,具体地,先采用因子分析和主成分分析方法剔除受害方群体特征指标中的冗余指标和互相关性高的指标,然后基于信息熵的属性选择方法,选取出重要的TOP N指标,作为受害方群体特征指标。
在一个实施例中,所述计算指定时间窗口内的目标群体特征指标值,包括:计算指定时间窗口内所述目标群体中的每个个体的特征指标值,然后按照指标类型计算目标群体特征指标值,具体地,计算时间窗口内每个诈骗号码对应的特征指标值,再计算时间窗口内诈骗方群体特征指标值。
在一个实施例中,所述计算指定时间窗口内的目标群体特征指标值,包括:计算指定时间窗口内所述目标群体中的每个个体的特征指标值,然后按照指标类型计算目标群体特征指标值,具体地,计算时间窗口内每个受害方号码对应的特征指标值,再计算时间窗口内受害方群体特征指标值。
在一个实施例中,所述指标类型包括数值型指标和分类型指标,具体地,将指标类型分为数值型指标和分类型指标,能够清晰的对目标群体特征指标给出准确的值,方便后续的统计和分析。
在一个实施例中,计算目标群体数值型指标包括:将所述目标个体特征指标值通过3-sigma异常监测方法剔除异常值后,计算其算术平均数得到目标群体特征指标值,具体地,数值型指标的特征是该指标可以用数字表示,如通话人数、通话次数等。
在一个实施例中,计算目标群体分类型指标包括:按指标取值的类别数形成多个子指标,每个子指标对应一个类别,分别计算子指标的取值,取值最大子指标代表的类别,得到目标群体特征指标值,具体地,分类型指标的特征在于该指标用类别来表示,例如,诈骗方性别分为男/女、诈骗方地域分为某省等,受害方年纪是否年满X周岁,受害方省份等。
在一个实施例中,所述时间序列预测方法为移动平均时间序列预测方法,所述移动平均时间序列预测方法为:Ft+1=ωtAtt-1At-1+…+ωt-pAt-p,其中Ft+1为特征指标在下一个时间窗口预测值,ωi为第i时间窗口指标的权重,Ai为第i时间窗口指标值,p为移动时期数,所述权重基于信息熵计算得出,具体地,时间序列预测方法可以采用:移动平均时间序列预测方法、加权移动平均法、趋势预测法或季节性趋势预测法等,优选地,本发明的实施例选用移动平均时间序列预测方法。
在一个实施例中,所述特征指标为诈骗热门词,通过自然语言处理和语音转换文本的方法提取诈骗热门词;计算指定时间窗口内的诈骗热门词的词频,形成诈骗热门词的词频时间序列;基于所述诈骗热门词的词频时间序列,采用时间序列预测方法,预测诈骗热门词在下一个时间窗口内的值,具体地,诈骗热门词是指当前时间窗口内电信诈骗案件中热门出现的词,以名词、动词和形容词为主。每个热门词对应一个指标,该热门词在当前时间窗口内的词频作为对应指标的取值,词频表示词的热门程度。
在一个实施例中,按下述方法确定热门词所处的生命周期阶段,
处于上升期的热词:Ft+1>At,At>At-1,At-1>At-2
处于下降期的热词:Ft+1<At,At<At-1,At-1<At-2
处于平稳期的热词:
Figure BDA0002060510170000081
Figure BDA0002060510170000082
其中,Ft+1是下一个时间窗口内热门词词频预测值,Ai是第i时间窗口内词频,t是当前时间窗口,
Figure BDA0002060510170000083
增福阈值,具体地,热门词的分析和预测可以了解哪些诈骗常用词处于上升阶段,哪些处于平稳阶段和哪些已经处于下降阶段,从而可以把握和评估宣传教育的重点和效果,也为诈骗识别提供依据。
本发明通过根据预先定义的时间窗口,定义和计算包括欺诈方、受害方、目标群体、热门词、等电信诈骗活动特征指标,再基于这些指标时序序列来预测电信诈骗特征未来趋势。本发明从电信诈骗指标历史演变角度提出了一种电信诈骗分析预测方法和系统,提前了解未来诈骗活动特点发展方向,提早展开防范措施,减少通讯诈骗案件的发生。
图2示出了本发明实施例提供的处理方法的流程示意图,本发明基于大数据技术的电信欺诈演变分析预测方法是基于预先定义的时间窗口,计算诈骗特征指标值,从而形成指标时序序列,再基于时间序列预测方法,预测未来时间窗口内指标值变化趋势。
在一个实施例中,分析预测诈骗方群体特征发展趋势。诈骗方是电信欺诈中行骗的一方,诈骗方群体特征分析预测可以了解当前诈骗方的特点以及未来演变趋势,为电信诈骗识别和防范提供依据。诈骗方群体特征分析预测具体步骤如下:
首先,基于运营商数据,提取电信用户基础信息和通信行为,还可以提取交往圈行为和通信活跃空间信息等指标,参见示例性的电信用户指标表,如表1所示:
表1
Figure BDA0002060510170000084
Figure BDA0002060510170000091
其次,基于历史积累的电信诈骗案件中的诈骗方号码,为电信用户进行诈骗号码标注,标注字段设为“是否诈骗号码”;以“是否诈骗号码”字段为目标变量,提取的指标为因变量,选定诈骗方群体特征指标。先采用因子分析和主成分分析方法剔除提取的指标中冗余指标和互相关性高的指标,然后基于信息熵的属性选择方法,选取出重要的TOP N指标,作为诈骗方群体特征指标;计算时间窗口内每个诈骗号码对应的TOP N指标的特征指标值;
再次,按照如下的方法,计算时间窗口内诈骗方群体特征指标值:
数值型指标:采用3-sigma异常监测方法剔除异常值后,将其算术平均数作为该指标在当前时间窗口内的取值,可以理解的是,数值型指标的特征是该指标可以用数字表示,如通话人数、通话次数等。
分类型指标(含序列型指标):按指标取值个数(类别数)形成多个子指标,每个子指标对应一个类别,分别计算子指标的取值(子指标对应的类别在整体中占的比例),取值最大的子指标代表的类别就是该分类型指标在当前时间窗口内的取值,实际上就是最频繁的类别作为分类型指标的取值,分成子指标是为了方便后续的预测,可以理解的是,分类型指标的特征在于该指标用类别来表示,例如,诈骗方性别分为男/女、诈骗方地域分为某某省等。
然后,计算所有时间窗口内的诈骗方群体特征指标值,形成指标时间序列;
最后,采用时间序列预测方法,预测诈骗方群体特征指标在下一个时间窗口内的值。由诈骗方群体特征指标时序序列的特点,本方法采用移动平均时间序列预测方法,公式如下,也可以采用类似的其它方法进行预测。
Ft+1=ωtAtt-1At-1+…+ωt-pAt-p
其中Ft+1为指标在下一个时间窗口预测值,ωi为第i时间窗口指标的权重,Ai为第i时间窗口指标值,p为移动时期数。
针对数值类型指标直接采用上述方法对指标值进行预测。对于分类型指标,先根据各子指标时序序列,预测各个子指标下一个时间窗口内的取值,再取预测值最大的子指标对应的类别为该分类型指标在下一个时间窗口内的预测值。
在另一个实施例中,分析预测诈骗热门词发展趋势。诈骗热门词是指当前时间窗口内电信诈骗案件中热门出现的词,以名词、动词和形容词为主。每个热门词对应一个指标,该热门词在当前时间窗口内的词频作为对应指标的取值,词频表示词的热门程度。
首先,借助语音转文本工具,将时间窗口内的诈骗方通信语音信息转化成文本,并与短信等文本通信信息组合成通信文本数据;对通信文本数据进行分词、去停用词、词性标注、指代消减处理,并保留名词、动词、形容词;统计保留的动词、名词、形容词的词频,剔除词频TOP M0的词,保留词频介于TOP M0与TOP M0+M之间的M个词,作为当前时间窗口内诈骗热门词;
其次,重复上述操作得到所有时间窗口内的热门词以及对应的词频;集合上述操作得到热门词,剔除重复词,并基于相似词典合并意义相似的词,形成热门词以及热门词相似词列表;形成热门词以及随时间排列的词频时序序列,其中同一个时间窗口内相似词的词频相加形成对应热门词的词频;
再次,基于每个热门词词频时序序列,采用时间序列预测方法,预测热门词下一个时间窗口内词频。
最后,基于词频结果,按下述方法确定热门词所处的生命周期阶段,
处于上升期的热词:Ft+1>At,At>At-1,At-1>At-2
处于下降期的热词:Ft+1<At,At<At-1,At-1<At-2
处于平稳期的热词:
Figure BDA0002060510170000111
Figure BDA0002060510170000112
其中,Ft+1是下一个时间窗口内热门词词频预测值,Ai是第i时间窗口内词频,t是当前时间窗口,
Figure BDA0002060510170000113
增福阈值。
热门词的分析和预测可以了解哪些诈骗常用词处于上升阶段,哪些处于平稳阶段和哪些已经处于下降阶段,从而可以把握和评估宣传教育的重点和效果,也为诈骗识别提供依据。
图3示出了本发明的一个实施例提供的电信诈骗演变分析预测系统流程图,基于大数据技术的电信找演变分析预测系统是基于电信诈骗演变分析预测方法而成的系统,包括分析库、事件库、指标库、特征库等四个库以及数据采集、数据处理、提取特征、分析预测四个模块。
本实施例提供的电信诈骗演变分析预测系统基于预先定义好的时间窗口进行数据的采集和计算,计算结果也按照时间窗口顺序存储到对应的库中。数据库具体说明如下:
指标库存储诈骗方群体特征指标、受害方群体特征指标,这些指标的选定方法参见诈骗方群体特征指标分析预测的方法。这些指标是后续诈骗方群体特征、受害方群体特征的分析依据。
分析库可以理解为是中间库,存储经过处理后的数据,为后续诈骗特征提取基础,包括电信用户的基础信息(例如登记身份证信息、通话设备信息、欠缴费记录……)、通信信息(比如通信对端号码、通信内容、通信时间……)和电信诈骗案件的欺诈号码、受害号码、事件化的双方通信行为、双方通信文本内容(包括语音转文本、直接文本交流内容等)。可以理解的是,可以根据硬件性能,调整分析库中数据存储时长。
特征库可以理解为是结果库,由指标及指标在不同时间维度上的取值组成,这里的指标是指诈骗方群体特征指标、受害方群体特征指标、目标群体特征指标以及诈骗热门词等。用于后续的对比展现和指标预测。
电信诈骗演变分析预测系统中的数据走向流程具体说明如下:
数据采集模块用于采集公安部电信诈骗案件、工信部公布的名单以及运营商的用户基础数据、话单及信令数据。数据采集工作根据定义的时间窗口执行,每次采集一个或几个时间窗口内的数据。
数据处理模块,是将采集到的案件数据和运营商数据借助自然语言处理、语音转文本、数据仓库(Extract-Transform-Load,ETL)等技术转换成分析用的数据,存储到分析库中。包括电信诈骗案件备案文件解析、通信行为事件化处理、语音转文字、初级指标汇总计算以及结构化数据常规处理等。
电信诈骗特征提取模块包括诈骗方群体特征、受害方群体特征、诈骗热门词。基于分析库数据,按时间窗口计算指标值并存入特征库中。采用的方法包括机器学习、自然语言处理、统计分析等。
分析与预测模块主要包括针对诈骗活动历史演变情况进行对比分析和未来诈骗特点发展方向进行预测。其中,诈骗活动历史演变情况对比分析是指采用趋势图、雷达图、词云、列表等方式,将特征库中的指标及其取值按照时间顺序对比展现,从而实现从诈骗方、受害方追踪诈骗活动特征的历史演变情况。
本发明的实施例基于时间序列预测方法,根据特征库中的指标时序序列,预测未来时间窗口内的取值,从而确定指标发展趋势,即诈骗特征发展趋势,进而实现未来诈骗活动特点发展方向预测。包括诈骗方、受害方、目标群体、热门词的预测。了解未来诈骗活动特点发展方向,可使提早展开防范措施,让诈骗监测和宣传跟上行骗步伐。
图4所示为本发明实施例的电信诈骗演变分析预测装置的结构框图,计算装置包括:
指标选取模块210,用于计算指定时间窗口内的指定项的指标值;其中,所述指定项为目标群体、诈骗热门词;
指标时序序列形成模块220,用于将所述指定项的指标值基于所述指定时间窗口排列,得到指标时序序列;
指标时序序列预测模块230,用于基于时间序列预测方法,对所述指标时序序列中的指定项的指标值进行计算,以获得所述指标值变化趋势的预测结果。
图5示出了本发明实施例提供的电信诈骗演变分析预测方法的硬件结构示意图。
处理设备可以包括处理器301以及存储有计算机程序指令的存储器302。
具体地,上述处理器301可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器302可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器302可在综合网关容灾设备的内部或外部。在特定实施例中,存储器302是非易失性固态存储器。在特定实施例中,存储器302包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器301通过读取并执行存储器302中存储的计算机程序指令,以实现上述实施例中的任意一种处理方法。
在一个示例中,处理设备还可包括通信接口303和总线310。其中,如图5所示,处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。
通信接口303,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线310包括硬件、软件或两者,将电信诈骗演变分析预测设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线310可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
该处理设备可以执行本发明实施例中的电信诈骗演变分析预测方法,从而实现结合图1和图4描述的电信诈骗演变分析预测方法和装置。
另外,结合上述实施例中的电信诈骗演变分析预测方法,本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种电信诈骗演变分析预测方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为软件方式,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (12)

1.一种电信诈骗演变分析预测方法,其特征在于,包括:
获取目标群体的基础信息和通信行为指标数据;
按照预定筛选规则,对所述指标数据进行筛选,获得目标群体特征指标,所述目标群体特征指标包括:通话次数、主叫次数和诈骗热门词;
计算指定时间窗口内的所述目标群体特征指标对应的指标值,形成目标群体的特征指标时间序列;
基于所述目标群体的特征指标时间序列,采用时间序列预测方法,预测目标群体特征指标的值,所述预测目标群体特征指标的值包括预测下一个时间窗口内的目标群体特征指标的值;
其中,所述计算指定时间窗口内的所述目标群体特征指标对应的指标值包括:
计算指定时间窗口内每个个体对应的特征指标值,再计算所述指定时间 窗口内目标群体特征指标值。
2.根据权利要求1所述的方法,其特征在于,所述目标群体为诈骗方群体或受害方群体。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:对历史积累的电信诈骗案件中的号码添加标记,所述标记为以下各项中的至少一项:诈骗方号码、受害方号码。
4.根据权利要求1所述的方法,其特征在于,所述预定筛选规则包括:采用因子分析方法、主成分分析方法和基于信息熵的属性选择方法对所述指标数据进行筛选。
5.根据权利要求1所述的方法,其特征在于,所述计算指定时间窗口内每个个体对应的特征指标值,再计算所述指定窗口内目标群体特征指标值,包括:
计算指定时间窗口内所述目标群体中的每个个体的特征指标值,然后按照指标类型计算目标群体特征指标值。
6.根据权利要求5所述的方法,其特征在于,所述指标类型包括数值型指标和分类型指标,所述方法还包括:
计算目标群体数值型指标包括:将所述目标个体特征指标值通过3-sigma异常监测方法剔除异常值后,计算其算术平均数得到目标群体特征指标值;
计算目标群体分类型指标包括:按指标取值的类别数形成多个子指标,每个子指标对应一个类别,分别计算子指标在所述目标群体中所占比例,根据所占比例最大的子指标代表的类别,得到目标群体特征指标值。
7.根据权利要求1所述的方法,其特征在于,所述时间序列预测方法为移动平均时间序列预测方法。
8.根据权利要求1所述的方法,其特征在于,所述特征指标为诈骗热门词,所述方法还包括:
通过自然语言处理和语音转换文本的方法提取诈骗热门词;
计算指定时间窗口内的诈骗热门词的词频,形成诈骗热门词的词频时间序列;
基于所述诈骗热门词的词频时间序列,采用时间序列预测方法,预测诈骗热门词在下一个时间窗口内的值。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:按下述方法确定热门词所处的生命周期阶段,
处于上升期的热词:Ft+1>At,At>At-1,At-1>At-2
处于下降期的热词:Ft+1<At,At<At-1,At-1<At-2
处于平稳期的热词:
Figure FDA0003175648670000021
Figure FDA0003175648670000022
其中,Ft+1是下一个时间窗口内热门词词频预测值,At是第t时间窗口内词频,t是当前时间窗口,
Figure FDA0003175648670000023
增福阈值。
10.一种电信诈骗演变分析预测装置,其特征在于,包括:
指标选取模块,用于获取目标群体的基础信息和通信行为指标数据,并按照预定筛选规则,对所述指标数据进行筛选,获得目标群体特征指标,所述目标群体特征指标包括:通话次数、主叫次数和诈骗热门词;
指标时序序列形成模块,用于计算指定时间窗口内的所述目标群体特征指标对应的指标值,形成目标群体的特征指标时间序列;
指标时序序列预测模块,基于所述目标群体的特征指标时间序列,采用时间序列预测方法,预测目标群体特征指标的值,所述预测目标群体特征指标的值包括预测下一个时间窗口内的目标群体特征指标的值;
其中,所述计算指定时间窗口内的所述目标群体特征指标对应的指标值包括:
计算指定时间窗口内每个个体对应的特征指标值,再计算所述指定时间 窗口内目标群体特征指标值。
11.一种计算设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-9任意一项所述的电信诈骗演变分析预测方法。
12.一种计算机储存介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-9任意一项所述的电信诈骗演变分析预测方法。
CN201910403476.2A 2019-05-15 2019-05-15 电信诈骗演变分析预测方法、装置、设备及介质 Active CN110210653B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910403476.2A CN110210653B (zh) 2019-05-15 2019-05-15 电信诈骗演变分析预测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910403476.2A CN110210653B (zh) 2019-05-15 2019-05-15 电信诈骗演变分析预测方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN110210653A CN110210653A (zh) 2019-09-06
CN110210653B true CN110210653B (zh) 2021-11-16

Family

ID=67787303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910403476.2A Active CN110210653B (zh) 2019-05-15 2019-05-15 电信诈骗演变分析预测方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN110210653B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985815A (zh) * 2020-08-21 2020-11-24 国网能源研究院有限公司 一种能源电力运营评价指标的筛选方法及装置
CN112437197B (zh) * 2020-10-30 2021-06-18 中国人民解放军战略支援部队信息工程大学 一种基于通信行为信息熵的异常呼叫发现方法与装置
CN113257250A (zh) * 2021-05-11 2021-08-13 歌尔股份有限公司 一种诈骗行为检测方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5839063A (en) * 1995-09-01 1998-11-17 Lucent Technologies Inc. Authentication system and method for preventing wireless communication fraud
CN108156333A (zh) * 2018-02-01 2018-06-12 天津市国瑞数码安全系统股份有限公司 一种防止诈骗的控制系统
CN109615116A (zh) * 2018-11-20 2019-04-12 中国科学院计算技术研究所 一种电信诈骗事件检测方法和检测系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109756632B (zh) * 2018-12-19 2021-08-17 国家计算机网络与信息安全管理中心 一种基于多维时间序列的诈骗电话分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5839063A (en) * 1995-09-01 1998-11-17 Lucent Technologies Inc. Authentication system and method for preventing wireless communication fraud
CN108156333A (zh) * 2018-02-01 2018-06-12 天津市国瑞数码安全系统股份有限公司 一种防止诈骗的控制系统
CN109615116A (zh) * 2018-11-20 2019-04-12 中国科学院计算技术研究所 一种电信诈骗事件检测方法和检测系统

Also Published As

Publication number Publication date
CN110210653A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110910901B (zh) 一种情绪识别方法及装置、电子设备和可读存储介质
CN110210653B (zh) 电信诈骗演变分析预测方法、装置、设备及介质
CN107609708B (zh) 一种基于手机游戏商店的用户流失预测方法及系统
CN104794192B (zh) 基于指数平滑、集成学习模型的多级异常检测方法
CN107222865A (zh) 基于可疑行为识别的通讯诈骗实时检测方法和系统
CN110248322A (zh) 一种基于诈骗短信的诈骗团伙识别系统及识别方法
CN111061948B (zh) 一种用户标签推荐方法、装置、计算机设备及存储介质
CN115204886A (zh) 账户识别的方法、装置、电子设备和存储介质
CN113706291A (zh) 欺诈风险预测方法、装置、设备及存储介质
CN113506097B (zh) 一种在岗状态监测方法、装置、设备及存储介质
CN111105064A (zh) 确定欺诈事件的嫌疑信息的方法及装置
CN113065901A (zh) 积分业务体系的风控系统和风控方法
Hamdy et al. Criminal act detection and identification model
CN110210868B (zh) 数值转移数据的处理方法及电子设备
CN111915312A (zh) 风险识别方法及装置和电子设备
CN105302844B (zh) 互联网监测方法、装置及系统
CN108874619B (zh) 一种信息监控方法、存储介质和服务器
CN113923011B (zh) 一种网络诈骗的预警方法、装置、计算机设备及存储介质
CN113011503B (zh) 一种电子设备的数据取证方法、存储介质及终端
KR20130083286A (ko) 이동통신 단말기의 스팸 처리 시스템
CN115687460A (zh) 利用轨迹数据挖掘重点人群的关联对象的方法及系统
CN112084408A (zh) 名单数据筛选方法、装置、计算机设备及存储介质
CN111552808A (zh) 一种基于卷积神经网络的行政违法案由预测方法及工具
KR20210057437A (ko) 뉴스데이터를 이용한 지지율 예측 시스템
CN115936431B (zh) 再犯罪风险评估方法、装置、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant