CN118035740A - 诈骗电话识别模型的训练方法、装置、电子设备及介质 - Google Patents
诈骗电话识别模型的训练方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN118035740A CN118035740A CN202410094956.6A CN202410094956A CN118035740A CN 118035740 A CN118035740 A CN 118035740A CN 202410094956 A CN202410094956 A CN 202410094956A CN 118035740 A CN118035740 A CN 118035740A
- Authority
- CN
- China
- Prior art keywords
- fraud
- sample
- feature
- data set
- time sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012216 screening Methods 0.000 claims abstract description 99
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 79
- 238000012545 processing Methods 0.000 claims abstract description 69
- 230000011664 signaling Effects 0.000 claims abstract description 56
- 239000000523 sample Substances 0.000 claims description 248
- 238000004364 calculation method Methods 0.000 claims description 39
- 239000013074 reference sample Substances 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 230000000977 initiatory effect Effects 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 9
- 238000011282 treatment Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 12
- 230000002159 abnormal effect Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2281—Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Technology Law (AREA)
- Computer Security & Cryptography (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本申请提供了一种诈骗电话识别模型的训练方法、装置、电子设备及介质。所述方法包括:对与GOIP诈骗号码关联的信令话务特征进行处理,得到时间序列数据集;基于预设动态时间规整算法对所述时间序列数据集进行相关特征筛选处理,得到从所述时间序列数据集中筛选的中间样本特征;基于Boosting的特征筛选算法对所述中间样本特征进行特征加权筛选处理,得到从所述中间样本特征中筛选的目标样本特征,并构建目标训练样本集;基于目标训练样本集对待训练诈骗电话识别模型进行训练,得到诈骗电话识别模型。本申请可以提高构建的诈骗电话识别模型的精度,从而提高诈骗电话识别的准确性和效率,以有效避免用户受到诈骗电话带来的不必要损失。
Description
技术领域
本申请涉及通信技术领域,特别是涉及一种诈骗电话识别模型的训练方法、装置、电子设备及介质。
背景技术
在通信网络诈骗中,因GOIP(Gsm Over Internet Protocol)设备无人值守、可远程操控,与卡池结合使用可实现机卡分离等特点,诈骗分子逐步改用GOIP设备进行犯罪,及时快速地识别GOIP诈骗电话是非常有必要的。
现有技术中,通常是使用静态呼叫特征或者使用时序特征进行GOIP诈骗电话识别模型的构建,这一技术缺陷使得GOIP诈骗号码识别滞后且不精准,且无法预测GOIP诈骗电话。
发明内容
本申请实施例所要解决的技术问题是提供一种诈骗电话识别模型的训练方法、装置、电子设备及介质,以有效提高构建的诈骗电话识别模型的精度,从而提高诈骗电话识别的准确性和效率,以有效避免用户受到诈骗电话带来的不必要损失。
第一方面,本申请实施例提供了一种诈骗电话识别模型的训练方法,所述方法包括:
对与GOIP诈骗号码关联的信令话务特征进行处理,得到时间序列数据集;
基于预设动态时间规整算法对所述时间序列数据集进行相关特征筛选处理,得到从所述时间序列数据集中筛选的中间样本特征;
基于Boosting的特征筛选算法对所述中间样本特征进行特征加权筛选处理,得到从所述中间样本特征中筛选的目标样本特征,并构建目标训练样本集;
基于所述目标训练样本集对待训练诈骗电话识别模型进行训练,得到所述诈骗电话识别模型。
可选地,所述对与GOIP诈骗号码关联的信令话务特征进行处理,得到时间序列数据集,包括:
根据GOIP设备上涉诈的号码,构建GOIP诈骗号码库;
对所述GOIP诈骗号码库进行信令话务特征提取,得到与GOIP诈骗号码关联的所述信令话务特征;
按照时间顺序和预设时长对所述信令话务特征进行整合,生成初始时间序列数据集;
基于预设加权移动平均算法对所述初始时间序列数据集进行二次数据处理,得到所述时间序列数据集。
可选地,所述基于预设动态时间规整算法对所述时间序列数据集进行相关特征筛选处理,得到从所述时间序列数据集中筛选的中间样本特征,包括:
对所述时间序列数据集内的数据进行标准化处理,得到标准化数据;
基于所述预设动态时间规整算法对所述标准化数据进行相似度计算,并根据相似度计算结果,从所述时间序列数据集中筛选出所述中间样本特征。
可选地,所述基于所述预设动态时间规整算法对所述标准化数据进行相似度计算,并根据相似度计算结果,从所述时间序列数据集中筛选出所述中间样本特征,包括:
获取收集的非GOIP诈骗号码对应的候选时间序列数据集;
基于所述预设动态时间规整算法对所述候选时间序列数据集中的目标数据与所述标准化数据进行相似度计算,得到相似度计算结果;所述目标数据为所述候选时间序列数据集中的与所述标准化数据时间相同的数据;
基于所述相似度计算结果从所述时间序列数据集和所述候选时间序列数据集中筛选出所述中间样本特征。
可选地,所述基于Boosting的特征筛选算法对所述中间样本特征进行特征加权筛选处理,得到从所述中间样本特征中筛选的目标样本特征,并构建目标训练样本集,包括:
基于所述Boosting的特征筛选算法对所述中间样本特征进行特征筛选,得到基准样本特征;
根据预先设置的特征类型对应的权重对所述基准样本特征进行特征加权处理,并根据加权结果从所述基准样本特征中筛选出所述目标样本特征,以构建所述目标训练样本集。
可选地,所述基于所述Boosting的特征筛选算法对所述中间样本特征进行特征筛选,得到基准样本特征,包括:
获取所述中间样本特征的初始化样本权重和预先训练的弱分类器;
基于所述弱分类器对所述中间样本特征进行处理,得到所述中间样本特征对应的分类预测结果;
根据所述分类预测结果,计算得到所述中间样本特征对应的分类误差;
基于所述分类误差更新所述初始化样本权重,得到所述中间样本特征对应的更新样本权重;
将所述更新样本权重作为所述初始化样本权重,并迭代执行设定轮次的所述基于所述弱分类器对所述中间样本特征进行处理,得到所述中间样本特征对应的分类预测结果,至所述基于所述分类误差更新所述初始化样本权重,得到所述中间样本特征对应的更新样本权重的步骤;
根据所述中间样本特征在每轮处理过程中的样本权重,确定所述中间样本特征对应的特征重要性分数;
基于所述特征重要性分数,从所述中间样本特征中筛选出所述基准样本特征。
可选地,在所述基于所述目标训练样本集对待训练诈骗电话识别模型进行训练,得到所述诈骗电话识别模型之后,还包括:
将待识别号码在距离当前时间的预设时长内的信令话务特征转换为时间序列的话务特征;
将所述时间序列的话务特征输入至所述诈骗电话识别模型,得到所述待识别号码的诈骗预测结果;
响应于所述诈骗预测结果为诈骗号码的预测结果,获取所述待识别号码对应的呼叫发起基站信息;
基于所述呼叫发起基站信息,定位所述待识别号码对应的GOIP设备。
第二方面,本申请实施例提供了一种诈骗电话识别模型的训练装置,所述装置包括:
时间序列数据集获取模块,用于对与GOIP诈骗号码关联的信令话务特征进行处理,得到时间序列数据集;
中间样本特征获取模块,用于基于预设动态时间规整算法对所述时间序列数据集进行相关特征筛选处理,得到从所述时间序列数据集中筛选的中间样本特征;
目标训练样本集构建模块,用于基于Boosting的特征筛选算法对所述中间样本特征进行特征加权筛选处理,得到从所述中间样本特征中筛选的目标样本特征,并构建目标训练样本集;
诈骗电话识别模型获取模块,用于基于所述目标训练样本集对待训练诈骗电话识别模型进行训练,得到所述诈骗电话识别模型。
可选地,所述时间序列数据集获取模块包括:
号码库构建单元,用于根据GOIP设备上涉诈的号码,构建GOIP诈骗号码库;
信令话务特征获取单元,用于对所述GOIP诈骗号码库进行信令话务特征提取,得到与GOIP诈骗号码关联的所述信令话务特征;
初始序列数据集生成单元,用于按照时间顺序和预设时长对所述信令话务特征进行整合,生成初始时间序列数据集;
时间序列数据集获取单元,用于基于预设加权移动平均算法对所述初始时间序列数据集进行二次数据处理,得到所述时间序列数据集。
可选地,所述中间样本特征获取模块包括:
标准化数据获取单元,用于对所述时间序列数据集内的数据进行标准化处理,得到标准化数据;
中间样本特征筛选单元,用于基于所述预设动态时间规整算法对所述标准化数据进行相似度计算,并根据相似度计算结果,从所述时间序列数据集中筛选出所述中间样本特征。
可选地,所述中间样本特征筛选单元包括:
候选序列数据集获取子单元,用于获取收集的非GOIP诈骗号码对应的候选时间序列数据集;
相似度计算结果获取子单元,用于基于所述预设动态时间规整算法对所述候选时间序列数据集中的目标数据与所述标准化数据进行相似度计算,得到相似度计算结果;所述目标数据为所述候选时间序列数据集中的与所述标准化数据时间相同的数据;
中间样本特征筛选子单元,用于基于所述相似度计算结果从所述时间序列数据集和所述候选时间序列数据集中筛选出所述中间样本特征。
可选地,所述目标训练样本集构建模块包括:
基准样本特征获取单元,用于基于所述Boosting的特征筛选算法对所述中间样本特征进行特征筛选,得到基准样本特征;
目标训练样本集构建单元,用于根据预先设置的特征类型对应的权重对所述基准样本特征进行特征加权处理,并根据加权结果从所述基准样本特征中筛选出所述目标样本特征,以构建所述目标训练样本集。
可选地,所述基准样本特征获取单元包括:
初始权重获取子单元,用于获取所述中间样本特征的初始化样本权重和预先训练的弱分类器;
分类预测结果获取子单元,用于基于所述弱分类器对所述中间样本特征进行处理,得到所述中间样本特征对应的分类预测结果;
分类误差计算子单元,用于根据所述分类预测结果,计算得到所述中间样本特征对应的分类误差;
更新样本权重获取子单元,用于基于所述分类误差更新所述初始化样本权重,得到所述中间样本特征对应的更新样本权重;
迭代执行子单元,用于将所述更新样本权重作为所述初始化样本权重,并迭代执行设定轮次的所述分类预测结果获取子单元、所述分类误差计算子单元和所述更新样本权重获取子单元;
特征重要性分数确定子单元,用于根据所述中间样本特征在每轮处理过程中的样本权重,确定所述中间样本特征对应的特征重要性分数;
基准样本特征筛选子单元,用于基于所述特征重要性分数,从所述中间样本特征中筛选出所述基准样本特征。
可选地,所述装置还包括:
话务特征转换模块,用于将待识别号码在距离当前时间的预设时长内的信令话务特征转换为时间序列的话务特征;
诈骗预测结果获取模块,用于将所述时间序列的话务特征输入至所述诈骗电话识别模型,得到所述待识别号码的诈骗预测结果;
基站信息获取模块,用于响应于所述诈骗预测结果为诈骗号码的预测结果,获取所述待识别号码对应的呼叫发起基站信息;
GOIP设备定位模块,用于基于所述呼叫发起基站信息,定位所述待识别号码对应的GOIP设备。
第三方面,本申请实施例提供了一种电子设备,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述的诈骗电话识别模型的训练方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一项所述的诈骗电话识别模型的训练方法。
与现有技术相比,本申请实施例包括以下优点:
本申请实施例中,通过对与GOIP诈骗号码关联的信令话务特征进行处理,得到时间序列数据集。基于预设动态时间规整算法对时间序列数据集进行相关特征筛选处理,得到从时间序列数据集中筛选的中间样本特征。基于Boosting的特征筛选算法对中间样本特征进行特征加权筛选处理,得到从中间样本特征中筛选的目标样本特征,并构建目标训练样本集。基于目标训练样本集对待训练诈骗电话识别模型进行训练,得到诈骗电话识别模型。本申请实施例通过构建时间序列的信令话务特征数据集,并采用基于Boosting的特征筛选算法对重要特征进行加权,构建的模型更精准,使得识别效率更高,对于诈骗电话的识别精准度更强,能够有效地避免用户受到诈骗电话所带来的不必要损失。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
图1为本申请实施例提供的一种诈骗电话识别模型的训练方法的步骤流程图;
图2为本申请实施例提供的一种分类器训练流程的示意图;
图3为本申请实施例提供的一种基于时间序列模型的GOIP诈骗电话的识别流程的示意图;
图4为本申请实施例提供的一种诈骗电话识别模型的训练装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
参照图1,示出了本申请实施例提供的一种诈骗电话识别模型的训练方法的步骤流程图,如图1所示,该诈骗电话识别模型的训练方法可以包括:步骤101、步骤102、步骤103和步骤104。
步骤101:对与GOIP诈骗号码关联的信令话务特征进行处理,得到时间序列数据集。
本申请实施例可以应用于训练GOIP诈骗电话识别模型的场景中。
在本实施例中,在进行GOIP诈骗电话识别模型的训练时,可以获取与GOIP诈骗号码关联的信令话务特征。并对GOIP诈骗号码关联的信令话务特征进行处理,以得到时间序列数据集。对于该实现过程可以结合下述具体实现方式进行详细描述。
在本申请的一种具体实现中,上述步骤101可以包括:
子步骤A1:根据GOIP设备上涉诈的号码,构建GOIP诈骗号码库。
在本实施例中,在进行诈骗电话识别模型的训练时,可以获取GOIP设备上涉诈的号码,并根据根据GOIP设备上涉诈的号码构建GOIP诈骗号码库。在具体实现中,可以利用信令话单分析收集GOIP诈骗相关涉案号卡入网时长、入网渠道、呼叫频次,被叫归属分布占比、活跃时长、静默时长、活跃基站个数、位置轨迹、号码IMEI变化、终端信息库、基站小区信息库、年龄段等相关特征,并根据这些特征构建GOIP诈骗号码库。
其中,入网时长:从号码首次开通到使用期间所经过的时间。
入网渠道:号码首次开通所在的网点渠道。
呼叫频次:号码单位时间内的主叫次数。
被叫归属分布占比:单位时间内拨打给不同地市号码的数量/单位时间内号码主叫次数。
活跃时长:24小时内,每小时主叫次数>5的总计小时数。
静默时长:24小时内,每小时主叫次数=0的总计小时数。
位置轨迹:主叫一段时间内的基站轨迹重合度。
号码IMEI变化:号码累计使用不同手机终端的数量。
终端信息库:装载手机卡的手机信息,包括价格、是否支持5G,是否支持双卡等。
在根据GOIP设备上涉诈的号码构建GOIP诈骗号码库之后,执行子步骤子A2。
子步骤A2:对所述GOIP诈骗号码库进行信令话务特征提取,得到与GOIP诈骗号码关联的所述信令话务特征。
在根据GOIP设备上涉诈的号码构建GOIP诈骗号码库之后,则可以对GOIP诈骗号码库进行信令话务特征提取,得到与GOIP诈骗号码关联的信令话务特征。即从GOIP诈骗号码库中提取通话详单、位置、用户信息、终端等信令话务特征。
在对GOIP诈骗号码库进行信令话务特征提取得到与GOIP诈骗号码关联的信令话务特征之后,执行子步骤A3。
子步骤A3:按照时间顺序和预设时长对所述信令话务特征进行整合,生成初始时间序列数据集。
在对GOIP诈骗号码库进行信令话务特征提取得到与GOIP诈骗号码关联的信令话务特征之后,则可以按照时间顺序和预设时长对信令话务特征进行整合,生成初始时间序列数据集。具体地,可以将得到的每小时信令话务相关特征,按时间顺序排列整合成时间序列数据集,得到每个号码的一段时间内的通话序列,即初始时间序列数据集。
在按照时间顺序和预设时长对信令话务特征进行整合生成初始时间序列数据集之后,执行子步骤A4。
子步骤A4:基于预设加权移动平均算法对所述初始时间序列数据集进行二次数据处理,得到所述时间序列数据集。
在按照时间顺序和预设时长对信令话务特征进行整合生成初始时间序列数据集之后,则可以基于预设加权移动平均算法对初始时间序列数据集进行二次数据处理,得到时间序列数据集。
具体地,预设加权移动平均算法的公式可以如下公式(1)所示:
上述公式(1)中,为第t+1期的预测值,wi为第t-i+1期的观测值权数,yt-i+1为第t-i+1期的观测值,N为权数的个数。其中,调整权数的公式可以如下公式(2)所示:
wi'=wi+2kei+1yt-i+1 (2)
上述公式(2)中,i=1,2,3,...,N,t=N,N+1,...,n,wi为调整前的第i个权数,wi'为调整后的第i个权数,k为学习常数,ei+1为第i+1期的预测误差。
上述预设加权移动平均算法根据预测误差反复调整权数得到调整后的目标时间序列数据集,使误差减少到最低限度。
在对与GOIP诈骗号码关联的信令话务特征进行处理得到时间序列数据集之后,执行步骤102。
步骤102:基于预设动态时间规整算法对所述时间序列数据集进行相关特征筛选处理,得到从所述时间序列数据集中筛选的中间样本特征。
动态时间规整算法(Dynamic Time Warping,DTW)是按照距离最近原则,构建两个长度不同的序列元素的对应关系,评估两个序列的相似性。
在对与GOIP诈骗号码关联的信令话务特征进行处理得到时间序列数据集之后,则可以基于预设动态时间规整算法对时间序列数据集进行相关特征筛选处理,得到从时间序列数据集中筛选的中间样本特征。对于该实现过程可以结合下述具体实现进行详细描述。
在本申请的一种具体实现中,上述步骤102可以包括:
子步骤B1:对所述时间序列数据集内的数据进行标准化处理,得到标准化数据。
在本实施例中,DTW可用于识别时间序列数据中的相关性,从而找到与目标时间序列相关性最高的部分数据,选取与目标时间序列相关性最大的部分数据作为训练样本,确保选择的样本具有代表性,并且涵盖了诈骗和正常号码的各种模式。
在进行相似度计算时,可以对时间序列数据集内的数据进行标准化处理,得到标准化数据,以将数据缩放,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权,使之落入一个均值是0,标准差是1的数据分布区间。
在对时间序列数据集内的数据进行标准化处理得到标准化数据之后,执行子步骤B2。
子步骤B2:基于所述预设动态时间规整算法对所述标准化数据进行相似度计算,并根据相似度计算结果,从所述时间序列数据集中筛选出所述中间样本特征。
在对时间序列数据集内的数据进行标准化处理得到标准化数据之后,则可以基于预设动态时间规整算法对标准化数据进行相似度计算,并根据相似度计算结果,从时间序列数据集中筛选出中间样本特征。即采用预设动态时间规整算法计算两个时间序列之间相似度,快速选取与目标时间序列相关性最大的部分数据作为训练样本,减少了计算量,在一定程度上提高了算法运算效率。在具体实现中,可以获取收集的非GOIP诈骗号码对应的候选时间序列数据集。基于预设动态时间规整算法对候选时间序列数据集中的目标数据与标准化数据进行相似度计算,得到相似度计算结果,目标数据为候选时间序列数据集中的与标准化数据时间相同的数据。基于相似度计算结果从时间序列数据集和候选时间序列数据集中筛选出中间样本特征。即根据收集的正常号码和诈骗号码所对应的时间序列,设定一个目标时间序列(即希望在正常和诈骗数据中寻找相似性的时间序列),例如收集的正常、诈骗号码,时间序列集中在第一个小时和第四个小时内,目标时间序列的数据集,主要寻找在相同的时间点主叫次数、时长相似的其他号码。
在本实施例中,预设动态时间规整算法主要通过采用全局约束设置搜索范围,将搜索路径控制在规整窗口内部,其是将搜索路径只控制在平行四边形规整窗口的三个矩形内,矩形外的点都不需要再做计算,减少了计算量,在一定程度上提高了算法运算效率。该算法进一步缩小了规整路径的搜索范围,在一定程度上减少了原算法的计算量,从而达到运算效率上的提高,尤其是在两个时间序列的长度较长时,这种运算效率的提高显得更加的明显。
在基于预设动态时间规整算法对时间序列数据集进行相关特征筛选处理,得到从时间序列数据集中筛选的中间样本特征之后,执行步骤103。
步骤103:基于Boosting的特征筛选算法对所述中间样本特征进行特征加权筛选处理,得到从所述中间样本特征中筛选的目标样本特征,并构建目标训练样本集。
Boosting方法是一种用来提高弱分类算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将它们组合成一个预测函数。Boosting是一种提高任意给定学习算法准确度的方法。
在基于预设动态时间规整算法对时间序列数据集进行相关特征筛选处理,得到从时间序列数据集中筛选的中间样本特征之后,则可以基于Boosting的特征筛选算法对中间样本特征进行特征加权筛选处理,得到从中间样本特征中筛选的目标样本特征,并构建目标训练样本集。具体地,可以基于Boosting的特征筛选算法进行特征筛选,并根据经验获取的权重进行特征加权,以筛选出重要特征。对于该实现过程可以结合下述具体实现进行详细描述。
在本申请的一种具体实现中,上述步骤103可以包括:
子步骤C1:基于所述Boosting的特征筛选算法对所述中间样本特征进行特征筛选,得到基准样本特征。
在本实施例中,可以基于Boosting的特征筛选算法对中间样本特征进行特征筛选,得到基准样本特征。在本示例中,可以通过原始数据集的迭代训练,形成最终的强分类器,进而从构成强分类器的特征组合中,输出对应的特征集,即包含基准样本特征的数据集。对于该实现过程可以结合下述具体实现方式进行详细描述。
在本申请的另一种具体实现方式中,上述子步骤C1可以包括:
子步骤D1:获取所述中间样本特征的初始化样本权重和预先训练的弱分类器。
在本实施例中,可以预先设置的中间样本特征的初始化样本权重和预先训练的弱分类器。
子步骤D2:基于所述弱分类器对所述中间样本特征进行处理,得到所述中间样本特征对应的分类预测结果。
进而,可以基于弱分类器对中间样本特征进行处理,得到中间样本特征对应的分类预测结果。
子步骤D3:根据所述分类预测结果,计算得到所述中间样本特征对应的分类误差。
然后,可以根据分类预测结果,计算得到中间样本特征对应的分类误差。
子步骤D4:基于所述分类误差更新所述初始化样本权重,得到所述中间样本特征对应的更新样本权重。
在计算得到分类误差之后,在根据分类误差更新初始化样本权重,以得到中间样本特征对应的更新样本权重。
子步骤D5:将所述更新样本权重作为所述初始化样本权重,并迭代执行设定轮次的所述基于所述弱分类器对所述中间样本特征进行处理,得到所述中间样本特征对应的分类预测结果,至所述基于所述分类误差更新所述初始化样本权重,得到所述中间样本特征对应的更新样本权重的步骤。
在得到更新样本权重之后,可以将更新样本权重作为初始化样本权重,并迭代执行设定轮次的上述子步骤D2~子步骤D4。
子步骤D6:根据所述中间样本特征在每轮处理过程中的样本权重,确定所述中间样本特征对应的特征重要性分数。
在执行设定轮次的训练之后,可以根据中间样本特征在每轮处理过程中的样本权重,确定中间样本特征对应的特征重要性分数。
子步骤D7:基于所述特征重要性分数,从所述中间样本特征中筛选出所述基准样本特征。
进而可以根据特征重要性分数从中间样本特征中筛选出基准样本特征。
针对DTW算法构建的训练样本,采用boosting算法进行特征集筛选的流程可以如图2所示,具体步骤如下:
1、初始化样本权重w_i=1/n,使得初始时每个样本对模型的贡献相等,n是样本数;
2、对于每一轮迭代(例如,T轮),进行以下步骤:
2.1、训练一个弱分类器(例如,决策树)使用当前的样本权重;
2.2、使用训练好的弱分类器对整个数据集进行预测;
2.3、计算分类误差,即被错误分类的样本的权重之和;
2.4、计算弱分类器的权重,通常与分类误差有关;
2.5、更新样本权重,增加被错误分类的样本的权重,减小被正确分类的样本的权重;
3、计算每个特征在每轮训练中的权重,得到特征重要性分数;
4、对特征重要性分数降序排列,选择前k个特征作为最终选择的特征;
5、返回选择的特征集合。
在基于Boosting的特征筛选算法对中间样本特征进行特征筛选得到基准样本特征之后,执行子步骤C2。
子步骤C2:根据预先设置的特征类型对应的权重对所述基准样本特征进行特征加权处理,并根据加权结果从所述基准样本特征中筛选出所述目标样本特征,以构建所述目标训练样本集。
在基于Boosting的特征筛选算法对中间样本特征进行特征筛选得到基准样本特征之后,则可以根据预先设置的特征类型对应的权重对基准样本特征进行特征加权处理,并根据加权结果从基准样本特征中筛选出目标样本特征,以构建目标训练样本集。
在具体实现中,在得到基准样本特征之后,可以结合专家经验针对重要特征加权(w1,w2,w3,w4,w5),如下表1所示:
表1:
如上述表1所示,针对异常呼叫特征,可以增加特征权重W1,针对多IMEI(International Mobile Equipment Identity,国际移动设备标识)特征可以增加特征权重W2等。
本申请实施例采用基于Boosting的特征筛选算法,结合GOIP设备研究专家的经验,对重要特征进行加权,构建的模型更精准,使得识别效率更高,对于诈骗电话的识别精准度更强。
在基于Boosting的特征筛选算法对中间样本特征进行特征加权筛选处理,得到从中间样本特征中筛选的目标样本特征并构建目标训练样本集之后,执行步骤104。
步骤104:基于所述目标训练样本集对待训练诈骗电话识别模型进行训练,得到所述诈骗电话识别模型。
在本示例中,待训练诈骗电话识别模型可以为改进的LSTM模型。
在得到目标训练样本集之后,可以基于目标训练样本集对待训练诈骗电话识别模型进行训练,得到诈骗电话识别模型。具体地,可以将目标训练样本集划分为训练集、测试集、验证集,并代入改进的LSTM模型进行训练得到用于进行预测的目标模型,即诈骗电话识别模型。
在输出门部分加入自注意力机制,同时在每个隐藏层加入BN层和Dropout层,改善模型的过拟合程度,同时加快收敛速度。
本申请实施例通过构建时间序列的信令话务特征数据集,并采用基于Boosting的特征筛选算法对重要特征进行加权,构建的模型更精准,使得识别效率更高,对于诈骗电话的识别精准度更强,能够有效地避免用户受到诈骗电话所带来的不必要损失。
在训练得到诈骗电话识别模型之后,即可以使用该诈骗电话识别模型进行诈骗电话识别。对于该实现过程可以结合下述具体实现方式进行详细描述。
在本申请的一种具体实现中,在上述步骤104之后,还可以包括:
步骤E1:将待识别号码在距离当前时间的预设时长内的信令话务特征转换为时间序列的话务特征。
在本实施例中,在训练得到的诈骗电话识别模型之后,可以将待识别号码在距离当前时间的预设时长内的信令话务特征转换为时间序列的话务特征。
在将待识别号码在距离当前时间的预设时长内的信令话务特征转换为时间序列的话务特征之后,执行步骤E2。
步骤E2:将所述时间序列的话务特征输入至所述诈骗电话识别模型,得到所述待识别号码的诈骗预测结果。
在将待识别号码在距离当前时间的预设时长内的信令话务特征转换为时间序列的话务特征之后,则可以将时间序列的话务特征输入至诈骗电话识别模型,得到待识别号码的诈骗预测结果。即将待识别号码的一段时间周期内的小时特征数据代入目标,预测下一时间点是否存在诈骗风险。
步骤E3:响应于所述诈骗预测结果为诈骗号码的预测结果,获取所述待识别号码对应的呼叫发起基站信息。
在诈骗预测结果为诈骗号码的预测结果时,获取待识别号码对应的呼叫发起基站信息。
步骤E4:基于所述呼叫发起基站信息,定位所述待识别号码对应的GOIP设备。
进而,可以基于呼叫发起基站信息,定位待识别号码对应的GOIP设备。具体地,可以将将异常号码呼叫发起的基站信息与宽带地址信息匹配,获取固网宽带账号,同步将号码相关信息报送给本地公安,获取到异常IP和端口,通过和宽带DPI(Dots Per Inch,深度数据包检测)数据匹配,自动化溯源到小区房间地址,精准识别GOIP设备。
对于诈骗电话号码识别流程可以结合图3进行如下详细描述。
如图3所示,诈骗电话号码识别流程可以包括:
1、构建GOIP诈骗号码库以及涉诈GOIP库。
2、提取通话详单、位置、用户信息、终端等特征。
3、构建时间序列数据集。即将所收集的每小时信令话务相关特征,按时间顺序排列整合成时间序列数据集,得到每个号码的一段时间内的通话序列,再增加一个加权移动平均方法对数据集进行二次数据处理。
4、利用改进的DTW算法提取相似性高的训练样本,并进行标准化处理。即先针对数据标准化处理,以便将数据缩放,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权,使之落入一个均值是0,标准差是1的数据分布区间;采用优化后的DTW算法计算两个时间序列之间相似度,快速选取与目标时间序列相关性最大的部分数据作为训练样本。
5、基于Boosting进行特征筛选以及结合专家经验针对重要特征加权。即采用基于Boosting的特征筛选算法,结合GOIP设备研究专家的经验,对重要特征进行加权,以进行目标训练样本的筛选。
6、划分训练集、测试集、验证集代入LSTM模型进行训练。即将目标训练样本划分为训练集、测试集、验证集,以分别用于对LSTM进行模型训练、测试和验证,直至模型收敛。
7、利用模型预测疑似GOIP诈骗电话。
8、将异常号码相关信息报送给本地公安,获取到异常IP和端口,自动化溯源GOIP设备。即将异常号码呼叫发起的基站信息与宽带地址信息匹配,获取固网宽带账号,同步将号码相关信息报送给本地公安,获取到异常IP和端口,通过和宽带DPI数据匹配,自动化溯源到小区房间地址,精准识别GOIP设备。
本申请实施例提供的诈骗电话识别模型的训练方法,通过对与GOIP诈骗号码关联的信令话务特征进行处理,得到时间序列数据集。基于预设动态时间规整算法对时间序列数据集进行相关特征筛选处理,得到从时间序列数据集中筛选的中间样本特征。基于Boosting的特征筛选算法对中间样本特征进行特征加权筛选处理,得到从中间样本特征中筛选的目标样本特征,并构建目标训练样本集。基于目标训练样本集对待训练诈骗电话识别模型进行训练,得到诈骗电话识别模型。本申请实施例通过构建时间序列的信令话务特征数据集,并采用基于Boosting的特征筛选算法对重要特征进行加权,构建的模型更精准,使得识别效率更高,对于诈骗电话的识别精准度更强,能够有效地避免用户受到诈骗电话所带来的不必要损失。
参照图4,示出了本申请实施例提供的一种诈骗电话识别模型的训练装置的结构示意图,如图4所示,该诈骗电话识别模型的训练装置400可以包括以下模块:
时间序列数据集获取模块410,用于对与GOIP诈骗号码关联的信令话务特征进行处理,得到时间序列数据集;
中间样本特征获取模块420,用于基于预设动态时间规整算法对所述时间序列数据集进行相关特征筛选处理,得到从所述时间序列数据集中筛选的中间样本特征;
目标训练样本集构建模块430,用于基于Boosting的特征筛选算法对所述中间样本特征进行特征加权筛选处理,得到从所述中间样本特征中筛选的目标样本特征,并构建目标训练样本集;
诈骗电话识别模型获取模块440,用于基于所述目标训练样本集对待训练诈骗电话识别模型进行训练,得到所述诈骗电话识别模型。
可选地,所述时间序列数据集获取模块包括:
号码库构建单元,用于根据GOIP设备上涉诈的号码,构建GOIP诈骗号码库;
信令话务特征获取单元,用于对所述GOIP诈骗号码库进行信令话务特征提取,得到与GOIP诈骗号码关联的所述信令话务特征;
初始序列数据集生成单元,用于按照时间顺序和预设时长对所述信令话务特征进行整合,生成初始时间序列数据集;
时间序列数据集获取单元,用于基于预设加权移动平均算法对所述初始时间序列数据集进行二次数据处理,得到所述时间序列数据集。
可选地,所述中间样本特征获取模块包括:
标准化数据获取单元,用于对所述时间序列数据集内的数据进行标准化处理,得到标准化数据;
中间样本特征筛选单元,用于基于所述预设动态时间规整算法对所述标准化数据进行相似度计算,并根据相似度计算结果,从所述时间序列数据集中筛选出所述中间样本特征。
可选地,所述中间样本特征筛选单元包括:
候选序列数据集获取子单元,用于获取收集的非GOIP诈骗号码对应的候选时间序列数据集;
相似度计算结果获取子单元,用于基于所述预设动态时间规整算法对所述候选时间序列数据集中的目标数据与所述标准化数据进行相似度计算,得到相似度计算结果;所述目标数据为所述候选时间序列数据集中的与所述标准化数据时间相同的数据;
中间样本特征筛选子单元,用于基于所述相似度计算结果从所述时间序列数据集和所述候选时间序列数据集中筛选出所述中间样本特征。
可选地,所述目标训练样本集构建模块包括:
基准样本特征获取单元,用于基于所述Boosting的特征筛选算法对所述中间样本特征进行特征筛选,得到基准样本特征;
目标训练样本集构建单元,用于根据预先设置的特征类型对应的权重对所述基准样本特征进行特征加权处理,并根据加权结果从所述基准样本特征中筛选出所述目标样本特征,以构建所述目标训练样本集。
可选地,所述基准样本特征获取单元包括:
初始权重获取子单元,用于获取所述中间样本特征的初始化样本权重和预先训练的弱分类器;
分类预测结果获取子单元,用于基于所述弱分类器对所述中间样本特征进行处理,得到所述中间样本特征对应的分类预测结果;
分类误差计算子单元,用于根据所述分类预测结果,计算得到所述中间样本特征对应的分类误差;
更新样本权重获取子单元,用于基于所述分类误差更新所述初始化样本权重,得到所述中间样本特征对应的更新样本权重;
迭代执行子单元,用于将所述更新样本权重作为所述初始化样本权重,并迭代执行设定轮次的所述分类预测结果获取子单元、所述分类误差计算子单元和所述更新样本权重获取子单元;
特征重要性分数确定子单元,用于根据所述中间样本特征在每轮处理过程中的样本权重,确定所述中间样本特征对应的特征重要性分数;
基准样本特征筛选子单元,用于基于所述特征重要性分数,从所述中间样本特征中筛选出所述基准样本特征。
可选地,所述装置还包括:
话务特征转换模块,用于将待识别号码在距离当前时间的预设时长内的信令话务特征转换为时间序列的话务特征;
诈骗预测结果获取模块,用于将所述时间序列的话务特征输入至所述诈骗电话识别模型,得到所述待识别号码的诈骗预测结果;
基站信息获取模块,用于响应于所述诈骗预测结果为诈骗号码的预测结果,获取所述待识别号码对应的呼叫发起基站信息;
GOIP设备定位模块,用于基于所述呼叫发起基站信息,定位所述待识别号码对应的GOIP设备。
本申请实施例提供的诈骗电话识别模型的训练装置,通过对与GOIP诈骗号码关联的信令话务特征进行处理,得到时间序列数据集。基于预设动态时间规整算法对时间序列数据集进行相关特征筛选处理,得到从时间序列数据集中筛选的中间样本特征。基于Boosting的特征筛选算法对中间样本特征进行特征加权筛选处理,得到从中间样本特征中筛选的目标样本特征,并构建目标训练样本集。基于目标训练样本集对待训练诈骗电话识别模型进行训练,得到诈骗电话识别模型。本申请实施例通过构建时间序列的信令话务特征数据集,并采用基于Boosting的特征筛选算法对重要特征进行加权,构建的模型更精准,使得识别效率更高,对于诈骗电话的识别精准度更强,能够有效地避免用户受到诈骗电话所带来的不必要损失。
本申请实施例还提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述诈骗电话识别模型的训练方法。
图5示出了本发明实施例的一种电子设备500的结构示意图。如图5所示,电子设备500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的计算机程序指令或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序指令,来执行各种适当的动作和处理。在RAM503中,还可存储电子设备500操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
电子设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标、麦克风等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,可由处理单元501执行。例如,上述任一实施例的方法可被实现为计算机软件程序,其被有形地包含于计算机可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM502和/或通信单元509而被载入和/或安装到电子设备500上。当计算机程序被加载到RAM503并由CPU501执行时,可以执行上文描述的方法中的一个或多个动作。
另外地,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述诈骗电话识别模型的训练方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端上,使得在计算机或其他可编程终端上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端中还存在另外的相同要素。
以上对本申请所提供的一种诈骗电话识别模型的训练方法、一种诈骗电话识别模型的训练装置、一种电子设备和一种计算机可读存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种诈骗电话识别模型的训练方法,其特征在于,所述方法包括:
对与GOIP诈骗号码关联的信令话务特征进行处理,得到时间序列数据集;
基于预设动态时间规整算法对所述时间序列数据集进行相关特征筛选处理,得到从所述时间序列数据集中筛选的中间样本特征;
基于Boosting的特征筛选算法对所述中间样本特征进行特征加权筛选处理,得到从所述中间样本特征中筛选的目标样本特征,并构建目标训练样本集;
基于所述目标训练样本集对待训练诈骗电话识别模型进行训练,得到所述诈骗电话识别模型。
2.根据权利要求1所述的方法,其特征在于,所述对与GOIP诈骗号码关联的信令话务特征进行处理,得到时间序列数据集,包括:
根据GOIP设备上涉诈的号码,构建GOIP诈骗号码库;
对所述GOIP诈骗号码库进行信令话务特征提取,得到与GOIP诈骗号码关联的所述信令话务特征;
按照时间顺序和预设时长对所述信令话务特征进行整合,生成初始时间序列数据集;
基于预设加权移动平均算法对所述初始时间序列数据集进行二次数据处理,得到所述时间序列数据集。
3.根据权利要求1所述的方法,其特征在于,所述基于预设动态时间规整算法对所述时间序列数据集进行相关特征筛选处理,得到从所述时间序列数据集中筛选的中间样本特征,包括:
对所述时间序列数据集内的数据进行标准化处理,得到标准化数据;
基于所述预设动态时间规整算法对所述标准化数据进行相似度计算,并根据相似度计算结果,从所述时间序列数据集中筛选出所述中间样本特征。
4.根据权利要求3所述的方法,其特征在于,所述基于所述预设动态时间规整算法对所述标准化数据进行相似度计算,并根据相似度计算结果,从所述时间序列数据集中筛选出所述中间样本特征,包括:
获取收集的非GOIP诈骗号码对应的候选时间序列数据集;
基于所述预设动态时间规整算法对所述候选时间序列数据集中的目标数据与所述标准化数据进行相似度计算,得到相似度计算结果;所述目标数据为所述候选时间序列数据集中的与所述标准化数据时间相同的数据;
基于所述相似度计算结果从所述时间序列数据集和所述候选时间序列数据集中筛选出所述中间样本特征。
5.根据权利要求1所述的方法,其特征在于,所述基于Boosting的特征筛选算法对所述中间样本特征进行特征加权筛选处理,得到从所述中间样本特征中筛选的目标样本特征,并构建目标训练样本集,包括:
基于所述Boosting的特征筛选算法对所述中间样本特征进行特征筛选,得到基准样本特征;
根据预先设置的特征类型对应的权重对所述基准样本特征进行特征加权处理,并根据加权结果从所述基准样本特征中筛选出所述目标样本特征,以构建所述目标训练样本集。
6.根据权利要求5所述的方法,其特征在于,所述基于所述Boosting的特征筛选算法对所述中间样本特征进行特征筛选,得到基准样本特征,包括:
获取所述中间样本特征的初始化样本权重和预先训练的弱分类器;
基于所述弱分类器对所述中间样本特征进行处理,得到所述中间样本特征对应的分类预测结果;
根据所述分类预测结果,计算得到所述中间样本特征对应的分类误差;
基于所述分类误差更新所述初始化样本权重,得到所述中间样本特征对应的更新样本权重;
将所述更新样本权重作为所述初始化样本权重,并迭代执行设定轮次的所述基于所述弱分类器对所述中间样本特征进行处理,得到所述中间样本特征对应的分类预测结果,至所述基于所述分类误差更新所述初始化样本权重,得到所述中间样本特征对应的更新样本权重的步骤;
根据所述中间样本特征在每轮处理过程中的样本权重,确定所述中间样本特征对应的特征重要性分数;
基于所述特征重要性分数,从所述中间样本特征中筛选出所述基准样本特征。
7.根据权利要求1所述的方法,其特征在于,在所述基于所述目标训练样本集对待训练诈骗电话识别模型进行训练,得到所述诈骗电话识别模型之后,还包括:
将待识别号码在距离当前时间的预设时长内的信令话务特征转换为时间序列的话务特征;
将所述时间序列的话务特征输入至所述诈骗电话识别模型,得到所述待识别号码的诈骗预测结果;
响应于所述诈骗预测结果为诈骗号码的预测结果,获取所述待识别号码对应的呼叫发起基站信息;
基于所述呼叫发起基站信息,定位所述待识别号码对应的GOIP设备。
8.一种诈骗电话识别模型的训练装置,其特征在于,所述装置包括:
时间序列数据集获取模块,用于对与GOIP诈骗号码关联的信令话务特征进行处理,得到时间序列数据集;
中间样本特征获取模块,用于基于预设动态时间规整算法对所述时间序列数据集进行相关特征筛选处理,得到从所述时间序列数据集中筛选的中间样本特征;
目标训练样本集构建模块,用于基于Boosting的特征筛选算法对所述中间样本特征进行特征加权筛选处理,得到从所述中间样本特征中筛选的目标样本特征,并构建目标训练样本集;
诈骗电话识别模型获取模块,用于基于所述目标训练样本集对待训练诈骗电话识别模型进行训练,得到所述诈骗电话识别模型。
9.一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至7中任一项所述的诈骗电话识别模型的训练方法。
10.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行权利要求1至7中任一项所述的诈骗电话识别模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410094956.6A CN118035740A (zh) | 2024-01-23 | 2024-01-23 | 诈骗电话识别模型的训练方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410094956.6A CN118035740A (zh) | 2024-01-23 | 2024-01-23 | 诈骗电话识别模型的训练方法、装置、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118035740A true CN118035740A (zh) | 2024-05-14 |
Family
ID=91003393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410094956.6A Pending CN118035740A (zh) | 2024-01-23 | 2024-01-23 | 诈骗电话识别模型的训练方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118035740A (zh) |
-
2024
- 2024-01-23 CN CN202410094956.6A patent/CN118035740A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108877839B (zh) | 基于语音语义识别技术的语音质量感知评估的方法及系统 | |
CN111292764B (zh) | 辨识系统及辨识方法 | |
US10878823B2 (en) | Voiceprint recognition method, device, terminal apparatus and storage medium | |
CN107222865A (zh) | 基于可疑行为识别的通讯诈骗实时检测方法和系统 | |
CN109256150B (zh) | 基于机器学习的语音情感识别系统及方法 | |
CN109087648A (zh) | 柜台语音监控方法、装置、计算机设备及存储介质 | |
CN113627566B (zh) | 一种网络诈骗的预警方法、装置和计算机设备 | |
CN111312286A (zh) | 年龄识别方法、装置、设备及计算机可读存储介质 | |
CN110290466B (zh) | 楼层判别方法、装置、设备及计算机存储介质 | |
CN110110038A (zh) | 话务预测方法、装置、服务器及存储介质 | |
CN112562648A (zh) | 基于元学习的自适应语音识别方法、装置、设备及介质 | |
CN113724734B (zh) | 声音事件的检测方法、装置、存储介质及电子装置 | |
CN111813954A (zh) | 文本语句中两实体的关系确定方法、装置和电子设备 | |
CN111508505A (zh) | 一种说话人识别方法、装置、设备及存储介质 | |
CN110866143B (zh) | 一种音频场景分类方法及系统 | |
CN112201275A (zh) | 声纹分割方法、装置、设备及可读存储介质 | |
CN115457938A (zh) | 识别唤醒词的方法、装置、存储介质及电子装置 | |
CN109460872B (zh) | 一种面向移动通信用户流失不平衡数据预测方法 | |
CN118035740A (zh) | 诈骗电话识别模型的训练方法、装置、电子设备及介质 | |
CN111968650A (zh) | 语音匹配方法、装置、电子设备及存储介质 | |
CN116741155A (zh) | 语音识别方法、语音识别模型的训练方法、装置及设备 | |
CN115659217A (zh) | 诈骗识别模型训练方法、装置、电子设备及存储介质 | |
EP4094400B1 (en) | Computer-implemented detection of anomalous telephone calls | |
US11996086B2 (en) | Estimation device, estimation method, and estimation program | |
CN110689875A (zh) | 一种语种识别方法、装置及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |