CN113191787A - 电信数据的处理方法、装置电子设备及存储介质 - Google Patents

电信数据的处理方法、装置电子设备及存储介质 Download PDF

Info

Publication number
CN113191787A
CN113191787A CN202110505432.8A CN202110505432A CN113191787A CN 113191787 A CN113191787 A CN 113191787A CN 202110505432 A CN202110505432 A CN 202110505432A CN 113191787 A CN113191787 A CN 113191787A
Authority
CN
China
Prior art keywords
data
model
evaluation
telecommunication
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110505432.8A
Other languages
English (en)
Inventor
陈芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110505432.8A priority Critical patent/CN113191787A/zh
Publication of CN113191787A publication Critical patent/CN113191787A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Abstract

本发明公开了一种电信数据的处理方法、装置电子设备及存储介质,涉及大数据技术领域,其中,该方法包括:获取电信数据,所述电信数据包括:设备信息和通话信息;对所述电信数据进行预处理,并根据预处理后的电信数据生成包括设备信息和通话信息的多维特征数据;将所述多维特征数据输入至已训练的评估模型,对该多维特征数据进行风险评估,其中,所述评估模型基于梯度增强算法和历史多维特征数据来训练;根据风险评估结果和后处理规则对所述电信数据进行综合评估,以确认所述电信数据是否存在诈骗风险,所述后处理规则为基于关键词来评估风险。通过本发明,可以提高电信诈骗检测的准确率和识别效率。

Description

电信数据的处理方法、装置电子设备及存储介质
技术领域
本发明涉及大数据技术领域,具体涉及一种电信数据的处理方法、装置电子设备及存储介质。
背景技术
随着我国互联网的迅猛发展,手机电话等通讯工具越来越普及,几乎人手一部手机,为人们带来便捷的购物、社交、通讯、游戏等新功能体验的同时也带来了诈骗事件的频繁发生。诈骗行为多种多样,受害人群越来越多,预防存在困难,已经成为危害客户安全的一大问题,客户遭遇个人金融信息泄露,犯罪嫌疑人诱导客户操作转账交易,并诱使客户最终将本人资金转出,实施诈骗资金行为。
目前的诈骗检测方案,主要存在以下难点:
第一,诈骗手段从单一的文字、语音、链接,发展到如今复杂的语音、文字等混合方法。由于通话量巨大,监管部门难以对所有电话进行实时监管与拦截。
第二,数据类别不均衡,获取到的数据正负样本差距较大,海量数据中,往往正样本的占比远超过负样本。
第三,电信诈骗行为特征较少、区分度差别不大,无法提高检测中使用的分类器的准确率,并且,还需要依赖人工分析,进一步降低了电信欺诈的识别效率。
发明内容
有鉴于此,本发明提供一种电信数据的处理方法、装置电子设备及存储介质,以解决上述提及的至少一个问题。
根据本发明的第一方面,提供一种电信数据的处理方法,所述方法包括:
获取电信数据,所述电信数据包括:设备信息和通话信息;
对所述电信数据进行预处理,并根据预处理后的电信数据生成包括设备信息和通话信息的多维特征数据;
将所述多维特征数据输入至已训练的评估模型,对该多维特征数据进行风险评估,其中,所述评估模型基于梯度增强算法和历史多维特征数据来训练;
根据风险评估结果和后处理规则对所述电信数据进行综合评估,以确认所述电信数据是否存在诈骗风险,所述后处理规则为基于关键词来评估风险。
根据本发明的第二方面,提供一种电信数据的处理装置,所述装置包括:
数据获取单元,用于获取电信数据,所述电信数据包括:设备信息和通话信息;
预处理单元,用于对所述电信数据进行预处理;
多维特征数据生成单元,用于根据预处理后的电信数据生成包括设备信息和通话信息的多维特征数据;
评估单元,用于将所述多维特征数据输入至已训练的评估模型,对该多维特征数据进行风险评估,其中,所述评估模型基于梯度增强算法和历史多维特征数据来训练;
综合评估单元,用于根据风险评估结果和后处理规则对所述电信数据进行综合评估,以确认所述电信数据是否存在诈骗风险,所述后处理规则为基于关键词来评估风险。
根据本发明的第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
根据本发明的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
由上述技术方案可知,通过对获取的电信数据预处理后生成多维特征数据,随后将多维特征数据输入至已训练的评估模型,对该多维特征数据进行风险评估,并结合风险评估结果和后处理规则对所述电信数据进行综合评估,确认电信数据是否存在诈骗风险,本技术方案根据多维特征数据,能够准确反映电信诈骗特征的真实情况,同时结合评估模型的风险评估结果和后处理规则对电信数据进行综合评估,可以提高电信诈骗检测的准确率和识别效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的电信数据的处理方法的流程图;
图2是根据本发明实施例的电信数据的处理方法的详细流程图;
图3是根据本发明实施例的电信数据处理装置的结构框图;
图4是根据本发明实施例的模型训练单元的结构框图;
图5为本发明实施例的电子设备600的系统构成的示意框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
鉴于目前的电信诈骗检测方案存在准确率和识别效率均较低的问题,本发明实施例提供一种电信数据的处理方案,该方案从多维角度入手,能够准确反映电信诈骗特征的真实情况,从而可以提高电信诈骗检测的准确率和识别效率。以下结合附图来详细描述本发明实施例。
图1是根据本发明实施例的电信数据的处理方法的流程图,如图1所示,该方法包括:
步骤101,获取电信数据,所述电信数据包括:设备信息和通话信息;
步骤102,对所述电信数据进行预处理,并根据预处理后的电信数据生成包括设备信息和通话信息的多维特征数据;
步骤103,将所述多维特征数据输入至已训练的评估模型,对该多维特征数据进行风险评估,其中,所述评估模型基于梯度增强算法和历史多维特征数据来训练;
步骤104,根据风险评估结果和后处理规则对所述电信数据进行综合评估,以确认所述电信数据是否存在诈骗风险,所述后处理规则为基于关键词(例如,通话内容中可能具有风险的关键词)来评估风险。
通过对获取的电信数据预处理后生成多维特征数据,随后将多维特征数据输入至已训练的评估模型,对该多维特征数据进行风险评估,并结合风险评估结果和后处理规则对所述电信数据进行综合评估,确认电信数据是否存在诈骗风险,本发明实施例根据多维特征数据,能够准确反映电信诈骗特征的真实情况,同时结合评估模型的风险评估结果和后处理规则对电信数据进行综合评估,可以提高电信诈骗检测的准确率和识别效率。
在实际操作中,上述评估模型可以是极端梯度提升(XGBoost, eXtreme GradientBoosting)模型。具体地,可以通过如下方式对所述极端梯度提升模型进行训练:(1)获取历史电信数据,所述历史电信数据包括:历史设备信息和历史通话信息;(2)对所述历史电信数据进行预处理后生成历史多维特征数据;(3)将所述历史多维特征数据根据预定规则划分为训练数据和测试数据;(4) 根据所述训练数据对所述极端梯度提升模型进行训练,并根据所述测试数据对训练的极端梯度提升模型进行模型评估操作;(5)当模型评估操作结果的准确率达到预定值时,确定所述极端梯度提升模型训练完成。
在一个实施例中,上述通话信息可以包括:通话内容。相应地,步骤102对所述电信数据进行预处理包括:对所述通话内容进行语音识别操作,并基于自然语言技术对识别的文本进行分词处理;根据预先设置的关键词(即,风险敏感词,例如,传票、账户异常、贷款等)对分词处理后的文本进行关键词识别操作,并基于已训练的情感分析模型对所述分词处理后的文本进行情感识别操作。
这里的情感分析模型可以根据历史电信数据来训练,基于通话内容进行分析,对通话内容进行情感识别。
在具体实施时,上述通话信息可以包括:通话属性,例如,预定时间内的通话次数、被叫、主叫、通话时长等。
上述步骤102中的生成多维特征数据具体包括:根据设备信息、通话属性、关键词识别操作结果、情感识别操作结果设置多维特征及其标签;之后根据设置的多维特征及其标签生成多维特征数据。
对于步骤104,可以根据上述关键词识别操作结果对所述电信数据进行后处理规则评估;之后根据风险评估结果和后处理规则评估结果对所述电信数据进行综合评估。
为了更好地理解本发明,以下结合图2所示的电信数据处理流程来详细描述本发明实施例,如图2所示,该流程包括:数据收集、数据清洗、构建多维特征、模型训练、模型评估、后处理规则这几个部分。以下分别描述各部分。
1、数据收集。
收集的数据包括:设备信息、通话信息,通话信息包括:通话时间、通话类型、通话内容、以及敏感词典和停用词典等。这些数据可以来源于银行、运营商等。
设备信息具体包括:设备型号、设备MAC(局域网地址)、设备号码、网络类型、路由MAC、登录地点、登录时间等。
通话时间是指:犯罪嫌疑人和受害者之间对话开始到结束之间的时间。
通话类型指:受害者为主叫或被叫。
通话内容包括:犯罪嫌疑人和受害者之间的对话内容,通过ASR(AutomaticSpeech Recognition,自动语音识别技术)技术可以将录音文件转成文本文件。
2、数据清洗处理(对应于上述的预处理)。
收集的数据来自不同的地方,数据质量参差不齐,因此需要对数据进行处理,具体的处理过程包括以下几种情况。
2.1数据转化或删除
通常获取到的信息数据,不能被直接使用,需要对其判断是进行转化或是剔除。
例如,设备信息无法直接使用,需要进行转化,通过设备信息可以获得特征信息,设备号码是正常号码或者是异常号码;设备型号、设备MAC、网络类型、路由MAC等信息可以判断通话设备是否模拟器、恶意IP(地址)、spamIP(垃圾邮件地址)等;登录地点、登录时间可以定位同一设备在同一时间段内出现的地区次数,出现过多少个地区。通话内容也无法被直接使用,需要利用自然语言处理方法,首先使用分词工具对内容进行分词,然后剔除停用词,最后利用 TextRank算法抽取关键词。
通话内容需要进行剔除操作,通常不是所有通话信息都会使用,在经过分词后,需要进一步剔除停用词,例如:标点符号、数字、字母、的、您好等对分析没有用的信息。
2.2数据丢失
对于数据在获取过程中可能存在缺失的情况,需要做特殊处理,对于整数类型需要取平均值、中位数等进行填补。
2.3冗余数据
在训练模型过程中,需要保证数据的唯一性,对于冗余数据采取的办法就是去重。
3、构建多维特征。
在本发明实施例中,可以基于三大类数据构建特征工程,具体的特征映射如下表1所示:
Figure RE-GDA0003126072360000061
表1
第一类数据构建,基于设备信息进行特征构建,具体见表1中序号1~5的特征:
label:标签表示是否电信诈骗,取值{0,1},0表示正常,1表示异常。
is_evil_number:通话设备是否异常,取值{0,1},0表示正常,1表示异常。
is_simulator:通话设备是否模拟器,取值{0,1},0表示正常,1表示异常。
is_evil_ip:通话设备恶意IP,取值{0,1},0表示正常,1表示异常。
is_spam_ip:通话设备是否spamIP,取值{0,1},0表示正常,1表示异常。
number_info:通话设备号码信息,如:移动、联通、电信、网络号码,取值{移动:1,联通:2,电信:3,网络号码:4},这样将字符串类型转化成整数类型。
第二类数据构建,基于统计信息进行特征构建,具体见表1序号6~14的特征:
region_count:统计通话期间内设备出现地区总次数,取值整数。
region_diff:统计通话期间内设备出现多少地区,取值整数。
number_count:统计通话设备号码出现次数,取值整数。
call_count:统计给定时间内通话次数,取值整数。
is_called:统计用户被叫次数,取值整数。
duration_call_time:统计给定时间内通话总时长,时间单位秒(s)。
duration_call_time_mean:计算给定时间内通话时长均值,时间单位(s)。
duration_call_time_std:计算给定时间内通话时长标准差,时间单位(s)。
duration_time:统计通话时间段,时间单位(s)。
第三类数据构建,基于通话内容进行特征构建,通话内容利用ASR技术转成文本文件后,利用自然语言技术对文本进行处理,具体的步骤如下所示:
步骤1:假设x1、x2、x3、…、xn是经过ASR技术转化后的文本序列。
步骤2:通过分词工具,得到词语{x1x2,x3x4,x5,x6x7,…,xn-1xn}。
步骤3:利用整理好的停用词典对分词结果进行过滤,保留剩余的词语。
步骤4:利用敏感词典,判断文本中是否含有敏感词,keywords(关键词)取值,例如传票,贷款,账户异常等。
步骤5:步骤4完成之后,对剩余的词语利用TextRank算法提取关键词, sensitive(敏感词)取值,例如:身份证,信息,银行等。
步骤6:对获取到的所有对话数据判断是否为电信诈骗对话内容,具体地:利用深度学习模型BERT计算Embedding(向量),并将Embedding保存在Faiss(一种计算库)库中,然后对训练集中对话计算成Embedding后,通过Faiss计算相似度,然后通过设定阈值,得到每组对话中和电信诈骗最接近的对话次数,从而得到similarity_sentence_count(相似对话次数)的取值。
步骤7:计算对话情感极性,利用情感分析模型对诈骗对话内容进行分析,判断是正向还是负向,sentiment(通话敏感词)的值取{负面:0,正面:1},最后对情感极性进行累加求和。
步骤8:在步骤4和步骤5中得到关键词可以采用one-hot(独热编码)对关键词进行编码得到相关的词级别特征。
基于上述描述,表2为特征映射示例:
Figure RE-GDA0003126072360000081
表2
4、模型训练。
XGBoost是一种分布式梯度增强算法模型,输入数据包括多维特征xi和标签 yi
目标函数obj(θ)是用来度量参数θ的效果,目标函数包括两部分:训练损失函数L(θ)和正则项Ω(θ),如公式(1)和(2)所示:
obj(θ)=L(θ)+Ω(θ) (1)
Figure RE-GDA0003126072360000082
其中,L(θ)表示训练损失函数,如公式(2),来衡量模型在训练数据上的预测能力,Ω(θ)表示正则化项,控制模型的复杂度,防止过拟合。
本发明实施例选择的损失函数数学表达式,如公式(3)所示:
Figure RE-GDA0003126072360000091
XGBoost模型具有多决策树集成,XGBoost模型中的树是由一组分类回归树(Classification and Regression Trees,CART)组成的,需要将多棵树的预测结果综合起来,每棵树上的分数相加得到最终的分数,数学表达式如下公式(4)所示:
Figure RE-GDA0003126072360000092
K表示树的数量,其中F是所有CART概率的集合,优化目标函数如公式(5) 所示:
Figure RE-GDA0003126072360000093
其中f的数据表达式如公式(6)所示,ω是叶子得分的向量,q是将每个数据点分配给相应叶子的函数,T是叶子的数量,d代表特征维度。
ft(x)=ωq(x),ω∈RT,q:Rd→{1,2,...,T} (6)
其中,正则化函数如公式(7)所示,γ为惩罚力度系数,λ为ω的权重系数,这两个参数均可以根据实际情况给定:
Figure RE-GDA0003126072360000094
提前安装XGBoost,训练过程如下:
步骤1:导入训练特征和对应的标签。通过XGBoost自带的DMatrix(D-矩阵) 方法生成数据集格式。使用DMatrix主要有以下三个优点:一、加载数据转成 DMatrix格式可直接被模型接收;二、可以对参数missing(丢失)设定阈值,对缺失值进行处理;三、可以为样本特征设置权重,对设备信息、敏感词、情感极性这三种特征设置高权重。
步骤2:使用XGBoost的train(训练)方法训练模型,将数据样本按照8:2 方式划分为训练集和测试集。在训练过程中,需要输入设定的算法参数,例如:使用哪个booster(模型)、最大可用线程数、学习率、一个树的最大深度,每个叶子输出的最大增量步长、采样方法、训练实例的子样本比率等一系列可调式参数。
5、模型评估。
训练完模型之后,选择准确率作为模型的评价指标。具体地,利用XGBoost 模型predict(预测)方法对测试集进行预测,得到的结果与标注标签计算准确率。通过交叉验证,记录每次准确率和对应的模型参数,不断的调整训练样本和模型参数,使得准确率达到预期值。当准确率达到预期时,此时的模型才是最终所需模型,模型结果用Pi表示,Pi∈{0,1}。
6、后处理规则。
后处理规则主要是结合模型使用,弥补模型判断不准的情况,利用综合的方式进行判断。具体地,后处理规则是利用敏感词(或关键词),对电话内容进行判定,识别的电话内容的敏感词数量是否超过10个以上,如果超过10个以上,则Ri=1,否则Ri=0。最终的后处理规则如公式(8)所示,其中,α∈[0,1],
yi=α*Ri+(1-α)*Pi (8)
由以上描述可知,本发明实施例公开了基于多维特征的电信诈骗检测方案,在符合国家金融机构和国家电信法律法规、保护个人数据隐私不被泄漏、数据信息安全的前提下,获取相关特征建立了多维特征电信诈骗检测模型,本发明实施例具有如下优点:
1.特征涉及面广,多维特征不仅包括了通话信息,还涉及到设备信息和通话信息,从硬件到软件进行特征提取,同时使用到音视频识别技术和自然语言处理技术(NLP)。
2.计算能力强,XGBoost训练可支持并行。在模型训练之前,预先对特征进行排序,保存为block结构,在模型迭代中重复使用这个结构,可以大幅度减少计算量。
3.数据安全,通过特征训练模型,不需要保存相关数据,所以无需担心客户数据泄露,符合法律法规的要求。
4.提高了金融系统的电信诈骗预警能力,可以有效避免客户被诱导进行非本人真实意愿的转账交易行为,可以更好地保护客户的资金安全。
基于相似的发明构思,本发明实施例还提供一种电信数据的处理装置,该装置优选地可用于实现上述方法实施例中的流程。
图3是该电信数据处理装置的结果框图,如图3所示,该装置包括:数据获取单元31、预处理单元32、多维特征数据生成单元33、评估单元34和综合评估单元35,其中:
数据获取单元31,用于获取电信数据,所述电信数据包括:设备信息和通话信息;
预处理单元32,用于对所述电信数据进行预处理;
多维特征数据生成单元33,用于根据预处理后的电信数据生成包括设备信息和通话信息的多维特征数据;
评估单元34,用于将所述多维特征数据输入至已训练的评估模型,对该多维特征数据进行风险评估,其中,所述评估模型基于梯度增强算法和历史多维特征数据来训练;
综合评估单元35,用于根据风险评估结果和后处理规则对所述电信数据进行综合评估,以确认所述电信数据是否存在诈骗风险,所述后处理规则为基于关键词来评估风险。
通过多维特征数据生成单元33对数据获取单元31获取的电信数据预处理后生成多维特征数据,随后评估单元34将多维特征数据输入至已训练的评估模型,对该多维特征数据进行风险评估,综合评估单元35结合风险评估结果和后处理规则对所述电信数据进行综合评估,确认电信数据是否存在诈骗风险,本发明实施例根据多维特征数据,能够准确反映电信诈骗特征的真实情况,同时结合评估模型的风险评估结果和后处理规则对电信数据进行综合评估,可以提高电信诈骗检测的准确率和识别效率。
优选地,上述评估模型为极端梯度提升模型。
具体地,上述装置还包括:模型训练单元。图4是该模型训练单元的结构框图,该模型训练单元具体包括:历史数据获取模块41、历史多维特征数据生成模块42、数据划分模块43和训练模块44,其中:
历史数据获取模块41,用于获取历史电信数据,所述历史电信数据包括:历史设备信息和历史通话信息;
历史多维特征数据生成模块42,用于对所述历史电信数据进行预处理后生成历史多维特征数据;
数据划分模块43,用于将所述历史多维特征数据根据预定规则划分为训练数据和测试数据;
训练模块44,用于根据所述训练数据对所述极端梯度提升模型进行训练,并根据所述测试数据对训练的极端梯度提升模型进行模型评估操作;响应于模型评估操作结果为准确率达到预定值,确定所述极端梯度提升模型训练完成。
在一个实施例中,上述通话信息包括:通话内容。对应的预处理单元具体包括:分词处理模块、关键词识别模块和情感识别模块,其中:
分词处理模块,用于对所述通话内容进行语音识别操作,并基于自然语言技术对识别的文本进行分词处理;
关键词识别模块,用于根据预先设置的关键词对分词处理后的文本进行关键词识别操作;
情感识别模块,用于基于已训练的情感分析模型对所述分词处理后的文本进行情感识别操作。
在实际操作中,上述通话信息还包括:通话属性。
上述多维特征数据生成单元具体包括:特征设置模块和多维特征数据生成模块,其中:
特征设置模块,用于根据设备信息、通话属性、关键词识别操作结果、情感识别操作结果设置多维特征及其标签;
多维特征数据生成模块,用于根据设置的多维特征及其标签生成多维特征数据。
具体地,上述综合评估单元具体包括:后处理规则评估模块和综合评估模块,其中:
后处理规则评估模块,用于根据关键词识别操作结果对所述电信数据进行后处理规则评估;
综合评估模块,用于根据风险评估结果和后处理规则评估结果对所述电信数据进行综合评估。
上述各单元、各模块的具体执行过程,可以参见上述方法实施例中的描述,此处不再赘述。
在实际操作中,上述各单元、各模块可以组合设置、也可以单一设置,本发明不限于此。
本实施例还提供一种电子设备,该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照上述方法实施例进行实施及电信数据处理装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
图5为本发明实施例的电子设备600的系统构成的示意框图。如图5所示,该电子设备600可以包括中央处理器100和存储器140;存储器140耦合到中央处理器100。值得注意的是,该图是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,电信数据的处理功能可以被集成到中央处理器100中。其中,中央处理器100可以被配置为进行如下控制:
获取电信数据,所述电信数据包括:设备信息和通话信息;
对所述电信数据进行预处理,并根据预处理后的电信数据生成包括设备信息和通话信息的多维特征数据;
将所述多维特征数据输入至已训练的评估模型,对该多维特征数据进行风险评估,其中,所述评估模型基于梯度增强算法和历史多维特征数据来训练;
根据风险评估结果和后处理规则对所述电信数据进行综合评估,以确认所述电信数据是否存在诈骗风险,所述后处理规则为基于关键词来评估风险。
从上述描述可知,本申请实施例提供的电子设备,通过对获取的电信数据预处理后生成多维特征数据,随后将多维特征数据输入至已训练的评估模型,对该多维特征数据进行风险评估,并结合风险评估结果和后处理规则对所述电信数据进行综合评估,确认电信数据是否存在诈骗风险,本发明实施例根据多维特征数据,能够准确反映电信诈骗特征的真实情况,同时结合评估模型的风险评估结果和后处理规则对电信数据进行综合评估,可以提高电信诈骗检测的准确率和识别效率。
在另一个实施方式中,电信数据处理装置可以与中央处理器100分开配置,例如可以将电信数据处理装置配置为与中央处理器100连接的芯片,通过中央处理器的控制来实现电信数据处理功能。
如图5所示,该电子设备600还可以包括:通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是,电子设备600也并不是必须要包括图5中所示的所有部件;此外,电子设备600还可以包括图5中没有示出的部件,可以参考现有技术。
如图5所示,中央处理器100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器100接收输入并控制电子设备600的各个部件的操作。
其中,存储器140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序,以实现信息存储或处理等。
输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142,该应用/功能存储部142 用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。
存储器140还可以包括数据存储部143,该数据存储部143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器 140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110 还经由音频处理器130耦合到扬声器131和麦克风132,以经由扬声器131提供音频输出,并接收来自麦克风132的音频输入,从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器130 还耦合到中央处理器100,从而使得可以通过麦克风132能够在本机上录音,且使得可以通过扬声器131来播放本机上存储的声音。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现上述电信数据处理方法的步骤。
综上所述,本发明实施例采用多维特征训练模型,除了通话次数、时长、地域分布等这些特征以外,还增加了设备信息、通话内容等特征进行扩展,从多维角度入手,能够更准确地反映电信诈骗特征的真实情况,泛化能力更强,从而可以提高电信诈骗检测的准确率和识别效率。
以上参照附图描述了本发明的优选实施方式。这些实施方式的许多特征和优点根据该详细的说明书是清楚的,因此权利要求旨在覆盖这些实施方式的落入其真实精神和范围内的所有这些特征和优点。此外,由于本领域的技术人员容易想到很多修改和改变,因此不是要将本发明的实施方式限于所例示和描述的精确结构和操作,而是可以涵盖落入其范围内的所有合适修改和等同物。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种电信数据的处理方法,其特征在于,所述方法包括:
获取电信数据,所述电信数据包括:设备信息和通话信息;
对所述电信数据进行预处理,并根据预处理后的电信数据生成包括设备信息和通话信息的多维特征数据;
将所述多维特征数据输入至已训练的评估模型,对该多维特征数据进行风险评估,其中,所述评估模型基于梯度增强算法和历史多维特征数据来训练;
根据风险评估结果和后处理规则对所述电信数据进行综合评估,以确认所述电信数据是否存在诈骗风险,所述后处理规则为基于关键词来评估风险。
2.根据权利要求1所述的方法,其特征在于,所述评估模型为极端梯度提升模型,通过如下方式对所述极端梯度提升模型进行训练:
获取历史电信数据,所述历史电信数据包括:历史设备信息和历史通话信息;
对所述历史电信数据进行预处理后生成历史多维特征数据;
将所述历史多维特征数据根据预定规则划分为训练数据和测试数据;
根据所述训练数据对所述极端梯度提升模型进行训练,并根据所述测试数据对训练的极端梯度提升模型进行模型评估操作;
响应于模型评估操作结果为准确率达到预定值,确定所述极端梯度提升模型训练完成。
3.根据权利要求1所述的方法,其特征在于,所述通话信息包括:通话内容,对所述电信数据进行预处理包括:
对所述通话内容进行语音识别操作,并基于自然语言技术对识别的文本进行分词处理;
根据预先设置的关键词对分词处理后的文本进行关键词识别操作,并基于已训练的情感分析模型对所述分词处理后的文本进行情感识别操作。
4.根据权利要求3所述的方法,其特征在于,所述通话信息还包括:通话属性,根据预处理后的电信数据生成包括设备信息和通话信息的多维特征数据包括:
根据设备信息、通话属性、关键词识别操作结果、情感识别操作结果设置多维特征及其标签;
根据设置的多维特征及其标签生成多维特征数据。
5.根据权利要求3所述的方法,其特征在于,根据风险评估结果和后处理规则对所述电信数据进行综合评估包括:
根据关键词识别操作结果对所述电信数据进行后处理规则评估;
根据风险评估结果和后处理规则评估结果对所述电信数据进行综合评估。
6.一种电信数据的处理装置,其特征在于,所述装置包括:
数据获取单元,用于获取电信数据,所述电信数据包括:设备信息和通话信息;
预处理单元,用于对所述电信数据进行预处理;
多维特征数据生成单元,用于根据预处理后的电信数据生成包括设备信息和通话信息的多维特征数据;
评估单元,用于将所述多维特征数据输入至已训练的评估模型,对该多维特征数据进行风险评估,其中,所述评估模型基于梯度增强算法和历史多维特征数据来训练;
综合评估单元,用于根据风险评估结果和后处理规则对所述电信数据进行综合评估,以确认所述电信数据是否存在诈骗风险,所述后处理规则为基于关键词来评估风险。
7.根据权利要求6所述的装置,其特征在于,所述评估模型为极端梯度提升模型,所述装置包括:模型训练单元,
所述模型训练单元包括:
历史数据获取模块,用于获取历史电信数据,所述历史电信数据包括:历史设备信息和历史通话信息;
历史多维特征数据生成模块,用于对所述历史电信数据进行预处理后生成历史多维特征数据;
数据划分模块,用于将所述历史多维特征数据根据预定规则划分为训练数据和测试数据;
训练模块,用于根据所述训练数据对所述极端梯度提升模型进行训练,并根据所述测试数据对训练的极端梯度提升模型进行模型评估操作;响应于模型评估操作结果为准确率达到预定值,确定所述极端梯度提升模型训练完成。
8.根据权利要求6所述的装置,其特征在于,所述通话信息包括:通话内容,所述预处理单元包括:
分词处理模块,用于对所述通话内容进行语音识别操作,并基于自然语言技术对识别的文本进行分词处理;
关键词识别模块,用于根据预先设置的关键词对分词处理后的文本进行关键词识别操作;
情感识别模块,用于基于已训练的情感分析模型对所述分词处理后的文本进行情感识别操作。
9.根据权利要求8所述的装置,其特征在于,所述通话信息还包括:通话属性,所述多维特征数据生成单元包括:
特征设置模块,用于根据设备信息、通话属性、关键词识别操作结果、情感识别操作结果设置多维特征及其标签;
多维特征数据生成模块,用于根据设置的多维特征及其标签生成多维特征数据。
10.根据权利要求8所述的装置,其特征在于,所述综合评估单元包括:
后处理规则评估模块,用于根据关键词识别操作结果对所述电信数据进行后处理规则评估;
综合评估模块,用于根据风险评估结果和后处理规则评估结果对所述电信数据进行综合评估。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至5中任一项所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至5中任一项所述方法的步骤。
CN202110505432.8A 2021-05-10 2021-05-10 电信数据的处理方法、装置电子设备及存储介质 Pending CN113191787A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110505432.8A CN113191787A (zh) 2021-05-10 2021-05-10 电信数据的处理方法、装置电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110505432.8A CN113191787A (zh) 2021-05-10 2021-05-10 电信数据的处理方法、装置电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113191787A true CN113191787A (zh) 2021-07-30

Family

ID=76988626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110505432.8A Pending CN113191787A (zh) 2021-05-10 2021-05-10 电信数据的处理方法、装置电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113191787A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780876A (zh) * 2021-09-24 2021-12-10 西安邮电大学 一种通信的信息安全的风险管理系统
CN117455498A (zh) * 2023-12-18 2024-01-26 廊坊博联科技发展有限公司 一种反电信网络诈骗智能劝阻系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780876A (zh) * 2021-09-24 2021-12-10 西安邮电大学 一种通信的信息安全的风险管理系统
CN117455498A (zh) * 2023-12-18 2024-01-26 廊坊博联科技发展有限公司 一种反电信网络诈骗智能劝阻系统及方法

Similar Documents

Publication Publication Date Title
CN110910901B (zh) 一种情绪识别方法及装置、电子设备和可读存储介质
US8145562B2 (en) Apparatus and method for fraud prevention
CN111128223B (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
CN112468659B (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
CN113191787A (zh) 电信数据的处理方法、装置电子设备及存储介质
CN113707173B (zh) 基于音频切分的语音分离方法、装置、设备及存储介质
CN110598008B (zh) 录制数据的数据质检方法及装置、存储介质
CN110136726A (zh) 一种语音性别的估计方法、装置、系统及存储介质
CN110222331A (zh) 谎言识别方法及装置、存储介质、计算机设备
CN113240510A (zh) 异常用户预测方法、装置、设备及存储介质
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN115512259A (zh) 一种基于多模态的短视频审核方法
JP2010273130A (ja) 詐欺進行度判定装置、辞書生成装置、詐欺進行度判定方法及び辞書生成方法
CN111091809A (zh) 一种深度特征融合的地域性口音识别方法及装置
CN114722199A (zh) 基于通话录音的风险识别方法、装置、计算机设备及介质
CN109545226A (zh) 一种语音识别方法、设备及计算机可读存储介质
CN111401906A (zh) 转账风险检测方法及系统
CN107786980A (zh) 一种诈骗信息识别方法及其装置、移动终端、服务器
CN107154996B (zh) 来电拦截方法、装置、存储介质及终端
CN112820298B (zh) 声纹识别方法及装置
CN113903363A (zh) 基于人工智能的违规行为检测方法、装置、设备及介质
CN115186775B (zh) 一种图像描述文字的匹配度检测方法、装置及电子设备
CN111666469B (zh) 语句库构建方法、装置、设备和存储介质
CN113782033B (zh) 一种声纹识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination