CN111666502A - 一种基于深度学习的异常用户识别方法、装置及存储介质 - Google Patents
一种基于深度学习的异常用户识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111666502A CN111666502A CN202010650601.2A CN202010650601A CN111666502A CN 111666502 A CN111666502 A CN 111666502A CN 202010650601 A CN202010650601 A CN 202010650601A CN 111666502 A CN111666502 A CN 111666502A
- Authority
- CN
- China
- Prior art keywords
- user
- detected
- session
- session message
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 202
- 238000000034 method Methods 0.000 title claims abstract description 122
- 238000003860 storage Methods 0.000 title claims description 25
- 238000013135 deep learning Methods 0.000 title claims description 17
- 238000012549 training Methods 0.000 claims abstract description 117
- 238000001914 filtration Methods 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims description 62
- 238000012163 sequencing technique Methods 0.000 claims description 47
- 230000006870 function Effects 0.000 claims description 32
- 230000005540 biological transmission Effects 0.000 claims description 22
- 238000001514 detection method Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 16
- 230000008569 process Effects 0.000 description 31
- 238000005516 engineering process Methods 0.000 description 29
- 238000010586 diagram Methods 0.000 description 22
- 238000013461 design Methods 0.000 description 14
- 239000013598 vector Substances 0.000 description 14
- 230000006399 behavior Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 230000002457 bidirectional effect Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 102100026933 Myelin-associated neurite-outgrowth inhibitor Human genes 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 235000009508 confectionery Nutrition 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004821 distillation Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种可基于大数据实现的异常用户识别方法,该方法应用于人工智能领域,本申请提供的基于深度学习的异常用户识别方法包括:获取待检测的会话消息集合;对待检测的会话消息集合进行过滤处理,以得到待检测用户所对应的目标文本数据;调用用户类型识别模型对目标文本数据进行模型预测,以输出待检测用户所对应的类别预测标签;若类别预测标签为异常标签,则确定待检测用户为异常用户。本申请实施例还提供了一种识别模型的训练方法及装置。本申请在对大量会话消息进行过滤处理后,所得到的目标文本数据具有较好的泛化性,因此,能够更有针对性地对待检测用户进行识别,从而有利于提升识别异常用户的准确度。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种基于深度学习的异常用户识别方法、装置及存储介质。
背景技术
如何在大规模数据下检测出异常用户,一直以来都是学术界和工业界研究的重点,尤其在社交平台中,需要更多地依赖无监督或半监督的手段对异常用户进行检测。异常用户会使社交平台上的用户流失严重,也是社交平台最不愿意发生的事情之一。
目前,对于异常用户进行检测的方式主要为,采用文本相似度聚类的方法来实现。具体实现方式为,首先将用户发送的信息进行分词处理,提取关键词,再将关键词处理成特征向量的形式,通过对向量聚类来发现异常的异常用户。
文本相似度聚类方法主要利用多个异常用户发送的信息内容很可能是类似的,因此,通过聚类能够找出异常用户。然而,文本相似度聚类方法无法规避正常用户发送相同消息的情况,容易出现误判,导致识别异常用户的准确度较低。
发明内容
本申请实施例提供了一种基于深度学习的异常用户识别方法、装置及存储介质,由于对大量会话消息进行过滤处理后,所得到的目标文本数据具有较好的泛化性,因此,能够更有针对性地对待检测用户进行识别,从而有利于提升识别异常用户的准确度。
有鉴于此,本申请一方面提供一种基于深度学习的异常用户识别方法,包括:
获取待检测的会话消息集合,其中,待检测的会话消息集合包括M个用户发送的会话消息,M为大于或等于1的整数;
对待检测的会话消息集合进行过滤处理,以得到待检测用户所对应的目标文本数据,其中,待检测用户为M个用户中的一个用户,目标文本数据包括待检测用户发送的至少一条会话消息;
调用用户类型识别模型对目标文本数据进行模型预测,以输出待检测用户所对应的类别预测标签;
若类别预测标签为异常标签,则确定待检测用户为异常用户。
本申请另一方面提供一种识别模型的训练方法,包括:
获取待训练的会话消息集合,其中,待训练的会话消息集合包括至少一个正样本以及至少一个负样本,正样本为来源于异常用户发送的会话消息,负样本为来源于正常用户发送的会话消息,异常用户与正常用户均属于待训练用户;
对待训练的会话消息集合进行过滤处理,以得到第一目标文本数据集合以及第二目标文本数据集合,其中,第一目标文本数据集合包括至少一个第一目标文本数据,第二目标文本数据集合包括至少一个第二目标文本数据,第一目标文本数据包括异常用户发送的至少一条会话消息,第二目标文本数据包括正常用户发送的至少一条会话消息;
调用待训练的用户类型识别模型对第一目标文本数据集合以及第二目标文本数据集合进行模型预测,以输出每个待训练用户所对应的类别预测标签;
基于每个待训练用户所对应的类别预测标签,采用损失函数对待训练的用户类型识别模型进行训练,得到用户类型识别模型,其中,用户类型识别模型为上述任一方面所采用的模型。
本申请另一方面提供一种异常用户识别装置,包括:
获取模块,用于获取待检测的会话消息集合,其中,待检测的会话消息集合包括M个用户发送的会话消息,M为大于或等于1的整数;
处理模块,用于对待检测的会话消息集合进行过滤处理,以得到待检测用户所对应的目标文本数据,其中,待检测用户为M个用户中的一个用户,目标文本数据包括待检测用户发送的至少一条会话消息;
调用模块,用于调用用户类型识别模型对目标文本数据进行模型预测,以输出待检测用户所对应的类别预测标签;
确定模块,用于若类别预测标签为异常标签,则确定待检测用户为异常用户。
在一种可能的设计中,在本申请实施例的另一方面的一种实现方式中,
获取模块,具体用于获取待检测平台上的历史会话消息记录,其中,历史会话消息记录包括历史时间段内的至少一条会话消息;
将历史会话消息记录中属于待检测时间段内的至少一条会话消息,确定为待检测的会话消息集合。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
处理模块,具体用于对待检测的会话消息集合中的系统消息进行过滤处理,得到第一会话消息集合;
根据第一会话消息集合中每条会话消息所对应的传输信息,生成第二会话消息集合,其中,传输信息包括会话消息对应的发送方标识以及接收方标识,发送方标识与会话消息的发送方具有一一对应的关系,接收方标识与会话消息的接收方具有一一对应的关系;
从第二会话消息集合中获取待检测用户所对应的待处理会话消息集合,其中,待处理会话消息集合包括至少一条待处理的会话消息;
对待处理会话消息集合中的字符进行处理,得到待检测用户所对应的目标文本数据。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,系统消息包括系统提示消息以及系统可选消息中的至少一种,其中,系统提示消息表示由待检测平台提供的提示消息,系统可选消息表示从待检测平台提供的可选消息集合中选择的可选消息,待选消息集合包括至少一条可选消息;
处理模块,具体用于若检测到待检测的会话消息集合中存在系统提示消息,则从待检测的会话消息集合中过滤系统提示消息;
若检测到待检测的会话消息集合中存在系统可选消息,则从待检测的会话消息集合中过滤系统可选消息;
针对待检测的会话消息集合,根据过滤后得到的至少一条会话消息获取第一会话消息集合。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
处理模块,具体用于根据每条会话消息所对应的发送方标识,获取N组第一会话消息子集合,其中,N为大于或等于1,且小于或等于M的整数,每组第一会话消息子集合对应于一个相同的发送方标识;
针对于N组第一会话消息子集合中的任意一组第一会话消息子集合,根据每条会话消息所对应的接收方标识,获取K组第二会话消息子集合,其中,K为大于或等于1的整数,每组第二会话消息子集合对应于一个相同的接收方标识,且每组第二会话消息子集合中包括至少一条会话消息;
针对于任意一组第一会话消息子集合,获取每组第二会话消息子集合中所包括的会话消息的总数量;
针对于任意一组第一会话消息子集合,按照会话消息的总数量从小到大的次序,对K组第二会话消息子集合进行排序,得到第一排序结果;
根据每组第一会话消息子集合所对应的第一排序结果,生成第二会话消息集合。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,每条会话消息所对应的传输信息还包括发送时间;
处理模块,具体用于针对于任意一组第一会话消息子集合,按照会话消息的总数量从小到大的次序,对K组第二会话消息子集合进行排序,得到第一排序结果之后,针对第一排序结果,获取排序后的第二会话消息子集合中每条会话消息所对应的发送时间;
针对第一排序结果,按照发送时间的次序,对排序后的第二会话消息子集合中的会话消息进行排序,得到第二排序结果;
根据每组第一会话消息子集合所对应的第一排序结果,生成第二会话消息集合,包括:
根据每组第一会话消息子集合所对应的第二排序结果,生成第二会话消息集合,其中,第二会话消息集合包括N组经过排序处理的第一会话消息子集合。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
处理模块,具体用于从第二会话消息集合获取待检测的第一会话消息子集合,其中,第二会话消息集合包括N组经过排序处理的第一会话消息子集合,N为大于或等于1,且小于或等于M的整数,每组第一会话消息子集合对应于一个相同的发送方标识;
根据待检测的第一会话消息子集合,确定接收方标识的接收方数量,其中,相同的接收方标识用于指示同一个接收方;
若接收方数量大于或等于接收方数量阈值,则确定待检测的第一会话消息子集合为待检测用户所对应的待处理会话消息集合。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
处理模块,具体用于针对待处理会话消息集合中的每条待处理会话消息,若存在满足文本替换条件的目标字符,则根据目标字符的类型,将目标字符替换为预设字符,以得到第一文本数据;
针对待处理会话消息集合中的每条待处理会话消息,若不存在满足文本替换条件的字符,则将待处理会话消息确定为第二文本数据;
根据第一文本数据和第二文本数据中的至少一种,生成待检测用户所对应的目标文本数据。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
调用模块,具体用于调用用户类型识别模型对目标文本数据进行模型预测,以输出待检测用户所对应的类别预测标签以及类别预测标签所对应的置信度分值;
确定模块,具体用于若类别预测标签为异常标签,且类别预测标签所对应的置信度分值大于或等于置信度阈值,则确定待检测用户为异常用户。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,异常用户识别装置还包括训练模块;
获取模块,还用于在调用模块调用用户类型识别模型对目标文本数据进行模型预测,以输出待检测用户所对应的类别预测标签之前,获取待训练的会话消息集合,其中,待训练的会话消息集合包括至少一个正样本以及至少一个负样本,正样本为来源于异常用户发送的会话消息,负样本为来源于正常用户发送的会话消息,异常用户与正常用户均属于待训练用户;
处理模块,还用于对待训练的会话消息集合进行过滤处理,以得到第一目标文本数据集合以及第二目标文本数据集合,其中,第一目标文本数据集合包括至少一个第一目标文本数据,第二目标文本数据集合包括至少一个第二目标文本数据,第一目标文本数据包括异常用户发送的至少一条会话消息,第二目标文本数据包括正常用户发送的至少一条会话消息;
调用模块,还用于调用待训练的用户类型识别模型对第一目标文本数据集合以及第二目标文本数据集合进行模型预测,以输出每个待训练用户所对应的类别预测标签;
训练模块,用于基于每个待训练用户所对应的类别预测标签,采用损失函数对待训练的用户类型识别模型进行训练,得到用户类型识别模型。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
调用模块,具体用于调用待训练的用户类型识别模型对第一目标文本数据集合以及第二目标文本数据集合进行模型预测,以输出每个待训练用户所对应的类别预测标签以及类别预测标签所对应的置信度分值;
训练模块,具体用于基于每个待训练用户所对应的类别预测标签以及类别预测标签所对应的置信度分值,采用损失函数对待训练的用户类型识别模型中的模型参数进行更新;
若满足模型训练完成条件,则获取用户类型识别模型。
本申请另一方面提供一种模型训练装置,包括:
获取模块,用于获取待训练的会话消息集合,其中,待训练的会话消息集合包括至少一个正样本以及至少一个负样本,正样本为来源于异常用户发送的会话消息,负样本为来源于正常用户发送的会话消息,异常用户与正常用户均属于待训练用户;
处理模块,用于对待训练的会话消息集合进行过滤处理,以得到第一目标文本数据集合以及第二目标文本数据集合,其中,第一目标文本数据集合包括至少一个第一目标文本数据,第二目标文本数据集合包括至少一个第二目标文本数据,第一目标文本数据包括异常用户发送的至少一条会话消息,第二目标文本数据包括正常用户发送的至少一条会话消息;
调用模块,用于调用待训练的用户类型识别模型对第一目标文本数据集合以及第二目标文本数据集合进行模型预测,以输出每个待训练用户所对应的类别预测标签;
训练模块,用于基于每个待训练用户所对应的类别预测标签,采用损失函数对待训练的用户类型识别模型进行训练,得到用户类型识别模型,其中,用户类型识别模型为上述任一方面所采用的模型。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
调用模块,具体用于调用待训练的用户类型识别模型对第一目标文本数据集合以及第二目标文本数据集合进行模型预测,以输出每个待训练用户所对应的类别预测标签以及类别预测标签所对应的置信度分值;
训练模块,具体用于基于每个待训练用户所对应的类别预测标签以及类别预测标签所对应的置信度分值,采用损失函数对待训练的用户类型识别模型中的模型参数进行更新;
若满足模型训练完成条件,则获取用户类型识别模型。
本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方面种各种可选实现方式所提供的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种基于深度学习的异常用户识别方法,首先获取待检测的会话消息集合,然后对待检测的会话消息集合进行过滤处理,以得到待检测用户所对应的目标文本数据,再调用用户类型识别模型对目标文本数据进行模型预测,以输出待检测用户所对应的类别预测标签,如果类别预测标签为异常标签,则可以确定该待检测用户为异常用户。采用上述方式,会话消息集合中可以包括由待检测用户发送的大量会话消息,这些会话消息包括待检测用户在不同时间发送给不同对象的内容,基于此,对大量会话消息进行过滤处理后,所得到的目标文本数据具有较好的泛化性,能够更有针对性地对待检测用户进行识别,从而有利于提升识别异常用户的准确度。
附图说明
图1为本申请实施例中异常用户识别系统的一个环境示意图;
图2为本申请实施例中异常用户识别系统的一个框架示意图;
图3为本申请实施例中基于异常用户检测和模型训练的一个整体流程示意图;
图4为本申请实施例中基于深度学习的异常用户识别方法的一个实施例示意图;
图5为本申请实施例中引流用户发与正常用户进行聊天的一个示意图;
图6为本申请实施例中从待检测平台数据库提取待检测会话消息集合的一个示意图;
图7为本申请实施例中目标文本数据的一个数据格式示意图;
图8为本申请实施例中基于用户类型识别模型输出标签的一个示意图;
图9为本申请实施例中基于用户类型识别模型输出标签及置信度分值的一个示意图;
图10为本申请实施例中异常用户识别方法的一个整体流程示意图;
图11为本申请实施例中识别模型训练方法的一个实施例示意图;
图12为本申请实施例中基于文本卷积神经网络的一个模型处理示意图;
图13为本申请实施例中基于双向编码器表征量网络的一个模型处理示意图;
图14为本申请实施例中异常用户识别装置的一个实施例示意图;
图15为本申请实施例中模型训练装置的一个实施例示意图;
图16为本申请实施例中服务器的一个结构示意图。
具体实施方式
本申请实施例提供了一种基于深度学习的异常用户识别方法、装置及存储介质,由于对大量会话消息进行过滤处理后,所得到的目标文本数据具有较好的泛化性,因此,能够更有针对性地对待检测用户进行识别,从而有利于提升识别异常用户的准确度。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在线社交网络已经成为人们生活、工作以及交流的重要平台,而异常用户的出现已经严重影响到在线社交网络的信誉评价体系以及用户信任关系。本申请提供的异常用户识别方法主要用于识别这类异常用户,能准确地检测出各种社交平台上的异常类用户,进而可以对异常用户使用的账号进行处理,比如,封锁该异常用户使用的账号,或者停用该异常用户使用的账号,又或者上报到有关部门等。此外,本申请提供的异常用户识别方法同时具有较好的任务迁移能力,还能够应用于情感分析以及判定违规内容等场景。异常用户包含但不仅限于引流用户、违法违规用户以及刷量用户,下面将对这几类异常用户进行介绍。
一、引流用户;
引流用户是指通过发送社交账号(例如QQ号码或者微信号码等),将当前社交平台上的用户转移出该社交平台,从而实现社交平台流量的引出。引流属于反欺诈的一部分,引流用户会使社交平台上的用户流失严重,是平台最不愿意发生的事情之一。引流用户会发送大量引导人加社交账号的消息及相关变体,例如“交个朋友吧,威我哟”,又例如“觉得合适的可以十我处”等聊天内容。
二、违法违规用户;
违法违规用户的行为包含但不仅限于影响条目公正性的行为,发布垃圾广告和色情内容的行为,发布含有违反法律法规或管理规定内容的行为,转载未经授权内容的行为,以及恶意侵犯他人权益(辱骂他人、侵犯他人隐私权或者名誉权等)的行为。
三、刷量用户;
刷量用户是指通过虚假行为来刷高数据,是一种具有欺骗性的营销手段。
本申请提供的异常用户识别方法能够基于聊天内容检测出异常用户,该异常用户识别方法应用于图1所示的异常用户识别系统,如图所示,异常用户识别系统包括服务器和终端设备。本申请涉及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能(Artificial Intelligence,AI)平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表等,但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。服务器和终端设备的数量也不做限制。
云服务器基于云技术(cloud technology)工作的服务器,其中,云技术(cloudtechnology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术(cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
基于图1所示的异常用户识别系统,终端设备可以将用户的聊天记录消息上传至平台的服务器,在服务器侧使用这些大量的聊天记录消息训练得到用户类型识别模型,在识别异常用户的过程中,由终端设备将某个用户的聊天记录消息上传至服务器,服务器使用已上线的用户类型识别模型对该用户的聊天记录消息进行识别,最终得到预测结果。由于平台往往具有较大的用户量,因此,也会产生大量的聊天记录消息以及用户信息,这些数据可以作为大数据(big data)并存储与云服务器中,其中,大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
下面将结合图2和图3对本申请提供的异常用户识别方法以及识别模型训练方法进行介绍,具体地,请参阅图2,图2为本申请实施例中异常用户识别系统的一个框架示意图,如图所示,异常用户识别系统主要包括三个功能模块,分别为特征处理模块、模型训练模块以及内容预测模块,其中,特征模块处理模块用于提取可输入至模块的目标文本数据,该目标文本数据可以是训练样本,也可以是预测内容。模型训练模块用于对特征处理模块提取到的训练样本进行训练,以得到用户类型识别模型。内容预测模块用于将特征处理模块提取到的预测内容输入至模型训练模块输出的用户类型识别模型,由此得到预测结果。
更具体地,请参阅图3,图3为本申请实施例中基于异常用户检测和模型训练的一个整体流程示意图,如图所示,下面将进一步介绍特征处理模块、模型训练模块以及内容预测模块的实现方式。
在步骤S1中,从待检测平台上获取每小时或每天的用户聊天记录;
在步骤S2中,从用户聊天记录中过滤掉系统提示消息和系统可选消息等非正常的会话消息,得到第一会话消息集合;
在步骤S3中,对于每一个待检测的发送方,分别对待检测发送方所发送的第一会话消息集合按照接收方、接收消息量和消息发送时间进行排序,将排好序的会话消息组合成第二会话消息集合;
在步骤S4中,继续对每个发送者的第二会话消息集合进行字符替换等操作,从而得到可以直接输入模型的文本,即得到目标文本数据,可以理解的是,无论是在模型训练的过程,还是在模型预测的过程,均需要采用如步骤S1至步骤S4所描述的方式生成模型输入的目标文本数据;
在步骤S5中,在模型训练阶段,将目标文本数据作为训练样本,对训练样本进行打标签的处理,即打上二分类标签,例如,异常用户的标签为“1”,正常用户的标签为“0”;
在步骤S6中,采用深度学习模型对训练样本进行分类,从而得到训练好的用户类型识别模型。
在步骤S7中;在模型内容预测阶段,将处理好的模型输入文本直接输入训练好的用户类型识别模型中,以得到预测结果;
在步骤S8中,同时,可以根据用户类型识别模型预测时得到的针对正标签的置信度分值,以及负标签的置信度分值,判断预测结果的可靠性。
本申请提供的异常用户识别方法涉及到基于人工智能的自然语言处理(NatureLanguage processing,NLP)技术,本申请提供的识别模型训练方法涉及到基于机器学习(Machine Learning,ML)技术,其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的自然语言处理以及机器学习等技术,下面将对本申请中基于深度学习的异常用户识别方法进行介绍,请参阅图4,本申请实施例中基于深度学习的异常用户识别方法的一个实施例包括:
101、获取待检测的会话消息集合,其中,待检测的会话消息集合包括M个用户发送的会话消息,M为大于或等于1的整数;
本实施例中,异常用户识别装置从待检测平台上获取待检测的会话消息集合,待检测平台包含但不仅限于社交平台、视频平台、电商平台以及其他可实现用户之间交流的平台。待检测的会话消息中包括至少一个用户发送的会话消息,为了便于理解,请参阅图5,图5为本申请实施例中引流用户发与正常用户进行聊天的一个示意图,如图所示,以异常用户为引流用户作为一个示例,用户A可表示会话消息的发送方,用户B可表示会话消息的接收方,“Hi,看你头像照片,你平时一定经常健身吧”属于发送方发出的一条会话消息,“嗯嗯,是滴”属于接收方发出的一条会话消息。基于用户A发出的会话消息不难看出,用户A的目的是想让用户B添加“V信”的社交账号。
需要说明的是,异常用户识别装置可部署于服务器上,也可以部署于终端设备上,本申请异常用户识别装置以部署于服务器上为例进行说明,更具体地,异常用户识别装置可部署于云服务器上。
102、对待检测的会话消息集合进行过滤处理,以得到待检测用户所对应的目标文本数据,其中,待检测用户为M个用户中的一个用户,目标文本数据包括待检测用户发送的至少一条会话消息;
本实施例中,由于待检测的会话消息集合中可能包括多个用户发送的会话消息,在实际检测过程中,需要将同一个用户发送的会话消息聚集在一起,即得到M组会话消息子集合。然而M组会话消息子集合中可能存在一些需要过滤掉的会话消息子集合,最后得到N组第一会话消息子集合,N为小于或等于M的整数。于是可以从N组第一会话消息子集合中获取待检测用户对应的第一会话消息子集合,对待检测用户对应的第一会话消息子集合进行进一步的过滤处理,从而得到目标文本数据,其中,目标文本数据中需要包括由待检测用户发送的至少一条会话消息,例如,目标文本数据包括1至5条会话消息。
103、调用用户类型识别模型对目标文本数据进行模型预测,以输出待检测用户所对应的类别预测标签;
本实施例中,异常用户识别装置将目标文本数据输入至训练好的用户类型识别模型中,通过用户类型识别模型输出对应的类别预测标签,
以二分类标签为例,假设用户类型识别模型输出的类别预测标签为“1”,可表示为“异常标签”,假设用户类型识别模型输出的类别预测标签为“0”,可表示为“正常标签”。可以理解的是,用户类型识别模型输出的预测结果通常为0至1之间的一个数值,该数值即为一个分数,大部分情况下输出的预测结果为小数,因此,还可以基于预测结果进一步确定类别预测标签。假设判定阈值为0.5,那么如果预测结果大于或等于0.5,则将该类别预测标签确定为“1”,即判定为“异常标签”,如果预测结果小于0.5,则将该类别预测标签确定为“0”,即判定为“正常标签”。需要说明的是,判定阈值的值可根据实际情况进行灵活设定,例如,判定阈值可以为0.8,或者其他数值,此处仅为一个示意,不应理解为对本申请的限定。
104、若类别预测标签为异常标签,则确定待检测用户为异常用户。
本实施例中,假设用户类型识别模型输出的预测结果大于或等于判定阈值,则确定类别预测标签为“异常标签”,由此可确定待检测用户为异常用户,此时,可以对待检测用户的账号进行处理,例如,向待检测用户发送系统警告提示,或者,封锁该待检测用户使用的账号,又或者,上报至有关部门进行处理等,可以理解的是,本申请对异常用户使用账号的处理方式不作限定。
本申请实施例中,提供了一种基于深度学习的异常用户识别方法,首先获取待检测的会话消息集合,然后对待检测的会话消息集合进行过滤处理,以得到待检测用户所对应的目标文本数据,再调用用户类型识别模型对目标文本数据进行模型预测,以输出待检测用户所对应的类别预测标签,如果类别预测标签为异常标签,则可以确定该待检测用户为异常用户。采用上述方式,会话消息集合中可以包括由待检测用户发送的大量会话消息,这些会话消息包括待检测用户在不同时间发送给不同对象的内容,基于此,对大量会话消息进行过滤处理后,所得到的目标文本数据具有较好的泛化性,能够更有针对性地对待检测用户进行识别,从而有利于提升识别异常用户的准确度。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的一个可选实施例中,获取待检测的会话消息集合,具体包括如下步骤:
获取待检测平台上的历史会话消息记录,其中,历史会话消息记录包括历史时间段内的至少一条会话消息;
将历史会话消息记录中属于待检测时间段内的至少一条会话消息,确定为待检测的会话消息集合。
本实施例中,介绍了一种基于时间粒度对行异常用户进行识别的方式,在待检测平台的数据库中往往存储有大量的历史会话消息,这些历史会话消息即为历史会话消息记录,为了便于说明,请参阅图6,图6为本申请实施例中从待检测平台数据库提取待检测会话消息集合的一个示意图,如图所示,图中所示的终端设备数量仅为一个示例,假设用户A使用终端设备A发送会话消息,其中,用户A所对应的发送方标识为“VXVX_123123”,用户B使用终端设备B发送会话消息,其中,用户B所对应的发送方标识为“VXVX_78789”,用户C使用终端设备C发送会话消息,其中,用户C所对应的发送方标识为“VXVX_11111”。而每条会话消息对应于发送时间,例如,用户A在2020年7月1日15点16分23秒向“VXVX_too333”接收方标识所对应的用户发送了一条会话消息,即“你好啊,在干嘛呢?”。基于此,假设待检测时间段为5分钟,那么需要从历史会话消息记录中取出5分钟内的会话消息作为待检测的会话消息集合,例如,取出2020年7月1日15点20分00秒至2020年7月1日15点25分00秒之间的所有会话消息作为待检测的会话消息集合。
可以理解的是,不同待检测平台的数据库中存储的数量也有所不同,如果数据量较大(比如涉及到上百万或上千万条数据记录),则可以采用大数据处理技术获取待检测的会话消息集合,比如,可使用计算引擎(spark)或者数据仓库工具(hive)等,对于上百万或上千万条数据记录进行排序通常仅需要几分钟到十几分钟,由此提升处理处理效率。如果数据量较小(比如涉及到几万或十几万条数据记录),则使用关系型数据库管理系统(MySQL)即可。
需要说明的是,待检测时间段可以是以一天(即24小时)为单位,也可以是以小时为单位,还可以是以分钟为单位,而每次两个相邻待检测时间段之间的时间间隔粒度可基于需求进行灵活配置,例如,每小时获取前一个小时内所有用户的聊天记录(即包括会话消息、发送时间、发送方标识以及接收方标识等),其中,1小时内的会话消息即为待检测的会话消息集合,而每条会话消息对应的发送时间、发送方标识以及接收方标识可作为传输信息,此时,待检测时间段和时间间隔粒度均为1小时。又例如,每十分钟获取前一个小时内所有用户的聊天记录(即包括会话消息、发送时间、发送方标识以及接收方标识等),其中,1小时内的会话消息即为待检测的会话消息集合,而每条会话消息对应的发送时间、发送方标识以及接收方标识可作为传输信息,此时,待检测时间段为1小时,而时间间隔粒度均为10分钟。通常情况下,时间间隔粒度越小,越容易及时发现异常用户,但是考虑到待检测用户在该时间间隔粒度内得消息量较少,如果训练过程中使用时间间隔粒度较大(例如,2小时),而预测过程中的时间间隔粒度较小(例如,10分钟),那么训练数据和预测数据本身从会话消息的数量上就存在差别,可能会影响到模型检测效果,因此,并非时间间隔粒度越小,模型预测效果越好,而是需要权衡时间间隔粒度和会话消息数量之间的平衡性,从而设定一个时间间隔粒度的合理取值。
其次,本申请实施例中,提供了一种基于时间粒度对行异常用户进行识别的方式,采用上述方式,从待检测平台的后台数据库中可以提取到历史时间段内的所有会话消息,再根据需求,从历史时间段内的所有会话消息中,选择待检测时间段内的所有会话消息作为待检测的会话消息集合。待检测时间段可以一个相对固定的时间,例如数小时或者数分钟等,而时间间隔粒度可以根据需求进行配置,时间间隔粒度越小,越容易及时地检测出异常用户,从而提升异常用户识别的准确度。
可选地,在上述图4对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,对待检测的会话消息集合进行过滤处理,以得到待检测用户所对应的目标文本数据,具体包括如下步骤:
对待检测的会话消息集合中的系统消息进行过滤处理,得到第一会话消息集合;
根据第一会话消息集合中每条会话消息所对应的传输信息,生成第二会话消息集合,其中,传输信息包括会话消息对应的发送方标识以及接收方标识,发送方标识与会话消息的发送方具有一一对应的关系,接收方标识与会话消息的接收方具有一一对应的关系;
从第二会话消息集合中获取待检测用户所对应的待处理会话消息集合,其中,待处理会话消息集合包括至少一条待处理的会话消息;
对待处理会话消息集合中的字符进行处理,得到待检测用户所对应的目标文本数据。
本实施例中,介绍了一种对待检测会话消息集合进行过滤处理的方式,在获取到待检测的会话消息集合之后,首先可以从中过滤掉属于系统消息的会话消息,从而得到第一会话消息集合。其中,第一会话消息集合中每条会话消息对应于一条传输信息,传输信息包括会话消息、发送时间、发送方标识以及接收方标识等。基于每条会话消息的传输信息,对相同发送方的会话消息进行聚类,并且按照发送时间的次序对聚类后的会话消息进行排序,从而得到第二会话消息集合。接下来,从第二会话消息集合中获取待检测用户发送的待处理会话消息集合,待处理会话消息集合包括至少一条待处理的会话消息,例如,具体可包括1至5条待处理的会话消息。最后对待处理会话消息集合中的会话消息进行字符处理,得到用于输入至用户类型识别模型的目标文本数据。
可以理解的是,在模型训练的过程中,采用类似的方式对待训练的会话消息集合进行过滤处理,此处不做赘述。
其次,本申请实施例中,提供了一种对待检测会话消息集合进行过滤处理的方式,采用上述方式,可对待检测会话消息集合进行不同维度上过滤,即过滤掉系统消息,过滤掉一些特殊字符,并对待检测用户发送的会话消息进行排序和聚类,从而得到可输入至模型的目标文本数据,而经过处理后得到的目标文本数据能够更好地表达出会话消息的特征,由此,提升模型分析和处理的效果。
可选地,在上述图4对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,系统消息包括系统提示消息以及系统可选消息中的至少一种,其中,系统提示消息表示由待检测平台提供的提示消息,系统可选消息表示从待检测平台提供的可选消息集合中选择的可选消息,待选消息集合包括至少一条可选消息;
对待检测的会话消息集合中的系统消息进行过滤处理,得到第一会话消息集合,具体包括如下步骤:
若检测到待检测的会话消息集合中存在系统提示消息,则从待检测的会话消息集合中过滤系统提示消息;
若检测到待检测的会话消息集合中存在系统可选消息,则从待检测的会话消息集合中过滤系统可选消息;
针对待检测的会话消息集合,根据过滤后得到的至少一条会话消息获取第一会话消息集合。
本实施例中,介绍了一种过滤系统消息的处理方式,待检测的会话消息集合即为原始的用户聊天记录,这些用户聊天记录不但包括用户自己撰写的内容,还可能系统消息。之所以过滤掉这些消息,是因为系统消息总以较大的频率出现在用户聊天记录中,尤其是在小平台等以陌生人社交为主的平台上,这类系统消息出现的频率更高。频率太高的系统消息会影响到模型学习异常用户的异常消息内容。
具体地,系统消息包括系统提示消息以及系统可选消息中的至少一种。其中,系统提示消息表示由待检测平台提供的提示消息,即待检测平台自动发出的用于提示用户的消息,例如,“已添加对方为好友”,“对方送你礼物加你为好友”等,都属于系统提示消息。系统可选消息表示从待检测平台提供的可选消息集合中选择的可选消息,待选消息集合包括至少一条可选消息。即待检测平台预先写好了若干条可选消息,用户可直接选择任意一条可选消息,例如,“你好,很高兴认识你”,“你好,在干嘛呢”等,都属于系统可选消息。需要说明的是,不同社交平台的系统提示消息和系统可选消息可能相同,也可能不同,而不同性质的平台也往往具有不同的系统消息。
对于待检测的会话消息集合而言,若检测到存在系统提示消息,则过滤掉系统提示消息,若存在系统可选消息,则过滤掉系统可选消息,最后剩余的会话消息即为第一会话消息集合。需要说明的是,假设待检测的会话消息集合包括M个发送方发送的会话消息,其中,假设发送方A仅向接收方A发送了一条系统消息,那么过滤掉这条系统消息之后,即不存在发送方A发送的会话消息,因此,剩余(M-1)个发送方发送的会话消息,以此类推,最后剩余N个发送方发送的会话消息,即N为小于M的正式。假设M个发送方中不存在仅发送系统消息的用户,那么N等于M。
可以理解的是,在模型训练的过程中,采用类似的方式对待训练的会话消息集合中系统消息进行过滤,此处不做赘述。
再次,本申请实施例中,提供了一种过滤系统消息的处理方式,采用上述方式,可以过滤掉出现频率较高的系统消息,而大量的系统消息会影响到模型预测的准确度,导致检测的结果出现偏差,因此,过滤系统消息能够有效地提升模型预测和训练的可靠性。
可选地,在上述图4对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,根据第一会话消息集合中每条会话消息所对应的传输信息,生成第二会话消息集合,具体包括如下步骤:
根据每条会话消息所对应的发送方标识,获取N组第一会话消息子集合,其中,N为大于或等于1,且小于或等于M的整数,每组第一会话消息子集合对应于一个相同的发送方标识;
针对于N组第一会话消息子集合中的任意一组第一会话消息子集合,根据每条会话消息所对应的接收方标识,获取K组第二会话消息子集合,其中,K为大于或等于1的整数,每组第二会话消息子集合对应于一个相同的接收方标识,且每组第二会话消息子集合中包括至少一条会话消息;
针对于任意一组第一会话消息子集合,获取每组第二会话消息子集合中所包括的会话消息的总数量;
针对于任意一组第一会话消息子集合,按照会话消息的总数量从小到大的次序,对K组第二会话消息子集合进行排序,得到第一排序结果;
根据每组第一会话消息子集合所对应的第一排序结果,生成第二会话消息集合。
本实施例中,介绍了一种对第一会话消息集合进行排序和聚合处理的方式。在得到第一会话消息集合之后,需要将杂乱的会话消息汇总到单个发送方上,也就是说,将同一个用户发送的会话消息汇聚在一起。为了便于理解,请参阅表1,表1为第一会话消息集合的一个示意。
表1
发送方标识 | 接收方标识 | 会话消息 |
VX_johnny | VX_yolanda | Hello,在吗? |
VX_johnny | VX_yolanda | 你好呀,在干嘛呢? |
VX_kate | VX_jackson | 小哥哥,看到信息回一下哈 |
VX_kate | VX_peter | 明天晚上我有安排了,换个时间约吧 |
VX_johnny | VX_yumi | 小姐姐,回个信息呗 |
VX_kate | VX_jackson | 茫茫人海,相遇是缘,加我给V信慢慢聊吧 |
VX_johnny | VX_yolanda | 怎么不理我呀,加我个V信吧,我也喜欢做甜品 |
VX_johnny | VX_yumi | 下次请你喝咖啡 |
VX_kate | VX_jackson | 小哥哥,我看到你朋友圈,你喜欢健身吧 |
VX_kate | VX_jackson | 我也喜欢健身 |
VX_johnny | VX_yolanda | 啦啦啦,加我给V信慢慢聊吧 |
VX_kate | VX_peter | 对了,下次见面给你带个礼物 |
由表1可知,以第一会话消息集合中包括的12条会话消息为例,其中,将具有相同发送方标识的会话消息聚合在一起,得到N组第一会话消息子集合,以表1为例,则得到两组第一会话消息子集合。请参阅表2,表2为基于发送方标识“VX_johnny”提取到的第一会话消息子集合。
表2
发送方标识 | 接收方标识 | 会话消息 |
VX_johnny | VX_yolanda | Hello,在吗? |
VX_johnny | VX_yolanda | 你好呀,在干嘛呢? |
VX_johnny | VX_yumi | 小姐姐,回个信息呗 |
VX_johnny | VX_yolanda | 怎么不理我呀,加我个V信吧,我也喜欢做甜品 |
VX_johnny | VX_yumi | 下次请你喝咖啡 |
VX_johnny | VX_yolanda | 啦啦啦,加我给V信慢慢聊吧 |
类似地,基于发送方标识“VX_kate”也可以提取到一组第一会话消息子集合,为了便于说明,此处以发送方标识“VX_johnny”对应的第一会话消息子集合为例进行介绍。由于每个用户会向不同的用户发送数量不等的会话消息,因此,还可以根据不同接收方接收到的消息数量,按照从小到大的次序进行排序。即使是异常用户也不能保证他们不发送正常聊天消息,事实上,一些较为高级的引流团伙反而会特意发送一些正常的聊天内来干扰平台的检测。将相同接收方标识所对应的会话消息进行聚合处理,得到K组第二会话消息子集合,以表2为例,即得到两组第二会话消息子集合,其中一组第二会话消息子集合所对应的接收方标识为“VX_yolanda”,另一组第二会话消息子集合所对应的接收方标识为“VX_yumi”。于是继续获取每组第二会话消息子集合中所包括的会话消息的总数量,例如,对于接收方标识为“VX_yolanda”的第二会话消息子集合而言,具有4条会话消息,对于接收方标识为“VX_yumi”的第二会话消息子集合而言,具有2条会话消息。
按照会话消息的总数量从小到大的次序,对K组第二会话消息子集合进行排序,得到第一排序结果。之所以将总数量较小的接收方应该排在前面,是因为接收异常聊天内容的总数量通常是比较小的,因此,将这些总数量较小的会话消息排在前面可以保证模型优先对其进行识别。由于异常用户可能有正常的聊天对象,因此,与正常对象聊天的会话消息总数量是比较多的,将这部分总数量多的会话消息放在后面,可以减少对这些会话消息的关注度。
基于此,结合表2可知,“VX_yolanda”这组第二会话消息子集合的会话消息总数量为4,“VX_yumi”这组第二会话消息子集合的会话消息总数量为2。基于此,请参阅表3,表3为第一排序结果的一个示意。
表3
发送方标识 | 接收方标识 | 会话消息 |
VX_johnny | VX_yumi | 小姐姐,回个信息呗 |
VX_johnny | VX_yumi | 下次请你喝咖啡 |
VX_johnny | VX_yolanda | Hello,在吗? |
VX_johnny | VX_yolanda | 你好呀,在干嘛呢? |
VX_johnny | VX_yolanda | 怎么不理我呀,加我个V信吧,我也喜欢做甜品 |
VX_johnny | VX_yolanda | 啦啦啦,加我给V信慢慢聊吧 |
由表3可知,对于一组第一会话消息子集合而言,经过排序后的第一会话消息子集合即为第一排序结果,当得到每个第一会话消息子集合对应的第一排序结果之后,基于这些第一排序结果,得到第二会话消息集合。
在检测过程中,期望的是将会话消息中相对比较异常的会话消息排在前面,相对比较正常的消息排在后面。假设异常用户向多个用户发送会话消息,并选择了其中几个用户发送了一些正常聊天消息,那么按照发送给不同接收方的消息数量从小到大排序,就能一定程度上保证较为异常的消息排在前面。
再次,本申请实施例中,提供了一种对第一会话消息集合进行排序和聚合处理的方式,采用上述方式,由于每个用户通常会向多个接收方发送会话消息,但是向每个接收人发送的信息量通常是不相等的,按照发送给不同接收方的消息数量从小到大排序,能够一定程度上保证较为异常的会话消息排在前面,将这些会话消息中相对比较异常的会话消息排在前面,相对比较正常的会话消息排在后面,在实际预测和训练的过程中,更容易避免误杀正常交流的内容。
可选地,在上述图4对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,每条会话消息所对应的传输信息还包括发送时间;
针对于任意一组第一会话消息子集合,按照会话消息的总数量从小到大的次序,对K组第二会话消息子集合进行排序,得到第一排序结果之后,还可以包括如下步骤:
针对第一排序结果,获取排序后的第二会话消息子集合中每条会话消息所对应的发送时间;
针对第一排序结果,按照发送时间的次序,对排序后的第二会话消息子集合中的会话消息进行排序,得到第二排序结果;
根据每组第一会话消息子集合所对应的第一排序结果,生成第二会话消息集合,具体包括如下步骤:
根据每组第一会话消息子集合所对应的第二排序结果,生成第二会话消息集合,其中,第二会话消息集合包括N组经过排序处理的第一会话消息子集合。
本实施例中,介绍了一种基于发送时间对第一排序结果进行再次排序的方式,每条会话消息所对应的传输信息还包括发送时间,因此,在得到第一排序结果之后,还可以进一步基于第二会话消息子集合中每条会话消息所对应的发送时间,对第二会话消息子集合中的会话消息进行排序。为了便于理解,请参阅表4,表4为基于传输信息包含的发送时间所对应的第一排序结果的一个示意。
表4
由于不同会话消息出现的顺序(通常情况下,需要将最新的会话消息排在前面,将较旧的会话消息排在后面),会从很大程度上影响模型预测的效果,因此,需要对每个发送方发送的所有消息先排序再进行组合。以表4所示的内容为例,按照发送时间的次序,对已经过一次排序的第二会话消息子集合进行再次排序。请参阅表5,表5为第二排序结果的一个示意。
表5
由表5可知,对于一组第一会话消息子集合而言,经过排序后的第一会话消息子集合即为第一排序结果,当得到每个第一会话消息子集合对应的第一排序结果之后,再基于这些每条会话消息的发送时间再次进行排序,从而得到第二会话消息集合。
下面将对整体的排序过程进行介绍,整个排序过程分为四层,通常情况下,对于这四层内容的顺序在固定后就不作修改了,否则会导致预测效果出现偏差。基于此,一种可行的排序方式为,首先,依据发送方标识进行排序,保证属于同一个发送方的会话消息都聚集在一起。然后,在同一个发送方标识下,需要依据不同接收方所对应的会话消息的总数量,以从少到多的次序进行排序,保证会话消息的总数量较少的排列在前。接下来,依据接收方标识进行排序,保证属于同一个接收方的会话消息都聚集在一起。最后,需要依据不同会话消息的发送时间,以从新到旧的顺序进行排序,最后得到的第二会话消息集合即为经过这四次排序后的结果。
需要说明的是,基于发送方标识进行聚合,将同一个发送方标识下所有接收方的数据都聚合在一起。而同一接收方的数据是连在一起的,但是,不同接收方变换的时候可以设置特殊字符做标记,相应的,同一接收方的不同消息也有特殊字符做标记。
可以理解的是,传输信息还可以包括信息质量或者其他特征,信息质量可以看过滤掉特殊字符、表情和停用字符后的有效文字占比,或者信息长度等。
进一步地,本申请实施例中,提供了一种基于发送时间对第一排序结果进行再次排序的方式,采用上述方式,对相同的接收方的消息按时间先后顺序进行排序,可以保证发送的内容是上下文连贯的,从而能够结合整体语境和语义判断会话消息中包含的异常内容,在实际预测和训练的过程中,更容易避免误杀正常交流的内容。
可选地,在上述图4对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,从第二会话消息集合中获取待检测用户所对应的待处理会话消息集合,具体包括如下步骤:
从第二会话消息集合获取待检测的第一会话消息子集合,其中,第二会话消息集合包括N组经过排序处理的第一会话消息子集合,N为大于或等于1,且小于或等于M的整数,每组第一会话消息子集合对应于一个相同的发送方标识;
根据待检测的第一会话消息子集合,确定接收方标识的接收方数量,其中,相同的接收方标识用于指示同一个接收方;
若接收方数量大于或等于接收方数量阈值,则确定待检测的第一会话消息子集合为待检测用户所对应的待处理会话消息集合。
本实施例中,介绍了一种获取待处理会话消息集合的方式,在模型训练和模型预测时,还可以对接收方数量进行限定,即只对待检测时间段内超过接收方数量阈值的发送方进行检测,而少于接收方数量阈值的发送方及其对应的会话消息将会过滤掉。为了便于理解,下面将结合上述表3进行介绍,假设接收方数量阈值为3,待检测用户的发送方标识为“VX_johnny”,待检测的第一会话消息子集合包括两个接收方标识,分别为“VX_yolanda”和“VX_yumi”,其中,“VX_yolanda”出现4次,即接收方标识“VX_yolanda”的接收方数量为4,而“VX_yumi”出现2次,即接收方标识“VX_yumi”的接收方数量为2,此时,“VX_yumi”对应的接收方数量小于接收方数量阈值,因此,可将“VX_yumi”对应的会话消息进行过滤处理,基于此,请参阅表6,表6为待处理会话消息集合的一个示意。
表6
发送方标识 | 接收方标识 | 会话消息 |
VX_johnny | VX_yolanda | Hello,在吗? |
VX_johnny | VX_yolanda | 你好呀,在干嘛呢? |
VX_johnny | VX_yolanda | 怎么不理我呀,加我个V信吧,我也喜欢做甜品 |
VX_johnny | VX_yolanda | 啦啦啦,加我给V信慢慢聊吧 |
然而,如果VX_yolanda”对应的接收方数量和“VX_yumi”对应的接收方数量均大于或等于接收方数量阈值,那么该待检测的第一会话消息子集合即为待检测用户所对应的待处理会话消息集合。
需要说明的是,待处理会话消息集合可以是满足第一排序结果的第一会话消息子集合,也可以是满足第二排序结果的第一会话消息子集合,还可以满足其他排序结果的第一会话消息子集合,此处仅为一个示意,不应理解为对本申请的限定。待处理会话消息集合即为同一个发送方对应其发送的所有排好序的会话消息,然后再对待处理会话消息集合进行字符处理,得到每个发送者对应的一整段文本数据,即得到目标文本数据。
再次,本申请实施例中,提供了一种获取待处理会话消息集合的方式,采用上述方式,可以过滤掉接收方数量较小的会话消息子集合,这是考虑到在待检测时间段内,即使发送方发送的会话消息高度可疑,但是只给很少的用户发送,那么也不会认为该发送方为异常用户,因此,本申请不但从会话消息的内容上进行检测,而且能够从行为上进行检测,由此,减少出现误杀的情况。
可选地,在上述图4对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,对待处理会话消息集合中的字符进行处理,得到待检测用户所对应的目标文本数据,具体包括如下步骤:
针对待处理会话消息集合中的每条待处理会话消息,若存在满足文本替换条件的目标字符,则根据目标字符的类型,将目标字符替换为预设字符,以得到第一文本数据;
针对待处理会话消息集合中的每条待处理会话消息,若不存在满足文本替换条件的字符,则将待处理会话消息确定为第二文本数据;
根据第一文本数据和第二文本数据中的至少一种,生成待检测用户所对应的目标文本数据。
本实施例中,介绍了一种获取目标文本数据的方式,在得到待处理会话消息集合之后,可以对待处理会话消息进行处理。由于并非每条待处理会话消息都需要进行字符替换,因此,对于满足文本替换条件的目标字符,需要将目标字符替换为预设字符,以得到第一文本数据。而对于不满足文本替换条件的字符,则直接将该条待处理会话消息确定为第二文本数据,最后将第一文本数据和第二文本数据均作为目标文本数据中所包括的文本数据。
具体地,待处理会话消息中可能会包括特殊字符和表情、数字、标点符号、单条消息结束标以及不同接收方间隔标识中的至少一种,这些字符由于种类多且差异大,因此,需要统一转换成特定标识会更有利于模型学习他们的语义和语境。示例性地,可以将数字统一替换成一个标识符号,比如“*”,有几个数字就替换成几个“*”。示例性地,对所有的标点符号统一替换成另一个标识符号比如“空格”,如果多个标点符号前后挨在一起,那么仅替换为一个空格。示例性地,所有的非标点、非数字、非字母和非汉字的符号,可以统一理解为特殊字符或表情,统一替换为另一个表示符号,比如“&”,有几个特殊字符就替换为几个“&”。对统计数字和特殊字符的每次连贯的个数进行替换,例如“*****”包含五个“*”,就替换成“*5”。示例性地,对单条消息的结束标识和不同接收方的间隔标识,分别用不同的标识符号进行标识,比如,同一个发送者发送给不同接收者的间隔标识表示为“$”,不同发送者之间的间隔标识表示为“##”。可以理解的是,上述例子仅为一个示意,不应理解为对本申请的限定。
为了便于理解,请参阅图7,图7为本申请实施例中目标文本数据的一个数据格式示意图,如图所示,每一行为一条文本数据,若经过字符替换,则该条文本数据为第一文本数据,若未经过字符替换,则该条文本数据为第二文本数据。第一列是发送方标识,用于标识不同的发送方,第二列是处理过的文本数据。
再次,本申请实施例中,提供了一种获取目标文本数据的方式,采用上述方式,可以对待处理会话消息进行处理,如果具有可替换的字符,则将满足文本替换条件的目标字符替换为预设字符,由此鞥呢个学习到特殊字符的出现规律,防止黑产通过特殊字符避开检测,使得模型能达到接近人工判别的准确率,且具有较好的任务迁移能力。
可选地,在上述图4对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,调用用户类型识别模型对目标文本数据进行模型预测,以输出待检测用户所对应的类别预测标签,具体包括如下步骤:
调用用户类型识别模型对目标文本数据进行模型预测,以输出待检测用户所对应的类别预测标签以及类别预测标签所对应的置信度分值;
若类别预测标签为异常标签,则确定待检测用户为异常用户,具体包括如下步骤:
若类别预测标签为异常标签,且类别预测标签所对应的置信度分值大于或等于置信度阈值,则确定待检测用户为异常用户。
本实施例中,介绍了一种基于类别预测标签以及置信度分值共同检测异常用户的方式,为了便于介绍,下面将以二分类标签为例进行说明,类别预测标签可以为“1”或者“0”,其中,“1”属于“异常标签”,用于表示待检测用户属于异常用户,“0”属于“正常标签”,用于表示待检测用户属于正常用户。进一步地,还可以分别输出“异常标签”所对应置信度分值和“正常标签”所对应置信度分值,且这两个类别预测标签所对应的置信度分值加和为1。
为了便于理解,请参阅图8,图8为本申请实施例中基于用户类型识别模型输出标签的一个示意图,如图所示,在预测的过程中,首先选择固定时间粒度(即待检测时间段内)下待检测的会话消息集合。然后将待检测的会话消息集合处理成可以直接读取的文本,即得到目标文本数据,将目标文本数据输入至训练好的用户类型识别模型中,从而得到“1”或者“0”的类别预测标签。基于此,请参阅图9,图9为本申请实施例中基于用户类型识别模型输出标签及置信度分值的一个示意图,如图所示,用户类型识别模型还可以输出类别预测标签为“1”所对应的置信度分值,以及类别预测标签为“0”所对应的置信度分值,例如,类别预测标签为“0”对应的置信度分值为0.7,类别预测标签为“1”对应的置信度分值为0.3,那么用户类型识别模型可以执行输出类别预测标签“0”,同时,输出“0.7”和“0.3”两个置信度分值,其中,较大的一个置信度分值越大,可以说明预测得到的类别预测标签越可靠。
基于此,欲使模型预测异常用户的精确度更高,可设定当类别预测标签为“1”的概率大于置信度阈值时才预测为异常用户,置信度阈值可以为0.5,或者0.8,还可以为其他值,此处不做限定。然而,设定置信度阈值可能会导致异常用户的召回率(Recall)下降,即导致检测到的异常用户总数检索,因此,需要通过修改置信度分值的方式,从一定程度上调节精确率(Precision)和召回率。
示例性地,假设输出的类别预测标签为“1”,且类别预测标签为“1”的置信度分值为“0.8”,假设置信度阈值为0.5,那么类别预测标签为“1”的置信度分值大于置信度阈值,因此,表示待检测用户为异常用户的这个预测结果较为可靠,由此确定待检测用户即为异常用户。
更进一步地,本申请实施例中,提供了一种基于类别预测标签以及置信度分值共同检测异常用户的方式,采用上述方式,还可以基于类别预测标签对应的置信度分值,能够进一步确定本次得到的预测结果的可靠性,置信度分值越高,通常表示预测得到的类别预测标签越准确。此外,还可以通过修改置信度分值,从一定程度上调节用户类型识别模型的精确率和召回率。
可选地,在上述图4对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,调用用户类型识别模型对目标文本数据进行模型预测,以输出待检测用户所对应的类别预测标签之前,还可以包括如下步骤:
获取待训练的会话消息集合,其中,待训练的会话消息集合包括至少一个正样本以及至少一个负样本,正样本为来源于异常用户发送的会话消息,负样本为来源于正常用户发送的会话消息,异常用户与正常用户均属于待训练用户;
对待训练的会话消息集合进行过滤处理,以得到第一目标文本数据集合以及第二目标文本数据集合,其中,第一目标文本数据集合包括至少一个第一目标文本数据,第二目标文本数据集合包括至少一个第二目标文本数据,第一目标文本数据包括异常用户发送的至少一条会话消息,第二目标文本数据包括正常用户发送的至少一条会话消息;
调用待训练的用户类型识别模型对第一目标文本数据集合以及第二目标文本数据集合进行模型预测,以输出每个待训练用户所对应的类别预测标签;
基于每个待训练用户所对应的类别预测标签,采用损失函数对待训练的用户类型识别模型进行训练,得到用户类型识别模型。
本实施例中,异常用户识别装置从待训练平台上获取待训练的会话消息集合,待训练平台包含但不仅限于社交平台、视频平台、电商平台以及其他可实现用户之间交流的平台。待训练的会话消息集合包括至少一个正样本以及至少一个负样本,每个正样本对应于一个异常用户发送的会话消息,每个负样本对应于一个正常用户发送的会话消息。
在实际训练过程中,会涉及到大量的正样本和负样本,例如,待训练的会话消息集合中正样本与负样本的比例为1.4k:6.4k,用于验证模型的样本集中正样本与负样本的比例为0.35k:1.6k。经过验证,本申请提供的方案在训练过程中,在验证集上的效果的准确率达到99.8%,精确率达到99.4%,召回率达到99.7%,且具有泛化性,能识别出训练样本中没有出现过的异常用户。
由于待训练的会话消息集合中包括多个用户发送的会话消息,在实际训练的过程中,需要将每个待训练用户对应的会话消息集合进行过滤处理,比如,过滤掉系统消息以及无用字符,替换掉一些特殊字符,并且按照发送时间的次序对会话消息集合内的会话消息进行重新排序等处理,最后得到每个异常用户对应的第一目标文本数据,而多个异常用户对应的第一目标文本数据即为第一目标文本数据集合,类似地,每个正常用户对应的第二目标文本数据,而多个正常用户对应的第二目标文本数据即为第二目标文本数据集合。
异常用户识别装置将第一目标文本数据集合中的第一目标文本数据输入至待训练的用户类型识别模型中,通过待训练的用户类型识别模型输出每个第一目标文本数据对应的类别预测标签。类似地,异常用户识别装置将第二目标文本数据集合中的第二目标文本数据输入至待训练的用户类型识别模型中,通过待训练的用户类型识别模型输出每个第二目标文本数据对应的类别预测标签。以二分类标签为例,类别预测标签为“1”可表示“异常标签”,类别预测标签为“0”可表示“正常标签”。
由于每个待训练用户的真实标签是提前打好的,例如,正样本对应的第一目标文本数据集合的真实类别预测标签为“1”,负样本对应的第二目标文本数据集合的真实类别预测标签为“0”。再基于待训练的用户类型识别模型输出的预测的类别预测标签,可采用损失函数对待训练的用户类型识别模型进行训练。
经过多次迭代训练后,可观察损失值是否已达到收敛状态,若达到收敛状态,则表示当前已满足模型训练完成条件,由此可以将最后一次更新得到的模型参数作为用户类型识别模型最终的模型参数。示例性地,可确定模型迭代的次数,若达到预先设定的模型迭代次数(比如十万次),则表示当前已满足模型训练完成条件,由此可以将最后一次更新得到的模型参数作为用户类型识别模型最终的模型参数。
其次,本申请实施例中,提供了一种识别模型的训练方法,通过上述方式,可以采用大量的会话消息作为训练样本,这些会话消息包括待训练用户在不同时间发送给不同对象的内容,基于此,对大量会话消息进行过滤处理后,所得到的第一目标文本数据和第二目标文本数据也具有较好的泛化性,从而能够提升用户类型识别模型的泛化能力。用户类型识别模型既能够克服在基于规则的检测方法中,对命中异常规则但整体语义正常的会话消息的误杀,又能够克服在基于行为的检测方法中,不考虑内容带来相似行为的误杀。本申请能根据字词的语义,检测出黑产新采用的异常特征,因此,具有较高的识别准确率,有效地帮助社交平台及时识别异常用户,降低平台因用户流失而带来的损失。
可选地,在上述图4对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,调用待训练的用户类型识别模型对第一目标文本数据集合以及第二目标文本数据集合进行模型预测,以输出每个待训练用户所对应的类别预测标签,具体包括如下步骤:
调用待训练的用户类型识别模型对第一目标文本数据集合以及第二目标文本数据集合进行模型预测,以输出每个待训练用户所对应的类别预测标签以及类别预测标签所对应的置信度分值;
基于每个待训练用户所对应的类别预测标签,采用损失函数对待训练的用户类型识别模型进行训练,得到用户类型识别模型,包括:
基于每个待训练用户所对应的类别预测标签以及类别预测标签所对应的置信度分值,采用损失函数对待训练的用户类型识别模型中的模型参数进行更新;
若满足模型训练完成条件,则获取用户类型识别模型。
本实施例中,介绍了一种基于类别预测标签以及置信度分值共同训练模型的方式,将以二分类标签为例进行说明,类别预测标签可以为“1”或者“0”,其中,“1”属于“异常标签”,用于表示待训练用户属于异常用户,“0”属于“正常标签”,用于表示待训练用户属于正常用户。进一步地,还可以分别输出“异常标签”所对应置信度分值和“正常标签”所对应置信度分值,且这两个类别预测标签所对应的置信度分值加和为1。
具体地,在模型训练的过程中,先选择固定时间粒度下待训练的会话消息集合,其中,固定时间粒度与模型预测时采用的待检测时间段尽可能相同,并且在预测文本长度和信息内容整体上最好也相似,这样可以提升模型的可用性,在实际训练中,也可以情况进行调整。将待训练的会话消息集合处理成可以直接读取的文本,即得到第一目标文本数据集合以及第二目标文本数据集合,再将第一目标文本数据集合所对应的第一目标文本数据输入至待训练的用户类型识别模型中,从而得到“1”或者“0”的类别预测标签,并且将第二目标文本数据集合所对应的第二目标文本数据输入至待训练的用户类型识别模型中,从而得到“1”或者“0”的类别预测标签。此外,用户类型识别模型还可以输出类别预测标签为“1”所对应的置信度分值,以及类别预测标签为“0”所对应的置信度分值,例如,类别预测标签为“0”对应的置信度分值为0.7,类别预测标签为“1”对应的置信度分值为0.3,那么用户类型识别模型可以执行输出类别预测标签“0”,同时,输出“0.7”和“0.3”两个置信度分值,其中,较大的一个置信度分值越大,可以说明预测得到的类别预测标签越可靠。
具体地,由于每个待训练用户的真实标签是提前打好的,因此,可确定每个待训练用户对应的真实类别预测标签,而待训练的用户类型识别模型输出的结果为预测的类别预测标签及其对应的置信度分值,由此,可以采用损失函数对待训练的用户类型识别模型中的模型参数进行更新,损失函数的类型可以是均方误差(mean-square error,MSE)损失函数,也可以是交叉熵(cross entropy)损失函数,还可以是其他类型的损失函数,此处不做限定。
示例性地,经过多次迭代训练后,可观察损失值是否已达到收敛状态,若达到收敛状态,则表示当前已满足模型训练完成条件,由此可以将最后一次更新得到的模型参数作为用户类型识别模型最终的模型参数。示例性地,可以确定模型迭代的次数,若达到预先设定的模型迭代次数(比如十万次),则表示当前已满足模型训练完成条件,由此可以将最后一次更新得到的模型参数作为用户类型识别模型最终的模型参数。
其次,本申请实施例中,提供了一种基于类别预测标签以及置信度分值共同训练模型的方式,采用上述方式,还可以基于类别预测标签对应的置信度分值,能够进一步确定本次得到的预测结果的可靠性,置信度分值越高,通常表示预测得到的类别预测标签越准确,从而提升用户类型识别模型的检测精度。此外,还可以通过修改置信度分值,从一定程度上调节用户类型识别模型的精确率和召回率。
应理解,下面将对本申请提供的异常用户识别方法进行介绍,请参阅图10,图10为本申请实施例中异常用户识别方法的一个整体流程示意图,如图所示,具体地:
在步骤201中,获取待检测平台上的历史会话消息集合;
在步骤202中,异常用户识别装置将历史会话消息集合中属于待检测时间段内的至少一条会话消息,确定为待检测的会话消息集合;
在步骤203中,若检测到待检测的会话消息集合中存在系统提示消息,则异常用户识别装置从待检测的会话消息集合中过滤系统提示消息,若检测到待检测的会话消息集合中存在系统可选消息,则异常用户识别装置从待检测的会话消息集合中过滤系统可选消息;
在步骤204中,针对待检测的会话消息集合,异常用户识别装置根据过滤后得到的至少一条会话消息获取第一会话消息集合;
在步骤205中,异常用户识别装置根据每条会话消息所对应的发送方标识,获取N组第一会话消息子集合;
在步骤206中,针对于N组第一会话消息子集合中的任意一组第一会话消息子集合,异常用户识别装置根据每条会话消息所对应的接收方标识,获取K组第二会话消息子集合;
在步骤207中,针对于任意一组第一会话消息子集合,异常用户识别装置获取每组第二会话消息子集合中所包括的会话消息的总数量;
在步骤208中,针对于任意一组第一会话消息子集合,异常用户识别装置按照会话消息的总数量从小到大的次序,对K组第二会话消息子集合进行排序,得到第一排序结果;
在步骤209中,针对第一排序结果,异常用户识别装置获取排序后的第二会话消息子集合中每条会话消息所对应的发送时间;
在步骤210中,针对第一排序结果,异常用户识别装置按照发送时间的次序,对排序后的第二会话消息子集合中的会话消息进行排序,得到第二排序结果;
在步骤211中,异常用户识别装置根据每组第一会话消息子集合所对应的第二排序结果,生成第二会话消息集合;
在步骤212中,异常用户识别装置从第二会话消息集合获取待检测的第一会话消息子集合;
在步骤213中,异常用户识别装置根据待检测的第一会话消息子集合,确定接收方标识的接收方数量;
在步骤214中,若接收方数量大于或等于接收方数量阈值,则异常用户识别装置确定待检测的第一会话消息子集合为待检测用户所对应的待处理会话消息集合;
在步骤215中,针对待处理会话消息集合中的每条待处理会话消息,若存在满足文本替换条件的目标字符,则异常用户识别装置根据目标字符的类型,将目标字符替换为预设字符,以得到第一文本数据,若不存在满足文本替换条件的字符,则将待处理会话消息确定为第二文本数据;
在步骤216中,异常用户识别装置根据第一文本数据和第二文本数据中的至少一种,生成待检测用户所对应的目标文本数据;
在步骤217中,异常用户识别装置调用用户类型识别模型对目标文本数据进行模型预测,以输出待检测用户所对应的类别预测标签以及类别预测标签所对应的置信度分值;
在步骤218中,若类别预测标签为引流标签,且类别预测标签所对应的置信度分值大于或等于置信度阈值,则异常用户识别装置确定待检测用户为异常用户。
下面将对本申请中的识别模型训练方法进行介绍,请参阅图11,本申请实施例中识别模型训练方法的一个实施例包括:
301、获取待训练的会话消息集合,其中,待训练的会话消息集合包括至少一个正样本以及至少一个负样本,正样本为来源于异常用户发送的会话消息,负样本为来源于正常用户发送的会话消息,异常用户与正常用户均属于待训练用户;
本实施例中,模型训练装置从待训练平台上获取待训练的会话消息集合,待训练平台包含但不仅限于社交平台、视频平台、电商平台以及其他可实现用户之间交流的平台。待训练的会话消息集合包括至少一个正样本以及至少一个负样本,每个正样本对应于一个异常用户发送的会话消息,每个负样本对应于一个正常用户发送的会话消息。
需要说明的是,模型训练装置可部署于服务器上,也可以部署于终端设备上,本申请模型训练装置以部署于服务器上为例进行说明,更具体地,模型训练装置可部署于云服务器上。
302、对待训练的会话消息集合进行过滤处理,以得到第一目标文本数据集合以及第二目标文本数据集合,其中,第一目标文本数据集合包括至少一个第一目标文本数据,第二目标文本数据集合包括至少一个第二目标文本数据,第一目标文本数据包括异常用户发送的至少一条会话消息,第二目标文本数据包括正常用户发送的至少一条会话消息;
本实施例中,由于待训练的会话消息集合中包括多个用户发送的会话消息,在实际训练的过程中,需要将每个待训练用户对应的会话消息集合进行过滤处理,比如,过滤掉系统消息以及无用字符,替换掉一些特殊字符,并且按照发送时间的次序对会话消息集合内的会话消息进行重新排序等处理,最后得到每个异常用户对应的第一目标文本数据,而多个异常用户对应的第一目标文本数据即为第一目标文本数据集合,类似地,每个正常用户对应的第二目标文本数据,而多个正常用户对应的第二目标文本数据即为第二目标文本数据集合。
303、调用待训练的用户类型识别模型对第一目标文本数据集合以及第二目标文本数据集合进行模型预测,以输出每个待训练用户所对应的类别预测标签;
本实施例中,模型训练装置将第一目标文本数据集合中的第一目标文本数据输入至待训练的用户类型识别模型中,通过待训练的用户类型识别模型输出每个第一目标文本数据对应的类别预测标签。类似地,模型训练装置将第二目标文本数据集合中的第二目标文本数据输入至待训练的用户类型识别模型中,通过待训练的用户类型识别模型输出每个第二目标文本数据对应的类别预测标签。以二分类标签为例,类别预测标签为“1”可表示“异常标签”,类别预测标签为“0”可表示“正常标签”。
304、基于每个待训练用户所对应的类别预测标签,采用损失函数对待训练的用户类型识别模型进行训练,得到用户类型识别模型,其中,用户类型识别模型为上述实施例中所采用的模型。
本实施例中,由于每个待训练用户的真实标签是提前打好的,例如,正样本对应的第一目标文本数据集合的真实类别预测标签为“1”,负样本对应的第二目标文本数据集合的真实类别预测标签为“0”。再基于待训练的用户类型识别模型输出的预测的类别预测标签,可采用损失函数对待训练的用户类型识别模型进行训练。直至满足模型训练完成条件,由此可以将最后一次更新得到的模型参数作为用户类型识别模型最终的模型参数。
需要说明的是,步骤301至步骤304与上述实施例描述的过程类似,此处不做赘述。
应理解,本申请提供的用户类型识别模型为基于深度学习的端到端的模型,即采用的是基于输入处理好的文本数据直接输出样本标签。具体地,用户类型识别模型可以是文本卷积神经网络(text convolutional neural networks,TextCNN)结构,或者,来自变换器的双向编码器表征量(Bidirectional Encoder Representations fromTransformers,BERT)网络结构,其中,BERT网络结构在实际测试中的效果好于TextCNN的效果,可以理解的是,用户类型识别模型还可以采用其他类型的网络结构,例如,XLNet的网络结构、循环神经网络(Recurrent Neural Network,RNN)结合注意力(attention)机制的网络结构、区域卷积神经网络(Region-based CNN,RCNN)结构等深度学习文本分类模型,或者在做一些简单的特征工程后采用快速文本(FastText)模型、支持向量机(Support VectorMachine,SVM)模型、逻辑回归(Logistic Regression,LR)模型或随机森林(randomforests,RF)等。
长短期记忆(long short-term memory,LSTM)网络结构等。下面将分别对基于TextCNN结构的用户类型识别模型,以及基于BERT网络结构的用户类型识别模型进行介绍。
一、基于TextCNN结构的用户类型识别模型;
TextCNN结构是一种结合了卷积神经网络(convolutional neural networks,CNN)思想中的卷积层和池化层思想的一种用于文本分类的深度学习神经网络。TextCNN结构度很快,计算过程也较为简单,而且巧妙地利用了CNN的思想,能够取得较好的效果。
为了便于介绍,请参阅图12,图12为本申请实施例中基于文本卷积神经网络的一个模型处理示意图,如图所示,以目标文本数据(也可以是第一目标文本数据或者第二目标文本数据)为例,首先将输入的目标文本数据进行分词,可以采用“结巴(jieba)”分词,或采用长短期记忆(long short-term memory,LSTM)网络结合条件随机场(conditionalrandom field,CRF)模型进行分词。分词之后可得到n个词语,然后获取每个词语对应的词向量,这里的词向量可以是基于大规模语料库采用其他词向量训练方法预训练好的,也可以是随机初始化的。词向量一般是100维到500维之间,可以根据实际情况设定。假设一段目标文本数据可以分成20个词语,词向量是300维,那么得到一个20*300的矩阵。
将目标文本数据对应的矩阵输入至卷积层,其中,可以设置k个m*300大小的卷积核,m是不同的,可以取3、4、5和7等,通常每个m的k值约为100至300个。使用卷积核对矩阵做卷积之后,得到k个向量。再对每个向量采用池化层进行池化操作,得到一个k维的向量,最后对k维的向量接入至少一个全连接层,并执行Softmax操作,得到类别预测标签。可选地,还可以输出每个类别预测标签对应的置信度分值。
二、基于BERT网络结构的用户类型识别模型;
BERT网络结构是基于双向变换器(Transformer)结构的编码器(Encoder)。它摒弃了之前常用的自然语言处理深度学习模型结构,采用全attention的构造方法,即transformer结构。双向transformer结构保证了模型能学到上文的信息和下文的信息。通过这种结构的编码器,BERT网络结构可以学习到文本的语义表示。BERT网络结构在训练时是基于海量的纯文本语料进行无监督的训练,以学习字的语义表示。BERT网络结构的训练方法主要是两种,一种是遮蔽训练语料中的部分字然后预测,另一种是通过训练语料中的上一句预测下一句。BERT网络结构通过这两种无监督的训练方法就可以完成在大规模语料上学习语义表示的任务。
为了便于介绍,请参阅图13,图13为本申请实施例中基于双向编码器表征量网络的一个模型处理示意图,如图所示,以目标文本数据(也可以是第一目标文本数据或者第二目标文本数据)为例,对于分类任务来说,BERT网络结构输出的语义表示的形式是将输入的目标文本数据生成一个长度固定的向量。例如,假设一段目标文本数据可以分成20个词语,再获取对应的词嵌入(即E1至En),通过双向transformer生成向量(即表示为T1至Tn)。基于该向量再连接全连接层和Softmax层,即可得到类别预测标签。可选地,还可以输出每个类别预测标签对应的置信度分值。
BERT网络结构在训练和使用时主要有三个阶段.第一阶段是在大规模语料上进行无监督预训练(pre-training)学习语义表示,这一阶段的数据量较大,训练时间较长,一般由大型机构训练好之后发布在网上供他人调用。第二阶段时结合pre-training的BERT网络结构和下游任务(如分类或者文本匹配等),采用业务对应的标签数据进行训练调优(fine-tuning),在pre-training模型的基础上再结合业务目标进行训练。本申请可调用pre-training好的BERT网络结构进行fine-tuning,最终得到当前业务场景下、适用于分类任务的用户类型识别模型。第三阶段就是在预测时使用fine-tuning好的用户类型识别模型进行预测。
在对BERT网络结构进行fine-tuning时,需要设定一些模型参数,最重要的就是模型读取的文本长度和训练时的批大小(batch)。模型读取的文本长度代表BERT网络结构在完成当前任务时截取前多少个字符进行训练和预测,因为BERT网络结构的输入文本长度需要保持一致,所以要规定统一的文本长度,超过的话就截断,不足则用空字符补位。一般来说文本长度越长模型提取的信息越多,但是BERT网络结构基于全Attention结构,会因文本太长导致模型复杂度过高且运算太慢,因此,在机器资源允许的情况下适当选择100至500个字符即可。Batch批大小同样受制于机器资源,一般来说10至30即可。在pre-training阶段也可以在公开的预训练模型的基础上,加入当前业务数据进行重新pre-training,使模型更容易理解当前业务数据。
可以理解的是,还可以对BERT网络结构进行轻量化处理,加快模型运行速度。如蒸馏、剪枝、量化、OP重建或者低秩分解等。
其中,蒸馏表示在训练模型时,由于通常采用复杂模型来获取最好的结果,导致参数冗余严重,假设BERT网络结构里有3亿网络参数。蒸馏可以将复杂模型学到的知识迁移到另一个轻量级模型,使模型变轻量的同时方便部署,尽量不损失性能。思路是先训练好一个大模型,将原始数据在大模型上预测得到的概率值作为小模型的概率标签,使用数据的概率标签和原始离散标签训练小模型,将大模型的能力传授给小模型。
剪枝表示不改变模型结构,通过减掉某些减小模型的维度,以减小模型量级。例如针对BERT网络结构可以减少模型层数,减少全连接层的维度,减少attention的个数。
量化表示用压缩后的矩阵近似代表原始的参数矩阵,以减少浮点数乘积运算的次数来达到加速,是典型的用精度换时间的做法。
OP重建表示合并底层操作,加速矩阵运算。
低秩分解表示将原始的权重张量分解为两个或者两个以上的张量,并对分解张量进行优化调整。
本申请实施例中,提供了一种识别模型的训练方法,通过上述方式,可以采用大量的会话消息作为训练样本,这些会话消息包括待训练用户在不同时间发送给不同对象的内容,基于此,对大量会话消息进行过滤处理后,所得到的第一目标文本数据和第二目标文本数据也具有较好的泛化性,从而能够提升用户类型识别模型的泛化能力。用户类型识别模型既能够克服在基于规则的检测方法中,对命中异常规则但整体语义正常的会话消息的误杀,又能够克服在基于行为的检测方法中,不考虑内容带来相似行为的误杀。本申请能根据字词的语义,检测出黑产新采用的异常特征,因此,具有较高的识别准确率,有效地帮助社交平台及时识别异常用户,降低平台因用户流失而带来的损失。
可选地,在上述图11对应的各个实施例的基础上,本申请实施例提供的一个可选实施例中,调用待训练的用户类型识别模型对第一目标文本数据集合以及第二目标文本数据集合进行模型预测,以输出每个待训练用户所对应的类别预测标签,具体包括如下步骤:
调用待训练的用户类型识别模型对第一目标文本数据集合以及第二目标文本数据集合进行模型预测,以输出每个待训练用户所对应的类别预测标签以及类别预测标签所对应的置信度分值;
基于每个待训练用户所对应的类别预测标签,采用损失函数对待训练的用户类型识别模型进行训练,得到用户类型识别模型,具体包括如下步骤:
基于每个待训练用户所对应的类别预测标签以及类别预测标签所对应的置信度分值,采用损失函数对待训练的用户类型识别模型中的模型参数进行更新;
若满足模型训练完成条件,则获取用户类型识别模型。
本实施例中,介绍了一种基于类别预测标签以及置信度分值共同训练模型的方式,将以二分类标签为例进行说明,类别预测标签可以为“1”或者“0”,其中,“1”属于“异常标签”,用于表示待训练用户属于异常用户,“0”属于“正常标签”,用于表示待训练用户属于正常用户。进一步地,还可以分别输出“异常标签”所对应置信度分值和“正常标签”所对应置信度分值,且这两个类别预测标签所对应的置信度分值加和为1。
具体地,在模型训练的过程中,先选择固定时间粒度下待训练的会话消息集合,其中,固定时间粒度与模型预测时采用的待检测时间段尽可能相同,并且在预测文本长度和信息内容整体上最好也相似,这样可以提升模型的可用性,在实际训练中,也可以情况进行调整。将待训练的会话消息集合处理成可以直接读取的文本,即得到第一目标文本数据集合以及第二目标文本数据集合,再将第一目标文本数据集合所对应的第一目标文本数据输入至待训练的用户类型识别模型中,从而得到“1”或者“0”的类别预测标签,并且将第二目标文本数据集合所对应的第二目标文本数据输入至待训练的用户类型识别模型中,从而得到“1”或者“0”的类别预测标签。此外,用户类型识别模型还可以输出类别预测标签为“1”所对应的置信度分值,以及类别预测标签为“0”所对应的置信度分值,例如,类别预测标签为“0”对应的置信度分值为0.7,类别预测标签为“1”对应的置信度分值为0.3,那么用户类型识别模型可以执行输出类别预测标签“0”,同时,输出“0.7”和“0.3”两个置信度分值,其中,较大的一个置信度分值越大,可以说明预测得到的类别预测标签越可靠。
具体地,由于每个待训练用户的真实标签是提前打好的,因此,可确定每个待训练用户对应的真实类别预测标签,而待训练的用户类型识别模型输出的结果为预测的类别预测标签及其对应的置信度分值,由此,可以采用损失函数对待训练的用户类型识别模型中的模型参数进行更新,损失函数的类型可以是MSE损失函数,也可以是cross entropy损失函数,还可以是其他类型的损失函数,此处不做限定。
示例性地,经过多次迭代训练后,可观察损失值是否已达到收敛状态,若达到收敛状态,则表示当前已满足模型训练完成条件,由此可以将最后一次更新得到的模型参数作为用户类型识别模型最终的模型参数。示例性地,可以确定模型迭代的次数,若达到预先设定的模型迭代次数(比如十万次),则表示当前已满足模型训练完成条件,由此可以将最后一次更新得到的模型参数作为用户类型识别模型最终的模型参数。
其次,本申请实施例中,提供了一种基于类别预测标签以及置信度分值共同训练模型的方式,采用上述方式,还可以基于类别预测标签对应的置信度分值,能够进一步确定本次得到的预测结果的可靠性,置信度分值越高,通常表示预测得到的类别预测标签越准确,从而提升用户类型识别模型的检测精度。此外,还可以通过修改置信度分值,从一定程度上调节用户类型识别模型的精确率和召回率。
下面对本申请中的异常用户识别装置进行详细描述,请参阅图14,图14为本申请实施例中异常用户识别装置的一个实施例示意图,异常用户识别装置40包括:
获取模块401,用于获取待检测的会话消息集合,其中,待检测的会话消息集合包括M个用户发送的会话消息,M为大于或等于1的整数;
处理模块402,用于对待检测的会话消息集合进行过滤处理,以得到待检测用户所对应的目标文本数据,其中,待检测用户为M个用户中的一个用户,目标文本数据包括待检测用户发送的至少一条会话消息;
调用模块403,用于调用用户类型识别模型对目标文本数据进行模型预测,以输出待检测用户所对应的类别预测标签;
确定模块404,用于若类别预测标签为异常标签,则确定待检测用户为异常用户。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的异常用户识别装置40的另一实施例中,
获取模块401,具体用于获取待检测平台上的历史会话消息记录,其中,历史会话消息记录包括历史时间段内的至少一条会话消息;
将历史会话消息记录中属于待检测时间段内的至少一条会话消息,确定为待检测的会话消息集合。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的异常用户识别装置40的另一实施例中,
处理模块402,具体用于对待检测的会话消息集合中的系统消息进行过滤处理,得到第一会话消息集合;
根据第一会话消息集合中每条会话消息所对应的传输信息,生成第二会话消息集合,其中,传输信息包括会话消息对应的发送方标识以及接收方标识,发送方标识与会话消息的发送方具有一一对应的关系,接收方标识与会话消息的接收方具有一一对应的关系;
从第二会话消息集合中获取待检测用户所对应的待处理会话消息集合,其中,待处理会话消息集合包括至少一条待处理的会话消息;
对待处理会话消息集合中的字符进行处理,得到待检测用户所对应的目标文本数据。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的异常用户识别装置40的另一实施例中,系统消息包括系统提示消息以及系统可选消息中的至少一种,其中,系统提示消息表示由待检测平台提供的提示消息,系统可选消息表示从待检测平台提供的可选消息集合中选择的可选消息,待选消息集合包括至少一条可选消息;
处理模块402,具体用于若检测到待检测的会话消息集合中存在系统提示消息,则从待检测的会话消息集合中过滤系统提示消息;
若检测到待检测的会话消息集合中存在系统可选消息,则从待检测的会话消息集合中过滤系统可选消息;
针对待检测的会话消息集合,根据过滤后得到的至少一条会话消息获取第一会话消息集合。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的异常用户识别装置40的另一实施例中,
处理模块402,具体用于根据每条会话消息所对应的发送方标识,获取N组第一会话消息子集合,其中,N为大于或等于1,且小于或等于M的整数,每组第一会话消息子集合对应于一个相同的发送方标识;
针对于N组第一会话消息子集合中的任意一组第一会话消息子集合,根据每条会话消息所对应的接收方标识,获取K组第二会话消息子集合,其中,K为大于或等于1的整数,每组第二会话消息子集合对应于一个相同的接收方标识,且每组第二会话消息子集合中包括至少一条会话消息;
针对于任意一组第一会话消息子集合,获取每组第二会话消息子集合中所包括的会话消息的总数量;
针对于任意一组第一会话消息子集合,按照会话消息的总数量从小到大的次序,对K组第二会话消息子集合进行排序,得到第一排序结果;
根据每组第一会话消息子集合所对应的第一排序结果,生成第二会话消息集合。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的异常用户识别装置40的另一实施例中,每条会话消息所对应的传输信息还包括发送时间;
处理模块402,具体用于针对于任意一组第一会话消息子集合,按照会话消息的总数量从小到大的次序,对K组第二会话消息子集合进行排序,得到第一排序结果之后,针对第一排序结果,获取排序后的第二会话消息子集合中每条会话消息所对应的发送时间;
针对第一排序结果,按照发送时间的次序,对排序后的第二会话消息子集合中的会话消息进行排序,得到第二排序结果;
根据每组第一会话消息子集合所对应的第一排序结果,生成第二会话消息集合,包括:
根据每组第一会话消息子集合所对应的第二排序结果,生成第二会话消息集合,其中,第二会话消息集合包括N组经过排序处理的第一会话消息子集合。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的异常用户识别装置40的另一实施例中,
处理模块402,具体用于从第二会话消息集合获取待检测的第一会话消息子集合,其中,第二会话消息集合包括N组经过排序处理的第一会话消息子集合,N为大于或等于1,且小于或等于M的整数,每组第一会话消息子集合对应于一个相同的发送方标识;
根据待检测的第一会话消息子集合,确定接收方标识的接收方数量,其中,相同的接收方标识用于指示同一个接收方;
若接收方数量大于或等于接收方数量阈值,则确定待检测的第一会话消息子集合为待检测用户所对应的待处理会话消息集合。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的异常用户识别装置40的另一实施例中,
处理模块402,具体用于针对待处理会话消息集合中的每条待处理会话消息,若存在满足文本替换条件的目标字符,则根据目标字符的类型,将目标字符替换为预设字符,以得到第一文本数据;
针对待处理会话消息集合中的每条待处理会话消息,若不存在满足文本替换条件的字符,则将待处理会话消息确定为第二文本数据;
根据第一文本数据和第二文本数据中的至少一种,生成待检测用户所对应的目标文本数据。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的异常用户识别装置40的另一实施例中,
调用模块403,具体用于调用用户类型识别模型对目标文本数据进行模型预测,以输出待检测用户所对应的类别预测标签以及类别预测标签所对应的置信度分值;
确定模块404,具体用于若类别预测标签为异常标签,且类别预测标签所对应的置信度分值大于或等于置信度阈值,则确定待检测用户为异常用户。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,异常用户识别装置40还包括训练模块405;
获取模块401,还用于在调用模块403调用用户类型识别模型对目标文本数据进行模型预测,以输出待检测用户所对应的类别预测标签之前,获取待训练的会话消息集合,其中,待训练的会话消息集合包括至少一个正样本以及至少一个负样本,正样本为来源于异常用户发送的会话消息,负样本为来源于正常用户发送的会话消息,异常用户与正常用户均属于待训练用户;
处理模块402,还用于对待训练的会话消息集合进行过滤处理,以得到第一目标文本数据集合以及第二目标文本数据集合,其中,第一目标文本数据集合包括至少一个第一目标文本数据,第二目标文本数据集合包括至少一个第二目标文本数据,第一目标文本数据包括异常用户发送的至少一条会话消息,第二目标文本数据包括正常用户发送的至少一条会话消息;
调用模块403,还用于调用待训练的用户类型识别模型对第一目标文本数据集合以及第二目标文本数据集合进行模型预测,以输出每个待训练用户所对应的类别预测标签;
训练模块405,用于基于每个待训练用户所对应的类别预测标签,采用损失函数对待训练的用户类型识别模型进行训练,得到用户类型识别模型。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
调用模块403,具体用于调用待训练的用户类型识别模型对第一目标文本数据集合以及第二目标文本数据集合进行模型预测,以输出每个待训练用户所对应的类别预测标签以及类别预测标签所对应的置信度分值;
训练模块405,具体用于基于每个待训练用户所对应的类别预测标签以及类别预测标签所对应的置信度分值,采用损失函数对待训练的用户类型识别模型中的模型参数进行更新;
若满足模型训练完成条件,则获取用户类型识别模型。
下面对本申请中的模型训练装置进行详细描述,请参阅图15,图15为本申请实施例中模型训练装置的一个实施例示意图,模型训练装置50包括:
获取模块501,用于获取待训练的会话消息集合,其中,待训练的会话消息集合包括至少一个正样本以及至少一个负样本,正样本为来源于异常用户发送的会话消息,负样本为来源于正常用户发送的会话消息,异常用户与正常用户均属于待训练用户;
处理模块502,用于对待训练的会话消息集合进行过滤处理,以得到第一目标文本数据集合以及第二目标文本数据集合,其中,第一目标文本数据集合包括至少一个第一目标文本数据,第二目标文本数据集合包括至少一个第二目标文本数据,第一目标文本数据包括异常用户发送的至少一条会话消息,第二目标文本数据包括正常用户发送的至少一条会话消息;
调用模块503,用于调用待训练的用户类型识别模型对第一目标文本数据集合以及第二目标文本数据集合进行模型预测,以输出每个待训练用户所对应的类别预测标签;
训练模块504基于每个待训练用户所对应的类别预测标签,采用损失函数对待训练的用户类型识别模型进行训练,得到用户类型识别模型,其中,用户类型识别模型为上述实施例所采用的模型。
可选地,在上述图15应的实施例的基础上,本申请实施例提供的模型训练装置50的另一实施例中,
调用模块503,具体用于调用待训练的用户类型识别模型对第一目标文本数据集合以及第二目标文本数据集合进行模型预测,以输出每个待训练用户所对应的类别预测标签以及类别预测标签所对应的置信度分值;
训练模块504,具体用于基于每个待训练用户所对应的类别预测标签以及类别预测标签所对应的置信度分值,采用损失函数对待训练的用户类型识别模型中的模型参数进行更新;
若满足模型训练完成条件,则获取用户类型识别模型。
图16是本申请实施例提供的一种服务器结构示意图,该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)622(例如,一个或一个以上处理器)和存储器632,一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器622可以设置为与存储介质630通信,在服务器600上执行存储介质630中的一系列指令操作。
服务器600还可以包括一个或一个以上电源626,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口658,和/或,一个或一个以上操作系统641,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图16所示的服务器结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如前述各个实施例描述的方法。
本申请实施例中还提供一种包括程序的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例描述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (14)
1.一种基于深度学习的异常用户识别方法,其特征在于,包括:
获取待检测的会话消息集合,其中,所述待检测的会话消息集合包括M个用户发送的会话消息,所述M为大于或等于1的整数;
对所述待检测的会话消息集合进行过滤处理,以得到待检测用户所对应的目标文本数据,其中,所述待检测用户为所述M个用户中的任意一个用户,所述目标文本数据包括所述待检测用户发送的至少一条会话消息;
调用用户类型识别模型对所述目标文本数据进行模型预测,以输出所述待检测用户所对应的类别预测标签;
若所述类别预测标签为异常标签,则确定所述待检测用户为异常用户。
2.根据权利要求1所述的识别方法,其特征在于,所述获取待检测的会话消息集合,包括:
获取待检测平台上的历史会话消息记录,其中,所述历史会话消息记录包括历史时间段内的至少一条会话消息;
将所述历史会话消息记录中属于待检测时间段内的至少一条会话消息,确定为所述待检测的会话消息集合。
3.根据权利要求1所述的识别方法,其特征在于,所述对所述待检测的会话消息集合进行过滤处理,以得到待检测用户所对应的目标文本数据,包括:
对所述待检测的会话消息集合中的系统消息进行过滤处理,得到第一会话消息集合;
根据所述第一会话消息集合中每条会话消息所对应的传输信息,生成第二会话消息集合,其中,所述传输信息包括会话消息对应的发送方标识以及接收方标识,所述发送方标识与会话消息的发送方具有一一对应的关系,所述接收方标识与会话消息的接收方具有一一对应的关系;
从所述第二会话消息集合中获取所述待检测用户所对应的待处理会话消息集合,其中,所述待处理会话消息集合包括至少一条待处理的会话消息;
对所述待处理会话消息集合中的字符进行处理,得到所述待检测用户所对应的所述目标文本数据。
4.根据权利要求3所述的识别方法,其特征在于,所述系统消息包括系统提示消息以及系统可选消息中的至少一种,其中,所述系统提示消息表示由待检测平台提供的提示消息,所述系统可选消息表示从所述待检测平台提供的可选消息集合中选择的可选消息,所述待选消息集合包括至少一条可选消息;
所述对所述待检测的会话消息集合中的系统消息进行过滤处理,得到第一会话消息集合,包括:
若检测到所述待检测的会话消息集合中存在所述系统提示消息,则从所述待检测的会话消息集合中过滤所述系统提示消息;
若检测到所述待检测的会话消息集合中存在所述系统可选消息,则从所述待检测的会话消息集合中过滤所述系统可选消息;
针对所述待检测的会话消息集合,根据过滤后得到的至少一条会话消息获取所述第一会话消息集合。
5.根据权利要求3所述的识别方法,其特征在于,所述根据所述第一会话消息集合中每条会话消息所对应的传输信息,生成第二会话消息集合,包括:
根据所述每条会话消息所对应的发送方标识,获取N组第一会话消息子集合,其中,所述N为大于或等于1,且小于或等于所述M的整数,每组第一会话消息子集合对应于一个相同的发送方标识;
针对于所述N组第一会话消息子集合中的任意一组第一会话消息子集合,根据所述每条会话消息所对应的接收方标识,获取K组第二会话消息子集合,其中,所述K为大于或等于1的整数,每组第二会话消息子集合对应于一个相同的接收方标识,且所述每组第二会话消息子集合中包括至少一条会话消息;
针对于所述任意一组第一会话消息子集合,获取所述每组第二会话消息子集合中所包括的会话消息的总数量;
针对于所述任意一组第一会话消息子集合,按照所述会话消息的总数量从小到大的次序,对所述K组第二会话消息子集合进行排序,得到第一排序结果;
根据所述每组第一会话消息子集合所对应的所述第一排序结果,生成所述第二会话消息集合。
6.根据权利要求5所述的识别方法,其特征在于,所述每条会话消息所对应的传输信息还包括发送时间;
所述针对于所述任意一组第一会话消息子集合,按照所述会话消息的总数量从小到大的次序,对所述K组第二会话消息子集合进行排序,得到第一排序结果之后,所述方法还包括:
针对所述第一排序结果,获取所述排序后的第二会话消息子集合中每条会话消息所对应的发送时间;
针对所述第一排序结果,按照所述发送时间的次序,对所述排序后的第二会话消息子集合中的会话消息进行排序,得到第二排序结果;
所述根据所述每组第一会话消息子集合所对应的所述第一排序结果,生成所述第二会话消息集合,包括:
根据所述每组第一会话消息子集合所对应的所述第二排序结果,生成所述第二会话消息集合,其中,所述第二会话消息集合包括N组经过排序处理的第一会话消息子集合。
7.根据权利要求3所述的识别方法,其特征在于,所述从所述第二会话消息集合中获取所述待检测用户所对应的待处理会话消息集合,包括:
从所述第二会话消息集合获取待检测的第一会话消息子集合,其中,所述第二会话消息集合包括N组经过排序处理的第一会话消息子集合,所述N为大于或等于1,且小于或等于所述M的整数,每组第一会话消息子集合对应于一个相同的发送方标识;
根据所述待检测的第一会话消息子集合,确定接收方标识的接收方数量,其中,相同的接收方标识用于指示同一个接收方;
若所述接收方数量大于或等于接收方数量阈值,则确定所述待检测的第一会话消息子集合为待检测用户所对应的所述待处理会话消息集合。
8.根据权利要求3所述的识别方法,其特征在于,所述对所述待处理会话消息集合中的字符进行处理,得到所述待检测用户所对应的所述目标文本数据,包括:
针对所述待处理会话消息集合中的每条待处理会话消息,若存在满足文本替换条件的目标字符,则根据所述目标字符的类型,将所述目标字符替换为预设字符,以得到第一文本数据;
针对所述待处理会话消息集合中的每条待处理会话消息,若不存在满足所述文本替换条件的字符,则将所述待处理会话消息确定为第二文本数据;
根据所述第一文本数据和所述第二文本数据中的至少一种,生成所述待检测用户所对应的所述目标文本数据。
9.根据权利要求1至8中任一项所述的识别方法,其特征在于,所述调用用户类型识别模型对所述目标文本数据进行模型预测,以输出所述待检测用户所对应的类别预测标签,包括:
调用所述用户类型识别模型对所述目标文本数据进行模型预测,以输出所述待检测用户所对应的类别预测标签以及所述类别预测标签所对应的置信度分值;
所述若所述类别预测标签为异常标签,则确定所述待检测用户为异常用户,包括:
若所述类别预测标签为所述异常标签,且所述类别预测标签所对应的置信度分值大于或等于置信度阈值,则确定所述待检测用户为所述异常用户。
10.根据权利要求1所述的识别方法,其特征在于,所述调用用户类型识别模型对所述目标文本数据进行模型预测,以输出所述待检测用户所对应的类别预测标签之前,所述方法还包括:
获取待训练的会话消息集合,其中,所述待训练的会话消息集合包括至少一个正样本以及至少一个负样本,所述正样本为来源于异常用户发送的会话消息,所述负样本为来源于正常用户发送的会话消息,所述异常用户与所述正常用户均属于待训练用户;
对所述待训练的会话消息集合进行过滤处理,以得到第一目标文本数据集合以及第二目标文本数据集合,其中,所述第一目标文本数据集合包括至少一个第一目标文本数据,所述第二目标文本数据集合包括至少一个第二目标文本数据,所述第一目标文本数据包括所述异常用户发送的至少一条会话消息,所述第二目标文本数据包括所述正常用户发送的至少一条会话消息;
调用待训练的用户类型识别模型对所述第一目标文本数据集合以及所述第二目标文本数据集合进行模型预测,以输出每个待训练用户所对应的类别预测标签;
基于所述每个待训练用户所对应的类别预测标签,采用损失函数对所述待训练的用户类型识别模型进行训练,得到所述用户类型识别模型。
11.根据权利要求10所述的识别方法,其特征在于,所述调用待训练的用户类型识别模型对所述第一目标文本数据集合以及所述第二目标文本数据集合进行模型预测,以输出每个待训练用户所对应的类别预测标签,包括:
调用待训练的用户类型识别模型对所述第一目标文本数据集合以及所述第二目标文本数据集合进行模型预测,以输出每个待训练用户所对应的类别预测标签以及所述类别预测标签所对应的置信度分值;
基于所述每个待训练用户所对应的类别预测标签,采用损失函数对所述待训练的用户类型识别模型进行训练,得到用户类型识别模型,包括:
基于所述每个待训练用户所对应的类别预测标签以及所述类别预测标签所对应的置信度分值,采用所述损失函数对所述待训练的用户类型识别模型中的模型参数进行更新;
若满足模型训练完成条件,则获取所述用户类型识别模型。
12.一种异常用户识别装置,其特征在于,包括:
获取模块,用于获取待检测的会话消息集合,其中,所述待检测的会话消息集合包括M个用户发送的会话消息,所述M为大于或等于1的整数;
处理模块,用于对所述待检测的会话消息集合进行过滤处理,以得到待检测用户所对应的目标文本数据,其中,所述待检测用户为所述M个用户中的任意一个用户,所述目标文本数据包括所述待检测用户发送的至少一条会话消息;
调用模块,用于调用用户类型识别模型对所述目标文本数据进行模型预测,以输出所述待检测用户所对应的类别预测标签;
确定模块,用于若所述类别预测标签为异常标签,则确定所述待检测用户为异常用户。
13.一种计算机设备,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,所述处理器用于根据所述程序代码中的指令执行权利要求1至11中任一项所述的识别方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
14.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至11中任一项所述的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010650601.2A CN111666502A (zh) | 2020-07-08 | 2020-07-08 | 一种基于深度学习的异常用户识别方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010650601.2A CN111666502A (zh) | 2020-07-08 | 2020-07-08 | 一种基于深度学习的异常用户识别方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111666502A true CN111666502A (zh) | 2020-09-15 |
Family
ID=72391525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010650601.2A Pending CN111666502A (zh) | 2020-07-08 | 2020-07-08 | 一种基于深度学习的异常用户识别方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666502A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427620A (zh) * | 2019-07-23 | 2019-11-08 | 复旦大学 | 基于社群系统的服务质量优化管理系统 |
CN112365338A (zh) * | 2020-11-11 | 2021-02-12 | 平安普惠企业管理有限公司 | 基于人工智能的数据欺诈检测方法、装置、终端及介质 |
CN112527958A (zh) * | 2020-12-11 | 2021-03-19 | 平安科技(深圳)有限公司 | 用户行为倾向识别方法、装置、设备及存储介质 |
CN112905795A (zh) * | 2021-03-11 | 2021-06-04 | 证通股份有限公司 | 文本意图分类的方法、装置和可读介质 |
CN112925920A (zh) * | 2021-03-23 | 2021-06-08 | 西安电子科技大学昆山创新研究院 | 一种智慧社区大数据知识图谱网络社团检测方法 |
CN112926645A (zh) * | 2021-02-22 | 2021-06-08 | 国网四川省电力公司营销服务中心 | 一种基于边缘计算的窃电检测方法 |
CN113011875A (zh) * | 2021-01-12 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备以及存储介质 |
CN113240510A (zh) * | 2021-05-28 | 2021-08-10 | 平安科技(深圳)有限公司 | 异常用户预测方法、装置、设备及存储介质 |
CN113259402A (zh) * | 2021-07-19 | 2021-08-13 | 北京明略软件系统有限公司 | 一种异常网络协议地址的确定方法和装置 |
CN113440856A (zh) * | 2021-07-15 | 2021-09-28 | 网易(杭州)网络有限公司 | 游戏中异常账号的识别方法、装置、电子设备及存储介质 |
CN113591932A (zh) * | 2021-07-06 | 2021-11-02 | 北京淇瑀信息科技有限公司 | 基于一类支持向量机的用户异常行为处理方法和装置 |
CN113611329A (zh) * | 2021-07-02 | 2021-11-05 | 北京三快在线科技有限公司 | 一种语音异常检测的方法及装置 |
CN113656535A (zh) * | 2021-08-31 | 2021-11-16 | 上海观安信息技术股份有限公司 | 一种异常会话检测方法、装置及计算机存储介质 |
CN113706176A (zh) * | 2021-09-02 | 2021-11-26 | 赵琦 | 一种结合云计算的信息反欺诈处理方法及服务平台系统 |
CN113890756A (zh) * | 2021-09-26 | 2022-01-04 | 网易(杭州)网络有限公司 | 用户账号的混乱度检测方法、装置、介质和计算设备 |
CN114154578A (zh) * | 2021-12-02 | 2022-03-08 | 内蒙古工业大学 | 面向非平衡数据基于半监督分布式训练的任务识别方法 |
CN114330370A (zh) * | 2022-03-17 | 2022-04-12 | 天津思睿信息技术有限公司 | 一种基于人工智能的自然语言处理系统及处理方法 |
CN114330618A (zh) * | 2021-12-30 | 2022-04-12 | 神思电子技术股份有限公司 | 一种基于伪标签的二分类标签数据优化方法、设备及介质 |
CN115051880A (zh) * | 2022-08-17 | 2022-09-13 | 华泰人寿保险股份有限公司 | 对流量或日志数据进行分类的方法、系统、装置及介质 |
CN115269830A (zh) * | 2022-05-26 | 2022-11-01 | 腾讯科技(深圳)有限公司 | 异常文本检测模型训练方法、异常文本检测方法及装置 |
CN116863277A (zh) * | 2023-07-27 | 2023-10-10 | 北京中关村科金技术有限公司 | 结合rpa的多媒体数据检测方法及系统 |
CN117033052A (zh) * | 2023-08-14 | 2023-11-10 | 贵州慧码科技有限公司 | 基于模型识别的对象异常诊断方法及系统 |
CN117574261A (zh) * | 2023-10-19 | 2024-02-20 | 重庆理工大学 | 一种多领域虚假新闻读者认知检测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705250A (zh) * | 2019-09-23 | 2020-01-17 | 义语智能科技(广州)有限公司 | 一种用于识别聊天记录中目标内容的方法与系统 |
-
2020
- 2020-07-08 CN CN202010650601.2A patent/CN111666502A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705250A (zh) * | 2019-09-23 | 2020-01-17 | 义语智能科技(广州)有限公司 | 一种用于识别聊天记录中目标内容的方法与系统 |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427620B (zh) * | 2019-07-23 | 2023-04-28 | 复旦大学 | 基于社群系统的服务质量优化管理系统 |
CN110427620A (zh) * | 2019-07-23 | 2019-11-08 | 复旦大学 | 基于社群系统的服务质量优化管理系统 |
CN112365338A (zh) * | 2020-11-11 | 2021-02-12 | 平安普惠企业管理有限公司 | 基于人工智能的数据欺诈检测方法、装置、终端及介质 |
CN112365338B (zh) * | 2020-11-11 | 2024-03-22 | 天翼安全科技有限公司 | 基于人工智能的数据欺诈检测方法、装置、终端及介质 |
CN112527958A (zh) * | 2020-12-11 | 2021-03-19 | 平安科技(深圳)有限公司 | 用户行为倾向识别方法、装置、设备及存储介质 |
CN113011875B (zh) * | 2021-01-12 | 2024-03-29 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备以及存储介质 |
CN113011875A (zh) * | 2021-01-12 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备以及存储介质 |
CN112926645A (zh) * | 2021-02-22 | 2021-06-08 | 国网四川省电力公司营销服务中心 | 一种基于边缘计算的窃电检测方法 |
CN112905795A (zh) * | 2021-03-11 | 2021-06-04 | 证通股份有限公司 | 文本意图分类的方法、装置和可读介质 |
CN112925920A (zh) * | 2021-03-23 | 2021-06-08 | 西安电子科技大学昆山创新研究院 | 一种智慧社区大数据知识图谱网络社团检测方法 |
CN113240510A (zh) * | 2021-05-28 | 2021-08-10 | 平安科技(深圳)有限公司 | 异常用户预测方法、装置、设备及存储介质 |
CN113240510B (zh) * | 2021-05-28 | 2023-08-01 | 平安科技(深圳)有限公司 | 异常用户预测方法、装置、设备及存储介质 |
CN113611329A (zh) * | 2021-07-02 | 2021-11-05 | 北京三快在线科技有限公司 | 一种语音异常检测的方法及装置 |
CN113611329B (zh) * | 2021-07-02 | 2023-10-24 | 北京三快在线科技有限公司 | 一种语音异常检测的方法及装置 |
CN113591932A (zh) * | 2021-07-06 | 2021-11-02 | 北京淇瑀信息科技有限公司 | 基于一类支持向量机的用户异常行为处理方法和装置 |
CN113440856A (zh) * | 2021-07-15 | 2021-09-28 | 网易(杭州)网络有限公司 | 游戏中异常账号的识别方法、装置、电子设备及存储介质 |
CN113440856B (zh) * | 2021-07-15 | 2024-02-02 | 网易(杭州)网络有限公司 | 游戏中异常账号的识别方法、装置、电子设备及存储介质 |
CN113259402A (zh) * | 2021-07-19 | 2021-08-13 | 北京明略软件系统有限公司 | 一种异常网络协议地址的确定方法和装置 |
CN113656535B (zh) * | 2021-08-31 | 2023-11-14 | 上海观安信息技术股份有限公司 | 一种异常会话检测方法、装置及计算机存储介质 |
CN113656535A (zh) * | 2021-08-31 | 2021-11-16 | 上海观安信息技术股份有限公司 | 一种异常会话检测方法、装置及计算机存储介质 |
CN113706176B (zh) * | 2021-09-02 | 2022-08-19 | 江西裕民银行股份有限公司 | 一种结合云计算的信息反欺诈处理方法及服务平台系统 |
CN113706176A (zh) * | 2021-09-02 | 2021-11-26 | 赵琦 | 一种结合云计算的信息反欺诈处理方法及服务平台系统 |
CN113890756B (zh) * | 2021-09-26 | 2024-01-02 | 网易(杭州)网络有限公司 | 用户账号的混乱度检测方法、装置、介质和计算设备 |
CN113890756A (zh) * | 2021-09-26 | 2022-01-04 | 网易(杭州)网络有限公司 | 用户账号的混乱度检测方法、装置、介质和计算设备 |
CN114154578A (zh) * | 2021-12-02 | 2022-03-08 | 内蒙古工业大学 | 面向非平衡数据基于半监督分布式训练的任务识别方法 |
CN114154578B (zh) * | 2021-12-02 | 2023-10-31 | 内蒙古工业大学 | 面向非平衡数据基于半监督分布式训练的任务识别方法 |
CN114330618A (zh) * | 2021-12-30 | 2022-04-12 | 神思电子技术股份有限公司 | 一种基于伪标签的二分类标签数据优化方法、设备及介质 |
CN114330618B (zh) * | 2021-12-30 | 2024-07-02 | 神思电子技术股份有限公司 | 一种基于伪标签的二分类标签数据优化方法、设备及介质 |
CN114330370A (zh) * | 2022-03-17 | 2022-04-12 | 天津思睿信息技术有限公司 | 一种基于人工智能的自然语言处理系统及处理方法 |
CN115269830A (zh) * | 2022-05-26 | 2022-11-01 | 腾讯科技(深圳)有限公司 | 异常文本检测模型训练方法、异常文本检测方法及装置 |
CN115051880A (zh) * | 2022-08-17 | 2022-09-13 | 华泰人寿保险股份有限公司 | 对流量或日志数据进行分类的方法、系统、装置及介质 |
CN116863277A (zh) * | 2023-07-27 | 2023-10-10 | 北京中关村科金技术有限公司 | 结合rpa的多媒体数据检测方法及系统 |
CN117033052A (zh) * | 2023-08-14 | 2023-11-10 | 贵州慧码科技有限公司 | 基于模型识别的对象异常诊断方法及系统 |
CN117033052B (zh) * | 2023-08-14 | 2024-05-24 | 企口袋(重庆)数字科技有限公司 | 基于模型识别的对象异常诊断方法及系统 |
CN117574261A (zh) * | 2023-10-19 | 2024-02-20 | 重庆理工大学 | 一种多领域虚假新闻读者认知检测方法 |
CN117574261B (zh) * | 2023-10-19 | 2024-06-21 | 重庆理工大学 | 一种多领域虚假新闻读者认知检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111666502A (zh) | 一种基于深度学习的异常用户识别方法、装置及存储介质 | |
Wei et al. | Twitter bot detection using bidirectional long short-term memory neural networks and word embeddings | |
Kursuncu et al. | Predictive analysis on Twitter: Techniques and applications | |
Castillo | Big crisis data: social media in disasters and time-critical situations | |
CN108874777B (zh) | 一种文本反垃圾的方法及装置 | |
US11138477B2 (en) | Classification of data using aggregated information from multiple classification modules | |
CN103500175B (zh) | 一种基于情感分析在线检测微博热点事件的方法 | |
Suleiman et al. | SMS spam detection using H2O framework | |
CN112307351A (zh) | 用户行为的模型训练、推荐方法、装置和设备 | |
Hasanli et al. | Sentiment analysis of Azerbaijani twits using logistic regression, Naive Bayes and SVM | |
Ramalingaiah et al. | Twitter bot detection using supervised machine learning | |
CN113139052B (zh) | 基于图神经网络特征聚合的谣言检测方法及装置 | |
US11269928B2 (en) | Identification and analysis of cohesive and topic-focused groups of user accounts from user-generated content on electronic communication platforms | |
Giri et al. | Performance analysis of annotation detection techniques for cyber-bullying messages using word-embedded deep neural networks | |
Tarnpradab et al. | Attention based neural architecture for rumor detection with author context awareness | |
Jan et al. | Semi-supervised labeling: a proposed methodology for labeling the twitter datasets | |
Murthy et al. | TwitSenti: a real-time Twitter sentiment analysis and visualization framework | |
Girgin et al. | From past to present: Spam detection and identifying opinion leaders in social networks | |
Pei et al. | Spammer detection via combined neural network | |
Gupta et al. | Email spam detection using multi-head CNN-BiGRU network | |
Nisha et al. | Deep KNN Based Text Classification for Cyberbullying Tweet Detection | |
CN113807920A (zh) | 基于人工智能的产品推荐方法、装置、设备及存储介质 | |
Siddiqui et al. | An ensemble approach for the identification and classification of crime tweets in the English language | |
KR20220105792A (ko) | 동적 텍스트 소스를 활용한 ai 기반 의사결정지원 시스템 | |
CN113157993A (zh) | 一种基于时序图极化分析的网络水军行为预警模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40028900 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200915 |