CN109872162B - 一种处理用户投诉信息的风控分类识别方法及系统 - Google Patents

一种处理用户投诉信息的风控分类识别方法及系统 Download PDF

Info

Publication number
CN109872162B
CN109872162B CN201811396880.3A CN201811396880A CN109872162B CN 109872162 B CN109872162 B CN 109872162B CN 201811396880 A CN201811396880 A CN 201811396880A CN 109872162 B CN109872162 B CN 109872162B
Authority
CN
China
Prior art keywords
wind control
complaint information
user complaint
control type
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811396880.3A
Other languages
English (en)
Other versions
CN109872162A (zh
Inventor
鲍晟霖
王维强
许辽萨
赵闻飙
袁锦程
易灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201811396880.3A priority Critical patent/CN109872162B/zh
Publication of CN109872162A publication Critical patent/CN109872162A/zh
Application granted granted Critical
Publication of CN109872162B publication Critical patent/CN109872162B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供了一种处理用户投诉信息的风控分类识别方法,通过对用户投诉信息进行神经网络的分类识别,将所述用户投诉信息划分到所述风控类型输出,配合无监督学习样本,进而识别新的风控类型。由此,大大降低了风控案件审理的人工成本,实现自动化感知风险和提前防范,减少各种风险对于整体系统所带来的不良影响。

Description

一种处理用户投诉信息的风控分类识别方法及系统
技术领域
本说明书涉及计算机技术领域,尤其涉及一种处理用户投诉信息的风控分类识别方法及系统。
背景技术
现阶段电商平台风险防控中,已经定性的风控案件里往往会关注多种不同的风险手法,这些风险手法可能是来自于已有的风险手法,但很多也来自未知、或新出现的风险手法。目前的实际操作中,主要通过审理人员人工查看案件的方式,判断案件是否是属于已知的风险,并挖掘可能出现的未知风险,这种人工成本比较高,主观判断依赖性大,而且费时费力。同时,在实际风控管理中,更要对各个类型的风控进行较为客观的案件统计和趋势分析,这样提前预知和得到各个类型相应的风险手法往往是非常必要的和有价值的,单独依靠人工分析和统计更是成本巨大且客观性较差。
发明内容
鉴于上述问题,提出了本说明书以便提供一种克服上述问题或者至少部分地解决上述问题的处理用户投诉信息的风控分类识别方法及系统。
第一方面,本说明书提供一种处理用户投诉信息的风控分类识别方法,包括:获得用户投诉信息,所述投诉信息包括文本、图片和/或结构化特征数据;将所述用户投诉信息输入到神经网络中进行风控类型的分类识别;如果识别出对应的风控类型,则将所述用户投诉信息划分到所述风控类型输出;否则,通过生成对抗网络对未识别出风控类型的所述用户投诉信息进行无监督方式的处理,判定所述用户投诉信息是否属于新的风控类型。
第二方面,本说明书提供一种处理用户投诉信息的风控分类识别系统,包括:投诉接收单元,用户获得用户投诉信息,所述投诉信息包括文本、图片和/或结构化特征数据;神经网络单元,用于将获得的用户投诉信息输入到神经网络中进行风控类型的分类识别;风控类型划分单元,用于如果识别出对应的风控类型,则将所述用户投诉信息划分到所述风控类型输出;无监督学习单元,用于通过生成对抗网络对未识别出风控类型的所述用户投诉信息进行无监督方式的处理,判定所述用户投诉信息是否属于新的风控类型。
第三方面,本说明书提供一种处理用户投诉信息的风控分类识别方法,包括:获得用户投诉信息,所述投诉信息包括文本、图片和/或结构化特征数据;将所述用户投诉信息输入到神经网络中进行风控类型的分类识别;如果识别出对应的风控类型,则将所述用户投诉信息划分到所述风控类型输出;否则,通过TEXTRANK模型对未识别出风控类型的用户投诉信息进行无监督方式的处理,获得所述未识别出风控类型的用户投诉信息的风险关键词,所述风险关键词用于判断所述用户投诉信息是否属于新的风控类型。
第四方面,本说明书提供一种处理用户投诉信息的风控分类识别系统,包括:投诉接收单元,用户获得用户投诉信息,所述投诉信息包括文本、图片和/或结构化特征数据;神经网络单元,用于将获得的用户投诉信息输入到神经网络中进行风控类型的分类识别;风控类型划分单元,用于如果识别出对应的风控类型,则将所述用户投诉信息划分到所述风控类型输出;无监督学习单元,用于通过TEXTRANK模型对未识别出风控类型的用户投诉信息进行无监督方式的处理,获得所述未识别出风控类型的用户投诉信息的风险关键词,所述风险关键词用于判断所述用户投诉信息是否属于新的风控类型。
第五方面,本说明书提供一种服务器,包括处理器和存储器:所述存储器用于存储上述任一项所述方法的程序;所述处理器被配置为用于执行所述存储器中存储的程序实现上述任一项所述方法的步骤。
第六方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
本说明书上述一个或多个技术方案,至少具有如下一种或多种技术效果:
在实施本说明书的技术方案中,通过将用户投诉信息输入到神经网络中进行分类识别,如果没有识别出分类,则再将所述用户投诉信息进行无监督学习样本发现新的风控类型。这样,通过机器学习中神经网络替代了大部分风控案件人工审理和分类的方式,并且进一步通过无监督方式筛选出新的风控类型,再进一步优化到神经网络中的分类标签中,从而大大降低了人工成本,对风险类型和手法也有更客观精准的判断,同时进一步完善电商平台的投诉入口,提高风控分类的层次性,从而实现自动化感知风险,提前防范风险,做好相应的风险布控,从而减少各种风险对于整体系统所带来的不良影响。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本说明书的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本说明书的方案的一个应用场景例子的示意图;
图2为本说明书第一实施例中的一种处理用户投诉信息的风控分类识别方法的流程图;
图3为本说明书第二实施例中的一种处理用户投诉信息的风控分类识别系统的模块示意图;
图4为本说明书实施例提供的技术方案相关的服务器组成结构框图。
具体实施方式
下面通过附图以及具体实施例对本说明书技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
实施例
请参考图1,本说明书的技术方案涉及的一个实施例的应用场景示意图。风控分类识别系统用于集中处理来自用户的投诉信息1、2……n,这些信息可以来源于用户论坛,特定投诉页反馈,或者由统一的投诉接口进行收集,统一转发给风控分类识别系统。这些用户投诉信息可以是纯文本信息,还可以携带图片附件的信息,另外还可以是结构化的数据信息,结构化数据比如支付金额、月度或年度支付总额、上一笔交易时间、近期交易频率、敏感词/关键词字段、投诉类型选项等等。风控分类识别系统对各种类型的用户投诉信息进行分类识别,其中神经网络单元中已经有多种分类标签,标签数量可以是数十上百种,根据风控类型和种类进行划分,也可以按层次性划分大分类和子分类。进入系统的用户投诉信息首先通过神经网络单元进行分类识别,识别出对应分类标签的用户投诉信息系统将其划分到对应风控类型,再输出到风控案件数据库中存储;而未识别出的用户投诉则进一步输入到无监督学习单元中进行筛选,从而生成或发现新的分类作为新的风控类型。以新的风控类型将用户投诉信息输出到风控案件数据库中,进一步地,也将发现的新的风控类型回馈给神经网络单元,用于丰富和增加神经网络的分类标签,以后续用户投诉信息的风控类型识别之用。在一个实施方式中,神经网络优选采用类RNN(Recurrent Neural Network)模型。
请参考图2,本说明书第一实施例提供一种处理用户投诉信息的风控分类识别方法,包括:
S201:获得用户投诉信息。
其中,用户投诉信息可以来源于官方用户反馈论坛,软件或网站特定投诉页反馈,或者由统一的投诉接口进行收集或接收。这些用户投诉信息可以是纯文本信息,还可以携带图片附件的信息,另外还可以是结构化的数据信息,结构化数据比如支付金额、月度或年度支付总额、上一笔交易时间、近期交易频率、敏感词/关键词字段、投诉类型选项等。
进一步地,从设定的投诉接口接收用户投诉任务,所述用户投诉任务中封装了用户投诉信息,从用户投诉任务中提取所述用户投诉信息,所述投诉信息包括文本、图片和/或结构化特征数据。
S202:将所述用户投诉信息输入到神经网络中进行分类识别。
其中,神经网络优选采用类RNN(Recurrent Neural Network)模型这一类用于处理序列数据的神经网络,其中模型中的节点之间的连接形成沿着序列的有向图,这使得其可以表现时间序列的动态时间行为,优选类RNN用在用户投诉文本信息中,即能够将信息中各类数据进行提取,投诉文本可以根据文本(比如复杂的自然语言)的语言的特点包括语序等的特点进行语句划分和语义提取,将划分的句子进行分词作为特征向量,按照文本语序顺序作为有向图序列,将划分后的特征向量输入到类RNN模型中,同样类似的,将图片或结构化特征数据也转换为特征向量输入到类RNN模型中进行分类。所述类RNN模型包括但不限于RNN、GRU(Gated Recurrent Unit)、和/或LSTM(Long Short-Term Memory)神经网络。
进一步地,所述类RNN模型包含多个分类标签,所述多个分类标签对应各个风控类型,其为配置出的或基于风控样本训练得到的。对于已知的各种风险类型可以设置有各个类型,每个类型代表了一种风险手法,比如刷单,赌博,色情,提额欺诈等。首先需要对每个类型进行样本积累,即可以对分完类型的样本都进行归一化合并,输入到类RNN模型中进行分类训练,训练好模型后,即可以使用类RNN模型进行分类。
再进一步地,输入到类RNN模型中确定所述用户投诉信息对应各个分类标签的概率,基于各个分类标签的概率进行分类识别。输入到模型的用户投诉信息经过特征向量转换在类RNN神经网络迭代运算后,确定出此用户投诉信息对应各个分类标签的概率值,即准确匹配到各个风控类型的概率。依据所述概率对输入的用户投诉信息自动分类到对应的风控类型中,将上述概率值可以从高到低进行排序,比如用户投诉信息A对应赌博类型标签的概率为91%,色情类型标签概率为82%,提额欺诈类型概率为63%,刷单类型概率为7%。
S203:判断是否识别出对应的风控类型。
其中,优选的,承前述类RNN模型的例子,根据类RNN模型识别所述用户投诉信息对应的分类标签匹配概率,识别出风控类型。进一步地,可以预设各分类标签的概率阈值,对于所述用户投诉信息对应高于所述阈值的分类标签,作为识别出的风控类型。比如模型训练后由31个分类,在31个分类之后对样本设置一个90%概率匹配的阈值检验,只有在90%概率以上高于阈值的用户投诉信息,才将其划分为对应风控类型,作为已分类样本输出到风控案件数据库中存储。比如用户投诉信息A对应赌博类型的概率为91%,已超过90%阈值,因此类RNN模型中会将用户投诉信息A标注为赌博风控类标签。
S204:如果识别出对应的风控类型,则将所述用户投诉信息划分到所述风控类型输出。
其中,承前述类RNN模型的例子,类RNN模型依据输入的用户投诉信息输出对应高于概率阈值的分类标签,即作为此用户投诉信息识别出的对应风控类型进行输出。比如上述用户投诉信息A经过类RNN模型运算后对应划分为赌博类型的风控分类,输出到风控案件数据库中对应赌博类型进行分类存储。这样大量的用户投诉信息通过类RNN模型进行分类识别,大部分都会按照模型中已有的分类标签划分为各个风控类型并进行输出,依照类型的不同分组存储在风控案件数据库中,便于后续案件类型的数据统计和案件分析。一件用户投诉信息在类RNN模型中识别,输出可能对应一种分类标签概率高于阈值,也可能对应多种分类标签概率高于阈值,比如提额欺诈的风险更高阈值设置更低,且赌博、色情,与提额欺诈类型经常关联出现,比如将提额欺诈的概率阈值设置为60%,则上述用户投诉信息A对应的分类标签既包含赌博类型,又包含提额欺诈类型,则作为多类型风控案件输出和存储在风控案件数据库中。
S205:如果识别不出对应的风控类型,将所述用户投诉信息进行无监督学习样本,从而识别新的风控类型。
其中,承前述类RNN模型的例子,如果用户投诉信息输入到所述类RNN模型中的神经网络迭代运算下,不存在高于阈值的分类标签,则所述用户投诉信息无对应识别出的风控类型。也就是说,用户投诉信息经过类RNN模型分类识别得到对应各个分类标签的概率都较低,与模型中已设置的各个分类的匹配概率都没有高于预设的概率阈值,比如用户投诉信息B经过类RNN模型运算识别得到其与31个分类标签的匹配概率都低于30%,则此用户投诉信息B作为无对应识别出的风控类型再进行无监督学习样本,进一步识别出新的风控类型。
进一步地,所述无监督学习样本可以利用生成对抗网络(GenerativeAdversarial Net,即GAN),对所述无对应识别出风控类型的用户投诉信息以无监督方式学习样本,从而生成新的分类作为识别出的新的风控类型。其中在生成对抗网络中设置一个生成模型和一个判断模型,生成模型比作一个样本生成器,输入该无识别出的对应的风控类型的用户投诉信息,然后将其包装成一个逼真的样本,也就是输出到此判断模型中,判断模型比如可以比作一个二分类器(如同0-1分类器),来判断从生成模型中输入的用户投诉信息是真是假,即判断输出值大于0.5还是小于0.5,如果输出值大于0.5,则该用户投诉信息为新类型的风控案件,标注并提取其此类型的风控案件的风险特征和手法。比如上述用户投诉信息B经过生成对抗网络进行无监督学习,作为样本输入到生成模型中,再经过判断模型分类,如果输出值小于0.5,则该用户投诉信息B最终标注为无风控类型存储或舍弃,如果输出值大于0.5,则将该用户投诉信息B标注为新类型风控案件,交由人工进行审理,提取和分析此新类型的风控案件的特征和风险手法,根据这些特征和风险手法,生成新的分类、作为识别出的新的风控类型。
再进一步地,对于新的风控类别,再加入到所述类RNN模型中,进行后续用户投诉信息的分类识别。比如上述用户投诉信息B作为新类型的风控样本,进一步训练类RNN模型,这种训练可以通过对用户投诉信息B进行样本衍生和变换,让模型经过训练运算产生对应新类型的分类标签,在上述31个分类标签基础上新增1个新的分类标签,从而当后续用户投诉信息C等是类似B的风控样本时,通过类RNN模型即可分类识别出来其对应上述新的分类标签和风控类型。
其中,所述生成对抗网络中的生成模型,开始可以通过采集公安机关报案信息或裁判文书网中的法律文书信息作为学习样本进行模型训练。这样当类RNN模型输出的未识别类型的用户投诉信息输入到生成对抗网络中时,通过生成模型和判别模型的博弈运算,输出用户投诉信息是真是假更接近报案信息或法律文书信息的判别标准。
另外,还可以通过textrank方式对类RNN模型识别不出来的用户投诉信息进行主要内容提取。比如提取风险关键词(包括词、短语、或句子等)形成的文摘,人工审核确定新的风控类型。风险关键词的词提取具体例如,可以将识别不出来的用户投诉信息的文本按照完整句子分割,对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词(候选关键词),构建关键词图,将候选关键词作为节点,采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词,根据TEXTRANK的算法,迭代传播各节点的权重直至收敛,对节点权重进行倒序排序,从而得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词;风险关键词的短语提取具体例如,基于前述词的提取,如果提取出的若干关键词在文本中相邻,那么构成一个被提取的关键短语;风险关键词的句子提取具体例如,将文本中的每个句子分别看做一个节点,如果两个句子有相似性,那么认为这两个句子对应的节点之间存在一条无向有权边,根据同时出现在两个句子中的同一个词的个数,除以对句子中词的个数求对数之和,由相似度循环计算任意两个节点间的相似度,设置阈值去掉两个节点之间相似度较低的边连接,构建出节点连接图,然后通过Textrank算法计算并排序所有计算的textrank值,选出textrank值最高的几个节点作为对应的句子作为摘要。然后人工审核该投诉信息的关键词内容,确定新的风控类型。进而还可以将新的风控类型加入到所述类RNN模型中,进行后续用户投诉信息的分类识别。
另外,不能识别出对应的风控类型的用户投诉信息,还可以进行风控类型的人工审核,确定新的风控类型。进而将新的风控类型加入到所述类RNN模型中,进行后续用户投诉信息的分类识别
请参照图3,本说明书第二实施例还提供了一种处理用户投诉信息的风控分类识别系统,包括:
投诉接收单元301,用于接收用户投诉信息;
神经网络单元302,用于将所述用户投诉信息输入到神经网络中进行分类识别;
风控类型划分单元303,用于如果识别出对应的风控类型,则将所述用户投诉信息划分到所述风控类型输出;和/或,否则,将所述用户投诉信息进行无监督学习样本,从而识别新的风控类型。
具体的,在本实施例中,此处理用户投诉信息的风控分类识别系统通常设置在服务器中,也可以设置在服务器集群中,还可以设置在终端设备,如手机、ipad、平板电脑、笔记本电脑等设备,还可以是台式电脑等设备,当然还可以是其它电子设备,在此,本说明书不做限制。风控分类识别系统进行处理用户投诉信息的风控分类识别的方法已在前述第一实施例中进行详细阐述,在此,本实施例不再赘述。
作为一种可选的实施例,所述投诉接收单元301进一步用于,从设定的投诉接口接收用户投诉任务,所述用户投诉任务中封装了用户投诉信息,从用户投诉任务中提取所述用户投诉信息。
其中,用户投诉信息可以来源于官方用户反馈论坛,软件或网站特定投诉页反馈,或者由统一的投诉接口进行收集或接收。这些用户投诉信息可以是纯文本信息,还可以携带图片附件的信息,另外还可以是结构化的数据信息,结构化数据比如支付金额、月度或年度支付总额、上一笔交易时间、近期交易频率、敏感词/关键词字段、投诉类型选项等。
作为一种优选的实施例,神经网络可以是类RNN(Recurrent Neural Network)模型,神经网络单元302为类RNN模型单元302,其是一类用于处理序列数据的神经网络运算单元,其中模型中的节点之间的连接形成沿着序列的有向图,这使得其可以表现时间序列的动态时间行为,从而构成一个神经网络,优选类RNN模型,其能将用户投诉文本信息中的各类数据进行提取,投诉文本可以根据文本(比如复杂的自然语言)的语言的特点进行语句划分和语义提取,将划分的句子进行分词作为特征向量,按照文本语序顺序作为有向图序列,将划分后的特征向量输入到类RNN模型单元302中进行迭代运算,同样类似将图片或结构化特征数据也转换为特征向量输入到类RNN模型单元中进行迭代运算进而分类。所述类RNN模型单元302包括但不限于RNN、GRU(Gated Recurrent Unit)、和/或LSTM(Long Short-TermMemory)神经网络单元。
进一步地,所述类RNN模型单元302中包含多个分类标签,所述多个分类标签对应各个风控类型,其为配置出的或基于风控样本训练得到的。对于已知的各种风险类型可以设置有各个类型,每个类型代表了一种风险手法,比如刷单,赌博,色情,提额欺诈等。首先需要对每个类型进行样本积累,即可以对分完类型的样本都进行归一化合并,输入到类RNN模型单元302中进行分类训练,训练好模型后,即可以使用类RNN模型单元302进行分类。
再进一步地,所述类RNN模型单元302,进一步用于将所述用户投诉信息输入到类RNN模型单元302中以确定所述用户投诉信息对应各个分类标签的概率,基于各个分类标签的概率进行分类识别。输入到模型单元302的用户投诉信息经过特征向量转换在类RNN神经网络迭代运算后,确定出此用户投诉信息对应各个分类标签的概率值,即准确匹配到各个风控类型的概率。依据所述概率对输入的用户投诉信息自动分类到对应的风控类型中,将上述概率值可以从高到低进行排序,比如用户投诉信息A对应赌博类型标签的概率为91%,色情类型标签概率为82%,提额欺诈类型概率为63%,刷单类型概率为7%。
其中,所述类RNN模型单元302可以预设各分类标签的概率阈值,对于所述用户投诉信息对应高于所述阈值的分类标签,作为识别出的风控类型。比如模型训练后由31个分类,在31个分类之后对样本设置一个90%概率匹配的阈值检验,只有在90%概率以上高于阈值的用户投诉信息,才将其划分为对应风控类型,作为已分类样本输出到风控案件数据库中存储。比如用户投诉信息A对应赌博类型的概率为91%,已超过90%阈值,因此类RNN模型单元302中会将用户投诉信息A标注为赌博风控类标签。
进一步地,所述类RNN模型单元302依据输入的用户投诉信息输出对应高于概率阈值的分类标签,即作为此用户投诉信息识别出的对应风控类型进行输出。比如上述用户投诉信息A经过类RNN模型单元302的神经网络运算后对应划分为赌博类型的风控分类,输出到风控案件数据库中对应赌博类型进行分类存储。这样大量的用户投诉信息通过类RNN模型单元302进行分类识别,大部分都会按照模型中已有的分类标签划分为各个风控类型并进行输出,依照类型的不同分组存储在风控案件数据库中进行存储,便于后续案件类型的数据统计和案件分析。一件用户投诉信息在类RNN模型单元302中识别,输出可能对应一种分类标签概率高于阈值,也可能对应多种分类标签概率高于阈值,比如提额欺诈的风险更高阈值设置更低,且赌博、色情,与提额欺诈类型经常关联出现,比如将提额欺诈的概率阈值设置为60%,则上述用户投诉信息A对应的分类标签既包含赌博类型,又包含提额欺诈类型,则作为多类型风控案件输出和存储在风控案件数据库中。
作为一种实施例,风控类型划分单元303进一步用于,如果用户投诉信息输入到所述类RNN模型单元302中经过分类识别,不存在高于阈值的分类标签,则所述用户投诉信息无对应识别出的风控类型。也就是说,用户投诉信息经过类RNN模型单元302分类识别得到对应各个分类标签的概率都较低,与模型中已设置的各个分类的匹配概率都没有高于预设的概率阈值,比如用户投诉信息B经过类RNN模型单元302运算识别得到其与31个分类标签的匹配概率都低于30%,则此用户投诉信息B作为无对应识别出的风控类型再输入到无监督学习单元304,进一步识别出新的风控类型。
进一步地,所述无监督学习单元304可以利用生成对抗网络(GenerativeAdversarial Net,即GAN),对所述无对应识别出风控类型的用户投诉信息以无监督方式学习,从而生成新的分类作为识别出的新的风控类型。其中所述无监督学习单元304在生成对抗网络中设置一个生成模型和一个判断模型,生成模型比作一个样本生成器,输入该无识别出风控类型的用户投诉信息,然后将其包装成一个逼真的样本,也就是输出到此判断模型中,判断模型比作一个二分类器(如同0-1分类器),来判断从生成模型中输入的用户投诉信息是真是假,即判断输出值大于0.5还是小于0.5,如果输出值大于0.5,则无监督学习单元304输出该用户投诉信息为新类型的风控案件,标注并提取其此类型的风控案件的风险特征和手法。比如上述用户投诉信息B经过无监督学习单元304中的生成对抗网络进行无监督学习,作为样本输入到生成模型中,再经过判断模型分类,如果判断模型的输出值小于0.5,则所述无监督学习单元304将该用户投诉信息B最终标注为无风控类型,进一步存储或舍弃,如果输出值大于0.5,则无监督学习单元304将该用户投诉信息B标注为新类型风控案件,进一步可以交由人工进行审理,提取和分析此新类型的风控案件的特征和风险手法。
作为一种实施例,风控分类识别还包括新分类反馈单元305,用于将新的风控类别加入到所述类RNN模型单元302中,进行后续用户投诉信息的分类识别。也即上述用户投诉信息B作为新类型的风控样本,进一步训练类RNN模型,这种训练可以通过对用户投诉信息B进行样本衍生和变换,让模型经过训练运算产生对应新类型的分类标签,从而当后续用户投诉信息有类似B的风控分类时,通过类RNN模型单元302即可分类识别出来。
其中,所述生成对抗网络中的生成模型,开始可以通过采集公安机关报案信息或裁判文书网中的法律文书信息作为学习样本进行模型训练。这样当类RNN模型输出的未识别类型的用户投诉信息输入到生成对抗网络中时,通过生成模型和判断模型的博弈运算,输出用户投诉信息是真是假更接近报案信息或法律文书信息的判别标准。
另外,还可以通过textrank方式对对类RNN模型识别不出来的用户投诉信息进行主要内容提取具体比如提取风险关键词(包括词、短语、或句子等),形成文摘,人工审核确定新的风控类型。风险关键词的词提取具体例如,可以将识别不出来的用户投诉信息的文本按照完整句子分割,对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词(候选关键词),构建关键词图,将候选关键词作为节点,采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词,根据TEXTRANK的算法,迭代传播各节点的权重直至收敛,对节点权重进行倒序排序,从而得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词;风险关键词的短语提取具体例如,基于前述词的提取,如果提取出的若干关键词在文本中相邻,那么构成一个被提取的关键短语;风险关键词的句子提取具体例如,将文本中的每个句子分别看做一个节点,如果两个句子有相似性,那么认为这两个句子对应的节点之间存在一条无向有权边,根据同时出现在两个句子中的同一个词的个数,除以对句子中词的个数求对数之和,由相似度循环计算任意两个节点间的相似度,设置阈值去掉两个节点之间相似度较低的边连接,构建出节点连接图,然后通过Textrank算法计算并排序所有计算的textrank值,选出textrank值最高的几个节点作为对应的句子作为摘要。然后人工审核该投诉信息的关键词内容,确定新的风控类型。进而还可以将新的风控类型加入到所述类RNN模型中,进行后续用户投诉信息的分类识别。
另外,不能识别出对应的风控类型的用户投诉信息,还可以进行风控类型的人工审核,确定新的风控类型。然后将新的风控类型加入到所述类RNN模型中,进行后续用户投诉信息的分类识别。
进一步地,所述风控案件数据库可以是所述风控分类识别系统内部的模块单元,也可以独立于系统之外的外部设备。
本说明书第三实施例还提供了一种服务器,包括存储器402、处理器401及存储在存储器402上并可在处理器401上运行的计算机程序,所述处理器401执行所述程序时实现前文所述方法的步骤。为了便于说明,仅示出了与本说明书实施例相关的部分,具体技术细节未揭示的,请参照本说明书实施例方法部分。该服务器,可以是包括各种电子设备形成的服务器设备,PC电脑、网络云服务器,甚至手机、平板电脑、PDA(Personal DigitalAssistant,个人数字助理)、POS(Point ofSales,销售终端)、车载电脑、台式电脑等任意电子设备上设置的服务器功能。
具体地,图4示出的与本说明书实施例提供的技术方案相关的服务器组成结构框图,总线400可以包括任意数量的互联的总线和桥,其将包括由处理器401代表的一个或多个处理器和存储器402代表的存储器的各种电路链接在一起。总线400还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口403在总线400和接收器和/或发送器404之间提供接口,接收器和/或发送器404可以是分开独立的接收器或发送器也可以是同一个元件如收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器401负责管理总线400和通常的处理,而存储器402可以被用于存储处理器401在执行操作时所使用的数据。
基于这样的理解,本说明书实现上述第一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。

Claims (22)

1.一种处理用户投诉信息的风控分类识别方法,包括:
获得用户投诉信息,所述投诉信息包括文本、图片和/或结构化特征数据;
将所述用户投诉信息输入到神经网络中进行风控类型的分类识别;
如果识别出对应的风控类型,则将所述用户投诉信息划分到所述风控类型输出;
否则,通过生成对抗网络对未识别出风控类型的所述用户投诉信息进行无监督方式的处理,判定所述用户投诉信息是否属于新的风控类型,包括:
通过生成对抗网络中的生成模型将所述未识别出风控类型的所述用户投诉信息作为输入样本,由生成对抗网络中的判断模型对所述样本进行判断,确定所述用户投诉信息是否属于新的风控类型;
其中,每个风险类型代表一种风险手法。
2.如权利要求1所述的方法,其中,所述神经网络包含多个分类标签,
所述多个分类标签对应各个风控类型,其为配置出的或基于风控样本训练得到的。
3.如权利要求2所述的方法,所述将所述用户投诉信息输入到神经网络中进行风控类型的分类识别,包括:
将用户投诉信息输入到神经网络中确定所述用户投诉信息对应各个分类标签的概率,基于各个分类标签的概率进行分类识别。
4.如权利要求3所述的方法,所述基于各个分类标签的概率进行分类识别,包括:
预设各分类标签的概率阈值,对于所述用户投诉信息对应高于所述阈值的分类标签,作为识别出的风控类型。
5.如权利要求4所述的方法,还包括:
如果所述用户投诉信息不存在高于阈值的分类标签,则所述用户投诉信息无对应识别出的风控类型。
6.如权利要求1所述的方法,如果确定所述用户投诉信息属于新的风控类型,则所述方法还包括:
提取所述用户投诉信息所确定的所述新的风控类型的案件特征和风险手法,以生成新的风控类型特征信息。
7.如权利要求6所述的方法,还包括:
将识别出的所述新的风控类型特征信息加入到所述神经网络中,进行后续用户投诉信息的分类识别。
8.如权利要求1至7中任一项所述的方法,其中,所述神经网络选择类RNN模型。
9.如权利要求1至7中任一项所述的方法,所述获得所述用户投诉信息包括:
接收用户投诉任务,所述用户投诉任务中封装了用户投诉信息,从用户投诉任务中提取所述用户投诉信息。
10.一种处理用户投诉信息的风控分类识别系统,包括:
投诉接收单元,用户获得用户投诉信息,所述投诉信息包括文本、图片和/或结构化特征数据;
神经网络单元,用于将获得的用户投诉信息输入到神经网络中进行风控类型的分类识别;
风控类型划分单元,用于如果识别出对应的风控类型,则将所述用户投诉信息划分到所述风控类型输出;
无监督学习单元,用于通过生成对抗网络对未识别出风控类型的所述用户投诉信息进行无监督方式的处理,判定所述用户投诉信息是否属于新的风控类型;
所述无监督学习单元,具体用于:
通过生成对抗网络中的生成模型将所述未识别出风控类型的所述用户投诉信息作为输入样本,由生成对抗网络中的判断模型对所述样本进行判断,确定所述用户投诉信息是否属于新的类型的风控类型;
其中,每个风险类型代表一种风险手法。
11.如权利要求10所述的系统,其中,所述神经网络包含多个分类标签,所述多个分类标签对应各个风控类型,其为配置出的或基于风控样本训练得到的。
12.如权利要求11所述的系统,所述神经网络单元,还用于,
将所述用户投诉信息输入到神经网络中确定其对应各个分类标签的概率,基于各个分类标签的概率对所述用户投诉信息进行分类识别。
13.如权利要求12所述的系统,所述神经网络单元,还用于,
预设各分类标签的概率阈值,对于所述用户投诉信息对应高于所述阈值的分类标签,作为识别出的风控类型。
14.如权利要求13所述的系统,所述神经网络单元,进一步用于,
如果所述用户投诉信息不存在高于阈值的分类标签,则所述用户投诉信息无对应识别出的风控类型。
15.如权利要求10所述的系统,如果确定所述用户投诉信息属于新的风控类型,则所述无监督学习单元,进一步用于:
则提取所述用户投诉信息所确定的新的类型的风控类型的案件特征和风险手法,以生成新的风控类型特征信息。
16.如权利要求15所述的系统,还包括,
新分类反馈单元,用于将识别出的所述新的风控类型的特征信息加入到所述神经网络单元中,进行后续用户投诉信息的分类识别。
17.如权利要求10至16任一项所述的系统,其中,所述神经网络选择类RNN模型。
18.如权利要求10至16任一项所述的系统,投诉接收单元,还包括:
用于从设定的投诉接口接收用户投诉任务,所述用户投诉任务中封装了用户投诉信息,从用户投诉任务中提取所述用户投诉信息。
19.一种处理用户投诉信息的风控分类识别方法,包括:
获得用户投诉信息,所述投诉信息包括文本、图片和/或结构化特征数据;
将所述用户投诉信息输入到神经网络中进行风控类型的分类识别;
如果识别出对应的风控类型,则将所述用户投诉信息划分到所述风控类型输出;
否则,通过TEXTRANK模型对未识别出风控类型的用户投诉信息进行无监督方式的处理,获得所述未识别出风控类型的用户投诉信息的风险关键词,所述风险关键词用于判断所述用户投诉信息是否属于新的风控类型,包括:
通过生成对抗网络中的生成模型将所述未识别出风控类型的所述用户投诉信息作为输入样本,由生成对抗网络中的判断模型对所述样本进行判断,确定所述用户投诉信息是否属于新的风控类型;
其中,每个风险类型代表一种风险手法。
20.一种处理用户投诉信息的风控分类识别系统,包括:
投诉接收单元,用户获得用户投诉信息,所述投诉信息包括文本、图片和/或结构化特征数据;
神经网络单元,用于将获得的用户投诉信息输入到神经网络中进行风控类型的分类识别;
风控类型划分单元,用于如果识别出对应的风控类型,则将所述用户投诉信息划分到所述风控类型输出;
无监督学习单元,用于通过TEXTRANK模型对未识别出风控类型的用户投诉信息进行无监督方式的处理,获得所述未识别出风控类型的用户投诉信息的风险关键词,所述风险关键词用于判断所述用户投诉信息是否属于新的风控类型;
所述无监督学习单元,具体用于通过生成对抗网络中的生成模型将所述未识别出风控类型的所述用户投诉信息作为输入样本,由生成对抗网络中的判断模型对所述样本进行判断,确定所述用户投诉信息是否属于新的风控类型;
其中,每个风险类型代表一种风险手法。
21.一种服务器,包括处理器和存储器:
所述存储器用于存储执行权利要求1至9、19中任一项所述方法的程序;
所述处理器被配置为用于执行所述存储器中存储的程序。
22.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至9、19中任一项所述方法的步骤。
CN201811396880.3A 2018-11-21 2018-11-21 一种处理用户投诉信息的风控分类识别方法及系统 Active CN109872162B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811396880.3A CN109872162B (zh) 2018-11-21 2018-11-21 一种处理用户投诉信息的风控分类识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811396880.3A CN109872162B (zh) 2018-11-21 2018-11-21 一种处理用户投诉信息的风控分类识别方法及系统

Publications (2)

Publication Number Publication Date
CN109872162A CN109872162A (zh) 2019-06-11
CN109872162B true CN109872162B (zh) 2023-06-16

Family

ID=66916960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811396880.3A Active CN109872162B (zh) 2018-11-21 2018-11-21 一种处理用户投诉信息的风控分类识别方法及系统

Country Status (1)

Country Link
CN (1) CN109872162B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349039B (zh) * 2019-06-13 2024-03-05 中国平安人寿保险股份有限公司 投诉风险评估方法、系统、计算机设备及可读存储介质
CN110287493B (zh) * 2019-06-28 2023-04-18 中国科学技术信息研究所 风险短语识别方法、装置、电子设备及存储介质
CN110738562B (zh) * 2019-10-16 2023-04-25 支付宝(杭州)信息技术有限公司 一种风险提醒信息的生成方法、装置及设备
CN110855474B (zh) * 2019-10-21 2022-06-17 广州杰赛科技股份有限公司 Kqi数据的网络特征提取方法、装置、设备及存储介质
CN111539612B (zh) * 2020-04-17 2022-04-01 支付宝(杭州)信息技术有限公司 一种风险分类模型的训练方法和系统
CN111898343B (zh) * 2020-08-03 2023-07-14 北京师范大学 一种基于短语结构树的相似题目识别方法和系统
CN112308113A (zh) * 2020-09-23 2021-02-02 济南浪潮高新科技投资发展有限公司 一种基于半监督的目标识别方法、设备及介质
CN112507086A (zh) * 2020-12-21 2021-03-16 中电福富信息科技有限公司 一种结合深度学习和关键词因子的不良信息监测方法
CN112988854A (zh) * 2021-05-20 2021-06-18 创新奇智(成都)科技有限公司 一种申诉数据挖掘方法、装置、电子设备及存储介质
CN113254644B (zh) * 2021-06-07 2021-09-17 成都数之联科技有限公司 模型训练方法及非投诉工单处理方法及系统及装置及介质
CN115374190B (zh) * 2022-10-25 2023-03-24 支付宝(杭州)信息技术有限公司 一种类案检索的方法、装置、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399230A (zh) * 2018-02-13 2018-08-14 上海大学 一种基于卷积神经网络的中文财经新闻文本分类方法
CN108509596A (zh) * 2018-04-02 2018-09-07 广州市申迪计算机系统有限公司 文本分类方法、装置、计算机设备和存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103489033A (zh) * 2013-09-27 2014-01-01 南京理工大学 融合自组织映射与概率神经网络的增量式学习方法
CN103838886A (zh) * 2014-03-31 2014-06-04 辽宁四维科技发展有限公司 基于代表词知识库的文本内容分类方法
US9348814B2 (en) * 2014-08-01 2016-05-24 Almawave S.R.L. System and method for meaning driven process and information management to improve efficiency, quality of work and overall customer satisfaction
CN106296195A (zh) * 2015-05-29 2017-01-04 阿里巴巴集团控股有限公司 一种风险识别方法及装置
CN105046289B (zh) * 2015-08-07 2019-04-26 北京旷视科技有限公司 一种文字域类型识别方法和文字域类型识别系统
US20180121830A1 (en) * 2016-11-02 2018-05-03 Facebook, Inc. Systems and methods for classification of comments for pages in social networking systems
CN108021582B (zh) * 2016-11-04 2020-12-04 中国移动通信集团湖南有限公司 互联网舆情监控方法及装置
US10915817B2 (en) * 2017-01-23 2021-02-09 Fotonation Limited Method of training a neural network
US20180330205A1 (en) * 2017-05-15 2018-11-15 Siemens Aktiengesellschaft Domain adaptation and fusion using weakly supervised target-irrelevant data
CN107358257B (zh) * 2017-07-07 2019-07-16 华南理工大学 一种大数据场景下可增量学习的图像分类训练方法
CN107861942B (zh) * 2017-10-11 2021-10-26 国网浙江省电力有限公司营销服务中心 一种基于深度学习的电力疑似投诉工单识别方法
CN108416370B (zh) * 2018-02-07 2022-03-22 深圳大学 基于半监督深度学习的图像分类方法、装置和存储介质
CN108388914B (zh) * 2018-02-26 2022-04-01 中译语通科技股份有限公司 一种基于语义计算的分类器构建方法、分类器
CN108573031A (zh) * 2018-03-26 2018-09-25 上海万行信息科技有限公司 一种基于内容的投诉分类方法和系统
CN108563791A (zh) * 2018-04-29 2018-09-21 华中科技大学 一种建筑质量投诉文本分类的方法和系统
CN108710651B (zh) * 2018-05-08 2022-03-25 华南理工大学 一种大规模客户投诉数据自动分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399230A (zh) * 2018-02-13 2018-08-14 上海大学 一种基于卷积神经网络的中文财经新闻文本分类方法
CN108509596A (zh) * 2018-04-02 2018-09-07 广州市申迪计算机系统有限公司 文本分类方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN109872162A (zh) 2019-06-11

Similar Documents

Publication Publication Date Title
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN110781276B (zh) 文本抽取方法、装置、设备及存储介质
CN110163478B (zh) 一种合同条款的风险审查方法及装置
US20230237328A1 (en) Information processing method and terminal, and computer storage medium
CN112613501A (zh) 信息审核分类模型的构建方法和信息审核方法
CN108269122B (zh) 广告的相似度处理方法和装置
CN113254643B (zh) 文本分类方法、装置、电子设备和
CN107291775B (zh) 错误样本的修复语料生成方法和装置
CN110580308B (zh) 信息审核方法及装置、电子设备、存储介质
CN111460250A (zh) 用于画像的数据的清洗方法、装置、介质及电子设备
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN111782793A (zh) 智能客服处理方法和系统及设备
CN107291774B (zh) 错误样本识别方法和装置
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
CN113934848A (zh) 一种数据分类方法、装置和电子设备
CN112579781B (zh) 文本归类方法、装置、电子设备及介质
CN112989050A (zh) 一种表格分类方法、装置、设备及存储介质
CN112732908B (zh) 试题新颖度评估方法、装置、电子设备和存储介质
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
CN113837836A (zh) 模型推荐方法、装置、设备及存储介质
CN112949299A (zh) 新闻稿件的生成方法及装置、存储介质、电子装置
CN113657773A (zh) 话术质检方法、装置、电子设备及存储介质
CN112541357A (zh) 实体识别方法、装置及智能设备
CN111460206A (zh) 图像处理方法、装置、电子设备和计算机可读存储介质
CN111523318A (zh) 一种汉语短语分析方法、系统、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant