具体实施方式
下面通过附图以及具体实施例对本说明书技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
实施例
请参考图1,本说明书的技术方案涉及的一个实施例的应用场景示意图。风控分类识别系统用于集中处理来自用户的投诉信息1、2……n,这些信息可以来源于用户论坛,特定投诉页反馈,或者由统一的投诉接口进行收集,统一转发给风控分类识别系统。这些用户投诉信息可以是纯文本信息,还可以携带图片附件的信息,另外还可以是结构化的数据信息,结构化数据比如支付金额、月度或年度支付总额、上一笔交易时间、近期交易频率、敏感词/关键词字段、投诉类型选项等等。风控分类识别系统对各种类型的用户投诉信息进行分类识别,其中神经网络单元中已经有多种分类标签,标签数量可以是数十上百种,根据风控类型和种类进行划分,也可以按层次性划分大分类和子分类。进入系统的用户投诉信息首先通过神经网络单元进行分类识别,识别出对应分类标签的用户投诉信息系统将其划分到对应风控类型,再输出到风控案件数据库中存储;而未识别出的用户投诉则进一步输入到无监督学习单元中进行筛选,从而生成或发现新的分类作为新的风控类型。以新的风控类型将用户投诉信息输出到风控案件数据库中,进一步地,也将发现的新的风控类型回馈给神经网络单元,用于丰富和增加神经网络的分类标签,以后续用户投诉信息的风控类型识别之用。在一个实施方式中,神经网络优选采用类RNN(Recurrent Neural Network)模型。
请参考图2,本说明书第一实施例提供一种处理用户投诉信息的风控分类识别方法,包括:
S201:获得用户投诉信息。
其中,用户投诉信息可以来源于官方用户反馈论坛,软件或网站特定投诉页反馈,或者由统一的投诉接口进行收集或接收。这些用户投诉信息可以是纯文本信息,还可以携带图片附件的信息,另外还可以是结构化的数据信息,结构化数据比如支付金额、月度或年度支付总额、上一笔交易时间、近期交易频率、敏感词/关键词字段、投诉类型选项等。
进一步地,从设定的投诉接口接收用户投诉任务,所述用户投诉任务中封装了用户投诉信息,从用户投诉任务中提取所述用户投诉信息,所述投诉信息包括文本、图片和/或结构化特征数据。
S202:将所述用户投诉信息输入到神经网络中进行分类识别。
其中,神经网络优选采用类RNN(Recurrent Neural Network)模型这一类用于处理序列数据的神经网络,其中模型中的节点之间的连接形成沿着序列的有向图,这使得其可以表现时间序列的动态时间行为,优选类RNN用在用户投诉文本信息中,即能够将信息中各类数据进行提取,投诉文本可以根据文本(比如复杂的自然语言)的语言的特点包括语序等的特点进行语句划分和语义提取,将划分的句子进行分词作为特征向量,按照文本语序顺序作为有向图序列,将划分后的特征向量输入到类RNN模型中,同样类似的,将图片或结构化特征数据也转换为特征向量输入到类RNN模型中进行分类。所述类RNN模型包括但不限于RNN、GRU(Gated Recurrent Unit)、和/或LSTM(Long Short-Term Memory)神经网络。
进一步地,所述类RNN模型包含多个分类标签,所述多个分类标签对应各个风控类型,其为配置出的或基于风控样本训练得到的。对于已知的各种风险类型可以设置有各个类型,每个类型代表了一种风险手法,比如刷单,赌博,色情,提额欺诈等。首先需要对每个类型进行样本积累,即可以对分完类型的样本都进行归一化合并,输入到类RNN模型中进行分类训练,训练好模型后,即可以使用类RNN模型进行分类。
再进一步地,输入到类RNN模型中确定所述用户投诉信息对应各个分类标签的概率,基于各个分类标签的概率进行分类识别。输入到模型的用户投诉信息经过特征向量转换在类RNN神经网络迭代运算后,确定出此用户投诉信息对应各个分类标签的概率值,即准确匹配到各个风控类型的概率。依据所述概率对输入的用户投诉信息自动分类到对应的风控类型中,将上述概率值可以从高到低进行排序,比如用户投诉信息A对应赌博类型标签的概率为91%,色情类型标签概率为82%,提额欺诈类型概率为63%,刷单类型概率为7%。
S203:判断是否识别出对应的风控类型。
其中,优选的,承前述类RNN模型的例子,根据类RNN模型识别所述用户投诉信息对应的分类标签匹配概率,识别出风控类型。进一步地,可以预设各分类标签的概率阈值,对于所述用户投诉信息对应高于所述阈值的分类标签,作为识别出的风控类型。比如模型训练后由31个分类,在31个分类之后对样本设置一个90%概率匹配的阈值检验,只有在90%概率以上高于阈值的用户投诉信息,才将其划分为对应风控类型,作为已分类样本输出到风控案件数据库中存储。比如用户投诉信息A对应赌博类型的概率为91%,已超过90%阈值,因此类RNN模型中会将用户投诉信息A标注为赌博风控类标签。
S204:如果识别出对应的风控类型,则将所述用户投诉信息划分到所述风控类型输出。
其中,承前述类RNN模型的例子,类RNN模型依据输入的用户投诉信息输出对应高于概率阈值的分类标签,即作为此用户投诉信息识别出的对应风控类型进行输出。比如上述用户投诉信息A经过类RNN模型运算后对应划分为赌博类型的风控分类,输出到风控案件数据库中对应赌博类型进行分类存储。这样大量的用户投诉信息通过类RNN模型进行分类识别,大部分都会按照模型中已有的分类标签划分为各个风控类型并进行输出,依照类型的不同分组存储在风控案件数据库中,便于后续案件类型的数据统计和案件分析。一件用户投诉信息在类RNN模型中识别,输出可能对应一种分类标签概率高于阈值,也可能对应多种分类标签概率高于阈值,比如提额欺诈的风险更高阈值设置更低,且赌博、色情,与提额欺诈类型经常关联出现,比如将提额欺诈的概率阈值设置为60%,则上述用户投诉信息A对应的分类标签既包含赌博类型,又包含提额欺诈类型,则作为多类型风控案件输出和存储在风控案件数据库中。
S205:如果识别不出对应的风控类型,将所述用户投诉信息进行无监督学习样本,从而识别新的风控类型。
其中,承前述类RNN模型的例子,如果用户投诉信息输入到所述类RNN模型中的神经网络迭代运算下,不存在高于阈值的分类标签,则所述用户投诉信息无对应识别出的风控类型。也就是说,用户投诉信息经过类RNN模型分类识别得到对应各个分类标签的概率都较低,与模型中已设置的各个分类的匹配概率都没有高于预设的概率阈值,比如用户投诉信息B经过类RNN模型运算识别得到其与31个分类标签的匹配概率都低于30%,则此用户投诉信息B作为无对应识别出的风控类型再进行无监督学习样本,进一步识别出新的风控类型。
进一步地,所述无监督学习样本可以利用生成对抗网络(GenerativeAdversarial Net,即GAN),对所述无对应识别出风控类型的用户投诉信息以无监督方式学习样本,从而生成新的分类作为识别出的新的风控类型。其中在生成对抗网络中设置一个生成模型和一个判断模型,生成模型比作一个样本生成器,输入该无识别出的对应的风控类型的用户投诉信息,然后将其包装成一个逼真的样本,也就是输出到此判断模型中,判断模型比如可以比作一个二分类器(如同0-1分类器),来判断从生成模型中输入的用户投诉信息是真是假,即判断输出值大于0.5还是小于0.5,如果输出值大于0.5,则该用户投诉信息为新类型的风控案件,标注并提取其此类型的风控案件的风险特征和手法。比如上述用户投诉信息B经过生成对抗网络进行无监督学习,作为样本输入到生成模型中,再经过判断模型分类,如果输出值小于0.5,则该用户投诉信息B最终标注为无风控类型存储或舍弃,如果输出值大于0.5,则将该用户投诉信息B标注为新类型风控案件,交由人工进行审理,提取和分析此新类型的风控案件的特征和风险手法,根据这些特征和风险手法,生成新的分类、作为识别出的新的风控类型。
再进一步地,对于新的风控类别,再加入到所述类RNN模型中,进行后续用户投诉信息的分类识别。比如上述用户投诉信息B作为新类型的风控样本,进一步训练类RNN模型,这种训练可以通过对用户投诉信息B进行样本衍生和变换,让模型经过训练运算产生对应新类型的分类标签,在上述31个分类标签基础上新增1个新的分类标签,从而当后续用户投诉信息C等是类似B的风控样本时,通过类RNN模型即可分类识别出来其对应上述新的分类标签和风控类型。
其中,所述生成对抗网络中的生成模型,开始可以通过采集公安机关报案信息或裁判文书网中的法律文书信息作为学习样本进行模型训练。这样当类RNN模型输出的未识别类型的用户投诉信息输入到生成对抗网络中时,通过生成模型和判别模型的博弈运算,输出用户投诉信息是真是假更接近报案信息或法律文书信息的判别标准。
另外,还可以通过textrank方式对类RNN模型识别不出来的用户投诉信息进行主要内容提取。比如提取风险关键词(包括词、短语、或句子等)形成的文摘,人工审核确定新的风控类型。风险关键词的词提取具体例如,可以将识别不出来的用户投诉信息的文本按照完整句子分割,对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词(候选关键词),构建关键词图,将候选关键词作为节点,采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词,根据TEXTRANK的算法,迭代传播各节点的权重直至收敛,对节点权重进行倒序排序,从而得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词;风险关键词的短语提取具体例如,基于前述词的提取,如果提取出的若干关键词在文本中相邻,那么构成一个被提取的关键短语;风险关键词的句子提取具体例如,将文本中的每个句子分别看做一个节点,如果两个句子有相似性,那么认为这两个句子对应的节点之间存在一条无向有权边,根据同时出现在两个句子中的同一个词的个数,除以对句子中词的个数求对数之和,由相似度循环计算任意两个节点间的相似度,设置阈值去掉两个节点之间相似度较低的边连接,构建出节点连接图,然后通过Textrank算法计算并排序所有计算的textrank值,选出textrank值最高的几个节点作为对应的句子作为摘要。然后人工审核该投诉信息的关键词内容,确定新的风控类型。进而还可以将新的风控类型加入到所述类RNN模型中,进行后续用户投诉信息的分类识别。
另外,不能识别出对应的风控类型的用户投诉信息,还可以进行风控类型的人工审核,确定新的风控类型。进而将新的风控类型加入到所述类RNN模型中,进行后续用户投诉信息的分类识别
请参照图3,本说明书第二实施例还提供了一种处理用户投诉信息的风控分类识别系统,包括:
投诉接收单元301,用于接收用户投诉信息;
神经网络单元302,用于将所述用户投诉信息输入到神经网络中进行分类识别;
风控类型划分单元303,用于如果识别出对应的风控类型,则将所述用户投诉信息划分到所述风控类型输出;和/或,否则,将所述用户投诉信息进行无监督学习样本,从而识别新的风控类型。
具体的,在本实施例中,此处理用户投诉信息的风控分类识别系统通常设置在服务器中,也可以设置在服务器集群中,还可以设置在终端设备,如手机、ipad、平板电脑、笔记本电脑等设备,还可以是台式电脑等设备,当然还可以是其它电子设备,在此,本说明书不做限制。风控分类识别系统进行处理用户投诉信息的风控分类识别的方法已在前述第一实施例中进行详细阐述,在此,本实施例不再赘述。
作为一种可选的实施例,所述投诉接收单元301进一步用于,从设定的投诉接口接收用户投诉任务,所述用户投诉任务中封装了用户投诉信息,从用户投诉任务中提取所述用户投诉信息。
其中,用户投诉信息可以来源于官方用户反馈论坛,软件或网站特定投诉页反馈,或者由统一的投诉接口进行收集或接收。这些用户投诉信息可以是纯文本信息,还可以携带图片附件的信息,另外还可以是结构化的数据信息,结构化数据比如支付金额、月度或年度支付总额、上一笔交易时间、近期交易频率、敏感词/关键词字段、投诉类型选项等。
作为一种优选的实施例,神经网络可以是类RNN(Recurrent Neural Network)模型,神经网络单元302为类RNN模型单元302,其是一类用于处理序列数据的神经网络运算单元,其中模型中的节点之间的连接形成沿着序列的有向图,这使得其可以表现时间序列的动态时间行为,从而构成一个神经网络,优选类RNN模型,其能将用户投诉文本信息中的各类数据进行提取,投诉文本可以根据文本(比如复杂的自然语言)的语言的特点进行语句划分和语义提取,将划分的句子进行分词作为特征向量,按照文本语序顺序作为有向图序列,将划分后的特征向量输入到类RNN模型单元302中进行迭代运算,同样类似将图片或结构化特征数据也转换为特征向量输入到类RNN模型单元中进行迭代运算进而分类。所述类RNN模型单元302包括但不限于RNN、GRU(Gated Recurrent Unit)、和/或LSTM(Long Short-TermMemory)神经网络单元。
进一步地,所述类RNN模型单元302中包含多个分类标签,所述多个分类标签对应各个风控类型,其为配置出的或基于风控样本训练得到的。对于已知的各种风险类型可以设置有各个类型,每个类型代表了一种风险手法,比如刷单,赌博,色情,提额欺诈等。首先需要对每个类型进行样本积累,即可以对分完类型的样本都进行归一化合并,输入到类RNN模型单元302中进行分类训练,训练好模型后,即可以使用类RNN模型单元302进行分类。
再进一步地,所述类RNN模型单元302,进一步用于将所述用户投诉信息输入到类RNN模型单元302中以确定所述用户投诉信息对应各个分类标签的概率,基于各个分类标签的概率进行分类识别。输入到模型单元302的用户投诉信息经过特征向量转换在类RNN神经网络迭代运算后,确定出此用户投诉信息对应各个分类标签的概率值,即准确匹配到各个风控类型的概率。依据所述概率对输入的用户投诉信息自动分类到对应的风控类型中,将上述概率值可以从高到低进行排序,比如用户投诉信息A对应赌博类型标签的概率为91%,色情类型标签概率为82%,提额欺诈类型概率为63%,刷单类型概率为7%。
其中,所述类RNN模型单元302可以预设各分类标签的概率阈值,对于所述用户投诉信息对应高于所述阈值的分类标签,作为识别出的风控类型。比如模型训练后由31个分类,在31个分类之后对样本设置一个90%概率匹配的阈值检验,只有在90%概率以上高于阈值的用户投诉信息,才将其划分为对应风控类型,作为已分类样本输出到风控案件数据库中存储。比如用户投诉信息A对应赌博类型的概率为91%,已超过90%阈值,因此类RNN模型单元302中会将用户投诉信息A标注为赌博风控类标签。
进一步地,所述类RNN模型单元302依据输入的用户投诉信息输出对应高于概率阈值的分类标签,即作为此用户投诉信息识别出的对应风控类型进行输出。比如上述用户投诉信息A经过类RNN模型单元302的神经网络运算后对应划分为赌博类型的风控分类,输出到风控案件数据库中对应赌博类型进行分类存储。这样大量的用户投诉信息通过类RNN模型单元302进行分类识别,大部分都会按照模型中已有的分类标签划分为各个风控类型并进行输出,依照类型的不同分组存储在风控案件数据库中进行存储,便于后续案件类型的数据统计和案件分析。一件用户投诉信息在类RNN模型单元302中识别,输出可能对应一种分类标签概率高于阈值,也可能对应多种分类标签概率高于阈值,比如提额欺诈的风险更高阈值设置更低,且赌博、色情,与提额欺诈类型经常关联出现,比如将提额欺诈的概率阈值设置为60%,则上述用户投诉信息A对应的分类标签既包含赌博类型,又包含提额欺诈类型,则作为多类型风控案件输出和存储在风控案件数据库中。
作为一种实施例,风控类型划分单元303进一步用于,如果用户投诉信息输入到所述类RNN模型单元302中经过分类识别,不存在高于阈值的分类标签,则所述用户投诉信息无对应识别出的风控类型。也就是说,用户投诉信息经过类RNN模型单元302分类识别得到对应各个分类标签的概率都较低,与模型中已设置的各个分类的匹配概率都没有高于预设的概率阈值,比如用户投诉信息B经过类RNN模型单元302运算识别得到其与31个分类标签的匹配概率都低于30%,则此用户投诉信息B作为无对应识别出的风控类型再输入到无监督学习单元304,进一步识别出新的风控类型。
进一步地,所述无监督学习单元304可以利用生成对抗网络(GenerativeAdversarial Net,即GAN),对所述无对应识别出风控类型的用户投诉信息以无监督方式学习,从而生成新的分类作为识别出的新的风控类型。其中所述无监督学习单元304在生成对抗网络中设置一个生成模型和一个判断模型,生成模型比作一个样本生成器,输入该无识别出风控类型的用户投诉信息,然后将其包装成一个逼真的样本,也就是输出到此判断模型中,判断模型比作一个二分类器(如同0-1分类器),来判断从生成模型中输入的用户投诉信息是真是假,即判断输出值大于0.5还是小于0.5,如果输出值大于0.5,则无监督学习单元304输出该用户投诉信息为新类型的风控案件,标注并提取其此类型的风控案件的风险特征和手法。比如上述用户投诉信息B经过无监督学习单元304中的生成对抗网络进行无监督学习,作为样本输入到生成模型中,再经过判断模型分类,如果判断模型的输出值小于0.5,则所述无监督学习单元304将该用户投诉信息B最终标注为无风控类型,进一步存储或舍弃,如果输出值大于0.5,则无监督学习单元304将该用户投诉信息B标注为新类型风控案件,进一步可以交由人工进行审理,提取和分析此新类型的风控案件的特征和风险手法。
作为一种实施例,风控分类识别还包括新分类反馈单元305,用于将新的风控类别加入到所述类RNN模型单元302中,进行后续用户投诉信息的分类识别。也即上述用户投诉信息B作为新类型的风控样本,进一步训练类RNN模型,这种训练可以通过对用户投诉信息B进行样本衍生和变换,让模型经过训练运算产生对应新类型的分类标签,从而当后续用户投诉信息有类似B的风控分类时,通过类RNN模型单元302即可分类识别出来。
其中,所述生成对抗网络中的生成模型,开始可以通过采集公安机关报案信息或裁判文书网中的法律文书信息作为学习样本进行模型训练。这样当类RNN模型输出的未识别类型的用户投诉信息输入到生成对抗网络中时,通过生成模型和判断模型的博弈运算,输出用户投诉信息是真是假更接近报案信息或法律文书信息的判别标准。
另外,还可以通过textrank方式对对类RNN模型识别不出来的用户投诉信息进行主要内容提取具体比如提取风险关键词(包括词、短语、或句子等),形成文摘,人工审核确定新的风控类型。风险关键词的词提取具体例如,可以将识别不出来的用户投诉信息的文本按照完整句子分割,对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词(候选关键词),构建关键词图,将候选关键词作为节点,采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词,根据TEXTRANK的算法,迭代传播各节点的权重直至收敛,对节点权重进行倒序排序,从而得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词;风险关键词的短语提取具体例如,基于前述词的提取,如果提取出的若干关键词在文本中相邻,那么构成一个被提取的关键短语;风险关键词的句子提取具体例如,将文本中的每个句子分别看做一个节点,如果两个句子有相似性,那么认为这两个句子对应的节点之间存在一条无向有权边,根据同时出现在两个句子中的同一个词的个数,除以对句子中词的个数求对数之和,由相似度循环计算任意两个节点间的相似度,设置阈值去掉两个节点之间相似度较低的边连接,构建出节点连接图,然后通过Textrank算法计算并排序所有计算的textrank值,选出textrank值最高的几个节点作为对应的句子作为摘要。然后人工审核该投诉信息的关键词内容,确定新的风控类型。进而还可以将新的风控类型加入到所述类RNN模型中,进行后续用户投诉信息的分类识别。
另外,不能识别出对应的风控类型的用户投诉信息,还可以进行风控类型的人工审核,确定新的风控类型。然后将新的风控类型加入到所述类RNN模型中,进行后续用户投诉信息的分类识别。
进一步地,所述风控案件数据库可以是所述风控分类识别系统内部的模块单元,也可以独立于系统之外的外部设备。
本说明书第三实施例还提供了一种服务器,包括存储器402、处理器401及存储在存储器402上并可在处理器401上运行的计算机程序,所述处理器401执行所述程序时实现前文所述方法的步骤。为了便于说明,仅示出了与本说明书实施例相关的部分,具体技术细节未揭示的,请参照本说明书实施例方法部分。该服务器,可以是包括各种电子设备形成的服务器设备,PC电脑、网络云服务器,甚至手机、平板电脑、PDA(Personal DigitalAssistant,个人数字助理)、POS(Point ofSales,销售终端)、车载电脑、台式电脑等任意电子设备上设置的服务器功能。
具体地,图4示出的与本说明书实施例提供的技术方案相关的服务器组成结构框图,总线400可以包括任意数量的互联的总线和桥,其将包括由处理器401代表的一个或多个处理器和存储器402代表的存储器的各种电路链接在一起。总线400还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口403在总线400和接收器和/或发送器404之间提供接口,接收器和/或发送器404可以是分开独立的接收器或发送器也可以是同一个元件如收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器401负责管理总线400和通常的处理,而存储器402可以被用于存储处理器401在执行操作时所使用的数据。
基于这样的理解,本说明书实现上述第一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。