发明内容
鉴于现有技术的以上问题,本发明的实施例提供一种新颖的文本可信模型解决方法、设备和装置,从而使得投诉中的文本信息也能够用于互联网金融风险防控。
在风险防控中,目前采用的人工审核方式往往依赖于用户行为。例如,根据之前支付宝盗用的赔付经验,特别是当赔付开启之后,少数黑产可能对支付宝进行骗赔。当前,通常采用人工方式审核用户行为,以判断是否属于黑产骗赔。同时,大量投诉中的文本信息被浪费,并未用于风险防控的核查中,甚至会与用户行为数据(后文也称为“结构化行为数据”)混合使用。本申请的发明人注意到,现有技术还没有考虑过将文本数据与结构化行为数据进行比对。况且,人工往往对行为数据不敏感,如果使用工具进行手工分析又耗时耗力。
为此,本申请的发明人提出了基于深度学习的文本可信模型解决方案,其通过对文本数据和用户行为数据进行自动化比对,实现了对文本数据是否可信的自动化判断。因而,这使得可信的文本数据也能用于互联网金融反欺诈和风险防控的审核,促进了自动化审核的实现,降低了成本,提高了效率。
根据本发明的一方面,一种文本可信模型分析方法,包括:使用第一训练模型对结构化行为数据进行分类并赋予与所属类别相应的分数;使用第二训练模型对与所述结构化行为数据相对应的文本数据进行分类并赋予与所属类别相应的分数;将所述结构化行为数据的所述分数与对应的文本数据的所述分数进行比对;并且根据所述比对的结果,判断所述对应的文本数据是否可信。这里,所述第一和第二训练模型可以是已知的任何可用训练模型,包括,但不限于,LightGBM算法、GBDT算法、LR模型、神经网络等。在一个实施例中,所述第一训练模型可以与所述第二训练模型相同。在另一实施例中,所述第一训练模型可以不同于所述第二训练模型。
术语“结构化行为数据”是将用户行为数据进行结构化得到的数据。其中,结构化,指将行为数据的展现形式从非结构数据转为结构化数据,以便进行归类和统计。优选地,结构化数据在训练前还可以进行标签化和/或数值化编码。
优选地,在对文本数据进行模型训练之前,可以将文本数据进行清洗和/或预处理。“预处理”是指将文本数据、优选经过清洗的文本数据转换为对应的词向量或词向量矩阵。
例如,如果用户行为是购买一件商品,对应的文本数据可以是用户针对购买过程的投诉、或者申请退款或赔偿。然而,用户的投诉或赔偿文本内容与其购买行为可能不一致。例如,黑产可能会通过软件自动编写欺诈文本进行批量骗赔。在这种情况下,投诉或赔偿文本内容可能含混不清,或者前后多篇文本的投诉内容基本一致而对应的买卖行为却完全不同。为此,本申请的发明人提出,通过人工对文本数据是否可信进行标签来对文本数据进行预处理,从而极大地改善对文本数据进行模型训练的结果和质量。
按照本发明的优选实施例,所述文本可信模型分析方法还包括在使用所述第二训练模型对所述文本数据进行分类之前,对所述文本数据进行预处理,其中,对所述文本数据的所述预处理包括定期地由使用者,例如投诉或理赔的审理人员,对所述文本数据中的一个或多个是否可信进行标签。例如,审理人员可以在每次对文本数据进行模型训练前、每天、每隔几天、每周或者每隔几周对当时的一个或多个文本数据是否可信进行判断。
按照本发明的优选实施例,审理人员可以通过观察例如显示器上显示的、与投诉或理赔有关的文本内容、OCR(光学字符识别)图像内容或者语音转文本内容等,将上述与结构化行为数据明显不符的文本数据打上“不可信”的标签,并且将该文本数据直接判定为不可信。
在有些情况下,文本数据量可能不是很大,或者初始的文本数据量很小。于是,审理人员可能足以在有限时间内将明显不可信的文本数据挑选出来。这样,按照本发明的实施例,可以仅对未被审理人员挑选出来的文本数据进行模型训练。
按照本发明的优选实施例,基于带有不可信标签的文本数据和剩余的文本数据,使用半监督学习算法从所述剩余的文本数据检测出不可信的文本数据并打上不可信标签。所述半监督学习算法例如包括PU Learning。本领域技术人员能够领会到,其他的适当的半监督学习算法也是可以的。其中,使用半监督学习算法进行的所述检测包括利用所述带有不可信标签的文本数据来训练PU Learning模型,并且基于经训练的PU Learning模型,从所述剩余的文本数据中预测不可信的文本数据。于是,预测为不可信的文本数据可以被打上不可信标签。该优选实施例可以针对文本数据量较大的情况。这样,待处理的无标签文本数据的数目将被最小化。
按照本发明的优选实施例,无论文本数据是否经过PU Learning的预处理,使用所述第二训练模型对所述文本数据进行的所述分类包括使用所述第二训练模型仅对没有标签的文本数据进行分类。
按照本发明的优选实施例,所述比对包括分别将所述结构化行为数据的所述分数和所述对应的文本数据的所述分数进行归一化,并且对归一化后的两个分数进行假设检验以判断所述结构化行为数据的所述分数和所述对应的文本数据的所述分数是否属于同一类。
按照本发明的优选实施例,在通过假设检验判定所述结构化行为数据的所述分数和所述对应的文本数据的所述分数属于同一类时,所述对应的文本数据被确定为是可信的。
根据本发明的另一方面,一种文本可信模型分析设备,包括:处理器;以及,存储器,其上存储有可执行指令,其中,所述可执行指令当被执行时使得所述处理器执行前述的方法。
根据本发明的又一方面,一种机器可读存储介质,其上存储有可执行指令,其中,所述可执行指令当被执行时使得机器执行前述的方法。
根据本发明的再一方面,一种文本可信模型分析装置,包括:第一分类模块,用于通过第一训练模型对结构化行为数据进行分类并赋予与所属类别相应的分数;第二分类模块,用于通过第二训练模型对与所述结构化行为数据相对应的文本数据进行分类并赋予与所属类别相应的分数;以及比对模块,用于将所述结构化行为数据的所述分数与对应的文本数据的所述分数进行比对,并根据所述比对的结果,判断所述对应的文本数据是否可信。
从以上可以看出,本发明的实施例的方案能够评价投诉或理赔中的文本信息是否可信。具体地,本发明的实施例的方案通过将文本数据与相应的行为数据进行比较来判断文本数据是否可信,从而使得可以利用投诉或理赔中的海量文本信息进行互联网金融风险防控。
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
在互联网金融风险防控中,目前仍然通过对用户行为进行人工审核的方式来识别互联网金融欺诈。面对日益增多的黑产骗赔事件,现有的风险防控手段效率低下。同时,大量投诉或理赔中的文本信息被浪费,并未用于风险防控的核查中。为此,本申请的发明人提出了基于深度学习的文本可信模型解决方案,其通过对文本数据和用户行为数据进行自动化比对,实现了对文本数据是否可信的自动化判断。
下面,结合附图详细描述本发明的各个实施例。
图1示出了按照本发明的一个实施例的文本可信模型分析方法100。下面结合图2所示的文本可信模型分析设备200来详细描述图1的文本可信模型分析方法100。
如图1所示,在方框110,收集用户行为。在互联网金融领域,用户行为例如可以是用户在相对短的交易时间内重复购买大量相同的商品,或者用户(例如,赌徒)频繁在午夜(晚上12点)至凌晨(早上6点)之间进行买卖操作。
在方框112,将用户行为数据结构化,从而得到结构化行为数据。这可以通过已知的任何适当技术来实现。结构化,指将行为数据的展现形式从非结构数据转为结构化数据,以便进行归类和统计。优选地,结构化数据在训练前还可以进行标签化和/或数值化编码。其中,标签化,指根据业务场景将行为数据打上业务标签,围绕设备并与业务场景深度结合。为行为数据打标签,通常有以下3个数据维度:时间、频次、结果。所述结构化行为数据可以存储在存储器210中。
在方框114,例如通过处理器220,使用第一训练模型对结构化行为数据进行分类并赋予与所属类别相应的分数。所述第一训练模型可以存储在存储器210中。在一个实施例中,可以采用基于树的算法来处理结构化行为数据。在另一实施例中,可以采用实体嵌入(entity embedding)来处理结构化行为数据。本领域技术人员能够预见到,其他适合处理结构化行为数据的深度学习算法也是可行的。在支付宝的应用场景下,“结构化行为数据”可以被分为以下30个类别:“一元购”、“付款未发货”、“信用卡套现”、“假冒公检法等公职人员”、“假冒其他身份”、“假冒支付宝客服”、“假冒领导或亲友”、“共享单车退款”、“其他兼职类”、“其他平台刷单”、“其他欺诈方式”、“口碑刷单”、“处理其他电商订单退款被骗”、“处理机票退改签被骗”、“处理淘宝天猫订单退款被骗”、“开通借呗”、“开通微粒贷”、“开通花呗”、“投资理财/高额返利类”、“收到商品/服务与约定不符”、“时时彩/彩票”、“服饰/手机等实物购买”、“淘宝刷单”、“游戏充值/代练等游戏相关”、“缴纳淘宝店铺保证金被骗”、“考题购买/资料购买/办证等”、“话费/流量/会员充值等”、“贷款/办卡/提额类其他”、“软件/应用(APP)购买”、“违禁其他类”。相应地,在一个实施例中,可以为隶属于上述30个类别中的每个的结构化行为数据分别赋予1~30分中的一个分数。本领域技术人员能够领会到,其他的打分方式也是可以的。此外,对于支付宝或其他的应用场景,也可以预见到其他的分类方式。
在方框120,获得诸如投诉、申请退款或赔偿的文本数据。在一个实施例中,获得的文本数据可以存储在存储器210中。在支付宝的应用场景下,用户可通过支付宝应用程序(APP)的相应端口提交例如针对购买过程的投诉、或者申请退款或赔偿。于是,可以从支付宝的服务器获得这类的文本数据。
优选地,在对文本数据进行模型训练之前,可以例如通过处理器220,将文本数据进行清洗和/或预处理。在方框122,对获得的文本数据进行清洗。“清洗”包括,但不限于以下操作:去除数字、去除链接地址、去除停用词、词干化(指的是将单词的派生形式缩减为其词干的过程,已经有许多词干化的方法,在英文中,如“programming”、“programmer”、“programmed”、“programmable”等词可以词干化为“program”)、后缀丢弃(丢弃一个单词的后缀部分,如“programming”、“programmer”、“programmed”、“programmable”等词可以词干化为其词根“program”)、词形还原(将语料中的每个词还原为其原形,或者能表达完整语义的一般形式,如“better”还原为“good”、“running”还原为“walk”等)、n-gram分析(将字符串按一定最小单元分割为长度为n的连续子串,保留最有意义的子串,以方便后续分析)、去除标点符号、去掉空白符、去除特殊字符,等。
“预处理”是指将文本数据、优选经过清洗的文本数据转换为对应的词向量或词向量矩阵。术语“词向量(Word embedding)”,又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。词向量技术包括,但不限于:(1)基于统计的方法、(2)基于图的方法、(3)基于主题模型的方法,以及(4)基于深度学习的方法。可以将经过清洗的文本数据转换为深度学习,例如神经网络训练所用的张量,然后解析出每个词及其对应的词向量,最后形成词向量矩阵。
例如,如果用户行为是购买一件商品,对应的文本数据可以是用户针对购买过程的投诉、或者申请退款或赔偿。然而,用户的投诉或赔偿文本内容与其购买行为可能不一致。例如,黑产可能会通过软件自动编写欺诈文本进行批量骗赔。在这种情况下,投诉或赔偿文本内容可能含混不清,或者前后多篇文本的投诉内容基本一致而对应的买卖行为却完全不同。为此,本申请的发明人提出,通过人工对文本数据是否可信进行标签来对文本数据进行预处理,从而极大地改善对文本数据进行模型训练的结果和质量。
在方框124,例如通过处理器220,对所述文本数据进行预处理,其中,对所述文本数据的所述预处理包括定期地由使用者,例如投诉或理赔的审理人员,对所述文本数据中的一个或多个是否可信进行标签。例如,审理人员可以在每次对文本数据进行模型训练前、每天、每隔几天、每周或者每隔几周对当时的一个或多个文本数据是否可信进行判断。优选地,审理人员可以通过观察例如显示器230上显示的、与投诉或理赔有关的文本内容、OCR(光学字符识别)图像内容或者语音转文本内容等,借助于例如输入设备240,将上述与结构化行为数据明显不符的文本数据打上“不可信”的标签,并且将该文本数据直接判定为不可信。
在方框126,例如通过处理器220,基于带有不可信标签的文本数据和剩余的文本数据,使用半监督学习算法迭代地对所述剩余的文本数据进行分类,并对分类为不可信的文本数据打上不可信标签。在一个实施例中,所述半监督学习算法例如包括PU Learning。本领域技术人员能够领会到,其他的适当的半监督学习算法也是可以的。
具体地,基于PU Learning的不可信文本数据检测包括,利用已经确定不可信的文本数据,例如经由审理人员打上不可信标签的文本数据(作为反例文档集B)来训练PULearning模型,并且基于经训练的PU Learning模型,从所述剩余的文本数据(作为无标注文档U)中预测不可信的文本数据。然后,可以将预测为不可信的文本数据打上不可信标签。
在方框128,例如通过处理器220,使用所述第二训练模型仅对没有标签的文本数据进行分类。所述没有标签的文本数据可以直接来自原始获得的文本数据,或者来自经清洗的文本数据、经打标处理的文本数据、或经PU Learning处理的文本数据。在支付宝的应用场景下,“文本数据”可以被分为以下30个类别:“一元购”、“付款未发货”、“信用卡套现”、“假冒公检法等公职人员”、“假冒其他身份”、“假冒支付宝客服”、“假冒领导或亲友”、“共享单车退款”、“其他兼职类”、“其他平台刷单”、“其他欺诈方式”、“口碑刷单”、“处理其他电商订单退款被骗”、“处理机票退改签被骗”、“处理淘宝天猫订单退款被骗”、“开通借呗”、“开通微粒贷”、“开通花呗”、“投资理财/高额返利类”、“收到商品/服务与约定不符”、“时时彩/彩票”、“服饰/手机等实物购买”、“淘宝刷单”、“游戏充值/代练等游戏相关”、“缴纳淘宝店铺保证金被骗”、“考题购买/资料购买/办证等”、“话费/流量/会员充值等”、“贷款/办卡/提额类其他”、“软件/应用(APP)购买”、“违禁其他类”。相应地,在一个实施例中,可以为隶属于上述30个类别中的每个的文本数据分别赋予1~30分中的一个分数。本领域技术人员能够领会到,其他的打分方式也是可以的。此外,对于支付宝或其他的应用场景,也可以预见到其他的分类方式。
在方框130,例如通过处理器220,使用第二训练模型对与所述结构化行为数据相对应的文本数据进行分类并赋予与所属类别相应的分数。所述第二训练模型可以存储在存储器210中。这里,所述第一和第二训练模型可以是已知的任何可用训练模型,包括,但不限于,LightGBM算法、GBDT算法、LR模型、神经网络等。在一个实施例中,所述第一训练模型可以与所述第二训练模型相同。在另一实施例中,所述第一训练模型可以不同于所述第二训练模型。
在一个实施例中,所述比对包括分别将所述结构化行为数据的所述分数和所述对应的文本数据的所述分数进行归一化,并且对归一化后的两个分数进行假设检验以判断所述结构化行为数据的所述分数和所述对应的文本数据的所述分数是否属于同一类。所述归一化例如可以基于过往经验。如果假设检验的概率大于95%,则认为这两个分值属于同一类。因而,在通过假设检验判定所述结构化行为数据的所述分数和所述对应的文本数据的所述分数属于同一类时,所述对应的文本数据被确定为是可信的。例如,先通过一个数据集的数据分布得到分值对应的百分位数(precentile),根据这个百分位数得到分值准确率90%;再对这两个分值进行t检验,确定文本数据是否可信。
相应地,针对同一金融事件,结构化行为数据的模型分数与相应的文本数据的模型分数进行比对。根据比对结果,在方框132输出“该文本数据可信”并给出相应的解释。例如,所述解释可以为该投诉或理赔文本与对应的买卖行为相符。或者,在方框134输出为“该文本数据不可信”并给出相应的解释。例如,所述解释可以为该投诉或理赔文本与对应的买卖行为不相符。
另一方面,在方框124被打上“不可信”标签的文本数据和/或在方框126被检测并被打上“不可信”标签的文本数据都将在方框134输出为“该文本数据不可信”并给出相应的解释。例如,所述解释可以为该投诉或理赔文本明显与对应的买卖行为不相符。
图2示出了按照本发明的一个实施例的文本可信模型分析设备200的示意图。如图2所示,文本可信模型分析设备200可以包括存储器210和处理器220。存储器210上存储有可执行指令,其中,所述可执行指令当被执行时使得处理器220执行图1所示的方法100。本领域技术人员能够领会到,处理器220实现的上述所有功能即可由单独的处理器来实施,也可由多个处理器来分别实施。
此外,文本可信模型分析设备200还包括显示器230,其被配置为显示所述文本数据,例如投诉或理赔文本,或者与投诉或理赔相关的OCR图像或语音转换文本。另外,文本可信模型分析设备200还包括输入器件240,其被配置为供所述使用者为不可信的文本数据打标签。
按照本发明的实施例还提供一种机器可读存储介质,其上存储有可执行指令,其中,所述可执行指令当被执行时使得机器执行图1所示的方法100。
图3示出了按照本发明的一个实施例的文本可信模型分析装置300的示意图。图3所示的装置300可以利用软件、硬件或软硬件结合的方式来实现。
如图3所示,文本可信模型分析装置300包括预处理模块310,用于对接收到的或从存储器获得的文本数据进行预处理。在第一方面,所述预处理模块310包括用于定期地供使用者对所述文本数据中的一个或多个是否可信进行标签的模块,其中,在文本数据与对应的结构化行为数据不相符时,该文本数据被打上不可信标签。
在第二方面,所述预处理模块310还包括检测模块320,用于基于带有不可信标签的文本数据和剩余的文本数据,使用半监督学习算法从剩余的文本数据检测出不可信的文本数据并打上不可信标签。在一个实施例中,所述半监督学习算法例如包括PU Learning。其中,所述检测模块(320)包括用于利用所述带有不可信标签的文本数据来训练PULearning模型,并且基于经训练的PU Learning模型,从所述剩余的文本数据中预测不可信的文本数据的模块。
文本可信模型分析装置300还包括第二分类模块330,用于通过第二训练模型对与所述结构化行为数据相对应的文本数据进行分类并赋予与所属类别相应的分数。优选地,所述第二分类模块330被配置为仅对没有标签的文本数据进行分类。
文本可信模型分析装置300还包括第一分类模块340,用于通过第一训练模型对结构化行为数据进行分类并赋予与所属类别相应的分数。
文本可信模型分析装置300还包括比对模块350,用于将所述结构化行为数据的所述分数与对应的文本数据的所述分数进行比对,并根据所述比对的结果,判断所述对应的文本数据是否可信。优选地,所述比对模块350被配置为分别将所述结构化行为数据的所述分数和所述对应的文本数据的所述分数进行归一化,并且对归一化后的两个分数进行假设检验以判断所述结构化行为数据的所述分数和所述对应的文本数据的所述分数是否属于同一类。其中,在通过假设检验判定所述结构化行为数据的所述分数和所述对应的文本数据的所述分数属于同一类时,基于t检验来确定所述对应的文本数据是否可信。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。