具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
在互联网金融风险防控中,目前仍然利用人工采样审核的方式来识别互联网金融欺诈,同时,大量投诉或理赔中的文本信息中的情感信息被浪费,并未用于风险防控的核查中,进而导致风险防控不准。为此,本申请的发明人提出了基于深度学习的舆情预警解决方案,其通过对文本数据进行舆情分析得到对应的舆情分数,再将舆情分数结合预设抽样策略来进行抽样审理,实现了对文本数据是否可信的自动化判断,并且能够提高风险防控的准确度。
本说明书的一个或者多个实施例公开了一种基于深度学习的舆情预警方法,参看图1,该方法包括以下步骤:
步骤11,获得整体抽样文本。
在具体的实施过程中,本说明书的整体抽样文本包含多种抽样文本,例如:支付类投诉文本,来电文本,支付类社交文本,公开微博文本等等支付类整体抽样文。在这些支付类抽样文本中的情感能够表达出各种情绪,故而采集这些抽样文本能够获得多方面的舆情,进而更加准确的进行风险防控。
更为具体的,在支付类平台中,根据操作的不同,可以将用户的行为分为以下类别:“一元购”、“付款未发货”、“信用卡套现”、“假冒公检法等公职人员”、“假冒其他身份”、“假冒支付平台客服”、“假冒领导或亲友”、“共享单车退款”、“其他兼职类”、“其他平台刷单”、“其他欺诈方式”、“口碑刷单”、“处理其他电商订单退款被骗”、“处理机票退改签被骗”、“处理支付订单退款被骗”、“开通借呗”、“开通微粒贷”、“开通花呗”、“投资理财/高额返利类”、“收到商品/服务与约定不符”、“时时彩/彩票”、“服饰/手机等实物购买”、“淘宝刷单”、“游戏充值/代练等游戏相关”、“缴纳淘宝店铺保证金被骗”、“考题购买/资料购买/办证等”、“色欲、情欲等,挑起或激发起性欲的操作”、“话费/流量/会员充值等”、“贷款/办卡/提额类其他”、“利用财产做注码来赌输赢操作”、“软件/应用(APP)购买”、“违禁其他类”。
而整体抽样文本可以从用户的上述行为及其相关评论中获取。
进一步的,整体抽样文本中包括有对用户行为相关的评论数据,抽样文本的相关数据(例如产生时间、地点、相关用户等等)等等参数。
步骤12,利用舆情分析模型对所述整体抽样文本进行舆情分析并得到对应的舆情分数。
在此之前,可对所述整体抽样文本进行预训练,以便更好地进行抽样。在具体的预训练过程中,可保持神经网络模型中的特定层数(例如前5层)的网络结构不变,利用所述神经网络模型对所述整体抽样文本进行预训练。
举例来说,神经网络模型的网络结构模型是cnn,rnn,dnn,lstm和其他任何神经网络。
而保持神经网络模型中的前5层的网络结构不变,指的是在训练过程中保持网络的权重保持不变。这样做对抽样文本的好处是可以将使用大样本预训练的权重利用到小样本中。
作为一种可选的实施例,为了更为精准的训练整体抽样文本,可先将所述整体抽样文本按照场景进行分类,例如按照赌博场景、投诉场景等等,得到单个场景下的抽样文本,然后保持神经网络模型中的前5层网络结构不变,利用所述神经网络模型分别对各个场景中的抽样文本进行预训练。该预训练的过程和上述预训练过程类似,故而不再赘述。
可利用训练文本对RNN深度学习模型进行训练,得到舆情分析模型,然后再利用舆情分析对整体抽样文本进行打分得到相应的舆情分数。
训练文本可以是其他发生舆情时的相关评论文本,也可以从整体抽样文本中抽取。
而在训练模型的过程中,可先利用不可信、可信、中立三种标签建立分类器,对所述训练文本进行分类标注;其中,对包含有正面情绪的训练文本标注可信标签;对包含有负面情绪的训练文本标注不可信标签;对中立情绪的训练文本标注中立标签。然后用分类标注后的训练文本对所述RNN模型进行训练,得到舆情分析模型。
在具体的分类标注的过程中,可以定期由使用者(例如投诉或理赔的审理人员)对所述文本数据中的一个或多个是否可信进行标签。审理人员可以在每次利用训练文本进行模型训练前、每天、每隔几天、每周或者每隔几周对当时的一个或多个训练文本是否可信进行判断。例如,审理人员对显示器上显示的、与投诉或理赔有关的文本内容、OCR(光学字符识别)图像内容或者语音转文本内容等等标注“不可信”的标签,并且将该训练文本直接判定为不可信。进一步的,对所述训练文本中包含有负面情绪的部分训练文本标注不可信标签;然后利用包含有不可信标签的部分训练文本来训练所述半监督学习算法中的PULearning模型,并基于训练的PU Learning模型从剩余训练文本中预测不可信的训练文本,并标注不可信标签。例如经由审理人员标注不可信标签的文本数据来训练PU Learning模型,并且基于经训练的PU Learning模型,从所述剩余的文本数据中预测不可信的文本数据。然后,可以将预测为不可信的文本数据标注不可信标签。
相对应的,可以对所述训练文本中包含有正面情绪的部分训练文本标注可信标签;然后利用包含有可信标签的部分训练文本来训练半监督学习算法中的PU Learning模型,并基于训练的PU Learning模型从剩余训练文本中预测可信的训练文本,并标注可信标签;
相对应的,可以对所述训练文本中包含有中立情绪的部分训练文本标注中立标签;然后利用包含有中立标签的部分训练文本来训练所述半监督学习算法中的PULearning模型,并基于训练的PU Learning模型从剩余训练文本中预测中立的训练文本,并标注中立标签。
而在使用分类标注后的训练文本对所述RNN模型进行训练,得到所述舆情分析的过程中,可以采用标注为不可信的训练文本对RNN模型进行训练,得到对应的文本情感分析模型。进一步的,会使用测试文本对训练得到的多个模型进行测试,将打分准确率最高的模型确定为舆情分析模型。同理,可以使用标注为可信或者中立的训练文本训练RNN,得到对应的舆情分析模型。
进一步的,舆情分析模型包括多种模型,例如文本情感分析模型,文本情感分析模型的作用是对整体类抽样文本进行文本情感分析,然后输出对应的情感分数。故而,在训练过程中,可主要文本情感对训练文本进行采集,并进一步训练RNN模型得到文本情感分析模型。
具体的,在利用舆情分析模型对所述整体抽样文本进行舆情分析并得到对应的舆情分数过程中,可利用文本情感分析模型对所述整体抽样文本进行情感分析并得到对应的情感分数。
而在利用文本情感分析模型对整体抽样文本进行情感分析并得到对应的情感分数的过程中,首先对所述整体抽样文本进行分词处理,每个抽样文本划分出一个或者多个词向量;然后将所述每个抽样文本对应的一个或者多个词向量输入训练后的神经网络模型,得到每个词向量的情感分数;基于每个词向量的情感分数,得到每个抽样文本对应的情感分数。当然,在进行情感分析过程中可执行损失函数、梯度下降、反向传播等等具体常规操作,在此不再赘述。
进一步的,抽样文本一般都是一句话或者一段话,故而首先会将抽样文本划分为一个或者多个词向量。而相同词向量在文本中的位置不同和在语法上的不同(主谓宾等),具有不同的情感分数。故而在将一个或者多个词向量输入训练后的神经网络模型中,各个词向量会根据其位置和语法等得到对应的情感分数,然后将各个词向量对应的情感分数进行处理(例如求和),则得到该抽样文本的情感分数。
进一步的,在本说明书的实施例中,可划定一分数范围作为情感分数,分值越重表示负面情绪越重,则抽样样本的情绪价值越高。例如1-100分,分数越高表示负面情绪越重,则抽样样本的情绪价值越高,越容易被抽到。
通过上述方式,将某个抽样文本输入文本情感分析模型之后,则能够确定出该抽样文本对应的情感分数。由此可见,本说明书的一个或者多个实施例是对抽样文本中呈现出的实际情感进行打分,不是简单地以类别划分进行打分,能够更加关注各个抽样文本中包含的用户情绪,进而能够更加有针对性的从整体抽样文本抽取满足要求的样本,以便审理人员有针对性的处理抽样样本。
步骤13,基于所述整体抽样文本对应的舆情分数和预设抽样策略,从所述整体抽样文本中获取目标抽样文本。
本实施例的预设抽样策略包含多种类型,例如包括:恶意赌输赢操作抽样策略,欺诈刷单策略,套现抽样策略。
在具体的实施过程中,在恶意赌输赢操作抽样策略中,若整体抽样文本中包含有恶意赌输赢操作的关键词,例如,XX今天斗地主赢得30元现金。或者该整体抽样文本是夜间抽样文本,关联夜间赌输赢交易数据,例如20:00-8:00之间产生的夜间赌输赢交易数据相关联的抽样文本。或者其命中敏感词汇库中存储的数据,则表示这类抽样文本会被恶意赌输赢操作抽样策略抽中。进一步的,再结合整体抽样文本对应的情感分数,则可以从命中赌博关键词的抽样文本中抽取分数高于预设分值的抽样文本,或者夜间交易产生的抽样文本中抽取分数高于预设分值的抽样文本。当然,该恶意赌输赢操作抽样策略中还包含其他策略,任何和赌输赢相关的抽样策略都应当包含在本说明书的保护范围之内。
在欺诈刷单策略中,若整体抽样文本包含有刷单及其相关关键词,或者整体抽样文本关联了有多笔交易及其相关刷单金额,例如两笔以上交易及其相关金额,那么则表示此类抽样文本容易被欺诈刷单策略抽中。进一步的,在抽取欺诈刷单样本时,也会结合各抽样文本的情感分数进行抽取。
在套现抽样策略中,若整体抽样文本中包含有套现及其相关关键词,或者该整体抽样文本关联有曹先操作等等,则此类抽样文本容易被抽中,进一步的,在抽取套现欺诈类抽样文本时,也会结合各抽样文本的情感分数进行抽取。
以上是结合情感分数和欺诈类抽样策略进行抽样的具体实施过程。而在实际应用中,本说明书中的抽样方式不仅仅限于是事前、事后抽样,也可以在事中进行抽样,例如在交易发生的过程中进行抽样预警。
具体来说,在用户(买家)和商户(卖家)交易时,例如用户在加入购物车,或和商户沟通,或付款等等过程中,可从所述整体抽样文本中获取所述商户的历史交易文本数据;然后基于所述整体抽样文本对应的舆情分数和预设抽样策略,从所述历史交易文本数据中获取目标抽样文本;然后将目标抽样文本发送给用户进行预警。由此可见,本申请的抽样实际上并不限于是买卖双方交易后对文本数据进行抽样,而是可以在交易的过程中,通过结合情感分数对卖家的历史交易数据进行实时抽样,进而在买卖双方发生交易的过程中能够及时反馈给买家进行预警,避免买家受骗。
进一步的,在对商户的历史交易文本数据进行抽样时,商户的历史交易文本数据包含有很多信息,例如交易金额数据,交易时间数据,交易对象相关数据,其他买家交易后对商户的评论数据,商户被警告处罚的数据等等,能够从多方面表征该商户的特征,而对于商户的历史交易文本数据,在输入文本情感分析模型之后,则会得到历史交易文本数据各自对应的情感分数,然后再结合预设抽样策略,则会抽取到商户对应的目标抽样文本。
步骤14,将所述目标抽样文本转换为报文并进行预警。
具体来说,可根据infocode和情感分析系统等方式把目标抽样文本生成报文,通过报文的形式展现给策略方和监管方进行舆情预警。
作为一种可选的实施例,除了将舆情分数和欺诈类抽样策略进行结合之外,还可以将所述整体抽样文本对应的舆情分数输入到其他抽样类模型中确定出抽样阈值,或将所述整体抽样文本对应的舆情分数联合其他策略确定出所述抽样阈值;基于所述抽样阈值从所述整体抽样文本中选择出有目标价值的情绪文本,例如抽出高于抽样阈值的目标价值情绪文本,并将所述目标价值情绪文本输入到审理报文系统中进行反馈。
也就是说,将情感分数输出到其他模型或策略,这些模型或策略可以和情感分数统一成为情感分析策略。进一步的,我们把分数和变量放入AI detect,类似于高级版本的决策树,然后使用决策树对分数和变量选定阈值,判断出高情绪价值的样本,将这些样本汇总到审理报文系统,及时反馈情绪比较负面的客户,并对其进行解释。
通过上述方式,通过对抽样文本进行情感分析得到对应的舆情分数,然后将舆情分数和预设抽样策略进行结合从而改变原有抽样方式,将大量缩短人工的时间,节约审理人员时间,可以让审理人员更快更好的抽取到需要得到的样本,以提升工作效率和量级,并且解决了人工抽样偏度的问题(即抽样仅仅依赖于金额或者特定事件),本方法可以更偏向于容易引发舆情的文本,让抽样更加的科学,进而防控舆情,进一步的,可以提升用户满意度,让审理人员更多的关注不满的用户,探查不满用户的原因,改进工作流程,帮助用户得到更满意的服务。
进一步的,在舆情分析模型判断文本的情绪后,可以自动介入NLP自然语言系统,新系统上线后可以批量自动化审理,完成零人工干预智能舆情分析审理的要求。
基于相同的发明构思,下面的实施例介绍了一种基于深度学习的舆情预警系统,参看图2,包括:
第一获得模块21,用于获得整体抽样文本;
舆情分析模块22,用于利用舆情分析模型对所述整体抽样文本进行舆情分析并得到对应的舆情分数;
第二获得模块23,用于基于所述整体抽样文本对应的舆情分数和预设抽样策略,从所述整体抽样文本中获取目标抽样文本;
转换模块24,用于将所述目标抽样文本转换为报文并进行预警。
作为一种可选的实施例,所述系统还包括:
训练模块,用于利用训练文本对RNN深度学习模型进行训练,得到所述舆情分析模型。
作为一种可选的实施例,所述训练模块,具体包括:
分类模块,用于利用不可信、可信、中立三种标签建立分类器,对所述训练文本进行分类标注;其中,对包含有正面情绪的训练文本标注可信标签;对包含有负面情绪的训练文本标注不可信标签;对包含有中立情绪的训练文本标注中立标签;
训练子模块,用于用分类标注后的训练文本对所述RNN模型进行训练,得到所述舆情分析模型。
作为一种可选的实施例,所述分类模块,具体用于对所述训练文本中包含有负面情绪的部分训练文本标注为不可信标签;利用包含有不可信标签的部分训练文本来训练半监督学习算法中的PU Learning模型,并基于训练的PULearning模型从剩余训练文本中预测不可信的训练文本,并标注为不可信标签。
作为一种可选的实施例,在系统还包括:
预训练模块,用于对所述整体抽样文本进行预训练。
作为一种可选的实施例,所述预训练模块,具体用于保持神经网络模型中的特定层数的网络结构不变,利用所述神经网络模型对所述整体抽样文本进行预训练;或者
将所述整体抽样文本按照场景进行分类,并保持神经网络模型中的特定层数的网络结构不变,利用所述神经网络模型分别对各个场景中的抽样文本进行预训练。
作为一种可选的实施例,所述舆情分析模型包括文本情感分析模型;
所述舆情模块具体包括:
文本情感分析模型,用于利用文本情感分析模型对所述整体抽样文本进行情感分析并得到对应的情感分数。
作为一种可选的实施例,所述情感分析模块,具体包括:
分词模块,用于对所述整体抽样文本进行分词处理,每个抽样文本划分出一个或者多个词向量;
第一输入模块,用于将所述每个抽样文本对应的一个或者多个词向量输入神经网络模型,得到每个词向量的情感分数;
第三获得模块,用于基于每个词向量的情感分数,得到每个抽样文本对应的情感分数。
作为一种可选的实施例,所述第二获得模块23还包括:
第四获得模块,用于在用户和商户交易时,从所述整体抽样文本中获取所述商户的历史交易文本数据;
第五获得模块,用于基于所述整体抽样文本对应的舆情分数和所述预设抽样策略,从所述历史交易文本数据中获取所述目标抽样文本。
作为一种可选的实施例,所述系统还包括:
发送模块,用于将所述目标抽样文本发送给所述用户。
作为一种可选的实施例,所述系统还包括:
第二输入模块,用于将所述整体抽样文本对应的舆情分数输入到其他抽样类模型中确定出抽样阈值,或将所述整体抽样文本对应的舆情分数联合其他预设策略确定出所述抽样阈值;
选择模块,用于基于所述抽样阈值从所述整体抽样文本中选择出目标价值情绪文本,并将所述目标价值情绪文本输入到审理报文系统中进行反馈。
基于与前述实施例中同样的发明构思,本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文任一所述方法的步骤。
基于与前述实施例中同样的发明构思,本说明书的实施例还提供一种计算机设备,如图3所示,包括存储器304、处理器302及存储在存储器304上并可在处理器302上运行的计算机程序,所述处理器302执行所述程序时实现前文任一所述方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口305在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他终端设备通信的单元。处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
通过本说明书的一个或者多个实施例,本说明书具有以下有益效果或者优点:
本说明书公开了一种基于深度学习的舆情预警方法及系统,首先获得整体抽样文本;然后利用舆情分析模型对所述整体抽样文本进行舆情分析并得到对应的舆情分数;基于所述整体抽样文本对应的舆情分数和预设抽样策略从所述整体抽样文本中获取目标抽样文本,由于在风险防控中文本数据的舆情分析非常重要,这部分情绪感知可能是引发重大舆情的潜在因素,如果忽略这部分情绪感知则会极大的影响到风险防控的准确度,故而通过对抽样文本进行舆情分析得到对应的舆情分数,然后将舆情分数和预设抽样策略进行结合,从而改变原有抽样方式,可以更偏向于抽取容易引发舆情的目标抽样文本,然后将所述目标抽样文本转换为报文并进行预警,让抽样更加的科学,进而防控舆情。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。