具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
考虑到现有方法在识别处理文本数据中存在风险时,参阅图1所示,往往是分别针对各个风险处理场景获取对应风险处理场景的样本数据,并只利用该风险处理场景的样本数据训练针对该风险处理场景的文本风险处理模型,再利用训练好的模型来确定该风险处理场景下的文本数据中是否存在预设的风险。
基于现有方法,针对不同的风险处理场景训练建模时无法跨场景地使用其他风险处理场景中的文本特征信息,而不同的风险处理场景之间本身又是存在内在联系的,因此,基于现有方法在训练建立某一风险处理场景的文本风险处理模型时,会忽略到不同风险处理场景之间的特征联系导致所建立得到文本风险处理模型不够准确,进而影响后续基于该文本风险处理模型确定文本风险的准确度。此外,现有方法在建立某一风险处理场景的文本风险处理模型时,只能使用所对应的风险处理场景中的样本数据进行训练,而无法使用大量的其他的风险处理场景中样本数据,导致样本数据的利用率相对较低。尤其对于一个新的风险处理场景,往往所能获取的该风险处理场景的样本数据的数量相对有限,这种情况下,如果不使用其他风险处理场景中的样本数据,而只使用该风险处理场景的数量不多的样本数据来训练建模,所得到文本风险处理模型的准确度势必较差,导致基于该文本风险处理模型在确定文本风险时误差也会相对较大。综上可知,现有的风险的确定方法,由于在建立针对不同风险处理场景的文本风险处理模型时,无法有效地跨场景利用其他风险处理场景中的文本特征信息,导致样本数据利用率低,使得所建立的文本风险处理模型的准确度相对较差,进而导致后续利用上述风险处理模型来识别对应的风险处理场景中文本数据所存在的风险的准确度也相对较差。
针对产生上述问题的根本原因,本说明书考虑在建立针对某一个风险处理场景的文本风险处理模型时,可以通过迁移学习,利用其他风险处理场景中得到的文本特征信息,连同基于本场景的样本数据得到的文本特征信息,共同进行针对当前风险处理场景的文本风险处理模型的模型训练,从而得到能够跨场景综合利用不同风险处理场景中的文本特征信息的预设的文本风险处理模型。再将待确定的待确定的当前风险处理场景的目标文本数据作为模型输入,输入至上述训练好的预设的文本风险处理模型中,得到对应的模型输出作为处理结果。进而可以根据该处理结果,较为精准地确定目标文本数据所指示的内容中是否存在当前风险处理场景中的预设风险,从而能通过有效利用其他风险处理场景中的文本特征信息,建立得到精确度更高的文本风险处理模型,以便更加精准地识别、确定出当前风险处理场景下的文本数据中所存在的风险,解决了现有方法中存在的不能跨场景地学习、利用其他风险处理场景的文本特征信息,导致样本数据利用率低,所建立的文本风险处理模型不够精准,影响当前风险处理场景中风险确定的准确度的技术问题。
本说明书实施例提供一种风险的确定方法,所述风险的确定方法可以应用于包含有服务器和客户端的系统架构中。具体可以参阅图2所示,其中,服务器和客户端可以通过有线或无线的方式相连,以便进行数据交互。
具体实施时,所述客户端可以用于生成并向服务器发送待处理的当前风险处理场景的目标文本数据。所述服务器可以用于获取当前风险处理场景的目标文本数据;通过预设的文本风险处理模型,根据所述目标文本数据,得到对应的处理结果,其中,所述预设的文本风险处理模型包括基于对多个风险处理场景进行迁移学习所建立的文本处理模型;根据所述处理结果,确定所述目标文本数据所指示的内容中是否存在预设风险。
在本实施例中,所述服务器可以是一种应用于网站的数据处理系统一侧,能够实现数据传输、数据处理等功能的后台业务服务器。具体的,所述服务器可以为一个具有数据运算、存储功能以及网络交互功能的电子设备;也可以为运行于该电子设备中,为数据处理、存储和网络交互提供支持的软件程序。在本实施方式中,并不具体限定所述服务器的数量。所述服务器具体可以为一个服务器,也可以为几个服务器,或者,由若干服务器形成的服务器集群。
在本实施例中,所述客户端可以是一种应用于用户一侧,能够实现数据采集、数据传输等功能的前端设备。具体地,所述客户端例如可以为台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、具有网络访问功能的电视机等。或者,所述客户端也可以为能够运行于上述电子设备中的软件应用。例如,可以是在手机上运行的某APP等。
在一个场景示例中,可以结合图2和图3所示,XX交易网站可以应用本说明书实施例提供的风险的确定方法对所采集的该网站用户的留言文本进行相应的文本处理,以确定是否存在违规行为的风险。
XX交易网站上参与交易的双方用户在交易的过程中,可以通过使用XX交易网站的手机APP上所提供的留言插件通过留言的方式与对方进行信息交互。
具体的,例如,用户甲可以使用自己的手机作为客户端,点击进入手机上安装的XX交易网站的APP,进而XX交易网站的首页面,然后在首页面中点击留言的图标进入留言界面。在留言界面中选中想要留言的用户乙,弹出针对用户乙的留言框。进而可以在该留言框中输入并发送针对用户乙的留言,例如“到SZ城可以包邮吗”、“100W,买大”、“便宜点”等。手机上的XX交易网站的APP会将上述留言文本发送到用户乙的手机上,同时还会将该段留言作为一个留言文本进行采集,并将所采集的该留言文本通过网络定时上传至XX交易网站数据处理系统中负责文本审理的服务器中,以便该服务器可以对该留言文本进行相应的处理,以确定该留言文本所表征的文本内容中是否存在当前风险处理场景中的预设风险。例如,在本场景中需要检测确定留言文本中是否存在涉及欺诈、赌博等违规行为的行为风险等,以便对上述违规行为进行及时处理。
在本场景示例中,服务器可以按照上述方式获取用户所使用的客户端采集并定时上传的留言内容作为目标文本数据。
在得到上述目标文本数据后,服务器可以将上述目标文本数据分别作为模型输入,输入至之前基于多个风险处理场景通过迁移学习训练得到的预设的文本风险处理模型中进行相应的处理,得到模型输出作为对应该目标文本数据的处理结果。其中,上述处理结果具体可以是一种用于指示目标文本数据中存在上述违规行为等风险的概率值。
进一步,服务器可以根据上述处理结果,确定目标文本数据中是否存在预设风险。例如,具体的,服务器可以将上述处理结果的概率值与预设的概率阈值做数值比较。如果通过比较,确定该目标文本数据的处理结果的概率值大于等于预设的概率阈值,则可以判断该目标文本数据存在预设的违规行为风险,即确定该目标文本数据所涉及的交易双方之间的交易行为有较大概率存在例如欺诈、赌博等违规行为,进而可以对该目标文本数据所涉及的交易双方进行进一步监控。根据监控结果,最终确定上述交易双方之间的交易行为是否参与了违规行为。如果存在则进行报警,同时对参与该交易行为的交易双方的账户进行冻结。相应的,如果通过比较,确定该目标文本数据的处理结果的概率值小于预设的概率阈值,则可以判断该目标文本数据不存在预设的违规行为风险,即确定该目标文本数据所涉及的交易双方之间的交易行为不存在违规行为,是正常、合规的。
在另一个场景示例中,参阅图4所示,基于上述方法,还需要预先建立得到应用于上述风险处理场景(即用于确定留言文本中是否存在违规行为风险的处理场景,可以简记为风险处理场景A)的预设的文本风险处理模型。
在建立上述预设的文本风险处理模型时,由于XX交易网站之前并没有对上述风险处理场景A进行研究,所拥有的针对风险处理场景A的样本数据数量相对有限,如果单独利用风险处理场景A的样本数据来进行模型训练,可能得到的预设的文本风险处理模型的准确度会相对较差。而XX交易网站之前有针对确定投诉意见文本中是否存在违规行为风险的处理场景(可以简记为风险处理场景B)进行过研究,拥有大量针对风险处理场景B的样本数据。考虑到风险处理场景A和风险处理场景B虽然两个场景并不完全相同,但上述两个风险处理场景存在一定相似性和关联性,考虑可以通过迁移学习,来地利用对风险处理场景B的样本数据结合风险处理场景A的样本数据共同进行模型训练,以建立得到准确度相对较高的针对风险处理场景A的预设的风险处理模型。
具体的,服务器可以获取之前在风险场景B中积累的文本数据作为样本数据b,以及在风险场景A中采集得到的文本数据作为样本数据a。并分别对上述两种样本数据进行预处理。例如,分别删除上述文本数据中的停用词、进行分词等,得到预处理后的样本数据b和预处理后的样本数据a。再分别对上述预处理后的样本数据b和样本数据a进行特征提取得到分别对应风险处理场景A和风险处理场景B的初阶的多个文本信息。进一步,再分别确定上述多个文本特征信息的tf-idf(term frequency–inverse document frequency,词频-逆文本频率指数)参数(或平均值),进而可以根据文本特征信息的tf-idf参数,从多个文本信息中筛选出tf-idf参数值大于等于预设的tf-idf阈值的文本信息作为符合要求的文本特征信息。从而得到了基于两种风险处理场景的样本数据得到的文本特征信息。
在得到上述文本特征信息后,可以将上述文本特征信息以embdedding的形式存储于预设的共享数仓内,便于服务器在训练针对其他风险处理场景的文本处理模型时使用。
服务器可以从上述共享数仓内获取上述多个文本特征信息,并按照预设的拼接规则将不同风险处理场景的文本特征信息进行拼接作为后续用于训练风险处理场景A的文本处理模型的文本特征信息。具体的,可以根据文本特征信息所对应的用户ID,将同一用户ID的两种风险处理特征的文本特征信息进行拼接。当然,需要说明的是,上述所列举的拼接方式只是一种示意性说明。具体实施时,根据具体情况和处理要求,也可以采用其他合适的方式来拼接两种不同风险处理场景的文本特征信息。对此,本说明书不作限定。
在通过拼接得到针对风险处理场景A的文本特征信息的同时,还可以筛选确定出风险处理场景A的初始文本风险处理模型。具体的,服务器可以先获取多个不同类型的文本处理模型的初始模型作为候选模型。
其中,上述多个不同类型的文本处理模型具体可以包括以下至少之一:TextCNN(应用于文本分类的神经网络)模型、GRU(门控循环单元)模型、lstm(Long Short-TermMemory,长短期记忆网络)模型等支持alps训练的模型。当然,需要说明的是,上述所列举的多个文本处理模型只是一种示意性说明。具体实施时,根据具体的应用场景和处理需求还可以引入其他类型的文本处理模型。对此,本说明书不作限定。
在本场景示例中,具体实施时,可以先将上述多个候选模型应用于风险处理场景A中进行测试,并通过目标扰动算法从上述多个候选模型中筛选出适合于风险处理场景A的模型,即符合要求的模型作为风险处理场景A的初始文本风险处理模型。当然,需要说明的是,上述所列举的筛选方法只是一种示意性说明。具体实施时,根据具体的应用场景和处理需求,还可以采用其他合适的筛选方式从多个候选模型中筛选出符合要求的适合用于风险处理场景A的初始文本风险处理模型。例如,还可以基于iv(Information Value)值评分的方法,对多个在风险处理场景A中进行测试的候选模型进行iv值评分,将iv值评分最高的模型确定为风险处理场景A的初始文本风险处理模型。
在确定出风险处理场景A的初始文本风险处理模型后,可以根据上述获取得到的综合了风险处理场景A和风险处理场景B的两种场景下的文本数据特征的拼接后的文本特征信息,和上述初始文本风险处理模型,通过模型训练得到所述针对风险处理场景A的预设的文本风险处理模型。
具体实施时,服务器可以利用上述拼接后的文本特征信息对初始文本风险处理模型进行多次的学习、训练,以逐步地确定出模型的网络参数,得到对应风险处理场景A的预设的文本风险处理模型。
在训练模型的过程中,具体的,还可以通过遗传算法对模型的网络参数,以及模型的结构和通道进行调整,以增强模型的整体效果,提高模型的准确度以及建模效率。
在通过模型训练得到上述对应风险处理场景A的预设的文本风险处理模型后,进一步还可以对该模型进行验证,以确定所建立的预设的文本风险处理模型在用于风险处理场景A时的准确度是否符合要求。具体的,服务器可以将上述预设的文本风险处理模型应用于风险处理场景A中进行模型测试,得到测试结果;再根据测试结果进行交叉验证(Cross-validation),通过交叉验证确定所建立的预设的文本风险处理模型在应用于风险处理场景A中的处理效果是否符合要求。如果通过交叉验证确定所建立的预设的文本风险处理模型准确度较好,处理效果符合要求,后续可以将该模型应用于风险处理场景A的目标文本数据处理中。如果通过交叉验证确定所建立的预设的文本处理模型准确度较差,处理效果不符合要求,则可以再对上述模型进行调整修正,直到交叉验证得到的处理效果符合要求。
由上述场景示例可见,本说明书提供的风险的确定方法,由于通过预先基于对多个风险处理场景中的文本信息进行迁移学习,得到能够跨场景综合利用不同风险处理场景中的文本特征信息的预设的文本风险处理模型;再将待确定的当前风险处理场景的目标文本数据作为模型输入,输入至上述预设的文本风险处理模型中得到对应处理结果;进而可以根据该处理结果,较为精准地确定目标文本数据所指示的内容中是否存在当前风险处理场景中的预设风险,从而能有效地利用其他风险处理场景中的文本特征信息,更加精准地识别、确定出当前风险处理场景下的文本数据中所存在的风险,解决了现有方法存在的不能跨场景地学习、利用其他风险处理场景的文本特征信息,导致样本数据利用率低,所建立的文本风险处理模型不够精准,影响当前风险处理场景中风险确定的准确度的技术问题。
参阅图5所示,本说明书实施例提供了一种风险的确定方法,其中,该方法具体应用于文本审理系统的服务器一侧。具体实施时,该方法可以包括以下内容:
S51:获取当前风险处理场景的目标文本数据。
在本实施例中,上述目标文本数据具体可以理解为一种待处理的文本数据。具体的,上述目标文本数据具体可以是留言文本、邮件文本、订单文本(例如订单上的附言文本)等等。当然,需要说明的是,上述所列举的文本数据只是一种示意性说明。具体实施时,根据具体的应用场景和处理需求,还可以引入其他类型的文本数据作为上述目标文本数据。例如,还可以将投诉意见文本、聊天记录文本等也作为一种目标文本数据进行处理。对此,本说明书不作限定。
在本实施例中,需要对当前风险处理场景中的文本数据进行处理,以确定文本数据所指示的文本内容中是否存在当前风险处理场景中的预设风险。其中,上述当前风险处理场景具体可以是一种识别文本数据中某种类型的预设风险的文本数据处理场景。上述预设风险具体可以是一种违规行为作风险(例如,诈骗行为风险、赌博行为风险等等),也可以是一种数据对象的安全风险(例如,交易密码遭到泄漏的风险等),还可以是一种来自外部的网络攻击风险等等。当然,需要说明的是,上述所列举的预设风险只是一种示意性说明。对于预设风险的具体类型,本说明书不作限定。
在本实施例中,上述当前风险处理场景具体可以是一种与服务器之前处理过的风险处理场景不同的风险处理场景。虽然当前风险处理场景与之前处理过的风险处理场景存在一定的区别,但两种风险处理场景涉及对场景中的文本数据所指示的文本内容中所存在的风险的识别和确定,因此两种风险处理场景存在一定的内在关联。相应的,在之前处理过的风险处理场景中所积累的特征数据(例如之前风险处理场景学习到的文本特征信息),以及建模经验可以迁移沿用到当前风险处理场景中,以便能够更好地处理当前风险处理场景中文本数据风险的确定。
此外,当前风险处理场景还可能是一种面临新出现的风险的处理场景,这时服务器所拥有的针对当前风险处理场景的样本数据的数量可能相对较少,如果仅利用当前风险处理场景的样本数据来建立相应用于处理该场景的文本数据的文本风险处理模型,所建模型的准确度可能会相对较差,如果应用这样的模型来处理本场景下的文本数据,来确定文本数据所指示的文本内容中是否存在预设风险,误差会相对较大,处理的准确度也相对较差。因此,通过迁移学习之前处理过的风险处理场景,还能够有效地利用之前处理过的风险处理场景的样本数据,来扩充当前风险处理场景的样本数据,使得所建立的当前风险处理场景的文本风险处理模型具有相对更高的处理精度。
在本实施例中,上述获取当前风险处理场景的目标文本数据,具体实施时,可以包括:服务器通过客户端采集并获取相应的文本数据作为当前风险处理场景的目标文本数据。
S53:通过预设的文本风险处理模型,根据所述目标文本数据,得到对应的处理结果,其中,所述预设的文本风险处理模型包括基于对多个风险处理场景进行迁移学习所建立的文本处理模型。
在本实施例中,上述预设的文本风险处理模型具体可以理解为一种预先基于对多个风险处理场景(包括之前处理过的风险处理场景和当前风险处理场景)进行跨场景的迁移学习所建立得到的用于识别确定文本数据中存在的预设风险的文本处理模型。需要说明的是,上述预设的文本风险处理模型由于是通过对多个风险处理场景的数据进行迁移学习所建立得到的,因此该模型综合利用了多个风险处理场景的文本特征信息,以及建模经验,相对于基于单独对一个风险处理场景的数据学习、训练所建立的模型,具有更高的准确度。
在本实施例中,上述通过预设的文本风险处理模型,根据所述目标文本数据,得到对应的处理结果,具体实施时,可以包括以下内容:服务器调用预设的文本风险处理模型,并将目标文本数据作为一种模型输入,输入至上述预设的文本风险处理模型中;然后,调用运行上述预设的文本风险处理模型,得到对应的模型输出作为上述与目标文本数据对应的处理结果。
其中,上述处理结果与所输入的目标文本数据对应。具体的,上述处理结果可以是一种用于指示所对应的目标文本数据所指示的文本内容中存在预设的风险的概率值。当然,上述所列举的处理结果只是一种示意性说明。具体实施时,根据具体的应用场景和处理需要,上述处理结果还可以是其他形式或类型的数据。对此,本说明书不作限定。
S55:根据所述处理结果,确定所述目标文本数据所指示的内容中是否存在预设风险。
在本实施例中,具体实施时,服务器可以根据上述处理结果,确定与该处理结果所对应的目标文本数据所指示的文本内容中是否存在预设风险。
具体的,例如,在处理结果为一种用于指示所对应的目标文本数据所指示的文本内容中存在预设的风险的概率值的情况下,具体实施时,服务器可以先将处理结果与预设的概率阈值(例如50%)作数值比较。如果通过数值比较,发现该目标文本数据的处理结果的概率值大于等于预设的概率阈值,则可以判断该目标文本数据所指示的内容中存在预设风险。相对的,如果通过数值比较,发现该目标文本数据的处理结果的概率值小于预设的概率阈值,则可以判断该目标文本数据所指示的内容中不存在预设风险。
在一个实施例中,在按照上述方式确定目标文本数据所指示的内容存在预设风险后,进一步,服务器可以对该目标文本数据所涉及的交易双方进行进一步监控。例如,获取该目标文本数据所涉及的交易双方近期内的交易数据和通信数据进行检查,得到对应的监控结果;再根据上述监控结果,最终确定是否确实存在预设风险,即,例如确定上述交易双方之间的交易行为是否确实参与了违规行为。如果存在,则针对该目标交易数据所涉及的交易双方进行报警,同时对参与该交易行为的交易双方的账户进行冻结等相应处理。相对的,在按照上述方式确定目标文本数据所指示的内容不存在预设风险后,则可以判断该目标文本数据所涉及的交易双方之间的交易行为不存在违规行为,是正常、合规的交易行为。
由上可见,本说明书实施例提供的风险的确定方法,由于通过预先基于对多个风险处理场景中的文本信息进行迁移学习,得到能够跨场景综合利用不同风险处理场景中的文本特征信息的预设的文本风险处理模型;再将待确定的当前风险处理场景的目标文本数据作为模型输入,输入至上述预设的文本风险处理模型中得到对应处理结果;进而可以根据该处理结果,较为精准地确定目标文本数据所指示的内容中是否存在当前风险处理场景中的预设风险,从而能有效地利用其他风险处理场景中的文本特征信息,更加精准地识别、确定出当前风险处理场景下的文本数据中所存在的风险,解决了现有方法存在的不能跨场景地学习、利用其他风险处理场景的文本特征信息,导致样本数据利用率低,所建立的文本风险处理模型不够精准,影响当前风险处理场景中风险确定的准确度的技术问题。
在一个实施例中,所述目标文本数据具体可以包括以下至少之一:留言文本、订单文本、邮件文本等等。当然,需要说明的是上述所列举的目标文本数据只是一种示意性说明。具体实施时,根据具体的应用场景和处理需求,还可以引入其他类型的文本数据作为目标文本数据。例如,还可以将聊天记录文本也作为一种目标文本数据进行处理。对此,本说明书不作限定。
在一个实施例中,为了能够有效地跨场景地综合利用除当前风险处理场景以外其他的风险处理场景的数据,来建立用于当前风险处理场景的准确度较高的预设的文本风险处理模型,具体实施时,可以按照以下方式执行:
S1:获取基于多个风险处理场景的样本数据所提取到得到的多个文本特征信息,其中,所述多个风险处理场景包括当前风险处理场景;
S2:拼接所述多个文本特征信息作为当前风险处理场景的文本特征信息;
S3:确定当前风险处理场景的初始文本风险处理模型;
S4:根据所述当前风险处理场景的文本特征信息和所述当前风险处理场景的初始文本风险处理模型,建立应用于当前风险处理场景的预设的文本风险处理模型。
在本实施例中,上述多个风险处理场景具体可以包括当前风险处理场景,以及除当前风险处理场景以外的其他至少一个风险处理场景,例如一个之前处理过的风险处理场景等。
在本实施例中,在获取基于多个风险处理场景的样本数据所提取到得到的多个文本特征信息之前,所述方法具体实施时,可以先获取对应多个不同的风险处理场景的多个样本数据;再对上述多个样本数据根据所对应的风险处理场景,提取出对应的多个文本信息。
具体实施时,可以先对所获取的多个风险处理场景的样本数据进行预处理,得到预处理后的样本数据;再分别对不同风险处理场景的样本数据进行对应的特征提取,得到多个风险处理场景的文本信息。其中,上述预处理具体可以包括对样本数据进行分词处理,和/或,删除样本数据中的停用词和进行分词等无效词等。当然,上述所列举的预处理只是一种示意性说明。具体实施时,根据具体情况,也可以引入其他类型的预处理。对此,本说明书不作限定。
在本实施例中,在得到基于多个风险处理场景的样本数据提取到的文本信息后,进一步还可以分别确定上述文本信息的tf-idf(term frequency–inverse documentfrequency,词频-逆文本频率指数)参数,再根据文本信息的tf-idf参数,从多个风险处理场景的文本信息中筛选出tf-idf参数符合要求的多个风险处理场景的文本信息作为多个文本特征信息,从而可以从大量的文本信息中筛选出相对较为有效的文本信息作为文本特征信息。
在本实施例中,在按照上述方式得到文本特征信息后,还可以将上述文本特征信息以embdedding的形式存储于预设的共享数仓内,便于服务器在训练针对其他风险处理场景的文本处理模型时使用。
在本实施例中,具体实施时,可以通过查询共享数仓,来获取基于多个风险处理场景的样本数据所提取到得到的多个文本特征信息。
在本实施例中,具体实施时,可以按照预设的拼接规则,将不同风险处理场景的文本特征信息进行拼接,得到拼接后的文本特征信息,作为当前风险处理场景的文本特征信息。具体的,可以将同一用户对象(例如对应同一个用户ID)的不同风险处理场景的文本特征信息拼接在一起,得到上述当前风险处理场景的文本特征信息等。当然,需要说明的是,上述所列举的拼接方式只是一种示意性说明。具体实施时,根据具体情况和处理要求,也可以采用其他合适的方式来拼接不同风险处理场景的文本特征信息。对此,本说明书不作限定。
在本实施例中,上述根据所述当前风险处理场景的文本特征信息和所述当前风险处理场景的初始文本风险处理模型,建立应用于当前风险处理场景的预设的文本风险处理模型,具体实施时,可以包括以下内容:利用上述拼接后的当前风险处理场景的文本特征信息对初始文本风险处理模型进行多次的权重迁移学习,以逐步地确定出模型的网络参数,从而得到对应当前风险处理场景的预设的文本风险处理模型。
在本实施例中,在利用上述拼接后的当前风险处理场景的文本特征信息对初始文本风险处理模型进行多次的学习、训练,以逐步地确定出模型的网络参数的过程中,具体实施时,还可以通过遗传算法对模型的网络参数,以及模型的结构和通道进行调整,以增强模型的整体效果,提高模型的准确度以及建模效率。
在一个实施例中,在获取基于多个风险处理场景的样本数据所提取到得到的多个文本特征信息之前,所述方法具体实施时,还可以包括以下内容:获取多个风险处理场景的历史文本数据作为样本数据;根据多个风险处理场景的样本数据,获取多个风险处理场景的文本信息;根据文本信息的tf-idf参数,从多个风险处理场景的文本信息中筛选出tf-idf参数符合要求的多个风险处理场景的文本信息作为多个文本特征信息。
在一个实施例中,在从多个风险处理场景的文本信息中筛选出符合要求的多个风险处理场景的文本信息作为多个文本特征信息后,所述方法具体实施时,还可以包括以下内容:将所述多个文本特征信息以embedding的形式存储于预设的共享数仓内。
在一个实施例中,上述确定当前风险处理场景的初始文本风险处理模型,具体实施时,可以包括以下内容:获取多个类型的文本处理模型的初始模型;通过目标扰动算法从所述多个类型的文本处理模型的初始模型中筛选出符合要求的模型作为当前风险处理场景的初始文本风险处理模型。
在本实施例中,上述多个类型的文本处理模型具体可以包括以下至少之一:TextCNN(应用于文本分类的神经网络)模型、GRU(门控循环单元)模型、lstm(Long Short-Term Memory,长短期记忆网络)模型等支持alps训练的模型。当然,需要说明的是,上述所列举的多个文本处理模型只是一种示意性说明。具体实施时,根据具体的应用场景和处理需求还可以引入其他类型的文本处理模型。对此,本说明书不作限定。
在本实施例中,具体实施时,可以先将上述多个类型的文本处理模型的初始模型应用于当前风险处理场景中进行测试,再通过目标扰动算法等从上述多个类型的文本处理模型的初始模型中筛选出评分较高的,即适合于当前风险处理场景的模型,当前风险处理场景的初始文本风险处理模型。当然,需要说明的是,上述所列举的筛选方法只是一种示意性说明。具体实施时,根据具体的应用场景和处理需求,还可以采用其他合适的筛选方式来筛选得到适用于当前风险处理场景的初始文本风险处理模型。例如,还可以基于iv(Information Value)值评分的方法,对多个在当前风险处理场景中进行测试的模型进行iv值评分,将iv值评分最高的模型确定为当前风险处理场景的初始文本风险处理模型。
在一个实施例中,所述根据所述当前风险处理场景的文本特征信息和所述当前风险处理场景的初始文本风险处理模型,建立应用于当前风险处理场景的预设的文本风险处理模型,具体实施时,可以包括以下内容:根据所述当前风险处理场景的文本特征信息,对所述当前风险处理场景的初始风险处理模型进行训练,并通过遗传算法在训练的过程中调整模型的网络参数,以确定当前风险处理场景的预设的文本风险处理模型。
在一个实施例中,为了进一步提高所建立的预设的文本风险处理模型的准确度,具体实施时,还可以获取与文本特征信息相关的关联用户对象的行为记录数据,并综合文本特征信息和关联用户对象的行为记录数据进行更加有效的模型训练。
其中,上述关联用户对象具体可以理解为上述文本特征信息所涉及到的用户对象。关联用户对象的行为记录数据具体可以是关联用户对象预设时间段(例如最近一周)的成单量,也可以是关联用户对象预设时间段内的收入和支出的资金量,还可以是关联用户对象预设时间段内的登录时间和地址信息等等。当然,上述所列举的行为记录数据只是一种示意性说明。对于行为记录数据的具体内容,本说明书不作限定。
在本实施例中,在拼接所述多个文本特征信息作为当前风险处理场景的文本特征信息后,所述方法具体实施时,还可以包括以下内容:根据所述当前风险处理场景的文本特征信息,确定关联用户对象;通过记录查询,获取所述关联用户对象的行为记录数据;组合所述当前风险处理场景的文本特征信息和所述关联用户对象的行为记录数据,得到组合后的特征信息数据;相应的,根据所述组合后的特征信息数据和所述当前风险处理场景的初始文本风险处理模型,建立应用于当前风险处理场景的预设的文本风险处理模型。
在本实施例中,具体实施时,上述组合所述当前风险处理场景的文本特征信息和所述关联用户对象的行为记录数据,得到组合后的特征信息数据,具体实施时,可以包括:通过wide&deep(一类用于分类和回归的模型)或者stacking模型组合所述当前风险处理场景的文本特征信息和所述关联用户对象的行为记录数据,得到组合后的特征信息数据。
在本实施例中,具体实施时,可以利用组合后的特征信息数据对当前风险处理场景的初始文本风险处理模型进行学习、训练,建立适用于当前风险处理场景,具有较高准确度的预设的文本风险处理模型。
在一个实施例中,在建立得到预设的文本风险处理模型后,还可以对该模型进行验证,以确定所建立的预设的文本风险处理模型在应用于当前风险处理场景时的准确度是否符合要求。具体实施时,可以将上述预设的文本风险处理模型应用于当前风险处理场景中进行模型测试,得到测试结果;再根据测试结果进行交叉验证(Cross-validation),通过交叉验证确定所建立的预设的文本风险处理模型在应用于当前风险处理场景时的准确度是否符合要求。如果通过交叉验证确定所建立的预设的文本风险处理模型准确度较好,处理效果符合要求,后续可以将该模型应用于当前风险处理场景的文本数据处理中。如果通过交叉验证确定所建立的预设的文本处理模型准确度较差,处理效果不符合要求,则可以再对上述模型进行调整修正,直到交叉验证得到的处理效果符合要求后,再用于当前风险处理场景的文本数据处理中。
由上可见,本说明书实施例提供的风险的确定方法,由于通过预先基于对多个风险处理场景中的文本信息进行迁移学习,得到能够跨场景综合利用不同风险处理场景中的文本特征信息的预设的文本风险处理模型;再将待确定的当前风险处理场景的目标文本数据作为模型输入,输入至上述预设的文本风险处理模型中得到对应处理结果;进而可以根据该处理结果,较为精准地确定目标文本数据所指示的内容中是否存在当前风险处理场景中的预设风险,从而能有效地利用其他风险处理场景中的文本特征信息,更加精准地识别、确定出当前风险处理场景下的文本数据中所存在的风险,解决了现有方法存在的不能跨场景地学习、利用其他风险处理场景的文本特征信息,导致样本数据利用率低,所建立的文本风险处理模型不够精准,影响当前风险处理场景中风险确定的准确度的技术问题;还在训练建立预设的文本风险处理模型的过程中,通过遗传算法来调整模型的网络参数,对模型的网络结构和通道进行有效调整,进一步提高了所建立的预设的文本风险处理模型的准确度,改善了模型的处理效果。
本说明书实施例还提供一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:获取当前风险处理场景的目标文本数据;通过预设的文本风险处理模型,根据所述目标文本数据,得到对应的处理结果,其中,所述预设的文本风险处理模型包括基于对多个风险处理场景进行迁移学习所建立的文本处理模型;根据所述处理结果,确定所述目标文本数据所指示的内容中是否存在预设风险。
为了能够更加准确地完成上述指令,参阅图6所示,本说明书实施例还提供了另一种具体的服务器,其中,所述服务器包括网络通信端口601、处理器602以及存储器603,上述结构通过内部线缆相连,以便各个结构可以进行具体的数据交互。
其中,所述网络通信端口601,具体可以用于获取当前风险处理场景的目标文本数据。
所述处理器602,具体可以用于通过预设的文本风险处理模型,根据所述目标文本数据,得到对应的处理结果,其中,所述预设的文本风险处理模型包括基于对多个风险处理场景进行迁移学习所建立的文本处理模型;根据所述处理结果,确定所述目标文本数据所指示的内容中是否存在预设风险。
所述存储器603,具体可以用于存储相应的指令程序。
在本实施例中,所述网络通信端口601可以是与不同的通信协议进行绑定,从而可以发送或接收不同数据的虚拟端口。例如,所述网络通信端口可以是负责进行web数据通信的80号端口,也可以是负责进行FTP数据通信的21号端口,还可以是负责进行邮件数据通信的25号端口。此外,所述网络通信端口还可以是实体的通信接口或者通信芯片。例如,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为Wifi芯片;其还可以为蓝牙芯片。
在本实施例中,所述处理器602可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。
在本实施例中,所述存储器603可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
本说明书实施例还提供了一种基于上述风险的确定方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取当前风险处理场景的目标文本数据;通过预设的文本风险处理模型,根据所述目标文本数据,得到对应的处理结果,其中,所述预设的文本风险处理模型包括基于对多个风险处理场景进行迁移学习所建立的文本处理模型;根据所述处理结果,确定所述目标文本数据所指示的内容中是否存在预设风险。
在本实施例中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施例中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
本说明书实施例还提供了一种文本审理系统,用于对所接收到的文本数据进行风险审理。具体的,该文本审理系统包括至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现获取当前风险处理场景的目标文本数据;通过预设的文本风险处理模型,根据所述目标文本数据,得到对应的处理结果,其中,所述预设的文本风险处理模型包括基于对多个风险处理场景进行迁移学习所建立的文本处理模型;根据所述处理结果,确定所述目标文本数据所指示的内容中是否存在预设风险
参阅图7所示,在软件层面上,本说明书实施例还提供了一种风险的确定装置,该装置具体可以包括以下的结构模块:
获取模块701,具体可以用于获取当前风险处理场景的目标文本数据;
处理模块702,具体可以用于通过预设的文本风险处理模型,根据所述目标文本数据,得到对应的处理结果,其中,所述预设的文本风险处理模型包括基于对多个风险处理场景进行迁移学习所建立的文本处理模型;
确定模块703,具体可以用于根据所述处理结果,确定所述目标文本数据所指示的内容中是否存在预设风险。
在一个实施例中,所述目标文本数据具体可以包括以下至少之一:留言文本、订单文本、邮件文本等等。
在一个实施例中,所述装置具体还可以包括建立模块,所述建立模块具体用于建立预设的文本风险处理模型。其中,所述建立模块具体可以包括以下结构单元:
获取单元,具体可以用于获取基于多个风险处理场景的样本数据所提取到得到的多个文本特征信息,其中,所述多个风险处理场景包括当前风险处理场景;
拼接单元,具体可以用于拼接所述多个文本特征信息作为当前风险处理场景的文本特征信息;
第一确定单元,具体可以用于确定当前风险处理场景的初始文本风险处理模型;
建立单元,具体可以用于根据所述当前风险处理场景的文本特征信息和所述当前风险处理场景的初始文本风险处理模型,建立应用于当前风险处理场景的预设的文本风险处理模型。
在一个实施例中,所述建立模块具体还可以包括处理单元,具体可以用于获取多个风险处理场景的历史文本数据作为样本数据;根据多个风险处理场景的样本数据,获取多个风险处理场景的文本信息;根据文本信息的tf-idf参数,从多个风险处理场景的文本信息中筛选出tf-idf参数符合要求的多个风险处理场景的文本信息作为多个文本特征信息。
在一个实施例中,所述建立模块具体还可以包括存储单元,具体可以用于将所述多个文本特征信息以embedding的形式存储于预设的共享数仓内。
在一个实施例中,所述确定单元,具体可以用于获取多个类型的文本处理模型的初始模型;通过目标扰动算法从所述多个类型的文本处理模型的初始模型中筛选出符合要求的模型作为当前风险处理场景的初始文本风险处理模型。
在一个实施例中,所述建立单元具体可以用于根据所述当前风险处理场景的文本特征信息,对所述当前风险处理场景的初始风险处理模型进行训练,并通过遗传算法在训练的过程中调整模型的网络参数,以确定当前风险处理场景的预设的文本风险处理模型。
在一个实施例中,所述建立模块具体还可以包括以下结构单元:
第二确定单元,具体可以用于根据所述当前风险处理场景的文本特征信息,确定关联用户对象;
查询单元,具体可以用于通过记录查询,获取所述关联用户对象的行为记录数据;
组合单元,具体可以用于组合所述当前风险处理场景的文本特征信息和所述关联用户对象的行为记录数据,得到组合后的特征信息数据;
相应的,
建立单元,具体还可以用于根据所述组合后的特征信息数据和所述当前风险处理场景的初始文本风险处理模型,建立应用于当前风险处理场景的预设的文本风险处理模型。
需要说明的是,上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
由上可见,本说明书实施例提供的风险的确定装置,通过建立模块预先基于对多个风险处理场景中的文本特征信息进行迁移学习,得到能够跨场景综合利用不同风险处理场景中的文本特征信息的预设的文本风险处理模型;再通过处理模块将待确定的当前风险处理场景的目标文本数据作为模型输入,输入至上述预设的文本风险处理模型中得到对应处理结果;进而可以通过确定模块根据该处理结果,较为精准地确定目标文本数据所指示的内容中是否存在当前风险处理场景中的预设风险,从而能有效地利用其他风险处理场景中的文本特征信息,更加精准地识别、确定出当前风险处理场景下的文本数据中所存在的风险,解决了现有方法存在的由于不能跨场景地学习、利用其他风险处理场景的文本特征信息,导致样本数据利用率低,所建立的文本风险处理模型不够精准,影响当前风险处理场景中的风险确定的准确度的技术问题。
虽然本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施例的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。