CN111932287B - 数据合作处理方法、装置、电子设备及计算机存储介质 - Google Patents

数据合作处理方法、装置、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN111932287B
CN111932287B CN201910395527.1A CN201910395527A CN111932287B CN 111932287 B CN111932287 B CN 111932287B CN 201910395527 A CN201910395527 A CN 201910395527A CN 111932287 B CN111932287 B CN 111932287B
Authority
CN
China
Prior art keywords
transaction data
training
data
cooperation
illegal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910395527.1A
Other languages
English (en)
Other versions
CN111932287A (zh
Inventor
黄家明
李朝
惠芃瑞
丁东辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910395527.1A priority Critical patent/CN111932287B/zh
Publication of CN111932287A publication Critical patent/CN111932287A/zh
Application granted granted Critical
Publication of CN111932287B publication Critical patent/CN111932287B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种数据合作处理方法、装置、电子设备及计算机存储介质,所述方法包括:获取训练数据,其中,所述训练数据包括带有标签的第一训练数据和不带标签的第二训练数据;根据所述训练数据进行合作训练,得到数据合作处理模型;获取待处理数据,并利用所述数据合作处理模型对于所述待处理数据进行合作处理,得到数据合作处理结果。该技术方案能够综合不同模型的优点,既能够保证异常操作识别的有效性、提高异常操作的识别准确率,还能够提高异常操作识别的灵活性,进而能够避免操作主体产生损失,维护市场的健康发展。

Description

数据合作处理方法、装置、电子设备及计算机存储介质
技术领域
本发明实施例涉及数据仿真技术领域,具体涉及一种数据合作处理方法、装置、电子设备及计算机存储介质。
背景技术
随着互联网技术的发展,越来越多的商家或者服务提供商通过互联网平台来为用户提供服务,为了获取更多的用户交易数据,创造更多的利润,很多商家、服务提供商或者中间机构都会开展丰富的优惠活动,但在活动开展过程中,出现了一些异常或非法行为,比如,有些用户频繁恶意刷单、有些商家作弊比如联合用户或者伪装成用户多次下单等等,这些异常行为严重扰乱了市场秩序,给操作主体带来了巨大的损失,不利于市场的健康发展。
现有技术中,对于异常行为的识别大多是基于人工规则或半监督方式进行的,其中,基于人工规则的方式是首先根据人工经验配置各种异常操作的规则,若当前交易命中某个规则,则认为当前交易为异常操作,但这种方式;基于半监督的方式一般根据交易数据对用户或商品进行聚类,则出现异常聚集的用户商品对组成的交易就会被判断为异常操作。上述基于人工规则的方式存在以下缺点:1)依赖人工经验,规则配置成本高;2)规则之间相互独立,互不影响,不同规则之间难以共享信息;3)通常规则匹配的条件是固定的,匹配的结果或者是命中或者不命中,规则泄露后很容易被规避,进而导致识别模型的失效;4)无法识别新的异常操作。另外,上述基于半监督的方式存在以下缺点:1)无法利用已有人工经验,从而影响识别模型的有效性;2)误判率高,借助聚类操作发现的异常操作虽然有可能是异常操作团伙,但也有可能是集中交易事件或者是促销交易等等。因此,对于异常操作,急需一种有效的、能够提高异常操作识别率的方案。
发明内容
本发明实施例提供一种数据合作处理方法、装置、电子设备及计算机可读存储介质。
第一方面,本发明实施例中提供了一种数据合作处理方法。
具体的,所述数据合作处理方法,包括:
获取训练数据,其中,所述训练数据包括带有标签的第一训练数据和不带标签的第二训练数据;
根据所述训练数据进行合作训练,得到数据合作处理模型;
获取待处理数据,并利用所述数据合作处理模型对于所述待处理数据进行合作处理,得到数据合作处理结果。
结合第一方面,本发明实施例在第一方面的第一种实现方式中,所述根据所述训练数据进行合作训练,得到数据合作处理模型,包括:
基于所述第一训练数据进行训练,得到第一数据合作处理子模型;
将所述第二训练数据输入至所述第一数据合作处理子模型中,得到所述第二训练数据的初始标签;
基于所述第一训练数据和带有初始标签的第二训练数据,利用第二数据合作处理子模型对于所述第二训练数据的初始标签进行更新,得到所述第二训练数据的目标标签;
基于所述第一训练数据和带有目标标签的第二训练数据,对于所述第一数据合作处理子模型进行再训练,将再训练得到的模型确定为所述数据合作处理模型。
结合第一方面和第一方面的第一种实现方式,本发明实施例在第一方面的第二种实现方式中,所述基于所述第一训练数据进行训练,得到所述第一数据合作处理子模型之前,包括:
根据所述训练数据生成数据网络,其中,将所述训练数据作为所述数据网络中的数据节点,根据所述训练数据之间的关系生成连接节点之间的边。
结合第一方面、第一方面的第一种实现方式和第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,所述基于所述第一训练数据和带有初始标签的第二训练数据,利用第二数据合作处理子模型对于所述第二训练数据的初始标签进行更新,得到所述第二训练数据的目标标签,被实施为:
利用所述第一训练数据和带有初始标签的第二训练数据对于所述数据网络进行初始化,为所述数据节点设置标签;
利用第二数据合作处理子模型对于所述第二训练数据对应的数据节点的初始标签进行传输迭代更新,得到所述第二训练数据的目标标签。
结合第一方面的第一种实现方式、第一方面的第二种实现方式和第一方面的第三种实现方式,本公开在第一方面的第四种实现方式中,所述第一数据合作处理子模型为Deep&Wide模型,其中,所述Deep&Wide模型包括深度子模型和广度子模型。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式和第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中,所述获取待处理数据,并利用所述数据合作处理模型对于所述待处理数据进行合作处理,得到数据合作处理结果,包括:
获取待处理数据;
将所述待处理数据输入至所述数据合作处理模型中,得到数据合作处理结果。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式和第一方面的第五种实现方式,本公开在第一方面的第六种实现方式中,还包括:根据所述数据合作处理结果执行以下至少一项:
操作权限设置、交易权限设置、操作引导、交易引导、操作流量限制、交易流量限制、异常操作控制。
第二方面,本发明实施例中提供了一种非法交易数据识别方法。
具体的,所述非法交易数据识别方法,包括:
获取训练交易数据,其中,所述训练交易数据包括带有标签的第一训练交易数据和不带标签的第二训练交易数据;
根据所述训练交易数据进行合作训练,得到非法交易数据合作识别模型;
获取待处理交易数据,并利用所述非法交易数据合作识别模型对于所述待处理交易数据进行非法交易数据合作识别,得到非法交易数据合作识别结果。
第三方面,本发明实施例中提供了一种数据合作处理装置。
具体的,所述数据合作处理装置,包括:
第一获取模块,被配置为获取训练数据,其中,所述训练数据包括带有标签的第一训练数据和不带标签的第二训练数据;
第一合作训练模块,被配置为根据所述训练数据进行合作训练,得到数据合作处理模型;
合作处理模块,被配置为获取待处理数据,并利用所述数据合作处理模型对于所述待处理数据进行合作处理,得到数据合作处理结果。
结合第三方面,本发明实施例在第三方面的第一种实现方式中,所述第一合作训练模块包括:
训练子模块,被配置为基于所述第一训练数据进行训练,得到第一数据合作处理子模型;
第一输入子模块,被配置为将所述第二训练数据输入至所述第一数据合作处理子模型中,得到所述第二训练数据的初始标签;
更新子模块,被配置为基于所述第一训练数据和带有初始标签的第二训练数据,利用第二数据合作处理子模型对于所述第二训练数据的初始标签进行更新,得到所述第二训练数据的目标标签;
再训练子模块,被配置为基于所述第一训练数据和带有目标标签的第二训练数据,对于所述第一数据合作处理子模型进行再训练,将再训练得到的模型确定为所述数据合作处理模型。
结合第三方面和第三方面的第一种实现方式,本发明实施例在第三方面的第二种实现方式中,所述训练子模块之前,还包括:
生成子模块,被配置为根据所述训练数据生成数据网络,其中,将所述训练数据作为所述数据网络中的数据节点,根据所述训练数据之间的关系生成连接节点之间的边。
结合第三方面、第三方面的第一种实现方式和第三方面的第二种实现方式,本公开在第三方面的第三种实现方式中,所述更新子模块被配置为:
利用所述第一训练数据和带有初始标签的第二训练数据对于所述数据网络进行初始化,为所述数据节点设置标签;
利用第二数据合作处理子模型对于所述第二训练数据对应的数据节点的初始标签进行传输迭代更新,得到所述第二训练数据的目标标签。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式和第三方面的第三种实现方式,本公开在第三方面的第四种实现方式中,所述第一数据合作处理子模型为Deep&Wide模型,其中,所述Deep&Wide模型包括深度子模型和广度子模型。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式、第三方面的第三种实现方式和第三方面的第四种实现方式,本公开在第三方面的第五种实现方式中,所述合作处理模块包括:
获取子模块,被配置为获取待处理数据;
第二输入子模块,被配置为将所述待处理数据输入至所述数据合作处理模型中,得到数据合作处理结果。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式、第三方面的第三种实现方式、第三方面的第四种实现方式和第三方面的第五种实现方式,本公开在第三方面的第六种实现方式中,还包括:
执行模块,被配置为根据所述数据合作处理结果执行以下至少一项:
操作权限设置、交易权限设置、操作引导、交易引导、操作流量限制、交易流量限制、异常操作控制。
第四方面,本发明实施例中提供了一种非法交易数据识别装置。
具体的,所述非法交易数据识别装置,包括:
第二获取模块,被配置为获取训练交易数据,其中,所述训练交易数据包括带有标签的第一训练交易数据和不带标签的第二训练交易数据;
第二合作训练模块,被配置为根据所述训练交易数据进行合作训练,得到非法交易数据合作识别模型;
合作识别模块,被配置为获取待处理交易数据,并利用所述非法交易数据合作识别模型对于所述待处理交易数据进行非法交易数据合作识别,得到非法交易数据合作识别结果。
第五方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条支持上述任一装置执行上述任一方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。上述任一装置还可以包括通信接口,用于与其他设备或通信网络通信。
第六方面,本发明实施例提供了一种计算机可读存储介质,用于存储上述任一装置所用的计算机指令,其包含用于执行上述任一方法为上述任一装置所涉及的计算机指令。
本发明实施例提供的技术方案可包括以下有益效果:
上述技术方案提出合作训练的策略,即对于训练数据基于两个模型进行合作训练,生成数据合作处理模型,然后再对于待处理数据进行合作处理,得到数据合作处理结果。该技术方案能够综合不同模型的优点,既能够保证异常操作识别的有效性、提高异常操作的识别准确率,还能够提高异常操作识别的灵活性,进而能够避免操作主体产生损失,维护市场的健康发展。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明实施例。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本发明实施例的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本发明一实施方式的数据合作处理方法的流程图;
图2示出根据图1所示实施方式的数据合作处理方法的步骤S102的流程图;
图3示出根据图1所示另一实施方式的数据合作处理方法的步骤S102的流程图;
图4示出根据图1所示实施方式的数据合作处理方法的步骤S103的流程图;
图5示出根据本发明另一实施方式的数据合作处理方法的流程图;
图6示出根据本发明一实施方式的数据合作处理装置的结构框图;
图7示出根据图6所示实施方式的数据合作处理装置的第一合作训练模块602的结构框图;
图8示出根据图6所示另一实施方式的数据合作处理装置的第一合作训练模块602的结构框图;
图9示出根据图6所示实施方式的数据合作处理装置的合作处理模块603的结构框图;
图10示出根据本发明另一实施方式的数据合作处理装置的结构框图;
图11示出根据本发明一实施方式的非法交易数据识别方法的流程图;
图12示出根据本发明一实施方式的非法交易数据识别装置的结构框图;
图13示出根据本发明一实施方式的电子设备的结构框图;
图14是适于用来实现根据本发明上述实施方式所述方法的计算机系统的结构示意图。
具体实施方式
下文中,将参考附图详细描述本发明实施例的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本发明实施例中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明实施例。
本发明实施例提供的技术方案提出合作训练的策略,即对于训练数据基于两个模型进行合作训练,生成数据合作处理模型,然后再对于待处理数据进行合作处理,得到数据合作处理结果。该技术方案能够综合不同模型的优点,既能够保证异常操作识别的有效性、提高异常操作的识别准确率,还能够提高异常操作识别的灵活性,进而能够避免操作主体产生损失,维护市场的健康发展。
图1示出根据本发明一实施方式的数据合作处理方法的流程图,如图1所示,所述数据合作处理方法包括以下步骤S101-S103:
在步骤S101中,获取训练数据,其中,所述训练数据包括带有标签的第一训练数据和不带标签的第二训练数据;
在步骤S102中,根据所述训练数据进行合作训练,得到数据合作处理模型;
在步骤S103中,获取待处理数据,并利用所述数据合作处理模型对于所述待处理数据进行合作处理,得到数据合作处理结果。
上文提及,随着互联网技术的发展,越来越多的商家或者服务提供商通过互联网平台来为用户提供服务,为了获取更多的用户交易数据,创造更多的利润,很多商家、服务提供商或者中间机构都会开展丰富的优惠活动,但在活动开展过程中,出现了一些异常或非法行为,比如,有些用户频繁恶意刷单、有些商家作弊比如联合用户或者伪装成用户多次下单等等,这些异常行为严重扰乱了市场秩序,给操作主体带来了巨大的损失,不利于市场的健康发展。现有技术方案又存在各种缺点,因此,对于异常交易,急需一种有效的、能够提高异常交易识别率的方案。
考虑到上述问题,在该实施方式中,提出一种合作训练的策略,即对于训练数据基于两个模型进行合作训练,生成数据合作处理模型,然后再对于待处理数据进行合作处理,得到数据合作处理结果。该技术方案能够综合不同模型的优点,既能够保证异常操作识别的有效性、提高异常操作的识别准确率,还能够提高异常操作识别的灵活性,进而能够避免操作主体产生损失,维护市场的健康发展。
在本实施例的一个可选实现方式中,所述训练数据与数据合作处理的目的有关,比如,对于异常交易操作识别,所述训练数据可以是用户在预设历史时间段内的历史交易操作数据。其中,所述操作数据可包括以下信息中的一种或多种:用户等操作方标识信息、操作对象信息、操作对象从属方标识信息、操作发生时间、操作内容信息等等,其中,所述操作方标识信息用于对于操作方的身份进行唯一性地标识;所述操作对象信息用于对于操作对象进行唯一性地标识;所述操作对象从属方标识信息用于对于操作对象的从属方的身份进行唯一性地标识,所述从属方指的是对于操作对象具有从属关系的一方,比如,当操作对象为产品时,其从属方就是该产品的提供方或者生产方,当操作对象为服务时,其从属方就是该服务的提供方;所述操作内容信息比如可以为下单、交易、购买等操作名称、该操作所涉及的金额、该操作所享受的优惠金额等信息。当然,对于其他目的的数据合作处理,所述训练数据可选为能够体现该数据合作处理的特点、能够提炼出该数据合作处理所需的数据元素的数据,本领域技术人员可根据实际应用的需要进行选择,本发明对其不作具体限定。
在本实施例的一个可选实现方式中,所述预设历史时间段可根据实际应用的需要以及训练数据的特点进行设置,本发明对其不作具体限定。
在本实施例的一个可选实现方式中,所述训练数据包括带有标签的第一训练数据和不带标签的第二训练数据。在实际应用产生的数据中,有些数据带有标签,有些数据不带标签,比如,对于用户历史交易操作数据,由于人工添加标签需要的工作量比较大,因此有些交易操作数据已被添加上异常交易的标签,而有些却没有,在该实现方式中,考虑到数据的全面性,无论是否带有标签,均作为训练数据来使用。
在本实施例的一个可选实现方式中,所述合作训练指的是利用两个不同的训练模型进行合作反馈训练,以提升数据训练的无偏性,具体的合作训练过程将在下文中进行详细描述。
在本实施例的一个可选实现方式中,如图2所示,所述步骤S102,即根据所述训练数据进行合作训练,得到数据合作处理模型的步骤,包括以下步骤S201-S204:
在步骤S201中,基于所述第一训练数据进行训练,得到第一数据合作处理子模型;
在步骤S202中,将所述第二训练数据输入至所述第一数据合作处理子模型中,得到所述第二训练数据的初始标签;
在步骤S203中,基于所述第一训练数据和带有初始标签的第二训练数据,利用第二数据合作处理子模型对于所述第二训练数据的初始标签进行更新,得到所述第二训练数据的目标标签;
在步骤S204中,基于所述第一训练数据和带有目标标签的第二训练数据,对于所述第一数据合作处理子模型进行再训练,将再训练得到的模型确定为所述数据合作处理模型。
为了能够提升数据训练的无偏性,提高数据合作处理结果的准确性,在该实现方式中,对于所述训练数据进行合作训练,以得到数据合作处理模型,具体地:
首先基于所述第一训练数据进行训练,得到第一数据合作处理子模型,然后将所述第二训练数据输入至所述第一数据合作处理子模型中,得到所述第二训练数据的初始标签。上文提及,在实际应用产生的训练数据中,有些数据带有标签,有些数据不带标签,而该实现方式中所使用的训练数据既包括带有标签的第一训练数据,也包括不带标签的第二训练数据,为了为不带标签的第二训练数据添加上合适的标签,得到完整的训练数据,首先基于带有标签的第一训练数据进行模型训练,得到第一数据合作处理子模型,再利用得到的第一数据合作处理子模型对于不带标签的第二训练数据进行标签预测,得到第二训练数据的初始标签。
然后基于带有真实的标签的第一训练数据和带有预测的初始标签的第二训练数据,利用第二数据合作处理子模型对于所述第二训练数据的初始标签进行更新,得到所述第二训练数据的较为稳定的目标标签。
最后基于所述带有真实的标签的第一训练数据和带有稳定的目标标签的第二训练数据,对于所述第一数据合作处理子模型进行再训练,直至模型收敛,将经过所述再训练得到的模型确定为最终对于待处理数据进行合作处理的数据合作处理模型。
也就是说,在该实施方式中,第二数据合作处理子模型将具有真实标签的样本作为种子,将具有第一数据合作处理子模型预测标签的样本作为带有先验知识的数据,对于第二数据合作处理子模型进行训练和优化,待到第二数据合作处理子模型收敛后,基于具有真实标签的样本以及优化得到的具有相对稳定或者说相对真实标签的样本一并对于第一数据合作处理子模型进行训练,进而得到数据合作处理模型。这样能够充分利用第一数据合作处理子模型和第二数据合作处理子模型的优点,使其相互作用相互加强,从而既能够更有效、更灵活地利用无真实标签的样本信息,更好地学习样本的真实分布,又能够利用丰富的人工经验知识,通过人工经验知识指导模型的训练和优化,以进一步提高数据识别的准确性。
在本实施例的一个可选实现方式中,所述第一数据合作处理子模型可以为调和器模型、SVM模型、GDBT模型、xgboost模型等模型,所述第二数据合作处理子模型比如可以为生成器模型等模型,本领域技术人员可根据实际应用的需要以及训练数据的特点选择合适的模型,本发明对其不作具体限定。
在本实施例的一个可选实现方式中,所述第二数据合作处理子模型也可仅基于第一数据合作处理子模型的输出,即带有初始标签的第二训练数据进行训练,此时,所述步骤S203,即基于所述第一训练数据和带有初始标签的第二训练数据,利用第二数据合作处理子模型对于所述第二训练数据的初始标签进行更新,得到所述第二训练数据的目标标签的步骤,可实施为:
基于带有初始标签的第二训练数据,利用第二数据合作处理子模型对于所述第二训练数据的初始标签进行更新,得到所述第二训练数据的目标标签。
在本实施例的一个可选实现方式中,所述步骤S201,即基于所述第一训练数据进行训练,得到第一数据合作处理子模型的步骤之前,还包括根据训练数据生成数据网络的步骤,在该实现方式中,所述步骤S203,即基于所述第一训练数据和带有初始标签的第二训练数据,利用第二数据合作处理子模型对于所述第二训练数据的初始标签进行更新,得到所述第二训练数据的目标标签的步骤可实施为:利用所述第一训练数据和带有初始标签的第二训练数据对于所述数据网络进行初始化,为所述数据节点设置标签;利用第二数据合作处理子模型对于所述第二训练数据对应的数据节点的初始标签进行传输迭代更新,得到所述第二训练数据的目标标签。即如图3所示,所述步骤S102,即根据所述训练数据进行合作训练,得到数据合作处理模型的步骤,包括以下步骤S301-S305:
在步骤S301中,根据所述训练数据生成数据网络,其中,将所述训练数据作为所述数据网络中的数据节点,根据所述训练数据之间的关系生成连接节点之间的边;
在步骤S302中,基于所述第一训练数据进行训练,得到第一数据合作处理子模型;
在步骤S303中,将所述第二训练数据输入至所述第一数据合作处理子模型中,得到所述第二训练数据的初始标签;
在步骤S304中,利用所述第一训练数据和带有初始标签的第二训练数据对于所述数据网络进行初始化,为所述数据节点设置标签,利用第二数据合作处理子模型对于所述第二训练数据对应的数据节点的初始标签进行传输迭代更新,得到所述第二训练数据的目标标签;
在步骤S305中,基于所述第一训练数据和带有目标标签的第二训练数据,对于所述第一数据合作处理子模型进行再训练,将再训练得到的模型确定为所述数据合作处理模型。
为了实现对于第二训练数据的初始标签的传输迭代更新,在该实现方式中,首先基于所述训练数据及其之间的关系构建数据网格,其中,所述训练数据可作为所述数据网络中的数据节点,所述训练数据之间的关系可生成连接节点之间的边,比如:对于交易操作数据来说,交易操作为数据节点,那么相同的商品对应的交易操作之间应存在连接节点的边,相同的买家对应的交易操作之间也应存在连接节点的边,另外,还可计算不同交易操作之间的相似性,具有一定相似性的交易操作之间存在连接节点的边。
然后利用具有真实标签的第一训练数据和第一数据合作处理子模型预测得到第二训练数据的标签,并利用所述具有真实标签的第一训练数据和具有预测得到的初始标签的第二训练数据对于所述数据网络进行初始化,为所述数据网络中所有的数据节点均设置上标签,然后基于传播算法利用第二数据合作处理子模型对于所述第二训练数据对应的数据节点的初始标签进行传输迭代更新,直至所述第二数据合作处理子模型收敛,得到所述第二训练数据的目标标签。
在本实施例的一个可选实现方式中,所述第一数据合作处理子模型为Deep&Wide模型,其中,所述Deep&Wide模型包括深度子模型和广度子模型。
在本实施例的一个可选实现方式中,所述深度子模型可采用多层前馈神经网络模型,其输入特征可包括分类特征、嵌入类特征(比如用户、商品的嵌入特征)、连续特征等特征。其中,所述分类特征通常包含多种类别,表现为一种高维分类特征,对于所述高维分类特征,可先将其转换为一个低维且密集的实数向量再进行处理。另外,所述输入特征在输入之前可先进行随机初始化处理,以将其初始化到一个预设的数量级,再输入至神经网络模型的隐层中去,其中,所述随机初始化处理可以是均匀随机初始化也可以是正态分布均匀随机初始化,本领域技术人员可根据实际应用的需要进行选择。其中,所述深度子模型在训练过程中可借助最小化损失函数来进行优化模型。
在本实施例的一个可选实现方式中,所述广度子模型用于记忆重要特征,学习样本中特征的共现性,其输入特征可包括二值特征、维度较低的离散特征、离散特征的交叉组合等特征。为了达到记忆的目的,在该实现方式中,对于稀疏的特征采用cross-producttransformation处理方式进行处理,cross-product transformation指的是:对于由多个二值特征组合成的混合特征,当且仅当每个特征都取值为1时,混合特征才取值为1,否则混合特征取值为0,比如对于“AND(gender=female,language=en)”这个特征,当且仅当这个用户的性别为female,语言为en的时候,这个特征值才为1,其他情况都为0。该操作能够增加二值特征之间的相互作用,并且为线性模型增加了非线性因素。
最终,所述深度子模型和广度子模型的输出拼接输入到逻辑回归分类器中,以通过反向传播算法进行模型参数的更新。
在本实施例的一个可选实现方式中,如图4所示,所述步骤S103,即获取待处理数据,并利用所述数据合作处理模型对于所述待处理数据进行合作处理,得到数据合作处理结果的步骤,包括以下步骤S401-S402:
在步骤S401中,获取待处理数据;
在步骤S402中,将所述待处理数据输入至所述数据合作处理模型中,得到数据合作处理结果。
在获得经由两个模型互相作用得到的数据合作处理模型后,可将待处理数据输入至所述数据合作处理模型中,得到数据合作处理结果。对于异常交易操作识别来说,将待识别的交易操作数据输入至所述数据合作处理模型中,即可得到该交易操作是否为异常交易的识别结果。
在本实施例的一个可选实现方式中,所述方法还可包括根据所述数据合作处理结果执行以下至少一项:操作权限设置、交易权限设置、操作引导、交易引导、操作流量限制、交易流量限制、异常操作识别、异常操作控制的步骤,即如图5所示,所述方法包括以下步骤S501-S504:
在步骤S501中,获取训练数据,其中,所述训练数据包括带有标签的第一训练数据和不带标签的第二训练数据;
在步骤S502中,根据所述训练数据进行合作训练,得到数据合作处理模型;
在步骤S503中,获取待处理数据,并利用所述数据合作处理模型对于所述待处理数据进行合作处理,得到数据合作处理结果;
在步骤S504中,根据所述数据合作处理结果执行以下至少一项:操作权限设置、交易权限设置、操作引导、交易引导、操作流量限制、交易流量限制、异常操作识别、异常操作控制。
在获得数据合作处理结果后,可根据数据合作处理结果执行相应的管理或控制操作,比如,操作权限设置、交易权限设置、操作引导、交易引导、操作流量限制、交易流量限制、异常操作识别、异常操作控制等等,当然也可根据实际应用的需要进行其他管理或控制操作,本发明对其不作具体限定。其中,操作权限设置指的是对于出现异常交易的用户进行操作权限的限制,交易权限设置指的是对于出现异常交易的用户进行交易权限的限制,操作引导指的是对于用户进行非异常操作的引导,交易引导指的是对于用户进行非异常交易的引导,操作流量限制指的是对于出现异常交易的用户进行操作流量的限制,交易流量限制指的是对于出现异常交易的用户进行交易流量的限制,异常操作控制指的是对于识别出的异常操作进行拦截、检查等控制。
下述为本发明装置实施例,可以用于执行本发明方法实施例。
图6示出根据本发明一实施方式的数据合作处理装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图6所示,所述数据合作处理装置包括:
第一获取模块601,被配置为获取训练数据,其中,所述训练数据包括带有标签的第一训练数据和不带标签的第二训练数据;
第一合作训练模块602,被配置为根据所述训练数据进行合作训练,得到数据合作处理模型;
合作处理模块603,被配置为获取待处理数据,并利用所述数据合作处理模型对于所述待处理数据进行合作处理,得到数据合作处理结果。
上文提及,随着互联网技术的发展,越来越多的商家或者服务提供商通过互联网平台来为用户提供服务,为了获取更多的用户交易数据,创造更多的利润,很多商家、服务提供商或者中间机构都会开展丰富的优惠活动,但在活动开展过程中,出现了一些异常或非法行为,比如,有些用户频繁恶意刷单、有些商家作弊比如联合用户或者伪装成用户多次下单等等,这些异常行为严重扰乱了市场秩序,给操作主体带来了巨大的损失,不利于市场的健康发展。现有技术方案又存在各种缺点,因此,对于异常交易,急需一种有效的、能够提高异常交易识别率的方案。
考虑到上述问题,在该实施方式中,提出一种合作训练的策略,即对于训练数据基于两个模型进行合作训练,生成数据合作处理模型,然后再对于待处理数据进行合作处理,得到数据合作处理结果。该技术方案能够综合不同模型的优点,既能够保证异常操作识别的有效性、提高异常操作的识别准确率,还能够提高异常操作识别的灵活性,进而能够避免操作主体产生损失,维护市场的健康发展。
在本实施例的一个可选实现方式中,所述训练数据与数据合作处理的目的有关,比如,对于异常交易操作识别,所述训练数据可以是用户在预设历史时间段内的历史交易操作数据。其中,所述操作数据可包括以下信息中的一种或多种:用户等操作方标识信息、操作对象信息、操作对象从属方标识信息、操作发生时间、操作内容信息等等,其中,所述操作方标识信息用于对于操作方的身份进行唯一性地标识;所述操作对象信息用于对于操作对象进行唯一性地标识;所述操作对象从属方标识信息用于对于操作对象的从属方的身份进行唯一性地标识,所述从属方指的是对于操作对象具有从属关系的一方,比如,当操作对象为产品时,其从属方就是该产品的提供方或者生产方,当操作对象为服务时,其从属方就是该服务的提供方;所述操作内容信息比如可以为下单、交易、购买等操作名称、该操作所涉及的金额、该操作所享受的优惠金额等信息。当然,对于其他目的的数据合作处理,所述训练数据可选为能够体现该数据合作处理的特点、能够提炼出该数据合作处理所需的数据元素的数据,本领域技术人员可根据实际应用的需要进行选择,本发明对其不作具体限定。
在本实施例的一个可选实现方式中,所述预设历史时间段可根据实际应用的需要以及训练数据的特点进行设置,本发明对其不作具体限定。
在本实施例的一个可选实现方式中,所述训练数据包括带有标签的第一训练数据和不带标签的第二训练数据。在实际应用产生的数据中,有些数据带有标签,有些数据不带标签,比如,对于用户历史交易操作数据,由于人工添加标签需要的工作量比较大,因此有些交易操作数据已被添加上异常交易的标签,而有些却没有,在该实现方式中,考虑到数据的全面性,无论是否带有标签,均作为训练数据来使用。
在本实施例的一个可选实现方式中,所述合作训练指的是利用两个不同的训练模型进行合作反馈训练,以提升数据训练的无偏性,具体的合作训练过程将在下文中进行详细描述。
在本实施例的一个可选实现方式中,如图7所示,所述第一合作训练模块602包括:
训练子模块701,被配置为基于所述第一训练数据进行训练,得到第一数据合作处理子模型;
第一输入子模块702,被配置为将所述第二训练数据输入至所述第一数据合作处理子模型中,得到所述第二训练数据的初始标签;
更新子模块703,被配置为基于所述第一训练数据和带有初始标签的第二训练数据,利用第二数据合作处理子模型对于所述第二训练数据的初始标签进行更新,得到所述第二训练数据的目标标签;
再训练子模块704,被配置为基于所述第一训练数据和带有目标标签的第二训练数据,对于所述第一数据合作处理子模型进行再训练,将再训练得到的模型确定为所述数据合作处理模型。
为了能够提升数据训练的无偏性,提高数据合作处理结果的准确性,在该实现方式中,所述第一合作训练模块602对于所述训练数据进行合作训练,以得到数据合作处理模型,具体地:
训练子模块701基于所述第一训练数据进行训练,得到第一数据合作处理子模型,第一输入子模块702将所述第二训练数据输入至所述第一数据合作处理子模型中,得到所述第二训练数据的初始标签。上文提及,在实际应用产生的训练数据中,有些数据带有标签,有些数据不带标签,而该实现方式中所使用的训练数据既包括带有标签的第一训练数据,也包括不带标签的第二训练数据,为了为不带标签的第二训练数据添加上合适的标签,得到完整的训练数据,首先基于带有标签的第一训练数据进行模型训练,得到第一数据合作处理子模型,再利用得到的第一数据合作处理子模型对于不带标签的第二训练数据进行标签预测,得到第二训练数据的初始标签。
更新子模块703基于带有真实的标签的第一训练数据和带有预测的初始标签的第二训练数据,利用第二数据合作处理子模型对于所述第二训练数据的初始标签进行更新,得到所述第二训练数据的较为稳定的目标标签。
再训练子模块704基于所述带有真实的标签的第一训练数据和带有稳定的目标标签的第二训练数据,对于所述第一数据合作处理子模型进行再训练,直至模型收敛,将经过所述再训练得到的模型确定为最终对于待处理数据进行合作处理的数据合作处理模型。
也就是说,在该实施方式中,第二数据合作处理子模型将具有真实标签的样本作为种子,将具有第一数据合作处理子模型预测标签的样本作为带有先验知识的数据,对于第二数据合作处理子模型进行训练和优化,待到第二数据合作处理子模型收敛后,基于具有真实标签的样本以及优化得到的具有相对稳定或者说相对真实标签的样本一并对于第一数据合作处理子模型进行训练,进而得到数据合作处理模型。这样能够充分利用第一数据合作处理子模型和第二数据合作处理子模型的优点,使其相互作用相互加强,从而既能够更有效、更灵活地利用无真实标签的样本信息,更好地学习样本的真实分布,又能够利用丰富的人工经验知识,通过人工经验知识指导模型的训练和优化,以进一步提高数据识别的准确性。
在本实施例的一个可选实现方式中,所述第一数据合作处理子模型可以为调和器模型、SVM模型、GDBT模型、xgboost模型等模型,所述第二数据合作处理子模型比如可以为生成器模型等模型,本领域技术人员可根据实际应用的需要以及训练数据的特点选择合适的模型,本发明对其不作具体限定。
在本实施例的一个可选实现方式中,所述第二数据合作处理子模型也可仅基于第一数据合作处理子模型的输出,即带有初始标签的第二训练数据进行训练,此时,所述更新子模块703可被配置为:
基于带有初始标签的第二训练数据,利用第二数据合作处理子模型对于所述第二训练数据的初始标签进行更新,得到所述第二训练数据的目标标签。
在本实施例的一个可选实现方式中,所述训练子模块701之前,还包括根据训练数据生成数据网络的部分,在该实现方式中,所述更新子模块703可被配置为:利用所述第一训练数据和带有初始标签的第二训练数据对于所述数据网络进行初始化,为所述数据节点设置标签;利用第二数据合作处理子模型对于所述第二训练数据对应的数据节点的初始标签进行传输迭代更新,得到所述第二训练数据的目标标签。即如图8所示,所述第一合作训练模块602包括:
生成子模块801,被配置为根据所述训练数据生成数据网络,其中,将所述训练数据作为所述数据网络中的数据节点,根据所述训练数据之间的关系生成连接节点之间的边;
训练子模块802,被配置为基于所述第一训练数据进行训练,得到第一数据合作处理子模型;
第一输入子模块803,被配置为将所述第二训练数据输入至所述第一数据合作处理子模型中,得到所述第二训练数据的初始标签;
更新子模块804,被配置为基于所述第一训练数据和带有初始标签的第二训练数据,利用第二数据合作处理子模型对于所述第二训练数据的初始标签进行更新,得到所述第二训练数据的目标标签;
再训练子模块805,被配置为基于所述第一训练数据和带有目标标签的第二训练数据,对于所述第一数据合作处理子模型进行再训练,将再训练得到的模型确定为所述数据合作处理模型。
为了实现对于第二训练数据的初始标签的传输迭代更新,在该实现方式中,生成子模块801基于所述训练数据及其之间的关系构建数据网格,其中,所述训练数据可作为所述数据网络中的数据节点,所述训练数据之间的关系可生成连接节点之间的边,比如:对于交易操作数据来说,交易操作为数据节点,那么相同的商品对应的交易操作之间应存在连接节点的边,相同的买家对应的交易操作之间也应存在连接节点的边,另外,还可计算不同交易操作之间的相似性,具有一定相似性的交易操作之间存在连接节点的边。
训练子模块802和第一输入子模块803利用具有真实标签的第一训练数据和第一数据合作处理子模型预测得到第二训练数据的标签,并利用所述具有真实标签的第一训练数据和具有预测得到的初始标签的第二训练数据对于所述数据网络进行初始化,为所述数据网络中所有的数据节点均设置上标签,更新子模块804基于传播算法利用第二数据合作处理子模型对于所述第二训练数据对应的数据节点的初始标签进行传输迭代更新,直至所述第二数据合作处理子模型收敛,得到所述第二训练数据的目标标签。
在本实施例的一个可选实现方式中,所述第一数据合作处理子模型为Deep&Wide模型,其中,所述Deep&Wide模型包括深度子模型和广度子模型。
在本实施例的一个可选实现方式中,所述深度子模型可采用多层前馈神经网络模型,其输入特征可包括分类特征、嵌入类特征(比如用户、商品的嵌入特征)、连续特征等特征。其中,所述分类特征通常包含多种类别,表现为一种高维分类特征,对于所述高维分类特征,可先将其转换为一个低维且密集的实数向量再进行处理。另外,所述输入特征在输入之前可先进行随机初始化处理,以将其初始化到一个预设的数量级,再输入至神经网络模型的隐层中去,其中,所述随机初始化处理可以是均匀随机初始化也可以是正态分布均匀随机初始化,本领域技术人员可根据实际应用的需要进行选择。其中,所述深度子模型在训练过程中可借助最小化损失函数来进行优化模型。
在本实施例的一个可选实现方式中,所述广度子模型用于记忆重要特征,学习样本中特征的共现性,其输入特征可包括二值特征、维度较低的离散特征、离散特征的交叉组合等特征。为了达到记忆的目的,在该实现方式中,对于稀疏的特征采用cross-producttransformation处理方式进行处理,cross-product transformation指的是:对于由多个二值特征组合成的混合特征,当且仅当每个特征都取值为1时,混合特征才取值为1,否则混合特征取值为0,比如对于“AND(gender=female,language=en)”这个特征,当且仅当这个用户的性别为female,语言为en的时候,这个特征值才为1,其他情况都为0。该操作能够增加二值特征之间的相互作用,并且为线性模型增加了非线性因素。
最终,所述深度子模型和广度子模型的输出拼接输入到逻辑回归分类器中,以通过反向传播算法进行模型参数的更新。
在本实施例的一个可选实现方式中,如图9所示,所述合作处理模块603包括:
获取子模块901,被配置为获取待处理数据;
第二输入子模块902,被配置为将所述待处理数据输入至所述数据合作处理模型中,得到数据合作处理结果。
在获得经由两个模型互相作用得到的数据合作处理模型后,第二输入子模块902可将获取子模块901获取的待处理数据输入至所述数据合作处理模型中,得到数据合作处理结果。对于异常交易操作识别来说,将待识别的交易操作数据输入至所述数据合作处理模型中,即可得到该交易操作是否为异常交易的识别结果。
在本实施例的一个可选实现方式中,所述装置还可包括根据所述数据合作处理结果执行以下至少一项:操作权限设置、交易权限设置、操作引导、交易引导、操作流量限制、交易流量限制、异常操作识别、异常操作控制的步骤,即如图10所示,所述装置包括:
获取模块1001,被配置为获取训练数据,其中,所述训练数据包括带有标签的第一训练数据和不带标签的第二训练数据;
合作训练模块1002,被配置为根据所述训练数据进行合作训练,得到数据合作处理模型;
合作处理模块1003,被配置为获取待处理数据,并利用所述数据合作处理模型对于所述待处理数据进行合作处理,得到数据合作处理结果
执行模块1004,被配置为根据所述数据合作处理结果执行以下至少一项:
操作权限设置、交易权限设置、操作引导、交易引导、操作流量限制、交易流量限制、异常操作控制。
在获得数据合作处理结果后,执行模块1004可根据数据合作处理结果执行相应的管理或控制操作,比如,操作权限设置、交易权限设置、操作引导、交易引导、操作流量限制、交易流量限制、异常操作识别、异常操作控制等等,当然也可根据实际应用的需要进行其他管理或控制操作,本发明对其不作具体限定。其中,操作权限设置指的是对于出现异常交易的用户进行操作权限的限制,交易权限设置指的是对于出现异常交易的用户进行交易权限的限制,操作引导指的是对于用户进行非异常操作的引导,交易引导指的是对于用户进行非异常交易的引导,操作流量限制指的是对于出现异常交易的用户进行操作流量的限制,交易流量限制指的是对于出现异常交易的用户进行交易流量的限制,异常操作控制指的是对于识别出的异常操作进行拦截、检查等控制。
下面给出一个应用场景,结合所述应用场景能够更好地理解本公开的技术方案。
在该应用场景中,对于非法交易数据进行识别,首先,获取训练交易数据,其中,所述训练交易数据为用户在预设历史时间段内的历史交易操作数据,其既包括带有标签的第一训练交易数据,也包括不带标签的第二训练交易数据。
然后,根据所述训练交易数据进行合作训练,得到非法交易数据合作识别模型,具体地,首先基于带有标签的第一训练交易数据进行训练,得到第一非法交易数据合作识别子模型,比如调和器模型、SVM模型、GDBT模型、xgboost模型等模型,然后将不带标签的第二训练交易数据输入至所述第一非法交易数据合作识别子模型中,得到所述第二训练交易数据的初始标签;然后基于带有真实标签的第一训练交易数据和带有预测得到的初始标签的第二训练交易数据,利用第二非法交易数据合作识别子模型对于所述第二训练交易数据的初始标签进行更新,得到所述第二训练交易数据的较为稳定的目标标签,其中,所述第二非法交易数据合作识别子模型比如可以为生成器模型等模型;然后基于带有真实的标签的第一训练交易数据和带有稳定的目标标签的第二训练交易数据,对于所述第一非法交易数据合作识别子模型进行再训练,直至模型收敛,将经过所述再训练得到的模型确定为最终对于待处理数据进行合作处理的非法交易数据合作识别模型,这样利用两个不同的训练模型进行合作反馈训练,可以提升数据训练的无偏性。
最后,获取待处理交易数据,将所述待处理交易数据输入至所述非法交易数据合作识别模型中,利用所述非法交易数据合作识别模型对于所述待处理交易数据进行非法交易数据合作识别,得到非法交易数据合作识别结果。
即如图11所示,在该应用场景下,所述非法交易数据识别方法包括以下步骤S1101-S1103:
在步骤S1101中,获取训练交易数据,其中,所述训练交易数据包括带有标签的第一训练交易数据和不带标签的第二训练交易数据;
在步骤S1102中,根据所述训练交易数据进行合作训练,得到非法交易数据合作识别模型;
在步骤S1103中,获取待处理交易数据,并利用所述非法交易数据合作识别模型对于所述待处理交易数据进行非法交易数据合作识别,得到非法交易数据合作识别结果。
在本实施例的一个可选实现方式中,所述步骤S1102,即根据所述训练交易数据进行合作训练,得到非法交易数据合作识别模型的步骤,可被实施为:
基于所述第一训练交易数据进行训练,得到第一非法交易数据合作识别子模型;
将所述第二训练交易数据输入至所述第一非法交易数据合作识别子模型中,得到所述第二训练交易数据的初始标签;
基于所述第一训练交易数据和带有初始标签的第二训练交易数据,利用第二非法交易数据合作识别子模型对于所述第二训练交易数据的初始标签进行更新,得到所述第二训练交易数据的目标标签;
基于所述第一训练交易数据和带有目标标签的第二训练交易数据,对于所述第一非法交易数据合作识别子模型进行再训练,将再训练得到的模型确定为所述非法交易数据合作识别模型。
在本实施例的一个可选实现方式中,所述基于所述第一训练交易数据进行训练,得到第一非法交易数据合作识别子模型之前,包括:
根据所述训练交易数据生成交易数据网络,其中,将所述训练交易数据作为所述交易数据网络中的交易数据节点,根据所述训练交易数据之间的关系生成连接节点之间的边。
在本实施例的一个可选实现方式中,所述基于所述第一训练交易数据和带有初始标签的第二训练交易数据,利用第二非法交易数据合作识别子模型对于所述第二训练交易数据的初始标签进行更新,得到所述第二训练交易数据的目标标签,被实施为:
利用所述第一训练交易数据和带有初始标签的第二训练交易数据对于所述交易数据网络进行初始化,为所述交易数据节点设置标签;
利用第二非法交易数据合作识别子模型对于所述第二训练交易数据对应的交易数据节点的初始标签进行传输迭代更新,得到所述第二训练交易数据的目标标签。
在本实施例的一个可选实现方式中,所述第一非法交易数据合作识别子模型为Deep&Wide模型,其中,所述Deep&Wide模型包括深度子模型和广度子模型。
在本实施例的一个可选实现方式中,所述获取待处理交易数据,并利用所述非法交易数据合作识别模型对于所述待处理交易数据进行非法交易数据合作识别,得到非法交易数据合作识别结果,包括:
获取待处理交易数据;
将所述待处理交易数据输入至所述非法交易数据合作识别模型中,得到非法交易数据合作识别结果。
相应地,如图12所示,在该应用场景下,执行所述非法交易数据识别方法的所述非法交易数据识别装置包括:
第二获取模块1201,被配置为获取训练交易数据,其中,所述训练交易数据包括带有标签的第一训练交易数据和不带标签的第二训练交易数据;
第二合作训练模块1202,被配置为根据所述训练交易数据进行合作训练,得到非法交易数据合作识别模型;
合作识别模块1203,被配置为获取待处理交易数据,并利用所述非法交易数据合作识别模型对于所述待处理交易数据进行非法交易数据合作识别,得到非法交易数据合作识别结果。
在本实施例的一个可选实现方式中,所述第二合作训练模块1202可被配置为:
基于所述第一训练交易数据进行训练,得到第一非法交易数据合作识别子模型;
将所述第二训练交易数据输入至所述第一非法交易数据合作识别子模型中,得到所述第二训练交易数据的初始标签;
基于所述第一训练交易数据和带有初始标签的第二训练交易数据,利用第二非法交易数据合作识别子模型对于所述第二训练交易数据的初始标签进行更新,得到所述第二训练交易数据的目标标签;
基于所述第一训练交易数据和带有目标标签的第二训练交易数据,对于所述第一非法交易数据合作识别子模型进行再训练,将再训练得到的模型确定为所述非法交易数据合作识别模型。
在本实施例的一个可选实现方式中,所述第二合作训练模块1202在基于所述第一训练交易数据进行训练,得到第一非法交易数据合作识别子模型之前,还被配置为:
根据所述训练交易数据生成交易数据网络,其中,将所述训练交易数据作为所述交易数据网络中的交易数据节点,根据所述训练交易数据之间的关系生成连接节点之间的边。
在本实施例的一个可选实现方式中,所述基于所述第一训练交易数据和带有初始标签的第二训练交易数据,利用第二非法交易数据合作识别子模型对于所述第二训练交易数据的初始标签进行更新,得到所述第二训练交易数据的目标标签,被实施为:
利用所述第一训练交易数据和带有初始标签的第二训练交易数据对于所述交易数据网络进行初始化,为所述交易数据节点设置标签;
利用第二非法交易数据合作识别子模型对于所述第二训练交易数据对应的交易数据节点的初始标签进行传输迭代更新,得到所述第二训练交易数据的目标标签。
在本实施例的一个可选实现方式中,所述第一非法交易数据合作识别子模型为Deep&Wide模型,其中,所述Deep&Wide模型包括深度子模型和广度子模型。
在本实施例的一个可选实现方式中,所述合作识别模块1203被配置为:
获取待处理交易数据;
将所述待处理交易数据输入至所述非法交易数据合作识别模型中,得到非法交易数据合作识别结果。
需要说明的是,上文图11和图12所示所有实施方式中所涉及到的部分技术术语或技术特征与上文所示相应实施方式提及的技术术语或技术特征存在相同或相似,相关的解释和描述均可参考上文所示实施方式的描述,本发明在此不再赘述。
本发明实施例还公开了一种电子设备,图13示出根据本发明一实施方式的电子设备的结构框图,如图13所示,所述电子设备1300包括存储器1301和处理器1302;其中,
所述存储器1301用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器1302执行以实现上述任一方法步骤。
图14适于用来实现根据本发明实施方式的上述任一方法的计算机系统的结构示意图。
如图14所示,计算机系统1400包括中央处理单元(CPU)1401,其可以根据存储在只读存储器(ROM)1402中的程序或者从存储部分1408加载到随机访问存储器(RAM)1403中的程序而执行上述实施方式中的各种处理。在RAM1403中,还存储有系统1400操作所需的各种程序和数据。CPU1401、ROM1402以及RAM1403通过总线1404彼此相连。输入/输出(I/O)接口1405也连接至总线1404。
以下部件连接至I/O接口1405:包括键盘、鼠标等的输入部分1406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1407;包括硬盘等的存储部分1408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1409。通信部分1409经由诸如因特网的网络执行通信处理。驱动器1410也根据需要连接至I/O接口1405。可拆卸介质1411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1410上,以便于从其上读出的计算机程序根据需要被安装入存储部分1408。
特别地,根据本发明的实施方式,上文描述的方法可以被实现为计算机软件程序。例如,本发明的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行所述方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分1409从网络上被下载和安装,和/或从可拆卸介质1411被安装。
附图中的流程图和框图,图示了按照本发明各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本发明实施例的方法。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (14)

1.一种非法交易数据识别方法,其特征在于,包括:
获取训练交易数据,其中,所述训练交易数据包括带有标签的第一训练交易数据和不带标签的第二训练交易数据;
根据所述训练交易数据进行合作训练,得到非法交易数据合作识别模型;
获取待处理交易数据,并利用所述非法交易数据合作识别模型对于所述待处理交易数据进行非法交易数据合作识别,得到非法交易数据合作识别结果;
其中,所述根据所述训练交易数据进行合作训练,得到非法交易数据合作识别模型,包括:
基于所述第一训练交易数据进行训练,得到第一非法交易数据合作识别子模型;
将所述第二训练交易数据输入至所述第一非法交易数据合作识别子模型中,得到所述第二训练交易数据的初始标签;
基于所述第一训练交易数据和带有初始标签的第二训练交易数据,利用第二非法交易数据合作识别子模型对于所述第二训练交易数据的初始标签进行更新,得到所述第二训练交易数据的目标标签;
基于所述第一训练交易数据和带有目标标签的第二训练交易数据,对于所述第一非法交易数据合作识别子模型进行再训练,将再训练得到的模型确定为所述非法交易数据合作识别模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一训练交易数据进行训练,得到所述第一非法交易数据合作识别子模型之前,包括:
根据所述训练交易数据生成数据网络,其中,将所述训练交易数据作为所述数据网络中的数据节点,根据所述训练交易数据之间的关系生成连接节点之间的边。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一训练交易数据和带有初始标签的第二训练交易数据,利用第二非法交易数据合作识别子模型对于所述第二训练交易数据的初始标签进行更新,得到所述第二训练交易数据的目标标签,被实施为:
利用所述第一训练交易数据和带有初始标签的第二训练交易数据对于所述数据网络进行初始化,为所述数据节点设置标签;
利用第二非法交易数据合作识别子模型对于所述第二训练交易数据对应的数据节点的初始标签进行传输迭代更新,得到所述第二训练交易数据的目标标签。
4.根据权利要求1-3任一所述的方法,其特征在于,所述第一非法交易数据合作识别子模型为Deep&Wide模型,其中,所述Deep&Wide模型包括深度子模型和广度子模型。
5.根据权利要求1-3任一所述的方法,其特征在于,所述获取待处理交易数据,并利用所述非法交易数据合作识别模型对于所述待处理交易数据进行合作识别,得到非法交易数据合作识别结果,包括:
获取待处理交易数据;
将所述待处理交易数据输入至所述非法交易数据合作识别模型中,得到非法交易数据合作识别结果。
6.根据权利要求1-3任一所述的方法,其特征在于,还包括:根据所述非法交易数据合作识别结果执行以下至少一项:
操作权限设置、交易权限设置、操作引导、交易引导、操作流量限制、交易流量限制、异常操作控制。
7.一种非法交易数据识别装置,其特征在于,包括:
第二获取模块,被配置为获取训练交易数据,其中,所述训练交易数据包括带有标签的第一训练交易数据和不带标签的第二训练交易数据;
第二合作训练模块,被配置为根据所述训练交易数据进行合作训练,得到非法交易数据合作识别模型;
合作识别模块,被配置为获取待处理交易数据,并利用所述非法交易数据合作识别模型对于所述待处理交易数据进行非法交易数据合作识别,得到非法交易数据合作识别结果;
其中,所述根据所述训练交易数据进行合作训练,得到非法交易数据合作识别模型,包括:
基于所述第一训练交易数据进行训练,得到第一非法交易数据合作识别子模型;
将所述第二训练交易数据输入至所述第一非法交易数据合作识别子模型中,得到所述第二训练交易数据的初始标签;
基于所述第一训练交易数据和带有初始标签的第二训练交易数据,利用第二非法交易数据合作识别子模型对于所述第二训练交易数据的初始标签进行更新,得到所述第二训练交易数据的目标标签;
基于所述第一训练交易数据和带有目标标签的第二训练交易数据,对于所述第一非法交易数据合作识别子模型进行再训练,将再训练得到的模型确定为所述非法交易数据合作识别模型。
8.根据权利要求7所述的装置,其特征在于,所述基于所述第一训练交易数据进行训练,得到第一非法交易数据合作识别子模型之前,还包括:
根据所述训练交易数据生成数据网络,其中,将所述训练交易数据作为所述数据网络中的数据节点,根据所述训练交易数据之间的关系生成连接节点之间的边。
9.根据权利要求8所述的装置,其特征在于,所述基于所述第一训练交易数据和带有初始标签的第二训练交易数据,利用第二非法交易数据合作识别子模型对于所述第二训练交易数据的初始标签进行更新,得到所述第二训练交易数据的目标标签,包括:
利用所述第一训练交易数据和带有初始标签的第二训练交易数据对于所述数据网络进行初始化,为所述数据节点设置标签;
利用第二非法交易数据合作识别子模型对于所述第二训练交易数据对应的数据节点的初始标签进行传输迭代更新,得到所述第二训练交易数据的目标标签。
10.根据权利要求7-9任一所述的装置,其特征在于,所述第一非法交易数据合作识别子模型为Deep&Wide模型,其中,所述Deep&Wide模型包括深度子模型和广度子模型。
11.根据权利要求7-9任一所述的装置,其特征在于,所述合作识别模块包括:
获取子模块,被配置为获取待处理交易数据;
第二输入子模块,被配置为将所述待处理交易数据输入至所述非法交易数据合作识别模型中,得到非法交易数据合作识别结果。
12.根据权利要求7-9任一所述的装置,其特征在于,还包括:
执行模块,被配置为根据所述非法交易数据合作识别结果执行以下至少一项:
操作权限设置、交易权限设置、操作引导、交易引导、操作流量限制、交易流量限制、异常操作控制。
13.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现权利要求1-6任一项所述的方法步骤。
14.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-6任一项所述的方法步骤。
CN201910395527.1A 2019-05-13 2019-05-13 数据合作处理方法、装置、电子设备及计算机存储介质 Active CN111932287B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910395527.1A CN111932287B (zh) 2019-05-13 2019-05-13 数据合作处理方法、装置、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910395527.1A CN111932287B (zh) 2019-05-13 2019-05-13 数据合作处理方法、装置、电子设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN111932287A CN111932287A (zh) 2020-11-13
CN111932287B true CN111932287B (zh) 2022-05-17

Family

ID=73282877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910395527.1A Active CN111932287B (zh) 2019-05-13 2019-05-13 数据合作处理方法、装置、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN111932287B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423762A (zh) * 2017-07-26 2017-12-01 江南大学 基于流形正则化的半监督指纹定位算法
CN108021931A (zh) * 2017-11-20 2018-05-11 阿里巴巴集团控股有限公司 一种数据样本标签处理方法及装置
CN109460795A (zh) * 2018-12-17 2019-03-12 北京三快在线科技有限公司 分类器训练方法、装置、电子设备及计算机可读介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9875736B2 (en) * 2015-02-19 2018-01-23 Microsoft Technology Licensing, Llc Pre-training and/or transfer learning for sequence taggers

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423762A (zh) * 2017-07-26 2017-12-01 江南大学 基于流形正则化的半监督指纹定位算法
CN108021931A (zh) * 2017-11-20 2018-05-11 阿里巴巴集团控股有限公司 一种数据样本标签处理方法及装置
CN109460795A (zh) * 2018-12-17 2019-03-12 北京三快在线科技有限公司 分类器训练方法、装置、电子设备及计算机可读介质

Also Published As

Publication number Publication date
CN111932287A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
US11574201B2 (en) Enhancing evolutionary optimization in uncertain environments by allocating evaluations via multi-armed bandit algorithms
US20170236215A1 (en) User experience using social and financial information
CN110520871A (zh) 训练机器学习模型
US20180253649A1 (en) Method and system for finding a solution to a provided problem by selecting a winner in evolutionary optimization of a genetic algorithm
CN107615275A (zh) 估计用于运行数据挖掘服务的计算资源
CN112348321A (zh) 风险用户的识别方法、装置及电子设备
US20240104159A1 (en) Creating an effective product using an attribute solver
CN111461757B (zh) 信息处理方法及装置、计算机存储介质、电子设备
CN116029273A (zh) 文本处理方法、装置、计算机设备和存储介质
CN111179055A (zh) 授信额度调整方法、装置和电子设备
CN111159241A (zh) 一种点击转化预估方法及装置
US10803256B2 (en) Systems and methods for translation management
US20220027876A1 (en) Consolidating personal bill
CN112508690A (zh) 一种基于联合分布适配的风险评估方法、装置和电子设备
CN111932287B (zh) 数据合作处理方法、装置、电子设备及计算机存储介质
US11195620B2 (en) Progress evaluation of a diagnosis process
US20230009237A1 (en) Multi-dimensional data labeling
CN113568739A (zh) 用户资源额度分配方法、装置及电子设备
US20220067623A1 (en) Evaluate demand and project go-to-market resources
CN114066603A (zh) 贷后风险预警方法、装置、电子设备和计算机可读介质
CN110796262B (zh) 机器学习模型的测试数据优化方法、装置及电子设备
CN110059905B (zh) 风险量化方法、风险识别方法、系统及存储介质
CN114565030B (zh) 特征筛选方法、装置、电子设备和存储介质
CN117349129B (zh) 车辆销售过程服务系统的异常优化方法及系统
CN107766870A (zh) 信息处理装置和信息处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant