CN115705412A - 对象识别方法、装置、计算设备和存储介质 - Google Patents

对象识别方法、装置、计算设备和存储介质 Download PDF

Info

Publication number
CN115705412A
CN115705412A CN202110909438.1A CN202110909438A CN115705412A CN 115705412 A CN115705412 A CN 115705412A CN 202110909438 A CN202110909438 A CN 202110909438A CN 115705412 A CN115705412 A CN 115705412A
Authority
CN
China
Prior art keywords
historical
information
basic
features
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110909438.1A
Other languages
English (en)
Inventor
刘全赟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110909438.1A priority Critical patent/CN115705412A/zh
Publication of CN115705412A publication Critical patent/CN115705412A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种对象识别方法、装置、计算设备和存储介质。该方法包括:接收目标对象的多维度信息,其中,目标对象包含统计特征,多维度信息包括至少两个维度的信息;基于多维度信息确定目标对象的关联对象;获取关联对象的基础特征;将基础特征和统计特征一并输入到预先训练好的特征提取模型进行识别,输出识别结果。本申请能够有效检测恶意对象的注册,节省了人工事前的审核成本,对风险进行提前防范。

Description

对象识别方法、装置、计算设备和存储介质
技术领域
本申请涉及人工智能的技术领域,尤其涉及一种对象识别方法、装置、计算设备和存储介质。
背景技术
基于神经网络模型对新入驻的商户进行验证以确定其信用评分和交易的风险水平近年来得到的大幅的发展。现有技术方案大多为通过建立黑名单,在商户入驻阶段进行验证,或使用商户的入驻信息制定策略,通过能否查找到其关联已入驻商户的不良记录,评估其风险水平。在商户入驻阶段,能够利用的信息相对于事中交易阶段较少,难以利用关联对象的处罚记录以外的信息制定有效的策略。然而,仅凭处罚记录进行判断的策略难以覆盖大量入驻时能够与已入驻商户关联的黑商户,不能对黑商户的入驻进行及时有效的管控。
发明内容
有鉴于此,本申请提供了一种基于对象识别方法、装置、计算设备和存储介质。
根据本申请的第一方面,提供了一种对象识别方法,其特征在于,包括:接收目标对象的多维度信息,其中,所述目标对象包含统计特征,所述多维度信息包括至少两个维度的信息;基于所述多维度信息确定所述目标对象的关联对象;获取所述关联对象的基础特征;将所述基础特征和所述统计特征一并输入到预先训练好的特征提取模型进行识别,输出识别结果。
在一些实施例中,基于所述多维度信息确定所述目标对象的关联对象包括:在数据库中查询在所述多维度中的至少一个维度上与所述目标对象具有相同信息的对象,作为所述目标对象的关联对象;其中所述数据库至少存储有历史对象在所述多维度上的信息。
在一些实施例中,所述基于所述多维度信息确定所述目标对象的关联对象包括:获取对象数据库中每个基础对象的基本信息,其中,所述对象数据库包含不同的基础对象以及每个基础对象对应的基本信息;根据所述多维度信息和所述基本信息,分别计算所述目标对象与每个所述基础对象之间的向量距离;将所述向量距离大于等于预设阈值的所述基础对象作为关联对象。
在一些实施例中,所述预先训练好的特征提取模型包含聚合单元和识别单元,所述将所述基础特征和所述统计特征一并输入到预先训练好的特征提取模型中进行识别,输出识别结果包括:利用所述聚合单元对所述基础特征进行聚合处理,得到聚合特征;将所述聚合特征和所述统计特征一并输入到所述识别单元进行识别,输出识别结果。
在一些实施例中,获取所述关联对象的基础特征包括:对所述关联对象的交易特征、排查特征和工商特征的向量进行级联来构造所述对象的特征序列,以及其中所述交易特征包括买家性别、发生时间、发生方式,所述历史排查特征包括违规标签,所述工商特征包括注册资本、员工人数、成立时长。
在一些实施例中,数据库包括图数据库,所述关联对象的统计特征包括下述各项中的一个或多个:所述关联对象的数量、入驻平均时长、有交易比例和被标记为异常对象的比例。
在一些实施例中,对所述基础特征进行聚合处理,得到聚合特征包括:将所述目标对象的各个关联对象的基础特征分别输入经训练的LSTM模型中进行聚合处理,输出所述聚合特征。
在一些实施例中,所述特征提取模型是基于样本集进行训练的,所述样本集包括历史对象的各个关联对象的基础特征和与所述历史对象相关联的标签。
在一些实施例中,基于下述步骤来确定所述历史对象的各个关联对象:接收所述历史对象的多维度信息,所述多维度信息包括至少两个维度的信息;在数据库中查询在所述多维度中的至少一个维度上与所述历史对象具有相同信息的对象,作为所述历史对象的备选关联对象;基于所述历史对象的入驻时间对所述备选关联对象进行过滤,保留所述历史对象入驻时间前的备选关联对象作为所述历史对象的关联对象;其中所述数据库至少存储有历史对象在所述多维度上的信息。
在一些实施例中,通过下述步骤对所述特征提取模型进行训练:获取历史对象的历史多维度信息和与所述历史对象相关联的历史标签,其中,所述历史对象包含历史统计特征,所述历史多维度信息包括至少两个维度的历史信息;基于所述历史多维度信息确定所述历史对象的历史关联对象;获取所述历史关联对象的历史基础特征,将所述历史基础特征和所述历史对象相关联的历史标签导入到预设识别网络中,其中,所述预设识别网络包含预设聚合单元和预设识别单元;利用预设聚合单元对所述历史基础特征进行聚合处理,得到历史聚合特征;将所述历史聚合特征和所述历史统计特征一并输入到预设识别单元中进行识别,输出目标识别结果;基于所述目标识别结果和与所述历史对象相关联的历史标签,确定目标损失;在所述目标损失不满足预设条件的情况下,根据所述目标损失调整所述预设识别网络的网络参数,基于调整网络参数后的预设识别网络更新所述目标损失;在所述目标损失满足所述预设条件的情况下,将所述目标损失满足所述预设条件对应的预设识别网络作为所述特征提取模型。
在一些实施例中,所述将所述基础特征和所述统计特征一并输入到预先训练好的特征提取模型进行识别,输出识别结果包括:将所述基础特征和所述统计特征一并输入到预先训练好的特征提取模型,以用于计算所述目标对象的验证评分;将所述验证评分与预定阈值进行比较,以输出所述目标对象的识别结果。
根据本申请的另一方面,提供了一种对象识别的装置。该装置包括:接收模块,被配置成接收目标对象的多维度信息,其中,所述目标对象包含统计特征,所述多维度信息包括至少两个维度的信息;关联对象确定模块,被配置成基于所述多维度信息确定所述目标对象的关联对象;基础特征获取模块,被配置成获取所述关联对象的基础特征;识别模块,被配置成将所述基础特征和所述统计特征一并输入到预先训练好的特征提取模型进行识别,输出识别结果。
根据本申请的又一方面,提供了一种计算设备。该计算设备包括:存储器,其被配置成存储计算机可执行指令;处理器,其被配置成当所述计算机可执行指令被处理器执行时执行如前述对象识别的方法的实施例中任一实施例所述的方法。
根据本申请的再一方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行如前述对象识别的实施例中任一实施例所述的方法。
本申请提出了一种对象识别方法、装置、计算设备和存储介质。本申请提出利用目标对象(具体地,目标商户)的多维度信息,基于多维度信息确定目标对象的关联对象(具体地,关联商户),获取关联对象的基础特征。将基础特征与统计特征一并输入机器学习模型以针对对象进行识别。由此,利用关联到的所有对象的交易信息、处罚信息、公司主体信息等,对新入驻商户的风险进行一个综合判断,以辅助处罚或排查的决策。该方法在新的商户入驻并提交基本信息后,可以根据这些基本信息迅速得到关联对象,抽取信息后通过训练好的模型进行识别,对识别异常的商户拒绝其入驻。能够有效检测恶意对象的注册,节省了人工事前的审核成本,对风险进行提前防范。同时,提高了对象识别计算的鲁棒性和计算效率。
附图说明
现在将更详细并且参考附图来描述本申请的实施例,其中:
图1示出了根据本申请的一些实施例的对象识别的应用场景;
图2a示出了应用本申请一个实施例的在对象识别前商户入驻平台进行注册时的用户界面;
图2b示出了应用本申请一个实施例的在对象识别之前商户入驻平台提交资质信息的用户界面;
图3示意性示出了基于商户图谱对关联对象的基础特征进行抽取的架构示意图;
图4示意性示出了关联对象基础特征具体构造的示意图;
图5a~5d中示意性示出了长短期记忆LSTM模型的原理示意图;
图6示意性示出了根据本发明实施例的特征提取模型的整体架构示意图;
图7示意性示出了对象识别的方法的流程图;
图8示意性示出了对象识别的装置;以及
图9示意性示出了一个示例系统,其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备。
具体实施方式
下面将结合附图,对本申请中的技术方案进行清楚和完整的描述。所描述的实施例仅仅是本申请的一部分实施例,而不是全部实施例。基于本申请的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例都属于本申请保护的范围。
人工智能是利用数字计算机或者数字计算机控制的机器来模拟、延伸和扩展人的智能,感知环境,获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是通过机器来模拟人类认知能力的技术。人工智能是一门综合学科,涉及领域广泛,涵盖了感知、学习推理和决策等方面的能力,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。人工智能的核心能力是根据给定输入做出判断或者预测。例如,在人脸识别应用中,可以根据输入的照片判断照片中的人。在医疗诊断中,可以根据输入的医疗影像判断疾病的成因和性质。
在人工智能软件技术中,机器学习是使计算机具有智能特性的重要技术。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习专门研究计算机如何模拟或实现人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构使之不断改善自身的性能。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。如本申请所公开的对象识别方法,其中涉及到的数据信息可保存于区块链上。
为了便于对本申请实施例的理解,下面先对几个概念进行简单介绍。
知识图谱(Knowledge Graph):是指显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱通常由节点和边组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”。
循环神经网络:是指一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。循环神经网络的出现解决了对于变长的词序列的处理。循环神经网络非常适用于对序列数据建模的神经网络,即一个序列当前的输出与前面的输出也有关。具体的表现形式为,神经网络会对前面的信息进行记忆,并应用于当前输出的计算中,即神经网络的隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的隐状态输出。
长短期记忆网络(LSTM,Long Short-Term Memory):是指一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。
逻辑回归(LR,Logistic Regression):是指一种广义的线性回归分析模型,常用于数据挖掘、疾病自动诊断、经济预测等领域。LR分类器是一种线性分类器,线性分类器是基于SVM(Support Vector Machine,支持向量机)的分类器,其可以利用一个自变量为实数集而因变量为[0,1]的映射函数将线性分类器输出的结果映射为待分类的对象包含预设类别的对象的概率值。其中映射函数的因变量与自变量正相关,即因变量随着自变量的增大而增大,随着自变量的减小而减小。比如映射函数可以采用Sigmoid函数。线性分类器是根据由相应的神经网络模型提取的相应的输入特征进行训练得到的。
图1示出了根据本申请的一些实施例的对象识别的应用场景100。在该应用场景中,一个或多个用户接口101经由中间设备105与一个或多个计算设备108双向通信。用户104与一个或多个用户接口101进行交互,进而完成与计算设备108的双向通信。
可选地,还可以存在一个或多个数据库,例如第一数据库110、第二数据库120或第三数据库130中的一个或多个,用于与计算设备108协同实现功能。应当理解,在一些实施例中,该一个或多个数据库中的一个或多个可以集成于计算设备108中。
在一些实施例中,中间设备105可以包括网络连接,例如局域网(LAN)、广域网(WAN)、个域网(PAN)、和/或诸如因特网之类的通信网络的组合。在这种情况下,计算设备108可以充当服务器,用户接口101可以例如经由网络与一个或多个计算设备108进行交互,例如向其发送数据或从其接收数据。计算设备108以及一个或多个用户接口101的每一个可以包括能够通过中间设备105进行通信的至少一个通信接口(未示出)。这样的通信接口可以是下列各项中的一个或多个:任何类型的网络接口(例如,网络接口卡(NIC))、有线或无线(诸如IEEE 802.11无线LAN(WLAN))无线接口、全球微波接入互操作(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、BluetoothTM接口、近场通信(NFC)接口等。通信接口的另外的示例在本文其他地方描述。
在一些实施例中,中间设备105可以是直接的电连接,用户接口101与一个或多个计算设备108可以集成于一个或多个终端设备(未示出)上。一个或多个终端设备可以是任何类型的具有计算功能的设备,包括移动计算机(例如,Microsoft® Surface®设备、个人数字助理(PDA)、膝上型计算机、笔记本计算机、诸如Apple iPadTM的平板计算机、上网本等)、移动电话(例如,蜂窝电话、诸如Microsoft Windows®电话的智能手机、AppleiPhone、实现了Google® AndroidTM操作系统的电话、Palm®设备,Blackberry®设备等)、可穿戴式设备(例如智能手表、头戴式设备,包括智能眼镜,如Google® GlassTM,等)或其他类型的移动设备。在一些实施例中,一个或多个终端设备也可以是固定式设备,例如台式计算机、游戏机、智能电视等。此外,当存在多个终端设备的情况下,该多个终端设备可以是相同或不同类型的设备。
终端设备可以包括显示屏(未示出)以及可以经由显示屏与用户交互的终端应用(未示出)。终端应用可以为本地应用程序、网页(Web)应用程序或者作为轻量化应用的小程序(LiteApp,例如手机小程序、微信小程序)。在终端应用为需要安装的本地应用程序的情况下,可以将终端应用安装在终端设备中。在终端应用为Web应用程序的情况下,可以通过浏览器访问终端应用。在终端应用为小程序的情况下,可以通过搜索终端应用的相关信息(如终端应用的名称等)、扫描终端应用的图形码(如条形码、二维码等)等方式来在用户终端上直接打开终端应用,而无需安装终端应用。
图2a示出了应用本申请一个实施例的在对象识别之前,商户入驻平台进行注册时的用户界面。在该用户界面中示出了商户入驻平台注册的流程:首先,商户需要注册账号。通常,商户以手机验证码或藉由其他通用账户进行快速注册。接下来,商户认领门店,提交资质材料。在一个示例中,资质材料可以包括门店的信息、营业执照、法人身份证、法人手机号等。如本领域技术人员所理解的,资质材料不限于上述信息。提交资质材料后,后台通过本申请提供的对象识别的方法对该入驻商户的资质材料进行验证,在预定时间后(例如1~3个工作日)向申请商户提供审核结果。如果验证结果为信用良好、交易风险低,平台即与入驻商户进行合作签约。平台根据行业和地区的不同可以分为销售签约和自助签约。在预定时间后与签约商户联系。
图2b示出了应用本申请一个实施例的在对象识别之前商户入驻平台提交资质信息的用户界面。在该用户界面中,提示用户填写相关的必要资质信息。在图2b中所示的示例中,资质相关信息包括:手机号、身份证件号、银行卡号、信用代码号、股东代表姓名、公司全称、联系邮箱等。如本领域技术人员所理解的,资质相关信息不限于上述信息,还可以包括其他合适的信息。
图3示意性示出了基于商户图谱对关联对象(商户)的基础特征进行抽取的架构示意图300。与事中交易阶段可利用的信息相比,新入驻商户301的入驻阶段(事前)可利用的信息较少。在商户入驻阶段,对新入驻商户301进行的信用和风险评分被称为“事前评分”。这里,通过抽取图3中的商户图谱302上的结构化信息对特征提取模型进行训练,由此利用从商户图谱302中的抽取的关联商户的交易信息、处罚信息、公司主体信息等,对新入驻商户301的入驻风险进行综合判断。具体地,抽取商户图谱302上的结构化信息包括:选取新入驻商户301的关联对象,并在商户图谱302上查找关联对象入驻时的各项特征所构成的基础特征。图3中的每个圆圈表示一个历史商户,其向量表示
Figure DEST_PATH_IMAGE001
为该历史商户的基础特征。在一个实施例中,历史商户各自具有商户的排查特征,包括商户的加黑记录以及标签等(例如,可以将被加黑的商户标记为1,未被加黑的商户标记为0)。在一个实施例中,历史商户各自具有交易特征,包括交易用户的性别比例、平均年龄、拦截笔数等。在一个实施例中,历史商户各自具有工商特征,包括商户注册公司的规模、注册资金、成立市场等。图3中所示的新入驻商户301通过使用下述关联关系来确定与其相关联的历史商户:该关联关系包括商户注册时填写的联系人手机号、法人身份证、银行卡号、统一信用代码、股东代表、商户全称、联系邮箱等。也就是说,如果一历史商户与新入驻商户301在某一维度上具有相同信息(例如,使用相同手机号),则将该商户确定为与新入驻商户301相关联的关联对象。类似地,与新入驻商户301在法人身份证、银行卡号、统一信用代码、股东代表、商户全称、联系邮箱等其他维度中的任意一个或多个维度上具有相同信息的商户也可以被确定为该新入驻商户301的关联对象。接下来,通过将所确定的关联对象的特征序列输入经过预先训练的特征提取模型(本文中,以聚合单元(长短期记忆LSTM网络)与识别单元(逻辑回归LR网络)相结合的模型为例)对入驻商户的事前评分进行预测,并基于评分确定异常对象后作为识别结果输出。
图4示意性示出了关联对象基础特征序列具体构造的示意图。这里,以一目标对象的关联对象的基础特征构造为例进行说明。目标对象的关联对象是从历史记录中记载的已经入驻的商户中选取的。历史商户中到目前为止未被打击过的商户被标记为白商户(例如,将白商户标记为0),到目前为止被打击或拦截过的商户被标记为黑商户(例如,将黑商户标记为1)。接下来,根据该目标对象入驻时提交基本信息以及入驻时间,筛选出该目标对象入驻时关联到的商户作为上述关联对象,并获取这些关联对象在该目标对象入驻时刻的基础特征。这里,关联对象在该目标对象入驻时刻的基础特征至少包括下述各项中的一项或多项:交易特征、排查特征和工商特征,上述特征均为截止该目标对象入驻时间的特征。交易特征指的是商户的交易对相应标签,如此交易对应买家的性别、交易发生的时间、交易发生的方式等等。在一个实施例中,针对一个关联对象的一种类型的交易,计算该类型交易的金额占总交易金额的比例作为该关联对象的交易特征。排查特征:商户如果存在被处罚、被限制交易等操作,会留下相应的违规标签,对这些违规标签进行编码作为关联对象的排查特征。在一个实施例中,采用独热(one hot)编码方式对上述违规标签进行编码。工商特征:商户所在企业的各项基本工商信息,例如注册资本、员工人数、成立时常等。图4中基于上述特征构造每个关联对象基础特征。图中的基础特征包括各个关联对象的特征向量,每个关联对象的特征向量各自包括交易特征、排查特征和工商特征。
值得注意的是,目标对象包含统计特征。该统计特征可以包括目标对象的关联对象数量、关联对象入驻平均时长、关联对象有交易比例、关联对象被处罚比例等。在一个示例中,可以基于各个关联对象的特征计算该目标对象的关联对象的统计特征。首先,对目标对象的关联对象数量进行统计。基于各个关联对象的入驻时长来计算该目标对象的关联对象入驻时长,具体地,该目标对象的关联对象入驻平均时长为各个关联对象的入驻时长的总和与关联对象数量的比值。例如,目标对象的关联对象数量为5,入驻平均时间分别为10个月、12个月、20个月、16个月、2个月,则关联对象入驻平均时长为(10+12+20+16+2)/5=12个月。基于各个关联对象中进行了交易的商户的比例来计算该目标对象的关联对象的有交易比例,具体地,该目标对象的关联对象有交易比例为各个关联对象中有交易对象的数量与关联对象数量的比值。例如,目标对象的关联对象数量为5,其中有交易的关联对象为3个,则关联对象有交易比例为60%。基于各个关联对象的中被处罚的商户的比例来计算该目标对象的关联对象的被处罚比例,具体地,该目标对象的关联对象被处罚比例为各个关联对象中被处罚对象的数量与关联对象数量的比值。例如,目标对象的关联对象数量为5,其中被处罚的关联对象为2个,则关联对象被处罚比例为40%。如本领域技术人员所理解的,目标对象所包含的统计特征不限于上述特征。
本申请将历史入驻商户作为样本,将商户在图数据库中关联到的其他商户按照时间进行过滤,仅保留入驻商户入驻时间前的关联对象,然后使用关联对象在入驻商户入驻时间点前的基础特征(包括交易特征、排查特征、工商特征等)与目标对象的统计特征作为特征提取模型的输入。这里,特征提取模型包括聚合和单元和识别单元。在一个实施例中,聚合单元具有LSTM网络结构。在另一个实施例中,识别单元具有LR网络结构。关联对象的数量是不确定的,将关联对象的基础特征构造为不定长序列作为LSTM的输入,取出LSTM的最后一层隐藏层输出,将该输出与目标对象的统计特征进行拼接作为LR模型的输入,进行端到端训练。
本申请特征提取模型中的长短期记忆LSTM模型由K个结构相同的单元组成。在实际对新入驻商户进行评估时,该LSTM中每个模型单元的输入为被确定为该新入驻商户的关联对象中的一个关联对象的基础特征。图5a~5d中示意性示出了K个长短期记忆LSTM单元中一个单元的原理示意图。
在每个LSTM单元中,输入序列顺次经过遗忘门、输入门和输出门的处理。图5a中以虚线框示意性示出了LSTM模型中的遗忘门。在遗忘门的处理阶段,遗忘门决定了需要丢弃什么信息。下式中的
Figure 878002DEST_PATH_IMAGE002
具体给出了遗忘门的输出。遗忘门读取上一层(前一个LSTM单元)的输出向量
Figure DEST_PATH_IMAGE003
和本次待输入的向量
Figure 608192DEST_PATH_IMAGE004
。在本方案中,
Figure 450246DEST_PATH_IMAGE004
即为关联对象基础特征,多次输入LSTM中可以将整个关联对象序列输入模型。经过σ后得到一个0到1之间的数值给每个在
Figure 845455DEST_PATH_IMAGE006
的数字。
Figure 659828DEST_PATH_IMAGE008
这里,
Figure DEST_PATH_IMAGE009
为遗忘门的输出,σ为sigmoid函数,
Figure 808523DEST_PATH_IMAGE010
为该层赋予的权重矩阵,
Figure DEST_PATH_IMAGE011
为上一层的输出向量,
Figure 75556DEST_PATH_IMAGE004
为关联对象序列中一个关联对象基础特征,即本次待输入的向量,bf为该层设置的偏置向量。
图5b-c中以虚线框示意性示出了长短期记忆LSTM模型中的输入门。在输入门的处理阶段,输入门的作用在于:决定让多少新的信息加入到新的状态中来。首先,
Figure 336773DEST_PATH_IMAGE011
Figure 5652DEST_PATH_IMAGE004
过一个sigmoid函数,这个处理的作用在于决定哪些信息需要更新。
Figure DEST_PATH_IMAGE013
其中,
Figure 812065DEST_PATH_IMAGE014
表示在输入门中从σ的输出,Wi表示该层赋予的权重矩阵,bi是该层设置的偏置向量。与
Figure 566395DEST_PATH_IMAGE015
中的含义相同:σ为sigmoid函数,
Figure DEST_PATH_IMAGE016
为该层赋予的权重矩阵,
Figure 365723DEST_PATH_IMAGE011
为上一层的输出向量,
Figure 889109DEST_PATH_IMAGE004
为关联对象序列中一个关联对象基础特征。
接下来,tanh层生成一个向量,这个阶段的作用在于确定更新的内容。
Figure DEST_PATH_IMAGE018
其中,
Figure 318953DEST_PATH_IMAGE019
为候选用于更新的神经单元信息,
Figure DEST_PATH_IMAGE020
表示该层赋予的权重矩阵,
Figure 872163DEST_PATH_IMAGE021
是该层设置的偏置向量,tanh是双曲正切函数。
Figure DEST_PATH_IMAGE022
代表为单元在t时刻的状态,本方案中可以代表入驻商户的一种高阶表示。在下一步,把这两部分相乘,对单元的状态进行一个更新。将
Figure 209603DEST_PATH_IMAGE023
Figure 853074DEST_PATH_IMAGE002
相乘,丢弃掉不需要的信息,接着加上
Figure DEST_PATH_IMAGE024
得到新的候选值,此时入驻商户就可以提取出关联对象的相关特征。即,入驻商户就可以选取历史入驻商户的关联对象,并在图谱上查找关联对象的关联对象入驻时的各项特征所构成的关联对象特征序列。
Figure DEST_PATH_IMAGE026
其中,
Figure 1290DEST_PATH_IMAGE027
为遗忘门的输出结果,it为输入门的输出结果,
Figure 730212DEST_PATH_IMAGE019
为候选神经单元信息,Ct-1是上一个单元状态。
图5d中以虚线框示意性示出了长短期记忆LSTM模型中的输出门。在输出门的处理阶段中,
Figure 809026DEST_PATH_IMAGE011
Figure 307003DEST_PATH_IMAGE004
经过一个sigmoid函数决定哪些信息需要输出,接着把
Figure 140967DEST_PATH_IMAGE022
通过tanh进行处理并将它和sigmoid函数的输出相乘,确定输出的部分。输出门会结合LSTM单元单元的状态以及本次的输入,将结果输出给下一个单元。由于本申请不考虑输入的次序,所以在商户序列输入完成后,使用
Figure 91606DEST_PATH_IMAGE022
代表入驻商户的聚合表示。
Figure 974111DEST_PATH_IMAGE029
其中,
Figure DEST_PATH_IMAGE030
表示经过
Figure 641109DEST_PATH_IMAGE031
(即sigmoid函数)的输出,
Figure DEST_PATH_IMAGE032
表示该层赋予的权重矩阵,
Figure 583657DEST_PATH_IMAGE033
是该层设置的偏置向量。
Figure 83909DEST_PATH_IMAGE035
其中,
Figure DEST_PATH_IMAGE036
表示经过tanh函数处理的输出,tanh是双曲正切函数。
图6示意性示出了根据本发明实施例的基于图数据库的关联特征抽取的特征提取模型的示意图。图6中的长短期记忆LSTM模型由K个结构相同的单元组成。在实际对新入驻商户进行评估时,该LSTM中每个模型单元的输入为被确定为该新入驻商户的关联对象中的一个关联对象的特征。例如,在一个实施例中,在历史用户中确定出存在K个与新入驻商户在多个维度(包括商户注册时填写的联系人手机号,法人身份证,银行卡号,统一信用代码,股东代表,商户全称,联系邮箱)中的一个或多个维度上的信息相同的用户,则将该K的用户确定为与新入驻商户相关联的商户。确定该K个相关联对象的特征,并将各个相关联对象的特征分别输入LSTM的K个单元中。关联对象的数量是不确定的,将关联对象特征构造为不定长序列作为LSTM的输入,最后取出LSTM的最后一层隐藏层,与关联统计特征拼接,作为LR模型的输入,进行端到端训练。
在对该模型的训练阶段,本申请将历史入驻商户作为样本,将商户在图数据库中关联到的其他商户按照时间进行过滤,仅保留入驻商户入驻时间前的关联对象,然后使用关联对象在入驻商户入驻时间点前的交易特征以及排查特征等作为模型输入。与测试阶段相类似,在训练阶段中,关联对象的数量是不确定的,将关联对象特征构造为不定长序列作为LSTM的输入,最后取出LSTM的最后一层隐藏层,与关联统计特征拼接,作为LR模型的输入,进行端到端训练。
在本申请中,LSTM模块与LR模块共同构成特征提取模型。特征提取模型是基于样本集进行训练的,样本集包括历史对象的各个关联对象的基础特征和与所述历史对象相关联的标签。所述历史对象的各个关联对象是基于下述步骤确定的:接收所述历史对象的多维度信息,所述多维度信息包括至少两个维度的信息;在数据库中查询在所述多维度中的至少一个维度上与所述历史对象具有相同信息的对象,作为所述历史对象的备选关联对象;基于所述历史对象的入驻时间对所述备选关联对象进行过滤,保留所述历史对象入驻时间前的备选关联对象作为所述历史对象的关联对象;其中所述数据库至少存储有历史对象在所述多维度上的信息。在一个实施例中,通过下述步骤对所述特征提取模型进行训练:获取历史对象的历史多维度信息和与所述历史对象相关联的历史标签,其中,所述历史对象包含历史统计特征,所述历史多维度信息包括至少两个维度的历史信息;基于所述历史多维度信息确定所述历史对象的历史关联对象;获取所述历史关联对象的历史基础特征,并将所述历史基础特征输入LSTM模型中进行聚合处理,得到历史聚合特征;将所述历史聚合特征和所述历史统计特征一并输入到预设识别网络进行识别,输出目标识别结果;基于所述目标识别结果和与所述历史对象相关联的历史标签,确定目标损失;在所述目标损失不满足预设条件的情况下,根据所述目标损失调整所述预设识别网络的网络参数,基于调整网络参数后的预设识别网络更新所述目标损失;在所述目标损失满足所述预设条件的情况下,将所述目标损失满足所述预设条件对应的预设识别网络作为所述特征提取模型。
图7示意性示出了对象识别的方法700,该方法是基于图数据库的关联特征抽取的机器学习模型执行的。在方法700的步骤701中,首先接收目标对象的多维度信息,其中,目标对象包含统计特征,多维度信息包括至少两个维度的信息。具体地,在对商户入驻平台的风险评估中,目标对象表示新入住的商户。关联对象的统计特征包括下述各项中的一个或多个:关联对象的数量、入驻平均时长、有交易比例和被标记为异常对象的比例。在一个实施例中,接收目标用户的多维度信息包括:接收目标用户的资质相关信息,资质相关信息包括手机号、身份证件号、银行卡号、信用代码号、股东代表名称、全称、联系邮箱维度上的相关信息。
在步骤702中,基于多维度信息确定目标对象的关联对象。在一个实施例中,在数据库中查询在多维度中的至少一个维度上与目标用户具有相同信息的用户,作为目标对象的关联对象,即目标对象的关联对象;其中数据库至少存储有历史用户在多维度上的信息。在一个实施例中,数据库包括图数据库,图数据库至少存储有历史用户在多维度上的信息。在一个实施例中,数据库包括图数据库,图数据库至少存储有历史用户在多维度以及其他维度上的信息,其他维度上的信息包括历史用户的交易特征、排查特征、工商特征。在另一个实施例中,获取对象数据库中每个基础对象的基本信息,其中,对象数据库包含不同的基础对象以及每个基础对象对应的基本信息;根据多维度信息和基本信息,分别计算目标对象与每个基础对象之间的相似度;将相似度大于等于预设阈值的基础对象作为关联对象。如本领域技术人员所理解的,相似度可以通过计算向量之间的距离来实现,向量距离包括但不限于向量之间的余弦距离或欧式距离。
在步骤703中,获取关联对象的基础特征。根据这些样本商户入驻时提交基本信息以及入驻时间,筛选出这些商户入驻时关联到的商户,并计算这些商户在样本商户入驻时刻的各项特征。这里,上述入驻时的各项特征至少包括下述各项中的一项或多项:交易特征、排查特征和工商特征,上述特征均为样本商户截止入驻时间的特征。获取关联对象的基础特征包括:对关联对象的交易特征、排查特征和工商特征的矢量进行级联来构造关联对象的基础特征,其中交易特征包括针对买家性别、交易发生时间、发生方式的统计值;历史排查特征包括针对违规标签的统计值;工商特征包括针对注册资本、员工人数、成立时长的统计值。
在步骤704中,将所述基础特征和所述统计特征一并输入到预先训练好的特征提取模型进行识别,输出识别结果。在一个实施例中,预先训练好的特征提取模型包含聚合单元和识别单元,所述将所述基础特征和所述统计特征一并输入到预先训练好的特征提取模型中进行识别,输出识别结果包括:利用所述聚合单元对所述基础特征进行聚合处理,得到聚合特征;将所述聚合特征和所述统计特征一并输入到所述识别单元进行识别,输出识别结果。在一个实施例中,经预训练的特征提取模型是输入为不定长序列的特征提取模型。在另一个实施例中,聚合单元是长短期记忆LSTM模型,识别单元是LR模型的组合模型。在一个实施例中,经预训练的特征提取模型是基于样本集进行训练的,样本集包括历史用户的各个关联对象的特征序列和与历史用户相关联的标签。在一个实施例中,基于下述步骤确定历史用户的各个关联对象:查找在多维度中的至少一个维度上与历史用户具有相同信息的用户,作为历史用户的关联对象;对历史用户的关联对象按照时间进行过滤,保留历史用户入驻时间前的关联对象。历史用户的各个关联对象的特征序列包括各个关联对象在历史用户入驻时间前的交易特征、排查特征、工商特征。关联对象的统计特征包括基于目标用户的关联对象数量、关联对象入驻平均时长、关联对象有交易比例、关联对象处罚比例中的一个或多个。与历史用户相关联的标签包括历史用户被标记为白用户或黑用户。
在一个实施例中,通过下述步骤对所述特征提取模型进行训练:获取历史对象的历史多维度信息和与所述历史对象相关联的历史标签,其中,所述历史对象包含历史统计特征,所述历史多维度信息包括至少两个维度的历史信息;基于所述历史多维度信息确定所述历史对象的历史关联对象;获取所述历史关联对象的历史基础特征,将所述历史基础特征和所述历史对象相关联的历史标签导入到预设识别网络中,其中,所述预设识别网络包含预设聚合单元和预设识别单元;利用预设聚合单元对所述历史基础特征进行聚合处理,得到历史聚合特征。具体地,将历史对象的各个历史关联对象的历史基础特征分别输入LSTM模型中进行聚合处理。这里,长短期记忆LSTM模型由K个结构相同的模型单元组成,该LSTM中每个模型单元的输入为被确定为该历史对象的各个历史关联对象中的一个历史关联对象的历史基础特征。因为历史关联对象的数量不确定,将历史关联对象特征构造为不定长序列作为LSTM的输入。具体地,可以在LSTM的每个单元最后取出LSTM的最后一层隐藏层的输出特征进行聚合作为历史聚合特征。将所述历史聚合特征和所述历史统计特征一并输入到预设识别单元中进行识别,输出目标识别结果;基于所述目标识别结果和与所述历史对象相关联的历史标签,确定目标损失。在一个示例中,目标损失通过目标损失函数定义,目标损失函数可以采用最大似然函数。如本领域技术人员所理解的,也可以采用其他形式的目标损失函数。在目标损失不满足预设条件的情况下,根据所述目标损失调整所述预设识别网络的网络参数,基于调整网络参数后的预设识别网络更新所述目标损失。该预设条件为目标损失函数收敛,具体地可以为最大似然函数收敛。在所述目标损失满足所述预设条件的情况下,将所述目标损失满足所述预设条件对应的预设识别网络作为所述特征提取模型。最后,将LSTM的最后一层隐藏层的输出的聚合特征与关联统计特征拼接,作为特征提取模型中的识别单元LR模型的输入。从LR模型输出验证评分,该评分为0~1之间的分数。
将关联对象的特征序列和关联对象的统计特征输入经预训练的特征提取模型,以对象识别包括:将关联对象的特征序列和关联对象的统计特征输入经预训练的特征提取模型;计算目标用户的验证评分。验证评分是从特征提取模型中的识别单元(LR模型)输出的,该评分为0~1之间的分数。将评分与预定阈值进行比较,以输出目标用户的验证结果。最后根据识别结果确定异常对象。例如,输出的风险评分为0.68,在预定阈值为0.5的情况下,则判断该入驻用户具有风险,因而驳回其入驻申请。
本申请提出的基于图数据库的关联特征抽取的机器学习模型对象识别的方法提出构建商户图谱,通过抽取图谱上的非结构化信息,训练机器学习模型,从而利用关联到的所有商户的交易信息、处罚信息、公司主体信息等,对新入驻商户的风险进行一个综合判断,最后辅助处罚或排查的决策。该方法在新的商户入驻并提交基本信息后,可以根据这些基本信息在图谱中迅速得到关联对象,抽取信息后通过训练好的模型进行评分,对高于一定分数的商户拒绝其入驻。能够有效检测恶意商户的注册,节省了人工事前的审核成本,对风险进行提前防范。同时,提高了计算的鲁棒性和计算效率。
图8示意性示出了基于图数据库的关联特征抽取的机器学习模型对象识别装置800。该装置包括:接收模块801、关联对象确定模块802、基础特征获取模块803、聚合特征获取模块804和识别模块805。接收模块801被配置成接收目标对象的多维度信息,其中,目标对象包含统计特征,多维度信息包括至少两个维度的信息。关联对象确定模块802被配置成基于多维度信息确定目标对象的关联对象。基础特征获取模块803被配置成获取关联对象的基础特征。识别模块804被配置成将基础特征和统计特征一并输入到预先训练好的特征提取模型进行识别,输出识别结果。本申请提出的基于图数据库的关联特征抽取的机器学习模型对象识别的装置提出构建商户图谱,通过抽取图谱上的非结构化信息,训练机器学习模型,从而利用关联到的所有商户的交易信息、处罚信息、公司主体信息等,对新入驻商户的风险进行一个综合判断,最后辅助处罚或排查的决策。该装置在新的商户入驻并提交基本信息后,可以根据这些基本信息在图谱中迅速得到关联对象,抽取信息后通过训练好的模型进行评分,对高于一定分数的商户拒绝其入驻。能够有效检测恶意商户的注册,节省了人工事前的审核成本,对风险进行提前防范。同时,提高了计算的鲁棒性和计算效率。
图9图示了示例系统900,其包括代表可以实现本文各实施例描述的技术方案的一个或多个系统和/或设备中的示例计算设备910。计算设备910可以是例如服务提供商的服务器、与服务器相关联的设备、片上系统、和/或任何其它合适的计算设备或计算系统。上面参照图8描述的基于图数据库的关联特征抽取的机器学习模型对象识别装置800可以采取计算设备910的形式。替换地,对象识别装置800可以以应用916的形式被实现为计算机程序。
如9图示的示例计算设备910包括彼此通信耦合的处理系统911、一个或多个计算机可读介质912以及一个或多个I/O接口913。尽管未示出,但是计算设备910还可以包括系统总线或其他数据和命令传送系统,其将各种组件彼此耦合。系统总线可以包括不同总线结构的任何一个或组合,总线结构诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示例,诸如控制和数据线。
处理系统911代表使用硬件执行一个或多个操作的功能。因此,处理系统911被图示为包括可被配置为处理器、功能块等的硬件元件914。这可以包括在硬件中实现为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件914不受其形成的材料或其中采用的处理机构的限制。例如,处理器可以由(多个)半导体和/或晶体管(例如,电子集成电路(IC))组成。在这样的上下文中,处理器可执行指令可以是电子可执行指令。
计算机可读介质912被图示为包括存储器/存储装置915。存储器/存储装置915表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置915可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储装置915可以包括固定介质(例如,RAM、ROM、固定硬盘驱动器等)以及可移动介质(例如,闪存、可移动硬盘驱动器、光盘等)。计算机可读介质912可以以下面进一步描述的各种其他方式进行配置。
一个或多个I/O接口913代表允许用户使用各种输入设备向计算设备910输入命令和信息并且可选地还允许使用各种输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备(例如,鼠标)、麦克风(例如,用于语音输入)、扫描仪、触摸功能(例如,被配置为检测物理触摸的容性或其他传感器)、相机(例如,可以采用可见或不可见的波长(诸如红外频率)将不涉及触摸的运动检测为手势)等等。输出设备的示例包括显示设备(例如,监视器或投影仪)、扬声器、打印机、网卡、触觉响应设备等。因此,计算设备910可以以下面进一步描述的各种方式进行配置以支持用户交互。
计算设备910还包括应用916。应用916可以例如是参照图8描述的翻译模型的训练装置800的软件实例,并且与计算设备910中的其他元件相组合地实现本文描述的技术。
本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地,这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、组件、数据结构等。本文所使用的术语“模块”,“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的,意味着这些技术可以在具有各种处理器的各种计算平台上实现。
所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备910访问的各种介质。作为示例而非限制,计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。
与单纯的信号传输、载波或信号本身相反,“计算机可读存储介质”是指能够持久存储信息的介质和/或设备,和/或有形的存储装置。因此,计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息(诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据)的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储装置、硬盘、盒式磁带、磁带,磁盘存储装置或其他磁存储设备,或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。
“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到计算设备910的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指这样的信号,该信号的特征中的一个或多个被设置或改变,从而将信息编码到该信号中。作为示例而非限制,通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其它无线介质的无线介质。
如前,硬件元件914和计算机可读介质912代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑,其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及硅中的其它实现或其他硬件设备的组件。在这种上下文中,硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备,以及用于存储用于执行的指令的硬件设备,例如,先前描述的计算机可读存储介质。
前述的组合也可以用于实现本文所述的各种技术和模块。因此,可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件914体现的一个或多个指令和/或逻辑。计算设备910可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此,例如通过使用处理系统的计算机可读存储介质和/或硬件元件914,可以至少部分地以硬件来实现将模块实现为可由计算设备910作为软件执行的模块。指令和/或功能可以由一个或多个制品(例如,一个或多个计算设备910和/或处理系统911)可执行/可操作以实现本文所述的技术、模块和示例。
在各种实施方式中,计算设备910可以采用各种不同的配置。例如,计算设备910可以被实现为包括个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。计算设备910还可以被实现为包括诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等移动设备的移动装置类设备。计算设备910还可以实现为电视类设备,其包括具有或连接到休闲观看环境中的一般地较大屏幕的设备。这些设备包括电视、机顶盒、游戏机等。
本文描述的技术可以由计算设备910的这些各种配置来支持,并且不限于本文所描述的技术的具体示例。功能还可以通过使用分布式系统、诸如通过如下所述的平台922而在“云”920上全部或部分地实现。
云920包括和/或代表用于资源924的平台922。平台922抽象云920的硬件(例如,服务器)和软件资源的底层功能。资源924可以包括在远离计算设备910的服务器上执行计算机处理时可以使用的其它应用和/或数据。资源924还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。
平台922可以抽象资源和功能以将计算设备910与其他计算设备连接。平台922还可以用于抽象资源的分级以提供遇到的对于经由平台922实现的资源924的需求的相应水平的分级。因此,在互连设备实施例中,本文描述的功能的实现可以分布在整个系统900内。例如,功能可以部分地在计算设备910上以及通过抽象云920的功能的平台922来实现。
应当理解,为清楚起见,参考不同的功能单元对本申请的实施例进行了描述。然而,将明显的是,在不偏离本申请的情况下,每个功能单元的功能性可以被实施在单个单元中、实施在多个单元中或作为其它功能单元的一部分被实施。例如,被说明成由单个单元执行的功能性可以由多个不同的单元来执行。因此,对特定功能单元的参考仅被视为对用于提供所描述的功能性的适当单元的参考,而不是表明严格的逻辑或物理结构或组织。因此,本申请可以被实施在单个单元中,或者可以在物理上和功能上被分布在不同的单元和电路之间。
将理解的是,尽管第一、第二、第三等术语在本文中可以用来描述各种设备、元件、部件或部分,但是这些设备、元件、部件或部分不应当由这些术语限制。这些术语仅用来将一个设备、元件、部件或部分与另一个设备、元件、部件或部分相区分。
尽管已经结合一些实施例描述了本申请,但是其不旨在被限于在本文中所阐述的特定形式。相反,本申请的范围仅由所附权利要求来限制。附加地,尽管单独的特征可以被包括在不同的权利要求中,但是这些可以可能地被有利地组合,并且包括在不同权利要求中不暗示特征的组合不是可行的和/或有利的。特征在权利要求中的次序不暗示特征必须以其工作的任何特定次序。此外,在权利要求中,词“包括”不排除其它元件,并且术语“一”或“一个”不排除多个。权利要求中的附图标记仅作为明确的例子被提供,不应该被解释为以任何方式限制权利要求的范围。

Claims (10)

1.一种对象识别方法,其特征在于,包括:
接收目标对象的多维度信息,其中,所述目标对象包含统计特征,所述多维度信息包括至少两个维度的信息;
基于所述多维度信息确定所述目标对象的关联对象;
获取所述关联对象的基础特征;
将所述基础特征和所述统计特征一并输入到预先训练好的特征提取模型进行识别,输出识别结果。
2.如权利要求1所述的方法,所述基于所述多维度信息确定所述目标对象的关联对象包括:
在数据库中查询在所述多维度中的至少一个维度上与所述目标对象具有相同信息的对象,作为所述目标对象的关联对象;
其中所述数据库至少存储有历史对象在所述多维度上的信息。
3.如权利要求1所述的方法,所述基于所述多维度信息确定所述目标对象的关联对象包括:
获取对象数据库中每个基础对象的基本信息,其中,所述对象数据库包含不同的基础对象以及每个基础对象对应的基本信息;
根据所述多维度信息和所述基本信息,分别计算所述目标对象与每个所述基础对象之间的向量距离;
将所述向量距离大于等于预设阈值的所述基础对象作为关联对象。
4.如权利要求1所述的方法,所述预先训练好的特征提取模型包含聚合单元和识别单元,所述将所述基础特征和所述统计特征一并输入到预先训练好的特征提取模型中进行识别,输出识别结果包括:
利用所述聚合单元对所述基础特征进行聚合处理,得到聚合特征;
将所述聚合特征和所述统计特征一并输入到所述识别单元进行识别,输出识别结果。
5.如权利要求4所述的方法,其中所述特征提取模型是基于样本集进行训练的,所述样本集包括历史对象的各个关联对象的基础特征和与所述历史对象相关联的标签。
6.如权利要求5所述的方法,其中基于下述步骤来确定所述历史对象的各个关联对象:
接收所述历史对象的多维度信息,所述多维度信息包括至少两个维度的信息;
在数据库中查询在所述多维度中的至少一个维度上与所述历史对象具有相同信息的对象,作为所述历史对象的备选关联对象;
基于所述历史对象的入驻时间对所述备选关联对象进行过滤,保留所述历史对象入驻时间前的备选关联对象作为所述历史对象的关联对象;
其中所述数据库至少存储有历史对象在所述多维度上的信息。
7.如权利要求1所述的方法,其中通过下述步骤对所述特征提取模型进行训练:
获取历史对象的历史多维度信息和与所述历史对象相关联的历史标签,其中,所述历史对象包含历史统计特征,所述历史多维度信息包括至少两个维度的历史信息;
基于所述历史多维度信息确定所述历史对象的历史关联对象;
获取所述历史关联对象的历史基础特征,将所述历史基础特征和所述历史对象相关联的历史标签导入到预设识别网络中,其中,所述预设识别网络包含预设聚合单元和预设识别单元;
利用预设聚合单元对所述历史基础特征进行聚合处理,得到历史聚合特征;
将所述历史聚合特征和所述历史统计特征一并输入到预设识别单元中进行识别,输出目标识别结果;
基于所述目标识别结果和与所述历史对象相关联的历史标签,确定目标损失;
在所述目标损失不满足预设条件的情况下,根据所述目标损失调整所述预设识别网络的网络参数,基于调整网络参数后的预设识别网络更新所述目标损失;
在所述目标损失满足所述预设条件的情况下,将所述目标损失满足所述预设条件对应的预设识别网络作为所述特征提取模型。
8.如权利要求1-3中任一项所述的方法,其中将所述基础特征和所述统计特征一并输入到预先训练好的特征提取模型进行识别,输出识别结果包括:
将所述基础特征和所述统计特征一并输入到预先训练好的特征提取模型,以用于计算所述目标对象的验证评分;
将所述验证评分与预定阈值进行比较,以输出所述目标对象的识别结果。
9.一种对象识别装置,其特征在于,包括:
接收模块,被配置成接收目标对象的多维度信息,其中,所述目标对象包含统计特征,所述多维度信息包括至少两个维度的信息;
关联对象确定模块,被配置成基于所述多维度信息确定所述目标对象的关联对象;
基础特征获取模块,被配置成获取所述关联对象的基础特征;
识别模块,被配置成将所述基础特征和所述统计特征一并输入到预先训练好的特征提取模型进行识别,输出识别结果。
10.一种计算机可读存储介质,其存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行如权利要求1-8中的任一项所述的方法。
CN202110909438.1A 2021-08-09 2021-08-09 对象识别方法、装置、计算设备和存储介质 Pending CN115705412A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110909438.1A CN115705412A (zh) 2021-08-09 2021-08-09 对象识别方法、装置、计算设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110909438.1A CN115705412A (zh) 2021-08-09 2021-08-09 对象识别方法、装置、计算设备和存储介质

Publications (1)

Publication Number Publication Date
CN115705412A true CN115705412A (zh) 2023-02-17

Family

ID=85179975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110909438.1A Pending CN115705412A (zh) 2021-08-09 2021-08-09 对象识别方法、装置、计算设备和存储介质

Country Status (1)

Country Link
CN (1) CN115705412A (zh)

Similar Documents

Publication Publication Date Title
EP3985578A1 (en) Method and system for automatically training machine learning model
CN110009174B (zh) 风险识别模型训练方法、装置及服务器
Nassar et al. Blockchain for explainable and trustworthy artificial intelligence
CN108596616B (zh) 用户数据真实性分析方法及装置、存储介质、电子设备
US11531987B2 (en) User profiling based on transaction data associated with a user
CN112863683B (zh) 基于人工智能的病历质控方法、装置、计算机设备及存储介质
CN112101520A (zh) 风险评估模型训练方法、业务风险评估方法及其他设备
CN111415167B (zh) 网络欺诈交易检测方法及装置、计算机存储介质和终端
CN115204886A (zh) 账户识别的方法、装置、电子设备和存储介质
CN114880449B (zh) 智能问答的答复生成方法、装置、电子设备及存储介质
CN116307671A (zh) 风险预警方法、装置、计算机设备、存储介质
CN114119191A (zh) 风控方法、逾期预测方法、模型训练方法及相关设备
CN110619564B (zh) 一种反欺诈特征生成方法和装置
CN112084408B (zh) 名单数据筛选方法、装置、计算机设备及存储介质
CN115705412A (zh) 对象识别方法、装置、计算设备和存储介质
US20240185090A1 (en) Assessment of artificial intelligence errors using machine learning
US11928128B2 (en) Construction of a meta-database from autonomously scanned disparate and heterogeneous sources
US11983162B2 (en) Change management process for identifying potential regulatory violations for improved processing efficiency
CN115952438B (zh) 社交平台用户属性预测方法、系统、移动设备及存储介质
US20240152959A1 (en) Systems and methods for artificial intelligence using data analytics of unstructured data
US20240161117A1 (en) Trigger-Based Electronic Fund Transfers
US20230351783A1 (en) Application of heuristics to handwritten character recognition to identify names using neural network techniques
US20230351778A1 (en) Third party api integration for feedback system for handwritten character recognition to identify names using neural network techniques
US20230351782A1 (en) Reading and recognizing handwritten characters to identify names using neural network techniques
US20230342338A1 (en) Change management process for identifying confidential information for improved processing efficiency

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination