CN113505805A - 样本数据闭环生成方法、装置、设备及存储介质 - Google Patents

样本数据闭环生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113505805A
CN113505805A CN202110570309.4A CN202110570309A CN113505805A CN 113505805 A CN113505805 A CN 113505805A CN 202110570309 A CN202110570309 A CN 202110570309A CN 113505805 A CN113505805 A CN 113505805A
Authority
CN
China
Prior art keywords
result
sample data
cluster
service
offline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110570309.4A
Other languages
English (en)
Other versions
CN113505805B (zh
Inventor
郭宁
尤薇
俞加伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202110570309.4A priority Critical patent/CN113505805B/zh
Publication of CN113505805A publication Critical patent/CN113505805A/zh
Application granted granted Critical
Publication of CN113505805B publication Critical patent/CN113505805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及人工智能技术,揭露了一种样本数据闭环生成方法,包括:利用样本数据集对待训练模型集群进行训练,得到标准模型集群,利用标准模型集群对实时业务请求进行预测,得到集群响应结果,对集群响应结果进行预测反馈,得到业务反馈结果,将业务反馈结果及集群响应结果进行关联,得到关联结果并标注,得到标注后的样本数据,将标注后的样本数据补充至样本数据集,对离线业务日志进行加工,将加工后的样本数据补充至样本数据集。此外,本发明还涉及区块链技术,所述标准模型集群可存储在区块链的节点中。本发明还提出一种样本数据闭环生成装置、电子设备以及计算机可读存储介质。本发明可以解决因样本数据不足而导致的模型精度较低的问题。

Description

样本数据闭环生成方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种样本数据闭环生成方法、装置、电子设备及计算机可读存储介质。
背景技术
当今5G网络下,数据爆炸式增长,机器学习发展越来越大,广泛应用于各种领域。一些机器学习算法,如深度学习等算法,目前遇到的主要困境是,如何能够获得大量的、高质量的已标注样本数据。机器学习发展初期,都是由人工标注为主,但人工标注会带来大量人工成本且标注质量不高;后来发展的众包标注方法,也对标注的数据质量提出了新的挑战,而且在特定领域,如银行背景下,像身份证等敏感信息,由于防泄漏门槛,标注难度更大。现有技术下会出现由于防止数据泄露而导致样本数据不足,样本数据标注特征不足等问题,从而引起模型欠拟合和过拟合,导致模型精度较低。
发明内容
本发明提供一种样本数据闭环生成方法、装置、设备及存储介质,其主要目的在于解决因样本数据不足而导致的模型精度较低的问题。
为实现上述目的,本发明提供的一种样本数据闭环生成方法,包括:
获取样本数据集,根据所述样本数据集构建训练样本集,并基于所述训练样本集对待训练模型集群进行训练,得到标准模型集群;
获取实时业务请求,基于所述标准模型集群对所述实时业务请求进行预测,得到集群响应结果,基于所述集群响应结果生成消息队列;
对所述集群响应结果进行预测反馈,得到业务反馈结果,并将所述业务反馈结果发送至所述消息队列;
对所述消息队列中的所述业务反馈结果及所述集群响应结果进行关联,得到关联结果;
对所述关联结果进行标注处理,得到标注后的样本数据,并将所述标注后的样本数据补充至所述样本数据集。
可选地,所述根据所述样本数据集构建训练样本集,并基于所述训练样本集对待训练模型集群进行训练,得到标准模型集群,包括:
对所述样本数据集中的数据进行分类,得到分类数据集;
根据预构建的待训练模型集群,将所述分类数据集进行数据划分,得到所述训练样本集;
利用所述训练样本集对所述待训练模型集群中所述训练样本集对应的模型进行训练,得到标准模型,汇总所有训练完成的标准模型,得到所述标准模型集群。
可选地,所述基于所述标准模型集群对所述实时业务请求进行预测,得到集群响应结果,包括:
利用预设的网关生成所述实时业务请求的请求唯一标识;
利用所述标准模型集群中的标准模型对所述实时业务请求中的真实数据进行预测,得到预测结果;
对所述真实数据、所述请求唯一标识及所述预测结果进行封装,得到所述集群响应结果。
可选地,所述对所述集群响应结果进行预测反馈,得到业务反馈结果,包括:
调用预设的反馈接口,利用所述反馈接口获取所述集群响应结果的验证数据;
基于所述验证数据对所述集群响应结果中的预测结果进行验证;
当验证的结果为反馈一致时,将所述集群响应结果中的请求唯一标识、验证的结果确定为所述业务反馈结果;
当验证的结果为反馈不一致时,将所述集群响应结果中的请求唯一标识、验证的结果及所述验证数据确定为所述业务反馈结果。
可选地,所述对所述消息队列中的所述业务反馈结果及所述集群响应结果进行关联,得到关联结果,包括:
依次提取所述业务反馈结果中的请求唯一标识,及提取所述集群响应结果中的请求唯一标识;
将所述请求唯一标识相同的业务反馈结果及集群响应结果进行关联,得到所述关联结果。
可选地,所述方法还包括:
获取离线业务日志,对所述离线业务日志进行离线加工,得到加工后的样本数据,并将所述加工后的样本数据补充至所述样本数据集。
可选地,所述对所述离线业务日志进行离线加工,得到加工后的样本数据,包括:
获取所述离线业务日志中包括的业务系统离线日志及网关离线日志;
将所述业务系统离线日志保存为系统离线文件,及将所述网关离线日志保存为网关离线文件;
将所述系统离线文件及所述网关离线文件导入预构建的离线集群;
在所述离线集群中,利用所述请求唯一标识将所述业务系统离线日志及网关离线日志进行关联,并将关联后的数据作为样本数据。
为了解决上述问题,本发明还提供一种样本数据闭环生成装置,所述装置包括:
模型训练模块,用于获取样本数据集,根据所述样本数据集构建训练样本集,并基于所述训练样本集对待训练模型集群进行训练,得到标准模型集群;
请求预测模块,用于获取实时业务请求,基于所述标准模型集群对所述实时业务请求进行预测,得到集群响应结果,基于所述集群响应结果生成消息队列;
预测反馈模块,用于对所述集群响应结果进行预测反馈,得到业务反馈结果,并将所述业务反馈结果发送至所述消息队列;
数据关联模块,用于对所述消息队列中的所述业务反馈结果及所述集群响应结果进行关联,得到关联结果;
数据标注模块,用于对所述关联结果进行标注处理,得到标注后的样本数据,并将所述标注后的样本数据补充至所述样本数据集;
离线日志加工模块,用于获取离线业务日志,对所述离线业务日志进行离线加工,得到加工后的样本数据,并将所述加工后的样本数据补充至所述样本数据集。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现上述所述的样本数据闭环生成方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的样本数据闭环生成方法。
本发明基于不断将实时业务请求中的真实数据扩充为样本数据,使得样本数据集的完整度更高,利用完整度更高的样本数据集对模型进行训练,可以得到精度更高的模型,实现了数据闭环,能够实现样本数据的统一管理,防止样本数据的泄露,提高了样本数据的安全性。因此本发明提出的样本数据闭环生成方法、装置、电子设备及计算机可读存储介质,可以解决因样本数据不足而导致的模型精度较低的问题。
附图说明
图1为本发明一实施例提供的样本数据闭环生成方法的流程示意图;
图2为图1中其中一个步骤的详细实施流程示意图;
图3为图1中另一个步骤的详细实施流程示意图;
图4为图1中另一个步骤的详细实施流程示意图;
图5为图1中另一个步骤的详细实施流程示意图;
图6为本发明一实施例提供的样本数据闭环生成装置的功能模块图;
图7为本发明一实施例提供的实现所述样本数据闭环生成方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种样本数据闭环生成方法。所述样本数据闭环生成方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述样本数据闭环生成方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
参照图1所示,为本发明一实施例提供的样本数据闭环生成方法的流程示意图。在本实施例中,所述样本数据闭环生成方法包括:
S1、获取样本数据集,根据所述样本数据集构建训练样本集,并基于所述训练样本集对待训练模型集群进行训练,得到标准模型集群。
本发明实施例中,所述样本数据集可以为各领域的标注数据集,比如,在银行领域,通过从预构建的图像存储中心获取用户信息图像,利用字段提取模型对用户信息图像(可以为用户身份证图像)进行字段提取,并通过人工标注,业务反馈标注或其他标注方法补充标注信息,得到的带有完整标注信息的图像集,所述样本数据集可以包括人脸图像集群、字段提取集群等。
具体地,参照图2所示,所述根据所述样本数据集构建训练样本集,并基于所述训练样本集对待训练模型集群进行训练,得到标准模型集群,包括:
S10、对所述样本数据集中的数据进行分类,得到分类数据集;
S11、根据预构建的待训练模型集群,将所述分类数据集进行数据划分,得到所述训练样本集;
S12、利用所述训练样本集对所述待训练模型集群中所述训练样本集对应的模型进行训练,得到标准模型,汇总所有训练完成的标准模型,得到所述标准模型集群。
本发明实施例中,所述待训练模型集群可以包括多个模型并存储在预构建的容器云中,所述容器云中的模型可以包括OCR(Optical Character Recognition,光学字符识别)模型、NLP(Natural Language Processing,自然语言处理)模型等。
本发明一可选实施例中,以银行领域为例,所述样本数据集中包括用户信息图像及用户语音数据等,其中,所述用户信息图像会被划分到OCR模型训练样本,并用于训练OCR模型,所述用户语音数据会被划分到语音识别模型训练样本,并用于训练语音识别模型。
S2、获取实时业务请求,基于所述标准模型集群对所述实时业务请求进行预测,得到集群响应结果,基于所述集群响应结果生成消息队列。
本发明实施例中,所述实时业务请求来源于各个业务系统对所述标准模型集群中模型的请求,比如,在银行领域,A银行的业务系统包括“A口袋银行”、“A银行汽融助手”等,所述实时业务请求包括对身份证的字段提取请求、对人脸图像的人脸识别请求等,其中,身份证、人脸图像为请求中的真实数据。
具体地,参照图3所示,所述基于所述标准模型集群对所述实时业务请求进行预测,得到集群响应结果,包括:
S20、利用预设的网关生成所述实时业务请求的请求唯一标识;
S21、利用所述标准模型集群中的标准模型对所述实时业务请求中的真实数据进行预测,得到预测结果;
S22、对所述真实数据、所述请求唯一标识及所述预测结果进行封装,得到所述集群响应结果。
本发明一可选实施例中,所述预设的网关可以为AI服务网关(Service Gateway),所述AI服务网关是用来集中处理所有业务系统的业务请求的统一入口,所述AI服务网关首要的功能是负责统一接入各业务系统请求,然后将各业务系统请求的协议转换成内部的接口协议,通过所述接口协议和对应的标准模型集群中的标准模型相关联。所述AI服务网关包含了统一接入、协议适配、流量管理与容错及安全防护等功能,利用所述AI服务网关可以针对不同业务系统的业务请求生成不同的请求唯一标识requestId。
详细地,所述基于所述集群响应结果生成消息队列,包括:
利用预设的分发系统将所述集群响应结果分发至不同的集群,并在所述集群中将所述集群响应结果推送至不同的分类节点;
在所述分类节点中,将所述集群响应结果按照先后顺序进行排列,得到所述消息队列。
具体地,所述预设的分发系统可以为消息中间件Kafka处理平台,所述Kafka处理平台是一种高吞吐量的分布式发布订阅消息系统,包括类别(Topic)、分类节点(broker)、集群(kafka cluster)等结构。所述集群响应结果结果在Kafka处理平台被分发至不同的集群(kafka cluster),并在所述集群(kafka cluster)中的分类节点处(broker)进行分类,所述集群响应结果以类别(Topic)的形式进行存储,并按照先后顺序进行排列,得到所述消息队列。当所述集群响应结果来自于多个标准模型时,利用所述Kafka处理平台可以降低各个标准模型间的耦合性。同时,所述Kafka处理平台使用消息队列作为缓冲,将所述集群响应结果排列成消息队列,在一段时间内进行处理,提供高峰期业务处理能力。
本发明实施例中,基于预设的网关对所述业务请求进行预测并响应,可以防止业务请求的错乱,并且提高了对业务请求的流量管理能力。
S3、对所述集群响应结果进行预测反馈,得到业务反馈结果,并将所述业务反馈结果发送至所述消息队列。
具体地,参照图4所示,所述对所述集群响应结果进行预测反馈,得到业务反馈结果,包括:
S30、调用预设的反馈接口,利用所述反馈接口获取所述集群响应结果的验证数据;
S31、基于所述验证数据对所述集群响应结果中的预测结果进行验证;
当验证的结果为反馈一致时,执行S32、将所述集群响应结果中的请求唯一标识、验证的结果确定为所述业务反馈结果;
当验证的结果为反馈不一致时,执行S33、将所述集群响应结果中的请求唯一标识、验证的结果及所述验证数据确定为所述业务反馈结果。
本发明实施例中,所述反馈接口可以为feedback接口,所述反馈接口调用的验证数据可以为集群响应结果中预测结果对应的真实结果,通过将真实结果和预测结果进行对比,可以准确的判断各模型的预测结果(即集群响应结果)是否正确,所述业务反馈结果中包括预测准确与否,真实结果以及所属请求唯一标识。
S4、对所述消息队列中的所述业务反馈结果及所述集群响应结果进行关联,得到关联结果。
具体地,参照图5所示,所述对所述消息队列中的所述业务反馈结果及所述集群响应结果进行关联,得到关联结果,包括:
S40、依次提取所述业务反馈结果中的请求唯一标识,及提取所述集群响应结果中的请求唯一标识;
S41、将所述请求唯一标识相同的业务反馈结果及集群响应结果进行关联,得到所述关联结果。
本发明实施例中,通过请求唯一标识(requestId)将所述业务反馈结果及所述集群响应结果关联,可以确保数据标注的准确性。
S5、对所述关联结果进行标注处理,得到标注后的样本数据,并将所述标注后的样本数据补充至所述样本数据集。
具体地,所述对所述关联结果进行标注处理,得到标注后的样本数据,并将所述标注后的样本数据补充至所述样本数据集,包括:
当所述关联结果中业务反馈结果为反馈一致时,将所述关联结果作为标注,并将所述关联结果归类到所述样本数据集中对应的样本集群;
当所述关联结果中业务反馈结果为反馈不一致时,利用预设的标注规则对所述关联结果进行再标注,并将标注后的关联结果归类到所述样本数据集中对应的样本集群。
本发明实施例中,当关联结果中业务反馈结果为反馈一致时,将所述关联结果归类到对应的样本集群,由于关联结果中包括业务反馈结果及集群响应结果,相当于一种标注更加丰富的数据;当关联结果中业务反馈结果为反馈不一致时,利用预设的标注规则对所述集群响应结果(即模型的预测结果)进行再标注,比如,预设的标注规则可以为:设置身份证识别字段[民族]中包含[朝鲜族]的样本,归类到少数民族样本集。
本发明另一个实施例中,还可以包括S6、获取离线业务日志,对所述离线业务日志进行离线加工,得到加工后的样本数据,并将所述加工后的样本数据补充至所述样本数据集。
本发明实施例中,所述离线业务日志包括各业务系统的离线日志及AI服务网关中的离线日志。
具体地,所述获取离线业务日志,对所述离线业务日志进行离线加工,得到加工后的样本数据,包括:
获取所述离线业务日志中包括的业务系统离线日志及网关离线日志;
将所述业务系统离线日志保存为系统离线文件,及将所述网关离线日志保存为网关离线文件;
将所述系统离线文件及所述网关离线文件导入预构建的离线集群;
在所述离线集群中,利用所述请求唯一标识将所述业务系统离线日志及网关离线日志进行关联,并将关联后的数据作为样本数据。
本发明一可选实施例中,所述预构建的离线集群可以为Hadoop集群,所述Hadoop集群提供了分布式文件存储以及分布式离线并行计算,提高了离线处理的高拓展性。
本发明实施例中,某些场景下,对于集群响应结果无法立即进行业务反馈,比如,用户开户填写个人信息会用到NLP岗位识别结果,需要通过审核后,才能判定集群响应结果是否正确,此类型下无法进行实时反馈,通过分析业务系统离线日志及网关离线日志来实现数据回流,将业务系统离线日志保存为系统离线文件,导入Hadoop集群,所述系统离线文件中包括审核通过的客户信息,AI服务网关的离线日志也保存为网关离线文件,所述网关离线文件中包括模型预测结果,并定时(可以为T+1)导入Hadoop集群,在所述Hadoop集群中根据所述请求唯一标识来关联审核通过的客户信息和模型预测结果,并将关联后的数据作为样本数据。
例如,若生产中发现少数民族身份证识别率不高,通过离线日志筛选少数民族客户,将身份证样本标注,再送回模型训练,会提高模型对少数民族身份证识别率的精确度。
本发明基于实时和离线两种路径不断将实时业务请求中的真实数据扩充为样本数据,使得样本数据集的完整度更高,利用完整度更高的样本数据集对模型进行训练,可以得到精度更高的模型,并且,实时和离线两种路径均实现了数据闭环,能够实现样本数据的统一管理,防止样本数据的泄露,提高了样本数据的安全性。因此本发明提出的样本数据闭环生成方法、装置、电子设备及计算机可读存储介质,可以解决因样本数据不足而导致的模型精度较低的问题。
如图6所示,是本发明一实施例提供的样本数据闭环生成装置的功能模块图。
本发明所述样本数据闭环生成装置100可以安装于电子设备中。根据实现的功能,所述样本数据闭环生成装置100可以包括模型训练模块101、请求预测模块102、预测反馈模块103、数据关联模块104及数据标注模块105。本发明另一个实施例中,所述样本数据闭环生成装置100还可以包括离线日志加工模块106。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述模型训练模块101,用于获取样本数据集,根据所述样本数据集构建训练样本集,并基于所述训练样本集对待训练模型集群进行训练,得到标准模型集群。
本发明实施例中,所述样本数据集可以为各领域的标注数据集,比如,在银行领域,通过从预构建的图像存储中心获取用户信息图像,利用字段提取模型对用户信息图像(可以为用户身份证图像)进行字段提取,并通过人工标注,业务反馈标注或其他标注方法补充标注信息,得到的带有完整标注信息的图像集,所述样本数据集可以包括人脸图像集群、字段提取集群等。
具体地,所述模型训练模块101通过下述操作得到标准模型集群:
对所述样本数据集中的数据进行分类,得到分类数据集;
根据预构建的待训练模型集群,将所述分类数据集进行数据划分,得到所述训练样本集;
利用所述训练样本集对所述待训练模型集群中所述训练样本集对应的模型进行训练,得到标准模型,汇总所有训练完成的标准模型,得到所述标准模型集群。
本发明实施例中,所述待训练模型集群可以包括多个模型并存储在预构建的容器云中,所述容器云中的模型可以包括OCR(Optical Character Recognition,光学字符识别)模型、NLP(Natural Language Processing,自然语言处理)模型等。
本发明一可选实施例中,以银行领域为例,所述样本数据集中包括用户信息图像及用户语音数据等,其中,所述用户信息图像会被划分到OCR模型训练样本,并用于训练OCR模型,所述用户语音数据会被划分到语音识别模型训练样本,并用于训练语音识别模型。
所述请求预测模块102,用于获取实时业务请求,基于所述标准模型集群对所述实时业务请求进行预测,得到集群响应结果,基于所述集群响应结果生成消息队列。
本发明实施例中,所述实时业务请求来源于各个业务系统对所述标准模型集群中模型的请求,比如,在银行领域,A银行的业务系统包括“A口袋银行”、“A银行汽融助手”等,所述实时业务请求包括对身份证的字段提取请求、对人脸图像的人脸识别请求等,其中,身份证、人脸图像为请求中的真实数据。
具体地,所述请求预测模块102通过下述操作得到集群响应结果:
利用预设的网关生成所述实时业务请求的请求唯一标识;
利用所述标准模型集群中的标准模型对所述实时业务请求中的真实数据进行预测,得到预测结果;
对所述真实数据、所述请求唯一标识及所述预测结果进行封装,得到所述集群响应结果。
本发明一可选实施例中,所述预设的网关可以为AI服务网关(Service Gateway),所述AI服务网关是用来集中处理所有业务系统的业务请求的统一入口,所述AI服务网关首要的功能是负责统一接入各业务系统请求,然后将各业务系统请求的协议转换成内部的接口协议,通过所述接口协议和对应的标准模型集群中的标准模型相关联。所述AI服务网关包含了统一接入、协议适配、流量管理与容错及安全防护等功能,利用所述AI服务网关可以针对不同业务系统的业务请求生成不同的请求唯一标识requestId。
详细地,所述请求预测模块102通过下述操作生成消息队列,包括:
利用预设的分发系统将所述集群响应结果分发至不同的集群,并在所述集群中将所述集群响应结果推送至不同的分类节点;
在所述分类节点中,将所述集群响应结果按照先后顺序进行排列,得到所述消息队列。
具体地,所述预设的分发系统可以为消息中间件Kafka处理平台,所述Kafka处理平台是一种高吞吐量的分布式发布订阅消息系统,包括类别(Topic)、分类节点(broker)、集群(kafka cluster)等结构。所述集群响应结果结果在Kafka处理平台被分发至不同的集群(kafka cluster),并在所述集群(kafka cluster)中的分类节点处(broker)进行分类,所述集群响应结果以类别(Topic)的形式进行存储,并按照先后顺序进行排列,得到所述消息队列。当所述集群响应结果来自于多个标准模型时,利用所述Kafka处理平台可以降低各个标准模型间的耦合性。同时,所述Kafka处理平台使用消息队列作为缓冲,将所述集群响应结果排列成消息队列,在一段时间内进行处理,提供高峰期业务处理能力。
本发明实施例中,基于预设的网关对所述业务请求进行预测并响应,可以防止业务请求的错乱,并且提高了对业务请求的流量管理能力。
所述预测反馈模块103,用于对所述集群响应结果进行预测反馈,得到业务反馈结果,并将所述业务反馈结果发送至所述消息队列。
具体地,所述预测反馈模块103通过下述操作得到业务反馈结果:
调用预设的反馈接口,利用所述反馈接口获取所述集群响应结果的验证数据;
基于所述验证数据对所述集群响应结果中的预测结果进行验证;
当验证的结果为反馈一致时,将所述集群响应结果中的请求唯一标识、验证的结果确定为所述业务反馈结果;
当验证的结果为反馈不一致时,将所述集群响应结果中的请求唯一标识、验证的结果及所述验证数据确定为所述业务反馈结果。
本发明实施例中,所述反馈接口可以为feedback接口,所述反馈接口调用的验证数据可以为集群响应结果中预测结果对应的真实结果,通过将真实结果和预测结果进行对比,可以准确的判断各模型的预测结果(即集群响应结果)是否正确,所述业务反馈结果中包括预测准确与否,真实结果以及所属请求唯一标识。
所述数据关联模块104,用于对所述消息队列中的所述业务反馈结果及所述集群响应结果进行关联,得到关联结果。
具体地,所述数据关联模块104通过下述操作得到关联结果:
依次提取所述业务反馈结果中的请求唯一标识,及提取所述集群响应结果中的请求唯一标识;
将所述请求唯一标识相同的业务反馈结果及集群响应结果进行关联,得到所述关联结果。
本发明实施例中,通过请求唯一标识(requestId)将所述业务反馈结果及所述集群响应结果关联,可以确保数据标注的准确性。
所述数据标注模块105,用于对所述关联结果进行标注处理,得到标注后的样本数据,并将所述标注后的样本数据补充至所述样本数据集。
具体地,所述数据标注模块105通过下述操作对所述关联结果进行标注处理,得到标注后的样本数据,并将所述标注后的样本数据补充至所述样本数据集,包括:
当所述关联结果中业务反馈结果为反馈一致时,将所述关联结果作为标注,并将所述关联结果归类到所述样本数据集中对应的样本集群;
当所述关联结果中业务反馈结果为反馈不一致时,利用预设的标注规则对所述关联结果进行再标注,并将标注后的关联结果归类到所述样本数据集中对应的样本集群。
本发明实施例中,当关联结果中业务反馈结果为反馈一致时,将所述关联结果归类到对应的样本集群,由于关联结果中包括业务反馈结果及集群响应结果,相当于一种标注更加丰富的数据;当关联结果中业务反馈结果为反馈不一致时,利用预设的标注规则对所述集群响应结果(即模型的预测结果)进行再标注,比如,预设的标注规则可以为:设置身份证识别字段[民族]中包含[朝鲜族]的样本,归类到少数民族样本集。
本发明另一个实施例中,所述样本数据闭环生成装置100还可以包括离线日志加工模块106,所述离线日志加工模块106,用于获取离线业务日志,对所述离线业务日志进行离线加工,得到加工后的样本数据,并将所述加工后的样本数据补充至所述样本数据集。
本发明实施例中,所述离线业务日志包括各业务系统的离线日志及AI服务网关中的离线日志。
具体地,所述离线日志加工模块106通过下述操作得到加工后的样本数据:
获取所述离线业务日志中包括的业务系统离线日志及网关离线日志;
将所述业务系统离线日志保存为系统离线文件,及将所述网关离线日志保存为网关离线文件;
将所述系统离线文件及所述网关离线文件导入预构建的离线集群;
在所述离线集群中,利用所述请求唯一标识将所述业务系统离线日志及网关离线日志进行关联,并将关联后的数据作为样本数据。
本发明一可选实施例中,所述预构建的离线集群可以为Hadoop集群,所述Hadoop集群提供了分布式文件存储以及分布式离线并行计算,提高了离线处理的高拓展性。
本发明实施例中,某些场景下,对于集群响应结果无法立即进行业务反馈,比如,用户开户填写个人信息会用到NLP岗位识别结果,需要通过审核后,才能判定集群响应结果是否正确,此类型下无法进行实时反馈,通过分析业务系统离线日志及网关离线日志来实现数据回流,将业务系统离线日志保存为系统离线文件,导入Hadoop集群,所述系统离线文件中包括审核通过的客户信息,AI服务网关的离线日志也保存为网关离线文件,所述网关离线文件中包括模型预测结果,并定时(可以为T+1)导入Hadoop集群,在所述Hadoop集群中根据所述请求唯一标识来关联审核通过的客户信息和模型预测结果,并将关联后的数据作为样本数据。
例如,若生产中发现少数民族身份证识别率不高,通过离线日志筛选少数民族客户,将身份证样本标注,再送回模型训练,会提高模型对少数民族身份证识别率的精确度。
如图7所示,是本发明一实施例提供的实现样本数据闭环生成方法的电子设备的结构示意图,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111,通信接口112,存储器113通过通信总线114完成相互间的通信,
存储器113,用于存放计算机程序,如样本数据闭环生成程序;
在本申请一个实施例中,处理器111,用于执行存储器113上所存放的程序时,实现前述任意一个方法实施例提供的样本数据闭环生成方法,包括:
获取样本数据集,根据所述样本数据集构建训练样本集,并基于所述训练样本集对待训练模型集群进行训练,得到标准模型集群;
获取实时业务请求,基于所述标准模型集群对所述实时业务请求进行预测,得到集群响应结果,基于所述集群响应结果生成消息队列;
对所述集群响应结果进行预测反馈,得到业务反馈结果,并将所述业务反馈结果发送至所述消息队列;
对所述消息队列中的所述业务反馈结果及所述集群响应结果进行关联,得到关联结果;
对所述关联结果进行标注处理,得到标注后的样本数据,并将所述标注后的样本数据补充至所述样本数据集。
上述通信总线114可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该通信总线114可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口112用于上述电子设备与其他设备之间的通信。
存储器113可以包括随机存取存储器(RandomAccessMemory,简称RAM),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器113还可以是至少一个位于远离前述处理器111的存储装置。
上述的处理器111可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取样本数据集,根据所述样本数据集构建训练样本集,并基于所述训练样本集对待训练模型集群进行训练,得到标准模型集群;
获取实时业务请求,基于所述标准模型集群对所述实时业务请求进行预测,得到集群响应结果,基于所述集群响应结果生成消息队列;
对所述集群响应结果进行预测反馈,得到业务反馈结果,并将所述业务反馈结果发送至所述消息队列;
对所述消息队列中的所述业务反馈结果及所述集群响应结果进行关联,得到关联结果;
对所述关联结果进行标注处理,得到标注后的样本数据,并将所述标注后的样本数据补充至所述样本数据集。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种样本数据闭环生成方法,其特征在于,所述方法包括:
获取样本数据集,根据所述样本数据集构建训练样本集,并基于所述训练样本集对待训练模型集群进行训练,得到标准模型集群;
获取实时业务请求,基于所述标准模型集群对所述实时业务请求进行预测,得到集群响应结果,基于所述集群响应结果生成消息队列;
对所述集群响应结果进行预测反馈,得到业务反馈结果,并将所述业务反馈结果发送至所述消息队列;
对所述消息队列中的所述业务反馈结果及所述集群响应结果进行关联,得到关联结果;
对所述关联结果进行标注处理,得到标注后的样本数据,并将所述标注后的样本数据补充至所述样本数据集。
2.如权利要求1所述的样本数据闭环生成方法,其特征在于,所述根据所述样本数据集构建训练样本集,并基于所述训练样本集对待训练模型集群进行训练,得到标准模型集群,包括:
对所述样本数据集中的数据进行分类,得到分类数据集;
根据预构建的待训练模型集群,将所述分类数据集进行数据划分,得到所述训练样本集;
利用所述训练样本集对所述待训练模型集群中所述训练样本集对应的模型进行训练,得到标准模型,汇总所有训练完成的标准模型,得到所述标准模型集群。
3.如权利要求1所述的样本数据闭环生成方法,其特征在于,所述基于所述标准模型集群对所述实时业务请求进行预测,得到集群响应结果,包括:
利用预设的网关生成所述实时业务请求的请求唯一标识;
利用所述标准模型集群中的标准模型对所述实时业务请求中的真实数据进行预测,得到预测结果;
对所述真实数据、所述请求唯一标识及所述预测结果进行封装,得到所述集群响应结果。
4.如权利要求3所述的样本数据闭环生成方法,其特征在于,所述对所述集群响应结果进行预测反馈,得到业务反馈结果,包括:
调用预设的反馈接口,利用所述反馈接口获取所述集群响应结果的验证数据;
基于所述验证数据对所述集群响应结果中的预测结果进行验证;
当验证的结果为反馈一致时,将所述集群响应结果中的请求唯一标识、验证的结果确定为所述业务反馈结果;
当验证的结果为反馈不一致时,将所述集群响应结果中的请求唯一标识、验证的结果及所述验证数据确定为所述业务反馈结果。
5.如权利要求1至4中任意一项所述的样本数据闭环生成方法,其特征在于,所述对所述消息队列中的所述业务反馈结果及所述集群响应结果进行关联,得到关联结果,包括:
依次提取所述业务反馈结果中的请求唯一标识,及提取所述集群响应结果中的请求唯一标识;
将所述请求唯一标识相同的业务反馈结果及集群响应结果进行关联,得到所述关联结果。
6.如权利要求1所述的样本数据闭环生成方法,其特征在于,所述方法还包括:
获取离线业务日志,对所述离线业务日志进行离线加工,得到加工后的样本数据,并将所述加工后的样本数据补充至所述样本数据集。
7.如权利要求6所述的样本数据闭环生成方法,其特征在于,所述对所述离线业务日志进行离线加工,得到加工后的样本数据,包括:
获取所述离线业务日志中包括的业务系统离线日志及网关离线日志;
将所述业务系统离线日志保存为系统离线文件,及将所述网关离线日志保存为网关离线文件;
将所述系统离线文件及所述网关离线文件导入预构建的离线集群;
在所述离线集群中,利用所述请求唯一标识将所述业务系统离线日志及网关离线日志进行关联,并将关联后的数据作为样本数据。
8.一种样本数据闭环生成装置,其特征在于,所述装置包括:
模型训练模块,用于获取样本数据集,根据所述样本数据集构建训练样本集,并基于所述训练样本集对待训练模型集群进行训练,得到标准模型集群;
请求预测模块,用于获取实时业务请求,基于所述标准模型集群对所述实时业务请求进行预测,得到集群响应结果,基于所述集群响应结果生成消息队列;
预测反馈模块,用于对所述集群响应结果进行预测反馈,得到业务反馈结果,并将所述业务反馈结果发送至所述消息队列;
数据关联模块,用于对所述消息队列中的所述业务反馈结果及所述集群响应结果进行关联,得到关联结果;
数据标注模块,用于对所述关联结果进行标注处理,得到标注后的样本数据,并将所述标注后的样本数据补充至所述样本数据集;
离线日志加工模块,用于获取离线业务日志,对所述离线业务日志进行离线加工,得到加工后的样本数据,并将所述加工后的样本数据补充至所述样本数据集。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的样本数据闭环生成方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的样本数据闭环生成方法。
CN202110570309.4A 2021-05-25 2021-05-25 样本数据闭环生成方法、装置、设备及存储介质 Active CN113505805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110570309.4A CN113505805B (zh) 2021-05-25 2021-05-25 样本数据闭环生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110570309.4A CN113505805B (zh) 2021-05-25 2021-05-25 样本数据闭环生成方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113505805A true CN113505805A (zh) 2021-10-15
CN113505805B CN113505805B (zh) 2023-10-13

Family

ID=78008586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110570309.4A Active CN113505805B (zh) 2021-05-25 2021-05-25 样本数据闭环生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113505805B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114861937A (zh) * 2022-05-10 2022-08-05 深圳市千乘机器人有限公司 一种数据的识别和训练方法
WO2024073948A1 (en) * 2022-12-16 2024-04-11 Lenovo (Beijing) Limited Method and apparatus of supporting artificial intelligence

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6937994B1 (en) * 2000-02-24 2005-08-30 International Business Machines Corporation System and method for efficiently generating models for targeting products and promotions using classification method by choosing points to be labeled
US10339468B1 (en) * 2014-10-28 2019-07-02 Groupon, Inc. Curating training data for incremental re-training of a predictive model
CN110674408A (zh) * 2019-09-30 2020-01-10 北京三快在线科技有限公司 业务平台、训练样本的实时生成方法及装置
CN111126574A (zh) * 2019-12-30 2020-05-08 腾讯科技(深圳)有限公司 基于内镜图像对机器学习模型进行训练的方法、装置和存储介质
CN112231224A (zh) * 2020-10-30 2021-01-15 平安银行股份有限公司 基于人工智能的业务系统测试方法、装置、设备和介质
JPWO2021079425A1 (zh) * 2019-10-23 2021-04-29

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6937994B1 (en) * 2000-02-24 2005-08-30 International Business Machines Corporation System and method for efficiently generating models for targeting products and promotions using classification method by choosing points to be labeled
US10339468B1 (en) * 2014-10-28 2019-07-02 Groupon, Inc. Curating training data for incremental re-training of a predictive model
CN110674408A (zh) * 2019-09-30 2020-01-10 北京三快在线科技有限公司 业务平台、训练样本的实时生成方法及装置
JPWO2021079425A1 (zh) * 2019-10-23 2021-04-29
CN111126574A (zh) * 2019-12-30 2020-05-08 腾讯科技(深圳)有限公司 基于内镜图像对机器学习模型进行训练的方法、装置和存储介质
CN112231224A (zh) * 2020-10-30 2021-01-15 平安银行股份有限公司 基于人工智能的业务系统测试方法、装置、设备和介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周立君;刘宇;白璐;茹志兵;于帅;: "一种基于GAN和自适应迁移学习的样本生成方法", 应用光学, no. 01 *
杨懿男;齐林海;王红;苏林萍;: "基于生成对抗网络的小样本数据生成技术研究", 电力建设, no. 05 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114861937A (zh) * 2022-05-10 2022-08-05 深圳市千乘机器人有限公司 一种数据的识别和训练方法
WO2024073948A1 (en) * 2022-12-16 2024-04-11 Lenovo (Beijing) Limited Method and apparatus of supporting artificial intelligence

Also Published As

Publication number Publication date
CN113505805B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN112465411B (zh) 一种风险预测方法、装置及设备
CN110740356B (zh) 基于区块链的直播数据的监控方法及系统
CN113505805B (zh) 样本数据闭环生成方法、装置、设备及存储介质
CN115237802A (zh) 基于人工智能的模拟测试方法及相关设备
CN113282514B (zh) 问题数据的处理方法、装置、计算机设备和存储介质
CN115130711A (zh) 一种数据处理方法、装置、计算机及可读存储介质
CN112769951A (zh) 结合区块链和在线业务的支付网络状态处理方法及服务器
CN112417315A (zh) 基于网站注册的用户画像生成方法、装置、设备和介质
CN115237724A (zh) 基于人工智能的数据监控方法、装置、设备及存储介质
CN113487103A (zh) 模型更新方法、装置、设备及存储介质
CN113938408A (zh) 一种数据流量测试方法、装置、服务器及存储介质
CN113850669A (zh) 用户分群方法、装置、计算机设备及计算机可读存储介质
CN116469111B (zh) 一种文字生成模型训练方法及目标文字生成方法
CN112269875A (zh) 文本分类方法、装置、电子设备及存储介质
CN115189893A (zh) 基于神经网络的区块链共识方法及其相关设备
CN115757075A (zh) 任务异常检测方法、装置、计算机设备及存储介质
CN111899765B (zh) 基于情绪预测模型的语音发送方法、装置和计算机设备
CN114493850A (zh) 基于人工智能的在线公证方法、系统及存储介质
CN113946579A (zh) 基于模型的数据生成方法、装置、计算机设备和存储介质
CN113591881A (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN117171185B (zh) 基于工业标识的物流数据变更方法及相关设备
CN115577867B (zh) 一种抽检任务创建方法、系统、计算机设备及存储介质
CN105701114B (zh) 解决方案搜寻系统的操作方法及解决方案搜寻系统
CN113723524B (zh) 基于预测模型的数据处理方法、相关设备及介质
CN117235260A (zh) 基于人工智能的文本标注方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant