CN116595336B - 一种数据纠偏方法、装置和设备 - Google Patents
一种数据纠偏方法、装置和设备 Download PDFInfo
- Publication number
- CN116595336B CN116595336B CN202310825987.XA CN202310825987A CN116595336B CN 116595336 B CN116595336 B CN 116595336B CN 202310825987 A CN202310825987 A CN 202310825987A CN 116595336 B CN116595336 B CN 116595336B
- Authority
- CN
- China
- Prior art keywords
- updated
- white list
- model
- value
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims abstract description 179
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012986 modification Methods 0.000 claims abstract description 56
- 230000004048 modification Effects 0.000 claims abstract description 56
- 238000012790 confirmation Methods 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 16
- 101100129590 Schizosaccharomyces pombe (strain 972 / ATCC 24843) mcp5 gene Proteins 0.000 claims description 8
- 238000002372 labelling Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本说明书实施例公开了一种数据纠偏方法、装置和设备。数据纠偏方法包括:基于用户输入的判断结果,对白名单、和/或规则库进行更新,获得更新的白名单、和/或更新的规则库,所述用户输入为基于结构化数据的输入;当所述更新的白名单中包括的所述用户修改操作数大于等于第一预设阈值时,则基于所述更新的白名单、和/或所述更新的规则库进行样本库的更新,获得更新的样本库;基于所述更新的样本库,对修正模型进行重训,获得新修正模型;基于所述新修正模型的准确率及所述修正模型的准确率,确定上线模型;若所述上线模型为所述新修正模型,则基于所述上线模型,对基于所述修正模型和所述原模型获得的识别结果进行修正。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种数据纠偏方法、装置和设备。
背景技术
数据识别模型用于进行数据识别、数据分类等操作,数据识别模型在完成训练上线后,其识别能力一般是固化的。而在用户使用数据识别模型的过程中,经常存在用户经验结果与模型推理结果相冲突的情况,影响数据识别模型的准确度。因此,实现数据识别模型的在线修正很有必要。
现有技术中,为了提高数据识别、数据分类的准确性,往往采用以机器自动标注为代表的数据标注技术。数据标注技术在实现模型自动构建的同时,在模型能力方面融入了部分的用户经验。但该技术在本质上仍属于模型构建手段,无法支持模型上线后的能力修正,更无法将用户经验持续在线融合。
因此,需要一种新的数据纠偏方法,以提高数据识别、数据分类的准确性。
发明内容
本说明书实施例提供一种数据纠偏方法、装置和设备,用于解决如下技术问题:现有的以机器自动标注为代表的数据标注技术,提高数据识别、数据分类的准确性的方法,在本质上仍属于模型构建手段,无法支持模型上线后的能力修正,更无法将用户经验持续在线融合。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种数据纠偏方法,包括:
基于用户输入的判断结果,对白名单、和/或规则库进行更新,获得更新的白名单、和/或更新的规则库,所述用户输入为基于结构化数据的输入,所述白名单至少包括:key、value及用户信息;
当所述更新的白名单中包括的所述用户修改操作数大于等于第一预设阈值时,则基于所述更新的白名单、和/或所述更新的规则库进行样本库的更新,获得更新的样本库;
基于所述更新的样本库,对修正模型进行重训,获得新修正模型;
基于所述新修正模型的准确率及所述修正模型的准确率,确定上线模型;
若所述上线模型为所述新修正模型,则基于所述上线模型,对基于所述修正模型和所述原模型获得的识别结果进行修正。
本说明书实施例提供的一种数据纠偏装置,所述装置包括:
判断模块,基于用户输入的判断结果,对白名单、和/或规则库进行更新,获得更新的白名单、和/或更新的规则库,所述用户输入为基于结构化数据的输入,所述白名单至少包括:key、value及用户信息;
样本库更新模块,当所述更新的白名单中包括的所述用户修改操作数大于等于第一预设阈值时,则基于所述更新的白名单、和/或所述更新的规则库进行样本库的更新,获得更新的样本库;
重训模块,基于所述更新的样本库,对修正模型进行重训,获得新修正模型;
决策模块,基于所述新修正模型的准确率及所述修正模型的准确率,确定上线模型;
修正模块,若所述上线模型为所述新修正模型,则基于所述上线模型,对基于所述修正模型和所述原模型获得的识别结果进行修正。
本说明书实施例提供的一种数据纠偏设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
基于用户输入的判断结果,对白名单、和/或规则库进行更新,获得更新的白名单、和/或更新的规则库,所述用户输入为基于结构化数据的输入,所述白名单至少包括:key、value及用户信息;
当所述更新的白名单中包括的所述用户修改操作数大于等于第一预设阈值时,则基于所述更新的白名单、和/或所述更新的规则库进行样本库的更新,获得更新的样本库;
基于所述更新的样本库,对修正模型进行重训,获得新修正模型;
基于所述新修正模型的准确率及所述修正模型的准确率,确定上线模型;
若所述上线模型为所述新修正模型,则基于所述上线模型,对基于所述修正模型和所述原模型获得的识别结果进行修正。
本说明书一个实施例至少能够达到以下有益效果:基于用户输入的判断结果,对白名单、和/或规则库进行更新,获得更新的白名单、和/或更新的规则库,所述用户输入为基于结构化数据的输入,所述白名单至少包括:key、value及用户信息;当所述更新的白名单中包括的所述用户修改操作数大于等于第一预设阈值时,则基于所述更新的白名单、和/或所述更新的规则库进行样本库的更新,获得更新的样本库;基于所述更新的样本库,对修正模型进行重训,获得新修正模型;基于所述新修正模型的准确率及所述修正模型的准确率,确定上线模型;若所述上线模型为所述新修正模型,则基于所述上线模型,对基于所述修正模型和所述原模型获得的识别结果进行修正。该方法应用于模型上线后,能够支持模型上线后的用户经验成果的即时融合,且能够支持模型自动修正优化,进而实现局部数据识别能力的持续提升。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的数据纠偏方法的系统架构示意图;
图2为本说明书实施例提供的一种数据纠偏方法的总体框架图;
图3为本说明书实施例提供的一种数据纠偏方法的流程示意图;
图4为本说明书实施例提供的一种用户交互算法的流程示意图;
图5为本说明书实施例提供的模型修正算法的流程示意图;
图6为本说明书实施例提供的又一种数据纠偏方法的流程示意图;
图7为本说明书实施例提供的一种数据纠偏装置的示意图。
具体实施方式
数据标注技术主要是对待识别分类的数据进行手动/自动标注,形成标注结果集,包括人工手动标注和机器自动标注,其中:人工手动标注通过持续收集用户的标记结果,形成标记样本集,可将用户经验转换为成果集合(即标记结果集);机器自动标注利用机器学习技术,将部分用户标记结果作为训练样本来训练模型,可将用户经验融合到模型中。数据标注技术在实现模型自动构建的同时,在模型能力方面融入了部分的用户经验,由于用户经验的存在,使得模型的数据识别、数据分类结果更为准确。
但是以机器自动标注为代表的数据标注技术,应用于模型构建阶段,采用标记结果收集的方式收集用户经验,利用用户经验来构建模型,且该方法针对的是全局模型实现全局数据的数据识别、数据分类。这种以机器自动标注为代表的数据标注技术,无法针对模型上线阶段后模型的更新,也无法解决局部数据的能力修正与优化问题。
基于此,本说明书实施例提供一种数据纠偏方法,通过在线收集用户的交互行为信息,牵引数据识别模型能力持续修正进化,结合白名单和规则库设计,最终实现在不影响原模型识别能力的前提下,提升对特定和局部数据的识别能力。
为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书一个或多个实施例保护的范围。
应当理解,尽管在本申请文件中可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书实施例提供的数据纠偏方法的系统架构示意图。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用。例如具有数据纠偏等功能的专用应用程序。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种专用或通用的电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。
服务器105可以是提供各种服务的服务器,例如为终端设备101、102、103上所安装的客户端应用提供服务的后端服务器。例如,服务器可以训练并运行数据纠偏模型,实现数据纠偏功能,以便将数据纠偏后的结果显示在终端设备101、102、103上。
服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。
本公开实施例提供的数据纠偏方法例如可以由服务器105执行,也可以由终端设备101、102、103执行。或者,本公开实施例的数据纠偏方法可以部分地由终端设备101、102、103执行,其他部分由服务器105执行。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2为本说明书实施例提供的一种数据纠偏方法的总体框架图。如图2所示,本说明书实施例提供的数据纠偏方法,基于用户交互,进行纠偏能力学习进化,一方面通过白名单更新、规则库更新实时实现白名单纠偏和规则库纠偏,另一方面通过修正模型更新,实现修正模型纠偏,即通过确定上线模型,实现修正模型纠偏。在实现白名单纠偏、规则库纠偏及修正模型纠偏的基础上,在原模型识别结果的基础上,进行模型结果纠正。
为了进一步理解本说明书实施例提供的数据纠偏方法,下面将结合具体的实施例予以说明。图3为本说明书实施例提供的一种数据纠偏方法的流程示意图。如图3所示,该数据纠偏方法包括:
步骤S301:基于用户输入的判断结果,对白名单、和/或规则库进行更新,获得更新的白名单、和/或更新的规则库,所述用户输入为基于结构化数据的输入,所述白名单至少包括:key、value及用户信息。
在本说明书实施例中,用户输入为基于结构化数据的输入,需要特别说明的是,该结构化数据做广义理解,即为结构化数据,或者可以转化为结构化数据的数据。具体而言,可以为图像数据、文本数据、视频数据、音频数据。若用户输入为可以转化为结构化数据的数据,则接收用户输入后,将用户输入转化为结构化数据的输入,进而基于用户输入的判断结果,对白名单、和/或规则库进行更新,获得更新的白名单、和/或更新的规则库,所述用户输入为基于结构化数据的输入,所述白名单至少包括:key、value及用户信息。在具体实施例中,用于用户输入的数据可以是图像数据、文本数据、视频数据、音频数据等。用户信息是指对数据进行的修改、确认操作,更具体的,是对数据进行修改、确认操作的添加途径,该添加途径为一种标记,表明对数据的操作,例如对数据进行修改,则标注为mark=M,如对数据进行确认,则mark=C。
接收用户输入后,会判断用户输入的类型,即用户输入是白名单,或者用户输入规则,或者用户使用模型识别服务,或者用户对输出结果产生了修改或确认操作,进而进行白名单纠偏、规则库纠偏、修正模型纠偏。其中,白名单为确认后的key-value记录集合,即白名单为识别某条key-value;用户输入规则是针对符合特征的key直接指定value值,即规则库是针对白名单的规则的集合;用户使用模型识别服务,即给定key,查询并输出对应的value值。关于用户对输出结果产生了修改或确认操作,一般是与用户使用模型识别服务相联系的,用户使用模型识别服务后,会对模型识别产生的输出结果进行修改或者确认操作。需要特别说明的是,用户使用模型识别服务的过程,是对修正模型进行纠偏的过程。
在本说明书实施例中,所述基于用户输入的判断结果,对白名单、和/或规则库进行更新,获得更新的白名单、和/或更新的规则库,具体包括:
若所述用户输入为确认后的key-value记录集合,则将所述确认后的key-value记录集合加入所述白名单中,对所述白名单进行更新,获得所述更新的白名单;
和/或
若所述用户输入为针对符合特征的key直接指定value值,则将针对符合特征的key直接指定value值的规则加入所述规则库,获得所述更新的规则库;
和/或
若所述用户输入为给定key,查询并输出对应的value值,则基于预设的优先级,确定所述给定key的value值;
若所述用户输入为针对输出结果的修改或确认操作,则基于所述修改操作,更新所述白名单或者更新所述规则库,或者基于所述确认操作,更新所述白名单,获得所述更新的白名单。
在本说明书实施例中,所述若所述用户输入为给定key,查询并输出对应的value值,则基于预设的优先级,确定所述给定key的value值,具体包括:
基于用户输入的给定key,查询所述白名单,若所述给定key命中所述白名单,则将所述白名单中key对应的value值作为所述给定key的value值;
若未命中所述白名单,则查询所述规则库,若所述给定key命中所述规则库,则基于所述规则库计算所述给定key的value,作为所述给定key的value值;
若所述给定key未命中所述规则库,则调用原模型计算获得value1,调用修正模型计算获得value2,若value1==value2,输出value=value1;
否则,
基于所述给定key,从所述白名单中标记为修改的子集中检索相似度最高的记录result,基于所述给定key与所述result.key的向量余弦距离,确定所述给定key的输出value。
一般而言,若在用户使用模型识别服务时,未命中白名单及规则库,则认为存在需要进行局部调整的数据,此时会调用修正模型,进而确定输出value。
在本说明书实施例中,所述基于所述给定key与所述result.key的向量余弦距离,确定所述给定key的输出value,具体包括:
若给定key与result.key的向量余弦距离绝对值不大于预设值,则输出value=value1,即将调用原模型计算获得的value1作为value进行输出;
若给定key与result.key的向量余弦距离绝对值大于预设值,则选取a%的用户,输出value=value1,1-a%的用户输出value=value2。
在具体实施例中,预设值可以为0.9,a可以为10。
向量余弦距离也称为余弦相似度,用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量,该参数用于衡量两个数据之间的距离远近,向量余弦距离的绝对值越接近1,则向量越相似,判定为局部数据。即向量余弦距离的绝对值大于预设值时,则认为为局部数据。
在本说明书实施例中,所述若所述用户输入为针对输出结果的修改或确认操作,则基于所述修改操作,更新所述白名单或者更新所述规则库,或者基于所述确认操作,更新所述白名单,具体包括:
若所述用户输入为针对输出结果的修改,则确认所述用户输入是否在所述白名单中,若所述用户输入在所述白名单中,则更新所述白名单中修改后的value,若所述用户输入不在所述白名单中,并将所述用户输入的key-value添加到所述白名单中,并标注所述白名单中用户输入的key-value的添加途径;若所述用户输入的key-value命中所述规则库的,则将所述规则库中的命中规则错误记录+1,若所述规则库中的命中规则错误记录大于等于第二预设阈值,则将所述规则库中的命中规则移除所述规则库;
若所述用户输入为针对输出结果的确认,且所述用户输入的key-value不在所述白名单中,则将所述用户输入的key-value添加到所述白名单中,并标注所述白名单中用户输入的key-value的添加途径。
具体实施例中,第二预设阈值可以为10,添加途径包括修改或者确认。若所述用户输入为针对输出结果的确认,且所述用户输入的key-value不在所述白名单中,则将所述用户输入的key-value添加到所述白名单中,并标注所述白名单中用户输入的key-value的添加途径为修改。
为了进一步理解本说明书实施例中,基于用户输入的判断结果,对白名单、和/或规则库进行更新,获得更新的白名单、和/或更新的规则库,下面将结合具体的示意图予以说明。图4为本说明书实施例提供的用户交互算法的示意图。
如图4所示,接收用户输入后,首先判断用户输入是否为白名单。若用户输入为白名单,则补充到白名单中;若用户输入不是白名单,进一步判断是否为用户输入规则。若为用户输入规则,则补充到规则库中。若用户输入不是规则,则进一步判断是否为用户使用模型识别服务。
若为用户使用模型识别服务,则判断是否命中白名单。若是,输出白名单中的结果;若不是,则进一步判断是否命中规则库。若是,输出基于规则库中的规则计算的结果;若不是,调用原模型及修正模型分别计算value1和value2,并判断value1和value2是否相等。若value1=value2,则输出value1。若value1≠value2,则利用利用key筛选白名单中相似度最高的记录,判断是否存在两者向量余弦距离绝对值≤预设值。若两者向量余弦距离绝对值>预设值,则a%的用户,输出value=value1,1-a%的用户输出value=value2。若两者向量余弦距离绝对值≤预设值,则输出value1。
若不是用户使用模型识别服务,则修改内容中是否在白名单中,若是,则更新白名单,标记添加途径为mark=M,即添加途径为基于修改添加。若修改内容不在白名单中,则添加到白名单中,并标记添加途径为mark=M。对于添加途径为mark=M(修改)进一步判断修改内容是否在规则库中,若修改内容在规则库中,则对应规则记录错误记录+1,进一步判断该规则错误记录是否大于等于第二预设阈值b。若是,则将改规则移除规则库。
步骤S303:当所述更新的白名单中包括的所述用户修改操作数大于等于第一预设阈值时,则基于所述更新的白名单、和/或所述更新的规则库进行样本库的更新,获得更新的样本库。
在本说明书实施例中,所述当所述更新的白名单中包括的所述用户修改操作数大于等于第一预设阈值时,则基于所述更新的白名单、和/或所述更新的规则库进行样本库的更新,获得更新的样本库,具体包括:
将所述更新的白名单中key-value记录和所述更新的规则库中错误记录为0的规则覆盖的key-value,更新/添加到所述样本库中,获得所述更新的样本库。
具体实施例中,第一预设阈值默认为100。当所述更新的白名单中包括的所述用户修改操作数小于第一预设阈值时,则继续收集并记录用户修改操作数,直至所述用户修改操作数大于等于第一预设阈值。
步骤S305:基于所述更新的样本库,对修正模型进行重训,获得新修正模型。
在本说明书实施例中,所述当所述更新的白名单中包括的所述用户修改操作数大于等于第一预设阈值时,则基于所述更新的白名单、和/或所述更新的规则库进行样本库的更新,获得更新的样本库,进一步包括:
所述更新的样本库的记录数为num1,总数据记录数为num2,若num1≥min(num2*10%,1000),则所述更新的样本库对所述修正模型进行重训。
在具体实施例中,基于更新的样本库构建训练集及评估集,一般而言,训练集占比80%,评估集占比20%。
基于所述更新的样本库,对修正模型进行重训,具体而言,是利用训练集对修正模型进行重训,对修正模型进行重训的方法可以采用自动学习算法,亦可以采用其他算法,其并不对本申请构成限定,故不再赘述。
步骤S307:基于所述新修正模型的准确率及所述修正模型的准确率,确定上线模型。
在本说明书实施例中,所述基于所述新修正模型的准确率及修正模型的准确率,确定上线模型,具体包括:
所述修正模型的准确率为第一准确率,所述新修正模型的准确率为第二准确率;
若(第二准确率-第一准确率)/第一准确率大于等于预设比例,则将所述新修正模型作为所述上线模型;
若(第二准确率-第一准确率)/第一准确率小于所述预设比例,则将所述修正模型继续作为所述上线模型。
在本说明书实施例中,所述若(第二准确率-第一准确率)/第一准确率大于等于预设比例,则将所述新修正模型作为所述上线模型,进一步包括:
将所述用户信息确定的修改操作数置零,并清空所述更新的样本库。
步骤S309:若所述上线模型为所述新修正模型,则基于所述上线模型,对基于所述修正模型和所述原模型获得的识别结果进行修正。
在本说明书实施例中,若上线模型为修正模型,则继续收集用户信息,将更新的白名单中key-value记录和所述更新的规则库中错误记录为0的规则覆盖的key-value,更新/添加到样本库中,获得第二次更新的样本库。将第二次更新的样本库的中增加的记录数为num3,若num3≥num1*d%,则基于第二次更新的样本库进行修正模型的重训。若num3<num1*d%,则对第二次更新的样本库继续进行更新。
在具体实施例中,d默认为10。
为了进一步理解修正模型的修正,下面将结合具体的示意图予以说明。图5为本说明书实施例提供的模型修正算法的流程示意图。如图5所示,收集用户信息,并记录用户修改操作数,若用户修改操作数大于等于第一预设阈值c,则将白名单和规则库覆盖的记录,更新/添加到样本库,若样本库记录数≥min(10%*总记录数,1000),则基于样本库构建训练集和评估集,利用训练集训练新修正模型,利用评估集计算修正模型和新修正模型准确率,若新修正模型准确率≤修正模型准确率,收集用户信息,基于将白名单和规则库覆盖的记录,更新/添加到样本库;若样本库新增记录数≥样本库记录数*d%,则判断是否存在样本库记录数≥min(10%*总记录数,1000);若样本库新增记录数<样本库记录数*d%,则收集用户信息,基于将白名单和规则库覆盖的记录,更新/添加到样本库。若样本库记录数<min(10%*总记录数,1000),则收集用户信息,并记录用户修改操作数。若(新修正模型准确率-修正模型准确率)/修正模型准确率大于等于预设比例,则上线新修正模型,进而将用户修改操作数置零,样本库置空,然后收集用户信息,并记录用户修改操作数。
图6为本说明书实施例提供的又一种数据纠偏方法的流程示意图。如图6所示,该数据纠偏方法包括如下步骤:
步骤S601:基于用户输入的判断结果,对白名单、和/或规则库进行更新,获得更新的白名单、和/或更新的规则库,所述用户输入为基于结构化数据的输入,所述白名单至少包括:key、value及用户信息。
步骤S603:当所述更新的白名单中包括的所述用户修改操作数大于等于第一预设阈值时,则基于所述更新的白名单、和/或所述更新的规则库进行样本库的更新,获得更新的样本库。
步骤S605:所述更新的样本库的记录数为num1,总数据记录数为num2,若num1≥min(num2*10%,1000),则所述更新的样本库对所述修正模型进行重训。
步骤S607:基于所述更新的样本库,对修正模型进行重训,获得新修正模型。
步骤S609:基于所述新修正模型的准确率及所述修正模型的准确率,确定上线模型。
步骤S611:若所述上线模型为所述新修正模型,将所述用户信息确定的修改操作数置零,并清空所述更新的样本库。
步骤S613:若所述上线模型为所述新修正模型,则基于所述上线模型,对基于所述修正模型和所述原模型获得的识别结果进行修正。
采用本说明书实施例提供的数据纠偏方法,应用于模型上线后,能够支持模型上线后的用户经验成果的即时融合,且能够支持模型自动修正优化,进而实现局部数据识别能力的持续提升。
本说明书前述实施例提供了一种数据纠偏方法,基于同样的思路,本说明书实施例还提供一种数据纠偏装置。图7为本说明书实施例提供的一种数据纠偏装置的示意图,如图7所示,该数据纠偏装置包括:
判断模块701,基于用户输入的判断结果,对白名单、和/或规则库进行更新,获得更新的白名单、和/或更新的规则库,所述用户输入为基于结构化数据的输入,所述白名单至少包括:key、value及用户信息;
样本库更新模块703,当所述更新的白名单中包括的所述用户修改操作数大于等于第一预设阈值时,则基于所述更新的白名单、和/或所述更新的规则库进行样本库的更新,获得更新的样本库;
重训模块705,基于所述更新的样本库,对修正模型进行重训,获得新修正模型;
决策模块707,基于所述新修正模型的准确率及所述修正模型的准确率,确定上线模型;
修正模块709,若所述上线模型为所述新修正模型,则基于所述上线模型,对基于所述修正模型和所述原模型获得的识别结果进行修正。
在本说明书实施例中,所述基于用户输入的判断结果,对白名单、和/或规则库进行更新,获得更新的白名单、和/或更新的规则库,具体包括:
若所述用户输入为确认后的key-value记录集合,则将所述确认后的key-value记录集合加入所述白名单中,对所述白名单进行更新,获得所述更新的白名单;
和/或
若所述用户输入为针对符合特征的key直接指定value值,则将针对符合特征的key直接指定value值的规则加入所述规则库,获得所述更新的规则库;
和/或
若所述用户输入为给定key,查询并输出对应的value值,则基于预设的优先级,确定所述给定key的value值;
若所述用户输入为针对输出结果的修改或确认操作,则基于所述修改操作,更新所述白名单或者更新所述规则库,或者基于所述确认操作,更新所述白名单,获得所述更新的白名单。
在本说明书实施例中,所述若所述用户输入为给定key,查询并输出对应的value值,则基于预设的优先级,确定所述给定key的value值,具体包括:
基于用户输入的给定key,查询所述白名单,若所述给定key命中所述白名单,则将所述白名单中key对应的value值作为所述给定key的value值;
若未命中所述白名单,则查询所述规则库,若所述给定key命中所述规则库,则基于所述规则库计算所述给定key的value,作为所述给定key的value值;
若所述给定key未命中所述规则库,则调用原模型计算获得value1,调用修正模型计算获得value2,若value1==value2,输出value=value1;
否则,
基于所述给定key,从所述白名单中标记为修改的子集中检索相似度最高的记录result,基于所述给定key与所述result.key的向量余弦距离,确定所述给定key的输出value。
在本说明书实施例中,所述若所述用户输入为针对输出结果的修改或确认操作,则基于所述修改操作,更新所述白名单或者更新所述规则库,或者基于所述确认操作,更新所述白名单,具体包括:
若所述用户输入为针对输出结果的修改,则确认所述用户输入是否在所述白名单中,若所述用户输入在所述白名单中,则更新所述白名单中修改后的value,若所述用户输入不在所述白名单中,并将所述用户输入的key-value添加到所述白名单中,并标注所述白名单中用户输入的key-value的添加途径;若所述用户输入的key-value命中所述规则库的,则将所述规则库中的命中规则错误记录+1,若所述规则库中的命中规则错误记录大于等于第二预设阈值,则将所述规则库中的命中规则移除所述规则库;
若所述用户输入为针对输出结果的确认,且所述用户输入的key-value不在所述白名单中,则将所述用户输入的key-value添加到所述白名单中,并标注所述白名单中用户输入的key-value的添加途径。
在本说明书实施例中,所述若所述上线模型为所述新修正模型,则基于所述上线模型,对基于所述修正模型和所述原模型获得的识别结果进行修正,具体包括:
基于所述更新的白名单中所包括的所述用户信息确定的修改操作数,若所述用户信息确定的修改操作数不小于第一预设阈值,则基于所述更新的白名单、和/或所述更新的规则库,更新所述样本库,获得更新的样本库;
基于所述更新的样本库,对所述原模型进行重训,获得新修正模型;
基于所述新修正模型的准确率及修正模型的准确率,确定上线模型;
若所述上线模型为所述新修正模型,则基于所述上线模型,对基于所述修正模型和所述原模型获得的识别结果进行修正。
在本说明书实施例中,所述基于所述新修正模型的准确率及修正模型的准确率,确定上线模型,具体包括:
所述修正模型的准确率为第一准确率,所述新修正模型的准确率为第二准确率;
若(第二准确率-第一准确率)/第一准确率大于等于预设比例,则将所述新修正模型作为所述上线模型;
若(第二准确率-第一准确率)/第一准确率小于所述预设比例,则将所述修正模型继续作为所述上线模型。
在本说明书实施例中,所述若(第二准确率-第一准确率)/第一准确率大于等于预设比例,则将所述新修正模型作为所述上线模型,进一步包括:
将所述用户信息确定的修改操作数置零,并清空所述更新的样本库
在本说明书实施例中,所述基于所述更新的白名单、和/或所述更新的规则库,更新所述样本库,获得更新的样本库,具体包括:
将所述更新的白名单中key-value记录和所述更新的规则库中错误记录为0的规则覆盖的key-value,更新/添加到所述样本库中,获得所述更新的样本库。
本说明书实施例还提供一种数据纠偏设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
基于用户输入的判断结果,对白名单、和/或规则库进行更新,获得更新的白名单、和/或更新的规则库,所述用户输入为基于结构化数据的输入,所述白名单至少包括:key、value及用户信息;
当所述更新的白名单中包括的所述用户修改操作数大于等于第一预设阈值时,则基于所述更新的白名单、和/或所述更新的规则库进行样本库的更新,获得更新的样本库;
基于所述更新的样本库,对修正模型进行重训,获得新修正模型;
基于所述新修正模型的准确率及所述修正模型的准确率,确定上线模型;
若所述上线模型为所述新修正模型,则基于所述上线模型,对基于所述修正模型和所述原模型获得的识别结果进行修正。
上述对本说明书特定实施例进行了描述,在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可。
本说明书实施例提供的装置、设备与方法是对应的,因此,装置、设备也具有与对应方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述对应装置、设备的有益技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种数据纠偏方法,其特征在于,所述方法包括:
基于用户输入的判断结果,对白名单、和/或规则库进行更新,获得更新的白名单、和/或更新的规则库,所述用户输入为基于结构化数据的输入,所述白名单至少包括:key、value及用户信息;
当所述更新的白名单中包括的所述用户修改操作数大于等于第一预设阈值时,则基于所述更新的白名单、和/或所述更新的规则库进行样本库的更新,获得更新的样本库;
基于所述更新的样本库,对修正模型进行重训,获得新修正模型;
基于所述新修正模型的准确率及所述修正模型的准确率,确定上线模型;
若所述上线模型为所述新修正模型,则基于所述上线模型,对基于所述修正模型和原模型获得的识别结果进行修正。
2.如权利要求1所述的数据纠偏方法,其特征在于,所述基于用户输入的判断结果,对白名单、和/或规则库进行更新,获得更新的白名单、和/或更新的规则库,具体包括:
若所述用户输入为确认后的key-value记录集合,则将所述确认后的key-value记录集合加入所述白名单中,对所述白名单进行更新,获得所述更新的白名单;
和/或
若所述用户输入为针对符合特征的key直接指定value值,则将针对符合特征的key直接指定value值的规则加入所述规则库,获得所述更新的规则库;
和/或
若所述用户输入为给定key,查询并输出对应的value值,则基于预设的优先级,确定所述给定key的value值;
若所述用户输入为针对输出结果的修改或确认操作,则基于所述修改操作,更新所述白名单或者更新所述规则库,或者基于所述确认操作,更新所述白名单,获得所述更新的白名单。
3.如权利要求2所述的数据纠偏方法,其特征在于,所述若所述用户输入为给定key,查询并输出对应的value值,则基于预设的优先级,确定所述给定key的value值,具体包括:
基于用户输入的给定key,查询所述白名单,若所述给定key命中所述白名单,则将所述白名单中key对应的value值作为所述给定key的value值;
若未命中所述白名单,则查询所述规则库,若所述给定key命中所述规则库,则基于所述规则库计算所述给定key的value,作为所述给定key的value值;
若所述给定key未命中所述规则库,则调用原模型计算获得value1,调用修正模型计算获得value2,若value1==value2,输出value=value1;
否则,
基于所述给定key,从所述白名单中标记为修改的子集中检索相似度最高的记录result,基于所述给定key与所述result.key的向量余弦距离,确定所述给定key的输出value。
4.如权利要求2所述的数据纠偏方法,其特征在于,所述若所述用户输入为针对输出结果的修改或确认操作,则基于所述修改操作,更新所述白名单或者更新所述规则库,或者基于所述确认操作,更新所述白名单,具体包括:
若所述用户输入为针对输出结果的修改,则确认所述用户输入是否在所述白名单中,若所述用户输入在所述白名单中,则更新所述白名单中修改后的value,若所述用户输入不在所述白名单中,并将所述用户输入的key-value添加到所述白名单中,并标注所述白名单中用户输入的key-value的添加途径;若所述用户输入的key-value命中所述规则库的,则将所述规则库中的命中规则错误记录+1,若所述规则库中的命中规则错误记录大于等于第二预设阈值,则将所述规则库中的命中规则移除所述规则库;
若所述用户输入为针对输出结果的确认,且所述用户输入的key-value不在所述白名单中,则将所述用户输入的key-value添加到所述白名单中,并标注所述白名单中用户输入的key-value的添加途径。
5.如权利要求1所述的数据纠偏方法,其特征在于,所述当所述更新的白名单中包括的所述用户修改操作数大于等于第一预设阈值时,则基于所述更新的白名单、和/或所述更新的规则库进行样本库的更新,获得更新的样本库,具体包括:
将所述更新的白名单中key-value记录和所述更新的规则库中错误记录为0的规则覆盖的key-value,更新/添加到所述样本库中,获得所述更新的样本库。
6.如权利要求1所述的数据纠偏方法,其特征在于,所述当所述更新的白名单中包括的所述用户修改操作数大于等于第一预设阈值时,则基于所述更新的白名单、和/或所述更新的规则库进行样本库的更新,获得更新的样本库,进一步包括:
所述更新的样本库的记录数为num1,总数据记录数为num2,若num1≥min(num2*10%,1000),则所述更新的样本库对所述修正模型进行重训。
7.如权利要求1所述的数据纠偏方法,其特征在于,所述基于所述新修正模型的准确率及修正模型的准确率,确定上线模型,具体包括:
所述修正模型的准确率为第一准确率,所述新修正模型的准确率为第二准确率;
若(第二准确率-第一准确率)/第一准确率大于等于预设比例,则将所述新修正模型作为所述上线模型;
若(第二准确率-第一准确率)/第一准确率小于所述预设比例,则将所述修正模型继续作为所述上线模型。
8.如权利要求7所述的数据纠偏方法,其特征在于,所述若(第二准确率-第一准确率)/第一准确率大于等于预设比例,则将所述新修正模型作为所述上线模型,进一步包括:
将所述用户信息确定的修改操作数置零,并清空所述更新的样本库。
9.一种数据纠偏装置,其特征在于,所述装置包括:
判断模块,基于用户输入的判断结果,对白名单、和/或规则库进行更新,获得更新的白名单、和/或更新的规则库,所述用户输入为基于结构化数据的输入,所述白名单至少包括:key、value及用户信息;
样本库更新模块,当所述更新的白名单中包括的所述用户修改操作数大于等于第一预设阈值时,则基于所述更新的白名单、和/或所述更新的规则库进行样本库的更新,获得更新的样本库;
重训模块,基于所述更新的样本库,对修正模型进行重训,获得新修正模型;
决策模块,基于所述新修正模型的准确率及所述修正模型的准确率,确定上线模型;
修正模块,若所述上线模型为所述新修正模型,则基于所述上线模型,对基于所述修正模型和原模型获得的识别结果进行修正。
10.一种数据纠偏设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
基于用户输入的判断结果,对白名单、和/或规则库进行更新,获得更新的白名单、和/或更新的规则库,所述用户输入为基于结构化数据的输入,所述白名单至少包括:key、value及用户信息;
当所述更新的白名单中包括的所述用户修改操作数大于等于第一预设阈值时,则基于所述更新的白名单、和/或所述更新的规则库进行样本库的更新,获得更新的样本库;
基于所述更新的样本库,对修正模型进行重训,获得新修正模型;
基于所述新修正模型的准确率及所述修正模型的准确率,确定上线模型;
若所述上线模型为所述新修正模型,则基于所述上线模型,对基于所述修正模型和原模型获得的识别结果进行修正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310825987.XA CN116595336B (zh) | 2023-07-07 | 2023-07-07 | 一种数据纠偏方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310825987.XA CN116595336B (zh) | 2023-07-07 | 2023-07-07 | 一种数据纠偏方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116595336A CN116595336A (zh) | 2023-08-15 |
CN116595336B true CN116595336B (zh) | 2023-09-08 |
Family
ID=87604705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310825987.XA Active CN116595336B (zh) | 2023-07-07 | 2023-07-07 | 一种数据纠偏方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116595336B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943941A (zh) * | 2017-11-23 | 2018-04-20 | 珠海金山网络游戏科技有限公司 | 一种可迭代更新的垃圾文本识别方法和系统 |
CN109510815A (zh) * | 2018-10-19 | 2019-03-22 | 杭州安恒信息技术股份有限公司 | 一种基于有监督学习的多级钓鱼网站检测方法及检测系统 |
WO2020125477A1 (zh) * | 2018-12-18 | 2020-06-25 | 北京数安鑫云信息技术有限公司 | 一种提升爬虫识别召回率的方法、装置、介质及设备 |
EP3693869A1 (en) * | 2019-02-11 | 2020-08-12 | Beijing Baidu Netcom Science and Technology Co., Ltd. | Method and apparatus for managing knowledge base, device and medium |
CN114118398A (zh) * | 2020-08-31 | 2022-03-01 | 中移(苏州)软件技术有限公司 | 目标类型网站的检测方法、系统、电子设备及存储介质 |
CN115640518A (zh) * | 2022-10-18 | 2023-01-24 | 中国电信股份有限公司 | 用户识别模型的训练、用户识别方法和装置 |
CN115904997A (zh) * | 2022-12-09 | 2023-04-04 | 中国舰船研究设计中心 | 一种基于深度学习的智能化评估重演测试方法 |
-
2023
- 2023-07-07 CN CN202310825987.XA patent/CN116595336B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943941A (zh) * | 2017-11-23 | 2018-04-20 | 珠海金山网络游戏科技有限公司 | 一种可迭代更新的垃圾文本识别方法和系统 |
CN109510815A (zh) * | 2018-10-19 | 2019-03-22 | 杭州安恒信息技术股份有限公司 | 一种基于有监督学习的多级钓鱼网站检测方法及检测系统 |
WO2020125477A1 (zh) * | 2018-12-18 | 2020-06-25 | 北京数安鑫云信息技术有限公司 | 一种提升爬虫识别召回率的方法、装置、介质及设备 |
EP3693869A1 (en) * | 2019-02-11 | 2020-08-12 | Beijing Baidu Netcom Science and Technology Co., Ltd. | Method and apparatus for managing knowledge base, device and medium |
CN114118398A (zh) * | 2020-08-31 | 2022-03-01 | 中移(苏州)软件技术有限公司 | 目标类型网站的检测方法、系统、电子设备及存储介质 |
CN115640518A (zh) * | 2022-10-18 | 2023-01-24 | 中国电信股份有限公司 | 用户识别模型的训练、用户识别方法和装置 |
CN115904997A (zh) * | 2022-12-09 | 2023-04-04 | 中国舰船研究设计中心 | 一种基于深度学习的智能化评估重演测试方法 |
Non-Patent Citations (1)
Title |
---|
PhiDMA - A phishing detection model with multi-filter approach;Gunikhan Sonowal等;《Journal of King Saud University - Computer and Information Sciences》;第32卷(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116595336A (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018031958A1 (en) | Aggregate features for machine learning | |
CN110428137B (zh) | 一种风险防控策略的更新方法及装置 | |
JP6712644B2 (ja) | 音響モデル学習装置、その方法、及びプログラム | |
CN111178537B (zh) | 一种特征提取模型训练方法及设备 | |
CN112084301B (zh) | 文本修正模型的训练方法及装置、文本修正方法及装置 | |
CN116932909A (zh) | 模型的推荐方法、装置、处理器以及电子设备 | |
CN112348318A (zh) | 一种供应链风险预测模型的训练和应用方法及装置 | |
CN117785964B (zh) | 应用于网络服务的数据处理方法及系统 | |
Lou et al. | Robust stability of hybrid limit cycles with multiple jumps in hybrid dynamical systems | |
US8255423B2 (en) | Adaptive random trees integer non-linear programming | |
CN116595336B (zh) | 一种数据纠偏方法、装置和设备 | |
CN116823193B (zh) | 基于大数据的智能制造流程管理系统 | |
CN113641525A (zh) | 变量异常修复方法、设备、介质及计算机程序产品 | |
CN112529738A (zh) | 一种建筑工程的整体检测方法及系统 | |
CN112529739A (zh) | 一种建筑质量全局检测方法及系统 | |
US20230222385A1 (en) | Evaluation method, evaluation apparatus, and non-transitory computer-readable recording medium storing evaluation program | |
Sampaio et al. | Discussion of digital transition impact in Facility Management of buildings | |
CN115358473A (zh) | 基于深度学习的电力负荷预测方法及预测系统 | |
CN113849634B (zh) | 用于提升深度模型推荐方案可解释性的方法 | |
CN113420733B (zh) | 一种高效分布式大数据数据采集实现方法及系统 | |
CN114239406A (zh) | 一种基于强化学习的财务流程挖掘方法和相关装置 | |
CN113468816A (zh) | 铁塔钢材指标预测模型的训练方法、装置及可读存储介质 | |
CN116910501B (zh) | 错例驱动的数据识别方法、装置和设备 | |
WO2022028691A1 (en) | Neural topic modeling with continuous learning | |
CN111694945A (zh) | 基于神经网络的法条关联推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |