CN108932299A - 用于对线上系统的模型进行更新的方法以及装置 - Google Patents

用于对线上系统的模型进行更新的方法以及装置 Download PDF

Info

Publication number
CN108932299A
CN108932299A CN201810581927.7A CN201810581927A CN108932299A CN 108932299 A CN108932299 A CN 108932299A CN 201810581927 A CN201810581927 A CN 201810581927A CN 108932299 A CN108932299 A CN 108932299A
Authority
CN
China
Prior art keywords
data
mark
marked
model
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810581927.7A
Other languages
English (en)
Inventor
王鹏
孙亚昊
卢江虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Beijing Maigewei Technology Co Ltd
Original Assignee
Beijing Maigewei Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Maigewei Technology Co Ltd filed Critical Beijing Maigewei Technology Co Ltd
Priority to CN201810581927.7A priority Critical patent/CN108932299A/zh
Publication of CN108932299A publication Critical patent/CN108932299A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Abstract

本发明提供了一种用于对线上系统的模型进行更新的方法和装置。该方法包括:从线上系统抓取数据,并形成数据集;获取对所述数据集中的数据的标注信息;将标注后的数据添加至训练集,以便训练得到新的模型。由此可见,本发明实施例能够从线上系统抓取数据形成增量数据集,并对其中的数据进行标注,标注后的数据被添加至训练集,进而该训练集能够用于训练生成新的模型,用于实现对线上系统的模型的更新。本发明实施例所提供的方法和装置能够便于对基于深度学习的线上系统中模型的更新迭代。

Description

用于对线上系统的模型进行更新的方法以及装置
技术领域
本发明涉及图像处理领域,更具体地涉及一种用于对线上系统的模型进行更新的方法以及装置。
背景技术
深度学习已经在多个行业中有个广泛的应用。在产品化应用深度学习的过程中,数据与深度学习模型同等重要。然而,在产品化深度学习之后,在产品迭代的过程中,数据集随着产品运营逐步增长,深度学习模型需要跟随最新的数据集不断训练,推陈出新。然而现有产品对增量数据集的标注支持有限,甚至无法进行增量数据集的标注。
发明内容
本发明提供了一种用于对线上系统的模型进行更新的方法以及装置,能够形成增量数据集,并对其中的数据进行标注,进而添加至训练集,用于对在线系统的模型进行更新。
根据本发明的一方面,提供了一种用于对线上系统的模型进行更新的方法,包括:
从线上系统抓取数据,并形成数据集;
获取对所述数据集中的数据的标注信息;
将标注后的数据添加至训练集,以便训练得到新的模型。
在本发明的一种实现方式中,
提供标注页面,所述标注页面包括左侧区域和右侧区域,所述右侧区域包括右上侧区域和右下侧区域,
其中,所述左侧区域用于呈现当前所标注的数据集的基本信息和统计信息,以及用于跳转到其他页面的按钮;所述右上侧区域用于呈现与标注功能有关的按钮或选择框;所述右下侧区域用于呈现待标注数据。
在本发明的一种实现方式中,
所述右下侧区域所呈现的所述待标注数据为缩略图,所述待标注数据多行排列,每行的高度彼此相等,并且行与行之间的间隙彼此相等。
在本发明的一种实现方式中,所述获取对所述数据集中的数据的标注信息,包括:
获取所述缩略图被标注的标注类别;
将所述缩略图呈现为与所述标注类别所对应的颜色和/或数字。
在本发明的一种实现方式中,所述从线上系统抓取数据,并形成数据集,包括:
从线上系统抓取数据以及所述数据的评估结果;
对不同的评估结果采用不同的权重进行随机取样,形成所述数据集。
在本发明的一种实现方式中,还包括:
为不同的用户设定页面访问和/或操作的权限。
在本发明的一种实现方式中,还包括:
获得数据集的各个统计信息,并将所述各个统计信息通过图表形式进行展示。
在本发明的一种实现方式中,所述统计信息包括以下中至少一项:
检出数、总攻击数、漏检数、漏检率。
在本发明的一种实现方式中,还包括:
清洗添加到所述训练集中的数据,以将错误标注的数据进行修正或剔除。
在本发明的一种实现方式中,所述清洗添加到所述训练集中的数据,以将错误标注的数据进行修正或剔除,包括:
判断待清洗的数据的原有标注是否准确,若所述原有标注错误,则进行修正;
或者,
将待清洗的数据重新进行标注,将重新标注的标注类别与原有标注进行比对,若两者不一致,则进行判断,如果原有标注正确,则修改重新标注的标注类别;若原有标注错误,则保留重新标注的标注类别。
在本发明的一种实现方式中,所述清洗添加到所述训练集中的数据,以将错误标注的数据进行修正或剔除,包括:
获取待清洗数据集中各个数据的评估结果;
将所标注的标注类别与所述评估结果进行比对,将两者不同的所有数据合并从而形成清洗集;
对所述清洗集中的数据进行重新标注。
在本发明的一种实现方式中,还包括:
对所述训练集得到的一个或多个模型进行评估,从而得出各个模型的分类评分。
根据本发明的另一方面,提供了一种用于对线上系统的模型进行更新的装置,所述装置用于实现前述方面或各个实施例所述方法的步骤,所述装置包括:
抓取模块,用于从线上系统抓取数据,并形成数据集;
标注获取模块,用于获取对所述数据集中的数据的标注信息;
添加模块,用于将标注后的数据添加至训练集,以便训练得到新的模型。
根据本发明的又一方面,提供了一种用于对线上系统的模型进行更新的装置,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述方面及各个示例所述的方法的步骤。
根据本发明的再一方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述方面及各个示例所述的方法的步骤。
由此可见,本发明实施例能够从线上系统抓取数据形成增量数据集,并对其中的数据进行标注,标注后的数据被添加至训练集,进而该训练集能够用于训练生成新的模型,用于实现对线上系统的模型的更新。本发明实施例所提供的方法和装置能够便于对基于深度学习的线上系统中模型的更新迭代。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本发明实施例的电子设备的一个示意性框图;
图2是本发明实施例的用于对线上系统的模型进行更新的系统的一个示意性框图;
图3是本发明实施例的标注子系统的待标注数据集的一个页面示意图;
图4是本发明实施例的标注子系统的标注页面的一个示意图;
图5是本发明实施例的标注子系统的标注页面的一个示意图;
图6是本发明实施例的标注子系统的标注页面的V2区域的一个示意图;
图7是本发明实施例的标注子系统的查看/修改页面的一个示意图;
图8是本发明实施例的统计子系统的统计列表的一个示意图;
图9是本发明实施例的统计子系统的数据集的统计信息的一个示意图;
图10是本发明实施例的统计子系统的数据集的统计信息的另一示意图;
图11是本发明实施例的统计子系统的统计指标随时间的一个示意图;
图12是本发明实施例的统计子系统的统计指标随来源的一个示意图;
图13是本发明实施例的统计子系统的多个来源的统计指标随时间的一个示意图;
图14是本发明实施例的统计子系统的来源分组的统计指标随时间的一个示意图;
图15是本发明实施例的数据清洗子系统的清洗页面的一个示意图;
图16是本发明实施例的数据清洗子系统的清洗集的一个示意图;
图17是本发明实施例的模型评估子系统的评估页面的一个示意图;
图18是本发明实施例的用于对线上系统的模型进行更新的方法的示意性流程图;
图19是本发明实施例的用于对线上系统的模型进行更新的装置的示意性框图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
本发明实施例可以应用于电子设备,图1所示为本发明实施例的电子设备的一个示意性框图。图1所示的电子设备10包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108、图像传感器110以及一个或多个非图像传感器114,这些组件通过总线系统112和/或其它形式互连。应当注意,图1所示的电子设备10的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器102可以包括中央处理单元(Central Processing Unit,CPU)1021和图形处理单元(Graphics Processing Unit,GPU)1022或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,例如现场可编程门阵列(Field-Programmable GateArray,FPGA)或进阶精简指令集机器(Advanced RISC(Reduced Instruction SetComputer)Machine,ARM)等,并且处理器102可以控制所述电子设备10中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器1041和/或非易失性存储器1042。所述易失性存储器1041例如可以包括随机存取存储器(Random Access Memory,RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器1042例如可以包括只读存储器(Read-Only Memory,ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现各种期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述图像传感器110可以拍摄用户期望的图像(例如照片、视频等),并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。
当注意,图1所示的电子设备10的组件和结构只是示例性的,尽管图1示出的电子设备10包括多个不同的装置,但是根据需要,其中的一些装置可以不是必须的,其中的一些装置的数量可以更多等等,本发明对此不限定。
本发明实施例提供了一种用于对线上系统的模型进行更新的系统,该系统可以具有权限及用户管理子系统,另外还包括如下的多个子系统:线上数据抓取子系统、标注子系统和增量数据集添加子系统,如图2所示。
权限及用户管理子系统
权限及用户管理子系统可以为用户设定相应的权限。示例性地,每个用户可以绑定一个角色,不同的角色可以具有不同的页面访问和操作的权限,并且“用户与角色”以及“角色与权限”之间的关系可以进行配置。如此,便可以为进行该系统的所有的用户进行页面/应用程序接口级别的权限控制。例如,用户A绑定第一角色,第一角色只具有访问功能,不具有修改、编辑等权限。用户B绑定第二角色,第二角色具有访问以及其他操作(诸如,数据标注、修改等)权限。
线上数据抓取子系统
线上数据抓取子系统可以从线上系统抓取数据,并基于所抓取的数据形成数据集。其中,该抓取可以定时进行或周期性进行。
本发明实施例中,线上系统可以是指现有的正在使用的深度学习的算法的系统。线上系统可以包括模型(例如通过训练等得到的神经网络模型),基于该模型可以对新的数据得到相应的评分。
线上系统中的模型可以为活体检测模型、人脸检测模型、人脸识别模型、人脸遮挡模型(如是否戴墨镜、是否戴口罩等)、手势判断模型等中的任一个。一般地,一个线上系统使用一个模型,本发明实施例可以针对多个线上系统实现。
为了简化并且清楚地描述本发明的实施例,假设线上系统为活体检测线上系统,其中的模型为活体检测模型,该活体检测模型可以是由活体检测线上系统的管理者预先通过训练得到的。在该线上系统运作过程中,其可以从一个或多个来源获取数据,将所获取的数据输入至该活体检测模型得到所获取的数据的评估结果。所获取的数据可以为图像或视频。得到的评估结果可以为评分,其可以为0~1中的任一值,例如0表示为活体,1表示为非活体(或者1表示为活体,0表示为非活体)。或者得到的评估结果可以为类别,例如活体或非活体。
其中,线上系统获取数据的来源可以有一个或多个。举例来说,安防领域的人脸识别线上系统的数据来源可以包括:城市交通网络的各个图像采集装置、与公安联网的身份证图像采集装置等等。举例来说,用于移动终端(诸如智能手机)的活体检测线上系统的数据来源可以包括:安装在该移动终端上的多个应用程序(APP)等。
示例性地,线上系统可以包括线上日志子系统,线上系统可以将所获取的数据、数据来源、模型对该数据的评估结果(如评分或类别)、模型的版本等存储在线上日志子系统中。
可选地,本发明实施例中的线上数据抓取子系统可以从线上系统的线上日志子系统中抓取数据以及与该数据相关的数据信息,其中,数据信息可以包括数据来源、数据的评估结果、模型的版本等中的至少一项。
进一步地,线上数据抓取子系统可以基于所抓取的数据形成数据集。其中,该数据集也可以被称为增量数据集。可选地,所形成的数据集可以按时间分类,即基于某时间段的数据形成一个数据集,基于下一时间段的数据形成在一个数据集。示例性地,可以以天为单位,每天形成一个数据集。
作为一例,可以将所抓取的所有的数据一起作为数据集。作为另一例,可以将所抓取的数据中的部分一起作为数据集。示例性地,可以根据数据的评估结果从全部数据中选择部分形成数据集。具体地,可以对不同的评估结果采用不同的权重进行随机取样,从而形成数据集。例如,针对活体检测在线系统,假设在某时间段内获取了N个数据。可以为不同评估结果(如评分)设定不同的权重,例如评分区间[0,0.3]的权重为0.4,评分区间[0.7,1]的权重为0.4,评分区间(0.3,0.7)的权重为0.2。若期望形成的数据集中包括数据的数量为M(其中,M≤N),则可以从评分区间[0,0.3]的所有数据中随机采样其中的0.4*M个数据,从评分区间[0.7,1]的所有数据中随机采样其中的0.4*M个数据,并从评分区间(0.3,0.7)的所有数据中随机采样其中的0.2*M个数据,从而形成在该时间段内的包括M个数据的数据集。
应注意,线上数据抓取子系统也可以采用其他方法形成数据集,本发明对此不限定。
标注子系统
在进入该标注子系统时,可以先呈现标注汇总页。作为一例,该标注汇总页可以显示数据集的列表,如下的表一所示。
表一
参照表一,该标注汇总页中还可以包括各个数据集的简要统计信息,包括:日期、总量、剩余未标注、非攻击数、攻击数、漏检率等。示例性地,表一中的非攻击数可以是指活体的数量,攻击数可以是指非活体的数量,关于该统计信息将在本说明书后续进行详细描述。进一步地,标注员可以选择对其中一个未标注完成的数据集(例如2018-02-28的数据集)开始标注,例如通过点击2018-02-28的数据集所在行的最右侧的“标注”按钮。标注员也可以选择针对已标注的数据集,查看或修改其标注结果,例如通过点击2018-02-26的数据集所在行的最右侧的“查看/修改”按钮。
常规的标注系统通常是录入一个数据集—标注该数据集。本发明实施例中的标注子系统不同于常规的标注系统这种操作流程,本发明实施例中,对于同一个任务类型(活体/手势/表情等等),可存在多个数据集,将这多个数据集分别命名归集于一个列表页面中。这样,能够提高处理效率。另外,基于上述对线上数据抓取子系统的描述,还可以向该列表中新增数据集以用于标注。
可理解,来自不同的在线系统的数据的任务类型可以是不同的,例如来自活体检测在线系统的数据的任务类型为活体,相应地在标注时,标注类别为活体或非活体或不确定;例如来自人脸遮挡在线系统的数据的任务类型为遮挡,相应地在标注时,标注类别为有遮挡或无遮挡或不确定。
针对如表一所示的某日期的数据集,标注员可以通过点击如表一最后一列的“标注”按钮来启动标注过程。如表一所示的某日期的数据集可以包括多个子数据集,如图3所示,可以将其按照任务类型进行分类展示,以便标注员按照该任务类型进行相应地标注。图3中名称1的数据集,其任务类型为活体;名称2的数据集,其任务类型为手势。
由于每个数据集中的待标注数据可能数量众多,因此进入标注页面可以对该数据集未标注数据进行分页,如图3示出的“分页器”。分页策略能够用于实现多个标注员对同一数据集的同时标注且不冲突,即不同的标注员可以对数据集中的不同数据进行同时标注,这样能够减少对数据集进行标注的耗时,提高标注效率。具体地,分页策略可以使得多个标注员标注同一个数据集时,不同的标注员展示的待标注数据不相同或者重复几率很低。
作为一种实现方式,该分页策略可以为:为不同的标注员从该数据集的所有未标注数据中随机选取。
作为另一种实现方式,该分页策略可以为:使用一个分布式数值记录在当前数据集中的id游标(记为R,初始化为当前数据集第一个未标注数据的id),每次获取待标注数据时,从游标R开始筛选出所有未标注数据并按数据的id排序,按id从前向后取出一部分未标记数据(取出数目多少取决于标注的分页尺寸,记为P)并将游标推后到大于这P条数据id的数据中未标注数据id最小者。
也就是说,可以将数据集中未标注数据按照id进行排序,从游标R开始选取其中P个作为某标注员的待标注数据。
可理解,这里获取游标数值且推后的过程应当是原子性的,并且如果该游标超出数据集范围,则应当将其重置为当前数据集第一个未标注数据的id。
以下将描述针对单个标注员进行标注的情形:
在进入标注页面后,可以显示如图4所示的待标注数据,其中,图4的左上角示出的“活体标注”表示当前标注的任务类型。为了更清楚地描述该标注过程,以下将结合图5所示的示意图进行详细阐述。
图5示出的是图4的标注页面的一个示意图。标注页面可以包括左侧的H1区和右侧的H2区。H1区和H2区的宽度之和(加上间隙),应当刚好填满页面(即设备上可浏览区域)的宽度,同时又不可让页面横向溢出或产生横向滚动条,否则会影响标注效率。如果横向溢出,标注员在标注时需要拖动横向滚动条而浪费时间,降低标注效率。如果宽度方向上未填满,标注员在标注时需要更多次地拖动纵行滚动条而浪费时间,降低标注效率。
其中,H1区可以是竖条形区域,其显示的信息包括:任务类型、数据集名称、总量、已标注量、剩余量、分类1总计、分类2总计、查看/修改已标注数据等。也就是说,H1区显示当前所标注的数据集的基本信息和统计信息,以及用于跳转到其他页面的按钮(查看/修改已标注数据)等。
其中,H2区用于显示待标注数据(图像或视频),在该待标注数据的上方可以显示与标注功能有关的按钮或选择框,如图5中的选择框“选择标注类别”、按钮“提交”和“重置”。也就是说,H2区可以包括上面区域(记为V1)和下面区域(记为V2)。V1显示与标注功能有关的按钮或选择框;可选地,V1还可以显示其他实用功能,诸如“其他全部为某类别”或“本页全部为某类别”等。V2显示待标注数据,标注员可以针对该区域的待标注数据实现标注功能。可见,V2占据了标注页面的大部分区域(例如大于80%等)。
示例性地,V2所显示的待标注数据可以展示为缩略图。而且,缩略图的展示是组织有序的,便于标注员方便快速地浏览查看。作为一种实现方式,图6示出了其中一种展示待标注数据的布局方式。待标注数据可以分为多行排列,每行的高度都相等,如图6中行高为H;行与行之间的间隙也是相等的,如图6中间隙为A。在一行中,每相邻两个待标注数据之间的间距相等,如图6中间距为B。所有的待标注数据可以是向上、向左对齐的,并且,可以使用从左往右、从上往下的顺序依次排布待标注数据。其中,待标注数据可以是图像数据或视频数据等,在展示缩略图时,可以展示图像数据的缩略图或者展示视频数据中的某一帧图像(如第0帧图像或最后一帧图像等)的缩略图,该缩略图可以是将原图等比例进行缩放后得到的,使得缩略图的高度可以等于预设值H,该缩略图的宽度可以与原图的尺寸有关。也即是说,不同的待标注数据,其展示的缩略图的高度相等,但是宽度可以不一致。从而可以理解,每行中所展示的待标注数据的数量可以不相等。示例性地,在展示缩略图时,应该避免出现横向滚动条,即应当保证所展示的待标注数据横向上为溢出V2的宽度,这样能够避免影响标注员的工作效率。
应当理解,图6所示的待标注数据的缩略图展示方式仅是呈现待标注数据的一种实现方式,也可以采用其他的方式呈现待标注数据,本发明对此不限定。
进一步地,标注员可以对所呈现的待标注数据进行人工标注。示例性地,标注员可以选择V2所展示的待标注数据中的一个或多个,然后在通过V1的选择框或按钮对所选中的待标注数据进行标注。其中,标注员可以通过点击选中某个待标注数据,或者当焦点位于某个待标注数据时通过点击某个特定按键来选中该待标注数据,也可以同其他方式选中待标注数据,本发明对此不限定。
为了方便标注员查看其标注的结果,同时为了提高标注员的标注效率,可以在V2区域以不同的方式区分已标注数据和待标注数据。并且,可选地,对于已标注数据,还可以通过不同的方式体现其标注类别。这样,若标注员将某个待标注数据进行标注,使其成为已标注数据,则该已标注数据可以根据其标注类别进行呈现,具体地呈现方式为与其标注类别所对应的方式。
作为一种实现方式,可以为各个标注类别指定一个特定的颜色和/或数字,并且不同的标注类别具有不同的颜色和/或数字。
作为一例,可以为某标注类别指定特定的颜色和数字,在标注之后,可以在该已标注数据的某位置(例如缩略图显示的数据的某边角)处显示具有该特定的颜色的色块,且该色块中显示特定的数字。参照图5所示的“已标注样式(1)”,在V2的第一行的第二个数据的左上角显示色块(如绿色),该色块中为“1”以表示该数据是已标注数据,且其标注类别为与该色块的颜色以及数字“1”所对应的标注类别。具体地,该图5中数字“1”所在的小方块的颜色,即数字“1”的底色为该特定的颜色。
作为另一例,可以为某标注类别指定特定的颜色,在标注之后,可以在该已标注数据的数据边框显示为特定的颜色。参照图5所示的“已标注样式(2)”,在V2的第一行的第三个数据的数据边框显示为该特定的颜色(如红色)以表示该数据是已标注数据,且其标注类别为与该特定的颜色所对应的标注类别。
另外,为了方便标注员查看待标注数据或已标注数据,可以将缩略图展示的数据进行放大呈现。具体地,可以获取标注员的放大指令,根据该指令将缩略图形式的数据放大呈现。示例性地,该放大指令可以是标注员右键点击操作或其他操作。示例性地,可以在该数据的原位置以当前位置的中心为中心,将数据放大至原始尺寸;如果原始尺寸将超过当前显示屏可展示范围的宽或高,则可以将该数据按比例放大到显示屏可展示区域的宽或高。可理解,如果该数据为视频,在放大时,可以开启播放该视频。参照图5所示的“查看数据详情”,其对应的框是将数据放大后的呈现的一例。
应注意,上述的标注员进行标注的过程以及所呈现的方式等都是示例性地,也可以采用其他的方式进行标注/呈现,本发明对此不限定。在标注员完成标注后可进行提交,例如,通过点击图5中的“提交”按钮来提交对图5所示的页面中所有数据的标注信息。其中,对某个数据的标注类别可以为“不确定”,这样能够防止标注员对不确定数据的错误标注而导致后续的一系列精确度的影响等。
举例来说,假设任务类型为“活体”,则针对该任务类型标注的标注类别可以为“活体”“非活体”和“不确定”。假设标注员不确定某待标注数据A是活体还是非活体:作为一例,标注员可以从下拉框中选择标注类别为“不确定”;作为另一例,标注员对该数据A可以不进行标注,并在标注员提交后,该子系统直接将未标注数据标记为“不确定”。
这样能够保证所提交的已标注数据中所标注的信息的准确率,进而能够保证后续该已标注数据对深度学习模型的可用性。
回到前述的表一,针对如表一所示的某日期的数据集,标注员可以通过点击如表一最后一列的“查看/修改”按钮来查看该数据集下已标注数据的标注信息。作为一例,该查看/修改页面可以如图7所示。所呈现的图7与图4具有一定的相似性,图7中的查看/修改页面也可以包括左侧的H1区和右侧的H2区。H1区可以是竖条形区域,其显示的信息包括:任务类型、数据集名称、总量、已标注量、剩余量、分类1总计、分类2总计等。H2区可以用于显示已标注数据,可以包括上面区域(记为V1)和下面区域(记为V2)。V1显示与查看/修改功能有关的按钮或选择框等。
可以按照前述指定的与标注类别所对应的方式进行呈现。举例来说,若为不同的标注类别指定了不同的颜色,则可以按照颜色进行呈现,这样标注员可以直观地根据颜色便确定数据的标注类别。假设任务类型为“活体”,则针对该任务类型标注的标注类别可以为“活体”“非活体”和“不确定”。为“活体”指定的颜色为红色,为“非活体”指定的颜色为蓝色,为“不确定”指定的颜色为白色。则可以在每个数据的数据框呈现对应的颜色。
在查看/修改页面中,所呈现的已标注数据的排列方式可以按照时间排序,可以按照id排序,可以按照标注类别排序,也可以按照其他方式排序,本发明对此不限定。
在查看/修改页面,标注员可以对其中一个或多个已标注数据的标注类别进行修改,例如,将标注为“活体”的数据的标注类别修改为“非活体”。该修改过程可以理解是重新标注的过程,可以结合上述的标注过程实现,这里不再赘述。
由此可见,通过标注子系统,可以获取标注员对数据的标注类别。
增量数据集添加子系统
增量数据集添加子系统可以将标注子系统中的已标注数据集添加至训练集中,进而能够用于通过训练得到新的模型,以用于更新在线系统中的模型。
具体地,可以将各个数据集添加到对应任务类型的训练集中,例如将任务类型为活体的数据集添加到活体检测的训练集中。随后可以基于该训练集中的数据,通过训练得到新的活体检测模型。随后,可以用该新的活体检测模型更新在线系统中的模型,或者可以在评估(后续介绍)之后用该新的活体检测模型更新在线系统中的模型。这样能够实现对在线系统中的模型的更新迭代。
示例性地,可以定期地(如每周一零点)或者事件触发地(如接收到标注员的添加指令),将已标注数据添加到对应的训练集中。这里的训练集也可以称为测试集、验证集等,本发明对此不限定。
另外,可选地,本发明实施例的用于对线上系统的模型进行更新的系统还可以包括以下至少一个子系统:统计子系统、数据清洗子系统和模型评估子系统。
统计子系统
统计子系统可以得到数据集的各个统计信息,这些统计信息可以通过图表等形式进行展示。
示例性地,该统计列表可以如图8所示,其中示出了各个日期的数据集对应的部分统计指标,如检出数、总攻击数、漏检数、漏检率等。
另外,可以查看具有特定的标注类别的数据集的统计信息,如图9所示,示出了标注类别为分类1的指标1和指标2的统计信息,以及示出了标注类别为分类2的指标1和指标2的统计信息,例如,分类1可以为活体,分类2可以为非活体;例如,指标1可以为漏检数,指标2可以为标注进度等。
另外,还可以查看不同来源的数据集的统计信息,如图10所述,示出了来源1的名称1的数据集的指标1和指标2的统计信息,以及示出了来源2的名称2的数据集的指标1和指标2的统计信息,例如,指标1可以为标注进度,指标2可以为漏检数等。
具体地,该统计子系统可以得到各个统计指标随变量的变化关系。其中,统计指标可以为漏检率、攻击数、漏检数等等;变量可以为时间等。可以按每个统计间隔进行各项数据统计,标明统计时间、标注进度、各个标注类别线上监测总数、准确率等。每个统计间隔可以查看线上系统的误分类数据,误分类数据是指线上系统的模型得到的类别与标注类别不同。例如,针对从活体检测线上系统抓取的数据D1,若线上系统的模型对其的评估结果(如类别)确定其为活体,而在标注子系统中标注员将其标注为非活体,则该数据D1为误分类数据。
作为一例,可以按时间进行统计,可以包含所有关注的类别按时间维度的总量统计、错误率统计等各项指标。可以配置哪些类别是关注的类别(如活体),展示该类别随时间变化的哪些指标等。例如,图11示出了指标1随时间的变化曲线。举例来说,图11中的指标1可以是漏检率,图11可以表示针对关注的类别(如活体),漏检率随时间的变化曲线。
作为另一例,可以按来源进行统计,对于某个特定的指标,可以按指标的来源进行统计,并将其在一张图表中进行展示。例如,图12示出了指标1与来源之间的关系。示例性地,在图12的基础上,也可以得到指标1随来源的折线图。
作为再一例,可以按来源和时间进行多序列统计。对于某个特定的指标,可以将不同的来源的数据按时间进行统计,并将其在一张图表中进行展示。例如,图13示出了来源1的指标1随时间的变化曲线以及来源2的指标1随时间的变化曲线,这样能够实现对不同来源的相同指标的比对。
可见,可以预先配置各种关注的类别、关注的指标以及关注的来源等,另外可选地,为加快展示,可以将统计数据预先进行缓存。
作为一种实现方式,还可以进行分组统计。考虑到某一在线系统的数据可以具有多个来源,因此对于关注的指标,可以将这多个来源的相关统计信息合并以得到与该在线系统相关的统计结果。例如,图14中示出了来源1与来源2的汇总中指标1随时间的变化曲线。图14中还输出了来源3、来源4与来源5的汇总中指标1随时间的变化曲线。
可见,通过该统计子系统,能够以图表等形式直观地展现各种统计信息。
数据清洗子系统
数据清洗子系统可以定期或不定期地对已经添加至训练集中数据进行清洗,以便剔除其中错误标注的数据或者将其中错误标注的数据进行修正。作为一例,清洗页面可以如图15所示。
作为一种实现方式,可以进行全量清洗。具体地,可以对某数据集中的一个或多个标记类别进行清洗。例如,可以针对活体检测的数据集中所有的标记类别为“活体”的数据(即待清洗的数据)进行清洗。
该清洗的过程可以包括:判断待清洗的这些数据的原有标注是否准确,如原有标注错误,则进行修改。举例来说,可以通过点击如图15中所示的“查看/修改”执行该过程。可理解,这里的原有标注是指在该训练集中的数据的已有标注类别。原有标注可能是标注员对其首次标注后的标注类别,或者可能是上一次数据清洗后的标注类别。
或者,该清洗的过程可以包括:将待清洗的这些数据全部重新进行标注,举例来说,可以通过点击如图15中所示的“标注”执行该过程。随后,可以将重新标注的标注类别与原有标注进行比对,若不一致,则进行判断,如果原有标注正确,则修改重新标注的标注类别;若原有标注错误,则保留重新标注的标注类别。
作为另一种实现方式,可以进行部分清洗。具体地,针对某数据集,可以获取数据集中各个数据的评估结果(如类别),可理解,该评估结果可以是线上数据抓取子系统在抓取数据的同时所获取的。将标注子系统中由标注人员所标注的标注类别与评估结果进行比对,将两者不同的所有数据合并从而形成清洗集。一般地,每个数据集可以对应于一个清洗集,作为一例,可以如图16所示。进一步地,标注员可以对该清洗集中的数据进行重新标注,将其中标注不正确或不确定的部分进行修正或剔除,从而实现清洗过程。
其中,该部分清洗过程也可以称为快速清洗过程。相对于上述全量清洗过程,能够极大地减少标注员的工作量,缩短处理时长,提高处理效率。
数据清洗子系统可以定时或不定时地对数据集中的数据进行清洗,进而数据集中的数据清洗可以重复进行。可理解,某一次清洗过程不太可能将其中所有误标情况进行修正或剔除,因此这种重复清洗能够逐渐地提高数据集中标注的正确率。
模型评估子系统
模型评估子系统可以对训练集得到的一个或多个模型进行评估,从而得出各个模型的分类评分。随后,可以采用图表等形式进行展示。作为一例,图17为该评估页面的一个示意图。
具体地,参照图17,在模型评估子系统中,可以选择任务类型,上传一个或多个待评估数据,随后计算得到分类评分,并将该结果进行展示。
可见,模型评估子系统可以让各个角色的相关人员(例如,研究员、测试人员、运营人员等)对于同一批数据在不同模型下的表现有直观的认识,进而能够便于进行各种分析等,例如进行badcase分析或模型挑选等工作。
可选地,模型评估子系统还可以将训练集得到的模型与在线系统的模型进行比对,若训练集得到的模型优于在线系统的模型,可以将训练集得到的模型替换在线系统的模型,以实现在线系统的模型的版本更新。
由此可见,本发明实施例的系统能够从线上系统抓取数据形成增量数据集,并对其中的数据进行标注,标注后的数据被添加至训练集,进而该训练集能够用于训练生成新的模型,用于实现对线上系统的模型的更新。该系统便于对基于深度学习的线上系统中模型的更新迭代。
本发明实施例提供了一种用于对线上系统的模型进行更新的方法,如图18所示,该方法包括:
S110,从线上系统抓取数据,并形成数据集;
S120,获取对所述数据集中的数据的标注信息;
S130,将标注后的数据添加至训练集,以便训练得到新的模型。
结合前述图2至图17的相关描述,可以理解,图18所示的方法可以由前述的系统执行,具体地,S110可以由前述的线上数据抓取子系统执行,S120可以由前述的标注子系统执行,S130可以由前述的增量数据集添加子系统执行。相应地,可理解,可以结合前述的实施例来理解和实施图18所示的方法流程,为避免重复,结合图18所描述的实施例中的细节不再详细阐述。
作为一种实现方式,S120中可以从标注页面获取标注信息。具体地,可以提供标注页面,所述标注页面包括左侧区域和右侧区域,所述右侧区域包括右上侧区域和右下侧区域。其中,所述左侧区域用于呈现当前所标注的数据集的基本信息和统计信息,以及用于跳转到其他页面的按钮;所述右上侧区域用于呈现与标注功能有关的按钮或选择框;所述右下侧区域用于呈现待标注数据。
示例性地,所述右下侧区域所呈现的所述待标注数据为缩略图,所述待标注数据多行排列,每行的高度彼此相等,并且行与行之间的间隙彼此相等。
示例性地,S120可以包括:获取所述缩略图被标注的标注类别;将所述缩略图呈现为与所述标注类别所对应的颜色和/或数字。
作为一种实现方式,S110可以包括:从线上系统抓取数据以及所述数据的评估结果;对不同的评估结果采用不同的权重进行随机取样,形成所述数据集。
作为一种实现方式,图18所示的方法还可以包括:为不同的用户设定页面访问和/或操作的权限。可理解,该过程可以参见前述的权限及用户管理子系统的相关描述。
作为一种实现方式,图18所示的方法还可以包括:获得数据集的各个统计信息,并将所述各个统计信息通过图表形式进行展示。示例性地,所述统计信息包括以下中至少一项:检出数、总攻击数、漏检数、漏检率。可理解,该过程可以参见前述的统计子系统的相关描述。
作为一种实现方式,图18所示的方法还可以包括:清洗添加到所述训练集中的数据,以将错误标注的数据进行修正或剔除。可理解,该过程可以参见前述的数据清洗子系统的相关描述。
示例性地,所述清洗添加到所述训练集中的数据,以将错误标注的数据进行修正或剔除,包括:判断待清洗的数据的原有标注是否准确,若所述原有标注错误,则进行修正。或者,将待清洗的数据重新进行标注,将重新标注的标注类别与原有标注进行比对,若两者不一致,则进行判断,如果原有标注正确,则修改重新标注的标注类别;若原有标注错误,则保留重新标注的标注类别。
示例性地,所述清洗添加到所述训练集中的数据,以将错误标注的数据进行修正或剔除,包括:获取待清洗数据集中各个数据的评估结果;将所标注的标注类别与所述评估结果进行比对,将两者不同的所有数据合并从而形成清洗集;对所述清洗集中的数据进行重新标注。
作为一种实现方式,图18所示的方法还可以包括:对所述训练集得到的一个或多个模型进行评估,从而得出各个模型的分类评分。可理解,该过程可以参见前述的模型评估子系统的相关描述。
由此可见,本发明实施例能够从线上系统抓取数据形成增量数据集,并对其中的数据进行标注,标注后的数据被添加至训练集,进而该训练集能够用于训练生成新的模型,用于实现对线上系统的模型的更新。本发明实施例所提供的方法能够便于对基于深度学习的线上系统中模型的更新迭代。
图19是本发明实施例的用于对线上系统的模型进行更新的装置的一个示意性框图。该装置包括抓取模块210、标注获取模块220和添加模块230。
抓取模块210,用于从线上系统抓取数据,并形成数据集;标注获取模块220,用于获取对所述数据集中的数据的标注信息;添加模块230,用于将标注后的数据添加至训练集,以便训练得到新的模型。
作为一种实现方式,标注获取模块220可以从标注页面获取标注信息。具体地,可以提供标注页面,所述标注页面包括左侧区域和右侧区域,所述右侧区域包括右上侧区域和右下侧区域。其中,所述左侧区域用于呈现当前所标注的数据集的基本信息和统计信息,以及用于跳转到其他页面的按钮;所述右上侧区域用于呈现与标注功能有关的按钮或选择框;所述右下侧区域用于呈现待标注数据。
示例性地,所述右下侧区域所呈现的所述待标注数据为缩略图,所述待标注数据多行排列,每行的高度彼此相等,并且行与行之间的间隙彼此相等。
示例性地,标注获取模块220可以具体用于:获取所述缩略图被标注的标注类别;将所述缩略图呈现为与所述标注类别所对应的颜色和/或数字。
作为一种实现方式,抓取模块210可以具体用于:从线上系统抓取数据以及所述数据的评估结果;对不同的评估结果采用不同的权重进行随机取样,形成所述数据集。
作为一种实现方式,图19所示的装置还可以包括权限管理模块,用于:为不同的用户设定页面访问和/或操作的权限。
作为一种实现方式,图19所示的装置还可以包括统计模块,用于:获得数据集的各个统计信息,并将所述各个统计信息通过图表形式进行展示。示例性地,所述统计信息包括以下中至少一项:检出数、总攻击数、漏检数、漏检率。
作为一种实现方式,图19所示的装置还可以包括数据清洗模块,用于:清洗添加到所述训练集中的数据,以将错误标注的数据进行修正或剔除。
示例性地,数据清洗模块可以具体用于:判断待清洗的数据的原有标注是否准确,若所述原有标注错误,则进行修正。或者,将待清洗的数据重新进行标注,将重新标注的标注类别与原有标注进行比对,若两者不一致,则进行判断,如果原有标注正确,则修改重新标注的标注类别;若原有标注错误,则保留重新标注的标注类别。
示例性地,数据清洗模块可以具体用于:获取待清洗数据集中各个数据的评估结果;将所标注的标注类别与所述评估结果进行比对,将两者不同的所有数据合并从而形成清洗集;对所述清洗集中的数据进行重新标注。
作为一种实现方式,图19所示的装置还可以包括评估模块,用于:对所述训练集得到的一个或多个模型进行评估,从而得出各个模型的分类评分。
可理解,结合图19所示的装置所包括的各个模块可以对应于前述实施例中实现相同功能的子系统,因此也可以参见前述关于各个子系统的描述来理解图19的相关模块,并且图19所示的装置能够实现前述图18所示的用于对线上系统的模型进行更新的方法,为避免重复,这里不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
另外,本发明实施例还提供了另一种用于对线上系统的模型进行更新的系统,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,处理器执行所述程序时实现前述各个子系统所执行的过程。
存储器存储用于实现各个子系统执行的过程的计算机程序代码。存储器还可以用于存储数据、数据的来源、数据的标注类别、各种统计信息等等。
另外,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序。当所述计算机程序由处理器执行时,可以实现前述各个子系统所执行的过程。例如,该计算机存储介质为计算机可读存储介质。
计算机存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合,例如一个计算机可读存储介质包含用于随机地生成动作指令序列的计算机可读的程序代码,另一个计算机可读存储介质包含用于进行人脸活动识别的计算机可读的程序代码。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(Digital Signal Processing,DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims (15)

1.一种用于对线上系统的模型进行更新的方法,其特征在于,包括:
从线上系统抓取数据,并形成数据集;
获取对所述数据集中的数据的标注信息;
将标注后的数据添加至训练集,以便训练得到新的模型。
2.根据权利要求1所述的方法,其特征在于,
提供标注页面,所述标注页面包括左侧区域和右侧区域,所述右侧区域包括右上侧区域和右下侧区域,
其中,所述左侧区域用于呈现当前所标注的数据集的基本信息和统计信息,以及用于跳转到其他页面的按钮;所述右上侧区域用于呈现与标注功能有关的按钮或选择框;所述右下侧区域用于呈现待标注数据。
3.根据权利要求2所述的方法,其特征在于,
所述右下侧区域所呈现的所述待标注数据为缩略图,所述待标注数据多行排列,每行的高度彼此相等,并且行与行之间的间隙彼此相等。
4.根据权利要求3所述的方法,其特征在于,所述获取对所述数据集中的数据的标注信息,包括:
获取所述缩略图被标注的标注类别;
将所述缩略图呈现为与所述标注类别所对应的颜色和/或数字。
5.根据权利要求1所述的方法,其特征在于,所述从线上系统抓取数据,并形成数据集包括:
从线上系统抓取数据以及所述数据的评估结果;
对不同的评估结果采用不同的权重进行随机取样,形成所述数据集。
6.根据权利要求1所述的方法,其特征在于,还包括:
为不同的用户设定页面访问和/或操作的权限。
7.根据权利要求1所述的方法,其特征在于,还包括:
获得数据集的各个统计信息,并将所述各个统计信息通过图表形式进行展示。
8.根据权利要求7所述的方法,其特征在于,所述统计信息包括以下中至少一项:
检出数、总攻击数、漏检数、漏检率。
9.根据权利要求1所述的方法,其特征在于,还包括:
清洗添加到所述训练集中的数据,以将错误标注的数据进行修正或剔除。
10.根据权利要求9所述的方法,其特征在于,所述清洗添加到所述训练集中的数据,以将错误标注的数据进行修正或剔除包括:
判断待清洗的数据的原有标注是否准确,若所述原有标注错误,则进行修正;
或者,
将待清洗的数据重新进行标注,将重新标注的标注类别与原有标注进行比对,若两者不一致,则进行判断,如果原有标注正确,则修改重新标注的标注类别;若原有标注错误,则保留重新标注的标注类别。
11.根据权利要求9所述的方法,其特征在于,所述清洗添加到所述训练集中的数据,以将错误标注的数据进行修正或剔除包括:
获取待清洗数据集中各个数据的评估结果;
将所标注的标注类别与所述评估结果进行比对,将两者不同的所有数据合并从而形成清洗集;
对所述清洗集中的数据进行重新标注。
12.根据权利要求1所述的方法,其特征在于,还包括:
对所述训练集得到的一个或多个模型进行评估,从而得出各个模型的分类评分。
13.一种用于对线上系统的模型进行更新的装置,其特征在于,包括:
抓取模块,用于从线上系统抓取数据,并形成数据集;
标注获取模块,用于获取对所述数据集中的数据的标注信息;
添加模块,用于将标注后的数据添加至训练集,以便训练得到新的模型。
14.一种用于对线上系统的模型进行更新的装置,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述方法的步骤。
15.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述方法的步骤。
CN201810581927.7A 2018-06-07 2018-06-07 用于对线上系统的模型进行更新的方法以及装置 Pending CN108932299A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810581927.7A CN108932299A (zh) 2018-06-07 2018-06-07 用于对线上系统的模型进行更新的方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810581927.7A CN108932299A (zh) 2018-06-07 2018-06-07 用于对线上系统的模型进行更新的方法以及装置

Publications (1)

Publication Number Publication Date
CN108932299A true CN108932299A (zh) 2018-12-04

Family

ID=64449501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810581927.7A Pending CN108932299A (zh) 2018-06-07 2018-06-07 用于对线上系统的模型进行更新的方法以及装置

Country Status (1)

Country Link
CN (1) CN108932299A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711546A (zh) * 2018-12-21 2019-05-03 深圳市商汤科技有限公司 神经网络训练方法及装置、电子设备和存储介质
CN112836714A (zh) * 2019-11-22 2021-05-25 杭州海康威视数字技术股份有限公司 一种智能模型的训练方法及装置
CN112836714B (zh) * 2019-11-22 2024-05-10 杭州海康威视数字技术股份有限公司 一种智能模型的训练方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279887A (zh) * 2011-08-18 2011-12-14 北京百度网讯科技有限公司 一种文档分类方法、装置及系统
CN102937989A (zh) * 2012-10-29 2013-02-20 北京腾逸科技发展有限公司 并行化分布式互联网数据抓取方法及其系统
CN103077190A (zh) * 2012-12-20 2013-05-01 人民搜索网络股份公司 基于排序学习技术的热门事件排名方法
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN105654144A (zh) * 2016-02-29 2016-06-08 东南大学 一种基于机器学习的社交网络本体构建方法
WO2017103917A1 (en) * 2015-12-15 2017-06-22 Deep Instinct Ltd. Methods and systems for data traffic analysis
CN106934364A (zh) * 2017-03-09 2017-07-07 腾讯科技(上海)有限公司 人脸图片的识别方法及装置
CN107168945A (zh) * 2017-04-13 2017-09-15 广东工业大学 一种融合多特征的双向循环神经网络细粒度意见挖掘方法
CN107436904A (zh) * 2016-05-27 2017-12-05 北京京东尚科信息技术有限公司 数据获取方法及其设备
CN107506799A (zh) * 2017-09-01 2017-12-22 北京大学 一种基于深度神经网络的开集类别发掘与扩展方法与装置
CN108062331A (zh) * 2016-11-08 2018-05-22 南京理工大学 基于终生学习的增量式朴素贝叶斯文本分类方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279887A (zh) * 2011-08-18 2011-12-14 北京百度网讯科技有限公司 一种文档分类方法、装置及系统
CN102937989A (zh) * 2012-10-29 2013-02-20 北京腾逸科技发展有限公司 并行化分布式互联网数据抓取方法及其系统
CN103077190A (zh) * 2012-12-20 2013-05-01 人民搜索网络股份公司 基于排序学习技术的热门事件排名方法
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
WO2017103917A1 (en) * 2015-12-15 2017-06-22 Deep Instinct Ltd. Methods and systems for data traffic analysis
CN105654144A (zh) * 2016-02-29 2016-06-08 东南大学 一种基于机器学习的社交网络本体构建方法
CN107436904A (zh) * 2016-05-27 2017-12-05 北京京东尚科信息技术有限公司 数据获取方法及其设备
CN108062331A (zh) * 2016-11-08 2018-05-22 南京理工大学 基于终生学习的增量式朴素贝叶斯文本分类方法
CN106934364A (zh) * 2017-03-09 2017-07-07 腾讯科技(上海)有限公司 人脸图片的识别方法及装置
CN107168945A (zh) * 2017-04-13 2017-09-15 广东工业大学 一种融合多特征的双向循环神经网络细粒度意见挖掘方法
CN107506799A (zh) * 2017-09-01 2017-12-22 北京大学 一种基于深度神经网络的开集类别发掘与扩展方法与装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李果等: "《生物多样性监测技术手册》", 31 May 2014 *
申广荣等: "《资源环境信息学 第2版》", 30 June 2016 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711546A (zh) * 2018-12-21 2019-05-03 深圳市商汤科技有限公司 神经网络训练方法及装置、电子设备和存储介质
CN112836714A (zh) * 2019-11-22 2021-05-25 杭州海康威视数字技术股份有限公司 一种智能模型的训练方法及装置
CN112836714B (zh) * 2019-11-22 2024-05-10 杭州海康威视数字技术股份有限公司 一种智能模型的训练方法及装置

Similar Documents

Publication Publication Date Title
Kuhn et al. Data pre-processing
CN110349652B (zh) 一种融合结构化影像数据的医疗数据分析系统
CN110292775B (zh) 获取差异数据的方法及装置
JP4029593B2 (ja) プロセス分析方法及び情報システム
CN108154105A (zh) 水下生物检测与识别方法、装置、服务器及终端设备
JP6072021B2 (ja) 評価システム及び評価方法
CN103988078B (zh) 用于生化数据分析的系统和方法
CN108028075A (zh) 生物体信息测定器以及生物体信息测定方法
Venton et al. Robustness of convolutional neural networks to physiological electrocardiogram noise
CN107767960A (zh) 临床检测项目的数据处理方法、装置及电子设备
JP2020520024A (ja) 臨床試験施設の実績を視覚化するためのシステム及び方法
CN110363090A (zh) 智能心脏疾病检测方法、装置及计算机可读存储介质
CN112380454A (zh) 培训课程推荐方法、装置、设备及介质
CN108447047A (zh) 抗酸杆菌检测方法及装置
CN108280644A (zh) 群组成员关系数据可视化方法及系统
Hošková et al. Inter-and intraspecific variation in grass phytolith shape and size: a geometric morphometrics perspective
CN108932299A (zh) 用于对线上系统的模型进行更新的方法以及装置
Borycki et al. Engineering the electronic health record for safety: a multi-level video-based approach to diagnosing and preventing technology-induced error arising from usability problems
CN103578071A (zh) 产生用户界面的方法和使用该方法产生用户界面的设备
CN109523135A (zh) 生成绩效考核数据报表的方法和装置
KR20150050465A (ko) 과학연구 정보 진화의 분석 방법 및 장치
CN110021386A (zh) 特征提取方法及特征提取装置、设备、存储介质
CA3056123A1 (en) Risk assessment tool
CN106295155A (zh) 住院老年人医学健康评估系统及方法
CN103229179B (zh) 用于自动显示生物监测数据中的模式的系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181204