CN112016585A - 用于将机器学习和大众外包数据标注进行集成的系统和方法 - Google Patents
用于将机器学习和大众外包数据标注进行集成的系统和方法 Download PDFInfo
- Publication number
- CN112016585A CN112016585A CN202010475759.0A CN202010475759A CN112016585A CN 112016585 A CN112016585 A CN 112016585A CN 202010475759 A CN202010475759 A CN 202010475759A CN 112016585 A CN112016585 A CN 112016585A
- Authority
- CN
- China
- Prior art keywords
- machine learning
- learning algorithm
- worker
- feature
- interface
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
- G06F9/453—Help systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/908—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
- G06V10/7784—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
- G06V10/7788—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种用于机器学习系统的数据标注系统包括计算系统,该计算系统被配置成执行用于生成输入数据的数据标注的机器学习算法。该计算系统进一步被配置成:执行用于将机器学习算法的结果和预测传达给非专家工作者以供审查的接口。该接口使用可视化和自然语言与非专家工作者进行通信以引出反馈,从而改进机器学习算法的性能。
Description
技术领域
本申请总体上涉及一种用于通过大众外包(crowd-sourced)任务和机器学习算法来进行协作式数据标注(annotation)的系统。
背景技术
许多系统正在开始合并人工智能(AI)和机器学习概念以用于做出决策。机器学习系统需要大量的输入数据,以便学习对各种输入的正确响应。例如,输入数据可以包括各种输入组合以及应当被学习的对应结果。大量的原始源数据可能是可用的。然而,必须处理该原始源数据以向机器学习算法提供正确的输入。相关特征和预测结果必须与输入数据相关联,以便正确地训练机器学习算法。由此,期望一种用于标注输入数据的有效方法。
发明内容
数据标注系统包括计算系统,该计算系统被编程为执行机器学习算法,该机器学习算法被编程为:根据输入数据集将一特征标识为预定特征和对应的置信度水平。该计算系统进一步被编程为:响应于标识了具有超过阈值的置信度水平、接着在该置信度水平中减小至小于低置信度阈值的特征,而执行大众工作者接口,该大众工作者接口被编程为生成交互式任务,并且从大众工作者接收反馈以标识该减小的原因,该交互式任务被配置成显示输入数据集和由机器学习算法标识的特征。
大众工作者接口可以进一步被编程为:使文本对话框被显示在显示屏上,其中文本对话框包括用于指导大众工作者完成交互式任务的指令。大众工作者接口可以进一步被编程为:从大众工作者接收反馈,作为与在显示屏上绘制的元素相对应的数据。大众工作者接口可以进一步被编程为:从大众工作者接收反馈,作为在显示屏上录入的屏上(on-screen)对象的文本标注。大众工作者接口可以进一步被编程为:响应于与该减小相对应的输入数据集被显示在显示屏上而使对话框元素被显示在显示屏上,该对话框元素向大众工作者警告该减小。大众工作者接口可以进一步被编程为:使对话框元素被显示在显示屏上,该对话框元素指示大众工作者标识针对其预期发生置信度水平中的类似减小的特征。大众工作者接口可以进一步被编程为:在机器学习算法表示与适合于人类理解的视觉表示之间进行转换。输入数据集可以是包括多个图像帧的视频片段。该计算系统可以进一步被编程为:响应于输入数据集被随机选择以用于监测而执行大众工作者接口。
一种方法包括:由机器学习算法根据输入数据集将一特征标识为预定特征和对应的置信度水平。该方法进一步包括:响应于标识了具有超过阈值的置信度水平、接着在该置信度水平中减小至小于低置信度阈值的特征,而生成用于大众外包的交互式任务,以在显示屏上显示输入数据集和由机器学习算法标识的特征,并且从大众工作者接收反馈以标识该减小的原因。
该方法可以进一步包括:使文本对话框被显示在显示屏上,该文本对话框包括用于指导大众工作者完成交互式任务的指令。该方法可以进一步包括:响应于与该减小相对应的输入数据集被显示在显示屏上而使对话框元素被显示在显示屏上,该对话框元素向大众工作者警告该减小。该方法可以进一步包括:使对话框元素被显示在显示屏上,该对话框元素指示大众工作者标识针对其预期发生置信度水平中的类似减小的特征。该方法可以进一步包括:利用从大众工作者接收到的反馈来更新用于机器学习算法的数据集。该方法可以进一步包括:响应于输入数据集被随机选择以用于监测而生成用于大众外包的交互式任务,以在显示屏上显示输入数据集和由机器学习算法标识的特征,并且从大众工作者接收反馈以标识不准确的特征标识。该方法可以进一步包括:使对话框被显示,该对话框包括机器学习算法的操作细节,以帮助大众工作者理解机器学习算法。
一种数据标注系统包括被编程为执行机器学习算法的计算系统,该机器学习算法被编程为根据输入数据集将一特征标识为预定特征。该计算系统进一步被编程为:响应于指示该特征被不准确地标识的状况的存在而执行大众工作者接口,该大众工作者接口被编程为:(i)生成用于由大众工作者完成的交互式任务;以及(ii)在大众工作者发起交互式任务时,将由机器学习算法标识的特征显示为覆盖在输入数据集上的预定特征,并且从大众工作者接收反馈以标识该特征被不准确地标识的原因。
大众工作者接口可以进一步被编程为:在视觉上传达机器学习算法的预测,并且以自然语言来标识关注区域。机器学习算法可以进一步被编程为:生成与被标识为预定特征的特征相对应的置信度水平,并且指示该预定特征被不准确地标识的状况可以包括置信度水平小于低置信度阈值。机器学习算法可以进一步被编程为:生成与被标识为预定特征的特征相对应的置信度水平,并且指示该预定特征被不准确地标识的状况可以包括:置信度水平大于预定阈值、接着是在该置信度水平中减小至小于低置信度阈值。
附图说明
图1描绘了用于数据标注系统的可能配置。
图2描绘了用于数据标注系统的显示接口的示例。
图3描绘了用于数据标注系统的显示输出的示例,该显示输出还包括机器学习算法预测。
图4描绘了用于数据标注系统的显示输出的示例,该显示输出包括在不同时间处的机器学习算法预测。
图5描绘了用于数据标注系统的显示输出的示例,该显示输出包括由任务执行器插入的标注。
图6描绘了用于数据标注系统的显示输出的示例,该显示输出包括由任务执行器插入的标注的附加示例。
图7描绘了用于数据标注系统的显示输出的示例,该显示输出包括附加的机器学习算法特征。
图8描绘了用于数据标注系统的显示输出的示例,该显示输出包括解释性对话框元素。
图9是用于数据标注系统的可能流程图。
具体实现方式
本文中描述了本公开的实施例。然而,应当理解的是,所公开的实施例仅仅是示例,并且其他实施例可以采取各种和可替代形式。附图不一定是成比例的;一些特征可能被夸大或最小化以示出特定组件的细节。因此,本文中所公开的具体结构和功能细节将不被解释为限制性的,而是仅仅作为教导本领域技术人员以各种方式应用本发明的代表性基础。如本领域普通技术人员将理解的,参考任一个图而图示和描述的各种特征可以与在一个或多个其他图中图示的特征相组合,以产生未明确图示或描述的实施例。所图示特征的组合提供了典型应用的代表性实施例。然而,还有与本公开的教导一致的特征的各种组合和修改。
许多产品正在结合人工智能(AI)和机器学习概念以用于做出决策。为了有效,可以用大量的训练数据来训练AI系统。训练数据可以包括各种传感器输入组合、以及由AI系统正在生成的参数的预期输出。例如,标识出对象的AI系统可以使用视频或图像输入。训练数据可以包括一组图像以及位于图像中的对象的对应位置。数据标注涉及标记或以其他方式标识相关数据。
机器学习算法和大众外包可以用于标注大量数据。每种方法都具有其自身的局限性。机器学习算法和大众外包可以一起被应用于数据标注。一些工作流程策略可以在机器与大众之间使用交接(hand-off)模型。也就是说,机器学习算法和大众工作者各自执行其自己的一部分任务而没有直接交互,并且各自使用另一方的输入。本文中公开了一种用于实现大众工作者与机器学习算法之间的主动合作伙伴关系以用于数据标注的系统和方法。代替于将机器学习算法视为黑盒,而是提供机器学习算法的细节和相关信息来向大众工作者解释机器学习过程。机器学习算法可以明确地从大众工作者实时地请求帮助,并且基于反馈来即刻进行调整。大众工作者可以观察机器学习算法的性能,并且在需要时提供辅助。在一个示例中,将主动合作伙伴关系应用于标注视频图像,诸如针对一系列道路场景中的行人创建边界框。该系统定义了大众和AI合作的用于数据标注的有效模型,并且将可解释的机器学习的受众从专家扩展到外行(layman)。
近年来,机器学习算法已经显著地改进,并且对于某些任务,它可能表现优于人类。对表现最高的算法进行监督。监督算法可能需要大量的经良好标记或标注的数据(例如,成千上万个经标记的图像)。出于成本和性能考虑,期望能正确、有效且快速地标记大量数据。然而,针对大型数据集精确地标记每个单个图像需要显著的人类努力。减少人类努力的量的一种方式是由机器学习算法对数据进行预标记。然而,在很多情况下,视觉算法的标记准确度较低,并且纠正预标记错误(诸如,对象的不精确边界)比直接对其进行标记需要更多的努力。如此低的准确度的主要原因是:通常在其他数据集上对视觉模型进行训练,并且视觉模型被应用于需要标注的新数据集,并且众所周知,视觉模型的可传递性较低。
大众外包系统可以用于通过将高认知性任务(例如,对照片或书面文字的含义构建(sense-making))分解成相对低认知性的任务来实现高认知性任务,这些相对低认知性的任务可以由没有专业技能(例如,没有广泛的领域知识)的普通人类工作者轻松地完成。大众工作者可以在诸如Amazon Mechanical Turk之类的大众外包市场中注册。由于相对低的成本和高数据处理速度,大众外包已经被用于执行对于机器学习算法具有挑战性的任务。然而,大众工作者的表现可能不可靠,并且使用大众工作者可能会是昂贵的。这些因素可能构成对在自主驾驶领域中标注数据的障碍,自主驾驶需要从相机和其他传感器收集的大量准确标注的数据。从大众工作者的角度来看,数据标注(诸如,针对行人绘制边界框)可能是乏味的。作为结果,大众工作者要么选择不采取这种任务,要么产生低质量的结果。
所公开的方法旨在在机器学习模型与大众工作者之间建立主动伙伴关系,这可以克服双方的局限性。机器学习模型可以被配置成解释它们自己,并且在机器学习算法正在运行时主动地从大众工作者引出关于测试数据集的性能和数据特性的动态输入。例如,如果机器学习算法可以将大众工作者引导到机器学习算法正在经历的特定问题,则这可能是有帮助的。预计该方法将增加机器学习的准确度,并且激励大众工作者提供高质量的标注。
图1描绘了数据标注系统100,以实现用于使用协作式大众/机器概念来标注数据的系统。例如,数据标注系统100可以涉及自主驾驶系统。数据标注系统100可以包括至少一个计算系统102。计算系统102可以包括至少一个处理器104,该处理器104可操作地连接到存储器单元108。处理器104可以包括实现中央处理单元(CPU)106的功能的一个或多个集成电路。CPU 106可以是实现指令集(诸如,x86、ARM、Power或MIPS指令集系列中的一个)的商业上可得的处理单元。在操作期间,CPU 106可以执行从存储器单元108取回的所存储的程序指令。所存储的程序指令可以包括控制CPU 106的操作以执行本文中描述的操作的软件。在一些示例中,处理器104可以是片上系统(SoC),该片上系统(SoC)将CPU 106、存储器单元108、网络接口、和输入/输出接口的功能集成到单个集成设备中。计算系统102可以实现用于管理操作的各种方面的操作系统。
存储器单元108可以包括用于存储指令和数据的易失性存储器和非易失性存储器。非易失性存储器可以包括固态存储器,诸如NAND闪存、磁性和光学存储介质、或者当计算系统102被停用或失去电力时保留数据的任何其他合适的数据存储设备。易失性存储器可以包括存储程序指令和数据的静态和动态随机存取存储器(RAM)。例如,存储器单元108可以存储机器学习模型110或算法、用于机器学习模型110的训练数据集112、用于存储数据标注的结果的经标注的数据集114、原始源数据集115、以及大众工作者接口116过程。
计算系统102可以包括被配置成提供与外部系统和设备的通信的网络接口设备122。例如,网络接口设备122可以包括如电气和电子工程师协会(IEEE)802.11系列标准所定义的有线和/或无线以太网接口。网络接口设备122可以包括用于与蜂窝网络(例如3G、4G、5G)进行通信的蜂窝通信接口。网络接口设备122可以进一步被配置成向外部网络124或云提供通信接口。
外部网络124可以被称为万维网或互联网。外部网络124可以在计算设备之间建立标准通信协议。外部网络124可以允许在计算设备与网络之间容易地交换信息和数据。一个或多个服务器130可以与外部网络124进行通信。
计算系统102可以包括输入/输出(I/O)接口120,该接口120可以被配置成提供数字和/或模拟输入和输出。I/O接口120可以包括用于与外部设备进行通信的附加串行接口(例如,通用串行总线(USB)接口)。
计算系统102可以包括人机接口(HMI)设备118,该人机接口(HMI)设备118可以包括使得数据标注系统100能够接收控制输入的任何设备。输入设备的示例可以包括:诸如键盘、鼠标、触摸屏、语音输入设备和其他类似设备之类的人类接口输入。计算系统102可以包括显示设备132。计算系统102可以包括用于将图形和文本信息输出到显示设备132的硬件和软件。显示设备132可以包括电子显示屏、投影仪、打印机、或用于向用户或操作者显示信息的其他合适设备。计算系统102可以进一步被配置成允许经由网络接口设备122与远程HMI和远程显示设备进行交互。
可以使用一个或多个计算系统来实现数据标注系统100。尽管本示例描绘了实现所有所描述特征的单个计算系统102,但是所意图是,可以通过彼此通信的多个计算单元来分离并实现各种特征和功能。所选择的特定系统架构可能取决于多种因素。作为示例,大众工作者接口116过程可以在分离的计算系统上实现。
大众工作者128可以利用工作站126来访问外部网络124。大众工作者128也可以被称为任务执行者。可以不期望大众工作者128具有任何领域专业知识。大众工作者128可以在诸如Amazon Mechanical Turk之类的一个或多个大众外包市场中注册。大众外包市场可以在服务器130之一上实现。大众外包市场可以允许任务请求者上载任务以供大众工作者128完成。大众工作者128可以使用工作站126来访问大众外包市场。工作站126可以包括类似于计算系统102的组件。工作站126可以是个人计算设备,其包括用于输入和输出的用户接口。工作站126可以包括显示设备。例如,工作站126可以是具有显示器和键盘的计算机。工作站126可以包括平板电脑和手机。
数据标注系统100可以实现机器学习算法110,该机器学习算法110被配置成分析原始源数据集115以生成经标注的数据集114。原始源数据集115可以包括原始或未经处理的传感器数据,该数据可以代表用于机器学习系统的输入数据集。原始源数据集115可以包括视频、视频片段、图像、基于文本的信息、以及原始或经部分处理的传感器数据(例如,对象的雷达图)。在一些示例中,机器学习算法110可以是被设计成执行预定功能的神经网络算法。例如,神经网络算法可以在汽车应用中被配置成标识视频图像中的行人。机器学习算法110可以被配置成生成经标注的数据集114以供其他机器学习系统来使用。例如,经标注的数据集114可以被用作用于针对汽车应用的行人检测系统的训练数据。
经标注的数据集114可以包括除了原始源数据集115之外的标注。例如,当原始源数据集115是视频图像时,被并入到经标注的数据集114中的每个帧可以具有对应的标注。标注可以包括与图像帧的所标识的坐标相关联的描述。例如,标注可以包括针对特定特征的边界框。标注可以包括特定特征的颜色编码。标注可以定义在图像中找到的特征的文本标签或描述。
数据标注系统100可以存储用于机器学习算法110的训练数据集112。训练数据集112可以表示用于训练机器学习算法110的一组先前标注的数据。机器学习算法110可以使用训练数据集112来学习与神经网络算法相关联的加权因子。训练数据集112可以包括一组源数据,该一组源数据具有机器学习算法110试图经由学习过程来复制的对应后果或结果。在示例中,机器学习算法110可以被设计成标识视频图像中的行人的存在和位置,并且相应地标注该数据。在该示例中,训练数据集112可以包括具有和不具有行人以及对应的存在和位置信息的源视频。源视频可以包括其中标识了行人的各种场景。
可以使用训练数据集112作为输入在学习模式下来操作机器学习算法110。可以使用来自训练数据集112的数据通过多次迭代来执行机器学习算法110。在每次迭代的情况下,机器学习算法110可以基于所实现的结果来更新内部加权因子。例如,机器学习算法110可以将输出结果(例如,标注)与训练数据集112中包括的结果进行比较。由于训练数据集112包括预期结果,因此机器学习算法110可以确定何时性能是可接受的。在机器学习算法110达到预定性能水平(例如,与关联于训练数据集112的结果100%一致)之后,可以使用不在训练数据集112中的数据来执行机器学习算法110。可以将经训练的机器学习算法110应用于新的数据集以生成经标注的数据。
机器学习算法110可以被配置成标识原始源数据115中的特定特征。原始源数据115可以包括针对其期望标注结果的多个实例或输入数据集。例如,机器学习算法110可以被配置成标识视频图像中的行人的存在并且标注该出现。机器学习算法110可以被编程为处理原始源数据115以标识特定特征的存在。机器学习算法110可以被配置成将原始源数据115中的特征标识为预定特征(例如,行人)。原始源数据115可以从各种源导出。例如,原始源数据115可以是由正在使用经标注的数据集114的机器学习系统收集的实际输入数据。原始源数据115可以是机器生成的,以用于测试数据标注系统。作为示例,原始源数据115可以包括来自相机的原始视频图像。
在该示例中,机器学习算法110可以处理原始源数据115,并且输出对行人存在的指示。输出还可以包括该行人在视频图像内的相对位置。这种信息可以是标注的一部分。另外,输出可以包括输出的准确度预测或置信度水平。机器学习算法110可以针对所生成的每个输出来生成置信度水平或因子。例如,超过预定高置信度阈值的置信度值可以指示机器学习算法110对于所标识的特征与该特定特征相对应是有信心的。小于低置信度阈值的置信度值可以指示机器学习算法110对于该特定特征存在具有某种不确定性。
计算系统102可以进一步包括大众工作者接口过程116,该大众工作者接口过程116被编程为(经由工作站126)在机器学习算法110与大众工作者128之间提供接口。大众工作者接口116可以由机器学习算法110的开发者来预定义和/或编程。开发者可以标识预定的一组错误,这些错误可能导致机器学习算法110不正确地标注原始源数据115。对应于该预定的一组错误,开发者可以针对每个错误生成脚本化对话框。该脚本化对话框可以包括对大众工作者128以特定方式提供输入的特定请求。例如,为了标注视频图像,大众工作者接口116可以请求大众工作者128圈出或突出显示所显示的图像的区域。在其他示例中,大众工作者接口116可以请求文本输入。在其他示例中,大众工作者接口116可以请求大众工作者128指向并且点击所显示的图像上的感兴趣区域。大众工作者接口116可以被配置成:标识导致了机器学习算法110中的不准确性的每个类型的错误。大众工作者接口116可以监测机器学习算法110的操作,以检测其中可能存在不准确性的状况。例如,大众工作者接口116可以访问机器学习算法110的内部变量以确定准确度和性能。
大众工作者128可能能够处理原始源数据115以确定特定特征是否存在。对于视觉任务,大众工作者128可能能够可靠地指示原始源数据115中的特定特征(例如行人)的存在。另外,大众工作者128可能非常适合于标识出可能导致机器学习算法110在标识方面遇到麻烦的其他特征。另外,当显示了由机器学习算法110生成的标注结果时,大众工作者128可能能够确定该结果是否是合理的。
大众工作者接口116可以生成大众外包任务。当置信度水平低时,经由交互式大众外包任务来对输出进行确认或验证可能是有用的。在其他情况下,可以随机选择原始源数据115中的一些以供大众外包任务来监测。大众外包任务可以被上载到托管大众外包市场的服务器130。大众外包任务可以被分配给在该市场中被注册的大众工作者128之一、或者由这些大众工作者128之一来选择。大众工作者128可以使用工作站126经由外部网络124来访问该任务。在一些配置中,交互式任务可以是在大众工作者工作站126上被下载并执行的可执行程序。可执行程序可以包括图形接口,并且经由外部网络124建立与大众工作者接口116的通信。大众工作者接口116然后可以与该任务进行通信以交换数据。在其他示例中,该任务可以是至与大众工作者接口116相关联的网页的链路。大众工作者128可以使用在工作站126上执行的网络浏览器来访问该任务。该任务在大众工作者接口116与大众工作者128之间建立通信链路。大众工作者接口116可以提供将在大众工作者工作站126上显示的内容。大众工作者工作站126可以被配置成向大众工作者接口116提供大众工作者输入数据。
在执行大众外包任务期间,大众工作者接口116可以针对来自原始源数据集115的特定一组输入数据来执行机器学习算法110。大众工作者接口116可以随着大众外包任务的进行来管理机器学习算法110的开始和停止。大众工作者接口116还可以基于由大众工作者128生成并返回的输入来更新去往机器学习算法110的输入数据。对于其中该一组输入数据表示一时间间隔内的性能的配置,大众工作者接口116可以控制机器学习算法110的定序(sequencing)。例如,大众工作者接口116可以允许针对每个时间单位(例如,输入数据集的采样间隔)来逐步执行机器学习算法110。
大众工作者接口116可以被配置成将来自机器学习算法110的信息转换成非专家可以理解的自然语言表示。大众工作者接口116可以生成对话框元素,从而以自然语言来提醒大众工作者注意机器学习算法110的可能的不准确性。大众工作者接口116还可以被配置成以视觉方式来传达人类易于解释的机器学习算法110预测(例如,视觉化)。例如,大众工作者接口116可以输出由机器学习算法110使用的突出特征的热图。大众工作者接口116可以实现会话代理以支持大众工作者128与机器学习算法110之间的交互。大众工作者接口116可以被编程为从大众工作者128接收反馈,作为与大众工作者128在显示屏上绘制或键入的元素相对应的数据。
图2描绘了由大众工作者接口116生成的显示屏201的第一快照200的可能示例。大众工作者接口116可以被定义为包括聊天窗口202,以用于与大众工作者128交换基于文本的信息。聊天窗口202可以包括文本输入字段204,大众工作者128可以在其中录入文本信息。聊天窗口202可以显示由大众工作者接口116生成的对话框。该对话框可以包括任务开始时的介绍性信息。例如,该对话框可以简要地解释所需要的来自大众工作者128的工作。该对话框可以进一步包括关于机器学习算法110的相关细节的信息。聊天窗口202还可以显示由大众工作者128录入的文本响应。聊天窗口202的内容可以被保存在存储器单元108中,以用于稍后分析。在这种情况下,该对话框包括问候语以欢迎大众工作者128。
大众工作者接口116可以进一步定义图像窗口208,以用于显示与所定义的任务有关的图像和/或视频。大众工作者接口116可以进一步定义一个或多个虚拟按钮210,以用于控制基于屏幕的操作。例如,虚拟按钮210可以包括暂停命令222,该暂停命令222被配置成在当前帧处暂停视频。虚拟按钮210可以包括下一帧命令218和上一帧命令220,以便使视频在所陈述的方向上前进单个帧。虚拟按钮210可以包括被配置成使帧自动前进的播放命令。在一些配置中,暂停命令222和播放命令可以共享动态标记的虚拟按钮。
虚拟按钮210还可以包括用于允许大众工作者128与视频图像进行交互的命令。例如,虚拟按钮210可以包括绘制框命令212,以在所显示的图像上发起框绘制环节。绘制框命令212可以使得大众工作者128能够包围该图上的任何区域以突出显示特定特征(例如,不限于框的形状)。作为示例,大众工作者128可以通过将光标移动到屏幕位置、按下按钮或按键、并且在要封闭的区域周围移动光标来绘制框。随着光标移动,大众工作者接口116可以延伸出一条线。在其他示例中,绘制框命令212可以限于形成框的形状。
虚拟按钮210可以包括绘制线命令214,该绘制线命令214被配置成在所显示的图像上发起线绘制环节。大众工作者128可以通过将光标移动到屏幕位置、按下按钮或按键、将光标移动到最终位置并且释放按钮或按键来绘制线。随着光标移动,大众工作者接口116可以描绘出该线。
虚拟按钮210可以包括删除命令216,该删除命令216被配置成使屏幕上的对象被删除。例如,大众工作者128可以通过选择删除命令216、用光标指向屏幕上显示的项、并且按下按钮或按键来删除该项。在其他配置中,大众工作者128可以突出显示屏幕上的项,并且然后选择删除命令216。尽管该示例中描绘的命令是虚拟按钮,但是这些命令也可以在下拉菜单或弹出菜单中实现。在其他配置中,命令可以被定义为击键(keystroke)。
可以由系统架构师/设计者来预定义大众工作者接口116,并且大众工作者接口116可以被配置成引出对机器学习算法110有用的信息。大众工作者接口116可以被实现为用超文本标记语言(HTML)编写的基于网络的接口。例如,大众工作者128可以通过使用网络浏览器并且导航到与计算系统102相关联的网站来访问大众工作者接口116。
图2可以表示在大众外包任务发起时的显示屏。图3-8表示执行任务时的附加显示屏内容,并且在本文中对其进行了描述。图3描绘了可以表示任务执行的另一部分的显示屏201的第二快照300的示例。可以将第二图像帧308显示在显示屏201上。另外,由机器学习算法110生成的特征或数据(例如,标注)可以覆盖在该图像上。例如,可以绘制边界框310以反映由机器学习算法110识别的特定类型的对象。另外,可以将描述性文本312显示在边界框310附近。在该示例中,边界框310表示由机器学习算法110标识的行人,并且描述性文本312是与边界框310相关联的置信度水平。在该示例中,描述性文本312指示100%的置信度水平。
大众工作者接口116还可以在聊天窗口206中生成描述性对话框306。在该示例中,描述性对话框306提供了关于显示内容的信息,并且提供了可能需要的来自大众工作者128的辅助的指示。
图4描绘了可以表示任务执行的另一部分的显示屏201的第三屏幕快照400的示例。可以将第三图像408显示在显示屏201上。在该示例中,该图像是大众工作者接口116正在流式传输或提供的视频的帧。由机器学习算法110生成和跟踪的特征和/或数据可以覆盖在该图像上。在该示例中,显示了边界框410,并且将描述性文本412显示在边界框410附近。在该示例中,该描述性文本指示50%的置信度水平。第三屏幕快照400表示其中与被跟踪对象相关联的置信度水平已经从先前的快照减小的情形。在该示例中,大众工作者接口可以在聊天窗口206中显示指令对话框406。在该示例中,指令对话框406指示大众工作者128暂停视频,并且在被跟踪对象与任何附近的对象之间绘制出边界。在这种情况下,该汽车部分地挡住了被跟踪行人的视图,使得边界框410包括该汽车的一部分。
图5描绘了可以表示任务执行的另一部分的显示屏201的第四屏幕快照500的示例。在这种情况下,可以暂停在显示屏201上显示的内容,以允许大众工作者128分析该内容。可以将第四图像508显示在显示屏201上。第四屏幕快照500可以与第三屏幕快照400类似,但第四屏幕快照500具有大众工作者输入的添加。由机器学习算法110生成和跟踪的特征和/或数据可以覆盖在该图像上。在该示例中,显示了边界框410,并且将描述性文本412显示在边界框410附近。在该示例中,该描述性文本指示50%的置信度水平,从而指示了机器学习算法110要跟踪正在汽车的路径中移动的行人是有困难的。在该示例中,大众工作者128已经突出显示或选择了绘制线命令516。大众工作者128还已经绘制出线512,该线512将正在遮挡的汽车与被跟踪的行人(例如,边界框410)进行分离。另外,大众工作者128已经在该车辆上放置了文本标签514(“汽车”)。可以将大众工作者128录入的信息传送到大众工作者接口116以用于进一步处理。
大众工作者接口116也可以被配置成解决其他情况。在其他示例中,被跟踪的特征可能由于光照条件中的改变而丢失。例如,从日光行走到阴影中的行人对于机器学习算法110来说可能变得不那么可识别。在这种情况下,大众工作者128可以提供指示该行人已经行走到阴影区域中的输入。这种状况可能会在傍晚的路灯附近发生。这些状况也可能出现在隧道或地下通道附近,其中光线条件可能随着车辆或行人到处移动而改变。
图6描绘了可以表示任务执行的另一部分的显示屏201的第五屏幕快照600的示例。可以将第五图像608显示在显示屏201上。第五屏幕快照500可以与第四屏幕快照400类似,但第五屏幕快照具有附加的大众工作者输入。另外,大众工作者接口116已经使另一个指令对话框606被显示在聊天窗口206中。在该示例中,指令对话框606请求大众工作者128在该图像上标记出可能针对其发生类似问题的附加区域。这向该系统提供了可用于调整可能针对其发生类似错误的机器学习算法110预测的附加数据。在该示例中,大众工作者128已经在该汽车周围绘制出边界612,并且用第二个框614突出显示了另一个行人。在这种情况下,机器学习算法110很可能具有与新标识的行人被汽车挡住相同的问题。所录入的数据可以被传送到大众工作者接口116以用于进一步处理。
图7描绘了可以表示任务执行的另一部分的显示屏201的第六屏幕快照700的示例。可以将第六图像708显示在显示屏201上。在该示例中,大众工作者接口116显示了表示机器学习算法110的焦点的元素702。另外,大众工作者接口116在聊天窗口206中产生另一个指令对话框706。在该示例中,该指令对话框指示大众工作者128通过在该图像上进行绘制来删除或添加焦点。这可以向大众工作者128提供关于机器学习算法110的运行的附加水平的细节。另外,这允许大众工作者128评估由机器学习算法110使用的焦点的准确度。该接口可以被扩展成包括由机器学习算法110使用的其他内部选择标准。
图8描绘了可以表示任务执行的另一部分的显示屏201的第七屏幕快照800的示例。可以将第七图像808显示在显示屏201上。在该示例中,大众工作者接口116已经使解释性对话框806被显示在聊天窗口206中。解释性对话框806可以包括解释某些术语或提供附加信息的信息。可以响应于大众工作者的请求而显示解释性对话框806。例如,解释性对话框806的显示可以响应于大众工作者128键入诸如“什么是特征”之类的请求。在其他示例中,可以通过将光标保持在聊天窗口206中的文本项上方达预定时间,来呈现解释性对话框806。在其他示例中,该系统可以包括语音接口,并且可以响应于来自大众工作者128的口头请求。解释性对话框806可以对机器学习算法110如何做出预测进行解释,并且提供对该算法的操作的洞察。
大众工作者接口116可以被配置成解释由机器学习算法110使用的术语和语言。大众工作者接口116可以引起输出文本对话框的显示,该显示解释了将由大众工作者128执行的任务。文本对话框可以帮助大众工作者128理解机器学习算法110。另外,文本对话框可以提供如下信息:该信息对于帮助大众工作者128为机器学习算法110生成准确的输入是有用的。
图2-8表示正在被执行的可能的大众外包任务的部分。交互式任务可以被配置成在数据标注过程中辅助机器学习算法110。交互式任务还可以被配置成通过提供关于机器学习算法110的附加信息来维持大众工作者128的兴趣。
图9描绘了可以由计算系统102实现的可能的操作序列的流程图900。在操作902处,数据标注系统可以标识标注细节。可以执行机器学习算法110以标识一组输入数据中的预定特征。在操作904处,可以监测标注结果。例如,可以检查对应的置信度水平。在其他情况下,可以实现随机采样。可以监测附加的标准以检测由机器学习算法110提供的标注中的不准确性。例如,可以选择包括大量经标识的特征或零标识的特征的标注以供进一步审查。
在操作906处,执行检查以确定是否要由大众工作者128来审查标注结果。例如,可以响应于置信度水平低于低置信度阈值来发起审查。可以响应于标识了具有超过阈值的置信度水平、接着在该置信度水平中减小至小于低置信度阈值的预定特征而发起审查。在其他情况下,出于质量控制目的,可以随机地发起审查。如果发起了审查,则可以执行操作908。如果未发起审查,则执行可以停止,直到下一个标注周期。
在操作908处,可以发起交互式任务。例如,可以向大众外包服务注册任务。交互式任务可以是如本文中先前所描述的那样。在操作910处,数据标注系统可以与大众工作者128进行交互,如作为交互式任务执行的一部分所描述的那样。在操作912处,数据标注系统可以接收大众工作者输入。大众工作者输入可以包括如下信息:该信息用于标识不准确的特征标识、或由机器学习算法110生成的输出中的其他不准确性。在操作914处,可以将大众工作者输入并入到标注过程中。可以在每个标注周期内重复这些操作。整个序列可以是迭代的,并且可以在每次使用机器学习算法110来生成标注数据时执行该整个序列。
大众工作者接口116可以被配置成用于不同的机器学习算法110。每个机器学习算法110可以具有不同的标注要求。例如,用于车辆应用的机器学习算法可以被配置成标识道路中的不同对象。可以训练该机器学习算法来标识道路上或道路附近的各种对象,诸如其他车辆、行人、标志、桥。每个机器学习算法都可以聚焦于图像中的不同特征。由此,用于每个类型的算法的指令可能会略有不同。系统设计者可以修改用于每个算法的接口,以便于有效的大众工作者支持。
在所呈现的示例中,大众工作者接口116标识了机器学习算法110在其处遇到困难的帧。在其他情况下,诸如对于随机选择的监测,可能呈现不同的接口。大众工作者128可以负责标识假阳性(false positive)。在行人的示例中,这可能是其中机器学习算法110对于对象是行人具有高置信度但实际上该对象不是行人的情况。大众工作者128可能能够暂停视频并且标识错误的分类。例如,大众工作者128可以突出显示该对象并且键入标签以标注该对象。在其他情况下,大众工作者128可以负责标识假阴性(false negative)。在行人的示例中,这可能是其中机器学习算法110尚未将显然是行人的对象标识为行人的情况。
大众工作者接口116可以包括翻译或转换功能,以用于在机器学习算法110与大众工作者128之间有效地传达术语和元素。机器学习算法110可以以特定方式来表示某些特征。例如,边界框可以被表示为一组图像坐标。大众工作者接口116可以将该组图像坐标转换成图像帧上适当位置处的框。同样,大众工作者128可以在显示屏上绘制框。大众工作者接口116可以将如屏幕上显示的框转换成由机器学习算法110理解的坐标。另外,可以将文本标注转换成机器学习算法110可用的形式。文本标注可以与大众工作者128绘制的边界相关联。
大众工作者接口116可以被设计成从大众工作者128引出反馈,以解释给定算法决策的低置信度值的原因。由此,可能存在如下已知情形,针对该已知情形,置信度水平可能是低的。设计者可以对大众工作者接口116进行编程以涵盖该已知情形。大众工作者接口116可以被配置成向大众工作者128呈现预定问题。例如,可以在聊天窗口206中显示问题对话框。如果行人被汽车挡住可能经常发生,则问题对话框可以询问诸如“汽车是否挡住了被突出显示的行人的视图”之类的问题。响应于该问题对话框,大众工作者128可以录入“是”或“否”。
大众工作者接口116可以描绘由机器学习算法110用来做出决策的特征。例如,大众工作者接口116可以将焦点显示为导致该决策的突出显示的区域。可以提示大众工作者128来验证该焦点对于特定决策是有效且有用的。大众工作者接口116可以显示在做出决策过程中使用的各种元素。这向大众工作者128提供了进入机器学习算法110的窗口。它进一步允许大众工作者128完善由机器学习算法110使用的元素或特征。在示例中,更新焦点可以导致机器学习算法110以其得出决策的方式中发生改变。在示例中,在行人被车辆部分地挡住时删除一些焦点可以导致在遮挡期间经改进的跟踪。例如,在焦点看起来是穿过车辆移动时,可以重新定义该焦点以增强对行人头部的跟踪。
可以使用从大众外包任务接收到的输入来更新用于机器学习算法110的训练数据集112。机器学习算法110可以使用所更新的训练数据集112来重新学习加权因子。所预期的是,通过改进训练数据集112,机器学习算法110将随时间而变得更加准确。
所描述的系统和方法通过改进机器学习算法的性能来改进数据标注。准确的机器学习算法可能能够比人类所可以的更快地、且以更低的成本来生成标注数据。数据标注系统试图向外行解释机器学习过程,以提供对这种系统的更好理解。这可能有助于对机器学习系统的认知和理解。如所描述的系统具有在如下情况中的用途:其中机器学习系统识别出缺乏准确度的情况,以及其中机器学习系统看起来在正确地运行的情况。
本文中公开的过程、方法或算法可以可传递给处理设备、控制器或计算机/可以由处理设备、控制器或计算机来实现,该处理设备、控制器或计算机包括任何现有的可编程电子控制单元或专用电子控制单元。类似地,可以以许多形式将该过程、方法或算法存储为可由控制器或计算机执行的数据和指令,包括但不限于:永久地存储在不可写存储介质(诸如ROM设备)上的信息、以及可更改地存储在可写存储介质(诸如,软盘、磁带、CD、RAM设备和其他磁性和光学介质)上的信息。该过程、方法或算法也可以用软件可执行对象来实现。可替代地,可以使用合适的硬件组件来全部或部分地体现该过程、方法或算法,该合适的硬件组件诸如:专用集成电路(ASIC)、现场可编程门阵列(FPGA)、状态机、控制器或者其他硬件组件或设备、或者硬件、软件和固件组件的组合。
尽管上面描述了示例性实施例,但是并不意味着这些实施例描述了权利要求所涵盖的所有可能的形式。说明书中使用的词语是描述性的词语而不是限制性的词语,并且应当理解的是,可以在不脱离本公开的精神和范围的情况下做出各种改变。如前所描述,各种实施例的特征可以被组合以形成本发明的进一步实施例,这些实施例可能没有明确地描述或说明。尽管可能已经将各种实施例描述为相对于一个或多个期望特性提供了优点或优于其他实施例或现有技术实现方式,但是本领域普通技术人员应认识到,可以对一个或多个特征或特性进行折衷以获得期望的总体系统属性,这取决于特定应用和实现方式。这些属性可以包括但不限于:成本、强度、耐用性、生命周期成本、可销售性、外观、包装、大小、可维修性、重量、可制造性、易于组装等。由此,被描述为相对于一个或多个特征与其他实施例或现有技术实现方式相比不那么期望的实施例并不超出本公开的范围,并且对于特定应用可能是期望的。
Claims (20)
1.一种数据标注系统,包括:
计算系统,其被编程为:
执行机器学习算法,所述机器学习算法被编程为:根据输入数据集将一特征标识为预定特征和对应的置信度水平,以及
响应于标识了具有超过阈值的对应置信度水平、接着在所述对应置信度水平中减小至小于低置信度阈值的特征,而执行大众工作者接口,所述大众工作者接口被编程为生成交互式任务,并且从大众工作者接收反馈以标识所述减小的原因,所述交互式任务被配置成显示输入数据集和由所述机器学习算法标识的特征。
2.根据权利要求1所述的数据标注系统,其中所述大众工作者接口进一步被编程为:使文本对话框被显示在显示屏上,其中文本对话框包括用于指导大众工作者完成所述交互式任务的指令。
3.根据权利要求1所述的数据标注系统,其中所述大众工作者接口进一步被编程为:从大众工作者接收反馈,作为与在显示屏上绘制的元素相对应的数据。
4.根据权利要求1所述的数据标注系统,其中所述大众工作者接口进一步被编程为:从大众工作者接收反馈,作为在显示屏上录入的屏上对象的文本标注。
5.根据权利要求1所述的数据标注系统,其中所述大众工作者接口进一步被编程为:响应于与所述减小相对应的输入数据集被显示在显示屏上而使对话框元素被显示在显示屏上,所述对话框元素向大众工作者警告所述减小。
6.根据权利要求1所述的数据标注系统,其中所述大众工作者接口进一步被编程为:使对话框元素被显示在显示屏上,所述对话框元素指示大众工作者标识针对其预期发生置信度水平中的类似减小的特征。
7.根据权利要求1所述的数据标注系统,其中所述大众工作者接口进一步被编程为:在机器学习算法表示与适合于人类理解的视觉表示之间进行转换。
8.根据权利要求1所述的数据标注系统,其中输入数据集是包括多个图像帧的视频片段。
9.根据权利要求8所述的数据标注系统,其中所述计算系统进一步被编程为:响应于输入数据集被随机选择以用于监测而执行所述大众工作者接口。
10.一种方法,包括:
由机器学习算法根据输入数据集将一特征标识为预定特征和对应的置信度水平;以及
响应于标识了具有超过阈值的置信度水平、接着在所述置信度水平中减小至小于低置信度阈值的特征,而生成用于大众外包的交互式任务,以在显示屏上显示输入数据集和由所述机器学习算法标识的特征,并且从大众工作者接收反馈以标识所述减小的原因。
11.根据权利要求10所述的方法,进一步包括:使文本对话框被显示在显示屏上,所述文本对话框包括用于指导大众工作者完成所述交互式任务的指令。
12.根据权利要求10所述的方法,进一步包括:响应于与所述减小相对应的输入数据集被显示在显示屏上而使对话框元素被显示在显示屏上,所述对话框元素向大众工作者警告所述减小。
13.根据权利要求10所述的方法,进一步包括:使对话框元素被显示在显示屏上,所述对话框元素指示大众工作者标识针对其预期发生置信度水平中的类似减小的特征。
14.根据权利要求10所述的方法,进一步包括:利用从大众工作者接收到的反馈来更新用于所述机器学习算法的数据集。
15.根据权利要求10所述的方法,进一步包括:响应于输入数据集被随机选择以用于监测而生成用于大众外包的交互式任务,以在显示屏上显示输入数据集和由所述机器学习算法标识的特征,并且从大众工作者接收反馈以标识不准确的特征标识。
16.根据权利要求10所述的方法,进一步包括:使对话框被显示,所述对话框包括所述机器学习算法的操作细节,以帮助大众工作者理解所述机器学习算法。
17.一种数据标注系统,包括:
计算系统,其被编程为:
执行机器学习算法,所述机器学习算法被编程为根据输入数据集将一特征标识为预定特征,以及
响应于指示所述特征被不准确地标识的状况的存在而执行大众工作者接口,所述大众工作者接口被编程为:(i)生成用于由大众工作者完成的交互式任务;以及(ii)在大众工作者发起所述交互式任务时,将由所述机器学习算法标识的特征显示为覆盖在输入数据集上的预定特征,并且从大众工作者接收反馈以标识所述特征被不准确地标识的原因。
18.根据权利要求17所述的数据标注系统,其中所述大众工作者接口进一步被编程为:在视觉上传达所述机器学习算法的预测,并且以自然语言来标识关注区域。
19.根据权利要求17所述的数据标注系统,其中所述机器学习算法进一步被编程为:生成与被标识为预定特征的特征相对应的置信度水平,并且指示所述预定特征被不准确地标识的状况包括置信度水平小于低置信度阈值。
20.根据权利要求17所述的数据标注系统,其中所述机器学习算法进一步被编程为:生成与被标识为预定特征的特征相对应的置信度水平,并且指示所述预定特征被不准确地标识的状况包括置信度水平大于预定阈值、接着是在所述置信度水平中减小至小于低置信度阈值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/428,468 US11126847B2 (en) | 2019-05-31 | 2019-05-31 | System and method for integrating machine learning and crowd-sourced data annotation |
US16/428468 | 2019-05-31 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112016585A true CN112016585A (zh) | 2020-12-01 |
Family
ID=70738412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010475759.0A Pending CN112016585A (zh) | 2019-05-31 | 2020-05-29 | 用于将机器学习和大众外包数据标注进行集成的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11126847B2 (zh) |
EP (1) | EP3745301A1 (zh) |
KR (1) | KR20200138074A (zh) |
CN (1) | CN112016585A (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210209509A1 (en) * | 2020-01-07 | 2021-07-08 | Alegion, Inc. | System and method for guided synthesis of training data |
US11574246B2 (en) * | 2020-01-21 | 2023-02-07 | Microsoft Technology Licensing, Llc | Updating training examples for artificial intelligence |
US11328178B2 (en) * | 2020-03-12 | 2022-05-10 | Fujifilm Business Innovation Corp. | System and method for automated photo-ideophone matching and placement |
US11049044B1 (en) * | 2020-07-07 | 2021-06-29 | Blackshark.Ai Gmbh | Visual image annotation utilizing machine learning for in-time feedback |
EP4092565A1 (en) * | 2021-05-19 | 2022-11-23 | Continental Autonomous Mobility Germany GmbH | Device and method to speed up annotation quality check process |
WO2024004076A1 (ja) * | 2022-06-29 | 2024-01-04 | 株式会社Sphia | 情報処理システム、情報処理方法およびプログラム |
US12039431B1 (en) * | 2023-09-27 | 2024-07-16 | OpenAI Opco, LLC | Systems and methods for interacting with a multimodal machine learning model |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017062635A1 (en) * | 2015-10-06 | 2017-04-13 | Evolv Technologies, Inc. | Training artificial intelligence |
US20190385610A1 (en) * | 2017-12-08 | 2019-12-19 | Veritone, Inc. | Methods and systems for transcription |
US10949608B2 (en) * | 2018-02-21 | 2021-03-16 | Oracle International Corporation | Data feedback interface |
US11676062B2 (en) * | 2018-03-06 | 2023-06-13 | Samsung Electronics Co., Ltd. | Dynamically evolving hybrid personalized artificial intelligence system |
US20200019898A1 (en) * | 2018-07-13 | 2020-01-16 | Salesforce.Com, Inc. | Evaluation of nodes writing to a database |
-
2019
- 2019-05-31 US US16/428,468 patent/US11126847B2/en active Active
-
2020
- 2020-05-15 EP EP20175008.0A patent/EP3745301A1/en active Pending
- 2020-05-29 KR KR1020200065191A patent/KR20200138074A/ko unknown
- 2020-05-29 CN CN202010475759.0A patent/CN112016585A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20200380258A1 (en) | 2020-12-03 |
KR20200138074A (ko) | 2020-12-09 |
EP3745301A1 (en) | 2020-12-02 |
US11126847B2 (en) | 2021-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112016585A (zh) | 用于将机器学习和大众外包数据标注进行集成的系统和方法 | |
CN110503074B (zh) | 视频帧的信息标注方法、装置、设备及存储介质 | |
US20190295325A1 (en) | Methods for augmented reality applications | |
CN112348846A (zh) | 图像序列上对象检测和跟踪的人工智能驱动基准真值生成 | |
US20200265353A1 (en) | Intelligent workflow advisor for part design, simulation and manufacture | |
US11017690B1 (en) | System and method for building computational models of a goal-driven task from demonstration | |
KR102485303B1 (ko) | 데이터 레이블링 장치 및 방법 | |
US20220366244A1 (en) | Modeling Human Behavior in Work Environment Using Neural Networks | |
US11562567B2 (en) | Observed-object recognition system and method | |
KR102664916B1 (ko) | 익스플레이너블 셀프-포커스드 어텐션을 이용하여 행동 예측을 수행하는 방법 및 장치 | |
US20210158214A1 (en) | Method of performing a process using artificial intelligence | |
US20240012954A1 (en) | Blockchain-based digital twins methods and systems | |
US11625608B2 (en) | Methods and systems for operating applications through user interfaces | |
CN111353273B (zh) | 一种雷达数据标注方法、装置、设备及存储介质 | |
US20230343043A1 (en) | Multimodal procedural guidance content creation and conversion methods and systems | |
CN116894317A (zh) | 数据处理方法、装置、电子设备和介质 | |
NL2025739B1 (en) | Artificial intelligence and augmented reality system and method | |
KR20220124585A (ko) | 인공지능 모델 트레이닝 이미지를 매뉴얼 라벨링을 이용하여 오토 라벨링 하는 방법 | |
US20220358314A1 (en) | Time-line based object tracking annotation | |
US20240256419A1 (en) | Tools for performance testing autonomous vehicle planners | |
US20240248824A1 (en) | Tools for performance testing autonomous vehicle planners | |
US11704141B2 (en) | Real-time context preserving visual guidance | |
JP2022056744A (ja) | アノテーション装置、アノテーション方法、及び、アノテーションプログラム | |
KR20240092787A (ko) | 증강현실 및 인공지능을 이용한 가이드콘텐츠 제공방법 및 가이드콘텐츠 제공장치 | |
WO2024043902A1 (en) | Inverse modelling and transfer learning system in autonomous vehicle virtual testing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |