CN108537129B - 训练样本的标注方法、装置和系统 - Google Patents

训练样本的标注方法、装置和系统 Download PDF

Info

Publication number
CN108537129B
CN108537129B CN201810211224.5A CN201810211224A CN108537129B CN 108537129 B CN108537129 B CN 108537129B CN 201810211224 A CN201810211224 A CN 201810211224A CN 108537129 B CN108537129 B CN 108537129B
Authority
CN
China
Prior art keywords
image
user
video
recognition result
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810211224.5A
Other languages
English (en)
Other versions
CN108537129A (zh
Inventor
合敏慈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Moviebook Technology Corp ltd
Original Assignee
Beijing Moviebook Technology Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Moviebook Technology Corp ltd filed Critical Beijing Moviebook Technology Corp ltd
Priority to CN201810211224.5A priority Critical patent/CN108537129B/zh
Publication of CN108537129A publication Critical patent/CN108537129A/zh
Application granted granted Critical
Publication of CN108537129B publication Critical patent/CN108537129B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请公开了一种训练样本的标注方法、装置和系统。其中方法包括:图像获取步骤、图像识别步骤、游戏运行步骤、结果接收步骤和结果判断步骤。利用该方法能够把标注的内容和影视剧剧情等视频内容融合到一起,利用用户的碎片时间,让用户在看视频的同时,随手就能标注图像,让用户在轻松的环境下为通过众包的方式来帮助机器学习标记训练样本,大大降低了机器学习的训练成本,节省了开发机器学习产品的公司在招聘、培训标注人员的方面的时间和成本。

Description

训练样本的标注方法、装置和系统
技术领域
本申请涉及图像处理领域,特别是涉及一种训练样本的标注方法、装置和系统。
背景技术
机器学习可以分为有指导学习和无指导学习两大类。无指导机器学习指事先没有任何训练数据样本,需要直接对数据进行建模,识别的效率和准确度都不高。有指导机器学习指通过已有的训练样本来训练,从而得到一个最优的模型,再利用这个模型将所有的新数据样本映射为相应的输出结果,那么这个最优模型也就具有了对未知数据进行分类的能力。在图像识别领域的机器学习通常会采用有指导机器学习的方法来训练出一个模型。
由于机器学习系统获得的信息往往是不完全的,所以学习系统所进行的推理并不完全是可靠的,它总结出来的规则可能正确,也可能不正确。这要通过训练样本来加以检验。这就需要相对高质量的被正确标记的训练样本,使得模型能够充分学习期望的函数。训练样本标记是否正确、是否足够将直接影响训练模型的准确性。现阶段训练样本标记主要由人工来完成。当前机器学习中的难点在于训练样本过于庞大,面对浩瀚的资源,完全由人工来标注将花费大量的时间和人力,标注人员长期做这项枯燥而乏味的工作容易厌倦,工作效率会逐渐下降,工作质量会逐渐降低且人力成本较高。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种训练样本的标注方法,包括:
图像获取步骤:在用户播放视频时,获取所述视频中的至少一个第一图像;
图像识别步骤:利用待训练的机器学习模型对所述第一图像进行识别,将识别的结果保存为第一识别结果;
游戏运行步骤:响应于所述用户暂停播放所述视频的操作,显示基于所述视频生成的游戏的界面,所述界面中至少显示所述第一图像、所述第一识别结果、预存的第二图像和预存的与第二图像对应的第二识别结果,其中,所述第二识别结果是对所述第二图像进行标注得到的正确的识别结果;
结果接收步骤:接收所述用户对所述界面显示的所述第一识别结果和所述第二识别结果的判断;和
结果判断步骤:根据所述用户对所述第二识别结果的判断,确定所述用户对所述第一识别结果的判断结果的置信水平。
利用该方法能够把标注的内容和影视剧剧情等视频内容融合到一起,利用用户的碎片时间,让用户在看视频的同时,随手就能标注图像,让用户在轻松的环境下为通过众包的方式来帮助机器学习标记训练样本,大大降低了机器学习的训练成本,节省了开发机器学习产品的公司在招聘、培训标注人员的方面的时间和成本。
可选地,所述图像获取步骤包括:
图像捕获步骤:在所述用户利用终端播放所述视频时,实时捕获当前播放的视频帧,将所述视频帧存储在所述终端中;
图像压缩步骤:在存储的所述视频帧到达预定数量时,将所述预定数量的所述视频帧进行压缩并传送到服务器;
图像解压步骤:在所述服务器接收到压缩的所述视频帧后,将所述视频帧解压缩并保存到训练样本临时数据库中;和
图片比对步骤:对于所述视频帧中的每一个,使用尺度不变特征变换匹配算法分析该视频帧是否已经存在于训练样本数据库中,如果否,就将该视频帧作为第一图像并对所述第一图像打上标签,将所述第一图像和所述标签保存在训练样本未标识数据库中。
可选地,所述第一识别结果包括:所述第一图像中显示的第一内容的类别和所述第一内容在所述第一图像中的位置坐标;和
所述第二识别结果包括:所述第二图像中显示的第二内容的类别和所述第二内容在所述第二图像中的位置坐标。
可选地,所述游戏运行步骤包括:
暂停动作检测步骤:检测所述用户暂停播放所述视频的操作;和
游戏界面显示步骤:显示基于所述视频生成的游戏的界面,所述界面中至少显示:显示所述第一图像、叠加在所述第一图像上的所述第一内容的位置坐标、所述第一内容的类别、所述第二图像、叠加在所述第二图像上的所述第二内容的位置坐标和所述第二内容的类别。
可选地,所述结果判断步骤包括:所述结果判断步骤包括:在所述用户对所述第二识别结果的判断为正确的情况下,提高所述用户对所述第一识别结果的判断结果的置信水平;在所述用户对所述第二识别结果的判断为错误的情况下,降低所述用户对所述第一识别结果的判断结果的置信水平。
根据本申请的另一个方面,提供了一种训练样本的标注装置,包括:
图像获取模块,其配置成用于在在用户播放视频时,获取所述视频中的至少一个第一图像;
图像识别模块,其配置成用于利用待训练的机器学习模型对所述第一图像进行识别,将识别的结果保存为第一识别结果;
游戏运行模块,其配置成用于响应于所述用户暂停播放所述视频的操作,显示基于所述视频生成的游戏的界面,所述界面中至少显示所述第一图像、所述第一识别结果、预存的第二图像和预存的与第二图像对应的第二识别结果,其中,所述第二识别结果是对所述第二图像进行标注得到的正确的识别结果;
结果接收模块,其配置成用于接收所述用户对所述界面显示的所述第一识别结果和所述第二识别结果的判断;和
结果判断模块,其配置成用于根据所述用户对所述第二识别结果的判断,确定所述用户对所述第一识别结果的判断结果的置信水平。
利用该装置能够把标注的内容和影视剧剧情等视频内容融合到一起,利用用户的碎片时间,让用户在看视频的同时,随手就能标注图像,让用户在轻松的环境下为通过众包的方式来帮助机器学习标记训练样本,大大降低了机器学习的训练成本,节省了开发机器学习产品的公司在招聘、培训标注人员的方面的时间和成本。
可选地,所述图像获取模块包括:
图像捕获模块,其配置成用于在所述用户利用终端播放所述视频时,实时捕获当前播放的视频帧,将所述视频帧存储在所述终端中;
图像压缩模块,其配置成用于在存储的所述视频帧到达预定数量时,将所述预定数量的所述视频帧进行压缩并传送到服务器;
图像解压模块,其配置成用于在所述服务器接收到压缩的所述视频帧后,将所述视频帧解压缩并保存到训练样本临时数据库中;和
图片比对模块,其配置成对于所述视频帧中的每一个,使用尺度不变特征变换匹配算法分析该视频帧是否已经存在于训练样本数据库中,如果否,就将该视频帧作为第一图像并对所述第一图像打上标签,将所述第一图像和所述标签保存在训练样本未标识数据库中。
可选地,所述第一识别结果包括:所述第一图像中显示的第一内容的类别和所述第一内容在所述第一图像中的位置坐标;并且
所述第二识别结果包括:所述第二图像中显示的第二内容的类别和所述第二内容在所述第二图像中的位置坐标。
可选地,所述游戏运行模块包括:
暂停动作检测模块,其配置成用于检测所述用户暂停播放所述视频的操作;和
游戏界面显示模块,其配置成用于显示基于所述视频生成的游戏的界面,所述界面中至少显示:显示所述第一图像、叠加在所述第一图像上的第一内容的位置坐标、第一内容的类别、所述第二图像、叠加在所述第二图像上的第二内容的位置坐标、第二内容的类别。
可选地,所述结果判断模块用于:在所述用户对所述第二识别结果的判断为正确的情况下,提高所述用户对所述第一识别结果的判断结果的置信水平;在所述用户对所述第二识别结果的判断为错误的情况下,降低所述用户对所述第一识别结果的判断结果的置信水平。
根据本申请的另一个方面,提供了一种训练样本的标注系统,包括终端和服务器,所述终端通过有线网络或者无线网络与所述服务器连接,其中:
终端,包括播放器,所述播放器用于在用户播放视频时,获取所述视频中的至少一个第一图像,并将所述第一图像传送给所述服务器;响应于所述用户暂停播放所述视频的操作,显示基于所述视频生成的游戏的界面,所述界面中至少显示所述第一图像、所述第一识别结果、预存的第二图像和预存的与第二图像对应的第二识别结果,其中,所述第二识别结果是对所述第二图像进行标注得到的正确的识别结果;接收所述用户对所述界面显示的所述第一识别结果和所述第二识别结果的判断并传送给所述服务器;
服务器,用于接收所述第一图像,利用待训练的机器学习模型对所述第一图像进行识别,将识别的结果保存为第一识别结果;根据接收的所述用户对所述第二识别结果的判断,确定所述用户对所述第一识别结果的判断结果的置信水平。
利用该系统能够利用充分利用用户的碎片时间和休息时间,让用户在使用播放器观看视频的同时,随手标注图像,让用户在轻松的环境下为通过众包的方式来帮助机器学习标记训练样本,大大降低了机器学习的训练成本。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请的训练样本的标注方法的一个实施例的流程图;
图2是根据本申请的方法中S1图像获取步骤的一个实施例的流程图;
图3是根据本申请的方法中S1游戏运行步骤的一个实施例的流程图;
图4是根据本申请的训练样本的标注方法的一个实施例的流程图;
图5是根据本申请的训练样本的标注装置的一个实施例的框图;
图6是根据本申请的装置中图像获取模块1的一个实施例的框图;
图7是根据本申请的装置中图像识别模块2的一个实施例的框图;
图8是根据本申请的系统的一个实施例的框图。
具体实施方式
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
根据本申请的一个方面,提供了一种训练样本的标注方法。图1是根据本申请的训练样本的标注方法的一个实施例的流程图。该方法包括以下步骤:
S1图像获取步骤:在用户播放视频时,获取所述视频中的至少一个第一图像;
S2图像识别步骤:利用待训练的机器学习模型对所述第一图像进行识别,将识别的结果保存为第一识别结果;
S3游戏运行步骤:响应于所述用户暂停播放所述视频的操作,显示基于所述视频生成的游戏的界面,所述界面中至少显示所述第一图像、所述第一识别结果、预存的第二图像和预存的与第二图像对应的第二识别结果,其中,所述第二识别结果是对所述第二图像进行标注得到的正确的识别结果;
S4结果接收步骤:接收所述用户对所述界面显示的所述第一识别结果和所述第二识别结果的判断;和
S5结果判断步骤:根据所述用户对所述第二识别结果的判断,确定所述用户对所述第一识别结果的判断结果的置信水平。
在该方法中,待训练的机器学习模型可以是任意的需要训练样本的机器学习模型,该方法对待训练的机器学习模型的种类并没有限制。本申请的有益效果主要体现在,利用该方法能够把标注的内容和影视剧剧情等视频内容融合到一起,利用用户的碎片时间,让用户在看视频的同时,随手就能标注图像,让用户在轻松的环境下为通过众包的方式来帮助机器学习标记训练样本,大大降低了机器学习的训练成本,节省了开发机器学习产品的公司在招聘、培训标注人员的方面的时间和成本。
可选地,图2是根据本申请的方法中S1图像获取步骤的一个实施例的流程图。所述S1图像获取步骤包括:
S11图像捕获步骤:在所述用户利用终端播放视频时,实时捕获当前播放的视频帧,将所述视频帧存储在所述终端中;
S12图像压缩步骤:在存储的视频帧到达预定数量时,将所述存储的视频帧进行压缩并传送到服务器;
S13图像解压步骤:在所述服务器接收到压缩后的视频帧后,将所述视频帧解压缩并保存到训练样本临时数据库;和
S14图片比对步骤:对于视频帧中的每一个,使用SIFT算法分析该视频帧是否已经存在于训练样本数据库中,如果否,就将该视频帧作为第一图像并对所述第一图像打上标签Tag,将所述第一图像和所述标签保存在训练样本未标识数据库中。
Tag标明该图像来自于哪一部视频,重复执行上述图片比对步骤,直到训练样本临时数据库中已没有图像为止。
采用该方法,能够得到大量的训练图像,通过对图像的筛选,得到未经测试的图像,从而增加训练图像的数量和多样性,避免重复标记。当用户在在观看视频的同时,系统将捕获当前所播放视频每一帧的图像。按一定的时间分批次将所捕获到的每帧图像打包、压缩上传到后台服务器。这样可以避免经常向服务器传输图像数据,能够提高传送的效率,同时不影响客户用浏览器观看视频的速度。
在服务器端,使用当前训练的模型基于深度学习识别对播放器所上传每一帧图像进行目标识别。可选地,所述第一识别结果包括:所述第一图像中显示的第一内容的类别和所述第一内容在所述第一图像中的位置坐标;所述第二识别结果包括:所述第二图像中显示的第二内容的类别和所述第二内容在所述第二图像中的位置坐标。将识别出物体、人像等和对应的位置坐标参数、识别结果保存至训练样本预标识库。
重复执行图片比对步骤若干次,直到训练样本未标识数据库中已没有图像为止。
可选地,图3是根据本申请的方法中S1游戏运行步骤的一个实施例的流程图。所述S3游戏运行步骤包括:
S31暂停动作检测步骤:检测所述用户暂停播放所述视频的操作;和
S32游戏界面显示步骤:显示基于所述视频生成的游戏的界面,所述界面中至少显示:显示所述第一图像、叠加在所述第一图像上的所述第一内容的位置坐标、所述第一内容的类别、所述第二图像、叠加在所述第二图像上的所述第二内容的位置坐标、所述第二内容的类别。
可选地,所述界面中可以显示三张图像及其对应的识别结果,三张图像分别为第一图像、第二图像和第三图像,其中,第三图像可以与第二图像的属性相同,均为已经正确标记过的图像。当用户暂停视频播放的时候,播放器将自动弹出游戏界面。该游戏能够同时加载三张图像,并根据这张图片所识别的物体和/或人物的坐标参数,在用户终端的界面中标注出这些物体/人物的位置,由用户判断这三张图像中相应物体的位置坐标标注是否正确。以第一图像为例,可以显示第一图像,并在第一图像上用方框或者圆圈框出待识别的物体或人物,在第一图像的下方显示第一识别结果中该物体或人物的类别,例如:车、树木、房屋、男人、女人、儿童、某明星的脸等。可选地,该游戏在所述第一内容的类别的下方给出两个选择选项:正确、错误,以供用户选择。可选地,该游戏在所述第一内容的类别的下方显示一个选择按钮,该选择按钮表达的含义可以根据游戏的题目的内容确定。例如,题目中要求将正确的识别结果挑选出来,则用户可以选择正确的识别结果下方显示的选择按钮。可选地,该游戏可以设置为,如果用户选择某个图像,则图像发生某种变化,从而反应出用户选择了该图像。例如,该图像可以变灰,或者周围边框发生颜色或者形状上的变化等等。
为了防止用户胡乱选择,当游戏界面中有第一图像和第二图像时,第二图像是从已经正确标注并且经过确认的语料库中提取的,因此可以认为第二图像中所标注的物体位置是正确的,第一图像是从预标注训练样本库中提取的,该图像所标注物体位置有可能正确也有可能不正确。当用户上传结果时,游戏先判断从语料库中提取的第二图像的识别结果和用户所选择的是否一致,例如,第二图像中识别出一辆车,在第二识别结果中将第二图像中的车框出,并且显示该图形是车,用户在对第二识别结果进行判断时,选择的是“正确”,则可以认为此次上传的结果有效。当游戏界面中显示三张图像时,第二图像和第三图像是从已经正确标注并且经过确认的语料库中提取的,只有用户在对第二识别结果和第三识别结果均判断正确时,则可以认为此次上传的结果有效。为了增加乐趣,第二图像和第三图像都取自当前用户所观看的视频中截取出来的图像帧。由于标注的内容和用户正在观看的视频相关。用户既不会感到枯燥还能收到一些物质的奖励,因此能够提高用户做游戏的积极性。
通过该方法,用户在玩这些小游戏的同时也就帮助机器学习系统标注、纠正了错误,校对了训练样本。
可选地,所述S5结果判断步骤包括:在所述用户对所述第二识别结果的判断为正确的情况下,提高所述用户对所述第一识别结果的判断结果的置信水平;在所述用户对所述第二识别结果的判断为错误的情况下,降低所述用户对所述第一识别结果的判断结果的置信水平。
图4是根据本申请的训练样本的标注方法的一个实施例的流程图。在图4中,通过对用户观看的视频进行捕获,得到视频帧,实现训练样本的准备。在预学习阶段,待训练的机器学习模型对视频帧进行识别,得到识别结果。在预分析阶段,通过生成游戏的方法让用户对机器学习模型的识别结果进行分析。服务器根据用户上传的分析结果更新预标注机器训练样本库中该图像的位置坐标参数、识别结果、置信度等,如果分析结果正确,则增加该识别结果的置信水平,并且进一步判断该视频帧的置信度是否达到相应的置信水平。在该图像的置信度达到某个阈值时,例如80%以上,就可以认为此图片中所识别出的物体位置是正确的,然后将此图像和所识别出的物体的坐标位置更新到语料库中。根据不断扩充的语料库,不断训练机器学习模型,最终得到准确的机器学习模型。如果分析结果错误,则降低所述用户对所述第一识别结果的判断结果的置信水平,并返回到预学习阶段。
可选地,参见图1,该方法还包括S6游戏选择步骤:在所述用户选择继续玩游戏的情况下,在训练样本临时数据库中选择另一个视频帧作为第一图像,重复执行S3至S5,在用户选择关闭游戏的情况下,继续播放所述视频。
采用该方法能够鼓励用户继续玩游戏,延长玩游戏的时间,进而获取更多的图像标注结果。
在一个可选实施方案中,S3游戏运行步骤包括:
步骤301:从服务器端将预标识库中Tag为正在播放的视频的图像和所识别的结果、坐标参数等信息加载到用户终端;
步骤302:从服务器端将已完全识别正确语料库库中Tag为正在播放的视频的图像和所识别的结果、坐标参数等信息加载到用户终端;
步骤303:当播放器暂停的时候,播放器向标注模块工具发出指令;
步骤304:标注游戏模块随机使用一张步骤301所生成的图像和一张或者两张步骤302所生成的图像及相对应的识别结果生成游戏;
步骤305:标注游戏模块以半透明的方式悬浮在播放器上方,将播放器完全覆盖;
步骤306:用户选择其中标识正确的图像,点击“提交”;
步骤307:标注游戏模块判断那一张或者两张根据步骤302所加载的图片所标注和用户所选择的是否一致,如果一致,可以认为这次上传的结果有效,如果有效就给用户的账户发奖励,以鼓励用户继续玩游戏;
步骤308:重复步骤304至步骤307,直到用户不再继续玩游戏;
步骤309:响应于用户点击游戏右上角关闭按钮,将此游戏关闭,然后继续播放视频;
步骤310:标注游戏将用户所选择的图像和识别结果上传到服务器。
采用该方法,图像和识别结果可以预先存储在用户终端中,这样有利于快速生成游戏,提升用户的体验。
根据本申请的另一个方面,还提供了一种训练样本的标注装置。图5是根据本申请的训练样本的标注装置的一个实施例的框图。该装置包括:
图像获取模块1,其配置成用于在用户播放视频时,获取所述视频中的至少一个第一图像;
图像识别模块2,其配置成用于利用待训练的机器学习模型对所述第一图像进行识别,将识别的结果保存为第一识别结果;
游戏运行模块3,其配置成用于响应于所述用户暂停播放所述视频的操作,显示基于所述视频生成的游戏的界面,所述界面中至少显示所述第一图像、所述第一识别结果、预存的第二图像和预存的与第二图像对应的第二识别结果,其中,所述第二识别结果是对所述第二图像进行标注得到的正确的识别结果;
结果接收模块4,其配置成用于接收所述用户对所述界面显示的所述第一识别结果和所述第二识别结果的判断;和
结果判断模块5,其配置成用于根据所述用户对所述第二识别结果的判断,确定所述用户对所述第一识别结果的判断结果的置信水平。
利用该装置能够把标注的内容和影视剧剧情等视频内容融合到一起,利用用户的碎片时间,让用户在看视频的同时,随手就能标注图像,让用户在轻松的环境下为通过众包的方式来帮助机器学习标记训练样本,大大降低了机器学习的训练成本,节省了开发机器学习产品的公司在招聘、培训标注人员的方面的时间和成本。
可选地,图6是根据本申请的装置中图像获取模块1的一个实施例的框图。所述图像获取模块1包括:
图像捕获模块11,其配置成用于在所述用户利用终端播放视频时,实时捕获当前播放的视频帧,将所述视频帧存储在所述终端中;
图像压缩模块12,其配置成用于在存储的视频帧到达预定数量时,将所述存储的视频帧进行压缩并传送到服务器;
图像解压模块13,其配置成用于在所述服务器接收压缩后的视频帧后,将所述视频帧解压缩并保存到训练样本临时数据库;和
图片比对模块14,其配置成对于视频帧中的每一个,使用尺度不变特征变换匹配算法分析该视频帧是否已经存在于训练样本数据库中,如果否,就将该视频帧作为第一图像并对所述第一图像打上标签,将所述第一图像和所述标签保存在训练样本未标识数据库中。
可选地,所述第一识别结果包括:所述第一图像中显示的第一内容的类别和所述第一内容在所述第一图像中的位置坐标;所述第二识别结果包括:所述第二图像中显示的第二内容的类别和所述第二内容在所述第二图像中的位置坐标。
可选地,图7是根据本申请的装置中图像识别模块2的一个实施例的框图。所述游戏运行模块3包括:
暂停动作检测模块31,其配置成用于检测所述用户暂停播放所述视频的操作;和
游戏界面显示模块32,其配置成用于显示基于所述视频生成的游戏的界面,所述界面中至少显示:显示所述第一图像、叠加在所述第一图像上的所述第一内容的位置坐标、所述第一内容的类别、所述第二图像、叠加在所述第二图像上的所述第二内容的位置坐标、所述第二内容的类别。
可选地,所述结果判断模块用于:在所述用户对所述第二识别结果的判断为正确的情况下,提高所述用户对所述第一识别结果的判断结果的置信水平;在所述用户对所述第二识别结果的判断为错误的情况下,降低所述用户对所述第一识别结果的判断结果的置信水平。
可选地,参见图5,该装置还包括游戏选择模块6:用于在所述用户选择继续玩游戏的情况下,在训练样本临时数据库中选择另一个视频帧作为第一图像,重复执行游戏运行模块3至结果判断模块5,在用户选择关闭游戏的情况下,继续播放所述视频。
在该装置中,服务器根据用户上传的结果更新预标注机器训练样本库中该图像的位置坐标参数、识别结果、置信度等,在该图像的置信度达到某个阈值,认为此图片中所识别出的物体位置是正确的,然后将此图像和所识别出的物体的坐标位置更新到语料库中。根据不断扩充的语料库,不断训练机器学习模型,最终得到准确的机器学习模型。
根据本申请的另一个方面,还提供了一种训练样本的标注系统,图8是根据本申请的系统的一个实施例的框图。该系统包括终端和服务器,所述终端通过有线网络或者无线网络与所述服务器连接,其中:
终端,包括播放器,所述播放器用于在用户播放视频时,获取所述视频中的至少一个第一图像,并将所述第一图像传送给所述服务器;响应于所述用户暂停播放所述视频的操作,显示基于所述视频生成的游戏的界面,所述界面中至少显示所述第一图像、所述第一识别结果、预存的第二图像和预存的与第二图像对应的第二识别结果,其中,所述第二识别结果是对所述第二图像进行标注得到的正确的识别结果;接收所述用户对所述界面显示的所述第一识别结果和所述第二识别结果的判断并传送给所述服务器;
服务器,用于接收所述第一图像,利用待训练的机器学习模型对所述第一图像进行识别,将识别的结果保存为第一识别结果;根据接收的所述用户对所述第二识别结果的判断,确定所述用户对所述第一识别结果的判断结果的置信水平。
本申请实施例还提供了一种计算机设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述方法中的任意一个。
本申请实施例还提供了一种计算机可读存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现上述方法中的任意一个。
本申请实施例还提供了一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行上述方法中的任意一个。
需要说明的是,本发明提供的一种方法、装置和系统的范畴包括上述各部分之间的任意组合。在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或顺序。并且术语“包括”、“包含”或者设备不仅包括哪些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (9)

1.一种训练样本的标注方法,包括:
图像获取步骤:在用户播放视频时,获取所述视频中的至少一个第一图像;
图像识别步骤:利用待训练的机器学习模型对所述第一图像进行识别,将识别的结果保存为第一识别结果;
游戏运行步骤:响应于所述用户暂停播放所述视频的操作,显示基于所述视频生成的游戏的界面,所述界面中至少显示所述第一图像、所述第一识别结果、预存的第二图像和预存的与第二图像对应的第二识别结果,其中,所述第二识别结果是对所述第二图像进行标注得到的正确的识别结果,所述第一识别结果包括:所述第一图像中显示的第一内容的类别和所述第一内容在所述第一图像中的位置坐标;并且所述第二识别结果包括:所述第二图像中显示的第二内容的类别和所述第二内容在所述第二图像中的位置坐标;
结果接收步骤:接收所述用户对所述界面显示的所述第一识别结果和所述第二识别结果的判断;和
结果判断步骤:根据所述用户对所述第二识别结果的判断,确定所述用户对所述第一识别结果的判断结果的置信水平。
2.根据权利要求1所述的方法,其特征在于,所述图像获取步骤包括:
图像捕获步骤:在所述用户利用终端播放所述视频时,实时捕获当前播放的视频帧,将所述视频帧存储在所述终端中;
图像压缩步骤:在存储的所述视频帧到达预定数量时,将所述预定数量的所述视频帧进行压缩并传送到服务器;
图像解压步骤:在所述服务器接收到压缩的所述视频帧后,将所述视频帧解压缩并保存到训练样本临时数据库中;和
图片比对步骤:对于所述视频帧中的每一个,使用尺度不变特征变换匹配算法分析该视频帧是否已经存在于训练样本数据库中,如果否,就将该视频帧作为第一图像并对所述第一图像打上标签,将所述第一图像和所述标签保存在训练样本未标识数据库中。
3.根据权利要求1所述的方法,其特征在于,所述游戏运行步骤包括:
暂停动作检测步骤:检测所述用户暂停播放所述视频的操作;和
游戏界面显示步骤:显示基于所述视频生成的游戏的界面,所述界面中至少显示:显示所述第一图像、叠加在所述第一图像上的所述第一内容的位置坐标、所述第一内容的类别、所述第二图像、叠加在所述第二图像上的所述第二内容的位置坐标和所述第二内容的类别。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述结果判断步骤包括:在所述用户对所述第二识别结果的判断为正确的情况下,提高所述用户对所述第一识别结果的判断结果的置信水平;在所述用户对所述第二识别结果的判断为错误的情况下,降低所述用户对所述第一识别结果的判断结果的置信水平。
5.一种训练样本的标注装置,包括:
图像获取模块,其配置成用于在在用户播放视频时,获取所述视频中的至少一个第一图像;
图像识别模块,其配置成用于利用待训练的机器学习模型对所述第一图像进行识别,将识别的结果保存为第一识别结果;
游戏运行模块,其配置成用于响应于所述用户暂停播放所述视频的操作,显示基于所述视频生成的游戏的界面,所述界面中至少显示所述第一图像、所述第一识别结果、预存的第二图像和预存的与第二图像对应的第二识别结果,其中,所述第二识别结果是对所述第二图像进行标注得到的正确的识别结果,所述第一识别结果包括:所述第一图像中显示的第一内容的类别和所述第一内容在所述第一图像中的位置坐标;并且所述第二识别结果包括:所述第二图像中显示的第二内容的类别和所述第二内容在所述第二图像中的位置坐标;
结果接收模块,其配置成用于接收所述用户对所述界面显示的所述第一识别结果和所述第二识别结果的判断;和
结果判断模块,其配置成用于根据所述用户对所述第二识别结果的判断,确定所述用户对所述第一识别结果的判断结果的置信水平。
6.根据权利要求5所述的装置,其特征在于,所述图像获取模块包括:
图像捕获模块,其配置成用于在所述用户利用终端播放所述视频时,实时捕获当前播放的视频帧,将所述视频帧存储在所述终端中;
图像压缩模块,其配置成用于在存储的所述视频帧到达预定数量时,将所述预定数量的所述视频帧进行压缩并传送到服务器;
图像解压模块,其配置成用于在所述服务器接收到压缩的所述视频帧后,将所述视频帧解压缩并保存到训练样本临时数据库中;和
图片比对模块,其配置成对于所述视频帧中的每一个,使用尺度不变特征变换匹配算法分析该视频帧是否已经存在于训练样本数据库中,如果否,就将该视频帧作为第一图像并对所述第一图像打上标签,将所述第一图像和所述标签保存在训练样本未标识数据库中。
7.根据权利要求5所述的装置,其特征在于,所述游戏运行模块包括:
暂停动作检测模块,其配置成用于检测所述用户暂停播放所述视频的操作;和
游戏界面显示模块,其配置成用于显示基于所述视频生成的游戏的界面,所述界面中至少显示:显示所述第一图像、叠加在所述第一图像上的第一内容的位置坐标、第一内容的类别、所述第二图像、叠加在所述第二图像上的第二内容的位置坐标、第二内容的类别。
8.根据权利要求5至7中任一项所述的装置,其特征在于,所述结果判断模块用于:在所述用户对所述第二识别结果的判断为正确的情况下,提高所述用户对所述第一识别结果的判断结果的置信水平;在所述用户对所述第二识别结果的判断为错误的情况下,降低所述用户对所述第一识别结果的判断结果的置信水平。
9.一种训练样本的标注系统,包括终端和服务器,所述终端通过有线网络或者无线网络与所述服务器连接,其中:
终端,包括播放器,所述播放器用于在用户播放视频时,获取所述视频中的至少一个第一图像,并将所述第一图像传送给所述服务器;响应于所述用户暂停播放所述视频的操作,显示基于所述视频生成的游戏的界面,所述界面中至少显示所述第一图像、第一识别结果、预存的第二图像和预存的与第二图像对应的第二识别结果,其中,所述第二识别结果是对所述第二图像进行标注得到的正确的识别结果;所述第一识别结果包括:所述第一图像中显示的第一内容的类别和所述第一内容在所述第一图像中的位置坐标;并且所述第二识别结果包括:所述第二图像中显示的第二内容的类别和所述第二内容在所述第二图像中的位置坐标;接收所述用户对所述界面显示的所述第一识别结果和所述第二识别结果的判断并传送给所述服务器;
服务器,用于接收所述第一图像,利用待训练的机器学习模型对所述第一图像进行识别,将识别的结果保存为第一识别结果;根据接收的所述用户对所述第二识别结果的判断,确定所述用户对所述第一识别结果的判断结果的置信水平。
CN201810211224.5A 2018-03-14 2018-03-14 训练样本的标注方法、装置和系统 Active CN108537129B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810211224.5A CN108537129B (zh) 2018-03-14 2018-03-14 训练样本的标注方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810211224.5A CN108537129B (zh) 2018-03-14 2018-03-14 训练样本的标注方法、装置和系统

Publications (2)

Publication Number Publication Date
CN108537129A CN108537129A (zh) 2018-09-14
CN108537129B true CN108537129B (zh) 2021-01-08

Family

ID=63483527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810211224.5A Active CN108537129B (zh) 2018-03-14 2018-03-14 训练样本的标注方法、装置和系统

Country Status (1)

Country Link
CN (1) CN108537129B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414902A (zh) * 2019-01-08 2020-07-14 北京京东尚科信息技术有限公司 图像标注的方法和装置
CN109919176A (zh) * 2019-01-17 2019-06-21 同济大学 一种基于esp游戏的图片自动标注信息处理方法及装置
CN110287850A (zh) * 2019-06-20 2019-09-27 北京三快在线科技有限公司 一种模型训练以及目标物识别的方法及装置
CN110443294A (zh) * 2019-07-25 2019-11-12 丰图科技(深圳)有限公司 视频标注方法、装置、服务器、用户终端及存储介质
CN113255339B (zh) * 2021-05-06 2023-09-19 网易(杭州)网络有限公司 标注任务的处理方法、装置、电子设备及存储介质
CN113763513A (zh) * 2021-08-17 2021-12-07 国家能源集团江西电力有限公司万安水力发电厂 一种图像中目标物的交互式标记方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106341724A (zh) * 2016-08-29 2017-01-18 刘永娜 一种表情图像标注的方法和系统
CN107256428A (zh) * 2017-05-25 2017-10-17 腾讯科技(深圳)有限公司 数据处理方法、数据处理装置、存储设备及网络设备
CN107392125A (zh) * 2017-07-11 2017-11-24 中国科学院上海高等研究院 智能模型的训练方法/系统、计算机可读存储介质及终端

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8625887B2 (en) * 2011-07-13 2014-01-07 Google Inc. Systems and methods for matching visual object components
US8498448B2 (en) * 2011-07-15 2013-07-30 International Business Machines Corporation Multi-view object detection using appearance model transfer from similar scenes
CN103716505A (zh) * 2012-09-28 2014-04-09 北京蒙恬科技有限公司 图像识别系统及方法
US9639806B2 (en) * 2014-04-15 2017-05-02 Xerox Corporation System and method for predicting iconicity of an image
US9652675B2 (en) * 2014-07-23 2017-05-16 Microsoft Technology Licensing, Llc Identifying presentation styles of educational videos
CN104850832B (zh) * 2015-05-06 2018-10-30 中国科学院信息工程研究所 一种基于分级迭代的大规模图像样本标注方法及系统
CN106067040A (zh) * 2016-06-01 2016-11-02 深圳市寒武纪智能科技有限公司 一种通过碎片交互训练机器学习图像识别算法模型的方法
CN107016356A (zh) * 2017-03-21 2017-08-04 乐蜜科技有限公司 特定内容识别方法、装置和电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106341724A (zh) * 2016-08-29 2017-01-18 刘永娜 一种表情图像标注的方法和系统
CN107256428A (zh) * 2017-05-25 2017-10-17 腾讯科技(深圳)有限公司 数据处理方法、数据处理装置、存储设备及网络设备
CN107392125A (zh) * 2017-07-11 2017-11-24 中国科学院上海高等研究院 智能模型的训练方法/系统、计算机可读存储介质及终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LoBIAG: A location-based collaborative image annotation game;Faraz Jalili等;《2017 IEEE 4th International Conference on Knowledge-Based Engineering and Innovation》;20171222;0634-0640 *
众包标注的学习算法研究;孙欢;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160315;1-66 *

Also Published As

Publication number Publication date
CN108537129A (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
CN108537129B (zh) 训练样本的标注方法、装置和系统
US11551134B2 (en) Information processing apparatus, information processing method, and storage medium
US10642892B2 (en) Video search method and apparatus
US10395120B2 (en) Method, apparatus, and system for identifying objects in video images and displaying information of same
CN108810642B (zh) 一种弹幕显示方法、装置及电子设备
JP6780769B2 (ja) 学習装置、学習方法および学習プログラム
CN108920380A (zh) 软件兼容性的测试方法、装置、服务器、设备和存储介质
KR102002024B1 (ko) 객체 라벨링 처리 방법 및 객체 관리 서버
CN110418204B (zh) 基于微表情的视频推荐方法、装置、设备和存储介质
CN109901996A (zh) 辅助测试的方法、装置、电子设备及可读存储介质
KR20150039252A (ko) 행동 인식 기반의 응용 서비스 제공 장치 및 그 방법
US20200074175A1 (en) Object cognitive identification solution
CN109710750A (zh) 一种搜题方法及学习设备
CN111414948B (zh) 目标对象检测方法和相关装置
CN108090424B (zh) 一种在线教学调研方法及设备
CN113763348A (zh) 图像质量确定方法、装置、电子设备及存储介质
CN110826646A (zh) 机器人视觉测试方法、装置、存储介质及终端设备
CN111124863B (zh) 智能设备性能测试方法、装置及智能设备
US10402777B2 (en) Method and a system for object recognition
CN110248235B (zh) 软件教学方法、装置、终端设备及介质
CN110110110A (zh) 一种以图搜图方法、装置、电子设备及存储介质
CN114943875A (zh) 用于电缆元件识别的视觉分析方法
CN113128522B (zh) 目标识别方法、装置、计算机设备和存储介质
WO2021189640A1 (zh) 酒品信息管理方法、装置、计算机设备以及存储介质
CN112132220A (zh) 一种自训练方法、系统、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Labeling methods, devices, and systems for training samples

Effective date of registration: 20230713

Granted publication date: 20210108

Pledgee: Bank of Jiangsu Limited by Share Ltd. Beijing branch

Pledgor: BEIJING MOVIEBOOK SCIENCE AND TECHNOLOGY Co.,Ltd.

Registration number: Y2023110000278

PE01 Entry into force of the registration of the contract for pledge of patent right