CN115298691A - 学习装置和学习方法 - Google Patents

学习装置和学习方法 Download PDF

Info

Publication number
CN115298691A
CN115298691A CN202080098643.8A CN202080098643A CN115298691A CN 115298691 A CN115298691 A CN 115298691A CN 202080098643 A CN202080098643 A CN 202080098643A CN 115298691 A CN115298691 A CN 115298691A
Authority
CN
China
Prior art keywords
image
bounding box
job
learning
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080098643.8A
Other languages
English (en)
Inventor
村林升
常田健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of CN115298691A publication Critical patent/CN115298691A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/247Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/06Recognition of objects for industrial automation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

在学习装置中:变换单元,对包含手图像和针对对象设定的第一边界框的输入图像进行几何图像变换,从而生成作为对其几何图像变换之后的输入图像的变换后图像,该手图像是进行用于制造产品的制造作业的作业人员的手的图像;校正单元,在变换后图像中设定通过校正包含在变换后图像中的第二边界框而获得的第三边界框;和学习单元,使用设定了第三边界框的变换后图像作为教师数据来进行机器学习,从而针对包含手图像的判定目标图像,生成输出限定形成制造作业的一道工序的多个作业状态中的每个作业状态的多个对象的学习后模型。

Description

学习装置和学习方法
技术领域
本公开涉及学习装置和学习方法。
背景技术
在机器学习的训练数据方面,已知作为减小数据的偏差或增大数据计数的处理的相对于训练数据的增广(augmentation)。
引文列表
专利文献
专利文献1:JP 2009-217348 A
专利文献2:JP 2013-161295 A
专利文献3:JP 2016-062253 A
发明内容
技术问题
对作为训练数据的输入图像的增广可以使用诸如仿射变换或投影变换(单应性变换)之类的几何图像变换来进行。然而,包含在几何图像变换之后的图像中的边界框会从包含在几何图像变换之前的输入图像中的边界框变形。如果原样使用包含变形的边界框的图像进行机器学习,则难以生成良好的学习后模型。
于是,本公开提出一种能够生成良好的学习后模型的技术。
问题的解决方案
在公开的实施例的一个方面,学习装置包括变换单元、校正单元和学习单元。变换单元被配置成通过对包含手图像和针对对象设定的第一边界框的输入图像进行几何图像变换,生成作为几何图像变换之后的输入图像的变换后图像,该手图像是进行产品制造作业的作业人员的手的图像。校正单元被配置成在变换后图像中设定第三边界框,该第三边界框是通过校正包含在变换后图像中的第二边界框而获得的。学习单元被配置成通过使用设定了第三边界框的变换后图像作为训练数据来进行机器学习,相对于包含手图像的判定目标图像生成学习后模型,该学习后模型输出限定形成制造作业的一道工序的多个作业状态中的每个作业状态的多个对象。
附图说明
图1是示出按照本公开的第一实施例的作业管理系统的构成例子的示图。
图2是示出按照本公开的第一实施例的第一学习装置的构成例子的示图。
图3是示出按照本公开的第一实施例的作业管理装置的构成例子的示图。
图4是示出按照本公开的第一实施例的过程数据的例子的表格。
图5是示出按照本公开的第一实施例的类设定单元的操作例子的示图。
图6是示出按照本公开的第一实施例的关键字图的例子的图。
图7是示出按照本公开的第一实施例的类表的例子的表格。
图8是示出按照本公开的第一实施例的第一学习装置的输入图像的例子的示图。
图9是示出按照本公开的第一实施例的第一学习装置的输入图像的例子的示图。
图10是示出按照本公开的第一实施例的第一学习装置的输入图像的例子的示图。
图11是示出按照本公开的第一实施例的第一学习装置的输入图像的例子的示图。
图12是示出按照本公开的第一实施例的第一学习装置的输入图像的例子的示图。
图13是示出按照本公开的第一实施例的通过仿射变换进行增广(augmentation)的例子的示图。
图14是示出按照本公开的第一实施例的通过仿射变换进行增广的例子的示图。
图15是示出按照本公开的第一实施例的通过仿射变换进行增广的例子的示图。
图16是示出按照本公开的第一实施例的边界框校正单元的操作例子的示图。
图17是示出按照本公开的第一实施例的边界框校正单元的操作例子的示图。
图18是示出按照本公开的第一实施例的边界框校正单元的操作例子的示图。
图19是示出按照本公开的第一实施例的边界框校正单元的操作例子的示图。
图20是示出按照本公开的第一实施例的边界框校正单元的操作例子的示图。
图21是示出按照本公开的第一实施例的边界框校正单元的操作例子的示图。
图22是示出按照本公开的第一实施例的边界框校正单元的操作例子的示图。
图23是示出按照本公开的第一实施例的边界框校正单元的操作例子的示图。
图24是示出按照本公开的第一实施例的对象检测模型的例子的示图。
图25是用于说明按照本公开的第一实施例的第一学习装置的处理过程的流程图。
图26是示出按照本公开的第一实施例的状态转变模型的例子的示图。
图27是示出按照本公开的第一实施例的作业状态的例子的表格。
图28是示出按照本公开的第一实施例的作业状态判定单元的操作例子的表格。
图29是示出按照本公开的第一实施例的工序管理画面的例子的示图。
图30是用于说明按照本公开的第一实施例的作业管理装置的处理过程的流程图。
图31是示出按照本公开的第二实施例的边界框校正单元的操作例子的示图。
图32是示出按照本公开的第三实施例的图像变换单元的操作例子的示图。
图33是示出按照本公开的第三实施例的图像变换单元的操作例子的示图。
图34是示出按照本公开的第四实施例的作业状态判定单元的操作例子的图。
图35是示出按照本公开的第四实施例的作业状态判定单元的操作例子的图。
图36是示出按照本公开的第四实施例的作业状态判定单元的操作例子的图。
图37是示出按照本公开的第五实施例的作业管理系统的构成例子的示图。
图38是示出按照本公开的第五实施例的第二学习装置的构成例子的示图。
图39是示出按照本公开的第五实施例的作业管理装置的构成例子的示图。
图40是示出按照本公开的第五实施例的第二学习装置的输入图像的例子的示图。
图41是示出按照本公开的第五实施例的第二学习装置的输入图像的例子的示图。
图42是示出按照本公开的第五实施例的第二学习装置的输入图像的例子的示图。
图43是示出按照本公开的第五实施例的第二学习装置的输入图像的例子的示图。
图44是示出按照本公开的第五实施例的第二学习装置的输入图像的例子的示图。
图45是示出按照本公开的第五实施例的第二学习装置的输入图像的例子的示图。
图46是示出按照本公开的第五实施例的第二学习装置的输入图像的例子的示图。
图47是示出按照本公开的第五实施例的第二学习装置的输入图像的例子的示图。
图48是示出按照本公开的第五实施例的第二学习装置的输入图像的例子的示图。
图49是示出按照本公开的第五实施例的第二学习装置的输入图像的例子的示图。
图50是示出按照本公开的第五实施例的第二学习装置的输入图像的例子的示图。
图51是示出按照本公开的第五实施例的第二学习装置的输入图像的例子的示图。
图52是示出按照本公开的第五实施例的第二学习装置的输入图像的例子的示图。
图53是示出按照本公开的第五实施例的第二学习装置的输入图像的例子的示图。
图54是示出按照本公开的第五实施例的第二学习装置的输入图像的例子的示图。
图55是示出按照本公开的第五实施例的第二学习装置的输入图像的例子的示图。
图56是示出按照本公开的第五实施例的第二学习装置的输入图像的例子的示图。
图57是示出按照本公开的第五实施例的第二学习装置的输入图像的例子的示图。
图58是示出按照本公开的第五实施例的第二学习装置的输入图像的例子的示图。
图59是示出按照本公开的第六实施例的对象的位置坐标的例子的示图。
图60是示出按照本公开的第六实施例的对象的位置坐标的例子的示图。
图61是示出按照本公开的第七实施例的对象的位置坐标的例子的示图。
图62是示出按照本公开的第七实施例的对象的位置坐标的例子的示图。
具体实施方式
以下,将参考附图说明本公开的实施例。注意,在以下的实施例中,相同的部分或相同的处理用相同的附图标记表示,并且省略重复的说明。
将按照以下项目顺序说明本公开。
[第一实施例]
<作业管理系统的构成>
<第一学习装置的构成>
<作业管理装置的构成>
<第一学习装置的处理过程>
<作业管理装置的处理过程>
[第二实施例]
<边界框校正单元的操作>
[第三实施例]
<图像变换单元的操作>
[第四实施例]
<作业状态判定单元的操作>
[第五实施例]
<作业管理系统的构成>
<第二学习装置的构成>
<作业管理装置的构成>
<第二学习装置的处理过程>
<作业管理装置的处理过程>
[第六实施例]
<第二机器学习单元的操作>
<作业管理装置的处理过程>
[第七实施例]
<第二机器学习单元的操作>
[第八实施例]
[公开的技术的效果]
[第一实施例]
<作业管理系统的构成>
图1是示出按照本公开的第一实施例的作业管理系统的构成例子的示图。图1中,作业管理系统1包括第一学习装置10和作业管理装置20-1。
<第一学习装置的构成>
图2是示出按照本公开的第一实施例的第一学习装置的构成例子的示图。图2中,第一学习装置10包括类设定单元11、存储单元12、图像变换单元13、边界框校正单元14、第一机器学习单元15、存储单元16以及输出单元17。
<作业管理装置的构成>
图3是示出按照本公开的第一实施例的作业管理装置的构成例子的示图。图3中,作业管理装置20-1包括获取单元21、存储单元22、对象检测单元23、作业状态判定单元24、工序管理单元25以及显示单元26。
<第一学习装置的处理过程>
以下,将说明作为要制造的产品的例子的智能电话机。智能电话机制造作业由多个作业工序形成,该多个作业工序中的每个工序由多个作业状态形成。
例如,如图4中所示的指示“扬声器安装”的作业过程的作业过程文档的数据(以下有时称为“过程数据”)被输入到类设定单元11中,“扬声器安装”是智能电话机制造作业的多个作业工序当中的一个工序。例如,如图4中所示,按“1:移动”→“2:放置”→“3:操作开关”→…的顺序,进行作业工序“扬声器安装”中的作业过程。图4是示出按照本公开的第一实施例的过程数据的例子的表格。
图5是示出按照本公开的第一实施例的类设定单元的操作例子的示图。如图5中所示,类设定单元11首先从图4中所示的过程数据中提取“作业内容”的文本数据。接下来,类设定单元11对提取的文本数据进行形态分析,并从形态分析后的数据中检测关键字。结果,例如,从作业编号“1”的作业内容“移动”的文本数据中检测到关键字“手”,并且从作业编号“3”的作业内容“操作开关”的文本数据中检测到关键字“开关”和“手”。接下来,类设定单元11对检测到的关键字进行转换。例如,将关键字“手”转换成“hand”,并将关键字“开关”转换成“sw”。接下来,类设定单元11在“扬声器安装”这一作业工序中,按每个关键字合计转换后的关键字的数据计数。接下来,类设定单元11将合计的关键字按数据计数的降序排序。结果,例如,获得图6中所示的图,作为按数据计数的降序排序的关键字的图(以下有时称为“关键字图”)。图6是按照本公开的第一实施例的关键字图的例子。图6中所示的关键字图例如包括总共22个关键字,按数据计数的降序:“hand”、“car_wout2”、“hand_two”、“car_with”、“car_with2”、“grasp_u”、“grasp_d”、“blur”、“tweezer”、“car_wout”、“air_blow”、“push_a”、“vac_pen”、“push_side”、“sw”、“mouse”、“ion_blow”、“push_b”、“count”、“wipes”、“garbage”和“push”。
如图7中所示,类设定单元11基于关键字图,设定使用图6中的22个关键字中的每个关键字作为“标签”的类C0~C21,并生成指示类、标签和对象内容之间的关联的“类表CLT”。类、标签和对象内容彼此一一对应。另外,在类表CLT中,类C0的数据计数d(0)最大,之后,数据计数按照类C1的数据计数d(1)、类C2的数据计数d(2)、…、类C20的数据计数d(20)的顺序减少。类C21的数据计数d(21)最小。这样,类设定单元11基于作业过程文档,将为一道工序中的多个作业所共有的要素设定为类。图7是按照本公开的第一实施例的类表的例子。然后,类设定单元11将关键字图(图6)和类表CLT(图7)输出到存储单元12,并且存储单元12存储关键字图和类表CLT。
另一方面,如图8~图12中所示的图像作为训练数据被输入到图像变换单元13。图8~图12是按照本公开的第一实施例的第一学习装置的输入图像的例子。如图8~图12中所示,第一学习装置10的各个输入图像包括进行智能电话机制造作业的作业人员的手的图像(以下有时称为“手图像”)HI,和针对包含在输入图像中的对象设定的边界框BX1。向边界框BX1提供与边界框BX1中的对象对应的标签。例如,图8中所示的输入图像中的边界框BX1被标记为“car_with2”,图9中所示的输入图像中的边界框BX1被标记为“hand(手)”,图10中所示的输入图像中的边界框BX1被标记为“tweezer(镊子)”,图11中所示的输入图像中的边界框BX1被标记为“car_with”,而图12中所示的输入图像中的边界框BX1被标记为“hand_two”。
图像变换单元13对输入图像进行几何图像变换,以进行训练数据的增广。几何图像变换的例子是仿射变换。例如,在使用仿射变换作为几何图像变换的情况下,图像变换单元13按照式(1),在随机地改变参数an、bn、cn、dn、x0n和y0n的同时,对输入图像中的每个输入图像进行预定多次的仿射变换,从而如图13和14中所示,进行训练数据的增广。式(1)中,xn和yn表示图像变换前的坐标,而xn'和yn'表示图像变换后的坐标。
Figure BDA0003848730000000091
此外,图像变换单元13通过对各个输入图像进行仿射变换来进行增广,进行仿射变换的次数基于存储在存储单元12中的关键字图。例如,如图15中所示,图像变换单元13使用仿射变换对包含除“hand”以外的标签的输入图像进行增广,使得作为数据计数最大的类的“hand”的数据计数d(0)与除“hand”以外的各个类的数据计数之差的绝对值都在预定值dt以内。图13~图15是示出按照本公开的第一实施例的通过仿射变换进行增广的例子的示图。
图像变换单元13将仿射变换后的输入图像(以下有时称为“变换后图像”)输出到边界框校正单元14。
随着输入图像的仿射变换,如图13中所示,包含在输入图像中的边界框BX1在变换后图像中被变形为像边界框BX2那样。于是,边界框校正单元14校正边界框,如图16~图23中所示。图16~图23是示出按照本公开的第一实施例的边界框校正单元的操作例子的示图。
例如,边界框校正单元14获取如图16中所示的在变换后图像中变形的边界框BX2的四个顶点中的每个顶点的坐标(x1',y1')、(x2',y2')、(x3',y3')和(x4',y4')(图17)。接下来,如图17中所示,边界框校正单元14生成矩形SQ,在该矩形SQ中,对角线上的两个点的顶点的坐标由[(xmin,ymin),(xmax,ymax)]限定。这里,“xmin”是x1′、x2′、x3′和x4′中的最小值,“ymin”是y1′、y2′、y3′和y4′中的最小值,“xmax”是x1′、x2′、x3′和x4′中的最大值,并且“ymax”是y1′、y2′、y3′和y4′中的最大值。结果,边界框校正单元14生成在四条边的相应边中包含边界框BX2的四个顶点中的相应顶点的矩形SQ。
接下来,如图18和19中所示,边界框校正单元14通过基于包含在矩形SQ中的手图像HI来缩小矩形SQ的面积,进而生成矩形边界框BX3,并将生成的边界框BX3设定为变换后图像。
例如,边界框校正单元14通过使用对于存在于矩形SQ中的手图像HI的边缘检测,缩小矩形SQ的面积。边界框校正单元14例如通过对如图20中所示的变换后图像应用一般的边缘提取处理,获取如图21中所示的边缘提取图像。接下来,如图22中所示,边界框校正单元14从边界框BX2的四个顶点(x1',y1')、(x2',y2')、(x3',y3')和(x4',y4')中的每个顶点开始,对边缘提取图像进行边缘检测。
例如,在如图22中所示的边缘提取图像中,边界框校正单元14获取从顶点(x1',y1')朝着X坐标的值增大的方向(图中向右)首先检测到的边缘的X坐标作为x1"。此外,边界框校正单元14获取从顶点(x3',y3')朝着X坐标的值减小的方向(图中向左)首先检测到的边缘的X坐标作为x3"。此外,边界框校正单元14获取从顶点(x2',y2')朝着Y坐标的值增大的方向(图中向下)首先检测到的边缘的Y坐标作为y2"。此外,边界框校正单元14获取从顶点(x4',y4')朝着Y坐标的值减小的方向(图中向上)首先检测到的边缘的Y坐标作为y4"。然后,如图23中所示,边界框校正单元14生成其中四个顶点的坐标分别为(x1",y2")、(x1",y4")、(x3",y2")和(x3",y4")的矩形边界框BX3。边界框校正单元14例如通过如图20~图23中所示那样生成边界框BX3,在矩形SQ(图19)中生成面积比矩形SQ小的边界框BX3。然后,边界框校正单元14将生成的边界框BX3代替边界框BX2设定为变换后图像,并且将其中设定了边界框BX3的变换后图像作为训练数据输出到第一机器学习单元15。
第一机器学习单元15通过使用其中分别设定有边界框BX3的多个变换后图像作为训练数据来进行机器学习,以生成作为第一学习后模型的“对象检测模型”,并且将生成的对象检测模型输出到存储单元16。存储单元16存储对象检测模型。换句话说,如图24中所示,第一机器学习单元15相对于包含手图像的判定目标图像DI,生成对象检测模型,该对象检测模型输出限定形成智能电话机制造作业的一道工序的多个作业状态中的每个作业状态的多个对象。作为例子,图24示出通过对象检测模型在判定目标图像DI中检测到五个对象“car_with”、“hand”、“hand_two”、“car_with”和“tweezer”的情况。作为生成对象检测模型时的机器学习,例如,使用单发多框检测器(single shot multibox detector)(SSD)或只看一次(you only look once)(YOLO)。图24是示出按照本公开的第一实施例的对象检测模型的例子的示图。
这里,第一机器学习单元15可以生成22个对象检测模型,以检测从类C0到C21(图7)的每个类的对象,或者可以生成能够共同地检测类C0~C21的22种对象的单一对象检测模型。
输出单元17从存储单元16获取存储在存储单元16中的对象检测模型,并将获取的对象检测模型输出到作业管理装置20-1。
图25是用于说明按照本公开的第一实施例的第一学习装置的处理过程的流程图。
在获得关键字图(图6)和类表CLT(图7)之后,在图25的步骤S100,第一学习装置10将类编号k初始化为“1”。
接下来,在步骤S105,第一学习装置10判定类C0的数据计数d(0)与类Ck的数据计数d(k)之差的绝对值(以下有时称为“类间差异”)是否小于预定值dt。当类间差异小于dt时(步骤S105:是),处理进行到步骤S110,而如果类间差异等于或大于dt(步骤S105:否),则处理进行到步骤S120。
由于在类表CLT(图7)中设定的编号最大的类是类C21,因此在步骤S110,第一学习装置10判定类编号k是否达到了“21”。当类编号k达到了“21”时(步骤S110:是),处理结束。另一方面,在类编号k没有达到“21”的情况下,即,在类编号k小于“21”的情况下(步骤S110:否),处理进行到步骤S115,以及在步骤S115,第一学习装置10递增类编号k。在步骤S115的处理之后,处理返回到步骤S105。
另一方面,在步骤S120,第一学习装置10获取作为训练数据的输入图像。
接下来,在步骤S125,第一学习装置10在随机地改变仿射变换参数的同时,对在步骤S120获取的输入图像进行预定多次的仿射变换,从而进行训练数据的增广。
接下来,在步骤S130,第一学习装置10将步骤S125中的仿射变换的次数加到数据计数d(k)中。
接下来,在步骤S135,第一学习装置10校正边界框(图16~图23)。
接下来,在步骤S140,第一学习装置10判定类间差异是否小于预定值dt。当类间差异小于dt时(步骤S140:是),处理进行到步骤S110。另一方面,当类间差异等于或大于dt时(步骤S140:否),处理返回步骤S120,并且在步骤S120获取新的输入图像。
<作业管理装置的处理过程>
在图3中所示的作业管理装置20-1中,获取单元21获取从第一学习装置10输出的对象检测模型,并将获取的对象检测模型输出到存储单元22,并且存储单元22存储对象检测模型。
另一方面,作为对象检测目标和作业状态判定目标的判定目标图像被输入到对象检测单元23。判定目标图像是其中以预定帧速率捕捉进行智能电话机制造作业的作业人员的作业状态的视频图像的每一帧的图像。对象检测单元23通过使用存储在存储单元22中的对象检测模型,在判定目标图像中检测多个对象,并且将检测到的多个对象输出到作业状态判定单元24。
这里,例如,作为形成智能电话机制造作业的多个作业工序当中的一道工序的“扬声器安装”是由图26和27中所示的作业状态S1~S14形成的。换句话说,安装扬声器的作业人员的作业状态如图26中所示的作业状态的转变模型(以下有时称为“状态转变模型”)中那样,从S1→S2→S3→S4→S5→S6→S7→S8→S9→S10→S11→S12→S13→S14→S1→S2→…顺序地转变。另外,作业状态S0被限定为不对应于作业状态S1~S14中的任意作业状态的例外作业状态。图26是示出按照本公开的第一实施例的状态转变模型的例子的示图,以及图27是示出按照本公开的第一实施例的作业状态的例子的表格。在作业状态判定单元24中预先设定图26中所示的状态转变模型。
作业状态判定单元24基于由对象检测单元23检测到的多个对象,判定由判定目标图像指示的作业状态,并将作为指示多个作业状态中的任意作业状态的信息的“S0”~“S14”中的任意一个,作为作业状态的判定结果输出到工序管理单元25。例如,如图28中所示,作业状态判定单元24将与由对象检测单元23检测到的多个对象的模式(以下有时称为“检测对象模式”)对应的作业状态,判定为由判定目标图像指示的作业状态。例如,当检测到的对象模式为[car_with,car_wout2,blur]、[grasp_d,car_with,car_wout2,hand]或[blur,car_with,car_wout2,hand]时,判定作业状态为“S1:将电话机移动到机器人”。当检测到的对象模式为[car_with,car_wout2,hand]或[hand,car_with,car_wout2,hand]时,判定作业状态为“S2:放置电话机”。当检测到的对象模式为[sw,car_with,hand]时,判定作业状态为“S3:按下SW”。当检测到的对象模式不对应于图28中所示的模式中的任意模式时,判定作业状态为“S0:其他”。图28是示出按照本公开的第一实施例的作业状态判定单元的操作例子的表格。
这里,在图28中,检测到的对象模式[hand,hand]对应于作业状态S6和作业状态S11两者。另一方面,按照图26中所示的状态转变模型,紧接在转变到作业状态S6之前的作业状态是S5或S0,而紧接在转变到作业状态S11之前的作业状态是S10或S0。作业状态可以在S6或S10中继续。
于是,在当前判定目标图像中的检测对象模式为[hand,hand],并且从前一个判定目标图像判定的作业状态是S5或S6时,作业状态判定单元24判定当前作业状态(换句话说,由当前判定目标图像指示的作业状态)是S6。在当前判定目标图像中的检测到的对象模式为[hand,hand],并且从前一个判定目标图像判定的作业状态是S0时,以及在从前一个判定目标图像判定的作业状态是S5或者在作业状态转变到S0之前的作业状态是S6时,作业状态判定单元24判定当前作业状态是S6。
此外,在当前判定目标图像中的检测到的对象模式为[hand,hand],并且从前一个判定目标图像判定的作业状态是S10或S11时,作业状态判定单元24判定当前作业状态是S11。在当前判定目标图像中的检测到的对象模式为[hand,hand],并且从前一个判定目标图像判定的作业状态是S0时,以及在从前一个判定目标图像判定的作业状态是S10或者在作业状态转变到S0之前的作业状态是S11时,作业状态判定单元24判定当前作业状态是S11。
这样,作业状态判定单元24通过使用表示多个作业状态的前后关系的状态转变模型(图26),判定由判定目标图像指示的作业状态。从而,可以提高作业状态的判定精度。
工序管理单元25基于作业状态判定单元24中的判定结果,生成用于管理作业工序的画面(以下有时称为“工序管理画面”),并将生成的工序管理画面显示在显示单元26上。图29是示出按照本公开的第一实施例的工序管理画面的例子的示图。图29中,工序管理画面MS例如包括作为显示项目的“作业视频”的项目、“作业状态”的项目、“作业时间”的项目和“等于或大于标准作业时间的频次”的项目。在“作业视频”的项目中,对象的检测结果和作业状态的判定结果被实时地叠加在判定目标图像上,并且和判定目标图像一起被显示。在项目“作业状态”中,突出显示作业状态的判定结果。在“作业时间”的项目中,以条形图显示作业状态S0~S14中的每个作业状态的最新作业时间。对于作业状态S0~S14中的每个作业状态的作业时间,预先确定每个作业状态的标准作业时间和每个作业状态的容许作业时间。例如,工序管理单元25将在标准作业时间内的作业时间显示成蓝色条形图,将超过标准作业时间的作业时间显示成黄色条形图,并将超过容许作业时间的作业时间显示成红色条形图。在“等于或大于标准作业时间的频次”的项目中,对于作业状态S0~S14中的每个作业状态,以条形图显示作业时间超过标准作业时间的累计次数。
图30是用于说明按照本公开的第一实施例的作业管理装置的处理过程的流程图。
在图30的步骤S200,作业管理装置20-1将引起注意显示时间t(m)w初始化为“0”。
接下来,在步骤S205,作业管理装置20-1判定当前时间是否在作业时间内。作业管理装置20-1等待,直到当前时间到达作业时间为止(步骤S205:否)。然后,在当前时间在作业时间内时(步骤S205:是),处理进行到步骤S210。
在步骤S210,作业管理装置20-1获取判定目标图像。
接下来,在步骤S215,作业管理装置20-1判定工序n(其中n是作业工序编号)的作业人员(n)是否在作业现场。作业人员(n)的存在或不存在例如基于作业人员(n)的头部或手是否被包含在判定目标图像中来判定。当作业人员(n)在作业现场时(步骤S215:是),处理进行到步骤S220,而当作业人员(n)不在作业现场时(步骤S215:否),处理进行到步骤S225。
在步骤S220,作业管理装置20-1将作业人员标志St(n)设定为“1”。另一方面,在步骤S225,作业管理装置20-1将作业人员标志St(n)设定为“0”。在步骤S220和S225的处理之后,处理进行到步骤S230。
在步骤S230,作业管理装置20-1对判定目标图像进行对象检测。
接下来,在步骤S235,作业管理装置20-1基于在步骤S230中检测到的对象,判定由判定目标图像指示的作业状态。
接下来,在步骤S240,作业管理装置20-1在工序管理画面上显示作业视频(图29)。
接下来,在步骤S245,作业管理装置20-1针对作业状态S0~S14中的每个作业状态,检测对于工序n的作业所用的作业时间t(n)。
接下来,在步骤S250,作业管理装置20-1在工序管理画面上的项目“作业时间”中,以条形图显示每个作业状态的作业时间t(n)(图29)。
接下来,在步骤S255,作业管理装置20-1判定每个作业状态的作业时间t(n)是否在规定时间以内。步骤S255中的规定时间例如是图29中的“标准作业时间”和“容许作业时间”。
对于作业时间t(n)不在规定时间以内的作业状态(步骤S255:是),在步骤S260,作业管理装置20-1变更条形图的显示。例如,作业管理装置20-1将超过标准作业时间的作业状态的作业时间的条形图的颜色从蓝色变更为黄色,以及将超过容许作业时间的作业状态的作业时间的条形图的颜色从黄色变更为红色。在步骤S260的处理之后,处理进行到步骤S265。
另一方面,当所有作业状态的作业时间t(n)都在规定时间以内时(步骤S255:否),处理进行到步骤S265,而不进行步骤S260的处理。
在步骤S265,作业管理装置20-1判定作业状态中的任意作业状态的作业时间t(n)是否超过预定的提醒注意时间ta。
当作业状态中的任意作业状态的作业时间t(n)超过了提醒注意时间ta时(步骤S265:是),在步骤S270中,作业管理装置20-1开始引起注意显示。另外,作业管理装置20-1随着引起注意显示的开始,开始测量引起注意显示时间t(m)w。例如,作业管理装置20-1在工序n之前的、包含对工序n中的作业造成影响的作业的各个工序m中,进行诸如“请将操作推迟○○秒”之类的引起注意显示。在步骤S270的处理之后,处理进行到步骤S275。
另一方面,当所有作业状态的作业时间t(n)都在提醒注意时间ta以内时(步骤S265:否),处理进行到步骤S275,而不进行步骤S270的处理。
在步骤S275,作业管理装置20-1判定引起注意显示时间t(m)w是否达到预定的经过时间t(m)wa。
当引起注意显示时间t(m)w达到了经过时间t(m)wa时(步骤S275:是),在步骤S280,作业管理装置20-1结束引起注意显示,并在步骤S285,将引起注意显示时间t(m)w初始化为“0”。在步骤S285的处理之后,处理进行到步骤S290。
另一方面,当引起注意显示时间t(m)w未达到经过时间t(m)wa时(步骤S275:否),处理进行到步骤S290,而不进行步骤S280和S285的处理。
在步骤S290,作业管理装置20-1判定是否发出了作业管理装置20-1的操作停止指令。当发出了操作停止指令时(步骤S290:是),作业管理装置20-1停止操作。另一方面,当没有发出操作停止指令时(步骤S290:否),处理返回到步骤S205。
上面说明了本公开的第一实施例。
[第二实施例]
<边界框校正单元的操作>
图31是示出按照本公开的第二实施例的边界框校正单元的操作例子的示图。
如图31中所示,边界框校正单元14在多个变换后图像中的每个变换后图像中,指定由边界框BX2的外侧和边界框BX3的内侧围绕的四个区域AR1、AR2、AR3和AR4。此外,在区域AR1、AR2、AR3和AR4中的每个区域中,边界框校正单元14计算包含在各个区域中的像素当中亮度低于阈值的像素的比例(以下有时称为“低亮度像素率”)。然后,边界框校正单元14从训练数据中,排除多个变换后图像当中在区域AR1、AR2、AR3和AR4中存在具有预定值以上的低亮度像素率的至少一个区域的变换后图像。这是因为在区域AR1、AR2、AR3和AR4中包括低亮度像素率等于或大于预定值的至少一个区域的变换后图像包含具有无效特征量的较大区域。这样,可以提高变换后图像作为训练数据的可靠性。
上面说明了本公开的第二实施例。
[第三实施例]
<图像变换单元的操作>
图32和33是示出按照本公开的第三实施例的图像变换单元的操作例子的示图。
如图32和图33中所示,相对于输入图像,图像变换单元13设定圆CIR,该圆CIR以输入图像的中心O为中心,并且与输入图像的上边和下边或者输入图像的左边和右边接触。然后,图像变换单元13选择其中边界框BX1的整个区域被包含在圆CIR的区域中的输入图像,作为仿射变换的变换目标,并且从仿射变换的变换目标中排除其中边界框BX1的区域在圆CIR的区域之外的输入图像。于是,图像变换单元13选择图32中所示的输入图像作为仿射变换的变换目标,并且从仿射变换的变换目标中排除图33中所示的输入图像。这是因为在其边界框BX1存在于圆CIR的区域之外的输入图像的变换后图像中,可能包含具有无效特征量的较大区域。这样,可以提高变换后图像作为训练数据的可靠性。
上面说明了本公开的第三实施例。
这里,在上面的说明中,说明了其中图像变换单元13使用仿射变换进行训练数据的增广的情况。不过,图像变换单元13使用的几何图像变换不限于仿射变换。除仿射变换以外的几何图像变换的例子是投影变换(单应性变换)。例如,在使用投影变换作为几何图像变换的情况下,图像变换单元13按照式(2)或式(3a)和(3b),在随机地改变参数k、h11、h12、h13、h21、h22、h23、h31、h32和h33的同时,进行预定多次的对各个输入图像的投影变换,从而进行训练数据的增广。在式(2)、(3a)和(3b)中,xn和yn表示图像变换前的坐标,而xn'和yn'表示图像变换后的坐标。
Figure BDA0003848730000000191
Figure BDA0003848730000000192
Figure BDA0003848730000000193
[第四实施例]
<作业状态判定单元的操作>
图34~图36是示出按照本公开的第四实施例的作业状态判定单元的操作例子的图。
如图34~图36中所示,作业状态判定单元24累积相对于每帧的判定目标图像的作业状态S0~S14的判定结果。换句话说,图34~图36中所示的图示出了作业状态判定单元24中的过去判定结果的累计结果。
例如,当在作业状态判定单元24判定相对于第m帧的判定目标图像的作业状态时的判定结果的累计结果如图34中所示时,作业状态判定单元24判定判定结果的累计数最大的作业状态S3是由第m帧的判定目标对象指示的作业状态。
此外,例如,当在作业状态判定单元24判定相对于第(m+1)帧的判定目标图像的作业状态时的判定结果的累计结果如图35中所示时,判定结果的累计数最大的作业状态是S5。然而,按照状态转变模型(图26),作业状态没有从S3转变到S5。于是,作业状态判定单元24选择判定结果的累计数第二大(仅次于S5)的S4作为候选判定结果。按照状态转变模型,由于作业状态在S3之后可以转变到S4,因此作业状态判定单元24最终将作业状态S4判定为由第(m+1)帧的判定目标图像指示的作业状态。
此外,例如,当在作业状态判定单元24判定相对于第(m+1)帧的判定目标图像的作业状态时的判定结果的累计结果如图36中所示时,判定结果的累计数最大的作业状态是S5,并且判定结果的累计数第二大的作业状态是S2。按照状态转变模型,作业状态在S3之后不转变到S5,并且在S3之后不转变到S2。于是,作业状态判定单元24判定其中判定结果的累计数第三大的作业状态S3是由第(m+1)帧的判定目标图像指示的作业状态。
从而,可以提高作业状态的判定精度。
上面说明了本公开的第四实施例。
[第五实施例]
<作业管理系统的构成>
图37是示出按照本公开的第五实施例的作业管理系统的构成例子的示图。图37中,作业管理系统2包括第一学习装置10、第二学习装置30和作业管理装置20-2。
<第二学习装置的构成>
图38是示出按照本公开的第五实施例的第二学习装置的构成例子的示图。图38中,第二学习装置30包括第二机器学习单元31、存储单元32和输出单元33。
<作业管理装置的构成>
图39是示出按照本公开的第五实施例的作业管理装置的构成例子的示图。图39中,作业管理装置20-2包括获取单元21和27、存储单元22和28、对象检测单元23、作业状态判定单元29、工序管理单元25以及显示单元26。
<第二学习装置的处理过程>
在图38中所示的第二学习装置30中,如图40~图58中所示的图像作为训练数据被输入到第二机器学习单元31。图40~图58是示出按照本公开的第五实施例的第二学习装置的输入图像的例子的示图。如图40~图58中所示,第二学习装置30的各个输入图像包括手图像,和针对包含在输入图像中的对象设定的边界框。类似于第一学习装置10的输入图像(图8~图12),向边界框附加与边界框中的对象对应的标签。另外,如图40~图58中所示,第二学习装置30的各个输入图像设有指示由各个输入图像指示的作业状态的标签(以下有时称为“作业状态标签”)。
例如,在图40中所示的输入图像中,向作为包含在输入图像中的多个对象的模式(以下有时称为“输入图像对象模式”)的[car_with,car_wout2,blur]附加作业状态标签“S1:将电话机移动到机器人”。此外,例如,在图43中所示的输入图像中,向输入图像对象模式[car_with,car_wout2,hand]附加作业状态标签“S2:放置电话机”。此外,例如,在图45中所示的输入图像中,向输入图像对象模式[sw,car_with,hand]附加作业状态标签“S3:按下sw”。此外,例如,在图46中所示的输入图像中,向输入图像对象模式[blur,car_with,hand]附加作业状态标签“S4:将SPK移动到空间中”。此外,例如,在图48中所示的输入图像中,向输入图像对象模式[hand,hand_two,air_blow]附加作业状态标签“S5:吹气(Air_blow)”。此外,例如,在图49中所示的输入图像中,向输入图像对象模式[hand,hand]附加作业状态标签“S6:蓝色贴纸(Blue seal)”。此外,例如,在图50中所示的输入图像中,向输入图像对象模式[hand,hand,hand_two,car_with]附加作业状态标签“S7:放置SPK”。此外,例如,在图51中所示的输入图像中,向输入图像对象模式[hand,hand,hand_two,car_with2]附加作业状态标签“S8:将载体转动0°”。此外,例如,在图52中所示的输入图像中,向输入图像对象模式[grasp_d,hand,hand_two]附加作业状态标签“S9:将电话机移动到托盘”。此外,例如,在图54中所示的输入图像中,向输入图像对象模式[hand,hand,hand_two,car_wout2]附加作业状态标签“S10:移动下一个载体”。此外,例如,在图55中所示的输入图像中,向输入图像对象模式[hand,hand]附加作业状态标签“S11:将载体移动到作业区域(work_area)”。此外,例如,在图56中所示的输入图像中,向输入图像对象模式[hand,hand,car_wout]附加作业状态标签“S12:将载体转动90°”。此外,例如,在图57中所示的输入图像中,向输入图像对象模式[car_wout,car_wout2,hand]附加作业状态标签“S13:打开机器人盖子”。此外,例如,在图58中所示的输入图像中,向输入图像对象模式[grasp_d,car_wout,hand]附加作业状态标签“S14:将电话机移动到载体”。
第二机器学习单元31通过使用如图40~图58中所示的输入图像作为训练数据来进行机器学习,以生成作为第二学习后模型的“作业状态判定模型”,并将生成的作业状态判定模型输出到存储单元32。存储单元32存储作业状态判定模型。换句话说,第二机器学习单元31针对由对象检测单元23检测到的多个对象生成作业状态判定模型,该作业状态判定模型输出作为指示多个作业状态中的任意作业状态的信息的“S0”~“S14”中的任意一个。作为生成作业状态判定模型时的机器学习,例如,使用SSD或YOLO。
输出单元33从存储单元32获取存储在存储单元32中的作业状态判定模型,并将获取的作业状态判定模型输出到作业管理装置20-2。
<作业管理装置的处理过程>
在图39中所示的作业管理装置20-2中,获取单元27获取从第二学习装置30输出的作业状态判定模型,并将获取的作业状态判定模型输出到存储单元28,并且存储单元28存储作业状态判定模型。
另一方面,由对象检测单元23检测到的多个对象被输入到作业状态判定单元29。作业状态判定单元29基于检测对象模式,使用存储在存储单元28中的作业状态判定模型来判定由判定目标图像指示的作业状态,并将作为指示多个作业状态中的任意作业状态的信息的“S0”~“S14”中的任意一个,作为作业状态的判定结果输出到工序管理单元25。
上面说明了本公开的第五实施例。
[第六实施例]
<第二机器学习单元的操作>
图59和60是示出按照本公开的第六实施例的对象的位置坐标的例子的示图。
如图59和60中所示,其中向如图40~图58中例示的图像进一步添加位置坐标PA(xp,yp)的图像作为训练数据被输入到第二机器学习单元31,该位置坐标PA(xp,yp)指示各个边界框中的各个对象的位置。位置坐标PA(xp,yp)指示输入图像中的对象的绝对位置。
第二机器学习单元31通过使用设有位置坐标PA(xp,yp)的输入图像作为训练数据来进行机器学习,以生成作为第二学习后模型的“作业状态判定模型”,并将生成的作业状态判定模型输出到存储单元32。存储单元32存储作业状态判定模型。换句话说,第二机器学习单元31相对于由对象检测单元23检测到的多个对象和多个对象中的每个对象的位置坐标,生成作业状态判定模型,该作业状态判定模型输出作为指示多个作业状态中的任意作业状态的信息的“S0”~“S14”中的任意一个。作为生成作业状态判定模型时的机器学习,例如,使用SSD或YOLO。
<作业管理装置的处理过程>
对象检测单元23检测多个对象,检测多个对象中的每个对象的位置坐标,并将检测到的对象和位置坐标输出到作业状态判定单元29。
作业状态判定单元29基于检测到的对象模式和各个对象的位置坐标,使用存储在存储单元28中的作业状态判定模型来判定由判定目标图像指示的作业状态,并将作为指示多个作业状态中的任意作业状态的信息的“S0”~“S14”中的任意一个,作为作业状态的判定结果输出到工序管理单元25。
这样,除了检测到的对象模式之外,还通过使用对象的位置坐标来判定作业状态,可以提高作业状态的判定精度。
上面说明了本公开的第六实施例。
[第七实施例]
<第二机器学习单元的操作>
图61和62是示出按照本公开的第七实施例的对象的位置坐标的例子的示图。
在第六实施例中,指示对象的位置的位置坐标PA(xp,yp)表示输入图像中的绝对位置。
另一方面,在第七实施例中,作为指示对象的位置的位置坐标,如图61和图62中所示,代替位置坐标PA,使用指示相对于输入图像中的地标LM的相对位置的位置坐标PB。例如,当输入图像中的地标LM的位置坐标为M(xm,ym)时,指示对象的位置的相对位置坐标被表示为PB(xp-xm,yp-ym)。作为地标LM的例子,图61示出了具有特征形状和颜色的开关盒。
如上所述,通过使用相对于地标LM的相对位置坐标作为指示对象的位置的位置坐标,与使用绝对位置坐标的情况相比,即使在相机角度通常由于捕捉作业人员的作业状态的相机的安装状态而改变时,也可以抑制作业状态的判定精度的降低。
上面说明了本公开的第七实施例。
[第八实施例]
存储单元12、16、22、28和32作为硬件,例如由存储器、硬盘驱动器(HDD)、固态驱动器(SSD)等实现。
类设定单元11、图像变换单元13、边界框校正单元14、第一机器学习单元15、对象检测单元23、作业状态判定单元24和29、工序管理单元25以及第二机器学习单元31作为硬件,例如由处理器实现。处理器的例子包括中央处理器(CPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)和专用集成电路(ASIC)。
输出单元17和33以及获取单元21和27作为硬件,例如由有线网络接口模块或无线通信模块实现。
显示单元26作为硬件,例如由液晶显示器实现。
第一学习装置10、第二学习装置30以及作业管理装置20-1和20-2例如作为诸如个人计算机和服务器之类的计算机装置来实现。
另外,作业管理系统1和2中的上述说明中的各个处理的全部或部分可以通过使包含在作业管理系统1和2中的处理器执行对应于各个处理的程序来实现。例如,与上述说明中的各个处理对应的程序可以存储在存储器中,并且程序可以由处理器从存储器中读出并执行。另外,程序可以存储在经由任意网络连接到作业管理系统1和2的程序服务器中,从该程序服务器下载到作业管理系统1和2并执行,或者可以存储在作业管理系统1和2可读取的记录介质中,从该记录介质中读取并执行。作业管理系统1和2可读取的记录介质的例子包括诸如存储卡、USB存储器、SD卡、软盘、磁光盘、CD―ROM、DVD和蓝光(注册商标)光盘之类的便携式存储介质。另外,程序是用任意语言或任意记述方法记述的数据处理方法,并且可以是诸如源代码或二进制代码之类的任何格式。另外,程序不一定限于单个程序,并且可以包括作为多个模块或多个库分布式地构成的程序,以及与OS所代表的独立程序协作地实现功能的程序。
另外,作业管理系统1和2的具体的分布和集成形式不限于图中所示的形式,作业管理系统1和2的全部或部分可以按照各种增加等,或者按照功能负荷,以任意单位在功能上或物理上分布和集成。
上面说明了本公开的第八实施例。
[公开的技术的效果]
如上所述,按照本公开的学习装置(按照第一实施例的第一学习装置10)包括变换单元(按照第一实施例的图像变换单元13)、校正单元(按照第一实施例的边界框校正单元14)和学习单元(按照第一实施例的第一机器学习单元15)。变换单元对包含手图像和针对对象设定的第一边界框(按照第一实施例的边界框BX1)的输入图像进行几何图像变换,以生成作为几何图像变换之后的输入图像的变换后图像,该手图像是进行产品制造作业的作业人员的手的图像。校正单元将通过校正包含在变换之后的图像中的第二边界框(按照第一实施例的边界框BX2)而获得的第三边界框(按照第一实施例的边界框BX3)设定为变换后图像。学习单元使用设定了第三边界框的变换后图像作为训练数据来进行机器学习,以相对于包含手图像的判定目标图像生成学习后模型(按照第一实施例的对象检测模型),该学习后模型输出限定形成制造作业的一道工序的多个作业状态中的每个作业状态的多个对象。
例如,校正单元生成在四条边的相应边中包含第二边界框的四个顶点的相应顶点的矩形(按照第一实施例的矩形SQ),并通过基于包含在矩形中的手图像来缩小矩形的面积,进而生成第三边界框。
此外,例如,校正单元通过对包含在矩形中的手图像使用边缘检测来缩小矩形的面积。
此外,例如,校正单元(按照第二实施例的边界框校正单元14)指定由第二边界框的外侧和第三边界框的内侧围绕的多个区域(按照第二实施例的区域AR1~AR4),在多个区域中的每个区域中,计算包含在每个区域中的像素当中亮度小于阈值的像素的比例,并从训练数据中排除其中在多个区域中存在至少一个区域的该比例等于或大于预定值的变换后图像。
此外,例如,变换单元(按照第三实施例的图像变换单元13)从几何图像变换的变换目标中,排除其中第一边界框的区域存在于以输入图像的中心为中心的圆的区域之外的输入图像,该圆与输入图像的上边和下边或者输入图像的左边和右边接触。
此外,例如,按照本公开的学习装置(按照第一实施例的第一学习装置10)还包括设定单元(按照第一实施例的类设定单元11)。设定单元根据包含在指示一道工序的作业过程的作业过程文档中的关键字,设定多个对象的各个类。
按照上述配置,能够生成良好的学习后模型。
注意,记载在本说明书中的效果仅仅是例子,并不受限制,可以提供其他效果。
此外,公开的技术也可以采用以下配置。
(1)一种学习装置,包括:
变换单元,所述变换单元被配置成通过对包含手图像和针对对象设定的第一边界框的输入图像进行几何图像变换,生成作为几何图像变换之后的输入图像的变换后图像,所述手图像是进行产品制造作业的作业人员的手的图像;
校正单元,所述校正单元被配置成在变换后图像中设定第三边界框,所述第三边界框是通过校正包含在变换后图像中的第二边界框而获得的;和
学习单元,所述学习单元被配置成通过使用设定了所述第三边界框的变换后图像作为训练数据来进行机器学习,相对于包含手图像的判定目标图像生成学习后模型,所述学习后模型输出限定形成制造作业的一道工序的多个作业状态中的每个作业状态的多个对象。
(2)按照(1)所述的学习装置,其中
所述校正单元生成在四条边的相应边中包含所述第二边界框的四个顶点的相应顶点的矩形,并通过基于包含在所述矩形中的手图像来缩小所述矩形的面积,生成所述第三边界框。
(3)按照(2)所述的学习装置,其中
所述校正单元通过对包含在所述矩形中的手图像进行边缘检测来缩小所述矩形的面积。
(4)按照(2)或(3)所述的学习装置,其中
所述校正单元识别由所述第二边界框的外侧和所述第三边界框的内侧围绕的多个区域,计算包含在所述多个区域的每个区域中的像素当中亮度小于阈值的像素的比例,并从所述训练数据中排除其中所述多个区域中的至少一个区域的所述比例等于或大于预定值的变换后图像。
(5)按照(1)~(4)中任意一项所述的学习装置,其中
所述变换单元从几何图像变换的变换目标中,排除其中所述第一边界框的区域存在于以输入图像的中心为中心的圆的区域之外的输入图像,所述圆与输入图像的上边和下边或者输入图像的左边和右边接触。
(6)按照(1)~(5)中任意一项所述的学习装置,还包括:
设定单元,所述设定单元被配置成根据包含在指示一道工序的作业过程的作业过程文档中的关键字,设定所述多个对象的各个类。
(7)一种学习方法,包括:
通过对包含手图像和针对对象设定的第一边界框的输入图像进行几何图像变换,生成作为几何图像变换之后的输入图像的变换后图像,所述手图像是进行产品制造作业的作业人员的手的图像;
在变换后图像中设定第三边界框,所述第三边界框是通过校正包含在变换后图像中的第二边界框而获得的;和
通过使用设定了所述第三边界框的变换后图像作为训练数据来进行机器学习,相对于包含手图像的判定目标图像生成学习后模型,所述学习后模型输出限定形成制造作业的一道工序的多个作业状态中的每个作业状态的多个对象。
附图标记列表
1,2 作业管理系统
10 第一学习装置
20-1,20-2 作业管理装置
11 类设定单元
12,16,22,28,32 存储单元
13 图像变换单元
14 边界框校正单元
15 第一机器学习单元
17,33 输出单元
21,27 获取单元
23 对象检测单元
24,29 作业状态判定单元
25 工序管理单元
26 显示单元
30 第二学习装置
31 第二机器学习单元

Claims (7)

1.一种学习装置,包括:
变换单元,所述变换单元被配置成通过对包含手图像和针对对象设定的第一边界框的输入图像进行几何图像变换,生成作为几何图像变换之后的输入图像的变换后图像,所述手图像是进行产品制造作业的作业人员的手的图像;
校正单元,所述校正单元被配置成在变换后图像中设定第三边界框,所述第三边界框是通过校正包含在变换后图像中的第二边界框而获得的;和
学习单元,所述学习单元被配置成通过使用设定了所述第三边界框的变换后图像作为训练数据来进行机器学习,相对于包含手图像的判定目标图像生成学习后模型,所述学习后模型输出限定形成制造作业的一道工序的多个作业状态中的每个作业状态的多个对象。
2.按照权利要求1所述的学习装置,其中
所述校正单元生成在四条边的相应边中包含所述第二边界框的四个顶点的相应顶点的矩形,并通过基于包含在所述矩形中的手图像来缩小所述矩形的面积,生成所述第三边界框。
3.按照权利要求2所述的学习装置,其中
所述校正单元通过对包含在所述矩形中的手图像进行边缘检测来缩小所述矩形的面积。
4.按照权利要求2所述的学习装置,其中
所述校正单元识别由所述第二边界框的外侧和所述第三边界框的内侧围绕的多个区域,计算包含在所述多个区域的每个区域中的像素当中亮度小于阈值的像素的比例,并从所述训练数据中排除其中所述多个区域中的至少一个区域的所述比例等于或大于预定值的变换后图像。
5.按照权利要求1所述的学习装置,其中
所述变换单元从几何图像变换的变换目标中,排除其中所述第一边界框的区域存在于以输入图像的中心为中心的圆的区域之外的输入图像,所述圆与输入图像的上边和下边或者输入图像的左边和右边接触。
6.按照权利要求1所述的学习装置,还包括:
设定单元,所述设定单元被配置成根据包含在指示一道工序的作业过程的作业过程文档中的关键字,设定所述多个对象的各个类。
7.一种学习方法,包括:
通过对包含手图像和针对对象设定的第一边界框的输入图像进行几何图像变换,生成作为几何图像变换之后的输入图像的变换后图像,所述手图像是进行产品制造作业的作业人员的手的图像;
在变换后图像中设定第三边界框,所述第三边界框是通过校正包含在变换后图像中的第二边界框而获得的;和
通过使用设定了所述第三边界框的变换后图像作为训练数据来进行机器学习,相对于包含手图像的判定目标图像生成学习后模型,所述学习后模型输出限定形成制造作业的一道工序的多个作业状态中的每个作业状态的多个对象。
CN202080098643.8A 2020-03-24 2020-03-24 学习装置和学习方法 Pending CN115298691A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/012992 WO2021192028A1 (ja) 2020-03-24 2020-03-24 学習装置及び学習方法

Publications (1)

Publication Number Publication Date
CN115298691A true CN115298691A (zh) 2022-11-04

Family

ID=77891189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080098643.8A Pending CN115298691A (zh) 2020-03-24 2020-03-24 学习装置和学习方法

Country Status (3)

Country Link
EP (1) EP4099264B1 (zh)
CN (1) CN115298691A (zh)
WO (1) WO2021192028A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116862980B (zh) * 2023-06-12 2024-01-23 上海玉贲智能科技有限公司 图像边缘的目标检测框位置优化校正方法、系统、介质及终端

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5196425B2 (ja) 2008-03-07 2013-05-15 Kddi株式会社 サポートベクトルマシンの再学習方法
JP5889019B2 (ja) 2012-02-06 2016-03-22 キヤノン株式会社 ラベル付加装置、ラベル付加方法及びプログラム
JP6544900B2 (ja) 2014-09-17 2019-07-17 キヤノン株式会社 オブジェクト識別装置、オブジェクト識別方法及びプログラム
JP6608778B2 (ja) * 2016-08-01 2019-11-20 株式会社日立製作所 作業動作指示装置
KR102645202B1 (ko) * 2017-01-03 2024-03-07 한국전자통신연구원 기계 학습 방법 및 장치

Also Published As

Publication number Publication date
WO2021192028A1 (ja) 2021-09-30
EP4099264A4 (en) 2023-01-25
EP4099264B1 (en) 2024-04-24
EP4099264A1 (en) 2022-12-07

Similar Documents

Publication Publication Date Title
CN107358149B (zh) 一种人体姿态检测方法和装置
US11900316B2 (en) Information processing apparatus, control method, and program
US20180307911A1 (en) Method for the semantic segmentation of an image
CN109348731B (zh) 一种图像匹配的方法及装置
CN112560698B (zh) 图像处理方法、装置、设备和介质
US20240029273A1 (en) Information processing apparatus, control method, and program
CN110991261A (zh) 交互行为识别方法、装置、计算机设备和存储介质
CN110852233A (zh) 手部脱离方向盘的检测和训练方法、终端、装置、介质、系统
CN110751682A (zh) 一种提取和标识图像的方法、装置、终端设备及存储介质
CN112906794A (zh) 一种目标检测方法、装置、存储介质及终端
CN110866475A (zh) 手部脱离方向盘及图像分割模型训练方法、装置、终端、介质
CN111382637A (zh) 行人检测跟踪方法、装置、终端设备及介质
JP2013206458A (ja) 画像における外観及びコンテキストに基づく物体分類
US11443503B2 (en) Product analysis system, product analysis method, and product analysis program
CN111179340A (zh) 一种物体的定位方法、装置及计算机系统
Dörr et al. Tetrapacknet: Four-corner-based object detection in logistics use-cases
CN115298691A (zh) 学习装置和学习方法
CN115298626A (zh) 作业管理装置和作业状态判定方法
CN113255555A (zh) 中国交通标志牌识别方法、系统、处理设备及存储介质
EP3291179B1 (en) Image processing device, image processing method, and image processing program
CN112434582A (zh) 一种车道线颜色识别方法、系统、电子设备及存储介质
KR102597692B1 (ko) 영상을 이용한 물건 부피의 측정 장치, 방법, 및 컴퓨터 프로그램
CN115035129A (zh) 货物的识别方法、装置、电子设备和存储介质
JP7107544B2 (ja) 情報処理装置、制御方法、及びプログラム
Mary et al. FPGA-based detection and tracking system for surveillance camera

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination