CN109241907A - 标注方法、装置及电子设备 - Google Patents

标注方法、装置及电子设备 Download PDF

Info

Publication number
CN109241907A
CN109241907A CN201811024596.3A CN201811024596A CN109241907A CN 109241907 A CN109241907 A CN 109241907A CN 201811024596 A CN201811024596 A CN 201811024596A CN 109241907 A CN109241907 A CN 109241907A
Authority
CN
China
Prior art keywords
mark
lip
image
instruction
personnel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811024596.3A
Other languages
English (en)
Inventor
刘致远
乔非同
龙灏天
李广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN201811024596.3A priority Critical patent/CN109241907A/zh
Publication of CN109241907A publication Critical patent/CN109241907A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种标注方法、装置及电子设备,涉及图像处理的技术领域,该标注方法首先获取标注人员的唇部图像;然后对该唇部图像进行唇语识别,确定与该唇部图像匹配的标注指令;最后根据该标注指令,对当前的标注对象进行标注操作。通过图像处理的方式,对标注人员的唇部图像进行处理,从而识别出标注人员发出的唇语,并确定该唇语对应的标注指令,进而自动执行该标注指令。相比于键盘的快捷键控制,该方式可使标注人员以更加轻松、自然的交互方式,配合鼠标辅助进行标注,降低标注人员的学习成本,且标注人员通过唇语发出指令,不受坐姿及屏幕距离限制,更有利于标注人员的视力及身体健康。

Description

标注方法、装置及电子设备
技术领域
本申请涉及图像处理技术领域,尤其是涉及一种标注方法、装置及电子设备。
背景技术
数据标注即根据实际需求,人工为图片、视频和语音内容打标签、做标记。标注好的数据用于训练算法模型,然后应用到图像识别、语音识别等不同领域。标注数据作为模型的唯一来源,标注数据质量直接决定了模型推断的质量。通常来说,数据标注得越准确、数量越多,模型的效果就越好。
标注作为人工智能发展过程中数据提供的重要部分,是一项重复性强,机械性的工作。目前标注人员采用的标注方式以鼠标键盘为主,在标注过程中,鼠标用来画框、打点等操作,键盘则是通过快捷键的方式,对鼠标进行辅助。键盘快捷键需要标注人员进行记忆,当快捷键变多之后,标注人员的学习成本会很高。且标注人员在使用键盘操作时,一定程度上限定了坐姿以及离屏幕的距离。在长时间的标注任务下,这种操作方式会对标注人员视力以及身体造成损伤。
发明内容
有鉴于此,本申请的目的在于提供一种标注方法、装置及电子设备,以通过唇语识别的方式,降低标注人员的学习成本,并减小长期的键盘操作对标注人员视力及身体造成的损伤。
第一方面,本申请实施例提供了一种标注方法,包括:
获取标注人员的唇部图像;
对所述唇部图像进行唇语识别,确定与所述唇部图像匹配的标注指令;
根据所述标注指令,对当前的标注对象进行标注操作。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述获取标注人员的唇部图像包括:
获取图像采集装置采集的图像,对所述图像进行人脸检测;
若检测所述图像包含人脸,则从所述图像中获取标注人员的唇部图像。
结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述对所述唇部图像进行唇语识别,确定与所述唇部图像匹配的标注指令包括:
提取所述唇部图像中的唇部动作信息;
基于预先训练的唇语识别模型,对所述唇部动作信息进行唇语识别,得到对应的识别结果;
根据所述识别结果确定与所述唇部图像匹配的标注指令。
结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述唇语识别模型的训练过程包括:
获取不同年龄、不同性别、不同嘴形的唇语发出者对应的唇部图像样本;
基于所述唇部图像样本及预先标注的识别结果对预训练的模型进行训练,得到唇语识别模型。
结合第一方面,本申请实施例提供了第一方面的第四种可能的实施方式,其中,所述对所述唇部图像进行唇语识别,确定与所述唇部图像匹配的标注指令之后,还包括:
如果所述标注指令为空,则生成并显示指令错误的提示信息;
如果所述标注指令不为空,则显示所述标注指令。
结合第一方面,本申请实施例提供了第一方面的第五种可能的实施方式,其中,所述获取标注人员的唇部图像之前,还包括:
接收唇语辅助开启指令;
根据所述唇语辅助开启指令,开启图像采集装置,以对标注人员进行图像采集。
结合第一方面,本申请实施例提供了第一方面的第六种可能的实施方式,其中,所述标注指令包括标注正样本指令、标注负样本指令、放大指令、缩小指令、切换上一张指令、切换下一张指令以及撤销指令中的一种或者多种。
第二方面,本申请实施例还提供一种标注装置,包括:
图像获取模块,用于获取标注人员的唇部图像;
指令确定模块,用于对所述唇部图像进行唇语识别,确定与所述唇部图像匹配的标注指令;
标注操作模块,用于根据所述标注指令,对当前的标注对象进行标注操作。
第三方面,本申请实施例还提供一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面及其任一种可能的实施方式所述的方法。
第四方面,本申请实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行所述第一方面及其任一种可能的实施方式所述方法。
本申请实施例带来了以下有益效果:
在本申请实施例中,该标注方法首先获取标注人员的唇部图像;然后对该唇部图像进行唇语识别,确定与该唇部图像匹配的标注指令;最后根据该标注指令,对当前的标注对象进行标注操作。通过图像处理的方式,对标注人员的唇部图像进行处理,从而识别出标注人员发出的唇语,并确定该唇语对应的标注指令,进而自动执行该标注指令。相比于键盘的快捷键控制,该方式可使标注人员以更加轻松、自然的交互方式,配合鼠标辅助进行标注,降低标注人员的学习成本,且标注人员通过唇语发出指令,不受坐姿及屏幕距离限制,更有利于标注人员的视力及身体健康。
本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种标注方法的流程示意图;
图2为本申请实施例提供的标注过程中的示意图;
图3为本申请实施例提供的另一种标注方法的流程示意图;
图4为本申请实施例提供的一种标注过程的流程示意图;
图5为本申请实施例提供的一种标注装置的结构示意图;
图6为本申请实施例提供的另一种标注装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前在标注人员的标注过程中,一般通过键盘的快捷键操作,辅助鼠标进行标注;当键盘快捷键增多之后,标注人员记忆快捷键的学习成本会增高。且由于键盘操作一定程度上限定了坐姿以及离屏幕的距离,在长时间标注操作会对标注人员视力以及身体造成损伤。
基于此,本申请实施例提供的一种标注方法、装置及电子设备,可以通过图像处理的方式,对标注人员的唇部图像进行处理,从而识别出标注人员发出的唇语,并确定该唇语对应的标注指令,进而自动执行该标注指令。相比于键盘的快捷键控制,该方式可使标注人员以更加轻松、自然的交互方式,配合鼠标辅助进行标注,降低标注人员的学习成本,且标注人员通过唇语发出指令,不受坐姿及屏幕距离限制,更有利于标注人员的视力及身体健康。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种标注方法进行详细介绍。该方法可以适用于对图片、视频或者语音信息等数据的标注过程,可以通过相关硬件或者软件实现,如用于实现标注的电子设备,如电脑、平板或者手机。
图1示出了本申请实施例提供的一种标注方法的流程示意图。如图1所示,该标注方法包括:
步骤S101,获取标注人员的唇部图像。
可以通过在内部或者外部连接有图像采集装置的电子设备进行图像采集,该电子设备可用于数据标注。其中图像采集装置可以为摄像头、相机、摄像机或者其他带有拍照、摄像功能的装置。
例如参见图2,用于实现标注的电脑1设置或者连接有摄像头2,该摄像头可以用于拍摄进行标注任务的标注人员的唇部图像。其中该唇部图像可以是如bmp、jpg或png等格式图像。在进行标注任务时,对各个标注对象进行标注操作,标注对象可以是图片、视频及语音内容等。
步骤S102,对上述唇部图像进行唇语识别,确定与该唇部图像匹配的标注指令。
通过图像处理的方式,例如通过预先训练的神经网络模型,对上述唇部图像进行唇语识别,以确定标注人员发出的唇语。将该唇部图像对应的唇语与预先存储的标注指令匹配,确定出与该唇部图像匹配的标注指令。
例如,可以将唇语与标注指令预先进行关联匹配,以便于后续确定唇部图像对应的标注指令。如唇语“下一张”与标注指令“切换下一张”指令关联匹配;唇语“正样本”与标注指令“标注正样本”指令关联匹配。
步骤S103,根据上述标注指令,对当前的标注对象进行标注操作。
在步骤S102中确定了与获取的唇部图像相匹配的标注指令后,根据该标注指令,对当前的标注对应进行标注操作。例如当前的标注对象为图片,标注指令为“标注正样本”指令时,自动将该图片标注为正样本。
本申请实施例通过图像处理的方式,对标注人员的唇部图像进行处理,从而识别出标注人员发出的唇语,并确定该唇语对应的标注指令,进而自动执行该标注指令。相比于键盘的快捷键控制,该方式可使标注人员以更加轻松、自然的交互方式,配合鼠标辅助进行标注,降低标注人员的学习成本,且标注人员通过唇语发出指令,只需能够获得该标注人员的唇部图像即可,不受坐姿及屏幕距离限制,更有利于标注人员的视力及身体健康。
在以上实施例的基础上,本申请实施例提供了另一种标注方法的流程示意图。参见图3,该标注方法包括:
步骤S301,接收唇语辅助开启指令。
在一个的实施例中,标注人员可以在标注过程中,根据自己的实际需要确定是否启动唇语辅助功能。
例如可以在标注页面中设置唇语辅助功能对应的开启按钮,标注人员可以通过点击该开启按钮触发唇语辅助开启指令。
步骤S302,根据上述唇语辅助开启指令,开启图像采集装置,以对标注人员进行图像采集。
参见图2,本实施例以摄像头作为图像采集装置为例,进行说明。
在触发电子设备开启唇语识别功能后,该电子设备自动开启摄像头,进行拍照或者录像以采集图像。当然在其他实施例中,也可以提示标注人员手动开启图像采集装置,在此并不作为限定。
步骤S303,获取图像采集装置采集的图像,对该图像进行人脸检测。
作为图像采集装置的摄像头可以设置在用于进行数据标注的电子设备上,或者是电子设备外部,并与该电子设备建立通信连接。该摄像头可以周期性的对标注人员进行拍摄,或者是对该标注人员进行录像,以获取标注人员的图像。该图像可以是如bmp、jpg或png等格式中的任一种。
步骤S304,判断上述图像中是否包含人脸。
电子设备对摄像头拍摄的图像进行人脸检测,如果确定图像中不包含人脸时,执行步骤S305;如果确定在该图像中包含人脸,则执行步骤S306。
步骤S305,生成姿态调整的提示信息,以提示标注人员调整姿态或者是调整图像采集装置的采集角度。
例如可以在生成提示信息后进行计时,标注人员可以在预设时长内进行调整姿态或者摄像头的拍摄角度,达到预设时长后电子设备重新执行步骤S303,以重新进行图像获取。
步骤S306,从上述图像中获取标注人员的唇部图像。
在可能的实施例中,首先确定图像中的脸部轮廓;由于采集到的图像中各个像素点对应的色度值不同,可直接根据每一帧图像中的像素点的色度值分布得到每帧图像中的脸部轮廓。然后对脸部轮廓内的各个像素点的色度值与预存的人脸中各个像素点的色度值进行对比,从而确定每帧图像中的脸部位置。
由于眼部的像素点的灰度值小于脸部其他位置的灰度值,则可以根据各个像素点之间的灰度值确定眼部位置,根据眼部位置以及唇部位置之间的相对位置确定唇部区域,一般在眼部位置的下方以及在脸部的下三分之一处为唇部所在的区域。根据唇部区域中各个像素点的色度值确定了具体的唇部位置,进而获取标注人员的唇部图像。
步骤S307,提取上述唇部图像中的唇部动作信息。
在可能的实施例中,从唇部图像中选取口型为张嘴的图像作为有效唇部图像,然后基于每一帧有效唇部图像的唇形以及该每一帧有效唇部图像的前一帧或者多帧唇部图像的唇形,提取唇部动作信息。其中唇形的特征可以基于现有技术中的主动形状模型ASM(Active Shape Models)法、主动外观模型AAM(Active Appearance Model)法、主成分分析法(Principal Components Analysis)PCA、离散余弦变换法DCT(Discrete CosineTransform)等方法提取,在此不作限定。
步骤S308,基于预先训练的唇语识别模型,对上述唇部动作信息进行唇语识别,得到对应的识别结果。
在可能的实施例中,上述预先训练的唇语识别模型的训练过程包括:
(a1)获取不同年龄、不同性别、不同嘴形的唇语发出者对应的唇部图像样本。
其中该唇部图像样本可以是通过在实验过程中进行采集的,也可以是在标注过程中不断采集积累上报的,通过对各个用于数据标注的电子设备的图像获取,从而得到大量的唇部图像样本用于训练。上述唇部图像样本是连续的多帧图像。
(a2)基于上述唇部图像样本及预先标注的识别结果对预训练的模型进行训练,得到唇语识别模型。
将上述唇部图像样本作为预训练的模型的输入,将预先标注的唇语的识别结果作为预训练模型的输出,从而调节该预训练的模型的相关参数,直至预训练的模型的损失函数收敛,且测试准确率达到预设阈值,则输出最终的唇语识别模型。
在可能的实施例中,该识别结果为文字识别结果,其中该文字识别结果包括但不限于“下一张”、“正样本”、“负样本”、“上一张”及“撤销”等。
基于步骤(a1)和步骤(a2)获得的唇语识别模型,利用其卷积层和全连接层进行步骤S305中的唇部动作信息的提取,基于其输出层对提取的唇部动作信息直接进行唇语识别,从而确定最终的识别结果。
步骤S309,根据上述识别结果确定与唇部图像匹配的标注指令。
在可能的实施例中,上述标注指令包括标注正样本指令、标注负样本指令、放大指令、缩小指令、切换上一张指令、切换下一张指令以及撤销指令中的一种或者多种。
对于每一种标注指令均关联相应的识别结果,如标注正样本指令对应的识别结果为“正样本”,切换上一张指令对应的识别结果为“上一张”,撤销指令对应的识别结果为“撤销”。
步骤S310,根据上述与唇部图像匹配的标注指令,对当前的标注对象进行标注操作。
例如当前的标注对象为图片,标注指令为标注正样本指令时,自动将该图片标注为正样本。
以上实施例中描述的唇语的语言不受限定,可以为中文或者其他国家的语言,如当上述语言采用英文时,唇语“下一张”表示为“Next”,唇语“正样本”表示为“Positive”、唇语“负样本”表示为“Negative”、唇语“上一张”表示为“Last”及唇语“撤销”表示为“Revoke”。
为了便于确定上述匹配的标注指令是否正确,在可能的实施例中,在上述步骤S309之后,上述方法还包括:
(b1)如果上述标注指令为空,则生成并显示指令错误的提示信息;
如果根据唇部图像经过唇语识别模型后,确定识别结果为“非唇语指令”,则确定与唇部图像匹配的标注指令为空,此时说明标注人员发出的唇语有误,因此可以生成并显示指令错误的提示信息,以提示标注人员重新发出唇语。
(b2)如果上述标注指令不为空,则显示该标注指令。
如果标注指令不为空,可以以文字或者图片的形式显示该标注指令,以使标注人员确定其发出的唇语是否为实际需求的,如果不是,则可以撤销该标注指令。
另外考虑到图像采集装置采集的范围内出现多个人物的人脸,为了避免后续的标注干扰,可能的实施例中,在获取到包含人脸的图像后,执行步骤S306之前,还可以根据当前标注人员的登录信息及预先存储的人脸信息,进行脸部识别,以确定获取到的图像中的人脸是否与预先存储的人脸信息匹配。其中登录信息及人脸信息均关联有标注人员的标识信息,该标识信息可以但不限于为标注人员的工作编号。
如果人脸与预先存储的人脸信息匹配,则执行后续唇语识别的步骤;如果不匹配则确定获取到的图像中不包含当前的标注人员的人脸,重新通过图像采集装置获取图像。通过该方式可以有效降低在拍摄到非标注人员的脸部图像时造成的标注干扰。
为了便于对该标注方法的实际应用进行了解,本申请实施例提供了一种在实际应用中,标注人员进行标注的流程示意图。如图4所示,标注对象以图片为例,该标注过程如下:
标注人员开始标注任务后,开启唇语辅助功能,并选择对应的标注任务类型。其中标注任务类型可以但不限于包括二分类任务和框选任务,结合图4中以这两种标注任务为例。
二分类任务:
在电子设备的显示屏显示图片后,如果是二分类任务,标注人员对该图片进行分类,即判断该图片是正样本或者是负样本。如果该图片是正样本,则标注人员会发出唇语“正样本”,由于“正样本”对应的标注指令为标注正样本,电子设备自动将该图片标注为正样本;如果该图片为负样本,则标注人员会发出唇语“负样本”,由于“负样本”对应的标注指令为标注正样本,电子设备自动将该图片标注为负样本。在标注完成后,电子设备直接切换下一张图片并进行显示。
如果标注人员向翻看上一张图像的标注情况,则发出唇语“上一张”,由于“上一张”对应的标注指令为切换上一张,电子设备自动将切换上一张图片并进行显示,然后由标注人员进行图像分类。
框选任务:
在电子设备的显示屏显示图片后,如果是框选任务,标注人员判断图片中是否存在指定物体需要标注,如果图片中不存在指定物体或者指定物体不清晰,则发出唇语“下一张”,由于“下一张”对应的标注指令为切换下一张,此时电子设备会自动检测当前图片的标注结果,由于当前图像的标注结果为空,则直接标注该当前图片为无效图片,并切换至下一张图片并进行显示。
如果图片中存在指定物体,标注人员确定该指定物体的大小是否合适,如果指定物体大小合适,则使用鼠标框出该指定物体并确定标注完成,发出唇语“下一张”,由于“下一张”对应的标注指令为切换下一张,此时电子设备自动检测当前图片的标注结果,由于当前图片的标注结果不为空,则直接切换至下一张图片并进行显示。如果上述指定物体太小,标注人员发出唇语“放大”,由于“放大”对应的标注指令为放大指令,电子设备按照预设比例(如50%)放大图片。如果指定物体仍然太小则继续放大,如果指定物体大小合适,则按照上面的描述进行框选标注即可。
其中图片放大方式但不限于包括以下两种,一种为以当前鼠标所在位置为中心点进行放大,另一种为以显示屏的几何中心为中心点进行放大。当采用以鼠标为中心的方式放大时,只要将鼠标放在指定物体上,那么该指定物体会一直在显示屏的显示范围内。而在以显示屏为中心进行放大时,则可能在放大之后,指定物体不在显示屏的显示范围之内,需要标注人员利用鼠标进行拖动操作。
需要说明的是,图4中所示的标注过程仅为示例性的,并不作为具体流程的限定,具体流程以实际标注过程中的标注对象而定。
综上所述,本申请实施例借助图像采集装置的普及性,通过图像处理的方式,对标注人员的唇部图像进行处理,从而识别出标注人员发出的唇语,并确定该唇语对应的标注指令,进而自动执行该标注指令。相比于键盘的快捷键控制,该方式可使标注人员以更加轻松、自然的交互方式,配合鼠标辅助进行标注,在保证标注效率的同时,降低标注人员的学习成本,且标注人员通过唇语发出指令,只需能够获得该标注人员的唇部图像即可,不受坐姿及屏幕距离限制,更有利于标注人员的视力及身体健康。
针对于上述实施例描述的标注方法,参见图5,本申请实施例提供了一种标注装置,该装置包括:
图像获取模块11,用于获取标注人员的唇部图像;
指令确定模块12,用于对所述唇部图像进行唇语识别,确定与所述唇部图像匹配的标注指令;
标注操作模块13,用于根据所述标注指令,对当前的标注对象进行标注操作。
进一步地,上述图像获取模块11,还用于:
获取图像采集装置采集的图像,对该图像进行人脸检测;
若检测上述图像包含人脸,则从该图像中获取标注人员的唇部图像。
进一步地,上述指令确定模块12,还用于:
提取上述唇部图像中的唇部动作信息;
基于预先训练的唇语识别模型,对该唇部动作信息进行唇语识别,得到对应的识别结果;
根据上述识别结果确定与上述唇部图像匹配的标注指令。
进一步地,参见图6,上述装置还包括模型训练模块14,该模型训练模块14用于:
获取不同年龄、不同性别、不同嘴形的唇语发出者对应的唇部图像样本;
基于上述唇部图像样本及预先标注的识别结果对预训练的模型进行训练,得到唇语识别模型。
进一步地,上述装置还包括信息显示模块15,该信息显示模块15用于:
当上述标注指令为空时,生成并显示指令错误的提示信息;
当上述标注指令不为空时,显示该标注指令。
进一步地,上述装置还包括唇语辅助开启模块16,该唇语辅助开启模块16用于:
接收唇语辅助开启指令;
根据上述唇语辅助开启指令,开启图像采集装置,以对标注人员进行图像采集。
进一步地,上述标注指令包括标注正样本指令、标注负样本指令、放大指令、缩小指令、切换上一张指令、切换下一张指令以及撤销指令中的一种或者多种。
本申请实施例通过图像处理的方式,对标注人员的唇部图像进行处理,从而识别出标注人员发出的唇语,并确定该唇语对应的标注指令,进而自动执行该标注指令。相比于键盘的快捷键控制,该方式可使标注人员以更加轻松、自然的交互方式,配合鼠标辅助进行标注,降低标注人员的学习成本,且标注人员通过唇语发出指令,只需能够获得该标注人员的唇部图像即可,不受坐姿及屏幕距离限制,更有利于标注人员的视力及身体健康。
参见图7,本申请实施例还提供一种电子设备100,包括:处理器40,存储器41,总线42和通信接口43,所述处理器40、通信接口43和存储器41通过总线42连接;处理器40用于执行存储器41中存储的可执行模块,例如计算机程序。
其中,存储器41可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线42可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器41用于存储程序,所述处理器40在接收到执行指令后,执行所述程序,前述本申请实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器40中,或者由处理器40实现。
处理器40可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器40中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器40可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41,处理器40读取存储器41中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的标注装置及电子设备,与上述实施例提供的标注方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本申请实施例所提供的进行标注方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置及电子设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
附图中的流程图和框图显示了根据本申请的多个实施例方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种标注方法,其特征在于,包括:
获取标注人员的唇部图像;
对所述唇部图像进行唇语识别,确定与所述唇部图像匹配的标注指令;
根据所述标注指令,对当前的标注对象进行标注操作。
2.根据权利要求1所述的方法,其特征在于,所述获取标注人员的唇部图像包括:
获取图像采集装置采集的图像,对所述图像进行人脸检测;
若检测所述图像包含人脸,则从所述图像中获取标注人员的唇部图像。
3.根据权利要求1所述的方法,其特征在于,所述对所述唇部图像进行唇语识别,确定与所述唇部图像匹配的标注指令包括:
提取所述唇部图像中的唇部动作信息;
基于预先训练的唇语识别模型,对所述唇部动作信息进行唇语识别,得到对应的识别结果;
根据所述识别结果确定与所述唇部图像匹配的标注指令。
4.根据权利要求3所述的方法,其特征在于,所述唇语识别模型的训练过程包括:
获取不同年龄、不同性别、不同嘴形的唇语发出者对应的唇部图像样本;
基于所述唇部图像样本及预先标注的识别结果对预训练的模型进行训练,得到唇语识别模型。
5.根据权利要求1所述的方法,其特征在于,所述对所述唇部图像进行唇语识别,确定与所述唇部图像匹配的标注指令之后,还包括:
如果所述标注指令为空,则生成并显示指令错误的提示信息;
如果所述标注指令不为空,则显示所述标注指令。
6.根据权利要求1所述的方法,其特征在于,所述获取标注人员的唇部图像之前,还包括:
接收唇语辅助开启指令;
根据所述唇语辅助开启指令,开启图像采集装置,以对标注人员进行图像采集。
7.根据权利要求1所述的方法,其特征在于,所述标注指令包括标注正样本指令、标注负样本指令、放大指令、缩小指令、切换上一张指令、切换下一张指令以及撤销指令中的一种或者多种。
8.一种标注装置,其特征在于,包括:
图像获取模块,用于获取标注人员的唇部图像;
指令确定模块,用于对所述唇部图像进行唇语识别,确定与所述唇部图像匹配的标注指令;
标注操作模块,用于根据所述标注指令,对当前的标注对象进行标注操作。
9.一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1至7任一项所述的方法。
CN201811024596.3A 2018-09-03 2018-09-03 标注方法、装置及电子设备 Pending CN109241907A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811024596.3A CN109241907A (zh) 2018-09-03 2018-09-03 标注方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811024596.3A CN109241907A (zh) 2018-09-03 2018-09-03 标注方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN109241907A true CN109241907A (zh) 2019-01-18

Family

ID=65060407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811024596.3A Pending CN109241907A (zh) 2018-09-03 2018-09-03 标注方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN109241907A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110865756A (zh) * 2019-11-12 2020-03-06 苏州智加科技有限公司 图像标注方法、装置、设备及存储介质
CN111259728A (zh) * 2019-12-20 2020-06-09 中译语通文娱科技(青岛)有限公司 一种视频图像信息标注方法
CN113460067A (zh) * 2020-12-30 2021-10-01 安波福电子(苏州)有限公司 一种人车交互系统
WO2021196648A1 (zh) * 2020-03-31 2021-10-07 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102841676A (zh) * 2011-06-23 2012-12-26 鸿富锦精密工业(深圳)有限公司 网页浏览控制系统及方法
EP2889804A1 (en) * 2013-12-30 2015-07-01 Alcatel Lucent Systems and methods for contactless speech recognition
CN104808794A (zh) * 2015-04-24 2015-07-29 北京旷视科技有限公司 一种唇语输入方法和系统
CN107045385A (zh) * 2016-08-01 2017-08-15 深圳奥比中光科技有限公司 基于深度图像的唇语交互方法以及唇语交互装置
CN107067025A (zh) * 2017-02-15 2017-08-18 重庆邮电大学 一种基于主动学习的数据自动标注方法
CN107702273A (zh) * 2017-09-20 2018-02-16 珠海格力电器股份有限公司 空调控制方法和装置
CN108428453A (zh) * 2018-03-27 2018-08-21 王凯 一种基于唇语识别的智能终端操控系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102841676A (zh) * 2011-06-23 2012-12-26 鸿富锦精密工业(深圳)有限公司 网页浏览控制系统及方法
EP2889804A1 (en) * 2013-12-30 2015-07-01 Alcatel Lucent Systems and methods for contactless speech recognition
CN104808794A (zh) * 2015-04-24 2015-07-29 北京旷视科技有限公司 一种唇语输入方法和系统
CN107045385A (zh) * 2016-08-01 2017-08-15 深圳奥比中光科技有限公司 基于深度图像的唇语交互方法以及唇语交互装置
CN107067025A (zh) * 2017-02-15 2017-08-18 重庆邮电大学 一种基于主动学习的数据自动标注方法
CN107702273A (zh) * 2017-09-20 2018-02-16 珠海格力电器股份有限公司 空调控制方法和装置
CN108428453A (zh) * 2018-03-27 2018-08-21 王凯 一种基于唇语识别的智能终端操控系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110865756A (zh) * 2019-11-12 2020-03-06 苏州智加科技有限公司 图像标注方法、装置、设备及存储介质
CN110865756B (zh) * 2019-11-12 2022-07-15 苏州智加科技有限公司 图像标注方法、装置、设备及存储介质
CN111259728A (zh) * 2019-12-20 2020-06-09 中译语通文娱科技(青岛)有限公司 一种视频图像信息标注方法
WO2021196648A1 (zh) * 2020-03-31 2021-10-07 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN113460067A (zh) * 2020-12-30 2021-10-01 安波福电子(苏州)有限公司 一种人车交互系统

Similar Documents

Publication Publication Date Title
CN109241907A (zh) 标注方法、装置及电子设备
CN110602527B (zh) 视频处理方法、装置及存储介质
CN111047526B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN105653032B (zh) 显示调整方法及装置
CN108304819B (zh) 姿态识别系统及方法、存储介质
CN106791262A (zh) 图文采集识别装置
CN109637286A (zh) 一种基于图像识别的口语训练方法及家教设备
CN110516672A (zh) 卡证信息识别方法、装置及终端
EP3040884B1 (en) Method and device for classifying pictures
CN112037788B (zh) 一种语音纠正融合方法
CN106980840A (zh) 脸型匹配方法、装置及存储介质
CN107145859A (zh) 电子书转换处理方法、装置及计算机可读存储介质
CN107820017A (zh) 图像拍摄方法、装置、计算机可读存储介质和电子设备
JP2011095862A (ja) 画像処理装置、画像処理方法、及びプログラム
EP3975046A1 (en) Method and apparatus for detecting occluded image and medium
CN107247936A (zh) 图像识别方法及装置
CN105205482A (zh) 快速人脸特征识别及姿态估算方法
US11819996B2 (en) Expression feedback method and smart robot
CN111144101B (zh) 错别字处理方法和装置
CN106485246B (zh) 字符识别方法及装置
CN111881740A (zh) 人脸识别方法、装置、电子设备及介质
CN109961452A (zh) 照片的处理方法、装置、存储介质及电子设备
CN109298783A (zh) 基于表情识别的标注监控方法、装置及电子设备
CN110084235A (zh) 基于兴趣点的信息采集方法、装置和采集设备
US20240048842A1 (en) Assisted image capturing methods and apparatuses for pets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190118