CN108369640B - 用于调适捕获图像的方法及装置 - Google Patents

用于调适捕获图像的方法及装置 Download PDF

Info

Publication number
CN108369640B
CN108369640B CN201680073318.XA CN201680073318A CN108369640B CN 108369640 B CN108369640 B CN 108369640B CN 201680073318 A CN201680073318 A CN 201680073318A CN 108369640 B CN108369640 B CN 108369640B
Authority
CN
China
Prior art keywords
scene
image
captured
user command
predetermined user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680073318.XA
Other languages
English (en)
Other versions
CN108369640A (zh
Inventor
A·埃罗南
J·莱佩宁
A·莱蒂尼米
K·罗伊梅拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN108369640A publication Critical patent/CN108369640A/zh
Application granted granted Critical
Publication of CN108369640B publication Critical patent/CN108369640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Studio Devices (AREA)
  • Television Signal Processing For Recording (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

一种方法,其包括:处理场景的记录以识别在场景内执行的预定用户命令事件;以及根据在场景内执行的预定用户命令事件的所述识别,自动控制场景的捕获图像的图像处理以调适捕获图像。

Description

用于调适捕获图像的方法及装置
技术领域
本发明的实施例涉及用于控制场景的捕获图像的图像处理以调适捕获图像的方法、装置或计算机程序。
背景技术
目前,视频捕获通常涉及通过狭窄的视场来捕获视频,因此,需要操作者适当地对准相机以在特定时间记录场景的特定部分。编辑者可以编辑所记录的视频。然后,无论是否被编辑,所记录的视频被呈现给观看者。观看者所看到的受限于操作者在何时将相机对准何处。
如果视频是由一个或多个相机通过更宽广的视场而捕获的,则可能不需要相机的对准或精确对准,然而,由于更宽广的视场,可能会记录场景中的不期望的部分。
发明内容
根据本发明的各种但并非全部实施例,提供一种方法,其包括:处理场景的记录以识别在场景内执行的预定用户命令事件;以及根据在场景内执行的预定用户命令事件的所述识别,自动控制场景的捕获图像的图像处理以调适捕获图像。
一种装置,其包括:至少一个处理器;以及包括计算机程序代码的至少一个存储器,至少一个存储器和计算机程序代码被配置为与至少一个处理器一起,使所述装置至少执行所述方法。
一种计算机程序,其在计算机上运行时执行所述方法。
一种装置,其包括用于执行所述方法的装置。
根据本发明的各种但并非全部实施例,提供如所附权利要求中所述的示例。
附图说明
为了更好地理解有助于理解简要说明的各种示例,现在将仅以示例的方式参照附图,其中:
图1A和1B示出场景、记录该场景的图像的相机装置和在所记录的场景中执行用户命令事件的用户;
图2示出所述方法的示例;
图3示出所述方法的示例,其中,用于识别的记录包括音频;
图4示出所述方法的示例,其中,用于识别的记录包括至少一个图像;
图5示出具有启动阶段的所述方法的示例;
图6A、图6B、图6C示出图像处理如何被控制以调适捕获图像的示例;
图7A、图7B、图7C示出图像处理如何被控制以调适捕获图像以移除对象的示例;
图8A、图8B、图8C和图8D、图8E、图8F示出图像处理如何被控制以调适捕获视频以移除移动对象的示例;
图9A、图9B、图9C和图9D、图9E、图9F示出图像处理如何被控制以调适捕获图像以保持图像的一部分不变的示例;
图10A和图10B示出其中由用户在场景内执行的预定用户命令事件定义用于在图9A-9F中保持不变的图像的一部分的自动定义的准则的示例;
图11示出相机装置100的示例;
图12示出适用于执行所述方法或所述方法的部分的控制器的示例;
图13示出数据载体的示例。
具体实施方式
一般而言,以下附图示出了方法200的示例,其包括:处理220场景10的记录212以识别在场景10内执行的预定用户命令事件22;以及根据预定用户命令事件22的所述识别,自动控制222场景10的捕获图像214的图像处理230以调适捕获图像214。
图1A示出了在第一时间t1的场景10,而图1B示出了在随后的第二时间t2的场景10。相机装置100记录场景的图像214。例如,相机装置100可以记录场景10的单个图像、一系列图像或视频。
在图1B中,用户20在时间t2执行用户命令事件22。在该示例中,用户20执行诸如执行姿势的动作,然而在其它示例中,用户20可以讲话或者制造一个或多个噪声。术语“用户命令事件22”描述了由用户20为了发出命令的目的而在场景10中引发的一个或多个事件。用户命令事件22在如下的意义上是预定的:它具有可被识别并且在必要时可以与其它用户命令事件22消除歧义的定义形式。
参考图2,示出了方法200的示例。
在框210,场景10被记录以创建场景10的记录212。
在框220,场景10的记录212被处理以识别由用户20在场景10内执行的预定用户命令事件22。
在一些示例中,识别可能需要由用户20在场景10内执行的预定用户命令事件22与用户命令事件22之间的匹配对应。
在一些但并非全部示例中,识别可能额外需要对用户20和/或场景10的某些方面进行识别。
在一些但并非全部示例中,框220能够识别由用户20在场景10内执行的多个不同的预定用户命令事件22,并且能够消除多个不同的预定用户命令事件22的歧义。
根据预定用户命令事件22的所述识别,框220自动控制222在框230的场景10的捕获图像214的图像处理以调适捕获图像214。
例如,捕获图像214可以是场景10的单个捕获图像、一系列捕获图像或视频。场景10的记录212可以由不同的相机记录。场景10的记录212可以从不同的位置、视点、视场等记录。记录212可以是通过将来自若干相机的静止图像或视频拼接在一起而创建的拼接全景图像或视频。例如,捕获图像214可以由记录场景10以创建场景10的记录212的框210来提供。
根据预定用户命令事件22的所述识别,对场景10的捕获图像214进行图像处理230以调适捕获图像214在框230发生。
在图3的示例中,在框210制作的场景10的记录212至少包括场景10的音频记录。场景10的记录212可以由不同的麦克风记录。
在框220,场景10的记录212被处理以识别由用户20在场景10内执行的预定用户命令事件22。对场景10的记录212进行处理以识别由用户20在场景10内执行的预定用户命令事件22至少包括音频分析。适用的音频分析的示例可以包括语音识别和/或频谱分量分析。在一些示例中,识别可能需要由用户20在场景10内执行的预定音频用户命令事件22与音频用户命令事件22之间的匹配对应。
在图4的示例中,在框210制作的场景10的记录212至少包括场景10的图像记录,例如,场景10的记录212可以是场景10的单个图像、一系列图像或视频。场景10的图像记录212可以由不同的相机记录。场景10的图像记录212可以从不同的位置、视点、视场记录。图像记录212可以是通过将来自若干相机的静止图像或视频拼接在一起而创建的拼接全景图像或视频。
在框220,场景10的记录212被处理以识别由用户20在场景10内执行的预定用户命令事件22。
对场景10的记录212进行处理以识别由用户20在场景10内执行的预定用户命令事件22可以包括图像分析。适用的图像分析的示例可以包括计算机视觉分析,例如,图像特征提取和所提取的特征的模式匹配或其它方法。在一些示例中,识别可能需要由用户20在场景10内执行的预定图像用户命令事件22与图像用户命令事件22之间的匹配对应。
捕获图像214例如可以由框210来提供。在一些但并非全部示例中,用于识别的场景10的图像记录212也可被用作在框230通过处理而被调适的场景10的捕获图像214。捕获图像214例如可以是场景10的单个捕获图像、一系列捕获图像或视频。
参考图3,在一些但并非全部示例中,场景10的记录212可以附加地包括场景10的图像记录,例如,场景10的记录212可以是场景10的单个图像、一系列图像或视频。因此,场景10的记录212可以是视听(audio-visual)记录。
用于识别的场景10的图像记录(如果有的话)可以提供在框230通过处理而被调适的场景10的捕获图像214。
在框220,场景10的记录212被处理以识别由用户20在场景10内执行的预定用户命令事件22。例如参考图4所描述的,对场景10的记录212进行处理以识别由用户20在场景10内执行的预定用户命令事件22可以附加地包括图像分析。
参考图4,在一些但并非全部示例中,场景10的记录212可以附加地包括场景10的音频记录,例如,场景10的记录212可以是视听记录。
在框220,场景10的记录212被处理以识别由用户20在场景10内执行的预定用户命令事件22。例如参考图3所描述的,对场景10的记录212进行处理以识别由用户20在场景10内执行的预定用户命令事件22可以附加地包括音频分析。
参考图3和图4,在一些但并非全部示例中,识别可能额外需要对用户20和/或场景10的某些方面进行识别。适用的面部识别分析的示例例如包括面部特征提取和主分量分析。
图5示出了方法200的示例。
最初在框240,根据邻近用户事件检测和/或用户动作识别和/或用户身份识别,场景10的记录被处理以识别用户启动事件。
场景10的记录可以是(仅)音频记录、(仅)图像记录或包括图像和音频的视听记录。图像记录可以包括场景10的单个图像、一系列图像或视频。场景10的图像记录可以由不同的相机记录。场景10的图像记录可以从不同的位置、视点、视场记录。图像记录可以是通过将来自若干相机的静止图像或视频拼接在一起而创建的拼接全景图像或视频。
术语“用户启动事件”描述了为了使得能够发出一个或多个命令的目的而由用户20在场景10中引发的一个或多个事件。用户启动事件在如下的意义上可被预定:它具有可被识别并且在必要时可以与其它事件消除歧义的定义形式。
邻近用户事件检测需要确定所检测的事件是否在距离阈值内发生,例如,在相机装置100的距离阈值内。
深度传感器可被用于检测到用户20的距离。
用户动作识别需要将所检测的事件识别为预定的用户动作,例如,诸如由用户20执行的姿势和/或声音等的预定的动作。
用户身份识别需要将所检测的事件识别为由特定用户20执行。例如,其可以使用人脸识别技术。
然后,在用户启动事件的识别之后,方法200包括在框220处理场景10的记录212以识别在场景10内执行的预定用户命令事件22。
然后,在框230,方法200包括根据预定用户命令事件22的所述识别,自动控制222场景10的捕获图像214的图像处理230以调适捕获图像214。
在下面参考图6至图10更详细地解释根据预定用户命令事件22的所述识别,对场景10的捕获图像214进行图像处理230以调适捕获图像214的示例。
在框230,根据预定用户命令事件22的所述识别,对场景10的捕获图像214进行图像处理以调适捕获图像214可以包括:根据预定用户命令事件22的所述识别,对场景10的多个所捕获的单个图像214进行图像处理230以调适多个所捕获的单个图像214。
多个所捕获的单个图像214例如可以是视频的连续的图像帧。
场景10的多个所捕获的单个图像214可以在用于识别在场景10内执行的预定用户命令事件22的场景10的记录212之前和/或期间和/或之后被捕获。
场景10的多个捕获图像214中的一个或多个可已被用作用于识别在场景10内执行的预定用户命令事件22的场景10的记录212的至少一部分。根据预定用户命令事件22的所述识别,一起构成多个所捕获的单个图像214的那些图像和其它图像被调适。
多个图像可以表示视频内的有限时间段。
根据预定用户命令事件22的所述识别而被调适的多个所捕获的单个图像214可以是视频内的连续时段。
有限时间段可以基于图像处理而被调适。例如,其可以只在需要进行图像处理时发生。例如,其可以在用户20正在对相机装置100进行调整时发生以遮蔽用户20。
例如,可以在有限时间段的开始和结束处提供过渡效果。例如,淡出可以在开始处发生,而淡入在结束处发生。淡出和/或淡入的定时可以通过图像分析来确定。例如,如果对象当前在操作的视场之外,即,只有它没有呈现给观看者,则可只淡出和/或淡入该对象。
图像处理可以包括从场景10的捕获图像214中移除和替换内容,以创建调适后的场景10的捕获图像。
如图6A、图6B、图6C中所示,根据在场景10内执行的预定用户命令事件22的所述识别,自动控制场景10的捕获图像214的图像处理以调适捕获图像214例如可以包括控制以下的处理:
在第一时间捕获的场景10的第一图像2141,其中,场景10的特定部分2311在所捕获的第一图像2141中具有第一状态A(第一内容);以及
在第二时间捕获的场景10的第二图像2142,其中,与在所捕获的第一图像2141中的场景10的特定部分2311相对应的场景的特定部分2312在所捕获的第二图像2142中具有第二状态B(第二内容);
其中,场景10的特定部分231在第一状态与第二状态(不同的内容)之间变化,以生成第三图像2143,其包括调适后的场景10的第二图像2142,以使得第二图像2142的特定部分2312在调适后的所捕获的第二图像2143中具有第一状态A(第一内容),而不具有场景10的第二图像2142的第二状态B(第二内容)。
将在第三图像2143中来自第一图像2141的具有第一状态A(第一内容)的特定部分2313的边界216与具有第二状态B的场景10的第二图像2142的限定部分2312相融合,以使得在原始第二图像2142与来自第一图像2141的对应部分2311的调适后的第二图像2143中的替换部分2311之间的过渡例如在正常分辨率下对人眼不可见。
第三图像2143包括具有用于场景10的特定部分2312的替换图像部分2313的场景10的第二图像2142,替换图像部分2313取决于在第一图像2141中捕获的场景的对应特定部分2311
所述方法可以使能特定部分231的用户选择或使能特定部分231的自动选择。
例如,由用户20在场景10内执行的预定用户命令事件22可以定义特定部分231。预定用户命令事件22例如可以选择并登记用于移除的对象,例如,操作者、装备、用户20和用户20正携带的任何装备。可替代地,预定用户命令事件22例如可以选择场景10的一部分,并将其登记为静态的并且不在后续图像中被改变或更新。这创建了一个静态区域,装备和操作者可以位于该静态区域中而不会出现在所处理的图像中。
例如,由用户20在场景10内执行的预定用户命令事件22可以定义用于特定部分231的自动定义的准则。例如,它可以限定进入场景10的新对象被移除或者在特定的点(例如,通过特定的门)进入场景10的新物体被移除。
图7A、图7B、图7C示出了在框230发生的图像处理的示例。根据在场景10内执行的预定用户命令事件22的所述识别,自动控制场景10的捕获图像214的图像处理以调适捕获图像214例如可以包括控制以下的处理:
在第一时间捕获的场景10的第一图像2141,其中,场景10的特定部分2311未被遮挡(遮蔽);
在第二时间捕获的场景10的第二图像2142,其中,场景10的特定部分2312至少部分地被遮挡(遮蔽);
以生成第三图像2143,其包括调适后的场景10的第二图像2142,以使得第二图像2142中的场景10的至少部分被遮挡(遮蔽)部分2312被未被遮挡(遮蔽)的第一图像2141中的场景10的相同部分2311替换。
在该示例中,遮挡(遮蔽)由前景对象250引起。在框230的处理从场景10的第二图像2142中移除对象250。
预定用户命令事件22可以指示用于移除的一个或多个对象250中的至少一个。被移除的对象250中的至少一个可以是至少在执行用户命令事件22时的用户20。
图8A、图8B、图8C示出了在框230针对视频的图像帧而发生的图像处理230的示例。图8A、图8B、图8C示出了在框230针对视频的下一个图像帧而发生的图像处理的示例。图8D、图8E、图8F示出了在框230针对视频的下一个图像帧而发生的图像处理的示例。针对图7A、图7B、图7C描述的方法也可适用于图8A、图8B、图8C,并且也可适用于图8D、图8E、图8F。
如在视频7B、8B、8E的连续的帧中所示,对象250移动通过场景10并且出现在图7B、8B、8E中的场景10的第二图像2142中的不同位置处。
如在调适后的视频7C、8C、8F的连续的帧中所示,移动通过场景10的对象250已被移除,图像的相关部分2312用来自另一个图像(图7A,8A,8D)的不包括对象250的对应部分2311进行替换。
对象250在其移动通过场景10时被跟踪,并且被移除。
图9A、图9B、图9C示出了在框230发生的图像处理230的替代示例。在框230,根据在场景10内执行的预定用户命令事件22的所述识别,自动控制场景10的捕获图像214的图像处理230以调适捕获图像214例如可以包括控制以下的处理:
场景10的第一图像2141,其中,场景10的特定部分2311具有第一内容;以及
场景10的第二图像2142,其中,与第一图像2141中的场景10的特定部分2311相对应的场景10的特定部分2312具有与第一内容不同的第二内容;
以生成第三图像2143,其包括调适后的场景10的第二图像2142,以使得第二图像2142中的包括第二内容的场景10的特定部分2312被第一图像2141中的包括第一内容的场景10的相同特定部分2311替换。因此,第一内容是静态的并且不会改变。尽管在场景10的捕获图像2142中发生改变或被不同的对象250遮蔽,但特定部分2311及其第一内容在处理后的图像2143中得以受保护不改变,只要特定部分2311位于受保护的图像区域260内。
图9D、图9E、图9F示出了在框230发生的图像处理230的替代示例。这些附图与图9A、图9B、图9C相类似并且所述方法类似。这些附图具有相同的受保护区域260,但不同之处在于,与图9A、图9B、图9C相比,特定部分231在图9D、图9E、图9F中的位置不同和/或形状不同,因为与第二图像2142(图9E)相比,对象250在第二图像2142(图9B)中的大小不同并且位置不同。
图10A和图10B示出了其中由用户20在场景10内执行的预定用户命令事件22定义用于特定部分231的自动定义的准则的示例。
在该示例中,它限定在特定的点(例如,通过特定门的272)进入场景10的新对象250被移除。
图10A示出了在框230的处理之后的场景10的图像2143,无论人是否通过门272进入。
图10B示出了当人通过门272进入时所捕获的场景10的图像2142
所述方法识别人或对象何时通过门272或者其它区域或图像边界进入,然后,如参考图8A-8F所描述的跟踪并移除该对象。
图11示出了例如在图1A、图1B中示出的相机装置100的示例。在该示例中,相机装置100具有被布置有重叠视场的多个相机102。重叠视场创建大于一个相机102的视场的有效视场。相对于一个或多个正交轴,例如,球坐标系中的方位角和极轴或者笛卡尔坐标系中的x轴和y轴,有效视场可以大于100°、120°、180°、270°,甚至可以是360°。
相机102的每个视场定义图像214。重叠视场定义具有有效视场的全景图像214。
在前面的描述中,对图像214的提及包括对狭窄视场图像和/或宽广/全景视场图像的提及。
宽广/全景视场图像可以在介导现实显示设备(例如,增强现实显示设备)中进行呈现。
宽广/全景视场图像可以是例如来自不同的相机的一系列图像,其尚未被组合(拼接)成单个图像但被解释为全景图像。
宽广/全景视场图像可以是例如来自不同的相机的一系列图像,其已经被组合(拼接)成单个图像。
一系列图像中的图像可以从不同的位置、视点、视场等记录。
图像可以是单个图像、一系列图像或视频。
图像可以是二维图像或三维图像。在三维图像的情况下,可以使用深度数据分析方法,诸如基于深度信息来分割对象,或者通过分析深度数据来识别人/对象。深度数据可以通过分析来自多个图像传感器或者来自例如基于使用立体相机来检测反射投影红外模式的专用深度传感设备的图像数据而获得。
图12示出了适用于执行方法100和方法200的框240、220、230中的任何一个或多个的控制器302的示例。
控制器302的实现可以是作为控制器电路。控制器302可单独采用硬件实现,可具有采用包括固件的软件的某些方面,或者可以是硬件和软件(包括固件)的组合。
如图12中所示,控制器302可使用使能硬件功能的指令来实现,例如,通过在通用或专用处理器310中使用可被存储在计算机可读存储介质(磁盘、存储器等)上以由这样的处理器310执行的可执行计算机程序指令340,计算机程序指令340。
处理器310被配置为从存储器320读取和向存储器320写入。处理器310还可以包括处理器310经由其输出数据和/或命令的输出接口以及经由其向处理器310输入数据和/或命令的输入接口。
存储器320存储包括计算机程序指令(计算机程序代码)的计算机程序340,其在被加载到处理器310中时控制装置300的操作。计算机程序340的计算机程序指令提供使装置300能够执行在图1至图11中示出的方法的逻辑和例程。通过读取存储器320,处理器310能够加载并执行计算机程序340。
因此,装置300包括:
至少一个处理器310;以及
包括计算机程序代码340的至少一个存储器320;
至少一个存储器320和计算机程序代码340被配置为与至少一个处理器310一起,使装置300至少执行:
处理场景10的记录以识别在场景10内执行的预定用户命令事件22;以及
根据在场景10内执行的预定用户命令事件22的所述识别,自动控制场景10的捕获图像214的图像处理230以调适捕获图像214。
如图13中所示,计算机程序340可经由任何适合的传送机制350到达装置300。传送机制350例如可以是非暂时性计算机可读存储介质、计算机程序产品、存储器件、诸如光盘只读存储器(CD-ROM)或数字多功能光盘(DVD)的记录介质、有形具体化计算机程序340的制造产品。传送机制350可以是被配置为可靠传送计算机程序340的信号。装置300可将计算机程序340作为计算机数据信号进行传播或传输。
虽然存储器320被示出为单个组件/电路,但其可被实现为一个或多个单独的组件/电路,其中的一些或全部可以是集成/可移除的和/或可提供永久/半永久/动态/缓存存储。
虽然处理器310被示出为单个组件/电路,但其可被实现为一个或多个单独的组件/电路,其中的一些或全部可以是集成/可移除的。处理器310可以是单核或多核处理器。
提及“计算机可读存储介质”、“计算机程序产品”、“有形具体化计算机程序”等,或者“控制器”、“计算机”、“处理器”等,应当被理解为不仅包括具有诸如单个/多个处理器架构和串行(冯诺依曼)/并行架构的不同架构的计算机,而且还包括诸如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、信号处理器件和其它处理电路的专用电路。提及计算机程序、指令、代码等,应当被理解为包括用于可编程处理器的软件、或者可包括用于处理器的指令的例如硬件设备的可编程内容的固件、或者用于固定功能器件、门阵列或可编程逻辑器件等的配置设置。
如在本申请中使用的,术语“电路”是指以下的全部:
(a)仅硬件电路实现(诸如仅模拟和/或数字电路的实现);
(b)电路和软件(和/或固件)的组合,诸如(如果适用):(i)处理器的组合或(ii)处理器/软件的部分(包括数字信号处理器、软件和存储器,其一起工作以使诸如移动电话或服务器的装置执行各种功能);
(c)电路,诸如微处理器或微处理器的一部分,其需要软件或固件来操作,即使软件或固件并不是物理存在的。
“电路”的这一定义应用于在本申请中的该术语的全部使用,包括在任何权利要求中的使用。作为另一个示例,如在本申请中使用的,术语“电路”还涵盖仅处理器(或多个处理器)或处理器的部分及其伴随的软件和/或固件的实现。术语“电路”还涵盖(例如且如果适用于具体要求的元件)用于移动电话或服务器中的类似集成电路、蜂窝网络设备或其它网络设备的基带集成电路或应用处理器集成电路。
图1-11中示出的框可以表示方法200中的步骤和/或计算机程序340中的代码段。对框的特定顺序的描述并不意味着对于框存在要求或优选的顺序,并且框的顺序和布置可变化。此外,可以省略某些框。
在已经描述结构特征的情况下,其可被用于执行该结构特征的一个或多个功能的装置替换,无论该功能或那些功能是明确还是隐含描述。
装置300可以包括:用于处理场景10的记录以识别在场景10内执行的预定用户命令事件22的装置;以及
用于根据在场景10内执行的预定用户命令事件22的所述识别,自动控制场景10的捕获图像214的图像处理230以调适捕获图像214的装置。
在本文中使用的术语“包括”具有包容而非排它性的含义。也即是说,任何提到“X包括Y”指示“X可以仅包括一个Y”或“X可以包括多于一个的Y”。如果意图使用具有排它性含义的“包括”,则将通过提及“仅包括一个”或通过使用“由...组成”在上下文中明确说明。
在此简要描述中,已经参考了各种示例。针对示例的特征或功能的描述指示这些特征或功能存在于该示例中。无论是否明确陈述,在文本中术语“示例”或“例如”或“可以”的使用表示这种特征或功能至少存在于所描述的示例中,无论是否作为示例来描述,并且这种特征或功能可以但不必存在于一些或所有其它示例中。因此“示例”、“例如”或“可以”是指一类示例中的特定的实例。实例的性质可以仅是该实例的性质或该类实例的性质或包括一些但未包括全部该类实例的该类实例的子类的性质。因此,隐含公开针对一个示例但未针对另一个示例描述的特征可以但不必用于其它示例。
尽管本发明的实施例已经在前面的段落中参考各种示例进行了描述,但应当理解,可在不背离本发明要求保护的范围的情况下对给出的示例进行修改。
在前面的描述中描述的特征可用于除了明确描述的组合以外的组合中。
尽管已经参考某些特征描述了功能,这些功能可由其它特征来执行,无论是否描述。
尽管已经参考某些实施例描述了特征,这些特征也可存在于其它实施例中,无论是否描述。
在前面的描述中试图指出被认为是特别重要的本发明的特征时,应当理解,申请人要求保护关于在本文中之前参考附图和/或在附图中示出的任何可授予专利的特征或特征组合的内容,无论是否已经强调。

Claims (14)

1.一种用于调适捕获图像的方法,包括:
处理场景的记录以识别在所述场景内执行的预定用户命令事件;以及
自动控制所述场景的捕获图像的图像处理,以调适所述捕获图像,其中,所述调适根据在所述场景内执行的所述预定用户命令事件的所述识别并且通过至少移除所述捕获图像的内容的一部分并利用不同的内容替换所述部分,
其中,根据在所述场景内执行的所述预定用户命令事件的所述识别,自动控制所述场景的捕获图像的图像处理以调适所述捕获图像包括控制以下的处理:
在第一时间捕获的所述场景的第一图像,其中,与在所述场景内执行的所述预定用户命令事件相关联的所述场景的特定部分在所捕获的第一图像中具有第一状态;以及
在第二时间捕获的所述场景的第二图像,其中,所述场景的所述特定部分在所捕获的第二图像中具有第二状态;
其中,所述场景的所述特定部分在所述第一状态与所述第二状态之间变化,以生成第三图像,其中,所述第三图像包括调适后的所述场景的所述第二图像,以使得所述第二图像的所述特定部分在调适后的所捕获的第二图像中具有所述第一状态。
2.根据权利要求1所述的方法,其中,处理场景的记录以识别在所述场景内执行的预定用户命令事件包括:对所述场景的记录图像进行图像分析以识别在所述场景内执行的预定用户命令事件。
3.根据权利要求1所述的方法,其中,处理场景的记录以识别在所述场景内执行的预定用户命令事件包括:对所述场景内的特定人进行姿势识别。
4.根据权利要求1所述的方法,其中,根据邻近用户事件检测和/或用户动作识别和/或用户身份识别,在用户启动事件之后处理所述场景的记录以识别在所述场景内执行的预定用户命令事件。
5.根据权利要求1至4中任一项所述的方法,包括:
根据所述预定用户命令事件的所述识别,自动控制所述场景的其它捕获图像的图像处理以调适所述其它捕获图像,其中,所述场景的其它捕获图像在包括所识别的预定用户命令事件的所述捕获图像之后被捕获,和/或其中,所述场景的所述其它捕获图像在包括所识别的预定用户命令事件的所述捕获图像之前被捕获。
6.根据权利要求1所述的方法,其中,所述第三图像包括具有用于所述场景的所述特定部分的替换图像部分的所述场景的所述第二图像,其中,所述替换图像部分取决于在所述第一图像中捕获的所述场景的所述特定部分。
7.根据权利要求1或6所述的方法,包括:
使能所述特定部分的用户选择或使能所述特定部分的自动选择。
8.根据权利要求1至4中任一项所述的方法,其中,根据所述预定用户命令事件的所述识别,自动控制所述场景的捕获图像的图像处理以调适所述捕获图像包括:从所述场景的所述捕获图像中移除在所述场景中的一个或多个对象。
9.根据权利要求8所述的方法,其中,所述预定用户命令事件指示所述一个或多个对象中的至少一个。
10.根据权利要求1至4中任一项所述的方法,其中,根据所述预定用户命令事件的所述识别,自动控制所述场景的捕获图像的图像处理以调适所述捕获图像包括:根据所述预定用户命令事件的所述识别,自动控制连续的视频帧的图像处理以调适所述连续的视频帧,其中每个视频帧捕获所述场景的图像,其中,每个视频帧包括超过100°的有效视场。
11.根据权利要求10所述的方法,其中,所述视频帧用于介导现实。
12.一种用于调适捕获图像的装置,包括:
至少一个处理器;以及
包括计算机程序代码的至少一个存储器;
所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起,使所述装置至少执行根据权利要求1至11中任一项或多项所述的方法。
13.一种计算机可读存储介质,在其上存储有计算机程序,所述计算机程序在计算机上运行时执行根据权利要求1至11中任一项或多项所述的方法。
14.一种用于调适捕获图像的装置,包括用于执行根据权利要求1至11中任一项或多项所述的方法的装置。
CN201680073318.XA 2015-12-17 2016-12-15 用于调适捕获图像的方法及装置 Active CN108369640B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP15200926.2A EP3182328A1 (en) 2015-12-17 2015-12-17 A method, apparatus or computer program for controlling image processing of a captured image of a scene to adapt the captured image
EP15200926.2 2015-12-17
PCT/FI2016/050879 WO2017103337A1 (en) 2015-12-17 2016-12-15 A method, apparatus or computer program for controlling image processing of a captured image of a scene to adapt the captured image

Publications (2)

Publication Number Publication Date
CN108369640A CN108369640A (zh) 2018-08-03
CN108369640B true CN108369640B (zh) 2022-04-08

Family

ID=55024839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680073318.XA Active CN108369640B (zh) 2015-12-17 2016-12-15 用于调适捕获图像的方法及装置

Country Status (5)

Country Link
US (1) US11587202B2 (zh)
EP (1) EP3182328A1 (zh)
CN (1) CN108369640B (zh)
MX (1) MX2018007303A (zh)
WO (1) WO2017103337A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180260929A1 (en) * 2017-03-08 2018-09-13 Intel Corporation Digital camera methods and devices optimized for computer vision applications
CN110673811B (zh) * 2019-09-27 2024-04-16 深圳看到科技有限公司 基于声音信息定位的全景画面展示方法、装置及存储介质
CN113724398A (zh) * 2021-09-01 2021-11-30 北京百度网讯科技有限公司 增强现实方法、装置、设备以及存储介质
CN114783067B (zh) * 2022-06-14 2022-11-08 荣耀终端有限公司 基于手势的识别方法、设备及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104781779A (zh) * 2012-11-06 2015-07-15 诺基亚技术有限公司 用于创建针对图像的运动效果的方法和装置
CN105027030A (zh) * 2012-11-01 2015-11-04 艾卡姆有限公司 用于三维成像、映射、建网和界面连接的无线腕式计算和控制设备和方法
CN105074623A (zh) * 2013-03-14 2015-11-18 微软技术许可有限责任公司 在增强的现实图像中呈现对象模型
CN105122790A (zh) * 2012-11-12 2015-12-02 奥布隆工业有限公司 具有姿势控制以及多个客户端装置、显示器和用户的操作环境

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242255B2 (en) * 2002-02-15 2019-03-26 Microsoft Technology Licensing, Llc Gesture recognition system using depth perceptive sensors
US9236043B2 (en) * 2004-04-02 2016-01-12 Knfb Reader, Llc Document mode processing for portable reading machine enabling document navigation
US8253770B2 (en) * 2007-05-31 2012-08-28 Eastman Kodak Company Residential video communication system
US8947455B2 (en) * 2010-02-22 2015-02-03 Nike, Inc. Augmented reality design system
KR101818024B1 (ko) * 2011-03-29 2018-01-12 퀄컴 인코포레이티드 각각의 사용자의 시점에 대해 공유된 디지털 인터페이스들의 렌더링을 위한 시스템
US9342610B2 (en) * 2011-08-25 2016-05-17 Microsoft Technology Licensing, Llc Portals: registered objects as virtualized, personalized displays
WO2013093906A1 (en) * 2011-09-19 2013-06-27 Eyesight Mobile Technologies Ltd. Touch free interface for augmented reality systems
EP2866204B1 (en) * 2012-06-21 2018-09-19 LG Electronics Inc. Apparatus and method for digital image processing
EP2680228B1 (en) * 2012-06-25 2014-11-26 Softkinetic Software Improvements in or relating to three dimensional close interactions.
US9298970B2 (en) * 2012-11-27 2016-03-29 Nokia Technologies Oy Method and apparatus for facilitating interaction with an object viewable via a display
US10152495B2 (en) * 2013-08-19 2018-12-11 Qualcomm Incorporated Visual search in real world using optical see-through head mounted display with augmented reality and user interaction tracking
US10725533B2 (en) * 2014-09-26 2020-07-28 Intel Corporation Systems, apparatuses, and methods for gesture recognition and interaction
US10185463B2 (en) * 2015-02-13 2019-01-22 Nokia Technologies Oy Method and apparatus for providing model-centered rotation in a three-dimensional user interface

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105027030A (zh) * 2012-11-01 2015-11-04 艾卡姆有限公司 用于三维成像、映射、建网和界面连接的无线腕式计算和控制设备和方法
CN104781779A (zh) * 2012-11-06 2015-07-15 诺基亚技术有限公司 用于创建针对图像的运动效果的方法和装置
CN105122790A (zh) * 2012-11-12 2015-12-02 奥布隆工业有限公司 具有姿势控制以及多个客户端装置、显示器和用户的操作环境
CN105074623A (zh) * 2013-03-14 2015-11-18 微软技术许可有限责任公司 在增强的现实图像中呈现对象模型

Also Published As

Publication number Publication date
MX2018007303A (es) 2018-11-09
EP3182328A1 (en) 2017-06-21
US20180374196A1 (en) 2018-12-27
US11587202B2 (en) 2023-02-21
WO2017103337A1 (en) 2017-06-22
CN108369640A (zh) 2018-08-03

Similar Documents

Publication Publication Date Title
CN108369640B (zh) 用于调适捕获图像的方法及装置
US10452713B2 (en) Video analysis techniques for improved editing, navigation, and summarization
CN108369816B (zh) 用于从全向视频创建视频剪辑的设备和方法
US20160198097A1 (en) System and method for inserting objects into an image or sequence of images
US20130021489A1 (en) Regional Image Processing in an Image Capture Device
US20150097865A1 (en) Method and computing device for providing augmented reality
KR101929077B1 (ko) 이미지 식별 방법 및 이미지 식별 장치
ATE486332T1 (de) Verfahren zur verfolgung von objekten in einer videosequenz
JP5754990B2 (ja) 情報処理装置、情報処理方法及びプログラム
US20140099028A1 (en) System and method for video recognition based on visual image matching
KR20160057867A (ko) 디스플레이 장치 및 그에 의한 이미지 처리 방법
US10297285B2 (en) Video data processing method and electronic apparatus
KR20150126888A (ko) 컴퓨터―비전 애플리케이션들을 위한 적응형 데이터 경로
CN113596240B (zh) 录音方法、装置、电子设备及计算机可读介质
CN106162222B (zh) 一种视频镜头切分的方法及装置
US10372994B2 (en) Method, system and apparatus for selecting a video frame
CN108960130B (zh) 视频文件智能处理方法和装置
JP5650845B2 (ja) 画像の中の仮想視覚情報を識別するための方法および構成
KR101496287B1 (ko) 비디오 시놉시스 시스템 및 이를 이용한 비디오 시놉시스 방법
US10839552B2 (en) Image processing apparatus, tracking method, and program
JP5962383B2 (ja) 画像表示システムおよび画像処理装置
KR101826463B1 (ko) 동영상의 시간 축을 동기화하기 위한 방법 및 장치
CN115720252A (zh) 用于在事件保留的情况下缩短视频的设备和方法
US20200007979A1 (en) Sound collection apparatus, method of controlling sound collection apparatus, and non-transitory computer-readable storage medium
EP3073747A1 (en) Method and device for adapting an audio level of a video

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant