CN108885691A - 基于自动特征提取的图像动作 - Google Patents

基于自动特征提取的图像动作 Download PDF

Info

Publication number
CN108885691A
CN108885691A CN201780020402.XA CN201780020402A CN108885691A CN 108885691 A CN108885691 A CN 108885691A CN 201780020402 A CN201780020402 A CN 201780020402A CN 108885691 A CN108885691 A CN 108885691A
Authority
CN
China
Prior art keywords
image
described image
capture device
partially
movement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780020402.XA
Other languages
English (en)
Inventor
N·W·施
C-J·谭
C·佩雷斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN108885691A publication Critical patent/CN108885691A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开内容描述了一种系统和方法,其用于:从图像中自动提取图像特征,所述图像是从图像捕获设备上载到在云服务器上执行的图像处理服务的;至少部分地基于图像特征来确定图像分类;至少部分地基于图像分类来向图像捕获设备发送对图像动作的请求;以及至少部分地基于响应于请求而从图像捕获设备接收图像动作来对图像执行图像动作。

Description

基于自动特征提取的图像动作
技术领域
本公开内容涉及图像捕获,并且更具体而言,涉及基于自动图像特征提取的图像动作。
背景技术
移动设备的使用已经变得无处不在,特别是对于捕获图像。许多人使用图像来记住事件、产品等的细节。例如,会议参加者可以拍摄会议记录的图像或照片,以实现以后对会议的讨论进行回忆。作为另一示例,音乐会参与者可以捕获音乐会门票或海报的图像或照片,以提供音乐会细节以用于以后的检索。及时的图像分类已被证明具有挑战性,特别是当图像的内容而非位置重要时。手动图像标记经常在时间上远离图像的捕获而发生,导致标签凌乱或不准确。现有的图像内容分析已被证明不足以满足搜索和后续使用的要求。因此,仍然存在对改进的图像分类的需求。
附图说明
本公开内容描述了可以结合以下附图而被理解和充分领会的各种实施例:
图1A-B示意性地示出了根据一些实施例的示例性系统的框图;
图1C示意性地示出了根据一些实施例的示例性图像捕获设备的框图;
图1D示意性地示出了根据一些实施例的示例性图像处理器的框图;
图2示出了根据一些实施例的示例性方法的框图;
图3A-I示出了根据一些实施例的示例性图像捕获设备和系统的示图;
图4示出了根据一些实施例的用于创建事件的示例性系统的示图;
图5示出了根据一些实施例的用于导出图像的示例性系统的示图;以及
图6示出了根据一些实施例的用于创建联系人的示例性系统的示图。
具体实施方式
本公开内容参考以上列出的附图描述了实施例。本领域普通技术人员将领会,描述和附图说明而不是限制本公开内容,并且通常而言,为清晰呈现,附图未按比例绘制。这样的技术人员还将意识到,通过应用本文包含的发明原理,更多实施例是可能的,并且这样实施例落入本公开内容的范围内,所述范围不受权利要求之外的限制。
图1A和图1B示意性地示出了根据一些实施例的示例性系统100的框图。参考图1A和图1B,系统100包括计算设备102,其可以执行定义执行特定任务或功能或者实现特定数据类型的组件、对象、例程、程序、指令、数据结构、虚拟机等的指令。指令可以存储在本领域普通技术人员已知的任何计算机可读存储介质中,例如系统存储器106、远程存储器134或外部存储器136。程序中的一些或所有程序可以在运行时通过被包括在处理单元中的一个或多个处理器来实例化,所述处理单元例如处理设备104。本领域普通技术人员将认识到,与系统100的示例性实施例相关联的许多构思可以被实现为计算机指令、固件、硬件、或者软件,并采用各种计算架构(例如,计算设备102)中的任一者,以达成相同或等同的结果。
此外,本领域普通技术人员将认识到,系统100的示例性实施例可以在其他类型的计算架构上实现,例如,通用或个人计算机、手持设备、移动通信设备、游戏设备、音乐设备、摄影设备、多处理器系统、基于微处理器或可编程的消费电子产品、小型计算机、大型计算机、专用集成电路等。仅出于说明性目的,系统100在图1A中被示出为包括计算设备102、地理上的远程计算设备102R、平板计算设备102T、移动计算设备102M和膝上型计算设备102L。本领域普通技术人员可以认识到,计算设备102可以体现在平板计算设备102T、移动计算设备102M或膝上型计算设备102L中的任一者中。移动计算设备102M可以包括移动蜂窝设备、移动游戏设备、移动阅读器设备、移动摄影设备等。
本领域普通技术人员将认识到,系统100的示例性实施例可以被实现在分布式计算系统中,其中,经常在地理上彼此远离的各种计算实体或设备(例如,计算设备102和远程计算设备102R)执行特定任务或执行特定对象、组件、例程、程序、指令、数据结构等。例如,系统100的示例性实施例可以在经由网络130连接的服务器/客户端配置中实现(例如,计算设备102可以充当服务器,并且远程计算设备102R或平板计算设备102T可以充当客户端,以上设备全部通过网络130连接)。在分布式计算系统中,应用程序可以存储在本地存储器106、外部存储器136或远程存储器134中并且/或者从其执行。本地存储器106、外部存储器136或远程存储器134可以是本领域普通技术人员已知的任何种类的存储器,其可以是易失性或非易失性的、可移除或不可移除的,包括非易失性存储器、易失性存储器、随机存取存储器(RAM)、闪速存储器、只读存储器(ROM)、铁电RAM、磁存储设备、光盘等。
计算设备102可以包括处理设备104、存储器106、设备接口108和网络接口110,以上各项都可以通过总线112互连。处理设备104表示单个中央处理单元或者单个或两个或更多个计算设备102(例如,计算设备102和远程计算设备102R)中的多个处理单元。本地存储器106以及外部存储器136或远程存储器134可以是本领域普通技术人员已知的任何类型的存储设备,包括适合于特定任务的RAM、闪速存储器、ROM、铁电RAM、磁存储设备、光盘等的任何组合。本地存储器106可以存储索引的或其他的数据库。本地存储器106可以存储基本输入/输出系统(BIOS)106A,其具有可由处理设备104执行以在系统100的各种元素之间传输包括数据106D的数据的例程。本地存储器106还可以存储可由处理设备104执行的操作系统(OS)106B,所述OS 106B在由引导程序初始加载之后管理计算设备102中的其他程序。存储器106可以存储可由处理设备104执行的例程或程序(例如,应用或程序106C)。应用或程序106C可以通过经由定义的应用程序接口(API)提出对服务的请求来利用OS 106B。应用或程序106C可以用于实现任何应用程序的生成或创建,所述应用程序被设计为直接为用户(或者在一些情况下,为另一应用程序)执行特定功能。应用程序的示例包括文字处理器、日历、电子表格、数据库程序、浏览器、开发工具、绘图、绘画和图像编辑程序、通信程序、定制的应用等。用户可以通过诸如命令语言或显示在监视器(未示出)上的用户接口之类的用户接口来直接与计算设备102交互。本地存储器106可以被包括在处理单元(例如,处理设备104)中。
设备接口108可以是若干种类型的接口中的任一者。设备接口108可以在操作上将各种设备中的任一者(例如,硬盘驱动器、光盘驱动器、磁盘驱动器等)耦合到总线112。设备接口108可以表示一个接口或各种不同的接口,所述各种不同接口中的每一者被特别构造以用于支持该接口将其对接到总线112的特定设备。设备接口108可以另外地对接由用户使用的输入或输出设备以向计算设备102提供指导并从计算设备102接收信息。这些输入或输出设备可以包括语音辨识设备、手势辨识设备、触摸辨识设备、键盘、监视器、鼠标、指示设备、扬声器、触笔、麦克风、操纵杆、游戏手柄、圆盘式卫星天线、打印机、扫描仪、相机、视频设备、调制解调器、监视器等(未示出)。设备接口108可以是串行接口、并行端口、游戏端口、火线端口、通用串行总线等。
本领域普通技术人员将认识到,系统100可以使用可由计算机访问的任何类型的计算机可读介质,例如磁带盒、闪速存储器卡、光盘(CD)、数字视频盘(DVD)、盒式磁带、RAM、ROM、闪速存储器、磁盘驱动器、光盘驱动器等。如本文描述的计算机可读介质包括计算机程序产品、计算机存储装置、机器可读存储装置等的任何形式。
网络接口110在局域网、广域网或全球区域网络130上在操作上将计算设备102耦合到一个或多个远程计算设备102R、平板计算设备102T、移动计算设备102M和膝上型计算设备102L。计算设备102R可以在地理上远离计算设备102。远程计算设备102R可以具有计算设备102的结构,并且可以充当服务器、客户端、路由器、交换机、对等设备、网络节点或其他联网设备,并且通常包括计算设备102的元素中的一些或所有元素。计算设备102可以通过网络接口或被包括在接口110中的适配器连接到网络130。计算设备102可以通过被包括在网络接口110中的调制解调器或其他通信设备来连接到网络130。替代地,计算设备102可以使用无线设备132连接到网络130。调制解调器或通信设备可以通过全球通信网络130来建立到远程计算设备102R的通信。本领域普通技术人员将认识到,可以通过这样的联网连接来远程地存储程序106C。网络130可以是本地的、广域的、全球的或其他的,并且可以包括如本领域普通技术人员已知的采用电、光、电磁、声学或其他载波的有线或无线连接。
本公开内容可以使用算法和对存储器(例如,存储器106)内的数据比特的操作的符号表示来描述示例性系统100的一些部分。本领域普通技术人员将这些算法和符号表示理解为最有效地将他们工作的实质传达给本领域其他普通技术人员。算法是导致期望的结果的自容序列。序列需要对物理量的物理操纵。通常但不一定,这些量采取能够由物理设备(例如,计算设备102)存储、传输、组合、比较和以其他方式操纵的电信号或磁信号的形式。为简单起见,本公开内容将这些物理信号称为比特、值、元素、符号、字符、术语、数字等。这些术语仅仅是方便的标签。本领域普通技术人员将认识到,诸如运算、计算、生成、加载、确定、显示等的术语指代计算设备(例如,计算设备102)的动作和过程。计算设备102可以操纵被表示为存储器内的物理电子量的数据并将其转换成被类似地表示为存储器内的物理电子量的其他数据。
在实施例中,系统100可以是分布式网络,其中,一些计算设备102充当服务器(例如,计算设备102),以通过网络130向充当客户端的其他计算设备(例如,远程计算设备102R、膝上型计算设备102L、平板计算设备102T)提供内容、服务等。在一些情况下,分布式网络使用高度准确的流量路由系统将客户端路由到它们最近的服务节点。
在实施例中,系统100可以包括服务器计算设备102S和移动计算设备102M,如图1B所示。服务器计算设备102S可以包括图像处理器160以处理从图像捕获设备140接收的图像。移动计算设备102M可以在地理上远离服务器计算设备102S,但是通过例如网络130连接到服务器计算设备102S。服务器计算设备102S可以通过网络130向移动计算设备102M提供计算、内容、服务等。在一些实例中,服务器计算设备102S可以为移动计算设备102M存储、管理和处理数据,而不是移动计算设备102M本地地存储、管理和处理数据。
移动计算设备102M还可以包括图像捕获设备140,其捕获任何对象、人、动物、地点、场景等的图像145(在图1C中示出)。图像捕获设备140可以包括数字相机和伴随的处理电路,如以下更详细地解释的。
图1C示意性地示出了根据一些实施例的示例性图像捕获设备140的框图。参考图1A-1C,图像捕获设备140可以包括图像传感器阵列142、透镜144和处理器146。透镜144可以将来自对象的光聚焦在图像传感器阵列142上。处理器146可控制透镜144和图像传感器阵列142,如本领域普通技术人员所熟知的。图像传感器阵列142可以响应于用户对快门释放、开关或按钮(未示出)的致动而将图像145捕获为多个像素值。图像捕获设备140还可以包括存储器148以存储图像145。存储器148可以本地于移动计算设备102M(如存储器106)或者可以远离移动设备102M(如存储器134或136)但可由移动计算设备102M访问。存储器148可以包括本领域普通技术人员已知的任何类型、大小或配置的存储器,例如可移除存储器、非易失性存储器、易失性存储器等。存储器148可以包括闪速存储器、动态随机存取(DRAM)存储器、静态随机存取存储器(SRAM)、内容可寻址存储器、只读存储器(ROM)等。
图像捕获设备140可以根据预定义和标准化格式(例如,联合图像专家组(JPEG)、图形交换交换(GIF)、原始格式等)来将图像145存储为存储器148中的对象或文件。在每个文件内,图像捕获设备140可以以特定顺序布置像素值,例如从左到右和从上到下。移动计算设备102M可以基于图像对象内的组织和像素值顺序来在显示器上显示图像145。当图像145最终被显示在移动计算设备102M的显示设备(未示出)上时,根据预定义格式的图像对象可以包含相对于图像145的朝向水平延伸的像素行。
在捕获图像145期间或之后,图像捕获设备140可以将像素值从传感器阵列142传输到存储器148,以用于处理和/或永久地或以其他方式存储。该处理可以涉及将像素值布置或格式化成符合预定义标准格式(例如,JPEG,GIF等)的图像145。图像捕获设备140可以将来自传感器阵列142的像素值压缩或格式化。图像捕获设备140可以将压缩或格式化的像素值作为图像145传输到可移除存储器148以存储在其中。处理器146可以访问存储器148。在一些实施例中,存储器148可以是可移除存储设备的一部分,所述可移除存储设备能够被用户从图像捕获设备140(或移动计算设备102M)移除并插入另一计算设备102(例如,远程计算设备102R)中,以用于进一步查看或下载存储在其上的图像。
在实施例中,图像捕获设备140可以包括朝向传感器150,以指示在图像被捕获时图像传感器阵列142的朝向。朝向传感器150可以指示图像捕获设备140(或移动计算设备102M)是正由用户以横向朝向还是以与横向朝向成90°的旋转的、纵向朝向来握持的。朝向传感器150可以使得处理器146能够自动数字旋转所捕获的图像以校正图像传感器142的不同朝向。
处理器146可以控制透镜144、图像传感器阵列142、存储器148、朝向传感器150或其任何组合的操作。处理器146可以是本领域普通技术人员已知的任何大小或配置的任何处理设备。
服务器计算设备102S可以通过网络130从移动计算设备102M接收图像145。服务器计算设备102S可以包括图像处理器160以处理图像145。服务器计算设备102S还可以包括或可以访问辅助应用或程序170,例如,日历170A、联系人170B、社交媒体170C或相机胶卷170D。本领域普通技术人员应当认识到,辅助应用或程序170中的一者或多者可以在除了服务器计算设备102S之外的可以通过已知的机制(例如,网络130)耦合到服务器计算设备102的计算设备(例如,计算设备102R)上执行。
图1D示意性地示出了根据一些实施例的示例性图像处理器160的框图。参考图1A-1D,图像处理器160可以包括处理器180和用于存储从图像捕获设备140接收的图像145的存储器181。处理器180可以是本领域普通技术人员已知的、任何大小或配置的任何单个处理设备或多个处理设备。类似于存储器148,存储器181可以是本领域普通技术人员已知的、采用任何配置或大小的任何类型的存储器。存储器181可以本地于或远离服务器计算设备102S。图像处理器160还可以包括图像特征提取器184、图像分类器182和图像增强器186。处理器180可以控制对存储器181的访问以及图像分类器182、图像特征提取器184、图像增强器186或其组合的操作。
图像特征提取器184可以从图像145提取或以其他方式确定特征。在一个实施例中,图像特征提取器184可以使用任何已知算法来处理图像145以自动提取某些特征、图案、投影、组件等等。图像特征提取器184可以自动操作,即不需要用户指令或干预。图像特征提取器184可以处理图像145以提取图像特征185,例如,对象、字符、颜色、颜色饱和度、颜色色彩、颜色色调、颜色深度、对比度、伽马校正、直方图参数、亮度、噪声、面部辨识参数、场景辨识参数、对象辨识参数、文本等。图像特征提取器184可以使用本领域普通技术人员已知的任何算法、技术或实践(例如,像素化、线性或非线性过滤、主成分分析、数字信号处理、独立成分分析、马尔可夫建模、傅立叶变换、微分方程、矢量建模等)来提取图像特征185。
在实施例中,图像特征提取器184可以从图像145的图像特征185中识别可动作特征185A。可动作特征185A可以是图像特征185的子集,其可以触发图像处理器160以请求来自用户的另外的输入。例如,图像特征提取器184可以提取包括名称、标题、地址、电子邮件地址或电话的图像特征185。图像特征提取器184可以将名称、标题、地址、电子邮件地址或电话中的任一者识别为触发图像处理器160将对动作的请求152发送到计算设备102M的可动作特征185A,用户可以用动作154回复所述请求152。服务器计算设备102S可以在图像145上应用或执行动作,例如,将图像145保存或标记为名片。
图像增强器186可以通过增强图像145来生成增强的图像187。图像增强器186可以通过使用本领域普通技术人员已知的任何图像增强机制或算法(例如,图像像素操纵、过滤、插值等)增强或改进图像145的质量来生成增强的图像186A。在一些实施例中,图像增强器186可以基于提取的特征185来增强图像145。例如,图像增强器186可以基于提取的特征185(例如,图像直方图,其指示比预定的图像质量标准更亮或更暗的图像)来使图像145变暗或变亮。
图像分类器182可以基于图像特征185和/或可动作特征185A来确定图像分类183。图像分类器182可以将图像145分类在任何数量的已知分类183中,所述已知分类例如白板、名片、活动门票、收据、场景、照片、会议记录、文档、日历条目等。
例如,图像分类器182可以基于图像特征提取器184在主要为白色背景图像特征185上提取或检测文本图像特征185来将图像145分类为白板。作为另一示例,图像分类器182可以基于图像特征提取器184从图像145中提取面部特征185来将图像145分类为一组照片。
作为图4所示的又一示例,图像分类器182可以基于图像特征提取器184提取预定类型的文本特征185(例如,乐队名称、日期、场所等)中的一者或多者来将图像145分类为活动门票402。
作为图5所示的又一示例,图像分类器182可以基于图像特征提取器184提取预定类型的文本特征185(例如,日期、货币量、食物或饮料标识符、企业名称等)中的一者或多者来将图像145分类为收据502。
作为图6所示的又一示例,图像分类器182可以基于图像特征提取器184提取预定类型的文本图像特征185(例如,姓名、职位、公司名称、街道地址、电子邮件地址、电话号码、传真号码等)中的一者或多者来将图像145分类为名片602。
在一些实施例中,图像分类器182可以基于图像特征185、可动作特征185A和/或从辅助源(未示出)确定的辅助信息190来确定图像分类183。图像分类器182可以访问在计算设备102上执行的搜索引擎或数据库(未示出),根据所述搜索引擎或数据库图像分类器182可以将从图像145提取的特定文本特征185与特定对象、人、实体、位置、类型等相关联。例如,图像分类器182可以确定所提取的文本特征185包括乐队名称404(图4)和日期406(图4),根据其可以确定图像145的对象是活动门票402。作为另一示例,图像分类器182可以确定所提取的文本特征185可以识别餐馆504(图5)或酒吧和/或地址506(图5),根据其可以确定图像145是餐馆或酒吧504的饮料或餐点的收据。作为另一示例,图像分类器182可以确定所提取的文本特征185可以标识实体604(图6)和/或地址606(图6),根据其可以确定图像145是名片的图像。
在一些实施例中,图像处理器160可以向用户提供用于将图像保存到工作账户、个人账户或任何其他类别的账户的选项。这些帐户可以作为选项由用户建立,作为安装时的预定偏好等等。例如,在图像分类器182将图像分类为收据502的情况下,图像处理器160可以自动向用户提供用于将收据502保存到工作帐户的选项,以便实现对个人和工作费用的分离以及对费用报告最终产生。在一些实施例中,就用户对用于存储图像的帐户的选择向用户询问可以是有帮助的。
在一些实施例中,图像处理器160可以经由网络130从在系统100上的计算设备102上执行的应用106C或可执行程序106D获得辅助信息190。在其他实施例中,图像处理器160可以从在服务器计算设备102S上执行的其他可执行应用106C或可执行程序106D获得辅助信息190。
图像处理器160可以从应用或程序170(例如,日历170A、联系人170B、社交媒体170C、相机胶卷170C等)中搜索辅助信息190。日历170A可以是记录约会或会议、列出到会议位置的方向、跟踪会议参加者,向其他人发送约会或会议请求等的任何已知应用或程序。
联系人170B可以是记录人、机构、企业、政府机构、大学等的联系信息的任何已知应用或程序。联系信息可以包括姓名、地址、电话号码、电子邮件地址、网站地址、照片、方向等。
社交媒体170C可以是使得用户能够创建和共享内容或者参与社交网络的任何已知应用或程序。
相机胶卷170D可以是实现存储图像和伴随的元数据的任何已知应用或程序。相机胶卷170D可以具有用于将照片的存储(通过例如拍摄日期、位置、标签等)分组或分类到不同的容器或目录中的能力。
在实施例中,图像处理器160可以从可以通过简单地点击或以其他方式选择URL来变得可导航的图像中提取通用参考定位符(URL)。在一些实施例中,URL可以是图像的元数据的部分。
在实施例中,图像处理器160可以基于图像分类183、图像特征185或可动作特征185A或其组合来将对动作的请求152发送到计算设备102M。移动计算设备102M可以用动作154来回复请求152。
请求152可以包括基于图像分类183、图像特征185、可动作特征185A或其组合的候选动作153的列表。候选动作153可以基于分类183,例如,图像处理器160可以将图像145分类为名片602(图6),这转而可以引起特定候选动作153,例如,将图像145的所提取的特征185(例如,姓名、职位、公司、地址等)转变成要在联系人170B中创建的联系人608中的相应字段。
作为另一示例,图像处理器160可以将图像145分类为一组照片,其转而可以引起特定候选动作153,例如,根据从社交媒体170C或者联系人170B中收集的信息来识别或标记该组照片中的个人并将该组照片的副本发送给那些个人。
作为又一示例,图像处理器160可以在基本上白色背景上的文本辨别为图像特征185之后将图像145分类为白板,其转而可以引起特定候选动作153,例如,发送白板图像145给会议的其他参与者,在所述会议期间创建了是图像145的对象的白板。通过这样做,图像处理器160可以具体地定制请求152以列出与分类183、图像特征185、辅助信息190或其组合相关联的候选动作153。因此,对于图像145的每个分类183,图像处理器160可以具有相关联的候选动作153的预定列表,用户可以从所述列表中选择动作154。然后,可以将动作154从移动设备102M发送回服务器计算设备102S。
图2示出了根据一些实施例的示例性方法200的框图。在202处,方法200用图像捕获设备来捕获图像。方法200可以将光聚焦在图像捕获设备中的图像传感器阵列上,以响应于对快门释放、开关或按钮的激活而捕获对象。一旦被捕获,方法200可以将捕获的图像存储在图像捕获设备中的临时或永久存储器中。
在204处,方法200自动地将图像从图像捕获设备上载到在服务器上执行的图像处理器程序或应用,而没有来自用户的任何干预。除了对快门释放、开关或按钮的激活之外,方法200可以将图像从图像捕获设备发送到在服务器上执行的图像处理器应用或程序,而不使来自用户的另外的或单独的要如此做的指令或动作成为必要。方法200可以使用本领域普通技术人员已知的任何手段来将图像从图像捕获设备发送到图像处理器应用或程序。
在206处,方法200可以从在服务器上执行的图像处理器程序或应用处的图像中提取图像特征。方法200可以使用本领域普通技术人员已知的任何手段来在没有来自用户的任何干预的情况下从图像中自动提取图像特征。方法200可以基于反映用户偏好或默认偏好的预定设置来从图像中自动提取图像特征,例如,提取所有图像特征或一部分图像设置或者提取高于或低于特定门限的图像特征。方法200可以将至少一部分所提取的图像特征识别为可以触发对图像的另外的动作的可动作图像特征。方法200可以提取任何已知的图像特征,例如,对象、字符、颜色、颜色饱和度、颜色色彩、颜色色调、颜色深度、对比度、伽马校正、直方图参数、亮度、噪声、面部辨识参数、场景辨识参数、对象辨识参数、文本等。
在208处,方法200可以基于所提取的图像特征来对图像进行分类。方法200可以将图像分类在任何已知的图像分类中,所述已知的图像分类例如白板、名片、活动门票、收据、场景、照片、会议记录、文档、日历条目等。
在210处,方法200可以基于图像特征、图像分类或其组合来对图像210进行分类增强。方法200可以使用本领域普通技术人员已知的任何算法或过程来增强图像。
在212处,方法200可以确定图像中是否存在任何可动作图像特征。如果不存在可动作特征,则方法200可以在220处结束。
如果存在可动作特征,则在214处,方法200可以将包括与图像相关联的动作的候选列表的请求发送到图像捕获设备。在实施例中,动作的候选列表可以与图像分类或图像中提取的特征相关联。
在216处,方法200可以接收要对图像执行的动作。用户可以从候选动作的列表中选择动作。
在218处,方法200可以对图像执行动作或执行与图像相关联的动作。例如,方法200可以在216处接收指示用户期望将名片602保存为联系人的动作,并且因此,在218处,方法200可以创建具有从名片602中提取的图像特征的联系人608。
图3A-I示出了根据一些实施例的示例性图像捕获设备和系统的示图。参考图1A-D和图3A-L,用户302可以使用图像捕获设备302来捕获白板306的图像345,所述图像捕获设备302可以包括计算设备102、102M、102S、102L、102R或102T中的任一者。图像捕获设备302经由网络130自动将图像345上载到在服务器上执行的图像处理器360。图像处理器360可以自动上载图像345,而没有来自用户304的要如此做的任何干预或特定指令。图像处理器360可以从图像345中提取图像特征、对图像345进行分类并增强图像345,如以上描述的。图像处理器360可以确定与图像345相关联的动作353的候选列表。图像捕获设备302可以将动作353的候选列表显示给用户304。动作353的候选列表可以基于图像分类183、图像特征185、可动作特征185A、辅助信息190或其组合。在实施例中,在353A处用户304可以选择与会议参与者355共享图像345。替代地,在353B处用户304可以选择看到其他可用的共享选项,例如,将具有链接357的电子邮件356发送到存储图像345的系统100上的位置(图3F)或者显示从其共享链接的社交媒体或其他应用359(图3G)。图像捕获设备302可以向用户304显示图像345被存储在相机胶卷170D的近期图像类别358中(图3H)并且/或者被用标签361自动标记(图3I)。
图4示出了根据一些实施例的用于创建事件的示例性系统的示图。参考图1A-D和图4,图像处理器160可以根据提取乐队名称404和日期406确定图像145是乐队门票或海报402的图像。图像处理器160可以向移动计算设备102M发送请求152,以请求对门票或海报402执行动作154或与门票或海报402相关联地执行动作。图像处理器160可以接收动作154,所述动作154指示期望图像处理器160根据图像145的提取的乐队名称404和日期406来创建事件408。
图5示出了根据一些实施例的用于导出图像的示例性系统的示图。参考图1A-D和图5,图像处理器160可以根据提取餐馆名称504和地址506确定图像145是收据502。图像处理器160可以向移动计算设备102M发送请求152,以请求对收据502执行动作154或与收据502相关联地执行动作154。图像处理器160可以接收动作154,所述动作154指示期望图像处理器160创建对收据502的扫描508以用于以预定格式(例如,便携式文档格式)导出到应用或程序以用于提交报销。
图6示出了根据一些实施例的用于创建联系人的示例性系统的示图。参考图1A-D和图6,图像处理器160可以根据提取公司名称604、公司地址606和名称610来确定图像145是名片602的图像。图像处理器160可以向移动计算设备102M发送请求152,以请求对名片602执行动作154或与名片602相关联地执行动作154。图像处理器160可以接收动作154,所述动作154指示期望图像处理器160创建联系人608。
本领域普通技术人员还将领会,本公开内容不限于上文特别示出和描述的内容。相反,本公开内容的范围包括上文描述的各种特征的组合和子组合以及本领域技术人员在阅读了前述描述时将想到的修改和变化。因此,本公开内容仅受所附权利要求的限制。

Claims (15)

1.一种系统,包括:
存储器,其被配置为存储指令;以及
一个或多个处理器,其被配置为执行存储在所述存储器中的所述指令,以执行以下操作:
从图像中自动提取图像特征,所述图像是从图像捕获设备上载到在云服务器上执行的图像处理服务的;
至少部分地基于所述图像特征来确定图像分类;
至少部分地基于所述图像分类向所述图像捕获设备发送对图像动作的请求;以及
至少部分地基于响应于所述请求而从所述图像捕获设备接收到所述图像动作来对所述图像执行所述图像动作。
2.如权利要求1所述的系统,其中,所述一个或多个处理器被配置为执行存储在所述存储器中的所述指令,以进一步执行以下操作:
通过响应于所述图像捕获设备检测到所述图像的捕获而在所述图像处理服务与所述图像捕获设备之间建立连接来从所述图像捕获设备自动接收所述图像处理服务处的所述图像。
3.如权利要求2所述的系统,其中,所述一个或多个处理器被配置为执行存储在所述存储器中的所述指令,以进一步执行以下操作:
响应于所述图像捕获设备检测到快门释放来自动从所述图像捕获设备接收所述图像。
4.如权利要求1所述的系统,其中,所述一个或多个处理器被配置为执行存储在所述存储器中的所述指令,以进一步执行以下操作:
自动将所述图像存储在数据存储库中。
5.如权利要求1所述的系统,其中,所述图像特征包括颜色、颜色饱和度、颜色色彩、颜色色调、颜色深度、对比度、伽马校正、直方图参数、亮度、噪声、面部辨识参数、场景辨识参数或对象辨识参数。
6.如权利要求1所述的系统,其中,所述一个或多个处理器被配置为执行存储在所述存储器中的所述指令,以进一步执行以下操作:
至少部分地基于所述图像分类或所述图像特征来自动增强所述图像。
7.如权利要求1所述的系统,其中,所述一个或多个处理器被配置为执行存储在所述存储器中的所述指令,以进一步执行以下操作:
访问关于所述图像的辅助信息;以及
至少部分地基于所述辅助信息来向所述图像捕获设备发送对所述图像动作的所述请求。
8.一种方法,包括:
在云服务器上执行的图像处理器处接收从图像捕获设备自动上载的图像;
从所述图像中自动识别至少一个图像特征;
至少部分地基于所述至少一个图像特征来确定图像分类;
至少部分地基于所述图像分类来向所述图像捕获设备发送对动作的请求;以及
至少部分地基于响应于所述请求而从所述图像捕获设备接收所述动作来对所述图像执行所述动作。
9.如权利要求8所述的方法,还包括:
响应于所述图像捕获设备检测到所述图像的捕获而自动建立所述图像处理器与所述图像捕获设备之间的通信连接。
10.如权利要求9所述的方法,还包括:
响应于所述图像捕获设备检测到快门释放而经由所述通信连接自动从所述图像捕获设备接收所述图像。
11.如权利要求8所述的方法,其中,所述至少一个图像特征包括颜色、颜色饱和度、颜色色彩、颜色色调、颜色深度、对比度、伽马校正、直方图参数、亮度、噪声、面部辨识参数、场景辨识参数或对象辨识参数。
12.如权利要求8所述的方法,还包括:
至少部分地基于所述图像分类或所述至少一个图像特征来自动增强所述图像。
13.如权利要求8所述的方法,还包括:
访问关于所述图像的辅助信息;以及
至少部分地基于辅助信息来向所述图像捕获设备发送对所述图像动作的所述请求。
14.一种计算机可读存储介质,其包括指令,所述指令当由一个或多个处理设备执行时,使得所述一个或多个处理设备执行以下操作:
从图像中自动提取图像特征,所述图像是从图像捕获设备自动上载到在云服务器上执行的图像处理服务的;
至少部分地基于所述图像特征来确定图像分类;
从辅助应用访问关于所述图像的辅助信息;
至少部分地基于所述图像分类或所述辅助信息来向所述图像捕获设备发送对要被应用于所述图像的动作的识别的请求;以及
至少部分地基于响应于所述请求而从所述图像捕获设备接收到对所述动作的所述识别来将所述动作应用于所述图像。
15.如权利要求14所述的计算机可读存储介质,其中,由所述一个或多个处理设备执行所述指令使得所述一个或多个处理设备还执行以下操作:
至少部分地基于所述图像分类或所述图像特征来自动增强所述图像。
CN201780020402.XA 2016-03-28 2017-03-22 基于自动特征提取的图像动作 Pending CN108885691A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/083,120 US10157190B2 (en) 2016-03-28 2016-03-28 Image action based on automatic feature extraction
US15/083,120 2016-03-28
PCT/US2017/023494 WO2017172421A1 (en) 2016-03-28 2017-03-22 Image action based on automatic feature extraction

Publications (1)

Publication Number Publication Date
CN108885691A true CN108885691A (zh) 2018-11-23

Family

ID=58455688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780020402.XA Pending CN108885691A (zh) 2016-03-28 2017-03-22 基于自动特征提取的图像动作

Country Status (4)

Country Link
US (1) US10157190B2 (zh)
EP (1) EP3437015B1 (zh)
CN (1) CN108885691A (zh)
WO (1) WO2017172421A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112514970A (zh) * 2020-12-08 2021-03-19 泰州市朗嘉馨网络科技有限公司 自适应鱼体鳞片去除平台及方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9934431B2 (en) * 2016-07-27 2018-04-03 Konica Minolta Laboratory U.S.A., Inc. Producing a flowchart object from an image
US12079267B2 (en) 2019-02-21 2024-09-03 Canon Kabushiki Kaisha Method and system for image searching and evaluation using tags
US11494884B2 (en) 2019-02-21 2022-11-08 Canon U.S.A., Inc. Method and system for evaluating image sharpness
US11379024B2 (en) 2019-09-26 2022-07-05 Micron Technology, Inc. Systems and methods capable of bypassing non-volatile memory when storing firmware in execution memory
KR102708019B1 (ko) * 2020-01-03 2024-09-23 엘지전자 주식회사 이미지 콘텍스트 처리
JP2021129146A (ja) * 2020-02-10 2021-09-02 キヤノン株式会社 画像処理装置およびその制御方法ならびにプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070046982A1 (en) * 2005-08-23 2007-03-01 Hull Jonathan J Triggering actions with captured input in a mixed media environment
EP1796019A1 (en) * 2005-12-12 2007-06-13 Xerox Corporation Personal information retrieval using knowledge bases for optical character recognition correction
CN101513032A (zh) * 2006-07-03 2009-08-19 恩迪斯有限公司 名片扫描仪
US20120117051A1 (en) * 2010-11-05 2012-05-10 Microsoft Corporation Multi-modal approach to search query input
CN102460431A (zh) * 2009-05-08 2012-05-16 佐科姆有限公司 行为和情境数据分析的系统和方法
CN103098000A (zh) * 2010-07-30 2013-05-08 诺基亚公司 应用程序的执行和显示
CN103339978A (zh) * 2010-12-10 2013-10-02 赛门铁克公司 用于提供改进的作案者成像的技术
CN104704810A (zh) * 2012-07-12 2015-06-10 高途乐公司 图像捕获加速器

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117519B1 (en) 2000-07-26 2006-10-03 Fotomedia Technologies Llc Method and system for selecting actions to be taken by a server when uploading images
US20110072047A1 (en) * 2009-09-21 2011-03-24 Microsoft Corporation Interest Learning from an Image Collection for Advertising
US8810684B2 (en) * 2010-04-09 2014-08-19 Apple Inc. Tagging images in a mobile communications device using a contacts list
KR101606727B1 (ko) 2010-06-25 2016-03-28 엘지전자 주식회사 휴대 단말기 및 그 동작 방법
US8630494B1 (en) 2010-09-01 2014-01-14 Ikorongo Technology, LLC Method and system for sharing image content based on collection proximity
US9110743B2 (en) 2010-12-21 2015-08-18 Microsoft Technology Licensing, Llc Extensible system action for sharing while remaining in context
US9736524B2 (en) 2011-01-06 2017-08-15 Veveo, Inc. Methods of and systems for content search based on environment sampling
US9058611B2 (en) * 2011-03-17 2015-06-16 Xerox Corporation System and method for advertising using image search and classification
EP2718890A4 (en) * 2011-06-06 2014-11-05 Nfluence Media Inc CONSUMER-CONTROLLED ADVERTISING SYSTEM
US9081798B1 (en) 2012-03-26 2015-07-14 Amazon Technologies, Inc. Cloud-based photo management
US20140032666A1 (en) 2012-07-24 2014-01-30 Xtreme Labs Inc. Method and System for Instant Photo Upload with Contextual Data
US8983150B2 (en) 2012-12-17 2015-03-17 Adobe Systems Incorporated Photo importance determination
US9311338B2 (en) 2013-08-26 2016-04-12 Adobe Systems Incorporated Method and apparatus for analyzing and associating behaviors to image content
US20150081703A1 (en) 2013-09-16 2015-03-19 Google Inc. Providing labels for photos
US9111181B2 (en) 2013-12-10 2015-08-18 International Business Machines Corporation Detecting and flagging likely confidential content in photographs to prevent automated dissemination
US9779294B2 (en) * 2014-12-31 2017-10-03 Xiaomi Inc. Methods and devices for classifying pictures

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070046982A1 (en) * 2005-08-23 2007-03-01 Hull Jonathan J Triggering actions with captured input in a mixed media environment
EP1796019A1 (en) * 2005-12-12 2007-06-13 Xerox Corporation Personal information retrieval using knowledge bases for optical character recognition correction
CN101513032A (zh) * 2006-07-03 2009-08-19 恩迪斯有限公司 名片扫描仪
CN102460431A (zh) * 2009-05-08 2012-05-16 佐科姆有限公司 行为和情境数据分析的系统和方法
CN103098000A (zh) * 2010-07-30 2013-05-08 诺基亚公司 应用程序的执行和显示
US20120117051A1 (en) * 2010-11-05 2012-05-10 Microsoft Corporation Multi-modal approach to search query input
CN103339978A (zh) * 2010-12-10 2013-10-02 赛门铁克公司 用于提供改进的作案者成像的技术
CN104704810A (zh) * 2012-07-12 2015-06-10 高途乐公司 图像捕获加速器

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112514970A (zh) * 2020-12-08 2021-03-19 泰州市朗嘉馨网络科技有限公司 自适应鱼体鳞片去除平台及方法

Also Published As

Publication number Publication date
EP3437015B1 (en) 2024-06-12
WO2017172421A1 (en) 2017-10-05
US20170277719A1 (en) 2017-09-28
EP3437015A1 (en) 2019-02-06
US10157190B2 (en) 2018-12-18

Similar Documents

Publication Publication Date Title
CN108885691A (zh) 基于自动特征提取的图像动作
US10459968B2 (en) Image processing system and image processing method
US8447769B1 (en) System and method for real-time image collection and sharing
CN106575195A (zh) 移动设备上的改进的拖放操作
CN109417584B (zh) 基于图像文件参数来建议供删除的图像文件
CN107093066A (zh) 业务实现方法和装置
KR20110096500A (ko) 위치 기반의 통신 방법 및 시스템
KR20140026512A (ko) 하나 이상의 피사체의 이미지에 대한 캡쳐의 자동 최적화 기법
WO2022247539A1 (zh) 活体检测方法、估算网络处理方法、装置、计算机设备和计算机可读指令产品
CN110175849A (zh) 收款方法、装置、设备、服务器及系统
US12056978B2 (en) System, method and computer program product for ascertaining document liveness
US20230334827A1 (en) Methods and systems for providing images for facilitating communication
US20200112838A1 (en) Mobile device that creates a communication group based on the mobile device identifying people currently located at a particular location
JP2008269490A (ja) 画像管理方法、画像管理装置、制御プログラム及びコンピュータ可読記憶媒体
US11689694B2 (en) Information processing apparatus and computer readable medium
US7984033B2 (en) Data control system capable of present current image of writer with data
CN112989922B (zh) 基于人工智能的脸部识别方法、装置、设备和存储介质
CN104978389B (zh) 方法、系统、服务器和客户端
WO2019100925A1 (zh) 图像数据输出
CN109510752B (zh) 信息展示方法及装置
JP2022048092A (ja) 情報処理システム、情報処理方法及びプログラム
JP2017184021A (ja) コンテンツ提供装置及びコンテンツ提供プログラム
KR20210073720A (ko) 안면인식 pos시스템
KR20210061780A (ko) 댓글 기반 수익 창출 시스템
US20240078809A1 (en) Contextual Image Recognition Producing Notifications based on Knowledge Corpus Information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination