CN113614712A - 图像处理装置和方法以及程序 - Google Patents

图像处理装置和方法以及程序 Download PDF

Info

Publication number
CN113614712A
CN113614712A CN202080023015.3A CN202080023015A CN113614712A CN 113614712 A CN113614712 A CN 113614712A CN 202080023015 A CN202080023015 A CN 202080023015A CN 113614712 A CN113614712 A CN 113614712A
Authority
CN
China
Prior art keywords
image
unit
feature
processing
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080023015.3A
Other languages
English (en)
Inventor
近藤学哉
马超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of CN113614712A publication Critical patent/CN113614712A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • G06V10/7788Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/54Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及图像处理装置和方法以及程序,该图像处理装置和方法以及程序可以更容易地对图像执行写操作。基于将书写信息与图像的特征相关联的关联信息来检索与处理对象的图像的特征相对应的书写信息。例如,还可以基于对用户行为的学习结果来检索与处理对象的图像的特征相对应的书写信息。本公开可以应用于例如信息处理装置、图像处理装置、电子设备、图像处理方法、程序等。

Description

图像处理装置和方法以及程序
技术领域
本公开涉及图像处理装置和方法以及程序,并且具体涉及可以更容易地对图像执行写操作的图像处理装置和方法以及程序。
背景技术
照惯例,已经考虑了能够将电子数据的书写信息输入到展示等中的显示图像的系统(例如,参见专利文献1)。
引用列表
专利文献
专利文献1:日本特开2011-141835号公报
发明内容
本发明要解决的问题
然而,在专利文献1中描述的方法的情况下,根据时间来管理写操作,因此用户必须在考虑时间的同时执行写操作,以便获得期望的写操作结果(即,输入书写信息),这需要复杂的工作。
鉴于这种情况而做出了本公开,并且本公开旨在使得更容易对图像执行写操作。
问题的解决方案
本技术的一方面的图像处理装置是一种包括检索单元的图像处理装置,该检索单元基于关联信息来检索与处理对象的图像的特征相对应的书写信息,该关联信息将书写信息与图像的特征相关联。
本技术的一方面的图像处理方法是一种图像处理方法,其包括:基于关联信息来检索与处理对象的图像的特征相对应的书写信息,该关联信息将书写信息与图像的特征相关联。
本技术的一方面的图像处理程序是一种程序,其使计算机充当检索单元,该检索单元基于关联信息来检索与处理对象的图像的特征相对应的书写信息,该关联信息将书写信息与图像的特征相关联。
在本技术的一方面的图像处理装置和方法以及程序中,基于关联信息来检索与处理对象的图像的特征相对应的书写信息,该关联信息将书写信息与图像的特征相关联。
附图说明
图1是说明注释管理的示例的图。
图2是示出注释输出控制装置的主要配置示例的框图。
图3是说明图像显示的示例的图。
图4是说明处理对象图像的示例的图。
图5是说明图像的特征的示例的图。
图6是说明注释的示例的图。
图7是说明处理对象图像的示例的图。
图8是说明图像的特征的示例的图。
图9是说明注释删除的示例的图。
图10是说明处理对象图像的示例的图。
图11是说明图像的特征的示例的图。
图12是说明注释检索的示例的图。
图13是说明注释的示例的图。
图14是示出显示屏幕的示例的图。
图15是说明输出控制处理的流程的示例的流程图。
图16是在图15之后的流程图,说明了输出控制处理的流程的示例。
图17是说明学习处理的流程的示例的流程图。
图18是示出会议系统的主要配置示例的图。
图19是示出主单元的主要配置示例的框图。
图20是示出计算机的主要配置示例的框图。
具体实施方式
下面将描述用于执行本公开的实施例(以下称为实施例)。注意,将按照以下顺序进行描述。
1.注释的管理
2.第一实施例(注释输出控制装置)
3.第二实施例(会议系统)
4.补充
<1.注释的管理>
照惯例,已经考虑了能够将电子数据的书写信息输入到展示等中的显示图像的系统。一般而言,独立于图像数据来管理书写信息的数据,并且即使切换图像显示,也不擦除书写信息。也就是说,对于新显示的图像,无意义的书写信息的显示仍然存在。因此,用户必须手动擦除书写信息,这需要复杂的工作。
在专利文献1中描述的方法的情况下,通过时间来管理轨迹的确定,并且当在一定时间段内不执行写操作时,用户不想擦除的书写信息也被擦除,或者变得无法在不执行菜单操作的情况下执行其他写操作。也就是说,同样在该方法的情况下,用户被要求执行复杂的操作,诸如考虑写操作期间的经过时间,以及被要求执行菜单操作。
另外,在专利文献1中描述的方法的情况下,与指示图像数据的素材信息相关联地管理书写信息的数据。因此,即使切换后的图像与切换前的图像具有高相似度但在数据方面不同,对于切换后的图像,也已经难以显示已经输入给切换前的图像的书写信息。
<与图像特征的关联>
因此,基于将书写信息(注释)与图像的特征相关联的关联信息,检索与处理对象的图像的特征相对应的书写信息(注释)。注意,在本说明书中,书写信息(注释)是可以由用户等编辑(诸如赋予、擦除和处理)的图像信息。书写信息可以用任何图像构成,例如,可以用字符、形状、符号、图案、图片或它们中的多个构成。另外,例如,书写信息可以是评论、注解、圆圈、波浪线等,或者可以是除那些之外的其他。另外,书写信息可以由用户手写,或者可以是被赋予的预先准备的图像或字符。
例如,图像处理装置包括检索单元,该检索单元基于将书写信息与图像的特征相关联的关联信息来检索与处理对象的图像的特征相对应的书写信息。
例如,程序被配置为使计算机充当检索单元,该检索单元基于将书写信息与图像的特征相关联的关联信息来检索与处理对象的图像的特征相对应的书写信息。
通过这样做,在重新显示相同图像的情况下,可以再次显示上次显示的书写信息(也称为注释)。另外,即使图像具有不同的数据,如果图案(其例如表示字符、符号、设计、纹理以及包括在图像中的任何其他内容)是类似的(或者如果它们包括类似的图案),则可以重新显示相同的书写信息。
例如,假定如图1所示顺序地显示图像11、图像12和图像13。当将图像11切换为图像12时,由于在图像12中仅存在字符串“aiueo”,因此擦除在图像11中的字符串“ABCDEFFG”下方描述的书写信息(波浪线)。接下来,当将图像12切换为图像13时,由于在图像13中存在字符串“ABCDEFG”,因此重新显示在图像11中赋予的书写信息(波浪线)。也就是说,即使不执行图像11的情况下的相同写操作,用户也可以容易地在图像13中再现图像11的书写信息。因此,用户可以更容易地对图像执行写操作(与书写信息有关的操作,诸如书写信息的赋予和擦除)。
<2.第一实施例>
<注释输出控制装置>
图2是示出了注释输出控制装置的配置示例的框图,该注释输出控制装置是应用了本技术的信息处理装置的一方面。图2所示的注释输出控制装置100是控制内容图像上的注释(书写信息)的输出(显示等)的装置。注意,如上所述,书写信息(注释)是可以由用户等编辑的图像信息,并且其内容是任意的。另外,内容图像是可以向其赋予书写信息的图像信息,并且内容是任意的。
如图2所示,注释输出控制装置100具有内容输入单元111,图像分析单元112,比较单元113,紧接在前内容特征数据保留单元114,注释操作输入单元115,注释控制单元116,关联单元117,写关联信息存储单元118,检索单元119,输出控制单元120,以及学习单元121。
注意,图2示出了处理单元、数据流等的主要部分,并且图2不一定示出全部。也就是说,注释输出控制装置100可以具有在图2中未示出为方框的处理单元,或者可以具有在图2中未示出为箭头等的处理流程或数据流。
内容输入单元111从另一装置、记录介质等接收内容图像的输入。内容输入单元111将接收到的内容图像作为运动图像的每个帧图像供应给图像分析单元112。注意,输入内容图像可以是运动图像或静止图像。在内容图像是运动图像的情况下,内容输入单元111将运动图像供应给图像分析单元112。另外,在内容图像是静止图像的情况下,内容输入单元111将其中所有帧的帧图像都是内容图像的运动图像供应给图像分析单元112。
图像分析单元112对从内容输入单元111供应的内容图像执行图像分析,并提取其特征。通过这样做,注释输出控制装置100可以基于内容图像的特征来执行对书写信息(注释)的输出控制。因此,用户可以更容易地对内容图像执行写操作。
例如,图像分析单元112获得从内容输入单元111供应的内容图像(运动图像),对该运动图像的每个帧图像执行图像分析,并提取每个帧的特征。注意,在从内容输入单元111供应的运动图像是要用帧间预测进行编码的运动图像的情况下,可以仅对作为处理对象的I帧执行图像分析。
注意,由图像分析单元112提取的内容图像的特征是任意的。例如,它可以是内容图像的亮度的直方图,或者可以是指示内容图像中包括的特征图案的位置的特征点。另外,它可以是字符识别结果。当然,它可以是除这些之外的。另外,图像分析单元112可以提取多种类型的特征。
图像分析单元112将已经提取的内容图像的特征(特征数据)供应给比较单元113。另外,图像分析单元112将内容图像(运动图像)供应给输出控制单元120。
比较单元113获得从图像分析单元112供应的处理对象的内容图像的特征数据。另外,比较单元113从紧接在前内容特征数据保留单元114获得紧接在前的(先前的处理对象的)内容图像的特征数据。
然后,比较单元113比较那些特征数据。也就是说,比较单元113将处理对象的内容图像的特征与紧接在前的内容图像的特征进行比较。通过该比较,可以检测到要输出的内容图像已被切换(切换为不同的图案)。换句话说,比较单元113还可以检测到要输出的内容图像的数据已被切换,但是其图案尚未改变。
例如,比较单元113可以在处理对象的内容图像和紧接在前的内容图像之间比较亮度的直方图(换句话说,基于亮度的直方图将处理对象的内容图像与紧接在前的内容图像进行比较)。另外,例如,比较单元113可以在处理对象的内容图像和紧接在前的内容图像之间比较特征点(换句话说,基于该特征点将处理对象的内容图像与紧接在前的内容图像进行比较),该特征点指示在内容图像中包括的特征图案的位置。另外,比较单元113可以比较多种类型的特征。例如,比较单元113可以在处理对象的内容图像和紧接在前的内容图像之间比较亮度的直方图和特征点(换句话说,基于亮度的直方图和特征点将处理对象的内容图像与紧接在前的内容图像进行比较)。因此,通过比较更多的各种特征,比较单元113可以更准确地检测要输出的内容图像的切换。换句话说,比较单元113可以更准确地检测到要输出的内容图像的数据已被切换但是其图案尚未改变。
另外,比较单元113可以在处理对象的内容图像和紧接在前的内容图像之间比较图像中包括的字符的识别结果(换句话说,基于图像中包括的字符的识别结果将处理对象的内容图像与紧接在前的内容图像进行比较)。例如,除了亮度的直方图和特征点的比较之外,比较单元113还可以比较字符识别结果(换句话说,基于亮度的直方图、特征点和字符识别结果将处理对象的内容图像与紧接在前的内容图像进行比较)。通过这样做,比较单元113可以更准确地检测要输出的内容图像的切换。当然,要比较的特征是任意的,并且不限于这些示例。
此外,比较单元113可以将内容图像的全部或一部分设置为比较对象范围,并在该比较对象范围内比较特征。例如,在由图形和文本组成的内容图像的情况下,比较单元113可以将图形的其中被认为非常频繁地被赋予书写信息的一部分设置为比较对象范围,或者可以将包括图形和文本二者的整个内容图像设置为比较对象范围。通过这样做,可以排除明显没有必要进行比较的区域,因此比较单元113可以更容易地执行比较(可以抑制负载的增加)。
在将内容图像的一部分设置为比较对象范围的情况下,例如,比较单元113可以基于处理对象的内容图像的布局来设置比较对象范围。例如,在内容图像的左上部存在图形并且其他区域由文本构成的情况下,比较单元113可以基于其布局将内容图像的其中存在图形的左上区域设置为比较对象范围。通过这样做,可以更容易地设置比较对象范围。
另外,例如,比较单元113可以基于注释赋予位置的学习结果来设置比较对象范围。例如,在作为学习的结果而很可能向内容图像的左上区域赋予注释的情况下,比较单元113可以基于学习的结果将内容图像的左上区域设置为比较对象范围。通过这样做,可以更准确地设置比较对象范围。
注意,在特征匹配的情况下,比较单元113控制输出控制单元120显示内容图像和注释(书写信息)。
在特征不匹配的情况下,比较单元113将处理对象的内容图像的特征数据作为比较结果供应给检索单元119,以检索与处理对象的内容图像的特征相对应的书写信息(注释)。因此,检索单元119可以根据要输出的内容图像的切换来检索与新图案的内容图像相对应的书写信息。也就是说,注释输出控制装置100可以根据要输出的内容图像的切换来控制书写信息(注释)的输出。因此,用户可以更容易地对内容图像执行写操作。
另外,比较单元113控制注释控制单元116擦除输出书写信息(注释)。
另外,比较单元113控制注释控制单元116以将书写信息的数据(也称为写数据)供应给关联单元117。此外,比较单元113将处理对象的内容图像的特征数据供应给关联单元117。此外,比较单元113将处理对象的内容图像的特征数据供应给紧接在前内容特征数据保留单元114,以保留特征数据。在下一个处理对象的处理中,比较单元113读取特征数据并将其用作紧接在前的内容图像的特征数据。
注意,在上面描述的处理对象的内容图像的特征与紧接在前的内容图像的特征之间的比较中,比较单元113可以得出特征的相似度(即,处理对象的内容图像的图案与紧接在前的内容图像的图案之间的相似度),并基于相似度通过阈值来判定特征的匹配/不匹配。例如,比较单元113可以在相似度高于预定阈值的情况下判定特征匹配,并且可以在相似度等于或低于阈值的情况下判定特征不匹配。通过这样做,比较单元113可以通过设置阈值来控制关于特征是否匹配的判定标准,并且可以执行更灵活的判定。
因此,例如,即使处理对象的内容图像的特征与紧接在前的内容图像的特征不完全匹配(即使在一定程度的相似度的情况下),比较单元113也可以判定特征匹配。例如,将半角字符串“ABCDEFG”、全角字符串“ABCDEFG”、断断续续的字符串“A B C D E F G”等判定为相同的字符串成为可能。因此,注释输出控制装置100可以更适当地执行书写信息的输出控制。因此,用户可以更容易地对内容图像执行写操作。
紧接在前内容特征数据保留单元114具有任意存储介质,获得从比较单元113供应的处理对象的内容图像的特征数据,并将其保留在存储介质中(将其存储在存储介质中)。另外,响应于来自比较单元113等的请求,紧接在前内容特征数据保留单元114将保留在存储介质中的内容图像的特征数据作为紧接在前的内容图像的特征数据来供应。
注释操作输入单元115接收用户等的写操作(也称为注释操作)。也就是说,注释操作输入单元115检测写操作并生成与写操作相对应的写数据。
该写操作的检测方法是任意的。例如,注释操作输入单元115可以通过相机等捕获在显示器上显示的内容图像(或投影到投影平面上的内容图像),并分析捕获的图像,从而检测由用户等执行的写操作(或输入的书写信息)。另外,基于来自被用户用于写操作的输入装置的信号,注释操作输入单元115可以检测由用户等执行的写操作(或输入的书写信息)。
注释操作输入单元115将所生成的写数据供应给注释控制单元116。
注释控制单元116执行与注释有关的处理。与注释有关的处理包括与注释的获得有关的处理,与注释的显示控制有关的处理,以及与注释的供应有关的处理。例如,作为与注释的获得有关的处理,注释控制单元116可以获得从注释操作输入单元115供应的写数据。另外,注释控制单元116还可以获得作为检索结果从检索单元119供应的写数据。另外,注释控制单元116将写数据供应给学习单元121,由此学习单元121可以学习书写信息(注释),并且注释控制单元116可以获得学习结果。
作为与注释的显示控制有关的处理,例如,注释控制单元116可以通过将获得的写数据供应给输出控制单元120并输出书写信息来控制书写信息(注释)的输出。
另外,响应于来自比较单元113等的请求,注释控制单元116还可以擦除正在输出的书写信息(注释)。例如,作为与注释的显示控制有关的处理,在处理对象的图像的特征与紧接在前的图像的特征不匹配的情况下,注释控制单元116可以执行控制以从输出图像中擦除与紧接在前的图像的特征相对应的书写信息。通过这样做,例如,在内容图像被切换的情况下,注释控制单元116可以在没有用户操作的情况下擦除不必要的书写信息。因此,用户可以更容易地对内容图像执行写操作。
另外,注释控制单元116可以根据需要来校正书写信息。例如,注释控制单元116可以使用户手写的线(试图画直线时变形的线)变直,或者可以形成诸如多边形或圆形之类的形状。也就是说,注释控制单元116可以更新写数据。通过这样做,可以使书写信息更具可读性(提高可见性)。因此,用户可以更容易地对内容图像执行写操作。
注意,注释控制单元116可以使用学习单元121的学习结果来校正书写信息。通过这样做,注释控制单元116可以在书写信息的校正中反映例如用户的意图等。也就是说,注释控制单元116可以更适当地校正书写信息。因此,用户可以更容易地对内容图像执行写操作。
作为与注释的供应有关的处理,例如,注释控制单元可以响应于来自比较单元113等的请求而将写数据供应给关联单元117。因此,可以将书写信息与内容图像的特征相关联。另外,注释控制单元116可以将写数据供应给学习单元121。因此,学习单元121可以学习书写信息(注释)。
关联单元117将内容图像的特征与书写信息(注释)相关联。例如,关联单元117获得从比较单元113供应的处理对象的内容图像的特征数据。另外,关联单元117获得从注释控制单元116供应的写数据。
关联单元117将由获得的特征数据指示的处理对象的内容图像的特征与由获得的写数据指示的书写信息(注释)相关联,并生成指示对应关系的写关联信息。换句话说,关联单元117通过写关联信息将特征数据与写数据相关联。也就是说,写关联信息包括相关联的特征数据和写数据。当然,写关联信息可以使用其标识信息将特征数据与写数据相关联,并且特征数据和写数据可以作为与写关联信息不同的数据进行管理。注意,生成写关联信息的频率(数据单位)是任意的。例如,关联单元117可以针对处理对象的内容图像(运动图像)的每一帧生成写关联信息。另外,在处理对象的内容图像(运动图像)是要用帧间预测进行编码的运动图像的情况下,关联单元117可以针对运动图像的I帧生成写关联信息。
关联单元117将所生成的写关联信息供应给写关联信息存储单元118,并使写关联信息存储单元118将其存储。例如,关联单元117将针对每一帧或针对每个I帧生成的写关联信息供应给写关联信息存储单元118,并使写关联信息存储单元118将其存储。在那种情况下,关联单元117可以将写关联信息的与紧接在前的处理对象帧的差异(例如,将处理对象帧的内容图像的特征与书写信息的与紧接在前的处理对象帧的差异相关联的写关联信息)供应给写关联信息存储单元118,并使写关联信息存储单元118将其存储。
写关联信息存储单元118具有任意存储介质,获得从关联单元117供应的写关联信息,并使存储介质将其存储。例如,写关联信息存储单元118存储处理对象的内容图像(运动图像)的每一帧的写关联信息。另外,例如,写关联信息存储单元118存储处理对象的内容图像(运动图像)的每个I帧的写关联信息,该内容图像是要用帧间预测进行编码的运动图像。注意,写关联信息存储单元118可以存储写关联信息的与紧接在前的处理对象帧的差异。
因此,通过生成和存储写关联信息,检索单元119可以通过使用该写关联信息来检索与处理对象的内容图像的特征相对应的书写信息。因此,由于注释输出控制装置100可以输出与内容图像的特征相对应的书写信息,因此用户可以更容易地对内容图像执行写操作。
另外,通过生成和存储每个帧的写关联信息,检索单元119可以总是检索最新的书写信息。因此,由于注释输出控制装置100可以输出最新的书写信息,因此用户可以更容易地对内容图像执行写操作。
另外,通过存储与前一帧的差异,写关联信息存储单元118可以抑制要存储的数据量的增加。因此,可以抑制所需存储容量的增加。因此,可以抑制成本的增加。
另外,写关联信息存储单元118响应于来自检索单元119的请求而将存储在存储介质中的写关联信息供应给检索单元119。
检索单元119执行与书写信息(写数据)的检索有关的处理。例如,当检索单元119获得作为比较结果而从比较单元113供应的处理对象的内容图像的特征数据时,检索单元119参考存储在写关联信息存储单元118中的写关联信息来检索与所获得的处理对象的内容图像的特征相对应的书写信息(与书写信息相对应的写数据)。通过这样做,如上所述,用户可以更容易地对内容图像执行写操作。
另外,在检索时,检索单元119可以获得从学习单元121供应的学习结果(例如,与用户的行为有关的学习结果),并使用该学习结果来执行检索。例如,在用户擦除基于内容图像的特征而显示的书写信息的情况下,书写信息是不必要的,并且有可能要求用户不在内容图像上显示书写信息。另外,可能存在这样一种情况:即使对于相同的内容图像,用户也希望根据情况显示不同的书写信息。由于这种可能性可以通过学习用户的行为而反映在检索中,因此可以检索更适合用户意图的书写信息。因此,由于减少了删除或更新已经输出的书写信息的必要性,所以用户可以更容易地对内容图像执行写操作。
然后,当在检索中找到与处理对象的内容图像的特征相对应的书写信息的情况下,检索单元119从写关联信息存储单元118获得与书写信息相对应的写数据,将其供应给注释控制单元116,并将其供应给输出控制单元120。此外,检索单元119控制输出控制单元120输出叠加在处理对象的内容图像上的书写信息。
另一方面,在未找到与处理对象的内容图像的特征相对应的书写信息的情况下,检索单元119不将写数据供应给注释控制单元116,而是控制输出控制单元120输出内容图像。结果,不输出书写信息(注释),并且仅输出内容图像。
输出控制单元120执行与内容图像和书写信息的显示有关的处理。例如,输出控制单元120获得从图像分析单元112供应的内容图像(运动图像)。另外,输出控制单元120获得从注释控制单元116供应的写数据。输出控制单元120将所获得的内容图像、写数据等供应给后续处理单元等以输出它们。例如,输出控制单元120将由检索单元119检索到的书写信息作为输出图像与处理对象的内容图像一起输出。通过这样做,由于注释输出控制装置100可以输出与内容图像相对应的书写信息,因此用户可以更容易地对内容图像执行写操作。
注意,在本说明书中,该“输出”包括由显示器进行的图像显示,由投影仪进行的图像投影,向存储介质的数据记录,以及向另一装置的供应。
另外,输出控制单元120可以处理要输出的内容图像和书写信息中的至少任何一个。该处理的内容是任意的。例如,输出控制单元120可以通过执行扩大、颜色转换等来突出显示书写信息和与书写信息相对应的内容图像的一部分。通过这样做,例如,可以根据用户的意图来执行输出,诸如更着重于用户已经通过书写信息指示为重要的内容图像的一部分的显示。
注意,输出控制单元120还可以基于用户的行为(输入操作等)、书写信息的内容、关于它们的学习结果等来执行该处理。通过这样做,可以在该输出控制中更准确地反映用户的意图。
注意,输出控制单元120可以通过由例如比较单元113或检索单元119进行控制来执行处理。
学习单元121通过深度学习等来学习诸如用户行为、书写信息和检索结果之类的任意的事项。例如,学习单元121可以获得显示器或用户的捕获图像。另外,学习单元121可以获得从注释控制单元116供应的写数据。此外,学习单元121可以获得与来自检索单元119的检索结果有关的信息。
基于这样的信息,学习单元121学习关于书写信息(注释)的控制结果(即,检索单元119的检索结果)的用户行为,例如,基于检索单元119的检索结果来擦除与内容图像一起显示的书写信息的行为,或者基于检索单元119的检索结果来向其书写信息已被擦除的内容图像赋予新的书写信息的行为。另外,学习单元121还可以学习由用户执行的写操作(例如,书写信息的内容和赋予书写信息的地方)。此外,学习单元121可以学习要提供给检索单元119的信息。当然,学习单元121可以学习任何其他事项。
学习单元121将这些学习结果供应给注释控制单元116、检索单元119和输出控制单元120。当然,学习单元121可以将学习结果供应给任何其他处理单元。通过在处理中反映这样的学习结果,注释输出控制装置100可以更适当地执行与注释输出控制有关的处理。因此,用户可以更容易地对内容图像执行写操作。
注意,这些处理单元具有任意的配置。例如,每个处理单元可以由实现上述处理的逻辑电路构成。另外,每个处理单元可以通过具有例如中央处理单元(CPU)、只读存储器(ROM)、随机存取存储器(RAM)等并通过使用它们执行程序来实现上述处理。当然,每个处理单元可兼有两种配置,并且通过逻辑电路来实现上述处理的一部分并通过执行程序来实现其他部分。每个处理单元的配置可以彼此独立,例如,一些处理单元可以通过逻辑电路来实现上述处理的一部分,一些其他处理单元可以通过执行程序来实现上述处理,然而一些其他处理单元可以通过逻辑电路和程序的执行两者来实现上述处理。
<控制示例>
作为示例,将描述在如在所谓的幻灯片放映中切换要显示的内容图像的情况下的注释的控制示例。例如,假定如图3所示顺序地显示内容图像201、内容图像202和内容图像203。
如图4所示,第一内容图像201包括闹钟的图案,并且还包括下方的字符串“闹钟”。图像分析单元112分析内容图像201,并得出由图5的A中的圆圈指示的特征点(也称为关键点信息(keyPoints_p1))和由图5的B中的曲线指示的亮度的直方图(hist_p1)。
如图6所示,当用户在内容图像201上输入围绕字符串“闹钟”的注释231(书写信息)时,注释操作输入单元115检测到注释231并将其供应给注释控制单元116。注释控制单元116将注释231供应给输出控制单元120以输出注释231。如图6所示,输出控制单元120显示叠加在内容图像201上的注释231。
紧接在前内容特征数据保留单元114针对每个帧保留内容图像201的特征数据。
另外,关联单元117将注释231与内容图像201的特征(直方图(hist_p1)和关键点信息(keyPoints_p1))相关联,并将其作为写关联信息存储在写关联信息存储单元118中。
接下来,要显示的内容图像被切换为内容图像202。
如图7所示,内容图像202包括钢琴的图案,并且还包括下方的字符串“钢琴”。图像分析单元112分析内容图像202,并得出由图8的A中的圆圈指示的特征点(也称为关键点信息(keyPoints_p2))和由图8的B中的曲线指示的亮度的直方图(hist_p2)。
比较单元113将图5所示的内容图像201的特征(特征点和直方图)与图8所示的内容图像202的特征(特征点和直方图)进行比较。例如,比较单元113执行直方图的巴氏(Bhattacharyya)距离(相似度)的推导以及定向FAST和旋转BRIEF(ORB)匹配。
Bhattacharyya_distance(hist_p2,hist_p1)=相似度
ORB_matching(keyPoints_p2,keyPoints_p1)
由于该比较结果是不匹配,因此注释控制单元116擦除注释231(书写信息)。也就是说,如图9所示,仅显示内容图像202。
检索单元119通过使用写关联信息来检索与内容图像202的特征(图8)相对应的注释。在该示例的情况下,由于不存在(未找到)这样的注释,因此输出控制单元120仅显示内容图像202,如图9所示。
在要显示的内容图像被切换为内容图像202之后,紧接在前内容特征数据保留单元114针对每个帧保留内容图像202的特征数据。
接下来,要显示的内容图像被切换为内容图像203。
如图10所示,内容图像203包括闹钟和汽车的图案,并且还包括在闹钟的图案下方的字符串“闹钟”以及在汽车的图案下方的字符串“汽车”。图像分析单元112分析内容图像203,并且得出由图11的A中的圆圈指示的特征点(也称为关键点信息(keyPoints_p3))和由图11的B中的曲线指示的亮度的直方图(hist_p3)。
比较单元113将图8所示的内容图像202的特征(特征点和直方图)与图11所示的内容图像203的特征(特征点和直方图)进行比较。例如,比较单元113执行直方图的巴氏距离(相似度)的推导以及ORB匹配。
Bhattacharyya_distance(hist_p3,hist_p2)=相似度3-2
ORB_matching(keyPoints_p3,keyPoints_p2)
该比较结果是不匹配。
因此,检索单元119通过使用写关联信息来检索与内容图像203的特征(图11)相对应的注释。例如,比较单元113在内容图像203的特征与写关联信息中包括的每个特征之间执行直方图的巴氏距离(相似度)的推导以及ORB匹配。例如,检索单元119在内容图像203与内容图像201之间执行直方图的巴氏距离(相似度)的推导以及ORB匹配。
Bhattacharyya_distance(hist_p3,hist_p1)=相似度3-1
ORB_matching(keyPoints_p3,keyPoints_p1)
图12示出了内容图像203与内容图像201之间的ORB匹配的示例。在内容图像203与内容图像201之间,相似度以巴氏距离计较低,但是通过ORB匹配检测到相似内容。也就是说,在内容图像203与内容图像201之间,闹钟的图案和下方的字符串“闹钟”是共同的。
基于该检索结果,注释控制单元116获得注释231,并将注释231供应给输出控制单元120以输出注释231。如图13所示,输出控制单元120显示叠加在内容图像203(字符串“闹钟”周围的位置)上的注释231(书写信息)。
也就是说,注释231被叠加在内容图像203上并被显示,以使得相对于图案的相对位置变得类似于在注释被叠加在内容图像201上并被显示(坐标不一定匹配)的情况下。因此,注释231被显示在内容图像203上,以具有与内容图像201上的含义类似的含义。因此,用户没有必要对内容图像203重复与对内容图像201执行的写操作类似的写操作。也就是说,用户可以更容易地对内容图像执行写操作。
注意,关联单元117将注释231与内容图像203的特征(直方图(hist_p3)和关键点信息(keyPoints_p3))相关联,并将其作为写关联信息存储在写关联信息存储单元118中。
另外,在要显示的内容图像被切换为内容图像203之后,紧接在前内容特征数据保留单元114针对每个帧保留内容图像203的特征数据。
<用户行为的学习>
接下来,将描述对用户行为的学习。例如,假设在显示器上显示包括如图14所示的内容图像的显示图像251。在被虚线252围绕的显示图像251的一部分中,显示用于注释操作(写操作)的图标。例如,被虚线圆围绕的图标253是“全部删除图标”,其用于当用户操作时集体擦除在显示图像251上显示的注释(书写信息)。
例如,假定注释输出控制装置100检索与内容图像的特征相对应的注释,并将其与内容图像一起显示在显示图像251上。另一方面,假定用户已经通过操作图标253擦除所有注释。在这种情况下,认为用户由于他/她判断注释是不必要的而已经擦除了与内容图像的特征相关联的注释。学习单元121学习这样的用户行为,从而学习用户的意图并将其反映在每个处理中。
通过这样做,注释输出控制装置100可以关于用户的意图更适当地执行注释的输出控制。在以上示例的情况下,即使注释对应于内容图像的特征,注释输出控制装置100也仅在显示图像251上显示内容图像而不显示注释。因此,用户不需要操作图标253。因此,用户可以更容易地对内容图像执行写操作。
<输出控制处理的流程>
接下来,将描述由注释输出控制装置100执行的处理。通过针对内容图像(运动图像)的每一帧执行输出控制处理,注释输出控制装置100如上所述执行注释(书写信息)的输出控制。该输出控制处理的流程的示例将参考图15和图16的流程图进行描述。
当开始输出控制处理时,内容输入单元111在图15的步骤S101中获得要显示的内容图像(处理对象的帧图像)。
在步骤S102中,图像分析单元112分析在步骤S101中获得的处理对象的内容图像,并提取其特征。
在步骤S103中,比较单元113将在步骤S102中提取的处理对象的内容图像的特征与紧接在前的内容图像的特征进行比较。
在步骤S104中,比较单元113判定处理对象的内容图像的特征是否与紧接在前的内容图像的特征相匹配。在已经判定它们匹配的情况下,处理进入步骤S105。
在步骤S105中,注释操作输入单元115判定是否已经输入注释操作(即,是否已经执行写操作)。在判定已经输入注释操作(即,已经执行写操作)的情况下,处理进入步骤S106。
在步骤S106中,注释控制单元116根据输入来更新要显示的注释(书写信息)。也就是说,注释控制单元116将注释操作反映在显示中,并使注释的显示进入最新状态。
在步骤S107中,关联单元117将最新注释与处理对象的内容图像的特征数据关联,并生成写关联信息。
在步骤S108中,写关联信息存储单元118存储在步骤S107中生成的写关联信息。
当步骤S108的处理结束时,处理进入步骤S109。另外,在步骤S105中判定未输入注释操作(即,未执行写操作)的情况下,处理进入步骤S109。
在步骤S109中,输出控制单元120输出处理对象的内容图像。注意,在显示注释的情况下,输出控制单元120将注释叠加在内容图像上以将其输出。
在步骤S110中,紧接在前内容特征数据保留单元114保留处理对象的内容图像(处理对象的帧图像)的特征数据。
当步骤S110的处理结束时,输出控制处理结束。
另外,在步骤S104中判定处理对象的内容图像的特征与紧接在前的内容图像的特征不匹配的情况下,处理进入图16中的步骤S121。
在图16的步骤S121中,注释控制单元116擦除显示的注释。
在步骤S122中,紧接在前内容特征数据保留单元114保留处理对象的内容图像(处理对象的帧图像)的特征数据。
在步骤S123中,检索单元119通过使用写关联信息来检索与处理对象的内容图像的特征相对应的注释。
在步骤S124中,检索单元119判定是否存在与处理对象的内容图像的特征相对应的注释。在已经判定存在(找到)该注释的情况下,处理进入步骤S125。
在步骤S125中,注释控制单元116从检索单元119获得与处理对象的内容图像的特征相对应的注释。
当步骤S125的处理结束时,处理进入步骤S126。另外,在步骤S124中已经判定不存在(未找到)与处理对象的内容图像的特征相对应的注释的情况下,处理进入步骤S126。
在步骤S126中,输出控制单元120输出处理对象的内容图像。注意,在显示注释的情况下,输出控制单元120将注释叠加在内容图像上以将其输出。
当步骤S126的处理结束时,处理返回到图15,并且输出控制处理结束。
通过针对内容图像(运动图像)的每一帧执行这样的输出控制处理,注释输出控制装置100可以根据内容图像的特征来执行注释的输出控制。因此,用户可以更容易地对内容图像执行写操作。
<学习处理的流程>
接下来,将参考图17的流程图描述由学习单元121执行的学习处理的流程的示例。在任意时刻适当地执行该学习处理。
当开始学习处理时,学习单元121在步骤S141中收集与要学习的项目有关的信息,诸如用户的行为。
在步骤S142中,学习单元121学习在步骤S141中收集的信息。
当步骤S142的处理结束时,学习处理结束。
学习单元121因此执行学习处理,由此注释输出控制装置100可以更适当地执行与注释输出控制有关的处理。因此,用户可以更容易地对内容图像执行写操作。
<3.第二实施例>
<会议系统>
图18是示出会议系统的配置示例的图,该会议系统是应用了本技术的信息处理系统的一方面。图18所示的会议系统300是支持在公司中举行的会议、审议等、大学讲座等的系统,该系统将要用于会议或审议的素材图像等显示在显示器上(将它们投影到屏幕等上),并且接收对该素材图像的写操作并显示(投影)与该写操作相对应的书写信息。
例如,用户(会议或审议中的参与者)被分为称为圆荚体(pod)的组。在图18的示例的情况下,形成了A圆荚体至D圆荚体这四个圆荚体。然后,为每个圆荚体举行对主题的讨论,并且当用户对每个圆荚体达成共识时,向所有用户提供展示。
如图18所示,会议系统300具有:主单元301,圆荚体单元302-1至302-4,无线路由器303,终端装置304-11至终端装置304-14,终端装置304-21至终端装置304-24,终端装置304-31至终端装置304-34,终端装置304-41至终端装置304-44,显示器311,显示器312,以及显示器313-1至显示器313-4。在下文中,在描述时不需要彼此区分圆荚体单元302-1至302-4的情况下,将它们称为圆荚体单元302。另外,在描述时不需要彼此区分终端装置304-11至304-14、终端装置304-21至304-24、终端装置304-31至304-34以及终端装置304-41至304-44的情况下,将它们称为终端装置304。此外,在描述时不需要彼此区分显示器313-1至313-4的情况下,将它们称为显示器313。
主单元301执行与会议系统300的每个装置的控制有关的处理。例如,主单元301执行注释(书写信息)的输出控制。
圆荚体单元302执行与圆荚体单元302自身所对应于的圆荚体中的每个装置的控制有关的处理。
无线路由器303构成无线局域网(LAN),并实现会议系统300的每个装置之间的无线通信。因此,实现了例如如图18中的虚线所示的在主单元301与每个圆荚体单元302之间的通信。另外,实现了例如在每个圆荚体单元302与每个终端装置304之间的通信。此外,实现了例如在主单元301、每个圆荚体单元302、每个终端装置304和显示器311至313之间的通信。
例如,A圆荚体的用户操作终端装置304-11至304-14以在A圆荚体中进行讨论。显示器313-1用作A圆荚体的共享显示器。圆荚体单元302-1控制显示器313-1的显示。例如,圆荚体单元302-1获得诸如从终端装置304-11至304-14供应的素材图像之类的内容图像,并将该内容图像显示在显示器313-1上。
显示器313-1具有诸如触摸屏或相机之类的输入装置,并接收A圆荚体的用户的输入操作。圆荚体单元302-1基于该输入操作来控制显示器313-1的显示。例如,圆荚体单元302-1从供应自终端装置304-11至304-14的内容图像当中选择用户指定的内容图像,并将该内容图像以放大的方式显示在显示器313-1上。
另外,圆荚体单元302-1通过应用上面在<1.注释的管理>和<2.第一实施例>中描述的本技术来对显示器313-1执行注释的输出控制。例如,圆荚体单元302-1经由显示器313-1的输入装置接收对显示在显示器313-1上的内容图像的注释操作(写操作),并在显示器313-1上显示叠加在内容图像上的与注释操作相对应的注释(书写信息)。另外,圆荚体单元302-1根据要在显示器313-1上显示的内容图像的切换等来控制注释的显示。
通过这样做,A圆荚体的用户可以在A圆荚体中的讨论中更容易地对图像执行写操作。
对B至D圆荚体执行与A圆荚体中的处理类似的处理。
例如,圆荚体单元302-2为B圆荚体的用户获得诸如从终端装置304-21至304-24供应的素材图像之类的内容图像,并为B圆荚体在显示器313-2上显示该内容图像。另外,圆荚体单元302-2通过应用上面在<1.注释的管理>和<2.第一实施例>中描述的本技术来对显示器313-2执行注释的输出控制。通过这样做,B圆荚体的用户可以在B圆荚体中的讨论中更容易地对图像执行写操作。
另外,例如,圆荚体单元302-3为C圆荚体的用户获得诸如从终端装置304-31至304-34供应的素材图像之类的内容图像,并为C圆荚体在显示器313-3上显示该内容图像。另外,圆荚体单元302-3通过应用上面在<1.注释的管理>和<2.第一实施例>中描述的本技术来对显示器313-3执行注释的输出控制。通过这样做,C圆荚体的用户可以在C圆荚体中的讨论中更容易地对图像执行写操作。
此外,例如,圆荚体单元302-4为D圆荚体的用户获得诸如从终端装置304-41至304-44供应的素材图像之类的内容图像,并为D圆荚体在显示器313-4上显示该内容图像。另外,圆荚体单元302-4通过应用上面在<1.注释的管理>和<2.第一实施例>中描述的本技术来对显示器313-4执行注释的输出控制。通过这样做,D圆荚体的用户可以在D圆荚体中的讨论中更容易地对图像执行写操作。
主单元301控制显示器311和显示器312的显示。例如,通过从每个圆荚体单元302获得内容图像,主单元301可以将在每个显示器313上显示的素材图像(从每个终端装置304供应的素材图像)作为内容图像显示在显示器311和312上。
例如,在每个圆荚体中的讨论结束并且讨论的内容被展示给所有其他的情况下,展示用户使显示器311和显示器312将显示在他/她自己的圆荚体的显示器313上的素材图像显示为内容图像,并使用素材图像进行展示。当另一用户进行展示时,新的展示用户通过切换要在显示器311和显示器312上显示的素材图像来进行类似的展示。
主单元301通过与每个圆荚体单元302、显示器311和显示器312进行通信来执行这种显示控制。
另外,类似于显示器313的情况,显示器311和显示器312也具有诸如触摸屏和相机之类的输入装置,并且接收用户的输入操作。该输入装置允许例如展示用户和协调用户(例如,主持人,老师,主管,组织者,等等)对在显示器311和显示器312上显示的素材图像执行写操作。
主单元301通过应用上面在<1.注释的管理>和<2.第一实施例>中描述的本技术来对显示器311和显示器312执行注释的输出控制。例如,主单元301经由显示器311和显示器312的输入装置接收对在显示器311和显示器312上显示的内容图像的注释操作(写操作),并在显示器上显示叠加在内容图像上的与注释操作相对应的注释(书写信息)。另外,主单元301根据要在显示器311和显示器312上显示的内容图像的切换等来控制注释的显示。
通过这样做,用户可以在向所有其他人等的展示中更容易地对图像执行写操作。
<主单元>
图19是示出主单元301的主要配置示例的框图。如图19所示,主单元301具有数据输入单元401、操作输入单元402、数据处理单元403、存储单元404、显示控制单元405以及数据输出单元406。
注意,图19示出了处理单元的主要部分、数据流等,并且图19不一定示出全部。也就是说,主单元301可以具有在图19中未示出为方框的处理单元,或者可以具有在图19中未示出为箭头等的处理流程或数据流。
数据输入单元401具有接收数据输入的装置,例如通信接口、驱动器和外部输入端子。使用该装置,数据输入单元401获得从外部供应的数据(例如,内容图像等)。数据输入单元401将获得的数据供应给数据处理单元403。
操作输入单元402例如具有诸如相机或触摸屏之类的输入装置,并且接收用户等的输入操作(例如,写操作)。操作输入单元402将与所接收的输入操作有关的信息供应给数据处理单元403。
数据处理单元403对从数据输入单元401或操作输入单元402供应的数据执行信息处理。该处理的内容是任意的。数据处理单元403将处理后的数据供应给存储单元404,以将其存储并将其供应给显示控制单元405。
存储单元404具有任意存储介质,并且存储从数据处理单元403供应的数据。另外,存储单元404将存储在存储介质中的数据供应给显示控制单元405。
显示控制单元405基于例如从数据处理单元403供应的数据、从存储单元404读取的数据等来执行与显示器311和显示器312的显示控制有关的处理。例如,显示控制单元405具有注释输出控制装置100的功能,并且,与注释输出控制装置100的情况类似,通过应用上面在<1.注释的管理>和<2.第一实施例>中描述的本技术来执行对注释的输出控制。利用该控制,用户可以更容易地对图像执行写操作。显示控制单元405将显示图像、其控制信息等供应给数据输出单元406。
数据输出单元406根据从显示控制单元405供应的控制信息将显示图像供应给显示器311和显示器312,并且在显示器311和显示器312上显示该显示图像。
如上所述,由于主单元301执行应用了本技术的注释的输出控制,因此会议系统300的用户可以更容易地对图像执行写操作。
注意,尽管上面已经描述了会议系统300,但是会议系统300的配置是任意的,并且不限于图18所示的示例。另外,应用了本技术的注释的输出控制可以由例如圆荚体单元302执行,或者可以由终端装置304执行。另外,应用了本技术的注释的输出控制可以由除图18所示的配置之外的诸如服务器或云之类的装置等来执行。
另外,本技术可以应用于能够对所显示的内容图像执行写操作(执行注释操作)的任何装置和系统。例如,本技术还可以应用于其中共享工作区域并对每个用户所共享的素材图像执行写操作的电话会议系统。另外,本技术还可以应用于这样一种系统,其中,例如,将内容图像投影到白板上,并且将用户用笔等在投影图像上实际绘制的图案(字符、形状、符号等)作为注释(书写信息)来管理。
<4.补充>
<计算机>
上述一系列处理可以由硬件执行,或者可以由软件执行。在通过软件执行一系列处理的情况下,在计算机中安装构成该软件的程序。这里,计算机包括结合在专用硬件中的计算机,以及例如能够通过安装各种程序来执行各种功能的通用个人计算机。
图20是示出通过程序执行上述一系列处理的计算机的硬件的配置示例的框图。
在图20所示的计算机900中,中央处理单元(CPU)901、只读存储器(ROM)902和随机存取存储器(RAM)903经由总线904互连。
输入/输出接口910也连接到总线904。输入单元911、输出单元912、存储单元913、通信单元914和驱动器915连接到输入/输出接口910。
输入单元911包括例如键盘、鼠标、麦克风、触摸屏和输入端子。输出单元912包括例如显示器、扬声器和输出端子。存储单元913包括例如硬盘、RAM盘和非易失性存储器。通信单元914包括例如网络接口。驱动器915驱动可移动介质921,诸如磁盘、光盘、磁光盘或半导体存储器。
在如上所述配置的计算机中,CPU 901经由输入/输出接口910和总线904将存储在例如存储单元913中的程序加载到RAM 903中,并执行该程序,从而执行上述一系列处理。另外,RAM 903适当地存储CPU 901执行各种类型的处理所必需的数据。
例如,计算机所执行的程序可以通过记录在作为包装介质的可移动介质921中而被应用。在那种情况下,通过将可移动介质921安装到驱动器915,可以经由输入/输出接口910将程序安装到存储单元913。
另外,还可以经由诸如局域网、因特网或数字卫星广播之类的有线或无线的传输介质来提供该程序。在那种情况下,可以通过通信单元914接收程序并将其安装在存储单元913中。
除此之外,该程序可以预先安装在ROM 902或存储单元913中。
<本技术的应用对象>
另外,本技术可以应用于任意配置。例如,本技术还可以被实现为诸如以下各项的装置的一部分的配置:作为系统大规模集成(LSI)的处理器(例如,视频处理器),使用多个处理器的模块(例如,视频模块),使用多个模块的单元(例如,视频单元),或者将其他功能进一步添加到该单元的集合(例如,视频集)。
另外,例如,本技术还可以应用于由多个装置构成的网络系统。例如,本技术可被实现为云计算,其中本技术被多个装置经由网络共享并共同处理。例如,本技术还可以在云服务中实现,该云服务在诸如计算机、视听(AV)设备、便携式信息处理终端和物联网(IoT)装置之类的任意终端上提供与图像(运动图像)有关的服务。
注意,在本说明书中,系统表示多个组件(装置、模块(部件)等)的集合,并且所有组件是否都在同一壳体中并不重要。因此,容纳在单独的壳体中并经由网络连接的多个装置和其中多个模块容纳在单个壳体中的单个装置都是系统。
<本技术适用的领域和用途>
应用了本技术的系统、装置、处理单元等可以在诸如运输、医疗、预防犯罪、农业、畜牧业、采矿、美容、工厂、家用电器、天气、自然监测等的任何领域中使用。另外,其用途也是任意的。
<其他>
本技术的实施例不限于上述实施例,并且可以在不脱离本技术的要旨的范围内进行各种修改。
例如,被描述为一个装置(或处理单元)的配置可被划分为多个装置(或处理单元)。相反,上面描述为多个装置(或处理单元)的配置可被共同配置为单个装置(或处理单元)。另外,可以将除了上述配置之外的配置添加到每个装置(或每个处理单元)的配置。此外,如果作为整个系统的配置和操作基本相同,则一个装置(或处理单元)的配置的一部分可以包括在另一装置(或另一处理单元)的配置中。
另外,例如,可以在任意装置中执行上述程序。在那种情况下,仅要求该装置具有必要的功能(功能块等)和获得必要的信息。
另外,例如,一个流程图的每个步骤可以由一个装置执行,或者可以由多个装置以共享的方式执行。此外,在一个步骤中包括多个处理的情况下,可以由一个装置执行这多个处理,或者可以由多个装置以共享的方式执行这多个处理。换句话说,一个步骤中包括的多个处理可被执行为多个步骤的处理。相反,被描述为多个步骤的处理可以作为一个步骤共同执行。
另外,例如,在由计算机执行的程序中,描述该程序的步骤的处理可以按照本说明书中描述的顺序按时间顺序执行,或者可以在诸如打电话时的必要时刻并行执行或单独执行。也就是说,只要没有矛盾,就可以按照与上述顺序不同的顺序执行每个步骤的处理。此外,描述程序的步骤的处理可以与另一程序的处理并行地执行,或者可以与另一程序的处理相结合地执行。
另外,例如,只要没有矛盾,就可以彼此独立地实现与本技术有关的多种技术。当然,可以相结合地实现多种任意的本技术。例如,在任何实施例中描述的一些或全部本技术可以与在另一实施例中描述的一些或全部本技术相结合地实现。另外,可以与上面未描述的另一种技术相结合地实现上面描述的一些或全部任意本技术。
注意,本技术可以具有以下配置。
(1)一种图像处理装置,包括:
检索单元,其基于将书写信息与图像的特征相关联的关联信息,检索与处理对象的图像的特征相对应的书写信息。
(2)根据(1)所述的图像处理装置,还包括:
学习单元,学习针对检索单元的检索结果的用户的行为,其中,
检索单元还基于学习单元对用户的行为的学习结果来检索与处理对象的图像的特征相对应的书写信息。
(3)根据(2)所述的图像处理装置,其中
用户的行为包括:基于检索单元的检索结果来擦除与处理对象的图像一起显示的书写信息的行为,以及对处理对象的图像添加书写信息的行为。
(4)根据(1)至(3)中的任一项所述的图像处理装置,还包括:
输出控制单元,其将由检索单元检索到的书写信息作为输出图像与处理对象的图像一起输出。
(5)根据(4)所述的图像处理装置,其中
输出控制单元对要输出的处理对象的图像和书写信息中的至少任意一个进行加工处理。
(6)根据(1)至(5)中的任一项所述的图像处理装置,还包括:
注释处理单元,其执行与书写信息针对处理对象的图像的显示控制有关的处理。
(7)根据(6)所述的图像处理装置,其中
作为与显示控制有关的处理,在处理对象的图像的特征与紧接在前的图像的特征不匹配的情况下,注释处理单元执行控制以从输出图像中擦除与紧接在前的图像的特征相对应的书写信息。
(8)根据(6)或(7)所述的图像处理装置,其中
作为与显示控制有关的处理,注释处理单元校正书写信息。
(9)根据(1)至(8)中的任一项所述的图像处理装置,还包括:
关联单元,其将要与处理对象的图像一起输出的书写信息与处理对象的图像的特征相关联,以生成关联信息;和
存储单元,其存储由关联单元生成的关联信息。
(10)根据(9)所述的图像处理装置,其中
关联单元针对每一帧生成关联信息。
(11)根据(9)或(10)所述的图像处理装置,其中
存储单元存储关联信息与前一帧的差异。
(12)根据(1)至(11)中的任一项所述的图像处理装置,还包括:
比较单元,其将处理对象的图像的特征与紧接在前的图像的特征进行比较,其中
在比较单元判定处理对象的图像的特征与紧接在前的图像的特征不匹配的情况下,检索单元检索与处理对象的图像的特征相对应的书写信息。
(13)根据(12)所述的图像处理装置,其中
比较单元基于图像的特征点和直方图将处理对象的图像与紧接在前的图像进行比较。
(14)根据(13)所述的图像处理装置,其中
比较单元还基于图像中包括的字符的识别结果将处理对象的图像与紧接在前的图像进行比较。
(15)根据(12)至(14)中的任一项所述的图像处理装置,其中
比较单元将处理对象的图像的全部或一部分设置为比较对象范围,并且将该比较对象范围内的特征与紧接在前的图像进行比较。
(16)根据(15)所述的图像处理装置,其中
比较单元基于处理对象的图像的布局来设置比较对象范围。
(17)根据(15)或(16)所述的图像处理装置,其中
比较单元基于书写信息的赋予位置的学习结果来设置比较对象范围。
(18)根据(12)至(17)中的任一项所述的图像处理装置,还包括:
图像分析单元,其分析处理对象的图像并提取该图像的特征,其中
比较单元将由图像分析单元提取的处理对象的图像的特征与紧接在前的图像的特征进行比较,并且
检索单元检索与由图像分析单元提取的处理对象的图像的特征相对应的书写信息。
(19)一种图像处理方法,包括:
基于将书写信息与图像的特征相关联的关联信息,检索与处理对象的图像的特征相对应的书写信息。
(20)一种程序,其使计算机充当
检索单元,该检索单元基于将书写信息与图像的特征相关联的关联信息,检索与处理对象的图像的特征相对应的书写信息。
标号列表
100 注释输出控制装置
111 内容输入单元
112 图像分析单元
113 比较单元
114 紧接在前内容特征数据保留单元
115 注释操作输入单元
116 注释控制单元
117 关联单元
118 写关联信息存储单元
119 检索单元
120 输出控制单元
121 学习单元
300 会议系统
301 主单元
302 圆荚体单元
303 无线路由器
304 终端装置
311至313 显示器
405 显示控制单元。

Claims (20)

1.一种图像处理装置,包括:
检索单元,基于将书写信息与图像的特征相关联的关联信息,检索与处理对象的图像的特征相对应的书写信息。
2.根据权利要求1所述的图像处理装置,还包括:
学习单元,学习针对所述检索单元的检索结果的用户的行为,其中,
所述检索单元还基于所述学习单元对所述用户的行为的学习结果来检索与所述处理对象的图像的特征相对应的书写信息。
3.根据权利要求2所述的图像处理装置,其中,
所述用户的行为包括:基于所述检索单元的检索结果来擦除与所述处理对象的图像一起显示的书写信息的行为,以及对所述处理对象的图像添加书写信息的行为。
4.根据权利要求1所述的图像处理装置,还包括:
输出控制单元,将由所述检索单元检索到的书写信息与所述处理对象的图像一起作为输出图像而输出。
5.根据权利要求4所述的图像处理装置,其中,
所述输出控制单元对要输出的所述处理对象的图像和所述书写信息中的至少任意一个进行加工处理。
6.根据权利要求1所述的图像处理装置,还包括:
注释处理单元,执行与书写信息针对所述处理对象的图像的显示控制有关的处理。
7.根据权利要求6所述的图像处理装置,其中,
作为与所述显示控制有关的处理,在所述处理对象的图像的特征与紧接在前的图像的特征不匹配的情况下,所述注释处理单元执行控制,使得从输出图像中擦除与所述紧接在前的图像的特征相对应的书写信息。
8.根据权利要求6所述的图像处理装置,其中,
作为与所述显示控制有关的处理,所述注释处理单元对书写信息进行校正。
9.根据权利要求1所述的图像处理装置,还包括:
关联单元,将要与所述处理对象的图像一起输出的书写信息与所述处理对象的图像的特征相关联,以生成所述关联信息;以及
存储单元,存储由所述关联单元生成的所述关联信息。
10.根据权利要求9所述的图像处理装置,其中,
所述关联单元针对每一帧生成所述关联信息。
11.根据权利要求9所述的图像处理装置,其中,
所述存储单元存储所述关联信息与前一帧的差异。
12.根据权利要求1所述的图像处理装置,还包括:
比较单元,将所述处理对象的图像的特征与紧接在前的图像的特征进行比较,其中,
在所述比较单元判定为所述处理对象的图像的特征与所述紧接在前的图像的特征不匹配的情况下,所述检索单元检索与所述处理对象的图像的特征相对应的书写信息。
13.根据权利要求12所述的图像处理装置,其中,
所述比较单元基于图像的直方图和特征点来将所述处理对象的图像与所述紧接在前的图像进行比较。
14.根据权利要求13所述的图像处理装置,其中,
所述比较单元还基于所述图像中包括的字符的识别结果来将所述处理对象的图像与所述紧接在前的图像进行比较。
15.根据权利要求12所述的图像处理装置,其中,
所述比较单元将所述处理对象的图像的全部或一部分设置为比较对象范围,并且将所述比较对象范围内的特征与所述紧接在前的图像进行比较。
16.根据权利要求15所述的图像处理装置,其中,
所述比较单元基于所述处理对象的图像的布局来设置所述比较对象范围。
17.根据权利要求15所述的图像处理装置,其中,
所述比较单元基于书写信息的赋予位置的学习结果来设置所述比较对象范围。
18.根据权利要求12所述的图像处理装置,还包括:
图像分析单元,分析所述处理对象的图像并提取所述图像的特征,其中,
所述比较单元将由所述图像分析单元提取的所述处理对象的图像的特征与所述紧接在前的图像的特征进行比较,并且
所述检索单元检索与由所述图像分析单元提取的所述处理对象的图像的特征相对应的书写信息。
19.一种图像处理方法,包括:
基于将书写信息与图像的特征相关联的关联信息,检索与处理对象的图像的特征相对应的书写信息。
20.一种程序,使计算机用作:
检索单元,基于将书写信息与图像的特征相关联的关联信息,检索与处理对象的图像的特征相对应的书写信息。
CN202080023015.3A 2019-03-29 2020-03-17 图像处理装置和方法以及程序 Pending CN113614712A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019065382 2019-03-29
JP2019-065382 2019-03-29
PCT/JP2020/011585 WO2020203238A1 (ja) 2019-03-29 2020-03-17 画像処理装置および方法、並びに、プログラム

Publications (1)

Publication Number Publication Date
CN113614712A true CN113614712A (zh) 2021-11-05

Family

ID=72668621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080023015.3A Pending CN113614712A (zh) 2019-03-29 2020-03-17 图像处理装置和方法以及程序

Country Status (4)

Country Link
EP (1) EP3926491A4 (zh)
JP (1) JPWO2020203238A1 (zh)
CN (1) CN113614712A (zh)
WO (1) WO2020203238A1 (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060308A1 (en) * 2003-08-26 2005-03-17 International Business Machines Corporation System, method, and recording medium for coarse-to-fine descriptor propagation, mapping and/or classification
JP2006277167A (ja) * 2005-03-29 2006-10-12 Fuji Xerox Co Ltd アノテーションデータ処理プログラム、装置、方法
JP5153795B2 (ja) 2010-01-08 2013-02-27 シャープ株式会社 入出力装置及びコンピュータプログラム
US9239848B2 (en) * 2012-02-06 2016-01-19 Microsoft Technology Licensing, Llc System and method for semantically annotating images
EP2672396A1 (en) * 2012-06-08 2013-12-11 ETH Zürich Method for annotating images
US9323367B2 (en) * 2012-06-22 2016-04-26 Smart Technologies Ulc Automatic annotation de-emphasis
JP6298594B2 (ja) * 2013-01-17 2018-03-20 株式会社Pfu 情報処理装置、方法およびプログラム

Also Published As

Publication number Publication date
WO2020203238A1 (ja) 2020-10-08
EP3926491A1 (en) 2021-12-22
EP3926491A4 (en) 2022-04-13
JPWO2020203238A1 (zh) 2020-10-08
US20220147240A1 (en) 2022-05-12

Similar Documents

Publication Publication Date Title
US20090316961A1 (en) Method for tagging image content
US11475588B2 (en) Image processing method and device for processing image, server and storage medium
US20180225514A1 (en) Identifying objects in an image
WO2020029466A1 (zh) 图像处理方法和装置
JP2015529354A (ja) 顔認識のための方法および装置
CN111931591A (zh) 用于构建关键点学习模型的方法、装置、电子设备及可读存储介质
CN112381104A (zh) 一种图像识别方法、装置、计算机设备及存储介质
US20200265238A1 (en) Methods and Systems for Identification and Augmentation of Video Content
US11836184B2 (en) Automatic metadata detector based on images
KR20210090576A (ko) 품질을 관리하는 방법, 장치, 기기, 저장매체 및 프로그램
JP2017111731A (ja) 情報処理システム、情報処理方法、プログラム
CN110619656A (zh) 基于双目摄像头的人脸检测跟踪方法、装置及电子设备
JP7422548B2 (ja) ラベルノイズ検出プログラム、ラベルノイズ検出方法及びラベルノイズ検出装置
CN110909768B (zh) 一种标注数据获取方法及装置
US20190227634A1 (en) Contextual gesture-based image searching
KR102440198B1 (ko) 시각 검색 방법, 장치, 컴퓨터 기기 및 저장 매체 (video search method and apparatus, computer device, and storage medium)
WO2019180666A1 (en) Computer vision training using paired image data
JP6914724B2 (ja) 情報処理装置、情報処理方法及びプログラム
US10691884B2 (en) System and method for cheque image data masking using data file and template cheque image
CN110475139B (zh) 一种视频字幕的遮挡方法、装置、存储介质及电子设备
CN113614712A (zh) 图像处理装置和方法以及程序
US12001669B2 (en) Searching for write information corresponding to a feature of an image
CN111666936A (zh) 标注方法及装置和系统、电子设备和存储介质
US11621000B2 (en) Systems and methods for associating a voice command with a search image
CN109299294B (zh) 应用中的资源搜索方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination