CN1200537C - 媒体编辑方法及其装置 - Google Patents

媒体编辑方法及其装置 Download PDF

Info

Publication number
CN1200537C
CN1200537C CNB011330686A CN01133068A CN1200537C CN 1200537 C CN1200537 C CN 1200537C CN B011330686 A CNB011330686 A CN B011330686A CN 01133068 A CN01133068 A CN 01133068A CN 1200537 C CN1200537 C CN 1200537C
Authority
CN
China
Prior art keywords
image
media editing
user
face
image sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB011330686A
Other languages
English (en)
Other versions
CN1344084A (zh
Inventor
今川和幸
高田雄二
松尾英明
岩佐克博
吉村哲也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1344084A publication Critical patent/CN1344084A/zh
Application granted granted Critical
Publication of CN1200537C publication Critical patent/CN1200537C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/41407Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance embedded in a portable device, e.g. video client on a mobile phone, PDA, laptop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4331Caching operations, e.g. of an advertisement for later insertion during playback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8543Content authoring using a description language, e.g. Multimedia and Hypermedia information coding Expert Group [MHEG], eXtensible Markup Language [XML]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/38Displays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/53Centralised arrangements for recording incoming messages, i.e. mailbox systems
    • H04M3/5307Centralised arrangements for recording incoming messages, i.e. mailbox systems for recording messages comprising any combination of audio and non-audio components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/567Multimedia conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • H04N2007/145Handheld terminals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/18Information format or content conversion, e.g. adaptation by the network of the transmitted or received information for the purpose of wireless delivery to users or terminals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/02Terminal devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Television Signal Processing For Recording (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明揭示一种媒体编辑方法及其装置,包括活动图像数据保存部(14)保存用户进行录像、录音所得的活动图像数据。区域提取部(17)从该数据提取包含用户的区域。正面判定部(18)检测所提取区域内用户是否朝向正面。声音检测部(19)检测活动图像数据中是否有规定电平以上的声音。帧选择部(20)根据正面判定部(18)和声音检测部(19)的输出结果,确定起始帧和结束帧。编辑部(21)根据确定的起始帧和结束帧,剪裁媒体,并进行图像变换的编辑。发送数据保存部(15)将编辑的媒体作为发送数据保存。所提供的媒体编辑装置能在便携终端的通信终端方便地编制包含消息的媒体。

Description

媒体编辑方法及其装置
技术领域
本发明涉及包含静止图像或活动图像的媒体的编辑方法及其装置,特别涉及可视电话、电视会议、可视函件、可视交谈、门电话(内部对讲电话)等,至少采用图像进行通信时,编辑包含有关图像的媒体用的媒体编辑方法及其装置。
背景技术
以往已提出的装置在数字光盘、数字镜物照像机、录像带、半导体存储器等中记录并重放会议、演讲、采访、会面、使用电话和可视电话等的会话等的声音和图像、来自电视机和监视摄像机等的图像等。与记录者通过笔记仅记录应记录信息的要点的方法相比,这种装置具有可用声音和图像的形式无遗漏地记录信息的优点,因而近年来广泛采用。
近来,随着广泛利用宽带通信,以个人为主,用可视电话、门电话或带摄像机的便携终端的信息设备处理声音和图像以进行通信的场所不断增多。例如,以文本相互通信的已有电子函件正在改变为采用声音和活动图像的可视函件等。随着可视电话的普及,用声音的录音电话(录音秘书电话)正在改变为采用图像和声音的记录电话等,同时用声音和活动图像进行通信的场所不断增多。
这里,例如采用可视函件和活动图像的记录电话那样,暂存消息等数据用作媒体时,通常经历以下的步骤:
(1)首先按压进行录像的设备的录像启动键。
(2)其次,对要传送的消息进行录像;
(3)最后,按压结束键。
本发明各实施形态中,媒体是指静止图像和活动图像等构成的通信用消息(或其数据)。
通过通信线路将存储的消息送到别处时,通常经历以下的步骤:
(4)确定递送所存储消息中的起止处,仅剪裁该部分递送。
如可视函件那样,对朋友等寄送消息时,有时也经历以下的步骤:
(5)进行对消息施加花纹等装饰,增添人物等图画,部分剪裁图像等的媒体编辑。
上述步骤中,在步骤(4)确定实际递送消息起止处(即剪裁的起点和终点时),用户必须重放存储的消息,一面进行确认,一面确定剪裁的起点和终点。但是,使用带摄像机的便携终端的录音电话时,难以进行甚至不可能进行上述那样的媒体编辑作业。
因此,最好在执行上述步骤(3)的时刻,不再次重放消息,而确定要递送的范围,并加以剪裁。作为这种方法,日本特开平6-343146号公告揭示的方法是消息记录中进行用户输入,并从进行该输入的时刻开始,仅重放一定时间的信号。但是利用该方法,作为消息,只能重放记录者进行用户输入的时刻所决定的一定时间内的声音和图像,超过该一定时间的消息,完全不能重放。而且,仅由用户输入的时刻决定剪裁范围,因而要求慎重操作,同时操作本身也麻烦。
因此,最好不象上述已有例那样要求用户输入,而自动检测符合预先设定的规定条件的范围,并剪裁活动图像,作为这种方法,日本特开平9-294239号公告揭示的方法是在输入话音信息和图像信息中检测符合预先设定的规定条件的范围,并进行剪裁。而且,揭示了该规定条件为有无规定电平以上的声音信号、图像亮度变化和色分布变化和摄像机(图像)的动态。
发明内容
然而,在采用几乎单人面对摄像机进行消息录像之类的通常可视函件和活动图像的录音电话的情况下,用上述已有例的方法,存在以下问题。
首先,将有无声音信号作为条件对活动图像进行,不适合门电话和可视电话中的记录。其原因在于,尽管想知道谁来访问(或谁打来电话)也完全没有对声音消息录音时,不可能剪裁。将图像亮度变化和摄像机(图像)的动态作为条件也不合适。这是因为通常的可视函件和采用活动图像的记录电话的情况下,图像亮度变化和图像活动小的居多,很难剪裁适当的范围。
上述已有例中,检测符合预先设定的规定条件的全部范围并进行剪裁,但在可视函件和采用活动图像的记录电话的情况下,在消息中途进行多次剪裁,则分解为多个消息。例如将有无声音信号作为条件时,一件消息中途暂时无声或重新启动消息时,消息分解为多个。然而,在电子函件和录音电话的情况下,希望这些构成一件消息。既使假设组合上述多个消息,作为一个消息,也包含不自然的间断。
在如上述步骤(5)那样,可视函件等中又进行装饰又编辑显示画面的情况下,有关操作通常繁杂,因此,当前可视函件装饰和编辑不普遍。例如,象娱乐中心等可看到的娱乐用自动摄像装置那样,都停留在对静止图像施加墙纸等装饰的形态和对文本电子函件加静止的人物图像的形态。尤其是使用市售便携电话终端时,希望仅用拇指操作,因而装饰和编辑操作容易变回更繁杂。然而,为了在便携终端的小显示画面内适当配置需要的信息,媒体编辑处理尤其重要。可是,适合便携终端的简单媒体编辑方法,不存在已有技术例。
因此,本发明要解决的技术问题是提供一种媒体编辑方法,能对包含几乎单一人物面对摄像机录制的活动图像的媒体进行适当且简单编辑。
本发明为解决前述的技术问题,具有以下所述的特征。
本发明是一种媒体编辑方法,对包含将用户的一部分或全部作为被摄体拍摄的多幅图像组成的图像系列的媒体进行编辑,该方法包含以下的步骤。区域提取步骤,从图像提取包含用户的一部分或全部的区域。脸朝向指定方向判定步骤,判定区域提取步骤中提取的区域包含的用户是否朝向预先指定的方向。帧选择步骤,选择对应于往图像系列起始时刻到结束时刻的方向和结束时刻到起始时刻的方向,分别在脸朝向指定方向判定步骤首先判断为用户朝向指定方向的时刻之间的图像系列。编辑步骤,对包含由帧选择步骤选择的图像系列的媒体进行编辑。
脸朝向指定方向判定步骤也可判定用户是否朝向正面。媒体还包含声音,并且还可具有检测该媒体所含声音的声音检测步骤。于是,帧选择步骤可选择对应于往图像系列起始时刻到结束时刻的方向和结束时刻到起始时刻的方向,分别在脸朝向指定方向判定步骤最先判定为用户朝向指定方向的时刻之间,而且对应于分别在声音检测步骤最先检测到声音的时刻之间的图像系列。
编辑步骤可利用无数据形式描述规定在帧选择步骤选择的图像系列,也可从媒体剪裁,还可将所选图像系列的第1图像作为初始显示用图像选择。而且,编辑步骤可根据区域提取步骤所提取区域位置和大小,算出图像系列中对应的部分区域,并用部分区域进行编辑,还可利用元数据形式的描述规定该部分区域。
编辑步骤在设定为对区域提取步骤提取的区域或脸部区域完全不重叠或重叠区域较少的配置区域或冒出区域,配置媒体包含的文本。
编辑步骤可对1个以上的图像进行图像变换处理,也可参照根据区域提取步骤提取的脸区域算出的脸特征,以存储多个人物图像和对应的脸特征的人物数据库选择相关的1个以上人物图像。
本发明还提供一种媒体编辑装置,对包含将用户的一部分或全部作为被摄体拍摄的多幅图像组成的图像系列的媒体进行编辑,其特征在于,所述装置包含:区域提取部,从所述图像提取包含用户的一部分或全部的区域;脸朝向指定方向判定部,判定所述区域提取部中提取的区域包含的用户是否朝向预先规定的方向;帧选择部,选择对应于往所述图像系列起始时刻到结束时刻的方向和结束时刻到起始时刻的方向,分别在所述脸朝向指定方向判定部首先判定为用户朝向所述指定方向的时刻之间的图像系列;以及编辑部,对包含由所述帧选择部选择的图像系列的媒体进行编辑。
通过与附图一起阅读以下的详细说明,会明白本发明的其他目的、特征和优点。
附图说明
图1为示出能进行实现本发明媒体编辑方法的图像通信的媒体编辑终端硬件组成框图。
图2为示出进行本发明媒体编辑时的信息流程和处理过程的框图。
图3为示出实施例形态1所涉及媒体编辑装置功能结构的框图。
图4为说明对某活动图像数据进行剪裁处理用的图。
图5为根据MPEG-7规范记述图4的索引信息的元数示例图。
图6为接收包含活动图像数据,发送者信息,件名等信息的可视函件的终端中画面显示例示意图。
图7为示出实施形态2记所涉及媒体编辑装置功能结构的框图。
图8为修饰处理例和显示画面例的示意图。
图9为部分区域元数据记述例示意图。
图10为活动图像不另外有显示文件名和文本的空间的画面显示例示意图。
图11为对与包含用户的图像区域不重叠的区域配置件名的显示例。
图12为对与包含用户的图像区域重叠程度小的区域配置件名的显示例。
图13为对活动图像写入文本的布局处理所涉及的元数据描述例示意图。
图14为加入人物的可视函件在接收终端的显示画面例示意图。
图15为示出实施形态4所涉及媒体编辑装置功能结构的框图。
图16为采用头发特征的脸特征量示意说明图。
图17为选择所用人物的编辑画面示例图。
图18为接收人物画件时的接收终端画面示例图。
图19为另一接收人物画件时的接收终端画面示例图。
具体实施方式
各实施形态基本结构
下面,参照附图概括说明本发明的各实施形态。
本发明的媒体编辑方法及其装置在使用可视电话、便携终端或门电话之类以个人为主或面向家用的图像通信终端,用户编制可视函件,或访问者留下记录时,能提供使用方便的接口。
图1为示出进行实现本发明媒体编辑方法的图像通信的媒体编辑终端硬件组成的框图。图1中,本媒体编辑终端具有对用户进行信息输入输出的输入部1、图像输入部2、图像显示部3、声输入部4、声输出部5、处理输入输出信息的摄像控制部6、声输入输出控制部7、显示控制部8、通信部9、记录部10、记录控制部11、信号处理部12和控制部13。这些部分通过系统总线和外部总线相互连接,而且为普通计算机结构或类似于计算机结构。
输入部1由键盘(包含10个数字键等)和鼠标等构成,输入使用者编辑媒体所需要的各种信息和文本形式的文章等。
图像输入部2由CCD摄像机等构成,输入由至少1幅以上图像组成的活动图像。图像输入部2基本上与后面说明的声输入部4联动,通常取得对录制消息的用户拍摄的活动图像。
声输入部4由话筒等构成,用于输入装置外部的声音。声输入部4基本上与图像输入部2联动,通常取得对消息进行录音的用户的声音。
图像显示部3由液晶显示器等构成,对用户显示其记录的活动图像和文学、别人发送来的活动图像和文学,以及操作上需要的各种信息等。
声输出部5由扬声器等构成,对用户输出其记录的声音、别人发送来的声音,以及操作上需要的告警音和振铃音等。
摄像控制部6进行图像输入部2的通/断控制和曝光控制等对图像输入部2的各种控制。声输入输出部7进行声输入部4和声输出部5的通/断等各种控制。显示控制部8对图像显示部3进行控制。
通信部9通过公用电话线路和无线等通信路由,与对端的信息处理装置进行后文所述实施形态编制的各种数据的收发。通信部9可用任何通信模式,例如可以是可视电话那样的同步通信,也可以先电子函件那样的非同步通信。
记录部10由存储器和硬盘等记录媒体构成,至少记录图像输入部2和声输入部4输入的数据。记录部10也可包含CD-ROM和DVD等记录媒体及其驱动装置。记录控制部11对记录部10进行输入输出控制。
信号处理部12由数字信号处理器等构成,对图像输入部2输入的图像信号、声输入部4输入的声音信号和记录部10记录的数据至少进行后所述各实施形态中编辑需要的各种处理。
控制部13由微计算机或CPU等构成,控制上述数据的流程,并进行各种处理。
本媒体编辑终端可以是将上述全部组成部分收装在1个壳体中的一体型装置,也可以是分散型装置,各组成部分通过网络和信号线收发数据。例如,带摄像机的便携电话终端为全部收装到1个壳体的一体型装置。门电话为了与访问者接口,至少将图像输入部2、声输入部4和声输出部5设置在门的外侧附近,其他组成部分则收装到设置在起居室等处的另一壳体中,因而是分散型装置。此外,还可考虑后文所述那样的外部具有人物数据库的分散型装置。
下面,概括说明用户采用本发明媒体编辑方法编制发送用数据时全部步骤的流程。图2为示出进行本发明媒体编制时的信息流程和处理步骤。首先,用户对上述图1的输入部1输入命令,以便开始取得视频和音频数据。然后,用户通过图像输入部2和声输入部4输入消息等,编制活动图像数据。
编制活动图像数据时,多数的情况下,通常起始区间和未尾区间包含与用户要输入的信息无关的区间。因此,进行省略活动图像数据始端和未端非所需区间的剪裁处理。下面详细说明。
其次,进行布局处理,使对发送数据的对端有用的信息(例如数据编制的日期和时间、编制者名称)与制成的活动图像一起,能用一幅画面显示。例如,进行修饰处理,从剪裁所得的活动图像数据剪切出以发消息的用户为中心的特定区域等,并对修剪所得区域进一步配置作为素材数据生成的文本和人物图像等。素材数据是指图像、文本、计算机图形等对活动图像数据加入的全部数据。例如,素材数据可以是预先制作的图像图案,也可以是文字和符号的图案。该布局处理常用称为多目的互联网消息(函件)扩展(MIME:Multi-PurposeInternet Message(mail)Extensions)、超文本置标语言、可扩充置标语言(XML:Xtensible Markup Language)、MPEG-7的元数据形式描述。经过以上的处理,最后制成发送数据,作为给数据发送对方的消息。
在图1的信号处理部12、控制部13、记录控制部11进行上述剪载处理和布局处理。这些处理通常用计算机可执行的程序实现。该程序从图中未示出的CD-ROM和半导体存储器卡等计算机可读取的记录媒体输入到记录部10等,或者通过通信线路下载。
可是,进行以上那样的处理时,如上文所述,利用已有的方法,用户必须输入信息的地方非常多。较详细而言,剪裁处理中,用户必须一面校验活动图像和声音,一面输入要剪裁的范围。而且,在布局处理中,用户必须进行编辑如何布局用的操作。尤其是布局处理的修饰中,用户必须对活动图像的全部帧指定要剪出的区域,加入素材数据时,用户需要一面确认活动图像数据中被摄体的位置和大小等,一面输入应添加处。
本发明各实施形态的媒体编辑装置和方法在信号处理部12和控制部13的一方或双方,进行后文所述的区域提取处理,正面判定处理和声音检测处理。利用该处理,对剪裁处理和布局处理的全部或部分,可提供灵巧的接口。
例如,在便携终端编制可视函件时,拍摄消息后希望立即发出函件的需求增多。这种情况下,通过提供灵巧的接口,即使立即发出函件时,用户也能用简单的操作(例如操作1个按键)编制可视函件,其编制方法是预先剪裁消息的始端和未端,而且修剪成用户驱于中心,并且根据情况配置墙纸和冒出框,从而形成接收者也容易观看的布局。上述处理,本发明各实施形态中未必全部包含,可根据用途仅组合采用需要的部分。下面,单独详述发明各实施形态。
实施形态1
实施形态1的媒体编辑装置可自动进行上述图2的剪裁处理。图3为示出实施形态1所涉及媒体编辑装置功能结构的框图。图3中,本媒体编辑装置具有活动图像数据保存部14,发送数据保存部15,区域提取部17,正面判定部18、声音检测部19,帧选择部20和编辑部21。
活动图像数据保存部14对应于图1记录部10,用户保存录像、录音所得的活动图像数据作为消息。区域提取部17从保存的活动图像数据提取包含被摄体(用户)的一部分或全部的特定区域。正面判定部18检测区域提取部17所提取区域内的用户是否朝正面。声音检测部19检测活动图像数据的各帧中是否有在规定电平以上的声音信号。帧选择部20根据正面判定部18和声音检测部19的输出结果,决定起始帧和结束帧。编辑部21根据帧选择部20确定的起始帧和结束帧,剪裁媒体,对该媒体进行图像变换处理等。发送数据保存部15对应于图1的记录部10,保存编辑后的媒体,作为发送数据。适当发送保存的数据。
下面,说明这些组成部分的运作。图4用于说明对某活动图像数据进行的剪裁处理。图4中,对活动图像数据保存部14保存的活动图像数据进行剪裁处理。活动图像数据包含具有用户录时的消息的声音数据和与该数据同步录像的图像数据。可将图像数据和声音数据组合构成为1个数据,也可由图像数据、声音数据和记述其同步关系的数据分别构成。图4所示的数据例是用门电话等取得的消息的典型例,包含图中A~H的8个地方(时刻)。在这些时刻发生以下的情况:
A、开始取得数据
B、第1消息开始
C、第1消息结束
D、下一消息前正在考虑的区间
E、第2消息开始
F、声音停顿(进行换气等)
G、第2消息结束
H、数据获取结束
图中的曲线将横轴取为经过时间,纵轴取为输入声音电平,A~H表示规定时刻。曲线上方添加的画是声音同时录像的几乎相同时刻的图像数据的1个场面,例如表示从注入门电话消息到该消息失期间对用户拍摄的图像。
参阅图4可知,编制的活动图像数据,多数情况下,其起始部分和未尾部分包含与用户想输入的信息时,存在开始交谈消息前的时间和谈话结束后的时间。着眼于包含这种消息的活动图像数据的特点,本媒体编辑装置利用以下方法对图像数据和声音数据自动确定应剪裁的区间。
首先,说明检测剪裁起始时刻的方法。检测起始时刻时,首先,区域检测部17按开始到结束的方向(即图4中从A观看H的方向),对图像数据的各帧依次检测包含被摄体(用户)的一部分或全部的区域。
以往在提取被摄体区域方面,有各种方法。例如,特开平5-91407号公告揭示的方法是利用比较活动图像相邻帧间的视频信号,将活动量小的视像部分作为背景部分,其他的部分作为被摄体区域提取。特开平5-161131号公告揭示的方法是预先保持仅有背景的图像,各像素分别运算仅有背景的图像与活动图像各帧的差,将该差小的区域作为背景区域,并提取差大的区域作为被摄体区域。关注的区域为被摄体的头部和脸部时,可通过例如检测图像中的椭圆区域测出头部。关于这种方法,谷内等人者的“基于采用视点固定型全景倾斜度变焦距摄像机的自适应观看法模型的人物头部检测跟踪”(MIRU2000图像识别理解讨论会演讲论文集I(PP-9~14)中已揭示。其他还有利用彩色信息检测脸面的方法,侧重于眼、口等脸一部分的方法、基于模板匹配的方法等公知的种种方法。本区域提取部17用以上的已有方法能方便地提取被摄体区域。
接着,正面判定部18对区域提取部17提取的区域检测该区域存在的用户是否朝正面。以往在检测人物正面方面,有种种方法。例如,仅对正面图像预先准备模板,利用模板匹配。可检测是否正面。马场等人著的“头部分类器:人物脸图像实时分类”(第7次图像检测讨论会演讲论文集PP-411~416)中揭示的方法用一种统计特征识别法,即支持矢量机(SVN:Support Vector Machine),识别图像中脸的朝向。正面判定部18用以上的已有方法能判定人物是否朝下面。而且,用以上的方法,也可设置脸朝指定方向判定部代替正面判定部18,检测图像区域中的用户是否朝预定方向(例如对正面往右偏斜45度的方向)。这样,可选择用朝斜方的用户脸部等预先决定的美观角度的图像。
声音检测部19将是否存在规定电平以上的声音信号作为条件,检测是否存在声音。例如,对环境噪声电平与输入和声音平均电平的比较决定该规定电平。还可用公知的声音识别等方法检测是否存在人的声音。
帧选择部20号参照正面判定部18和声音检测部19的判定结果,往起始时刻到结束时刻的方向校验各帧,将首先满足条件的时刻的方向校验各帧,将首先满足条件的时刻对应的帧作为起始帧。又往结束时刻到起始时刻的方向检验各帧,同样将最先满足条件的时刻对应的帧作为结束帧。根据正面判定部的判定结果,则图4所示图像中用户最先朝正面的时刻为B点,最后朝正面的时刻为G点。于是,帧选择部20选择共同满足条件的帧,从而起始帧为B点的帧,结束帧为G点的帧。
如上文那样,本媒体编辑装置往起始时刻到结束时刻的方向和结束时刻到起始时刻的方向,分别进行扫描,选择最先满足条件的时刻,不切断D时刻附近存在的下一消息前的过渡期,就能对全部消息进行剪裁。因此,适合如可视函件等那样,将用户输入的数据汇总为1件发送的用途。
本媒体编辑装置进行图像中被摄体正面判定和声音检测两种处理,从而能可靠地剪裁作为消息录像的部分。例如,用户随意朝正面沉思时,也能根据该消息开始的时刻可靠地剪裁。然而,本媒体编辑装置中,也可省略声音检测。即,用户开始谈消息时,通常正面朝终端(的摄像机)用户开始谈消息时,通常正面朝终端(的摄像机)行走,判定为正面特别有效。用户注入消息前的考虑过程中无意间发出声音时,往往声音检测无效。因此,即使省略声音检测部19,本媒体编辑装置也具有与上文所述大致相同的效果。
接着,编辑部21根据帧选择部20判定的起始帧和结束帧,对媒体(活动图像数据)进行剪裁。这里,编辑部21可编制完全删除剪裁范围以外的区间的活动图像数据,也可编制不删除活动图像数据而将剪裁范围作为系列包含在内的之数据。编制元数据时,在未剪裁的部分包含重要信息的情况下,由于存在数据,可利用该部分。下面,以采用MPEG-7格式时为例,说明元数据格式。
作为描述元数据的格式,存在种种标准规范或独立规范,但作为最新标准规范,有例如MPEG-7规范。MPEG-7是称为多媒体内容描述接口(MultimediaContemt Description Interface)(ISO/IEC15938)的活动图像专家组(MPEG:Moving Picture Experts Group:ISO/IEC JTCI/SC29/WG11)制订的MPEG-1、MPEG-2、MPEG-4后续的第4个标准规范。该标准规范规定描述多媒体信息内容用的框架,是以用于数字库检索和编辑应用程序为目的的规范。MPEG-7还规定描述以图像、声音为中心的多媒体信息的内容用的描述符(Descripter)的标准集。对内容提供该描述,从而可根据多媒体信息内容进行检索。本规范的实际描述定义语言是对XML Schema语言(XML图解语言)进行必要扩充的语言。但是,该扩充也保持与XML Schema语言的语法有互换性。
以上那样的MPEG-7中,为了描述内容的特征,可组合以下的基本要素。
(1)描述符(Descriptor:简称为D)
描述符号描述多媒体内容中某单一特征用的基本工具。MPEG-7中规定描述符的语法(Symtax)和语义(Semantics)。
(2)描述图(Description Schema:简称为DS)
描述图4规定多个描述工具间的结构和语义关系的图文框。MPEG-7中,同样也规定描述图的语法和语义。作为构成描述图的描述工具,除描述符外,还包含别的描述图本身。
(3)描述定义语言(Description Definition Language)
描述定义语言是规定描述符和描述图的语法用的语言。MPEG-7中,由将W3C(World Wide Wed Consortium:万维网论坛)加以标准化的图解语言“XLMSchema”作为基础,追加描述多媒体内容特征时需要的各种数据型,从而规定了描述定义语言。作为扫描图(DS)的例子,有作为活动图像数据某部分的指示符数“Video Segnent DS”和描述图像内的区域的“StillRegion DS”等。作为描述符(D)的例子,有描述媒体格式的“MdiaFormat”等。MPEG-7中,除标准规定的描述符和描述图外,还规定对新描述符和描述图进行定义或扩充用的语言(Description Definition Language)。因此,本媒体编辑装置中采用元数据时,根据上述语言描述元数据,就成为MPEG-7格式的描述。
图5为根据MPEG-7规范描述图4的索引信息的元数据示例图。图5中,该元数据关联的图像帧为对图4的B和G时刻采用“Vidro Segment DS”而形成的对象。这里,与实际图像帧的关联,在“Media Time”的“Media Time Point”(“媒体时间”的“媒体时间点”)进行,并描述相应Video Segment(图像段)的时刻。例如,图5所示那样的“T13:20:01:1 F15”的描述,其含义为“13时20分01秒的第1帧(但每秒1 5帧中存在0帧到14帧)”。利用这样的元数据描述,可进行仅选择活动图像中特定区间的重放控制。
以上的描述毕竟是一个例子,不限定描述方式。即,只要用与内容关联的方式描述就可以,因而也可以按上述以外的各种方式的元数据进行描述。元数据的描述为了在附图上表示并说明方便,特地用文本格式示出,但不受该格式限制,也可以是二进制格式。
如上文那样,不删除活动图像数据,而制成剪裁范围作为索引包含在内的元数据时,与编制完全删除剪裁范围以外的区间的活动图像数据时相比,想自动剪裁后进行再修改时,仅再编辑元数据即可,能自由编辑。
可是,上文中,为了进行自动剪裁,利用帧选择部20输出的起始帧和结束帧,但帧选择部20输出的起始帧在接收编辑媒体方的终端画面也可定义为首先显示的图像。因此,本媒体编辑装置的剪裁方法进一步有用。即,设想将接收中的活动图像或保存的活动图像首先以静止图像(例如预映画面或简略画面等)示出的情况。又将这时间的图像定义为初始显示用图像。这时,在接收终端的画面显示活动图像的第1帧图像,例如图4中A点的图像,然而A点的图像,其发送源用户朝横向放映,不适合用作预映或简略介绍等的初始显示图像。因此,如图5那样,用元数据将起始帧定义为上述初始显示用图像。利用这种方法,本媒体编辑装置不对接收终端重新发送初始显示用静止图像,就能使放映适合作为初始显示用图像的朝正面的用户的B点所对应图像帧最先显示。在重新发送初始显示用的静止图像时,用区域提取部17和正面判定部18往起始时刻到结束时刻的方向进行扫描,检测出B点。将该B点作为初始显示用图像发送,则从接收着可看到朝正面的用户图像。
编辑部21可对该初始用显示图像或活动图像的帧进行图像变换处理,例如进行析像度变换处理。这样,就能配合接收终端侧显示的彩色进行显示。
由上文可知,根据本媒体编辑装置由于判定用户是否朝正面,能可靠地自动剪裁相对端的消息部分,并且接收者可仅重放需要的部分。作为初始显示用图像,也可方便地设定合适的图像。
实施形态2
实施形态2的媒体编辑装置自动进行上述修饰处理,从而在接收终端画面小的情况下,也能有效编制容易观看的布局。
首先,说明本实施形态设想的地方。利用可视函件等给对端发送媒体时,该媒体通常不仅包含相应的活动图像数据,而且包含活动图像发送者的信息和件名等信息。图6为接收这种可视函件的终端的画面显示例,如图6所示,显示画面100上不权显示对端发来的活动图像画面叫,而且显示包含发送者姓名、接收方、件名等的首部画面101、文本的文章画面102、涉及适当装饰的装饰画面103。
用便携终端那样的窄小显示画面重放图6的画面时,一般将总体缩小后显示。然而,在窄小的显示画面内进行进一步将总体缩小的显示时,难以观看文本,而且活动图像数据中的对端脸部也变小,不合适。
作为消息输入的活动图像数据,往往采用广角摄像机取得,用户可不必很介意照像机与被摄体的位置关系。因此,如图6的活动图像画面104那样,包含很多用户图像以外的背景区。进行总体缩小的显示,则用户的脸部进一步减小,观看困难,不合适。
因此,本实施形态的媒体编辑装置为了进行显示画面仅显示包含用户的部分区域的布局处理,至少具有以下的组成部分。进行实施形态1中所述的剪裁处理时,可增加对应的图3的组成部分,因而省图其说明。
图7为显出实施形态2所涉及媒体编辑装置功能结构的框图。图7中,本媒体编辑装置具有活动图像数据保存部14、发送数据保存部15、区域提取部17、布局编制部分22和素材数据保存部23。这些组成部分在图2中执行所述布局处理的一部分或全部。
本媒体编辑装置具有与实施形态1的媒体编辑装置共同的结构和运作,因而共同的组成部分标准相同的符号,省略其说明。本实施形态中,声音数据不是特别需要,因而活动图像数据保存部14可保存与实施形态1相同的活动图像数据,也可保存不包含声音的图像数据。
图7中,素材数据保存部23对应于图1的记录部10,保存图6所示的文本和装饰用图像数据等素材数据。布局编制部22根据用户的操作,从素材数据23适当读出素材数据,进行包含修饰处理的布局处理。后文详述。
图8为修饰处理例和显示画面例的示意图。图8中,其上部示出图6所示对方发来的活动图像画面104。由于以上说明的原因,该图像为包含较多用户区域以外的背景区的图像。因此,如下文所述那样仅对用户区域进行修饰,编制布局。
首先,区域提取部17从活动图像数据保存部14所保存活动图像的各帧图像提取包含用户的一部分(例如脸部)或全部的区域。区域提取部17的这种动作用以上所述的方法能方便地实现。该提取区域可为任何形状。
其次,布局编制部22根据区域提取部17提取的区域,计算活动图像数据中要显示的部分区域。图8中,用活动图像画面104内的粗线方框示出部分区域。
布局编制部22进而组合该部分区域对应的图像和用户预先设定的素材数据(文本和图像等),编制布局。图8中,编制成的显示画面200除部分区域所对应的活动图像204外,和图6相同,还显示首部画面201、文章画面202和装饰画面203。这样,在决定布局时,活动图像数据自动形成小的部分区域的图像,从而在小的显示画面也能容易到显示。
这里,布局编制部22通常制成决定活动图像数据和素材数据的布局的元数据的布局的元数据。因此,即使对布局编制部22设定的部分区域,同样是元数据方式的,容易处理,较方便。
图9为这种部分区域的元数据描述例示意图。图9的例子与实施形态1相同,也用MPEG-7格式进行描述。这里,描述为各帧用实施形态1所述的“VideoSegment DS”,并且用“Still Region DS”设定分别位于各帧的部分区域。这种情况下,关于区域指定信息,则用“Contour Shape”描述作为部分区域的矩形形状(图中顶点数为4)和矩形座标(图中未示出)。
这样采用元数据时,不像从活动图像数据切出部分区域编制新活动图像数据时那样,活动数据容量变小。然而,接收终端的用户可设定为根据爱好切换部分区域和全部区域进行显示,或者显示其他部分区,从而能配合接收终端的画面大小和接收者的爱好,自由改变布局。当然,这种情况下,对布局编制部22设定的部分区域,进行初始设定由于最先显示包含消息发送者的区域,较方便。
利用MPEG-7,则不仅是图9那样每帧分别设定“StillRegion DS”的方法,而且也可采用活动区域信息“Moving Region DS”和声像综合区域信息“Audio VisualRegion DS”等。作为包含这些信息的基本定义,有表示多媒体内容的一部分的“Segment DS”的定义,但如果是基于该定义的DS,则可用数量较小的描述进行与图9所示描述相同的描述。
如上文那样,本实施形态的媒体编辑装置解决定部分显示区域,因而即使在带摄像机的便携终端那样显示画面小的情况下,也能从容易观看仅有被摄体的区域的方式在画面内进行显示。在按照元数据描述决定布局时,即使在带摄像机的便携终端和PC终端那样显示画面大小不同的情况下,接收者也能以最佳方式在画面上进行显示。
实施形态3
实施形态3的媒体编辑装置与实施形态2的修饰处理不同,可编制使活动图像显示区域尽量多而且也显示所需文本的布局。
首先,说明本实施形态设想的地方。例如考虑将上述图6的显示画面100修饰成活动图像画面104的部分尽量大,并且在小画面例如便携电话的显示画面)进行显示的情况。这里,假设该小画面上希望显示“件名”、“文本”和活动图像,作为最低限度的信息。然而,实际上小画面只能显示活动图像的全部区域,除活动图像外,不存在显示件名和文件的空间。图10为这样只能显示活去图像部分的画面显示例的示意图。
因此,本媒体编辑装置结构与实施形态2的媒体编辑装置相同,同时区域提取部17和布局编制部22的运作加加以改变,以便显示上述文本信息。即,布局编制部22配置“件名”和“文本”等文本信息,使其对区域提取部17检测的包含用户的图像区域不重叠或至少重叠程度小。下面详细说明该运作。
首先,区域提取部17从活动图像数据检测包含用户的图像区域,并计算该区域的位置和大小。其次,布局编制部22接收区域提取部17算出的该区域的位置和大小、素材数据保存部23保存的“件名”和“文本”等素材数据。进而,布局编制部22对不与上述图像区域重叠(或重叠程度小)的区域设定配置素材数据的区域。图11为对与包含用户的图像区域不重叠的区域配置件名的显示例,如图11所示文件的件名配置在用户头部上方的空间,不重叠。因此,可编制不拘活动图像显示区域大,也能进行所需文件显示的布局。
布局编制部22也可将配置素材数据的区域设定为任意形态。该区域定义为冒出区域。常冒出区域带边框,并具有背景色(例如白色)。布局编制部22在该冒出区域内写入素材数据的内容,即文本。图12为对与包含用户的图像区域重叠程度小的区域配置文本的显示例。如图12所示,文本配置在用户左侧的空间,大致不重叠。因此,可编制拘活动图像显示区域大,也能显示所需文本的布局。
图12所示冒出区域的形状,如温画等中常用的那样,用户口部附近具有成锐角的凸出部分,并且参照文本的字数,对不与上述图像区域重叠(或重叠程度小)的区域设定冒出区域。
最好上述布局所得画面作为接收者终端的第1图像(上述初始显示用图像)在画面上显示。即,接收者打开收到的函件时,最先显示图11和图12那样的画面。然后,接收者仅确认件名和文本内容。这里,在1员不能容纳完文本内容等情况下,进行例如滚动处理等。这样,接收者仅在第1显示画面进行文本等的确认,活动图像重放过程中则不进行。然而,当然也可构成在活动图像重放中,以添加文本和件名等的方式进行重放,从而能一面听实际的活动图像消息,一面进行确认。
显示的文件内容不限于件名和文本。而且,可首先显示图11那样的画面, 接着根据接收者的操作依次显示图12那样的画面;也可以同时合成这些画面进行显示。这样,对与包含用户的图像区域不重叠(或重叠程度小)的区域进行配置,则可形成任何结构。
如上文那样,本媒体编辑装置即使在活动图像和文本混合的显示画面也能编制成接收者不混淆而且容易通过观看确认内容的布局。通过采用冒出框的方式,可形成宛如图像中的用户正在谈文件内容那样的画面,从而激活与通信对端之间的通信。
其次,最好布局编制部22与第1和第2实施形态一样,编制决定布局的元数据,以便进行上述布局处理,即对活动图像写入文本的处理。
图13为有关这种布局处理的元数据描述例示意图。图13的例子与实施形态1和2相同,用MPEG-7格式进行描述,按照“Media Duration”的值,即按照由媒体规定点表示的长度,以叠加的形式表示夹在“Text”标记中间的字面含义。这样,利用元数据进行描述,可显示文本,而不实际进行将文本嵌入活动图像的处理。
实施形态4
实施形态4的媒体编辑装置用区域提取部17提取脸部区域选择该脸面区域对应的人物图像,从而扩大消息表现变化式样,用户能表现快乐,可促进通信顺利。
首先说明本实施形态设想的地方。如上文所述,利用图像的函件通过增加装饰,可制成提高欢乐性的函件。尤其如娱乐中心的自动摄像装置那样,那本人的图像添加漫画、三维图画等构成的人物,更具有提高欢乐性和便于亲近感的效果。图14为这样添加人物的可视函件接收终端显示画面例的示意图。如图14所示,显示画面400上添加包含发送者姓名、接收方、件名等的首部画面401、文本的文章画面402,对方发来的活动图像画面404,而且和人物画面403一起示出。以上那样构成可视函件的接收画面,则可以说接收者增加对该函件的亲近感。
用户选择这种人物时,添加与活动图像的图像和内容无关的人物相比,要求希望选择与图像有关的人物的居多。本实施形态的媒体编辑装置在显示画面的图像是脸部图像时,布局处理中选择与该脸部图像对应的人物。下文中,将上术述那样增添人物的函件称为“人物函件”。
图15为示出实施形态4所涉及媒体编辑装置功能结构的框图。本媒体编辑装置具有活动图像数据保存部14、发送数据保存部15、区域提取部17、正面判定部18、编辑部26、人物选择部24、人物数据库25。这些组成部分执行图2中所由局处理的一部分或全部。
本媒体编辑装置具有与实施形态1的媒体编辑装置共同的结构和运作,因而共同的组成部分标注可同的符号,省略其说明。但是,本实施形态中,声音数据非特别需要,因而活动图像数据保存部14可保存与实施形态1相同的活动图像数据,也可保存不包含声音的图像数据。进行实施形态1中所述的剪裁处理时可增加对应的图3的组成部分,因而省略其说明。与上文所述相同,正面判定部18也可以是脸朝指定向判定部。
正面,说明本媒体编辑装置的运作。区域提取部17和正面定部18,其运作与实施形态1时相同,判定活动图像中的图像是否用户正面图像,并将判定结果输入编辑部26。编辑部26将判定为正面图像的图像输入到人物选择部24。人物选择部24根据该图像从各种人物数据库化后加以保存的人物数据库25选择1个或多个后补人物,并将所选人物对应的人物ID输入到编辑部26。
这里,人物选择部24从人物数据库25保存数多个人物选择后补人物。本实施形态中,提取所述正面画像中脸部的特征,选择人物数据库25保存的1个或多个人物。
也就是说,人物数据库25预先登记2维人物图像数据和用计算机图形法制成的3维人物结构数据等人物图,该人物对应的脸部特征和相应的人物ID,作为人物信息。人物选择部24参照从编辑部输入的正面图像中的脸部特征,从人物数据库25选择具有与该脸部特征一致或类似的脸部特征的1个以上人物图像。作为上述脸部特征,可考虑脸部大小、脸部长宽比、脸的部位特征等特征量。作为脸的部位特征,可考虑例如眼鼻口大小、眼鼻口位置关系、毛发量和颜色等特征量。是否戴眼镜等也可用作脸部特征。
进一步详细说明脸部特征量。图16为采用头发特征的脸部特征量的示例说明图。图16示出6个不同用户的摄影图像、相应的图像处理结果、相应的特征量和相应的特征表现。摄影图像与照片图像相同,但为了便于看图,画成肖像画。作为脸部特征,示出特征量和特征表现,但仅为其中一方也可,还可用其他值或表现。
图16中,处理结果以黑头发为前提,示出进行提取摄影图像黑区的处理的结查。当然,即使头发为黑色以外的颜色,通过提取了发色同色的区或也同样有进行处理。作为特征量,示出归一化面积和归一化周长两个例子。归一化面积是指用脸部面积除头发面积进行归一化后的值。归一化周长是指用脸部周长除发部周长进行归一化的值,发量为与一般发量平均值比较进行分类所得的类型表现,具体而言,利用上述归一化周长,比平均值小时,发型表现为短发;比平均值大时,发型表现为长发。这样利用提取的脸部特征量或其特征表现,可从人物数据库选择类似的1个以上人物图像。
作为上述脸部特征量提取方法,以往已揭示种种技术。例如,山口等人著“脸部朝向和表情变化方面单靠的脸部识别系统:Smartface“(电子信息通信学会论文志Vol.J84-D-11-No.6)揭示的方法用部分空间检测脸部区域,并利用隔离度滤波器检测眼、鼻、口等脸的部位。本媒体编辑装置通过利用至少一种公知的技术,能方便地提取脸部特征量。
为了参照提取的脸部特征量,选择人物数据库25登记的各后补人物,可用上述特征表现,也可计算与登记的脸部特征量的相关值,这里,超过计算设定为适合作后补的提了门限值的相关值时,提取该人物作为后补。人物选择部24将提取的后补人物后对应的人物ID通知编辑部26。
编辑部26根据通知的人物ID,对用户显示作为后补的人物图像。图17为选择所用人物的编辑画面示意图。图17中,示出3个后补人物,箭号为表示用户要选择的人物的光标。当然,可以不用光标,而用使要选择的人物图像翻转,或者加粗边框等方法。
在图17那样的编辑画面的基础上,用户选将使用的人物。编辑部26对生成描述所选人物ID的元数据的媒体进行编辑,从而产生发送数据。当然,也可将人物图像本身编入发送数据。这样产生的发送数据保存在发送数据保存部15,并以适当的定时按地址发送给接收者。
图18为接收上述那样产生的发送数据时接收终端画面的示意图。如图18所示,在接收终端画面的下侧,显示作为发送者的用户选择的人物。在例如重放活动图像消息时,可不显示该人物,而在该显示位置显示活动图像。这样的布局,可由编辑部编制,也可在接收端设定。
成为后补的人物可以是1个,这时不进行后补选择,可较简单方便地编制函件。
编辑部26也可对人选择部24通知表示用户输入的特征量的字符串(上述特征表现等)。例如,用户输入“毛发量多,短发”的字符串。这样,人物选择部24就将其以人物数据库25所保存图16所示那样特征表现核对,从而能选择后补人物。这样通过用字符串表示特征量,本媒体编辑装置能选择进一步接近用户意图的人物的后补人物。
如上所述,本媒体编辑装置不仅是全部组成部分收装在一个壳体的一体型装置,而且可以是各组成部分通过网络和通信线路进行数据收发的分散型装置。因此,可考虑例如人物选择部24和人物数据库25可通过网络接入且拉于与本媒体编辑装置不同的地方的情况。图20为示出这种分散型媒体编装置或系统的结构的框图。
图20中,这种分散型媒体编辑装置包含具有实施形态1-3所涉及媒体编辑装置的部分或全部功能的人物函件编辑终端501、设置在与人物函件编辑终501不同的地方的人物选择部724和人物数据库725。这些组成部分通过网络600相互连接。这种分散型媒体编辑装置也具有与上述一体型媒体编辑装置相同的结构以进行运行,因而可得相同的效果。图20的分散型媒体编辑装置,其人物选择部724和人物数据库725也可由人物函件编辑终端以外的终端(例如对函件进行接收的人物函件接收终端502等使用。即,在进行接收时,接收人物函件所含人物ID的人物函件接收终端502可仅接收来自人物数据库725的人物图像,因而终端本身不需要保持许多数据。即使在人物函件接收终端502回送信息时作为媒体编辑装置运作的情况下,也能共用人物选择部724和人物数据库725。
这样,分散型媒体编辑装置,其人物选择部724和人物数据库725可由多个用户共用,因而各终端不需要内设这些组成部分,而且能利用保存许多人物的数据库。
总之,利用本媒体编辑装置,则用户可用从所拍摄活动图像提取的正面图像,从登记的许多人物缩小后补人物的范围,方便地选择喜欢的人物,编制人物函件,借助采用这种人物函件,能激活与通信对端之间的通信。发明联系当前认为最现实且最佳的实施例进行了说明,但本发明不受所揭示实施例的限制。

Claims (20)

1、一种媒体编辑方法,对包含将用户的一部分或全部作为被摄体拍摄的多幅图像组成的图像系列的媒体进行编辑,所述方法由媒体编辑装置执行,其特征在于,所述方法包含:
区域提取步骤,从所述图像提取包含用户的一部分或全部的区域;
脸朝向指定方向判定步骤,判定所述区域提取步骤中提取的区域包含的用户是否朝向预先规定的方向;
帧选择步骤,选择对应于往所述图像系列起始时刻到结束时刻的方向和结束时刻到起始时刻的方向,分别在所述脸朝向指定方向判定步骤首先判定为用户朝向所述指定方向的时刻之间的图像系列;
编辑步骤,对包含由所述帧选择步骤中选择的图像系列的媒体进行编辑。
2、如权利要求1所述的媒体编辑方法,其特征在于,
所述脸朝向指定方向判定步骤判定所述区域提取步骤中提取的区域包含的用户是否朝向正面。
3、如权利要求1或2所述的媒体编辑方法,其特征在于,
所述媒体包含声音,并且还包含检测该媒体所含声音的声音检测步骤;
所述帧选择步骤选择对应于往所述图像系列起始时刻到结束时刻的方向和结束时刻到起始时刻的方向,分别在所述脸朝向指定方判定步骤最先判定为用户朝向所述指定方向的时刻之间,而且对应于分别在所述声音检测步骤最先检测到声音的时刻之间的图像系列。
4、如权利要求1所述的媒体编辑方法,其特征在于,
所述编辑步骤利用元数据形式的描述规定在所述帧选择步骤选择的图像系列。
5、如权利要求1所述的媒体编辑方法,其特征在于,
所述编辑步骤从所述媒体剪裁图像系列,所述图像系列是从所述帧选择步骤中选择的。
6、如权利要求1所述的媒体编辑方法,其特征在于,
所述编辑步骤选择所述帧选择步骤中所选图像系列的第1图像作为初始显示用图像。
7、如权利要求1所述的媒体编辑方法,其特征在于,
所述编辑步骤根据所述区域提取步骤中所提取区域的位置和大小,计算所述图像系列中对应的部分区域,并且用所述部分区域进行编辑。
8、如权利要求7所述的媒体编辑方法,其特征在于,
所述编辑步骤利用元数据形式的描述规定所述部分区域。
9、如权利要求1所述的媒体编辑方法,其特征在于,
所述编辑步骤在设定为对所述区域提取步骤提取的区域完全不重叠或重叠区域较少的配置区域,配置所述媒体包含的文本。
10、如权利要求9所述的媒体编辑方法,其特征在于,
所述区域提取步骤提取包含用户脸部的脸部区域,
所述编辑步骤在设定为对所述提取步骤中提取的脸部区域完全不重叠或重叠区域较少的冒出区域配置所述媒体包含的文本。
11、如权利要求1所述的媒体编辑方法,其特征在于,
所述编辑步骤对1个以上的所述图像进行图像变换处理。
12、如权利要求1所述的媒体编辑方法,其特征在于,
所述区域提取步骤提取包含用户脸部的脸部区域;
所述编辑步骤参照根据所述区域提取步骤中提取的脸部区域算出的脸部特征,从存储多个人物图像及其对应脸部特征的人物数据库选择关联的1个以上所述人物图像。
13、如权利要求12所述的媒体编辑方法,其特征在于,
所述编辑步骤根据用户输入的文字数据,计算所述脸部特征。
14、如权利要求12所述的媒体编辑方法,其特征在于,
所述编辑步骤根据所述区域提取步骤中提取的脸部区域的脸长宽比和脸的部位特征,计算所述脸部特征。
15、一种媒体编辑装置,对包含将用户的一部分或全部作为被摄体拍摄的多幅图像组成的图像系列的媒体进行编辑,其特征在于,所述装置包含:
区域提取部,从所述图像提取包含用户的一部分或全部的区域;
脸朝向指定方向判定部,判定所述区域提取部中提取的区域包含的用户是否朝向预先规定的方向;
帧选择部,选择对应于往所述图像系列起始时刻到结束时刻的方向和结束时刻到起始时刻的方向,分别在所述脸朝向指定方向判定部首先判定为用户朝向所述指定方向的时刻之间的图像系列;以及
编辑部,对包含由所述帧选择部选择的图像系列的媒体进行编辑。
16、如权利要求15所述的媒体编辑装置,其特征在于,
所述媒体包含声音,并且还具有检测该媒体所含声音的声音检测部;
所述帧选择部选择对应于往所述图像系列起始时刻到结束时刻的方向和结束时刻到起始时刻的方向,分别在所述脸朝向指定方判定部最先判定为用户朝向所述指定方向的时刻之间,而且对应于分别在所述声音检测部最先检测到声音的时刻之间的图像系列。
17、如权利要求15或16所述的媒体编辑装置,其特征在于,
所述编辑部选择所述帧选择部选择的图像系列的第1图像作为初始显示用图像。
18、如权利要求15所述的媒体编辑装置,其特征在于,
所述编辑部根据所述区域提取部中所提取区域的位置和大小,计算所述图像系列中对应的部分区域,并且用所述部分区域进行编辑
19、如权利要求15所述的媒体编辑装置,其特征在于,
所述编辑部在设定为对所述区域提取部提取的区域完全不重叠或重叠区域较少的配置区域,配置所述媒体包含的文本。
20、如权利要求15所述的媒体编辑装置,其特征在于,
所述区域提取部提取包含用户脸部的脸部区域;
所述编辑部参照根据所述区域提取部中提取的脸部区域算出的脸部特征,从存储多个人物图像及其对应脸部特征的人物数据库选择关联的1个以上所述人物图像。
CNB011330686A 2000-09-12 2001-09-12 媒体编辑方法及其装置 Expired - Lifetime CN1200537C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP275991/2000 2000-09-12
JP2000275991 2000-09-12
JP275991/00 2000-09-12

Publications (2)

Publication Number Publication Date
CN1344084A CN1344084A (zh) 2002-04-10
CN1200537C true CN1200537C (zh) 2005-05-04

Family

ID=18761528

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB011330686A Expired - Lifetime CN1200537C (zh) 2000-09-12 2001-09-12 媒体编辑方法及其装置

Country Status (4)

Country Link
US (1) US6961446B2 (zh)
JP (1) JP3784289B2 (zh)
KR (1) KR100656661B1 (zh)
CN (1) CN1200537C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8872843B2 (en) 2004-07-02 2014-10-28 Samsung Electronics Co., Ltd. Method for editing images in a mobile terminal

Families Citing this family (218)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
GB2370709A (en) * 2000-12-28 2002-07-03 Nokia Mobile Phones Ltd Displaying an image and associated visual effect
CN100348030C (zh) * 2001-09-14 2007-11-07 索尼株式会社 信息创建方法、信息创建设备和网络信息处理系统
JP2003219047A (ja) * 2002-01-18 2003-07-31 Matsushita Electric Ind Co Ltd 通信装置
JP2003230117A (ja) * 2002-01-31 2003-08-15 Nec Commun Syst Ltd 動画像データの送信システム、同送信装置、同送信方式および同送信方法
KR100478613B1 (ko) * 2002-03-28 2005-03-28 가시오게산키 가부시키가이샤 데이터통신장치, 데이터통신시스템 및 데이터통신방법
US7284188B2 (en) * 2002-03-29 2007-10-16 Sony Corporation Method and system for embedding MPEG-7 header data to improve digital content queries
KR100502710B1 (ko) * 2002-05-24 2005-07-20 주식회사 아이큐브 광 디스크 재생 장치
US20050212822A1 (en) * 2002-06-03 2005-09-29 Yoshinori Honma Display device, display method and advertisement method using display device
US20040036778A1 (en) * 2002-08-22 2004-02-26 Frederic Vernier Slit camera system for generating artistic images of moving objects
KR20040025313A (ko) * 2002-09-19 2004-03-24 엘지전자 주식회사 이동통신 단말기의 사진편집 및 전송방법
JP2004135177A (ja) * 2002-10-11 2004-04-30 Sharp Corp 携帯電話機
JP3793142B2 (ja) 2002-11-15 2006-07-05 株式会社東芝 動画像加工方法及び装置
JP2004187273A (ja) * 2002-11-22 2004-07-02 Casio Comput Co Ltd 携帯電話端末、及び、発信履歴表示方法
JP2004179923A (ja) 2002-11-27 2004-06-24 Nec Corp 携帯電話機及びそれに用いる連写画像の自作アニメーション設定方法
GB2395853A (en) * 2002-11-29 2004-06-02 Sony Uk Ltd Association of metadata derived from facial images
JP4336813B2 (ja) * 2002-12-06 2009-09-30 日本電気株式会社 画像記述システムおよび方法
CN100454997C (zh) * 2002-12-06 2009-01-21 日本电气株式会社 图像记述系统及其方法
JP2004193809A (ja) * 2002-12-10 2004-07-08 Matsushita Electric Ind Co Ltd 通信装置
US7472063B2 (en) * 2002-12-19 2008-12-30 Intel Corporation Audio-visual feature fusion and support vector machine useful for continuous speech recognition
JP2005005882A (ja) * 2003-06-10 2005-01-06 Casio Comput Co Ltd 携帯電話および画像付き文書表示方法
US20050018050A1 (en) * 2003-07-23 2005-01-27 Casio Computer Co., Ltd. Wireless communication device, dynamic image preparation method and dynamic image preparation program
WO2005010725A2 (en) * 2003-07-23 2005-02-03 Xow, Inc. Stop motion capture tool
JP2005094741A (ja) 2003-08-14 2005-04-07 Fuji Photo Film Co Ltd 撮像装置及び画像合成方法
JP2005108193A (ja) * 2003-09-09 2005-04-21 Canon Inc 動画システム、動画抽出装置及び動画抽出方法
US20060007243A1 (en) * 2003-11-18 2006-01-12 Miller Kevin J Method for incorporating personalized content into a video format
JP2005151282A (ja) * 2003-11-18 2005-06-09 Fuji Xerox Co Ltd 画像処理装置、画像処理方法、およびプログラム
US20050129111A1 (en) * 2003-12-16 2005-06-16 Nokia Corporation Transform-domain video editing
JP2005190088A (ja) * 2003-12-25 2005-07-14 Matsushita Electric Ind Co Ltd メール処理装置及びメール処理システム
FI20031908A0 (fi) * 2003-12-29 2003-12-29 Nokia Corp Menetelmä medialeikkeen koostamiseksi liikkuvassa päätelaitteessa, menetelmää hyödyntävä päätelaite ja ohjelmalliset välineet menetelmän toteuttamiseksi
JPWO2005076210A1 (ja) 2004-02-05 2007-10-18 ソフトバンクモバイル株式会社 画像処理方法、画像処理装置及び移動通信端末装置
JP2005234074A (ja) * 2004-02-18 2005-09-02 Sony Corp 情報処理装置および情報処理方法、記録媒体、並びにプログラム
JP2005311604A (ja) * 2004-04-20 2005-11-04 Sony Corp 情報処理装置及び情報処理装置に用いるプログラム
KR100552709B1 (ko) * 2004-05-21 2006-02-20 삼성전자주식회사 눈검출 장치 및 방법
JP2006080702A (ja) * 2004-09-08 2006-03-23 Nec Corp テレビ電話システム、通信端末装置及びそれに用いる文字情報送信方法並びにそのプログラム
KR100608596B1 (ko) 2004-12-28 2006-08-03 삼성전자주식회사 얼굴 검출을 기반으로 하는 휴대용 영상 촬영 기기 및영상 촬영 방법
KR100678702B1 (ko) 2005-02-03 2007-02-05 에스케이 텔레콤주식회사 이동통신 단말기를 이용하여 벡터 그래픽 애니메이션컨텐츠를 저장된 사진과 합성하는 방법 및 그 장치
US10607305B2 (en) * 2005-03-05 2020-03-31 Jeb C. Griebat Method for questioning jurors
KR101141643B1 (ko) * 2005-03-07 2012-05-04 엘지전자 주식회사 캐리커쳐 생성 기능을 갖는 이동통신 단말기 및 이를 이용한 생성 방법
US20060222243A1 (en) * 2005-04-02 2006-10-05 Newell Martin E Extraction and scaled display of objects in an image
JP4375289B2 (ja) * 2005-06-27 2009-12-02 セイコーエプソン株式会社 コメントレイアウト装置
GB2428124B (en) * 2005-07-07 2010-04-14 Hewlett Packard Development Co Data input apparatus and method
KR100667669B1 (ko) 2005-07-21 2007-01-12 장경식 휴대폰을 이용한 화상 데이터가 첨부된 메시지 전송방법
JP2006018854A (ja) * 2005-08-31 2006-01-19 Casio Comput Co Ltd カメラ付き携帯電話および画像付き文書表示方法
JP2007072520A (ja) * 2005-09-02 2007-03-22 Sony Corp 映像処理装置
USRE49187E1 (en) 2005-09-06 2022-08-23 Samsung Electronics Co., Ltd. Mobile communication terminal and method of the same for outputting short message
KR100714700B1 (ko) 2005-09-06 2007-05-07 삼성전자주식회사 이동 통신 단말기 및 이동 통신 단말기의 단문 메시지 출력방법
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
KR100679049B1 (ko) * 2005-09-21 2007-02-05 삼성전자주식회사 인물 및 장소정보를 제공하는 썸네일에 의한 사진탐색 방법및 그 장치
JP2007096470A (ja) * 2005-09-27 2007-04-12 Nec Corp 監視機能付き移動携帯端末およびその制御方法
JP2007101945A (ja) * 2005-10-05 2007-04-19 Fujifilm Corp 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP4645411B2 (ja) * 2005-10-28 2011-03-09 コニカミノルタホールディングス株式会社 認証システム、登録システム及びプログラム
EP1796039B1 (en) * 2005-12-08 2018-11-28 Topcon Corporation Device and method for image processing
US8020097B2 (en) * 2006-03-21 2011-09-13 Microsoft Corporation Recorder user interface
JP4889351B2 (ja) * 2006-04-06 2012-03-07 株式会社トプコン 画像処理装置及びその処理方法
JP4765732B2 (ja) 2006-04-06 2011-09-07 オムロン株式会社 動画編集装置
JP5362189B2 (ja) * 2006-05-10 2013-12-11 株式会社トプコン 画像処理装置及びその処理方法
US7839434B2 (en) * 2006-08-04 2010-11-23 Apple Inc. Video communication systems and methods
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8436911B2 (en) * 2006-09-14 2013-05-07 Freezecrowd, Inc. Tagging camera
US20080077595A1 (en) * 2006-09-14 2008-03-27 Eric Leebow System and method for facilitating online social networking
KR100834813B1 (ko) 2006-09-26 2008-06-05 삼성전자주식회사 휴대용 단말기의 멀티미디어 컨텐트 관리 장치 및 방법
JP4800163B2 (ja) * 2006-09-29 2011-10-26 株式会社トプコン 位置測定装置及びその方法
JP4759503B2 (ja) * 2006-12-20 2011-08-31 キヤノン株式会社 画像処理装置、画像処理装置の制御方法、プログラム
US7916894B1 (en) * 2007-01-29 2011-03-29 Adobe Systems Incorporated Summary of a video using faces
US7756338B2 (en) * 2007-02-14 2010-07-13 Mitsubishi Electric Research Laboratories, Inc. Method for detecting scene boundaries in genre independent videos
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
KR100961444B1 (ko) * 2007-04-23 2010-06-09 한국전자통신연구원 멀티미디어 콘텐츠를 검색하는 방법 및 장치
US8558952B2 (en) * 2007-05-25 2013-10-15 Nec Corporation Image-sound segment corresponding apparatus, method and program
US20090062944A1 (en) * 2007-09-04 2009-03-05 Apple Inc. Modifying media files
JP2009077032A (ja) * 2007-09-19 2009-04-09 Pioneer Electronic Corp 画像処理システム、処理装置及び画像処理方法
JP5023932B2 (ja) * 2007-09-28 2012-09-12 カシオ計算機株式会社 撮像装置、シナリオによる画像撮影方法、およびプログラム
US20100205277A1 (en) * 2007-10-29 2010-08-12 Junya Nakayama Mobile terminal, mobile terminal system, control method of mobile terminal, program and storage medium
JP5100360B2 (ja) * 2007-12-21 2012-12-19 株式会社トプコン 画像処理装置
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
JP2010087907A (ja) * 2008-09-30 2010-04-15 Canon Inc 映像合成表示装置、映像表示システム及び映像表示方法
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US9852761B2 (en) * 2009-03-16 2017-12-26 Apple Inc. Device, method, and graphical user interface for editing an audio or video attachment in an electronic message
US20100238323A1 (en) * 2009-03-23 2010-09-23 Sony Ericsson Mobile Communications Ab Voice-controlled image editing
US11230026B2 (en) 2009-03-30 2022-01-25 Stickeryou Inc. Device, system and method for making custom printed products
CA2698052C (en) * 2009-03-30 2021-02-02 Stickeryou, Inc. Internet-based method and system for making user-customized stickers
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
JP5371574B2 (ja) * 2009-06-23 2013-12-18 株式会社第一興商 背景映像中の顔画像を避けるように歌詞字幕を表示するカラオケ装置
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP2011066745A (ja) * 2009-09-18 2011-03-31 Brother Industries Ltd 端末装置、通信方法および通信システム
CA2780440C (en) * 2009-11-16 2018-03-06 Twentieth Century Fox Film Corporation Non-destructive file based mastering for multiple languages and versions
JP5419654B2 (ja) * 2009-12-01 2014-02-19 株式会社ソニー・コンピュータエンタテインメント 情報処理装置および情報処理システム
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP5389724B2 (ja) * 2010-03-31 2014-01-15 富士フイルム株式会社 画像処理装置、画像処理方法およびプログラム
US8584256B2 (en) 2010-04-21 2013-11-12 Fox Entertainment Group, Inc. Digital delivery system and user interface for enabling the digital delivery of media content
US10339570B2 (en) 2010-04-21 2019-07-02 Fox Entertainment Group, Inc. Customized billboard website advertisements
US9723303B2 (en) * 2010-08-31 2017-08-01 Tektronix, Inc. System for generating text defined test patterns
WO2012030965A2 (en) * 2010-08-31 2012-03-08 Fox Entertainment Group, Inc. Localized media content editing
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8989492B2 (en) * 2011-06-03 2015-03-24 Apple Inc. Multi-resolution spatial feature extraction for automatic handwriting recognition
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
JP5439455B2 (ja) * 2011-10-21 2014-03-12 富士フイルム株式会社 電子コミック編集装置、方法及びプログラム
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9007633B2 (en) * 2012-08-15 2015-04-14 Fuji Xerox Co., Ltd. Systems and methods for efficiently capturing high-quality scans of multi-page documents with hand-held devices
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR102158098B1 (ko) * 2013-01-07 2020-09-22 삼성전자주식회사 이미지 인식을 이용한 이미지 레이아웃 방법 및 장치
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US11481855B2 (en) 2013-08-07 2022-10-25 Jeb C. Griebat Method for questioning jurors
US20150058708A1 (en) * 2013-08-23 2015-02-26 Adobe Systems Incorporated Systems and methods of character dialog generation
US9201900B2 (en) * 2013-08-29 2015-12-01 Htc Corporation Related image searching method and user interface controlling method
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US8954521B1 (en) * 2014-07-22 2015-02-10 Google Inc. Management and presentation of notification content
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US9921796B2 (en) * 2015-04-24 2018-03-20 Kyocera Corporation Sharing of input information superimposed on images
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN109446876B (zh) * 2018-08-31 2020-11-06 百度在线网络技术(北京)有限公司 手语信息处理方法、装置、电子设备和可读存储介质
KR102167628B1 (ko) * 2018-11-02 2020-10-19 가천대학교 산학협력단 인공 지능 데이터 셋을 위한 영상 수집 장치 및 방법
KR102098734B1 (ko) * 2019-08-06 2020-04-08 전자부품연구원 대화 상대의 외형을 반영한 수어 영상 제공 방법, 장치 및 단말
US11064175B2 (en) 2019-12-11 2021-07-13 At&T Intellectual Property I, L.P. Event-triggered video creation with data augmentation
US11392347B2 (en) * 2020-06-17 2022-07-19 Twitter, Inc. Audio messaging interface on messaging platform
CN112115869A (zh) * 2020-09-18 2020-12-22 北京搜狗科技发展有限公司 一种数据处理方法、装置和录音设备
CN114697749B (zh) * 2020-12-28 2024-09-03 北京小米移动软件有限公司 视频剪辑方法、装置,存储介质及电子设备
US11800056B2 (en) 2021-02-11 2023-10-24 Logitech Europe S.A. Smart webcam system
US11800048B2 (en) 2021-02-24 2023-10-24 Logitech Europe S.A. Image generating system with background replacement or modification capabilities
CN113325983B (zh) * 2021-06-30 2024-09-06 广州酷狗计算机科技有限公司 虚拟形象处理方法、装置、终端及存储介质

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0591407A (ja) 1991-09-30 1993-04-09 Nippon Telegr & Teleph Corp <Ntt> 映像通信装置
JPH06161131A (ja) 1992-11-25 1994-06-07 Mita Ind Co Ltd 電子写真感光体
JP3526067B2 (ja) 1993-03-15 2004-05-10 株式会社東芝 再生装置及び再生方法
US5500671A (en) * 1994-10-25 1996-03-19 At&T Corp. Video conference system and method of providing parallax correction and a sense of presence
JP3258840B2 (ja) * 1994-12-27 2002-02-18 シャープ株式会社 動画像符号化装置および領域抽出装置
DE69635101T2 (de) * 1995-11-01 2006-06-01 Canon K.K. Verfahren zur Extraktion von Gegenständen und dieses Verfahren verwendendes Bildaufnahmegerät
JP3230569B2 (ja) 1996-04-24 2001-11-19 富士ゼロックス株式会社 情報蓄積装置、情報蓄積方法および情報蓄積再生装置
US6577807B1 (en) * 1996-11-15 2003-06-10 Hitachi Denshi Kabushiki Kaisha Editing method and apparatus for moving pictures
US5864630A (en) * 1996-11-20 1999-01-26 At&T Corp Multi-modal method for locating objects in images
US5907604A (en) * 1997-03-25 1999-05-25 Sony Corporation Image icon associated with caller ID
US5999207A (en) * 1997-05-16 1999-12-07 Scientific-Atlanta, Inc. Method and apparatus for implementing a user interface for a videophone in a cable television network
EP0905644A3 (en) * 1997-09-26 2004-02-25 Matsushita Electric Industrial Co., Ltd. Hand gesture recognizing device
US6356339B1 (en) * 1998-01-12 2002-03-12 Fuji Photo Film Co., Ltd. Digital photo system which replaces a portion of subject matter common to two digital images
JPH11219446A (ja) * 1998-02-03 1999-08-10 Matsushita Electric Ind Co Ltd 映像音響再生システム
US6546052B1 (en) * 1998-05-29 2003-04-08 Canon Kabushiki Kaisha Image processing apparatus and method, and computer-readable memory
JP2000172852A (ja) * 1998-09-28 2000-06-23 Canon Inc 画像処理方法、装置および記録媒体
JP4207099B2 (ja) * 1998-09-29 2009-01-14 ソニー株式会社 画像編集装置及びその方法
US6363160B1 (en) * 1999-01-22 2002-03-26 Intel Corporation Interface using pattern recognition and tracking
JP4227241B2 (ja) * 1999-04-13 2009-02-18 キヤノン株式会社 画像処理装置及び方法
KR100295610B1 (ko) * 1999-11-09 2001-07-12 장영규 동영상 편집 시스템 및 이를 이용한 객체 정보 서비스 방법
US6754389B1 (en) * 1999-12-01 2004-06-22 Koninklijke Philips Electronics N.V. Program classification using object tracking
EP1107166A3 (en) * 1999-12-01 2008-08-06 Matsushita Electric Industrial Co., Ltd. Device and method for face image extraction, and recording medium having recorded program for the method
KR100343223B1 (ko) * 1999-12-07 2002-07-10 윤종용 화자 위치 검출 장치 및 그 방법
JP4531897B2 (ja) * 1999-12-27 2010-08-25 パナソニック株式会社 人物追跡装置、人物追跡方法及びそのプログラムを記録した記録媒体
US6784899B1 (en) * 2000-03-31 2004-08-31 Ricoh Company, Ltd. Systems and methods for providing rich multimedia messages to remote users using telephones and facsimile machines
FI113602B (fi) * 2000-06-30 2004-05-14 Nokia Corp Menetelmä ja järjestelmä vaihtoehtoisen videodatan järjestämiseksi ja lähettämiseksi videolähetysten katkojen aikana
US6724417B1 (en) * 2000-11-29 2004-04-20 Applied Minds, Inc. Method and apparatus maintaining eye contact in video delivery systems using view morphing
US6804396B2 (en) * 2001-03-28 2004-10-12 Honda Giken Kogyo Kabushiki Kaisha Gesture recognition system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8872843B2 (en) 2004-07-02 2014-10-28 Samsung Electronics Co., Ltd. Method for editing images in a mobile terminal

Also Published As

Publication number Publication date
US20020031262A1 (en) 2002-03-14
US6961446B2 (en) 2005-11-01
KR20020021032A (ko) 2002-03-18
JP3784289B2 (ja) 2006-06-07
CN1344084A (zh) 2002-04-10
JP2002176619A (ja) 2002-06-21
KR100656661B1 (ko) 2006-12-12

Similar Documents

Publication Publication Date Title
CN1200537C (zh) 媒体编辑方法及其装置
KR100480076B1 (ko) 정지영상 이미지 처리방법
TWI436808B (zh) Input support device, input support method and recording medium
CN1607829A (zh) 便携式终端和图像通信程序
US20100085363A1 (en) Photo Realistic Talking Head Creation, Content Creation, and Distribution System and Method
US20080275700A1 (en) Method of and System for Modifying Messages
US11227637B1 (en) Synchronizing multiple images or videos to an audio track
JP2000350159A (ja) 視覚画像編集システム
CN103428555A (zh) 一种多媒体文件的合成方法、系统及应用方法
JP2004128614A (ja) 画像表示制御装置及び画像表示制御プログラム
JP5206553B2 (ja) 閲覧システム、方法、およびプログラム
US8706485B2 (en) Method and device for mnemonic contact image association
WO2021248835A1 (zh) 视频处理方法及装置、电子设备、存储介质和计算机程序
WO2015079458A2 (en) Integration of emotional artifacts into textual information exchange
WO2024108981A1 (zh) 视频剪辑方法及装置
CN1757057A (zh) 使用图形表达进行通信
CN113395569B (zh) 视频生成方法及装置
CN115804099A (zh) 场景描述的再现控制
WO2003077520A1 (en) A method to classify and structure a multimedia message
JP2012526317A (ja) ユーザグループのメンバーの経験レポートを提供する方法及びシステム
EP4199492A1 (en) Video processing method and electronic device
JP2004072776A (ja) 携帯電話装置、携帯電話装置の制御方法、携帯電話装置の制御プログラム、および携帯電話装置の制御プログラムを記録したコンピュータ読取可能な記録媒体
CA2717555A1 (en) Photo realistic talking head creation, content creation, and distribution system and method
CN104506751A (zh) 一种生成带声音的电子明信片的方法及装置
US11997426B1 (en) System and method for generating a personalized virtual stage

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140721

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140721

Address after: California, USA

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Japan Osaka

Patentee before: Matsushita Electric Industrial Co.,Ltd.

CX01 Expiry of patent term

Granted publication date: 20050504

CX01 Expiry of patent term