CN101820537B

CN101820537B - 活动图像数据的编码方法、终端装置以及双向对话型系统

Info

Publication number: CN101820537B
Application number: CN2010101148402A
Authority: CN
Inventors: 贵家仁志; 柿井俊昭; 牧久雄; 畑洋一
Original assignee: Sumitomo Electric Industries Ltd
Current assignee: Sumitomo Electric Industries Ltd
Priority date: 2004-04-23
Filing date: 2005-02-23
Publication date: 2013-04-03
Anticipated expiration: 2025-02-23
Also published as: US7983497B2; TW200601838A; NO20065381L; WO2005104552A1; US20050237380A1; KR20070044397A; EP1701546A4; CA2553434C; EP1701546A1; AU2005236997A1; JP2006101472A; US20100118935A1; JP4763312B2; CN1914915A; AU2005236997B2; CA2553434A1; CN101820537A; KR101099884B1; TWI372563B

Abstract

本发明涉及活动图像数据的编码方法、终端装置以及双向对话型系统。该活动图像数据的编码方法，是将构成活动图像数据的图像帧分别沿着时间轴依次压缩的活动图像数据的编码方法，设定由多个分割区域构成的虚拟图像帧以作为应编码的图像帧，将从构成上述活动图像数据的图像帧中应编码的图像帧分割出的多个分割图像中的至少一个和从与上述活动图像数据不同的信息源得到的划出图像，一起分配给构成上述虚拟图像帧的上述多个分割区域的每一个，对应设定在该多个分割区域的各个区域的编码级别而个别地压缩被分配给构成上述虚拟图像帧的上述多个分割区域的各个图像，由此产生包含多个种类的图像信息的各虚拟图像帧的编码数据。

Description

活动图像数据的编码方法、终端装置以及双向对话型系统

本发明是以下专利申请的分案申请：申请号：200580003640.7，申请日：2005.2.23，发明名称：活动图像数据的编码方法、解码方法及实施这些方法的终端装置、以及双向对话型系统

技术领域

本发明涉及适用于由接在网络上的多个终端装置所构成的双向对话型系统特有的对话环境的图像处理技术，特别是关于在该终端装置间发送接收的活动图像数据的编码、解码方法等。

背景技术

近年，有提出在远隔两地的对话者之间，实现使对方对话者的图像互相成视线一致的状态下，一边显示在监视器上，一边进行电视会议(televisionsession)，或咨询辅导(counseling)等的亲密的对话的双向对话型系统。此视线一致的技术有各种不同的提案，通过将CCD摄像机那样的摄像装置配置在显示对方对话者的图像的监视器的规定位置上而达成视线一致(参照专利文献1)。

专利文献1：日本专利第3074677号公报

非专利文献1：日本昭和42年电气通信学会联合大会(NO.1998)。

发明内容

(发明欲解决的课题)

发明者等针对上述那样的双向对话型系统检讨的结果，发现下述那样的课题。即，经由规定的传送装置相互发送对话者的活动图像数据的情况下，目前的通信环境在线路的发送容量和图像修理能力上有其界限，一般是进行数据压缩。作为这种活动图像的压缩方式，MPEG方式被广泛地利用在电影分配服务等。不过，此MPEG方式因在时间轴方向也进行压缩，故在实时(realtime)性的双向对话上无法避免显示延迟，进而产生无法达成在相隔两地间顺畅对话的双向对话的课题。

另外，发明者等依据在上述双向对话型系统那样的视线一致的状态下的对话的心理上的考察，发现对话时对话者因要观察对方对话者的表情，视线大多集中在该对方对话者的脸，非语言(non-verbal)表现的手势。这种情况下，不必逐次发送包含对话时的对话者图像的整个画面，若只着重于对话时的重要观察区域，也即对话者的脸部，和手势等属于该对话者的兴趣区域(ROI：Region of Interest)而发送活动图像的话则能减少发送量，另外，对实现双向对话的高速响应性也甚具效果。

这样，作为仅重视兴趣区域的图像处理，已知有例如JPEG2000 Part-1方式的ROI编码。此ROI编码是一种将兴趣区域的画质提高到比非兴趣区域的画质好的图像处理技术。这里，一般JPEG2000方式大家所知者为静止图像的压缩方式，对图像数据进行相当于离散小波变换，非向量的量子化(scalar quantization)，熵编码(entropy encoding)以及发送率控制的处理(EBCOT：Embedded Block Coding With Optimized Truncation：最佳化截断的埋置数据区块编码)以进行图像压缩。ROI编码是将设定在静止图像内的兴趣区域上小波系数设定得比非兴趣区域上小波系数高，由此使兴趣区域的画质比非兴趣区域的画质高。

不过，JPEG2000 Part-1方式的ROI编码因在兴趣区域和非兴趣区域上压缩级别(level)虽有差别，但合计码量不变的缘故，无法减轻编码处理自身，另外，也无法减少获得的编码数据的发送量。再者，ROI编码虽通过调节小波系数而执行，但此小波系数因为使用多个空间像素(spatial pixel)计算，故解码后的静止图像上兴趣区域和非兴趣区域的境界变成模糊不清，导致有无法执行只将兴趣区域置入别的图像等的图像处理的课题。

本发明是为了解决上述课题而创作出者，其目的是提供一种适用于通过连接于网络上的多个终端装置所构成的双向对话型系统的图像处理技术，其为包括用于有效地减轻各终端装置上的处理负载的同时还实现该处理的高速化的结构的活动图像数据的编码方法，解码方法，执行它们的计算机程序，记录该计算机程序的记录媒体，实施上述的终端装置及含有该终端装置的双向对话型系统。

(解决课题的方法)

本发明提供一种活动图像数据的编码方法，是将构成活动图像数据的图像帧分别沿着时间轴依次压缩的活动图像数据的编码方法，

设定由多个分割区域构成的虚拟图像帧以作为应编码的图像帧，

将从构成上述活动图像数据的图像帧中应编码的图像帧分割出的多个分割图像中的至少一个和从与上述活动图像数据不同的信息源得到的划出图像，一起分配给构成上述虚拟图像帧的上述多个分割区域的每一个，

对应设定在该多个分割区域的各个区域的编码级别而个别地压缩被分配给构成上述虚拟图像帧的上述多个分割区域的各个图像，由此产生包含多个种类的图像信息的各虚拟图像帧的编码数据。

本发明还提供一种双向对话型系统，是经由规定的传送装置将被摄像的对话者图像相互提示给对方对话者，由此实现该对话者和该对方对话者间的对话的双向对话型系统，构成经由上述传送装置发送接收的活动图像数据的图像帧通过所述的活动图像数据的编码方法而被编码。

本发明还提供一种双向对话型系统的终端装置，适用于经由规定的传送装置将被摄像的对话者图像相互提示给对方对话者，由此实现该对话者和该对方对话者间的对话的双向对话型系统，该终端装置至少具备：显示该对方对话者的图像的显示装置，以及用于摄取位于该显示装置的前方的该对话者的摄像部，

该终端装置还具备：

实现所述的活动图像数据的编码方法的控制部；以及

将上述控制部压缩的编码数据送出到上述传送装置的输入输出部。

本发明有关的活动图像数据的编码方法为将构成活动图像数据的图像帧分别沿着时间轴顺序地压缩的图像处理技术，如上述的双向对话型系统那样，于仅在应显示的画面帧内的一部分区域上含有有意义的信息的动作环境下能有效地利用资源，同时能进行实时的数据发送接收的图像处理技术。另外，构成活动图像数据的图像帧分别与静止图像等效。另外，人物像等的图像，能将背景视为静止图像。因此，本发明对于通过power point(微软公司的注册商标)，表计算软件(例如“Excel”等)，文字处理软件(例如”Word”等)，浏览器(Browser)等的应用软件产生的资料数据(文本数据(text)，相片，图像等)的发送也是有效。也即这样的应用程序产生的显示数据，随着时间的经过频繁地产生部分的变化(例如，游标(cursor)的移动，和字符的追加显示等)，因此通过将每一定时间的显示数据作为一个图像帧，整体上能当作活动图像数据处理。基于此点，本说明书里，在活动图像数据上，除了通过摄像装置等摄取的图像数据外还含有通过上述应用软件等产生的显示数据，静止图像和活动图像的组合等。再者，上述应用软件等所产生的数据档一旦转换为图像数据后即被施予压缩等的处理。

具体说，本发明有关的活动图像数据的编码方法的特征是在图像压缩前将构成活动图像数据的图像帧中应编码的图像帧分割成多个区域，将该多个分割区域分别对应于在图像帧内设定的兴趣区域及与该兴趣区域不同的非兴趣区域的任一个。而该活动图像数据的编码方法是使多个分割区域中对应兴趣区域(以下，称ROI)的分割区域的码量比对应于非兴趣区域(以下称非ROI)的分割区域的码量多那样压缩该多个分割区域的各个区域，由此产生各个图像帧的编码数据。再者，图像帧的分割区域的形状，不限定于正方形，长方形等的矩形形状，也可以是为，例如，三角形，菱形，梯形，平行四边形等种种的多边形状。另外，这些分割区域也可以是由多个种类的多边形的组合，和含有构成圆形或椭圆形状等的一部分的曲线等各种不同形状所构成。但是，下文的说明，为了简单起见，这些分割区域用矩形区域表示。

如上述那样，本发明有关的活动图像数据的编码方法因为沿着时间轴个别压缩构成活动图像数据的图像帧，故与在时间轴方向同时进行压缩的MPEG方式不同，高速响应性出色。另外，该活动图像数据的编码方法因为个别地压缩构成活动图像数据的图像帧，故能利用例如，属于静止图像压缩方式的JPEG2000(以下称JP2)。有关此JP2，以往已有提出多个方式，本发明对任何方式皆能适用，作为一例，上述的Part-I方式等为即使不经许可也能广泛利用的技术。例如，将一个图像帧分割成多个矩形区域的技术通过利用JP2的马赛克化(tiling)技术能容易地实现。这里，所谓JP2的马赛克化是指将处理单位变小，由此能进行大规模图像的编码和并行处理的技术，将一个图像帧分割成几个马赛克(相当于上述的矩形区域)，能个别处理被分割的这些马赛克(tile)。

因此，若将被分割的多个矩形区域分别对应于ROI及非ROI的任何一个，依这些对应关系调节每个矩形区域的压缩级别，利用既存的JP2技术，能实现达到与以往的ROI编码同等的效果的该活动图像数据的编码方法。另外，该活动图像数据的编码方法因为依每个分割的矩形区域进行压缩级别不同的编码，故不会像以往的ROI编码那样ROI和非ROI的境界模糊不清。

再者，上述ROI的设定可由使用者自行事先设定或者在进行通信当中变更设定，另外，也可在多个分割区域中自动地将被检测出区域内图像有移动的分割区域对应于ROI。

本发明有关的活动图像数据的编码方法，也可将多个矩形区域对应于上述的ROI上，这种情况下，优选将各个矩形区域压缩成具有不同的码量。这是依上述的发明者的知识而进行的，是从在双向对话型系统那样视线一致的状态下的对话时的心理上的考察发现的事实，也即对话时的对话者为了观察对话的对方的表情，视线大多集中在对话的对方的脸和非语言(non-verbal)表现的手势。即，若高速地(例如，30帧/秒(fps)，延迟200m sec以下)显示对话对方的表情，头的移动，手势，上半身的移动等，则不需发送背影和衣服的详细模样等的信息。但是，对话对方的表情除了要求最细微且高速地显示视线、眼睛、眉间的微妙的变化等外，非语言表现的手势，如手的移动、轮廓的高速响应移动显示是重要的。这时手本身的画质纵然降低但对对话的本质的影响仅止于轻度。因此，考虑上述双向对话型系统特有的对话环境，上述ROI更优选是分成包含对话时高精细高速响应的脸部，头部的高精细且高速显示区域和包含手，手腕，胸部等的中等精细且高速显示区域，这种情况下，包含背景等的低精细且低速显示区域配属在非ROI。这样考虑对对话的影响度，在图像帧内分类成压缩级别分段改变的多个种类的区域，对在减轻图像处理负载的状态下实现顺畅的双向对话上更有效。

若考虑对图像帧内的各个区域的对话的影响度时，在上述多个矩形区域之中对对应非ROI的矩形区域的编码处理上，也可将该矩形区域的码量在一定期间中设定为0(使非ROI不编码)。也即，被包含于属于非ROI的低精细且低速显示区域内的背景等不如将静止图像高精细地粘贴显示来得有效之故。例如，在家里进行远距离对话时对家中作最小限度的摄像即能应付。将来也能想象仅提取人物，背景则是全部贴上从数据库(data base)选出的图像(矩形区域)，现实上，背景等的非ROI仅是一定时间才编码，纵使仅将人物的脸部等的ROI编码，但在该活动图像数据的编码方法上，这些ROI和非ROI的境界明确，因此在非ROI不编码期间，在该对应的矩形区域上粘贴已解码前的图像是有效的。特别是这种情况下，图像帧整体的编码处理能减轻，因此也能期待安装编码的软件。

本发明有关的活动图像数据的编码方法，相当于对应上述多个矩形区域中的ROI的矩形区域的编码数据也可以再予以加密(encryption)。但是加密对象并不是仅限定于ROI，使用者可任意设定。这对利用双向对话型系统的对话者的隐私(privacy)的保护特别重要。如上述那样实现对话者间视线一致的状态的双向对话型系统，除了单纯在商务场面(business scene)上利用的电视会议(television session)系统之外，也被视为有希望适用于怀有因灾害事故等所造成的后遗症的人的咨询辅导(counseling)等治疗系统。另外，双向对话上因须要加密(encryption)及解密(decryption)，故通过只对对话时兴趣区域加密，能更为有效率地进行图像处理。对话时的兴趣区域(ROI)主要是对话对方的图像的脸部，若不能判别这部分时则个人的辨识非常困难。因此，若仅以属于高精细(低压缩率)且高速显示区域的ROI为重点进行加密时对话者的隐私则能获得充分的保护。另外，在辨识个人上声音也重要，通过与图像独立的加密，能构筑更强固的安全性(security)。

本发明有关的活动图像数据的编码方法，构成该活动图像数据的图像帧也可分割为对ROI成一致的一个矩形区域。这种情况下，能减少矩形区域的分割数。另外，对话开始时设定的ROI的大小，在对话中有改变的情况。因此，对应ROI大小的变动，动态地变更矩形区域的分割尺寸，由此，更能有效率地分散图像处理的负载。再者，即便矩形区域的尺寸不对应ROI的尺寸变更时也能对应ROI的尺寸的变动，动态地变更对应于该ROI的矩形区域。另外，在对话中，使用者也能利用鼠标等的输入装置任意地变更ROI的尺寸。本说明书里，所谓「动态」是指除对应状况的变化自动地追随的情况之外，也含有使用者视状况任意地变更设定的情况。

如上述那样的对话中的矩形区域的尺寸和对应关系的变更，与眼睛，和嘴巴，脸部的动作不同，因手的动作等依人的不同而有极大的差异而执行。也即，对静止的手并不是经常执行一定的压缩，对手的动作多的人，少的人另加上当时的对话状况，不是用固定压缩率和固定分割，而是自适应地(adaptive)设定压缩率和分割尺寸，由此能进行最佳的图像处理。

上述那样的活动图像数据编码方法若采用JP2技术时通过马赛克化(tiling)分割的各个矩形区域(tile)，依每个区域改变压缩级别(压缩级别愈高码量愈少)，由此，除了能获得实质上与ROI编码同等的效果，同时通过JP2技术能容易解码。不过，对应属于编码对象的图像帧内的非ROI的矩形区域的码量若设定为0时，即便通过JP2技术将图像帧的编码数据予以解码也不能获得非ROI的图像。这种情况下的解码(本发明有关的活动图像数据的解码方法)首先对对应于ROI的矩形区域被压缩的编码数据予以解码，同时准备已被解码后存储的另外图像帧的对应矩形区域作为对应于非ROI的矩形区域。然后，合成对应已被解码的ROI的矩形区域和准备的另外图像帧的对应矩形区域产生新的图像帧。这里，对各矩形区域的压缩和显示品质的控制优选地一边监视执行处理的CPU性能和网络的线路性能，一边动态地变更。

再者，本发明有关的活动图像数据的编码方法，应编码的图像帧的一部分通过例如对相当于非ROI的矩形区域，填入从与属于发送对象的活动图像数据不同的信息源得出的图像(即使压缩级别低，对对话不会产生障碍的静止图像的一部分，和活动图像的图像帧的一部分)而更具临场感的对话能不受线路容量，和图像处理能力等目前的通信环境的限制。

具体而言，首先，设定通过多个分割区域构成的虚拟图像帧(virtual imageframe)作为须编码的图像帧，将这些多个分割区域作为属于JP2的马赛克化(tiling)的处理单位的马赛克而进行处理。然后，将从构成活动图像数据(对话对方的活动图像)的图像帧中须编码的图像帧分割的多个分割图像中的至少任一个和从与该活动图像数据不同的信息源得出的划出图像一起分配给这些多个分割区域的各个区域。这里，被分配的划出图像有，例如从键盘输入的监视器图像(静止图像)划出的一部分(以下，称文本图像)，利用通过光笔(light-pen)进行的白板(white board)功能的手写文字的监视器图像(从静止图像划出的一部分)(以下，称白板图像)，构成其它的活动图像数据的图像帧的一部分等，以及从摄像机，扫描机等的数字设备取入的静止图像，和活动图像。另外，新设定的虚拟图像帧整体尺寸及分割区域数目不必与属于本来的编码对象的活动图像数据的图像帧相同。但是，构成该虚拟图像帧的分割区域的尺寸虽不必与属于本来的编码对象的活动图像数据的图像帧的分割区域的尺寸相同，但相同的话因不必执行图像分割处理所以较佳。

如上述那样被分配在构成上述虚拟图像帧的多个分割区域上的多个种类的图像，通过JP2的马赛克化技术，各个相当于马赛克的多个种类的图像能分别以不同的压缩级别进行个别地编码。由此，对应这些多个分割区域的各个设定的编码级别进行个别压缩，进而产生各虚拟图像帧的编码数据。

如上述那样将作为属于编码对象的活动图像数据的图像帧而设定的虚拟图像帧沿着时间轴顺序进行编码，由此，得出每个图像帧上有混合静止图像和活动图像的一个图像帧份的活动图像的再现用的编码数据。

另外，构成上述虚拟图像帧的多个分割区域的各个区域也可与在该虚拟图像帧内设定的ROI及与该ROI不同的非ROI的任意一个对应。这时，与上述的构成同样，多个分割区域的各个区域优选地使对应于ROI的分割区域的码量比对应于非ROI的分割区域的码量多那样被进行压缩。

另外，上述ROI的设定可由使用者本身事先设定，也可在使用中变更设定。另外，也可在多个分割区域中将检测出区域内图像有移动的分割区域对应于ROI。

本发明有关的活动图像数据的编码，也可将分配给构成上述虚拟图像帧的多个分割区域中的至少一个的图像的编码数据另行加密。另外，对应这些多个分割区域中至少一个的编码处理，也可将该分割区域的码量在一定期间中设定为0。这种情况下，在执行编码处理侧填入事先准备好的图像，由此能得出显示用的图像帧(由解码后的图像和填入码量为0的区域的图像所构成)。上述那样设定的虚拟图像帧也是各个需依JPEG2000进行压缩。

上述那样的活动图像数据的编码、解码方法是在双向对话型系统的各终端装置上执行。终端装置至少具备显示对话对方的图像的显示装置，用于摄取坐在该显示装置前方的该对话者的摄像部，执行上述的活动图像数据的编码、解码方法的控制部，以及送出被控制部压缩的编码数据至上述传送装置的输入输出部。

上述那样的活动图像数据的编码、解码方法，也可为被计算机等执行的程序，这种情况下，该程序也可不拘有线，无线而经网络分配，另外，也可存储在CD，DVD，快闪式存储器等的记录媒体里。

再者，本发明有关的各实施例，通过以下的详细说明及附图更能充分地理解。这些实施例纯粹系用于例示，不应视为限制本发明。

另外，本发明的当然的应用范围可从以下的详细说明获得了解。不过，详细的说明及特定的事例虽表示在本发明的优选实施例上，但此仅止于例示而已。本领域技术人员当明白可自此详细说明对本发明做各种变更及改良而不会逾越本发明的精神及范围。

(发明的效果)

依本发明，特别地假想在实现实时的双向对话型的双向对话型系统的特殊环境下，也即，在发送数据仅集中在显示图像的一部分区域的活动图像数据的特殊的对话环境下的利用，从图像帧分割出的多个矩形区域对应于ROI和非ROI的任何之一，改变对应于该ROI的矩形区域和对应于非ROI的矩形区域上的压缩级别以执行各图像帧的编码，由此，能减轻及高速化这样的双向对话型系统上的活动图像数据的编码处理。

附图说明

图1为表示在不同地点间经传送装置实现视线一致的双向对话型系统(本发明有关的终端装置及双向对话型系统)的一构成的图。

图2为表示图1所示的摄像装置的图，用于说明为了使视线一致，CCD摄像机的设置方法。

图3为用于说明视差角的图。

图4为表示应设置CCD摄像机的区域的图。

图5为表示本发明有关的终端装置的构造的方块图。

图6(a)～(b)为用于分别说明各终端装置上执行的图像数据的发送动作及接收动作的流程图。

图7为用于说明图6中的区域(a)的活动图像数据的发送动作的帧编码(本发明有关的活动图像数据的编码方法)的流程图。

图8为用于说明马赛克化的图。

图9为用于说明ROI(兴趣区域)的设定方法的一例的图。

图10为用于说明马赛克与ROI的对应关系的图(其1)。

图11是用于说明马赛克与ROI的对应关系的图(其2)。

图12为用于说明ROI(兴趣区域)的设定方法的另外例的图。

图13(a)～(b)为用于说明检测各马赛克上图像的移动的图。

图14是用于概念地说明本发明有关的双向对话型系统的活动图像数据的发送接收动作的图。

图15是用于概念地说明本发明有关的双向对话型系统的活动图像数据的发送接收动作的另外例的图。

图16是用于概念地说明图14及图15所示的活动图像数据的发送接收动作上帧编码的第1应用例的图。

图17是用于概念地说明图16所示的第1应用例的具体的例的图。

图18是用于概念地说明图14所示的活动图像数据的发送接收动作上帧编码的第2应用例的图。

图19(a)～(c)是用于概念地说明图14所示的活动图像数据的发送接收动作上帧编码的第2应用例的图。

图20是用于概念地说明图14所示的活动图像数据的发送接收动作上帧编码的第3应用例的图。

图21是用于概念地说明通过图20所示的第3应用例有关的帧编码得出的编码数据的解码动作的图。

图22是表示应用图20及图21所示的第3应用例有关的帧编码时的显示用图像帧的一例的图。

图23是表示应用图20及图21所示的第3应用例有关的帧编码时的显示用图像帧的一例的图。

主要部分的代表符号说明

3(3A、3B)...对话者A、B 5(5A、5B)...摄像部(CCD摄像机)6(6A、6B)...摄像单元8(8A、8B)...监视器画面20A、20B...终端装置21(21A、21B)显示部(显示装置)24(24A、24B)...麦克风26(26A、26B)...图像处理装置80、90...监视器图像80a...兴趣区域261、265...输入输出部(I/O)262...图像数据库(D/B)263...控制部264...描绘部600(600A、600B)摄像装置700...外部记录装置800...图像数据810...马赛克

具体实施方式

以下将使用图1～图23详细地说明本发明有关的活动图像数据的编码、解码方法等的各种实施方式。另外，在图面的说明上，相同的部位，相同的构件赋与相同的符号，省略重复的说明。

本发明有关的活动图像数据的编码、解码方法能在经规定的传送装置连接的终端装置上执行，能适用于在这样的终端装置间实现对话的例如上述专利文献1上记载的双向对话型系统。

首先，这里将说明执行该活动图像数据的编码、解码方法的终端装置能适用的双向对话型系统。另外，此双向对话型系统虽为实现在视线一致的状态下的对话的系统，但包含该摄像装置的终端装置即使是为对话者间的视线无法一致的结构，也能适用于单纯发送接收对话者图像的活动图像数据的双向对话型系统。

(双向对话型系统及终端装置)

图1是表示能使位于不同地点的对话者间的视线一致的双向对话型系统整体的逻辑构成图。此系统是实现位在A地点(第1地点)的对话者3A(第1对话者)和B地点(第2地点)的对话者3B(第2对话者)间的双向对话的系统。此系统也是在不同地点的对话者间确立亲密的可靠关系，实现亲密的沟通(communication)的系统，例如，能用作为以咨询辅导系统，和家庭学习为意向的服务的提供系统。这种情况下，假想至少一边的对话者是教师、医师、心理学者等的服务提供者。因此，此系统具备能提供这些服务提供者，提供服务所需的信息，及理想的对话环境那样的各种功能及构成。

具体说，在A地点设置(a)对话者3A(例如辅导者)的座椅4A(具有高度调节机构40A)，(b)对话者3A面对的桌子2A，(c)具备经传送装置27使对话者间的视线一致所需的机构的终端装置20A，对话者3A通过分隔物22A而被隔离。另一方面，在B地点设置(a)对话者3B(例如，接受辅导的客户)的座椅4B(具有高度调节机构40B)，(b)对话者3B面对的桌子2B(c)具备经传送装置27使对话者间的视线一致所需的机构的终端装置20B，对话者3B通过分隔物22B而被隔离。这里，传送装置27为了能在A地点的终端装置20A和B地点的终端装置20B的间发送接收图像信息及声音信息，而包含有光纤发送路径31(主发送路径)及卫星通讯发送路径32(备援用发送路径)等。另外，此传送装置27是有线、无线皆可。另外，传送装置除了包含已敷设的电话线路等网络外，还包括具备各种的数据库的电子布告板系统(BBS：Bulletin Board System)。

在A地点，上述椅子4A的功能是规定对话者3A的位置。此椅子4A优选地为了与终端装置20A的显示部(显示装置)21A保持一定距离而被固定。但是，即便该椅子4A未被固定时在对话者3A和显示部21A的间设置桌子2A，由此也能使椅子4A和显示部21A的距离保持一定(桌子2A的存在已成为对话者3A的心理上的距离的基准的事实已获得确认)。另外，对话对方3B(例如接受辅导的人等)所在的B地点的终端装置20B的结构也是相同。

在A地点上，终端装置20A具备(1)根据从B地点的终端装置20B经传送装置27传来的图像信息，显示对话者3B的图像的配置在桌子2A上的监视器TV1A的显示部21A，(2)用于保持CCD摄像机(摄像部)5A于规定位置的本体部6A，(3)根据从B地点的终端装置20B经传送装置27传来的声音信息，输出对话者3B的声音所用的声音输出部23A(扬声器)，及(4)将对话者3A的声音集音作为声音信息，然后朝B地点的终端装置20B发送所用的声音输入部24A(麦克风)。另外，本系统为了作为咨询辅导系统，实现更绵密的沟通，另具备(5)对话者3A输入文字，和图形，将输入的文字，和图形显示在显示部21A的同时另外作为文字图形信息朝B地点的终端装置20B发送所用的文字图形输入部25A(键盘，点选装置(pointing device)，触板(touch panel)等的接口)，(6)设在上述各构成要素和传送装置27之间，执行信号处理，发送控制，及图像数据的编辑作业等的图像处理装置26A(含控制部)。另外，B地点的终端装置20B也是与上述的A地点的终端装置20A做成相同构成，具体而言，具备显示部21B，由CCD摄像机5B和本体部6B形成的摄像装置600B，声音输出部23B，声音输入部24B，文字图形输入部25B，及图像处理装置26B。

以下将说明A地点及B地点的终端装置20A，20B上摄像装置600A，600B的构成。另外，为了方便说明，在提及A地点及B地点的各终端装置20A，20B的共同的构成要素时，例如，像摄像装置600那样，省略区别各地点的文字A，B来进行说明。另外，不特别说明时原则上是针对A地点的终端装置20A进行说明，而不再重复说明具有共同构成的B地点的终端装置20B。

此摄像装置600具备属于摄像部的CCD摄像机5(5A)，及用于在支撑该CCD摄像机5的状态下设置在规定位置的本体部6。监视器TV1(1A)置放在桌子2(2A)上，对话者3(3A)坐在放置在距监视器TV1-L(m)距离的具备高度调整机构40(40A)的椅子4(4A)上。此距离L(LA)设定在0.5m以上，5m以下。在被摄像的对话者3及监视器TV1间设有外径φ为20mm以下，长度约100mm的圆筒状的CCD摄像机5。另外，此CCD摄像机5设置成其摄像方向朝向被摄像的对话者3。而被CCD摄像机5摄像的对话者3的图像作为图像信息而被发送到另一边的对话者侧(经传送装置27被发送到B地点的终端装置20B)。再者，依对话者，显示部21和该对话者间的间隔可能有些微的偏移。因此，为了也应付此状况，最好是选择焦点深度深的CCD摄像机5。

其次，将使用图2说明CCD摄像机5的具体的设置位置。

首先，摄像装置600的本体部6设置在用于显示传来的另一边的对话者的图像的显示部21上。另外，开关210包含用于接通/关断(ON/OFF)监视器TV1的电源的电源开关，用于对监视器画面8在水平方向，和垂直方向上移动被显示的图像的图像位置调节开关，及色补正开关等。CCD摄像机5通过本体部6配置在显示传来的另一边的对话者3B的图像9的监视器画面8的前方的规定位置上。另外，此监视器画面8只要有4时程度即能充分地利用。

具体说，CCD摄像机5在距监视器画面8前方W(cm)的位置，配置于显示在该监视器画面8的对话者图像9的头部9a附近。圆筒状CCD摄像机5的中心轴位在以虚线表示的对话者图像9的眼睛的位置的上方h(cm)的部位。

这样，CCD摄像机5因位于显示于监视器TV1的画面8的对话者图像9的眼睛的位置的上方头部附近，故对双向对话不会产生特别的障碍。例如，若是为CCD摄像机5设在显示于画面8上的对话者图像9的眼睛的位置(图中虚线所示的位置)的上方h：约10(cm)，监视器TV1及对话者3间的距离L设定为约2.5(m)的系统结构的情况下时则视差角是2.3°能在充分检测界限的视差角3°之下(监视器画面8和CCD摄像机5的间隔w即便是10(cm)的程度时，对视差角的变动，无特别的影响)。也即，视线一致时若能清楚地看到对方的眼睛(显示在监视器画面8上的对方对话者3B的图像的眼睛)时则摄像机5即便设在头部附近，只要监视器TV1的画面8是大型时对双方的对话几无障碍一事已获确认。此画面8的大小，依实验的结果，只要是横35cm，竖26cm程度以上的大小时则能实现良好的双向对话，此事也获得确认。再者，相互的对话者，若是彼此熟识时则画面的尺寸即便是小，心里上的障碍不大，有获得显示这种倾向的结果，有关画面的尺寸依用途分别使用即可。

另外，视线一致的状态能通过对监视器画面8调整CCD摄像机5的位置而实现。另外，对CCD摄像机5，移动显示在监视器画面8上的图像也能实现。例如，若是通过手动达成视线一致的情况下时则对话者本身移动CCD摄像机5，或通过调整开关210使监视器图像移动即可。另外若是通过自动实现视线一致的情况下时则另设置使摄像机移动用的驱动机构，或利用画面识别技术使监视器图像移动即可。

下面将使用图3说明视差角。本说明书里，所谓视差角，如图3所示，是指朝向显示在监视器画面8的对话者图像9的被摄像的对话者3的视线与朝向CCD摄像机5的该对话者3的视线间形成的角度θ。换言之，是指CCD摄像机5的设置位置对对话者3的视线的偏离角。另外，这里所说的视线一致，如非专利文献1上报告的那样，是指在因CCD摄像机5的设置位置所造成的不自然度的容许界限以下。定量上，视差角在左右方向4.5°以下(对对话者图像9的眼睛的中心A，是该图像9的鬓角侧)，正上方向12°(对图像中心A，图像9的头部9b侧)，正下方向8°(对图像中心A，是图像9的身体侧)以下视为在视线一致范围内。当然，此视差角小较好，左右上下方向3°以下作为检测界限。因此，能设置CCD摄像机5的区域是图4所示的圆锥区域。另外，此圆锥区域是对连结对话者3的眼30与显示于监视器画面8上的对话者图像9的中心点A(本实施方式定义为将对话者图像9的两眼的中心作为该对话者图像9的中心点A)的该对话者3的视线31，依隔规定距离L(m)时的监视器画面8上的视线一致区域9b，及该对话者3的眼30的位置而被规定。

另外，显示于监视器画面8上的对话者图像9的尺寸若是小的情况下时则该CCD摄像机5和对话者图像的头部并非一定要重叠。不如对话者图像9的头部隐在CCD摄像机5之后而不易看到。上述那样，视线一致的条件是CCD摄像机5和对话者图像9的眼位于视差角3°的区域内，具体说，在离画面50cm的位置上是约3cm程度(图2的h)。因此，只要是在此范围内时则CCD摄像机5和对话者图像9的头部即便偏离也能维持视线一致状态。例如，调整监视器画面8上的图像显示位置，或调节CCD摄像机5的支撑部以变更CCD摄像机5本身的位置，可使对话者图像9和CCD摄像机5偏离。

发明者等进行在具有上述那样构造的双向对话型系统上于视线一致的状态下对话的心理上的考察，发现对话时对话者为了观察对话对方的表现，视线大多集中在该对话对方的脸部，和非语言(non-verbal)表现的手势，这种情况下，对话时不必将包含对话者图像的整个画面逐次发送，而若只着重于对话时的重要观察区域，也即对话者的脸部和手势等对该对话者而言是兴趣区域(ROI：Region of interest)，发送活动图像的话能减少发送量，另外，也发现对实现双向对话的高速响应性很有效果。因此，本发明有关的活动图像数据的编码、解码方法，在通过双向对话型系统等进行发送接收的活动图像数据的各个图像帧内含有ROI的情况下的图像处理上，对减轻负载方面具有效果之外还能实现该处理的高速化。再者，该活动图像数据的编码、解码方法在终端装置上实施。

(终端装置)

图5是表示用于实施本发明有关的活动图像数据的编码、解码方法的终端装置的结构的图。此终端装置具备监视器等的显示装置21(相当于图1所示的双向对话型系统上的显示部21A，21B)，图像处理部26(相当于图1所示的双向对话型系统上的图像处理装置26A，26B)，外部记录装置700，鼠标等的点选装置(Pointing Device)900，触笔(touch-pen)920，由用于摄像坐在显示装置21前方的对话者的CCD摄像机5等的摄像部及本体部6所形成的摄像装置600，及扬声器910。上述图像处理部26具备用于取入来自含于摄像装置的本体部6的图像信息，和其它信息媒体的信息，和经传送装置27发送接收的对方对话者的活动图像数据(编码数据)的数据输入输出部261(图中的I/O)；执行本发明有关的活动图像数据的编码、解码方法的控制部263；用于存储被发送接收的活动图像数据的图像数据库262(图中的图像D/B)；依控制部263的指示在显示装置21上显示规定图样(pattern)的描绘部264；取入来自鼠标等的点选装置900的位置信息，和能与外部记录装置700进行数据的授受的数据输入输出部265(图的I/O)；及用于控制对话对方的声音的输出的扬声器的音源控制器930。

另外，外部记录装置700包括，例如，磁带，CD，光盘，硬盘，DVD，快闪式存储器等，存储实施本发明有关的活动图像数据的编码、解码方法的计算机程序，和对话对方的活动图像数据等。

(活动图像数据的编码、解码方法)

下面将说明在具备上述那样构造的终端装置的控制部263上执行的编码、解码动作(本发明有关的活动图像数据的编码、解码方法)。图6中的区域(a)是用于说明在各终端装置上执行的活动图像数据的发送动作的流程图图6中的区域(b)是用于说明在各终端装置上执行的活动图像数据的接收动作的流程图。另外，图7是用于说明图6中的区域(a)的活动图像的发送动作的帧编码(本发明有关的活动图像数据编码方法)的流程图。另外，构成以下说明的活动图像数据的图像帧的编码及解码是依JP2技术执行。

首先，活动图像数据的发送动作，如图6中的区域(a)的流程图所示那样，在对话开始的前，先执行设定图像帧内的ROI的前处理(步骤ST10)。在此步骤ST10上设定的ROI信息暂时存储在存储器内，控制部263利用此被存储的ROI信息沿着时间轴将构成活动图像数据的图像帧分别顺序编码(步骤ST20)。另外，此帧编码是通过控制部263执行经I/O265自外部记录装置700读入的计算机程序而进行。

控制部263将通过上述的帧编码程序(步骤ST20)被编码的编码数据逐次经I/O261送出到传送装置27(步骤ST30)。而且，这些帧编码及编码数据的发送动作是以30帧/秒的处理速度持续进行直到对话结束为止(步骤ST40)。

另外一方面，活动图像数据的接收动作，如图6中的区域(b)的流程图所示，控制部263从传送装置27经I/O261顺序接收图像帧的编码数据(步骤S50)，执行构成该图像帧的矩形区域(马赛克)的解码(步骤S60)。然后，控制部263在每个图像帧的全部马赛克的解码处理结束时刻执行解码后的马赛克的合成作业，进而产生应显示在显示装置21上的新的图像帧(步骤ST70)。另外，相当于接收的编码数据中的非ROI的马赛克的码量若是0的情况下时则将预先存储在数据库262的图像作为对应的马赛克图像而予以合成，由此，产生应显示的图像帧。另外，上述的解码处理是逐次执行直到对话结束为止(步骤ST80)。

另外，下文将用图7的流程图详细说明图6中的区域(a)的流程图中的帧编码。

控制部263利用JP2的马赛克化(tiling)技术进行图像帧的分割(步骤ST201)，根据在前处理(步骤ST10)上设定的ROI信息，将被分割的全部马赛克(tile)分类成含于ROI的矩形区域或含于非ROI的矩形区域。

另外，步骤ST201的马赛克化，如图8所示，将含有被显示的对话者图像9的监视器图像80的图像帧800分割成若干的相同尺寸的马赛克810(T₁₇～T₇₇)，而后能将这些马赛克各张作为一个独立的图像处理。马赛克的尺寸对话者本身能任意选择，其最小单位是1×1像素，最大是2³²-1×2³²-1像素。另外，图像帧800的尺寸也可与监视器图像80的尺寸一致。但是，监视器图像80的数据尺寸小对执行马赛克化的控制部(例如，CPU)的负载可有效减轻。因此，也可将广角透镜摄像机摄取的图像数据中的一部分暂行作为监视器图像80而进行马赛克化，当显示于监视器画面8之际则放大显示处理用的监视器图像80。

在图像帧800内的ROI的设定优选地在对话开始前对话者本身一边在监视器上确认自己的图像，一边设定。具体说，ROI的设定如图3所示，对话者3本身面对显示部21的监视器画面8，利用触笔920而进行。这种情况下，如图9所示，只要将ROI80a设定于通过触笔920在监视器画面8上指示的起点P1和终点P2所规定的矩形区域即可。例如，若是在图8所示的图像帧800中含有对话者图像9的脸部的矩形区域被设定ROI80a的情况下时，则如图10所示那样，构成图像帧800的马赛克T₁₁～T₇₇中的T₂₃，T₂₄，T₂₅，T₃₃，T₃₄，T₃₅对应ROI80a。另外，这样的ROI的设定如下述那样能将一个图像帧800分割成多个区域而分别设定。这种情况下，通过对多个ROI分别改变压缩级别和加密级别，对话者自身能具有决定图像品质，安全性，背景图像的权力。

另外，图像帧800，如图11所示，也能对ROI80a一致地分割为一张马赛克T₁₂。这种情况下，能减少图像帧800的分割数。另外，在对话开始时设定的ROI80a的尺寸在对话中有变动的情况下(对话者自身移动的情况下)。因此，对应ROI80a的尺寸的变动动态地变更马赛克810的分割尺寸，由此能更有效地分散图像处理的负载。另外，如图8及图10所示，由多个马赛克810构成ROI80a的情况下，也能对应ROI80a的尺寸的变动动态地变更对应该ROI80a的马赛克810。再者，对话中的动态变更包含对话者自身视状况而手动变更的情况和通过控制部等一边监视状况变化一边自动变更的情况。

上述那样对话中的马赛克尺寸和对应关系的动态地变更，是与眼睛，嘴巴，脸部的动作不同，因手的动作等依人的不同差异甚大而执行者。也即，对静止的手并不是经常执行一定的压缩，对手的动作变化多，变化少的人，更甚者，配合当时的对话状况，不是用固定压缩和固定分割，而是自适应地变动压缩率和分割尺寸，由此能进行最佳的图像处理。

其次，接续在上述那样的马赛克化(步骤ST201)之后，对被分割的马赛克810各个通过JP2技术进行编码。另外，本实施方式，在步骤ST201上，仅对对应ROI80a的马赛克进行编码，而对对应非ROI的马赛克则将码量设定为0(不进行编码)。另外，本实施方式，在不进行编码时对应只表示马赛克的存在的数个字节(byte)的编码列，由此，可避免解码的破绽。

控制部263执行的帧编码是对每个马赛克首先判断属于处理对象的马赛克究竟是对应于ROI80a，还是对应于非ROI(步骤ST202)，只对对应于ROI80a的马赛克进行编码，而对对应非ROI的马赛克不进行编码处理(码量：0)。

在步骤ST202上若判断是对应ROI80a时则进行编码处理，依次执行离散小波转换(DWT：步骤ST203)，非向量量子化(步骤ST204)，及EBCOT(步骤ST205)。

这里，步骤ST203的离散小波转换(DWT：Discrete WaveletTransformation)是对马赛克图像进行频宽分割处理。JP2技术采用基于2分割滤波器组的上升(lifting)构成的DWT。基于上升(lifting)构成的DWT上存在有属于可逆变换的整数型DWT和属于不可逆变换的实数型DWT两种。lossy(不可逆)编码及lossless(可逆)编码分别使用实数型DWT及整数型DWT。

另外，步骤ST204上的非向量量子化是对DWT系数在各个频宽上执行非向量量子化。但是，若是使用整数型DWT的情况下时则省略这项处理。用于非向量量子化的量子化阶梯(Step)大小由下式表示。

Λ_{B} = 2^{R_{b} - ϵ_{b}} [1 + \frac{μ_{b}}{2^{11}}]

这里，Δ_b是副频宽(Sub-band)₆的量子化阶梯，R_b是副频宽b的动态范围(dynamic range)。ε_b和μ_b分别用5个位元和11个位元表示，并送到解码器以为逆量子化之用。另外，上述量子化阶梯(quantization step)大小，对画质优先度高，也即对希望为高画质的马赛克设定为小阶梯大小，而对应低画质即可的非ROI的马赛克阶梯大小则设定得大。另外，若将此量子化阶梯大小设定为1时则实质上是与不执行非向量量子化等效。

其次，在步骤ST205上的EBCOT(Embedded Block Coding With OptimizedTruncation)是负责相当于熵编码(entropy encoding)及编码率控制的处理的算法(Algorithm)，由系数模式化(coefficient modeling)，算术编码及层分割·码切取(layer dividing·code extracting)三工程所构成。此EBCOT内存在有所谓码块(code block)的编码单位。码块被DWT区域上的矩形区域所定义，在全部的频宽上其大小皆相同。另外，上述三个工程中除掉算术编码的工程外，是以码块大小为单位分开执行。

系数模式化是将码块内的系数行位元平面(bit-plane)分解，判定各位元平面的系数位元的文脉信息(context：上下文关联)。在判定上下文关联时，准备有基于事先预备的统计模式的上下文关联分配图(Context AssignmentMap)。上下文关联分配图(Context Assignment Map)依各个频宽而不相同。依具有系数位元的文脉信息，将一个位元平面分解，排列为三个编码化路径(Sub-bit Plane：副位元平面)。

其次，算术编码使用属于两值算术编码器的MQ编码器(coder)，将各个编码化路径(path)予以编码。MQ编码器需要用于编码的文脉信息，而这文脉信息即是利用通过系数位元模式化获得的文脉信息。

层分割·码切取是将每个码块产生的编码数据列对应再现图像帧的SNR(Signal to Noise Ratio)提升的贡献度的程度，在赋与的编码率内分割成多层的SNR层(layer)。最上层对画质的影响最大，另外，通过从最上层到最下层的各层依次接收图像数据，能阶段地提升再现图像帧的画质。能分层的位置受各编码化路径的终端的限制，此终端称为舍弃点。另外，JP2的编码率控制与对画质的贡献度高的顺序并行，对被改变的数据，将超过赋与的编码率的数据以舍弃点为单位予以舍弃而达成。

如上述，对构成一个图像帧的全部马赛克，在结束编码(步骤ST203～ST205)或跳过编码后(步骤ST206)，将得出的各个马赛克的编码数据予以汇总而产生一个图像帧的编码数据(步骤ST207)。

另外，上述的步骤ST201利用在前处理(步骤ST10)上对话者自身设定的ROI数据，将ROI和非ROI对应于分割成规定尺寸的各个马赛克，但此ROI的设定也可对被分割的马赛克中，将检测图像有移动的马赛克自动地对应于ROI。图12是表示ROI设定方法的另外例。

首先，将图像帧分割成规定尺寸的马赛克以作为分割区域(步骤S201a)。然后，对每个被分割的马赛克检测图像是否移动(步骤ST201b)，将实际上被检测出图像有移动的马赛克设定于ROI(步骤S201c)。上述的处理对全部的马赛克执行完后(步骤ST201d)，则执行步骤ST202。

图13是用于说明检测每个被分割的马赛克的移动的动作的图。图13中的区域(a)上示出比较前图像帧A(由马赛克T₁₁～T₂₃构成)之中马赛克T₂₂与后图像帧B(由马赛克T₁₁～T₂₃构成)的对应马赛克T₂₂的情况。具体的比较是求出前图像帧A的马赛克T₂₂内的事先指定的像素的亮度值a1，a2，a3和后图像帧B的马赛克T₂₂内的对应的像素的亮度值b1，b2，b3，通过这些对应的像素彼此间的亮度值的差的合计以算出移动量。也即，马赛克T₂₂的移动量用下式表示。

(a1-b1)+(a2-b2)+(a3-b3)

通过上式算出的移动量若超过规定的阈值时马赛克T₂₂则设定于ROI。另外，用于比较亮度值的像素数也可依各个马赛克而异。

图13中的区域(b)是概念地表示含有上述移动检测动作的编码处理的方块图。

如图13中的区域(b)所示的那样，对于是处理对象的后图像帧B的各马赛克，利用属于比较对象的前图像帧A的对应马赛克以检测图像的移动，接着根据此检测结果，是否编码成ROI，或非ROI(若是非ROI的情况下时码量也可设定为0)，然后得出图像帧B的编码数据。

其次，图14是用于概念地说明应用上述那样的活动图像数据的编码方法的双向对话型系统(本发明有关的双向对话型系统)的活动图像数据的发送接收动作。另外，以下的说明是示出将CCD摄像机5摄取的对话者图像在监视器上显示的图像80行6分割的马赛克化的例。

发送侧终端装置20A，首先，将CCD摄像机5依次摄取的图像帧(显示对话者的监视器图像80)马赛克化成6个马赛克(T₁₁～T₂₃)，依每个图像帧，对对应于ROI80a的马赛克T₁₂进行编码。另外一方面，对应于非ROI的马赛克T₁₁，T₁₃，T₂₁～T₂₃则是每一定期间进行编码。这时，发送侧终端装置20A一边在例如发送速度为10Mbps的发送线路上发送以30帧/秒(fps)的速率送出的图像帧的编码数据(仅含有被压缩的马赛克T₁₂的码)，一边每一定期间送出含有全部马赛克的压缩数据的编码数据。这样，事先将构成一个图像帧的马赛克分类成编码对象及非编码对象，由此，减轻该发送侧终端装置20A的图像处理的负载。

另外一方面，接收侧终端装置20B以30fps的速率对依次接收的编码数据进行解码。此时，在一定期间之间，对对应于ROI80a的马赛克T₁₂得出解码的数据，但对对应于非ROI的马赛克T₁₁，T₁₃，T₂₁～T₂₃则无法得出解码数据(自发送侧终端装置20A送出的码量是0)。这种情况下，接收侧终端装置20B将相当于先前接收的被解码的别的图像数据的马赛克T₁₁，T₁₃，T₂₁～T₂₃的马赛克图像与解码的马赛克图像合成，由此产生新的应显示的图像帧90。

这样，在实现实时双向对话的双向对话型系统那样的特殊环境下，也即发送信息仅集中在显示图像的一部分区域上的活动图像数据的特殊环境下，将从图像帧分割出的多个马赛克对应于ROI和非ROI的任意一个，对对应该ROI的马赛克和对应非ROI的马赛克改变压缩级别以进行各图像的编码，由此能减轻及高速化这样的双向对话型系统的活动图像的编码处理。

再者，上述的接收动作，通过合成解码的全部马赛克，或合成解码的马赛克和作为先前的图像帧的马赛克而被存储的马赛克，以产生显示用图像帧90，但显示用图像帧的产生并非限定于这样。图15是用于概念地说明本发明有关的双向对话型系统的活动图像数据的发送接收动作的另外的例子的图。

发送动作，与图14所示的动作相同，发送侧终端装置20A针对各个马赛克T₁₁～T₂₃执行ROI编码及非ROI编码的任意一个，得出的编码数据则发送到接收侧终端装置20B。在接收侧终端装置20B上，对应ROI的马赛克的编码数据则被解码，另一方面对应非ROI的马赛克的编码数据也被解码。然后，仅放大处理必要的马赛克T₁₂以产生显示用图像帧90。

另外，图15所示的例子，虽是多个马赛克被设定为ROI，但也可对应会议的进行状况一边动态地变更显示对象人物的一个马赛克，一边设定ROI。这种情况下，仅传送事先放大显示的马赛克的码量，因此更减轻处理的负载。

例如，多人参加的电视会议，在发送侧终端装置20A上事先分配好显示各会议参加者；会议参加者中任何一个有举手的情况下等，则将检测出图像有移动的马赛克设定为ROI，对各马赛克进行ROI编码或非ROI编码。另一方面，在接收侧终端装置20B上，也可在解码的马赛克中仅对对应ROI的马赛克进行放大处理以作为显示用图像帧90。

另外，在上述的图14所示的例子中，执行马赛克化以将图像帧分割成6个马赛克，然后将分割的马赛克T₁₁～T₂₃对应于ROI和非ROI的任一，但也可将ROI进一步分成要求的画质级别不同的多个区域。图16是用于概念地说明图14所示的活动图像数据的发送接收动作的第1应用例(特别是发送动作)的图。

对话对方的表情，除了要求最细微且高速地显示眼脸，眼睛，眉间的微妙变化等之外还对非语言表现的手势，手的移动，轮廓的高速响应移动显示也是重要。在当时手本身的画质即便降低但对对话的影响本质上仅止于轻微。因此，考虑上述双向对话型系统特有的对话环境，图16是在发送侧终端装置20A上将马赛克T₁₂对应于包含对话时高精细且高速响应的脸部，头部的高精细且高速显示区域(第1ROI)，将马赛克T₁₂对应于手，手腕，胸部之中精细且高速显示区域(第2ROI)，而剩余的马赛克T₁₁，T₁₃，T₂₁，T₂₃则对应于非ROI。这样，考虑对对话的影响，在图像帧内分类成压缩级别做阶段地变化的多个种类的区域，这在对于减轻图像处理负载的状态下实现顺畅的双向对话上更为有效。

再者，若考虑对图像帧内的各区域的对话的影响度时也可将对应于非ROI的马赛克T₁₁，T₁₃，T₂₁，T₂₃的码在一定期间中设定为0。具体说，对非ROI不进行编码，发送仅表示不被编码的马赛克的存在的数个字节(byte)的编码列，由此避免解码上的破绽。

另外，通过对对应ROI的马赛克T₁₂进行加密，利用双向对话型系统的对话者的隐私能获得保护。上述那样实现对话者之间视线一致状态的双向对话型系统，除了单纯在商场(business scene)上利用的电视会议系统之外，另也被视为可望应用于具有因灾害、事故等所造成的后遗症的人的咨询辅导等治疗系统。另外一方面，双向对话有必要进行实时的加密和解密，因此，通过只对对话时的兴趣区域加密，能更有效率地执行图像处理。对话时的兴趣区域(ROI)主要是对话对方图像的脸部，此部分若无法判别时则非常难于辨识个人。因此，仅重点地对属于高精细(低压缩率)且高速显示的区域的ROI进行加密，对话者的隐私能获得充分的保护。另外，个人的辨识声音也是重要的，通过与图像分开加密，能构筑更为强固的安全性。

另外，双向对话系一边注视对话对方的脸部(一边维持视线能一致的状态)，一边进行对话，但是仅经对话对方图像进行对话说怎样也无法获得实际的面对面对话(利用活动图像和数据图像的真实(visual)对话)具有的临场感。有临场感的对话环境，在双向对话时，也和面对面对话一样，欲使利用数据进行顺畅对话，不仅要求播放脸部，也包括上半身和房间整体的多样的图像。因此，理想的是显示对话对方的图像外，还可随意地显示文本(text)等的数据以实现具临场感的对话。不过，这样增加发送来自多个信息源的静止图像和活动图像，须有大容量的通信容量，因此，导致阻碍对话系统的普及化。

这样的具有临场感的双向对话，也包含音乐，演戏，各种趣味，各种资格等的远距实际技术指导，特别是在这样的对话环境下，最好是除了合成在多个视点上观察的图像外，也随时显示对应当时的文本数据。另外，不限于远距实际技术指导，就是对于现场指导，最好也是合成在多个视点上的观察图像，同时文本数据也显示录像和再现观察指导的内容。

图17是用于概念地说明上述图16所示的第1应用例的具体的例的图。图17是示出显示于动物园的监视用的监视器上的图像帧。此图像帧也是对每个马赛克检测图像的移动，设定加密与否，或对每个马赛克事先设定加密与否和强度。另外，这样的应用例，并非仅对被设定为ROI的马赛克加密，对任意的马赛克也设定加密。

也即，显示栏中的动物的马赛克T₁₁，T₁₂，T₁₃不加密，仅在该动物有移动时才发送编码数据。另一方面，显示站在栏前面的人物的马赛克T₂₁，T₂₂，T₂₃从保护隐私的观点执行低级别的加密。

应编码的活动图像数据也能应用power point，表计算软件，文字处理软件，浏览器(browser)等的应用软件产生的数据，下面将使用图18及图19说明编码动作。另外，图18及图19皆为概念地说明图14所示的活动图像数据的发送接收动作上的帧编码化的第2应用例的图。另外，由上述应用程序等产生的数据档一旦转换成图像数据后即被执行压缩处理。

由上述应用程序产生的显示数据等因随着时间的经过，频繁地产生部分的变化(例如，游标的移动，和文字的追加显示等)，故通过将每一定时间的显示数据作为一个图像帧，整体也能作为活动图像数据处理。因这种情况下，本说明里提及的活动图像数据除了通过摄像装置等摄取的图像数据之外，也包含由上述应用软件等产生的显示数据，静止图像和摄像图像的组合。

首先，图18所示的例，是对文本数据，和相片(也可是摄像图像)等的图像帧进行马赛克化。这时，通过检测指示器(Pointer)的移动，对该指示器所在的马赛克T₂₂进行编码。

另外一方面，图19的例，如图19中的区域(a)所示那样，在发送侧终端装置的监视器画面8A内设定有发送用图像区域(此区域系被马赛克化以形成发送用图像帧80)之外，还同时在该区域之外显示power point，表计算软件，文字处理软件，浏览器等的应用程序产生的资料数据。

如图19中的区域(b)所示那样，上述资料数据在监视器画面8A上于箭头S1所示方向被拖引，在其一部分进入发送用图像区域后发送侧终端机装置能检测出在马赛克T₂₁内发生图像的移动。由此，发送侧终端装置对这个马赛克T₂₁进行编码，然后发送到接收侧终端装置。

接收侧终端装置，如图19的区域(c)所示那样，在监视器画面8B上显示仅新近合成的解码的马赛克T₂₁的图像帧90。

再者，本发明有关的活动图像数据的编码方法的第3应用例应被编码的图像帧的一部分是将从与属于发送对象的活动图像数据不同的信息源得出的图像(压缩级别即便低也不会对对话产生障碍的静止图像的一部分，和构成别的活动图像的图像帧的一部分)填入于例如相当于非ROI的矩形区域那样而构成。由此构成，更具临场感的双向对话能不受线路通信容量，和图像处理能力等现在的通信环境的限制。下面，将利用图20～图23详细说明本发明有关的活动图像数据的编码方法的第3应用例。

图20是用于概念地说明本发明有关的活动图像数据的发送接收动作的帧编码化的第3应用例(特别是发送动作)的图。

此第3应用例是设定由多个分割区域VT₁₁～VT₃₃构成的虚拟图像帧以作为须编码的图像帧80，这些多个分割区域VT₁₁～VT₃₃是作为属于JP2的马赛克化(tiling)的处理单位的马赛克处理。另外，图像帧80分割为3×3，但虚拟图像帧分割成4×4(分割尺寸与图像帧80的矩形区域T₁₁～T₂₃相同)。

然后，将设定于图像帧80的ROI的矩形区域T₁₂，T₂₂分配给在构成虚拟图像帧的分割区域中的该虚拟图像帧的分割区域VT₁₁～VT₂₂，虚拟图像帧的分割区域V₁₃上，分配有对话者整体被摄取的活动图像帧86的一部分86a。而在虚拟图像帧的分割区域VT₃₁～VT₃₂上各自分配有表示从键盘输入的文字信息的文本图像88的一部分88a，88b。在虚拟图像帧的分割区域VT₁₁，VT₂₁上各自分配有表示自光笔920等输入的手写文字信息的白板图像87的一部87a，87b。另外，在虚拟图像帧的分割区域VT₃₃上没有分配图像。

如上述那样被分配于分割区域VT₁₁～VT₃₃的多种图像上分别，如图20的编码级别的矩阵所示那样，事先指定编码级别。另外，“H”表示高压缩率，“M”表示中压缩率，“L”表示低压缩率。另外，编码级别矩阵中的斜线区域是表示虚拟图像帧的分割区域VT₃₃的编码级别的区域，但因分割区域上未被分配图像之故，不执行编码(码量＝0)。依此编码级别矩阵所指定的编码级别，各分割区域VT₁₁～VT₃₃通过JP2技术个别被压缩，然后将得出的分割区域VT₁₁～VT₃₃的编码数据予以合成，由此产生各虚拟图像帧的编码数据。

将如上述那样作为属于编码化对象的活动图像数据的图像帧而设定的虚拟图像帧沿着时间轴顺序进行编码，由此，能依次得出混合静止图像和活动图像的一个图像帧份的活动图像再现(regeneration)用的编码数据。

另外一方面，图21是用于概念地说明通过图20所示的第3应用例有关的帧编码得出的编码数据的解码动作的图。

经规定的传送装置27发送接收的编码数据因系由图20中所示的虚拟图像帧的分割区域VT₁₁～VT₃₃的编码数据所构成，故分别对这些分割区域VT₁₁～VT₃₃的编码数据所构成，故分别对这些分割区域VT₁₁～VT₃₃的编码数据进行解码，由此能得出分配给分割区域VT₁₁～VT₃₃的图像以作为帧要素。另外，虚拟图像帧的分割区域VT₃₃的码量因是0之故，准备对话者本身的图像85作为对应于此分割区域VT₃₃的帧要素。

合成如上述那样被解码的帧要素和另外准备的对话者本身的图像，由此，能得出图21所示那样的显示图像帧90。通过将来自对方的终端装置的编码数据沿着时间轴依次解码，能依次得出混合静止图像和活动图像的一个图像帧份的活动图像再现用的图像帧。

图22及图23系分别为表示应用图20所示的第3应用例有关的帧编码时显示用图像帧的一例，此两显示用图像帧皆如图21所示那样，通过解码，或通过解码及与别的图像的合成而得出者。

图22所示的显示用图像帧90是由分配给解码的分割区域的图像所构成的区域90a及与对话者，自身的图像90b的合成。此图22所示的显示用图像帧90的例，斜线区域90c上分配文本图像等的静止图像，剩余的区域上分配对话对方的图像ROI。这样，本发明有关的活动图像数据的编码方法的第3应用例，在进行编码处理时也可将对话对方的图像的ROI分配给虚拟图像帧的分割区域VT₁₁～VT_33的任一，另外，能随意地变更对话对方的图像和文本图像等的静止图像的比例。

另外，图23所示的显示用图像帧90是，假想指导者和钢琴演奏者在进行钢琴教学(piano lesson)时，构成显示该指导者侧的活动图像的一个图像帧。如图23所示，在构成虚拟图像帧的4个分割区域中3个分割区域上分配以多角度摄取的钢琴演奏者的各个图像，而在剩下的区域上分配显示乐谱等的文本图像。另外，将这样的多角度摄像的图像分配给虚拟图像帧的分割区域的情况下，也可将参加在不同地点间举行电视会议的一侧的参加者各个的图像分配给构成虚拟图像的若干分割区域，还同时将显示会议数据的文本(text)图像分配给剩余的分割区域。

从上述的本发明的说明，明白可对本发明做各种变更。这种变更不能视为逾越本发明的精神及范围，所有本领域技术人员知晓的改良皆包含在所述的权利要求内。

(产业上利用可能性)

本发明能使用在实现实时的双向对话的双向对话型系统那样的特殊环境，也即，发送信息仅集中在显示图像的一部分区域的活动图像数据的特殊环境。

Claims

1.一种活动图像数据的编码方法，是将构成活动图像数据的图像帧分别利用JPEG2000的马赛克化技术沿着时间轴依次压缩的活动图像数据的编码方法，

设定由相当于作为上述JPEG2000的处理单位的马赛克的多个分割区域构成的虚拟图像帧以作为应编码的图像帧，

2.如权利要求1所述的活动图像数据的编码方法，其中

上述多个分割区域分别对应于被设定在上述虚拟图像帧内的兴趣区域及与该兴趣区域不同的非兴趣区域之一，

上述多个分割区域分别被压缩成对应于上述兴趣区域的分割区域的码量比对应于上述非兴趣区域的分割区域的码量多。

3.如权利要求2所述的活动图像数据的编码方法，其中

在上述多个分割区域中，被检测出区域内的图像有移动的分割区域对应于上述兴趣区域。

4.如权利要求1所述的活动图像数据的编码方法，其中

构成上述虚拟图像帧的上述多个分割区域中的至少一个的编码数据进一步被加密。

5.一种双向对话型系统，是经由规定的传送装置将被摄像的对话者图像相互提示给对方对话者，由此实现该对话者和该对方对话者间的对话的双向对话型系统，构成经由上述传送装置发送接收的活动图像数据的图像帧通过权利要求1所述的活动图像数据的编码方法而被编码。

6.一种双向对话型系统的终端装置，适用于经由规定的传送装置将被摄像的对话者图像相互提示给对方对话者，由此实现该对话者和该对方对话者间的对话的双向对话型系统，该终端装置至少具备：显示该对方对话者的图像的显示装置，以及用于摄取位于该显示装置的前方的该对话者的摄像部，

该终端装置还具备：

实现权利要求1所述的活动图像数据的编码方法的控制部；以及

7.如权利要求6所述的双向对话型系统的终端装置，其中还具备：

取入有关上述分割区域的压缩级别及有无加密的信息的输入装置。

8.如权利要求7所述的双向对话型系统的终端装置，其中

上述控制部经由上述输入输出部接收通过权利要求1所述的活动图像数据的编码方法压缩并被送出到上述传送装置的图像数据，将构成该图像数据的各个分割区域的编码数据解码，接着将该被解码的各分割区域和替换码量为0的分割区域而准备的图像合成从而产生显示用图像数据。