CN1112326A

CN1112326A - 图象通信设备

Info

Publication number: CN1112326A
Application number: CN95105104A
Authority: CN
Inventors: 市毛健志; 今出宅哉; 西村龙志; 谷津田则夫; 栗山裕之; 织田真愉子
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1994-04-15
Filing date: 1995-04-13
Publication date: 1995-11-22
Anticipated expiration: 2015-04-13
Also published as: CN1132406C; KR950030647A; KR0180543B1; US5710590A

Abstract

一种图象通信设备包括：提取电路，用于从输入的视频数据中提取至少一部分视频数据；编码器，用于分别对所提取的视频数据和其余视频数据进行编码；和多路复用器，用于多路复用编码的视频数据。当对视频数据编码时，将预定编码量分配给相应视频数据。当通过具有低传输率的传输路径进行图象通信时，这种编码方式能抑制图象质量劣化。

Description

本发明涉及图象编码和图象通信设备，例如可视电话和录象设备。

通常，作为传输话音的通信设备，已采用了一种可视电话系统（A.N.Netravali，B.G.Haskell“数字图象”，第115-119页，AT&T Bell Lab.（贝尔实验室）（1988））。此设备包括：发射系统，它包括摄象装置、话音输入装置以及用于对图象和话音进行编码的编码电路;接收系统，它包括用于对编码的图象和话音信号进行译码的译码器;显示器，它包括扬声器和CRT（阴极射线管）;以及通信控制器，用于通过一网络传输图象和话音。在这种传统的设备中，由摄象机形成的图象的内容全部被编码并通过一传输线传输，这导致必需传输大量数据。结果，通过一根低速模拟通信线实现通信的这类低成本可视电话产生了这样的问题：图象质量显著变劣或者图象的移动变得不协调和不自然。

为解决上述问题，已做了各种尝试。例如，根据JP-A-57-129076中记载的可视电话设备，为使背景清晰，将事先制备的背景图象与新形成的电视图象相比较，从而实现保密控制并将要传输的图象信号量减至最少。

然而，当该系统的用户进行通信并同时观视彼此的图象时，在通常情况下，通信人的图象是最重要的。也就是说，在许多情况下各通信人的背景图象是不重要的。考虑到有限数量的编码的有效配置，它可被认为对一所得帧中的图象之组元进行均匀编码是无效的，也就是说，对于通信的用户而言，对具有不同重要性的目标均匀地分配相同数量的编码是无效的。

另外，JP-A-57-129076中描述的可视电话设备需要事先发射背景图象的程序。也就是说，未考虑到用户的可操作性和适用性。

因此，本发明的目的是要提供一种图象通信设备，即使通过诸如模拟电话线的低速传输路径，此设备也可使用，并且保持优异的图象质量。

为实现本发明的目的，本发明的图象通信设备设有：图象提取装置，用于提取目标的特定部分的图象;编码装置，用于对所提取图象部分进行编码，以及用于向对方传输图象数据的装置。

图象提取装置提取目标的特定部分的图象。每一所提取图象按一种编码方法或通过改变编码参数编码，以根据相关图象部分的重要性产生适量的码。这可将编码最优化地分布主屏图象的各部分。

另外，在可视电话设备和电视会议系统中，由摄象设备产生的视频信号被编码，以便能通过诸如综合业务数字网（ISDN）的传输路径传输。例如，就全国电视制式委员会（NISC）标准的信号而言，当信号未进行传输数据压缩时，根据彩色电视的演播标准，传送速度为216兆比特/秒（Mbps）。这使得需要更有效地对信号进行编码，以减少传输数据的比特数。至于编码方法，主要采用“日本电视工程师协会月刊”第45卷第7期（1991）第793-799页描述的方法。也就是说，基本上采用以帧内估算或预测为基础的条件象素补充方法（CondiTional pixel supplementing method），其中仅传输移动部分，以便诸如离散余弦变换（DCT）的其它编码方法与条件象素补充方法组合使用。由于这类高效编码技术的发展，使用ISDN线的可视电话和电视会议系统已在商务和工业领域得到了广泛应用。将图象转换为用于传输的编码来实现通信的方法已有公开，例如，JP-A-62-120179中以及在名称为“系统图象编码技术”的文章中已有描述，所述文章由Makoto Miyahara撰写，发表于IPC的1-14页。

虽然诸如可视电话之类的采用模拟传输的低成本通信系统已经公知，但是，为了以低传输率实现传输，图象质量要受到相当程度的损害。这便会导致产生下列问题。人面部的表情无法很好地传输和显示，表情的变化无法以实时方式传输，造成面部的动作不够自然。

本发明的另一个目的是要提供一种可视电话系统，即使在传输线具有低的传输率情况下，例如模拟电话线，此系统也能以实时方式产生高质量电视图象，从而解决了上述的问题。

为实现本发明的上述目的，本发明提供了一种系统，此系统包括：数据库，它存储与目标相关的模型的内容;摄象机，它包括提取处理装置和编码装置，提取处理装置用于提取由摄象机拍摄的目标并计算其特征，编码装置用于分析由提取处理装置算出的特征并将这些特征转换为与数据库相应的公知表达方式;接口装置，用于将由编码装置产生的公知表达方式转换为符合信号传输路径的信号系统的信号，将公知表达方式传送到接收机，并将发射机发送的信号转换成公知表达方式;以及译码装置，用于根据来自发射机侧的公知表达方式并通过参照数据库来合成视频信号。

为实现本发明的目的，上述装置以下述方式工作。

除提取处理装置和编码装置外，摄象机还包括通常用于数字式摄象机的信号处理电路和控制电路，当发射机发送一图象时，摄象机对信号进行处理，处理方法为公知的处理由摄象设备产生的视频信号的方法，以便产生诸如视频信号的图象信号。提取处理装置从由信息处理电路产生的视频信号中提取目标，以计算所提取目标的组元的特征，这些特征为（例如）尺寸、轮廓、重心座标和斜率。包括微机或类似装置的编码装置分析由提取装置算出的特征的信息，识别构成目标的组元及其状态，并将所识别的信息项转换成公知表达方式，此公知表达方式与数据库相对应，后者包括与目标相关的模型的内容。接口装置将由编码装置产生的公知表达方式转换成信号，此信号符合传输路径的信号系统，接口装置还通过传输路径传输所合成的信号。

通过传输路径接收的信号由接口装置转换成公知表达式。译码装置解译公知表达方式，以重构所传输的图象。在这个程序中，译码装置访问存储有大量的与目标有关的模型图象的数据库，尔后选择与组元相关的视频数据项，而这些组元构成从发射机发送的图象，以便再现原始图象。

也就是说，发射机并不发送图象本身。要传输诸如人面部之类的目标图象事先要转换成表示图象的公知表达方式，这样的公知表达方式便可作为传输数据发送。在接收机中，正如上面所述的那样，公知表达方式被解译成目标的图象。

采用这种方法，传输数据量可以显著地减少，因此，构成这样一种可视电话系统是可能的，即使采用诸如模拟电话线之类的具有低传输率的通信线，这种可视电话系统也能够以实时方式传输高质量的图象。

通过参考以下说明和附图，本发明的这些和其它目的和优点将变得更为清楚，附图中：

图1是表示根据本发明的图象通信设备的第一实施例的示意图;

图2是表示根据本发明的图象通信设备的总体结构的示意图;

图3是表示第一实施例的图象提取电路的结构的示意图;

图4是用于解释第一实施例的编码方法的示意图;

图5是用于解释第一实施例的编码方法的示意图;

图6是表示根据本发明的第二实施例的示意图;

图7是表示第二实施例的编码装置的结构的示意图;

图8是表示存储器中的视频数据的存储变换的示意图;

图9是用于解释第二实施例的编码方法的示意图;

图10是表示第二实施例的显示器构造的示意图;

图11A至11C是用于解释人口部的图象模型的示意图;

图12是表示根据本发明的第三实施例的示意图;

图13是表示存储器中的视频数据的存储变换的示意图;

图14是表示第三实施例的编码方法的示意图;

图15A和15B是用于解释将图象转换成公知表达方式的方法的一个例子的示意图;

图16是表示数据库的内容的一个例子的示意图;

图17是表示公知表达式的一个例子的示意图;

图18是表示在发射机和接收机之间刚建立通信线之后在接收机侧得到的图象示意图;

图19A和19B是用于解释接收图象的方法的示意图。

下面描述根据本发明的图象通信设备的一个实施例。

图2示出诸如可视电话系统之类的图象通信设备的结构，此设备包括：用户1，他通过此设备实施通信;视频输入装置2;话音输入装置（麦克风）3;显示装置4;编译码器5;以及通信网络6。

此通信设备的用户1通过一通信网络与对方进行通信，后者采用位于远处的一个相同通信设备。摄象装置2拍摄用户1的图象，尔后将图象的视频信号输入编码器5。麦克风3将用户1的话音转化为要馈入编码器5的音频信号。编码器5被视频和音频信号编码成适合网络6的编码信号（通信信号）并随后将信号供给网络6。除了通信信号从用户1至网络6的传输之外，译码器5通过网络6接收从通信对方1发送的通信信号，尔后解译此信号，以再现对方1的视频和音频信号。所得到的通信对方1的视频和音频信号送至显示器4，以再现图象和声音。

图1示出图2的编码装置5的结构的一个例子。它包括：输入端20;输出端21、22;输入和输出端23;在提取处理之前的输入信号25a;提取处理之后的输入信号25b;编码电路27a、27b;多路复用电路28;发射/接收单元29;多路分解器30;译码器31a、31b;以及信号合成单元32。根据本发明，话音是按常规的公知方法处理的，因此不再说明。由摄象装置和麦克风产生的用户1的视频信号通过输入端20接收。此信号由发射机侧的编码装置编码，此装置包括提取电路24、编码电路27a和27b，以及多路复用器28。编码信号由发射和接收部分29转换成通信信号，后者要通过输入和输出端15输出至网络。发射和接收部分14同时进行传输和接收，并通过输入和输出端23接收包含来自通信对方的图象和话音的通信信号。此信号由译码装置解译，此装置包括分离电路30、译码电路31a和31b、以及合成电路32，以便再现对方的图象信号。此图象信号从输出端22传送出去。此视频信号送到显示器4，以再现对方的图象。虽未示出，但当用户1的图象要在显示器4上显示以确认时，仅需在发射和接收单元29中进行转换操作，以将传输信号作为接收信号处理。另一种方式是，输入视频信号仅需供给合成电路32与所接收的图象混合，以合成要在显示4上呈现的图象。

当从提取电路24接收信号时，控制电路26向摄象装置发送一个控制信号，以获得最佳输入图象。输入图象信号首先馈入提取电路24，以提取目标的部分图象。在此实施例中，摄取目标为此设备的用户。部分图象包括用户的眼部、口部等等。由于眼部和口部的轮廓比该目标的其它部分变化得更为频繁，因此需要对其配置较多的信息项目。所提取部分图象（提取信号25b）和其余部分图象（未提取信号25a）分别输入编码器27a和27b，以便于其编码。虽然编码方法是不受限制的，但为再现所提取图象的高质量图象，要由编码电路27b产生大量的编码。对于编码电路27a而言，可使用通常用于可视电话的任一种编码方法（参考ITU-T推荐方法H.261，用于P×64千比特的音象业务的视频编码（1993），并“用于可视电话和电视会议的编码技术”，此文载于日本电视工程师协会月刊（Journal of Institute of Television Engineers of Japan）第47卷（1991）、第7期的793页）。编码器27b可按诸如熵编码方法之类的编码方法工作（参考“电子摄象系统基础第106页，此书作者为W.F.Schreiber，由Springer-Verlag于1993年出版）。

多路复用器28将由前级的编码器27a和27b产生的编码信号多路复用，并向发射和接收部分29发送多路复用的信息。除了提取部分图象之外，提取电路24还进行运算，以计算每个提取部分的尺寸、轮廓、参考点位置或多个提取部分的重心座标，尔后将所算出的数据项输出至控制器26。

为探测目标并获取其特征，例如，可采用JP-A-59-208983中描述的方法，其中目标的特征是从在固定时间间隔中取样的图象间的差异中获取的。另外，也可采用JP-A-4-205070中描述的方法，其中，将满足预定条件的视频信号部分，例如满足根据亮度信号和色差信号确定的条件的视频信号部分作为目标的选取部分。将如此选取的新选取范围与在一预定时间周期之前得到的目标范围相比较，并存储于存储装置中，以确定一个这些范围相互重叠的区域，并由此最终提取一个围绕重叠区域的区域作为目标的范围。

根据来自提取电路24的数据项，控制电路26由输出端21传送出一个控制信号，以调节摄象装置2的方向或取向以及放大率。结果，摄象装置2按所要求的方式自动地相对于用户1取向，以摄取具有适当尺寸的图象。此处理程序是需要执行的，以便摄象装置2自动跟随其前方的通信者移动。为调节摄象装置2的取向和放大率，可以机械方式或电子方式操作此装置。在包括诸如电荷耦合器件的摄象器件的摄象装置中，可采用CCD（电荷耦合器件）实现上述的取向的电子调节，所述CCD包括除用于此摄象装置的输出之外的边缘象素。此外，可通过统称为电子变焦的操作实现放大率的电子调节。在编码电路27b中，为了以后要实现的译码操作，提取图象的尺寸和位置与所提取图象一起进行编码。

在接收机侧运作时，所接收的信号由分离电路30分离成所提取部分和其它部分的编码。被分离的编码分别由对应于编码器27a和27b的译码器31a和31b译码。结果得到所提取部分和非提取部分的图象。这些图象馈入合成电路32，以根据所提取的图象的尺寸和位置的信号项形成图象。

图3示出图1中提取电路24的结构的一个例子。提取方法与JP-A-4-205070中描述的方法基本相同。在此结构中，标号40和43表示输入端，标号41表示存储装置，它包括对应于每一输入象素的一比特数据并在其中保持提取区域判定的结果，标号42表示判定电路，标号44表示地址生成电路，标号46和47表示输出端。视频信号通过输入端40馈入判定电路42。输入端43用于输入每一提取部分的提取条件。在这种情况下，允许将亮度和色度信号作为提取条件。对于每一提取位置设定多个条件项目，例如，对于口部，设定亮度和色度信号电平的多种组合作为红的唇部和白的齿部。由于唇色因人而异，因此亮度和色度电平分别具有容差范围。判定电路42确定与从输入端40接收的图象中提取条件相符的图象区域。存储装置41存储判定电路42的处理结果，即对应每帧的提取图象区域。另外，存储装置41存储对应每一提取部分的提取图象区域。判定结果再次输入判定电路42，以用作下一帧的提取范围的选择部分。也就是说，判定电路42通过稍微扩展存储于存储装置41中的对应每一提取部分的在先前提取区域产生一图象范围，从而在所产生的范围中决定每个提取部分。判定电路42计算对应每一提取部分的图象的尺寸和位置，并将结果从输出端46送出。尺寸和位置的数据项用于控制摄象装置。根据控制程序，用户面部的图象可按固定轮廓形成。每一提取部分的位置数据项被传送至地址生成电路44，以在存储器41中生成一个地址，从而分别将各提取部分存储在分离位置中。图4示出地址生成结果的一个例子，其中，各提取部分的视频相互组合，构成诸如CIF（公用交换格式）的一帧，以便传输。存储于存储装置45中的图象数据，尔后读出，并从输出端47传送出。

图5示出将包括提取部分（码A）和非提取部分（码B）的视频数据项在内的两种视频数据项多路复用的方法。信号的多路复用以下列方式实现。对于提取部分的码A来说，传输的是每一帧的最新数据;而对于非提取部分而言，在预定数量的帧的间隔中传输的是一个图象。另外，由于提取部分包括部分图象，当以后由译码器对图象进行译码时，就需要再现位置的信息。结果，码A还包括每一提取的图象位置信息。

根据此实施例，在诸如与口部和眼部相关的具有大量信息的图象中可配置大量编码。结果，为实现优质图象所需的总传输数据量可以减少，或者说，在不增加传输数据量的情况下，可获得高质量的图象。

图6示出根据本发明的另一实施例。与前述实施例相比较，此实施例包括一个用于人头的图象（Solid imagc）显示器，它取代了前述实施例的显示器。标号90表示图象显示器，标号91表示编码装置。

图7示出编码电路12的结构，它包括：输入端120;输出端121、122;输入端123;输入和输出端124;提取处理电路125;控制电路126;编码电路127;多路复用电路128;发射和接收部分129;分离电路130;译码电路131;以及合成电路132。各电路方框的功能与前述实施例的对应构件相同。提取电路125提取面部组元和整体面部，以在显示器90上呈现人的面部。假设要提取的组元为整体面部、眼部、口部、鼻部、眉毛等等。为进行编码操作，各组元被赋予优先等级。例如，在整体面部图象中的变化小于口部图象中的变化，因此整体面部被赋予较低的优先等级。从这方面看，眼部和口部是同等重要的，相应地赋予它们相同优先等级，以为此配置较多的编码。

当不可能按面部情况改变图象显示器的形状时，显示器90按具有平均特征的面部模型化，以固定面部各组元的位置。例如，在JP-A-5-27346和JP-A-3-22753中已描述了图象显示器的一个例子。在平面或二维显示器中，在成象时仅需使各组元的尺寸大致反映目标的真实组元的尺寸。但是，在三维显示器中，要求组元的位置正确地反映固象显示器的真实组元的位置。为此，首先要调节眼部和口部位置使之符合显示器，以最终按自动方式决定组元的尺寸。在这种连接方式中，提取电路125在提取操作过程中运算组元间的位置关系，以获得眼部和口部的位置。在位置调节过程中，控制电路105根据由提取电路125获得的位置工作，以调节在摄象装置侧的摄象位置和放大率。调节过程是通过所谓的电子变焦功能改变垂直和水平变焦因子实现的。面部图象在发送机侧调节，以与固象显示器90相配合;此后，提取组元。

提取电路125按与图3中所示的前述实施例相同的方式构成。不过，如果所提取的面部包括多个组元或可变化数量的组元，那么就难以将所提取组元组合而符合上述的传输帧之格式（图4）。因此，这里将引入如图8所示的存储装置45的另一种配置格式。这仅仅包括在预定尺寸的存储区中的相应组元。可是通过向存储装置45发送一个读出指令，来获取从提取电路125中输出的数据项。换言之，所获取的数据项构成每个提取部分的图象。

编码器127对提取电路125的输出进行编码。数据编码中采用的编码方法或各种参数根据每个提取图象的种类和优先等级确定，正如结合前述实施例所描述的那样。每一被编码的图象由多路复用器128根据其优先等级多路复用。

图9示出的多路复用程序的一个例子。每帧包括一个标题码字段，此字段包括（例如）指示相关帧的内部格式和用于识别该帧的帧识别器（ID）的信息，以及每一提取部分的视频数据字段。各组元的视频数据项按优先等级分布，以便预定数量帧的相关部分构成一帧的信息。根据图9的分布方式，只有具有较低优先等级的面部被分布成预定数量的帧，以便于其传输。将编码分布到多帧中的方法要求在多路复用器128中有一数据缓冲操作。

多路复用码通过发射和接收部分129传输至网络。在接收机侧，复用码主要由多路分解器电路130、译码器电路131和合成单元132处理。多路分解器电路130将对应每一优先等级的码从发射机侧的多路复用码中分离出来。被分离的码分别由译码器131译码，以便重新构成各组元的图象。对于各优先等级而言，由于所接收的视频数据项间的帧频变化，译码器131包括用于更新对应各组元的视频数据的存储装置。此内部存储装置可以图8中所示的提取电路的存储格式构成。从存储装置中读出的信号用作译码器器31的输出信号。

当接收到来自译码器131的视频输出时，合成单元132包含每一组元的图象。由于各组元的位置符合来自显示器90的信息，因此，对于发射机侧来说，与视频数据一起传送位置信息是不必要的。不过如果用于显示器90的格式是单一的，显示器90不必传送上述的信息。

图10示出固象显示器90的结构，它包括：显示单元140;用于将图象投射至显示单元140的投影单元141;存储装置142;以及输入和输出（I/O）端143。存储装置142存储与显示单元140的格式相关的数据。此数据包括表示面部的组元的三维位置和尺寸的数据。由于如果显示器的形状是不可变的话，这样的数据项是不改变的，因此仅需要一个固定于显示器的只读存储器。格式信息通过I/O端143发送至编码装置，以便编码器向显示器供给与之相符合的图象。如上所述，如果信息在显示器与编码装置之间传输，则可采用另一种类型的显示器。

当图象通信系统包括上述的固象显示器时，除前述实施例的效果外，还可获得下述有利特征，即通信对方以三维方式再现于用户附近。结果，即使对方就在此设备的用户前方，通信也可实现。另外，根据本实施例，仅需传输人面部的图象，也就是说，背景图象不包括在传输数据中。此外，对应于每一部分分配的码数根据优先等级或重要性等级分配。结果，即使是低传输率的传输路径，也可传输高质量的图象。

图12示出了本发明的另一实施例。此图特别示出了编码装置的构成，在此图中，与前述实施例相同的部分用相同标号表示。图12的设备包括：存储装置180a、180b;位移估算器181;编码电路182;以及译码电路183。

在此实施例中，除提取面部的部分图象外，还设有用于对与面部的各部分的结构相关的信息进行编码的程序。如上所述，人的面部包括多个部分，每一部分有其自身的结构。图11示出了人面部结构的一个例子。

口部的图象可视为包括：上唇、下唇、上齿、下齿和口内部分，如图11所示。这些图象对于通信中的人而言基本不变。因此，信息可分为基本图象信息（基本信息）和变化或变形的信息（变化信息）。对于口部图象来说，基本信息包括如图11B所示的唇部图象数据，而变化信息可由如图11C所示的表示上下唇之间的口内部分的开口表示。口部变化的视频数据可通过按照变化信息修改基本信息来构成。相同处理过程也适用于其它提取部分。

通过输入端120提供的图象馈入提取电路125并经历提取过程。所得到的作为提取结果的基本信息存储于存储装置180a中，以连续方式变化的所提取的图象供给位移计算电路181。口部的基本信息可按两种方法判定。在第一种方法中获得基本信息的时间点由用户规定。在第二种方法中，基本信息通过设备获取。在口部的一个例子中，与处于常规闭合状态的口部图象相关的信息被设定为基本信息，而其变化幅度用作变化信息。在第一种方法中，当获得处于闭合状态的口部图象时的时间点由用户确定。在第二种方法中，只有口部的图象由提取程序获得。口部的开口幅度在通信开始后或从预定时间点开始的固定时间段内是受监控的，以确定幅度取最小值时的时间点。这个时间点假定为口部闭合时，由此可得到基本信息。

由上述任一种方法获取的口部的基本信息，通过位移计算电路181与特定时间点提取的图象相比较，从而得到位移信息。编码电路182接收基本信息和变化或位移信息，并对这些信息进行编码。对于每一所提取的图象而言，所得到的分别对应于基本和变化信息项的编码由多路复用器182多路复用，以通过发射和接收部分129传输。

图13示出存储装置180a中的数据项的存储格式。此格式与提取电路125中的存储装置的存储格式相似。

图14示出由多路复用器128采用的多路复用数据格式。基本信息是对应每组预定数量的帧传输的。不含有基本信息的一帧用于发送变化信息。每一基本和变化信息项包括相应的提取部分项。

在数据接收时，所接收的偏码由多路分解器130分解为各提取块的编码。另外，编码被分成基本信息码和位移信息码。所分离的信息的每一单元由译码器183解译为基本或位移信息的数据。基本和位移信息项随后分别送至存储装置180b和合成电路132。合成电路132从存储装置180b中读出基本信息，以执行根据位移信息变换基本信息来再现提取部分的程序，然后将各提取部分按相关位置排列而合成为一个图象。所合成的图象作为输出图象从输出端122送出。

根据上述实施例，每一提取部分分解为包含基本图象数据的基本信息和相对于基本信息的包含位移数据的位移信息，以传输所合成的编码。包含大量编码的基本信息不是在每一帧内传输。也就是说，基本信息以预定数量的帧的间隔传输，而包括较少量的编码的位移信息则包含在要传输的每一帧中。这就显著地减少了传输码的数量。

下面描述转换过程，在此过程中，由摄象装置得到的图象被转换成公知表达方式，以便于传输，所接收的包含公知表示方式的视频数据根据含有公知表达方式数据的数据库转换成原始图象。

特别是，当用提取电路24提取的图象由编码器27b编码时，数据库40用于将提取的图象转换为公知表达方式。

另外，当以公知表达方式接收图象数据时，译码器31b根据公知表达方式访问数据库，从而将视频数据解译成原始图象。在此过程中，对应于构成由发射机侧发送的图象的相应组元的视频数据项被选择性地从数据库中读出，此数据库包含与要摄象的目标有关的多种图象模型。所选的视频数据项相互组合，从而再现原始视频图象。下面详细描述公知表达方式。对于描述公知技术的方法而言，可参考（例如）“智能图象处理技术”一书的第8章（132-139页），此书由Agui和Nagasaki著并于1994年由Shokodo出版。

下面将参照图15A和15B描述将人的图象转换成公知表达方式的方法的一个例子。图15A示出由摄象装置摄取一个人所得到的目标图象。从这个图象看，一个与人相关的图象可提取并分解成诸如头发、面部、眼部、口部和身体的组元，以便得到包含各组元的重心坐标、宽度、高度、体积和颜色的特征。还可得到诸如每个眼的宽度和虹彩、口内部分的宽度和高度，以及眼和眉毛的斜率之类的特征。这些特征被转换成数据项，这些项分别被赋予与数据库相配的组元数，如图16所示。

图17示出公知表达方式的一个例子。对于每一组元，以组元数、色彩（r-y、b-y）、位置（△x、△y）和尺寸的形式规定了一组公知表达项。在此表达方式中，位置（△x、△y）表示相关目标的重心座标与各组元的重心座标之间的差异。正如可从图17中所看到的，目标的各组元的公知表达方式的数据项紧随在帧分界码之后。假设目标包括（例如）10个组元且每一组元（例如组元数）由一个8比特数据项表示。每一帧需要的数据量最终变为480比特。正如上述，通过将图象转换为公知表达方式可显著地减少传输数据量。此外，当系统以仅传输在数据传输之前改变的组元的公知表达方式时，传输数量可减少更多。

为了从公知表达方式再现原始图象，对应于公知表达方式的组元数的图象被从数据库中读出，并被相互组合，以便合成目标图象。当将每一组元排列于屏上时，在公知表达方式中由（0，0）表示的组元位置设在屏的中心位置。如上所述，由于位置表示目标的重心座标与各组元的重心座标之间的差距，因此位置（0，0）表示目标的重心。采用这种方法，可实现位置校正，以使目标在任何情况下均连续地处在屏的中心位置。

在屏的深度方向上，各图象是以这样的位置关系呈现的，即较小项目处于较上层。此外，当数据库中的诸如皮肤和各眼的虹彩膜之类的组元的图象色彩由表示为公知表达方式的色彩代替时，在再现图象将变得更接近于发射机的原始图象。

如上所述，图象本身不能用作传输数据。传输目标（诸如人的面部）的图象要转换成表示图象的公知表达式，以便向通信对方发送公知表达方式的数据。在接收机侧，目标的原始图象根据所接收的公知表达方式再现。因此，传输数据量得以显著降低，并可提供一种可视电话系统，即使采用诸如模拟电话线之类的具有低传输率的通信线，此系统也能以实时方式产生高质量的图象。

此外，下述方式在数据通信中，也是可能的，即目标的重要组元以公知表达方式之形式传输，其它组元作为视频信号传输。在这个程序中，公知表达方式是以实时方式传输的，而整个屏的图象信息是在通信路径的传输速率范围内以低传输速率传输的。当传输（例如）人面部的图象时，对于通信而言重要的眼部和口部图象以实时方式发送。另外，当由摄象装置摄取目标的图象由提取电路从目标的整体图象中提取并且剩余部分的图象由一种颜色替代时，传输数据可更有效地压缩。

但是，由于在上述方法中整个屏的信息是以低传输速率传输的，因此，在通信线刚建立之后，仅仅是眼部和口部显示于屏上，如图18所示。为克服这种困难，可以数据库1中准备一个人头部分的模型图象。在通信线刚建立之后，眼部和口部根据按实时方式接收的公知表达方式合成，以便眼部和口部的图象与模型图象组合而在屏上显示如图19A所示的合成图象。正如可从图19B中看到的，当模型图象随后由从发射机侧依次接收的图象替代时，即使在通信线刚接通之后，也能连续地显示逼真的图象。也就是说，所显示的图象从模型图象逐渐变化为发送者的人体图象，且不会造成任何不希望的人为表现状态，因此，观视者可获得逼真的再现图象。

如上所述，即使在采用诸如模拟电话线之类的低传输速率的传输线的情况下，对通信极为重要的人的面部的表示组元或类似的组元也可以实时方式传输，同时转换整个屏图象的视频数据。这带来一个与图1所示的实施例相似的有益效果。

尽管已参照特定实施例对本发明进行了描述，但本发明不受这些实施例的限制，而是仅由所附加的权利要求限定。在不脱离本发明的范围和精神的情况下，本领域的普通技术人员可改变或修正这些实例。

Claims

1、一种图象通信设备，其特征在于包括：

用于输入视频数据的输入装置；

提取装置，用于从由输入装置输入的视频数据中提取目标的至少一部分的视频数据；

编码装置，用于以独立方式对由提取装置提取的部分的视频数据和输入的视频数据进行编码；以及

多路复用装置，用于对由编码装置编码的视频数据进行多路复用。

2、根据权利要求1的图象通信设备，其中，编码装置给所提取的视频数据配置第一编码量，给输入的视频数据配置第二编码量，第一编码量大于第二编码量。

3、根据权利要求1的图象通信设备，其中：

所述输入装置输入人的面部的视频数据;

所述提取装置提取人面部的眼部和口部的视频数据作为所述部分的视频数据。

4、根据权利要求1的图象通信设备，其特征在于还包括：

计算装置，用于根据所提取部分的视频数据计算表示所提取部分的基本信息的视频数据;

用于计算相对于表示基本信息的视频数据的位移量的装置;

第二编码装置，用于对表示基本信息和位移量的视频数据进行编码;和

再现装置，用于根据表示基本信息和位移量的视频数据再现图象。

5、根据权利要求4的图象通信设备，其中：

所述的所提取部分的视频数据包括眼部和口部的视频数据;

所述位移量包括每个眼部或口部的开口的幅度。

6、一种图象通信设备，其特征在于包括：

摄象装置;

话音输入装置;

提取装置，用于从由所述摄象装置形成的图象中提取目标的至少一部分的图象;

编码装置，用于分别对由所述提取装置提取的部分的图象和由所述话音输入装置输入的话音进行编码;

通信装置，用于通过通信网络传输通过由所述编码装置对图象和话音进行编码而获得的数据;

译码装置，用于对从所述的通信装置中接收的数据进行译码，并因此再现所提取部分的图象和话音;

合成装置，用于合成由译码装置解译的所提取部分的图象，从而合成一图象;和

显示器，它具有包括凹部和凸部的表面，用于显示由合成装置合成的图象，其中

所述合成装置根据显示器的凹部和凸部合成再现图象。

7、根据权利要求6的图象通信设备，其中所述显示器包括用于存储与凹部和凸部相关的信息的存储器。

8、根据权利要6的图象通信设备，其中：

所提取部分的图象是人的面部;

显示器表面的凹部和凸部具有类似于人面部的轮廓。

9、根据权利要求1的图象通信设备，其中：

目标的组元相对于整个目标的重心的相对位置的信息被加至组元的公知表达式上;

组元是这样安排的，当对公知表达方式进行译码时整个目标的重心设定在屏中心位置。

10、一种图象通信设备，其特征在于包括：

包含与目标有关的模型的内容的数据库;

摄象机，它包括提取装置和编码装置，提取装置用于从电视图象中提取目标的图象，并计算诸如轮廓、尺寸和重心的目标特征，编码装置用于分析从提取装置中输出的目标的特征，并将目标的特征组元转换成与数据库相配的公知表达方式;

接口装置，用于将电视图象的视频信号和由编码装置产生的公知表达式转换成符合与传输路径匹配的信号系统的信号、将视频信号和公知表达式传送至接收机、以及将由发射机发射的信号转换成视频信号和公知表达方式;和

译码装置，用于根据来自于发射机的与目标特征相关的公知表达方式访问数据库，并由此产生与公知表达方式相关的图象，

其中，

译码装置包括合成装置，后者用于将输出的图象与总电视图象合成。

11、根据权利要求10的图象通信设备，其中：

表示目标的特征的公知表达方式从实时方式传输;

整个电视图象的视频信号从低传输速率传输。

12、根据权利要求3的图象通信设备，其中：

在视频信号到达接收机之前显示一模型图象;

模型图象逐步由发射机发送的图象代替。

13、根据权利要求3的图象通信设备，其中：

该设备传输人的图象;

数据库存储有多种模型图象，这些图象为人头的面部类型、眼、口和眉毛的图象;

一个包括目标提取装置和图象表达装置的摄象机，用于提取诸如眼和眉毛的决定其表达方式的面部之各部分，并用于将所提取部分转换成公知表达方式，从而仅向接收机发送公知表达方式;

接收机参照数据库将所传输的图象相互组合成一图象。