CN1132406C - 图象通信设备 - Google Patents
图象通信设备 Download PDFInfo
- Publication number
- CN1132406C CN1132406C CN95105104A CN95105104A CN1132406C CN 1132406 C CN1132406 C CN 1132406C CN 95105104 A CN95105104 A CN 95105104A CN 95105104 A CN95105104 A CN 95105104A CN 1132406 C CN1132406 C CN 1132406C
- Authority
- CN
- China
- Prior art keywords
- image
- video data
- communication apparatus
- extraction
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/001—Model-based coding, e.g. wire frame
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/10—Adaptations for transmission by electrical cable
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
一种图象通信设备包括:提取电路,用于从输入的视频数据中提取至少一部分视频数据;编码器,用于分别对所提取的视频数据和其余视频数据进行编码;和多路复用器,用于多路复用编码的视频数据。当对视频数据编码时,将预定编码量分配给相应视频数据。当通过具有低传输率的传输路径进行图象通信时,这种编码方式能抑制图象质量劣化。
Description
本发明涉及图象编码和图象通信设备,例如可视电话和录象设备。
通常,作为传输话音的通信设备,已采用了一种可视电话系统(A.N.Netravali,B.G.Haskell“数字图象”,第115-119页,AT&T Bell Lab.(贝尔实验室)(1988))。此设备包括:发射系统,它包括摄象装置、话音输入装置以及用于对图象和话音进行编码的编码电路;接收系统,它包括用于对编码的图象和话音信号进行译码的译码器;显示器,它包括扬声器和CRT(阴极射线管);以及通信控制器,用于通过一网络传输图象和话音。在这种传统的设备中,由摄象机形成的图象的内容全部被编码并通过一传输线传输,这导致必需传输大量数据。结果,通过一根低速模拟通信线实现通信的这类低成本可视电话产生了这样的问题:图象质量显著变劣或者图象的移动变得不协调和不自然。
为解决上述问题,已做了各种尝试。例如,根据JP-A-57-129076中记载的可视电话设备,为使背景清晰,将事先制备的背景图象与新形成的电视图象相比较,从而实现保密控制并将要传输的图象信号量减至最少。
然而,当该系统的用户进行通信并同时观视彼此的图象时,在通常情况下,通信人的图象是最重要的。也就是说,在许多情况下各通信人的背景图象是不重要的。考虑到有限数量的编码的有效配置,它可被认为对一所得帧中的图象之组元进行均匀编码是无效的,也就是说,对于通信的用户而言,对具有不同重要性的目标均匀地分配相同数量的编码是无效的。
另外,JP-A-57-129076中描述的可视电话设备需要事先发射背景图象的程序。也就是说,未考虑到用户的可操作性和适用性。
因此,本发明的目的是要提供一种图象通信设备,即使通过诸如模拟电话线的低速传输路径,此设备也可使用,并且保持优异的图象质量。
为实现本发明的目的,本发明的图象通信设备设有:图象提取装置,用于提取目标的特定部分的图象;编码装置,用于对所提取图象部分进行编码,以及用于向对方传输图象数据的装置。
图象提取装置提取目标的特定部分的图象。每一所提取图象按一种编码方法或通过改变编码参数编码,以根据相关图象部分的重要性产生适量的码。这可将编码最优化地分布主屏图象的各部分。
另外,在可视电话设备和电视会议系统中,由摄象设备产生的视频信号被编码,以便能通过诸如综合业务数字网(ISDN)的传输路径传输。例如,就全国电视制式委员会(NISC)标准的信号而言,当信号未进行传输数据压缩时,根据彩色电视的演播标准,传送速度为216兆比特/秒(Mbps)。这使得需要更有效地对信号进行编码,以减少传输数据的比特数。至于编码方法,主要采用“日本电视工程师协会月刊”第45卷第7期(1991)第793-799页描述的方法。也就是说,基本上采用以帧内估算或预测为基础的条件象素补充方法(CondiTional pixel supplementing method),其中仅传输移动部分,以便诸如离散余弦变换(DCT)的其它编码方法与条件象素补充方法组合使用。由于这类高效编码技术的发展,使用ISDN线的可视电话和电视会议系统已在商务和工业领域得到了广泛应用。将图象转换为用于传输的编码来实现通信的方法已有公开,例如,JP-A-62-120179中以及在名称为“系统图象编码技术”的文章中已有描述,所述文章由Makoto Miyahara撰写,发表于IPC的1-14页。
虽然诸如可视电话之类的采用模拟传输的低成本通信系统已经公知,但是,为了以低传输率实现传输,图象质量要受到相当程度的损害。这便会导致产生下列问题。人面部的表情无法很好地传输和显示,表情的变化无法以实时方式传输,造成面部的动作不够自然。
本发明的另一个目的是要提供一种可视电话系统,即使在传输线具有低的传输率情况下,例如模拟电话线,此系统也能以实时方式产生高质量电视图象,从而解决了上述的问题。
为实现本发明的上述目的,本发明提供了一种系统,此系统包括:数据库,它存储与目标相关的模型的内容;摄象机,它包括提取处理装置和编码装置,提取处理装置用于提取由摄象机拍摄的目标并计算其特征,编码装置用于分析由提取处理装置算出的特征并将这些特征转换为与数据库相应的公知表达方式;接口装置,用于将由编码装置产生的公知表达方式转换为符合信号传输路径的信号系统的信号,将公知表达方式传送到接收机,并将发射机发送的信号转换成公知表达方式;以及译码装置,用于根据来自发射机侧的公知表达方式并通过参照数据库来合成视频信号。
为实现本发明的目的,上述装置以下述方式工作。
除提取处理装置和编码装置外,摄象机还包括通常用于数字式摄象机的信号处理电路和控制电路,当发射机发送一图象时,摄象机对信号进行处理,处理方法为公知的处理由摄象设备产生的视频信号的方法,以便产生诸如视频信号的图象信号。提取处理装置从由信息处理电路产生的视频信号中提取目标,以计算所提取目标的组元的特征,这些特征为(例如)尺寸、轮廓、重心座标和斜率。包括微机或类似装置的编码装置分析由提取装置算出的特征的信息,识别构成目标的组元及其状态,并将所识别的信息项转换成公知表达方式,此公知表达方式与数据库相对应,后者包括与目标相关的模型的内容。接口装置将由编码装置产生的公知表达方式转换成信号,此信号符合传输路径的信号系统,接口装置还通过传输路径传输所合成的信号。
通过传输路径接收的信号由接口装置转换成公知表达式。译码装置解译公知表达方式,以重构所传输的图象。在这个程序中,译码装置访问存储有大量的与目标有关的模型图象的数据库,尔后选择与组元相关的视频数据项,而这些组元构成从发射机发送的图象,以便再现原始图象。
也就是说,发射机并不发送图象本身。要传输诸如人面部之类的目标图象事先要转换成表示图象的公知表达方式,这样的公知表达方式便可作为传输数据发送。在接收机中,正如上面所述的那样,公知表达方式被解译成目标的图象。
采用这种方法,传输数据量可以显著地减少,因此,构成这样一种可视电话系统是可能的,即使采用诸如模拟电话线之类的具有低传输率的通信线,这种可视电话系统也能够以实时方式传输高质量的图象。
通过参考以下说明和附图,本发明的这些和其它目的和优点将变得更为清楚,附图中:
图1是表示根据本发明的图象通信设备的第一实施例的示意图;
图2是表示根据本发明的图象通信设备的总体结构的示意图;
图3是表示第一实施例的图象提取电路的结构的示意图;
图4是用于解释第一实施例的编码方法的示意图;
图5是用于解释第一实施例的编码方法的示意图;
图6是表示根据本发明的第二实施例的示意图;
图7是表示第二实施例的编码装置的结构的示意图;
图8是表示存储器中的视频数据的存储变换的示意图;
图9是用于解释第二实施例的编码方法的示意图;
图10是表示第二实施例的显示器构造的示意图;
图11A至11C是用于解释人口部的图象模型的示意图;
图12是表示根据本发明的第三实施例的示意图;
图13是表示存储器中的视频数据的存储变换的示意图;
图14是表示第三实施例的编码方法的示意图;
图15A和15B是用于解释将图象转换成公知表达方式的方法的一个例子的示意图;
图16是表示数据库的内容的一个例子的示意图;
图17是表示公知表达式的一个例子的示意图;
图18是表示在发射机和接收机之间刚建立通信线之后在接收机侧得到的图象示意图;
图19A和19B是用于解释接收图象的方法的示意图。
下面描述根据本发明的图象通信设备的一个实施例。
图2示出诸如可视电话系统之类的图象通信设备的结构,此设备包括:用户1,他通过此设备实施通信;视频输入装置2;话音输入装置(麦克风)3;显示装置4;编译码器5;以及通信网络6。
此通信设备的用户1通过一通信网络与对方进行通信,后者采用位于远处的一个相同通信设备。摄象装置2拍摄用户1的图象,尔后将图象的视频信号输入编码器5。麦克风3将用户1的话音转化为要馈入编码器5的音频信号。编码器5被视频和音频信号编码成适合网络6的编码信号(通信信号)并随后将信号供给网络6。除了通信信号从用户1至网络6的传输之外,译码器5通过网络6接收从通信对方1发送的通信信号,尔后解译此信号,以再现对方1的视频和音频信号。所得到的通信对方1的视频和音频信号送至显示器4,以再现图象和声音。
图1示出图2的编码装置5的结构的一个例子。它包括:输入端20;输出端21、22;输入和输出端23;在提取处理之前的输入信号25a;提取处理之后的输入信号25b;编码电路27a、27b;多路复用电路28;发射/接收单元29;多路分解器30;译码器31a、31b;以及信号合成单元32。根据本发明,话音是按常规的公知方法处理的,因此不再说明。由摄象装置和麦克风产生的用户1的视频信号通过输入端20接收。此信号由发射机侧的编码装置编码,此装置包括提取电路24、编码电路27a和27b,以及多路复用器28。编码信号由发射和接收部分29转换成通信信号,后者要通过输入和输出端15输出至网络。发射和接收部分14同时进行传输和接收,并通过输入和输出端23接收包含来自通信对方的图象和话音的通信信号。此信号由译码装置解译,此装置包括分离电路30、译码电路31a和31b、以及合成电路32,以便再现对方的图象信号。此图象信号从输出端22传送出去。此视频信号送到显示器4,以再现对方的图象。虽未示出,但当用户1的图象要在显示器4上显示以确认时,仅需在发射和接收单元29中进行转换操作,以将传输信号作为接收信号处理。另一种方式是,输入视频信号仅需供给合成电路32与所接收的图象混合,以合成要在显示4上呈现的图象。
当从提取电路24接收信号时,控制电路26向摄象装置发送一个控制信号,以获得最佳输入图象。输入图象信号首先馈入提取电路24,以提取目标的部分图象。在此实施例中,摄取目标为此设备的用户。部分图象包括用户的眼部、口部等等。由于眼部和口部的轮廓比该目标的其它部分变化得更为频繁,因此需要对其配置较多的信息项目。所提取部分图象(提取信号25b)和其余部分图象(未提取信号25a)分别输入编码器27a和27b,以便于其编码。虽然编码方法是不受限制的,但为再现所提取图象的高质量图象,要由编码电路27b产生大量的编码。对于编码电路27a而言,可使用通常用于可视电话的任一种编码方法(参考ITU-T推荐方法H.261,用于P×64千比特的音象业务的视频编码(1993),并“用于可视电话和电视会议的编码技术”,此文载于日本电视工程师协会月刊(Journal of Institute of Television Engineers ofJapan)第47卷(1991)、第7期的793页)。编码器27b可按诸如熵编码方法之类的编码方法工作(参考“电子摄象系统基础第106页,此书作者为W.F.Schreiber,由Springer-Verlag于1993年出版)。
多路复用器28将由前级的编码器27a和27b产生的编码信号多路复用,并向发射和接收部分29发送多路复用的信息。除了提取部分图象之外,提取电路24还进行运算,以计算每个提取部分的尺寸、轮廓、参考点位置或多个提取部分的重心座标,尔后将所算出的数据项输出至控制器26。
为探测目标并获取其特征,例如,可采用JP-A-59-208983中描述的方法,其中目标的特征是从在固定时间间隔中取样的图象间的差异中获取的。另外,也可采用JP-A-4-205070中描述的方法,其中,将满足预定条件的视频信号部分,例如满足根据亮度信号和色差信号确定的条件的视频信号部分作为目标的选取部分。将如此选取的新选取范围与在一预定时间周期之前得到的目标范围相比较,并存储于存储装置中,以确定一个这些范围相互重叠的区域,并由此最终提取一个围绕重叠区域的区域作为目标的范围。
根据来自提取电路24的数据项,控制电路26由输出端21传送出一个控制信号,以调节摄象装置2的方向或取向以及放大率。结果,摄象装置2按所要求的方式自动地相对于用户1取向,以摄取具有适当尺寸的图象。此处理程序是需要执行的,以便摄象装置2自动跟随其前方的通信者移动。为调节摄象装置2的取向和放大率,可以机械方式或电子方式操作此装置。在包括诸如电荷耦合器件的摄象器件的摄象装置中,可采用CCD(电荷耦合器件)实现上述的取向的电子调节,所述CCD包括除用于此摄象装置的输出之外的边缘象素。此外,可通过统称为电子变焦的操作实现放大率的电子调节。在编码电路27b中,为了以后要实现的译码操作,提取图象的尺寸和位置与所提取图象一起进行编码。
在接收机侧运作时,所接收的信号由分离电路30分离成所提取部分和其它部分的编码。被分离的编码分别由对应于编码器27a和27b的译码器31a和31b译码。结果得到所提取部分和非提取部分的图象。这些图象馈入合成电路32,以根据所提取的图象的尺寸和位置的信号项形成图象。
图3示出图1中提取电路24的结构的一个例子。提取方法与JP-A-4-205070中描述的方法基本相同。在此结构中,标号40和43表示输入端,标号41表示存储装置,它包括对应于每一输入象素的一比特数据并在其中保持提取区域判定的结果,标号42表示判定电路,标号44表示地址生成电路,标号46和47表示输出端。视频信号通过输入端40馈入判定电路42。输入端43用于输入每一提取部分的提取条件。在这种情况下,允许将亮度和色度信号作为提取条件。对于每一提取位置设定多个条件项目,例如,对于口部,设定亮度和色度信号电平的多种组合作为红的唇部和白的齿部。由于唇色因人而异,因此亮度和色度电平分别具有容差范围。判定电路42确定与从输入端40接收的图象中提取条件相符的图象区域。存储装置41存储判定电路42的处理结果,即对应每帧的提取图象区域。另外,存储装置41存储对应每一提取部分的提取图象区域。判定结果再次输入判定电路42,以用作下一帧的提取范围的选择部分。也就是说,判定电路42通过稍微扩展存储于存储装置41中的对应每一提取部分的在先前提取区域产生一图象范围,从而在所产生的范围中决定每个提取部分。判定电路42计算对应每一提取部分的图象的尺寸和位置,并将结果从输出端46送出。尺寸和位置的数据项用于控制摄象装置。根据控制程序,用户面部的图象可按固定轮廓形成。每一提取部分的位置数据项被传送至地址生成电路44,以在存储器41中生成一个地址,从而分别将各提取部分存储在分离位置中。图4示出地址生成结果的一个例子,其中,各提取部分的视频相互组合,构成诸如CIF(公用交换格式)的一帧,以便传输。存储于存储装置45中的图象数据,尔后读出,并从输出端47传送出。
图5示出将包括提取部分(码A)和非提取部分(码B)的视频数据项在内的两种视频数据项多路复用的方法。信号的多路复用以下列方式实现。对于提取部分的码A来说,传输的是每一帧的最新数据;而对于非提取部分而言,在预定数量的帧的间隔中传输的是一个图象。另外,由于提取部分包括部分图象,当以后由译码器对图象进行译码时,就需要再现位置的信息。结果,码A还包括每一提取的图象位置信息。
根据此实施例,在诸如与口部和眼部相关的具有大量信息的图象中可配置大量编码。结果,为实现优质图象所需的总传输数据量可以减少,或者说,在不增加传输数据量的情况下,可获得高质量的图象。
图6示出根据本发明的另一实施例。与前述实施例相比较,此实施例包括一个用于人头的图象(Solid imagc)显示器,它取代了前述实施例的显示器。标号90表示图象显示器,标号91表示编码装置。
图7示出编码电路12的结构,它包括:输入端120;输出端121、122;输入端123;输入和输出端124;提取处理电路125;控制电路126;编码电路127;多路复用电路128;发射和接收部分129;分离电路130;译码电路131;以及合成电路132。各电路方框的功能与前述实施例的对应构件相同。提取电路125提取面部组元和整体面部,以在显示器90上呈现人的面部。假设要提取的组元为整体面部、眼部、口部、鼻部、眉毛等等。为进行编码操作,各组元被赋予优先等级。例如,在整体面部图象中的变化小于口部图象中的变化,因此整体面部被赋予较低的优先等级。从这方面看,眼部和口部是同等重要的,相应地赋予它们相同优先等级,以为此配置较多的编码。
当不可能按面部情况改变图象显示器的形状时,显示器90按具有平均特征的面部模型化,以固定面部各组元的位置。例如,在JP-A-5-27346和JP-A-3-22753中已描述了图象显示器的一个例子。在平面或二维显示器中,在成象时仅需使各组元的尺寸大致反映目标的真实组元的尺寸。但是,在三维显示器中,要求组元的位置正确地反映固象显示器的真实组元的位置。为此,首先要调节眼部和口部位置使之符合显示器,以最终按自动方式决定组元的尺寸。在这种连接方式中,提取电路125在提取操作过程中运算组元间的位置关系,以获得眼部和口部的位置。在位置调节过程中,控制电路105根据由提取电路125获得的位置工作,以调节在摄象装置侧的摄象位置和放大率。调节过程是通过所谓的电子变焦功能改变垂直和水平变焦因子实现的。面部图象在发送机侧调节,以与固象显示器90相配合;此后,提取组元。
提取电路125按与图3中所示的前述实施例相同的方式构成。不过,如果所提取的面部包括多个组元或可变化数量的组元,那么就难以将所提取组元组合而符合上述的传输帧之格式(图4)。因此,这里将引入如图8所示的存储装置45的另一种配置格式。这仅仅包括在预定尺寸的存储区中的相应组元。可是通过向存储装置45发送一个读出指令,来获取从提取电路125中输出的数据项。换言之,所获取的数据项构成每个提取部分的图象。
编码器127对提取电路125的输出进行编码。数据编码中采用的编码方法或各种参数根据每个提取图象的种类和优先等级确定,正如结合前述实施例所描述的那样。每一被编码的图象由多路复用器128根据其优先等级多路复用。
图9示出的多路复用程序的一个例子。每帧包括一个标题码字段,此字段包括(例如)指示相关帧的内部格式和用于识别该帧的帧识别器(ID)的信息,以及每一提取部分的视频数据字段。各组元的视频数据项按优先等级分布,以便预定数量帧的相关部分构成一帧的信息。根据图9的分布方式,只有具有较低优先等级的面部被分布成预定数量的帧,以便于其传输。将编码分布到多帧中的方法要求在多路复用器128中有一数据缓冲操作。
多路复用码通过发射和接收部分129传输至网络。在接收机侧,复用码主要由多路分解器电路130、译码器电路131和合成单元132处理。多路分解器电路130将对应每一优先等级的码从发射机侧的多路复用码中分离出来。被分离的码分别由译码器131译码,以便重新构成各组元的图象。对于各优先等级而言,由于所接收的视频数据项间的帧频变化,译码器131包括用于更新对应各组元的视频数据的存储装置。此内部存储装置可以图8中所示的提取电路的存储格式构成。从存储装置中读出的信号用作译码器器31的输出信号。
当接收到来自译码器131的视频输出时,合成单元132包含每一组元的图象。由于各组元的位置符合来自显示器90的信息,因此,对于发射机侧来说,与视频数据一起传送位置信息是不必要的。不过如果用于显示器90的格式是单一的,显示器90不必传送上述的信息。
图10示出固象显示器90的结构它包括:显示单元140;用于将图象投射至显示单元140的投影单元141;存储装置142;以及输入和输出(I/O)端143。存储装置142存储与显示单元140的格式相关的数据。此数据包括表示面部的组元的三维位置和尺寸的数据。由于如果显示器的形状是不可变的话,这样的数据项是不改变的,因此仅需要一个固定于显示器的只读存储器。格式信息通过I/O端143发送至编码装置,以便编码器向显示器供给与之相符合的图象。如上所述,如果信息在显示器与编码装置之间传输,则可采用另一种类型的显示器。
当图象通信系统包括上述的固象显示器时,除前述实施例的效果外,还可获得下述有利特征,即通信对方以三维方式再现于用户附近。结果,即使对方就在此设备的用户前方,通信也可实现。另外,根据本实施例,仅需传输人面部的图象,也就是说,背景图象不包括在传输数据中。此外,对应于每一部分分配的码数根据优先等级或重要性等级分配。结果,即使是低传输率的传输路径,也可传输高质量的图象。
图12示出了本发明的另一实施例。此图特别示出了编码装置的构成,在此图中,与前述实施例相同的部分用相同标号表示。图12的设备包括:存储装置180a、180b;位移估算器181;编码电路182;以及译码电路183。
在此实施例中,除提取面部的部分图象外,还设有用于对与面部的各部分的结构相关的信息进行编码的程序。如上所述,人的面部包括多个部分,每一部分有其自身的结构。图11示出了人面部结构的一个例子。
口部的图象可视为包括:上唇、下唇、上齿、下齿和口内部分,如图11所示。这些图象对于通信中的人而言基本不变。因此,信息可分为基本图象信息(基本信息)和变化或变形的信息(变化信息)。对于口部图象来说,基本信息包括如图11B所示的唇部图象数据,而变化信息可由如图11C所示的表示上下唇之间的口内部分的开口表示。口部变化的视频数据可通过按照变化信息修改基本信息来构成。相同处理过程也适用于其它提取部分。
通过输入端120提供的图象馈入提取电路125并经历提取过程。所得到的作为提取结果的基本信息存储于存储装置180a中,以连续方式变化的所提取的图象供给位移计算电路181。口部的基本信息可按两种方法判定。在第一种方法中获得基本信息的时间点由用户规定。在第二种方法中,基本信息通过设备获取。在口部的一个例子中,与处于常规闭合状态的口部图象相关的信息被设定为基本信息,而其变化幅度用作变化信息。在第一种方法中,当获得处于闭合状态的口部图象时的时间点由用户确定。在第二种方法中,只有口部的图象由提取程序获得。口部的开口幅度在通信开始后或从预定时间点开始的固定时间段内是受监控的,以确定幅度取最小值时的时间点。这个时间点假定为口部闭合时,由此可得到基本信息。
由上述任一种方法获取的口部的基本信息,通过位移计算电路181与特定时间点提取的图象相比较,从而得到位移信息。编码电路182接收基本信息和变化或位移信息,并对这些信息进行编码。对于每一所提取的图象而言,所得到的分别对应于基本和变化信息项的编码由多路复用器182多路复用,以通过发射和接收部分129传输。
图13示出存储装置180a中的数据项的存储格式。此格式与提取电路125中的存储装置的存储格式相似。
图14示出由多路复用器128采用的多路复用数据格式。基本信息是对应每组预定数量的帧传输的。不含有基本信息的一帧用于发送变化信息。每一基本和变化信息项包括相应的提取部分项。
在数据接收时,所接收的偏码由多路分解器130分解为各提取块的编码。另外,编码被分成基本信息码和位移信息码。所分离的信息的每一单元由译码器183解译为基本或位移信息的数据。基本和位移信息项随后分别送至存储装置180b和合成电路132。合成电路132从存储装置180b中读出基本信息,以执行根据位移信息变换基本信息来再现提取部分的程序,然后将各提取部分按相关位置排列而合成为一个图象。所合成的图象作为输出图象从输出端122送出。
根据上述实施例,每一提取部分分解为包含基本图象数据的基本信息和相对于基本信息的包含位移数据的位移信息,以传输所合成的编码。包含大量编码的基本信息不是在每一帧内传输。也就是说,基本信息以预定数量的帧的间隔传输,而包括较少量的编码的位移信息则包含在要传输的每一帧中。这就显著地减少了传输码的数量。
下面描述转换过程,在此过程中,由摄象装置得到的图象被转换成公知表达方式,以便于传输,所接收的包含公知表示方式的视频数据根据含有公知表达方式数据的数据库转换成原始图象。
特别是,当用提取电路24提取的图象由编码器27b编码时,数据库40用于将提取的图象转换为公知表达方式。
另外,当以公知表达方式接收图象数据时,译码器31b根据公知表达方式访问数据库,从而将视频数据解译成原始图象。在此过程中,对应于构成由发射机侧发送的图象的相应组元的视频数据项被选择性也从数据库中读出,此数据库包含与要摄象的目标有关的多种图象模型。所选的视频数据项相互组合,从而再现原始视频图象。下面详细描述公知表达方式。对于描述公知技术的方法而言,可参考(例如)“智能图象处理技术”一书的第8章(132139页),此书由Agui和Nagasaki著并于1994年由Shokodo出版。
下面将参照图15A和15B描述将人的图象转换成公知表达方式的方法的一个例子。图15A示出由摄象装置摄取一个人所得到的目标图象。从这个图象看,一个与人相关的图象可提取并分解成诸如头发、面部、眼部、口部和和身体的组元,以便得到包含各组元的重心坐标、宽度、高度、体积和颜色的特征。还可得到诸如每个眼的宽度和虹彩、口内部分的宽度和高度,以及眼和眉毛的斜率之类的特征。这些特征被转换成数据项,这些项分别被赋予与数据库相配的组元数,如图16所示。
图17示出公知表达方式的一个例子。对于每一组元,以组元数、色彩(r-y、b-y)、位置(Δx、Δy)和尺寸的形式规定了一组公知表达项。在此表达方式中,位置(Δx、Δy)表示相关目标的重心座标与各组元的重心座标之间的差异。正如可从图17中所看到的,目标的各组元的公知表达方式的数据项紧随在帧分界码之后。假设目标包括(例如)10个组元且每一组元(例如组元数)由一个8比特数据项表示。每一帧需要的数据量最终变为480比特。正如上述,通过将图象转换为公知表达方式可显著地减少传输数据量。此外,当系统以仅传输在数据传输之前改变的组元的公知表达方式时,传输数量可减少更多。
为了从公知表达方式再现原始图象,对应于公知表达方式的组元数的图象被从数据库中读出,并被相互组合,以便合成目标图象。当将每一组元排列于屏上时,在公知表达方式中由(0,0)表示的组元位置设在屏的中心位置。如上所述,由于位置表示目标的重心座标与各组元的重心座标之间的差距,因此位置(0,0)表示目标的重心。采用这种方法,可实现位置校正,以使目标在任何情况下均连续地处在屏的中心位置。
在屏的深度方向上,各图象是以这样的位置关系呈现的,即较小项目处于较上层。此外,当数据库中的诸如皮肤和各眼的虹彩膜之类的组元的图象色彩由表示为公知表达方式的色彩代替时,在再现图象将变得更接近于发射机的原始图象。
如上所述,图象本身不能用作传输数据。传输目标(诸如人的面部)的图象要转换成表示图象的公知表达式,以便向通信对方发送公知表达方式的数据。在接收机侧,目标的原始图象根据所接收的公知表达方式再现。因此,传输数据量得以显著降低,并可提供一种可视电话系统,即使采用诸如模拟电话线之类的具有低传输率的通信线,此系统也能以实时方式产生高质量的图象。
此外,下述方式在数据通信中,也是可能的,即目标的重要组元以公知表达方式之形式传输,其它组元作为视频信号传输。在这个程序中,公知表达方式是以实时方式传输的,而整个屏的图象信息是在通信路径的传输速率范围内以低传输速率传输的。当传输(例如)人面部的图象时,对于通信而言重要的眼部和口部图象以实时方式发送。另外,当由摄象装置摄取目标的图象由提取电路从目标的整体图象中提取并且剩余部分的图象由一种颜色替代时,传输数据可更有效地压缩。
但是,由于在上述方法中整个屏的信息是以低传输速率传输的,因此在通信线刚建立之后,仅仅是眼部和口部显示于屏上,如图18所示。为克服这种困难,可以数据库1中准备一个人头部分的模型图象。在通信线刚建立之后,眼部和口部根据按实时方式接收的公知表达方式合成,以便眼部和口部的图象与模型图象组合而在屏上显示如图19A所示的合成图象。正如可从图19B中看到的,当模型图象随后由从发射机侧依次接收的图象替代时,即使在通信线刚接通之后,也能连续地显示逼真的图象。也就是说,所显示的图象从模型图象逐渐变化为发送者的人体图象,且不会造成任何不希望的人为表现状态,因此,观视者可获得逼真的再现图象。
如上所述,即使在采用诸如模拟电话线之类的低传输速率的传输线的情况下,对通信极为重要的人的面部的表示组元或类似的组元也可以实时方式传输,同时转换整个屏图象的视频数据。这带来一个与图1所示的实施例相似的有益效果。
尽管已参照特定实施例对本发明进行了描述,但本发明不受这些实施例的限制,而是仅由所附加的权利要求限定。在不脱离本发明的范围和精神的情况下,本领域的普通技术人员可改变或修正这些实例。
Claims (13)
1.一种图象通信设备,其特征在于:
提取装置,用于从原始的视频图象中提取表示各组成部分的视频数据;
传输装置,用于发送和接收所述指示各组成部分的视频数据;和
再现装置,用于从所述指示各组成部分的视频数据再现所述原始的视频图象。
2.根据权利要求1所述的图象通信设备,其特征在于,还包括编码装置,用于给所提取的视频数据配置第一编码量,给输入的视频数据配置第二编码量,所述第一编码量大于所述第二编码量。
3.根据权利要求1所述的图象通信设备,其特征在于,
还包括输入装置,用于输入人的面部的视频数据;
所述提取装置提取人的面部的眼部和口部的视频数据作为所述组成部分的视频数据。
4.根据权利要求1所述的图象通信设备,其特征在于,
所述提取装置还包括计算装置,该计算装置用于计算表示所述提取的各组成部分的基本信息的视频数据,和用于计算相对于表示所述基本信息的所述视频数据的位移量的装置,
还包括编码装置,用于对表示所述基本信息和所述位移量的所述视频数据进行编码;并且
其中,所述再现装置根据表示所述基本信息和所述位移量的所述视频数据再现所述图象。
5.根据权利要求4所述的图象通信设备,其特征在于,
所述提取的各组成部分的视频数据包括眼部和口部的视频数据;
所述位移量包括每个眼部或口部的开口的幅度。
6.根据权利要求1所述的图象通信设备,其特征在于,所述再现装置包括:
译码装置,用于对经编码的所述提取的视频数据进行译码,以再现相应的组成部分;
合成装置,用于合成所述相应的组成部分,以组成一个图象;和
一个显示器,它具有包括凹部和凸部的表面,并且
其中所述合成装置合成所述相应的组成部分,使得经再现的图象根据所述凹部和凸部显示在所述显示器上。
7.根据权利要求6所述的图象通信设备,其特征在于,所述显示器包括一个用于存储与凹部和凸部相关的信息的存储器。
8.根据权利要求6所述的图象通信设备,其特征在于,
所述提取的组成部分的图象是人的面部;并且
所述显示器表面的凹部和凸部具有类似于人面部的轮廓。
9.根据权利要求1所述的图象通信设备,其特征在于,
还包括编码装置,用于将由所述视频数据表示的每一个所述提取的组成部分与对应于所述图象的目标重心的距离的信息相加,并且
其中,所述再现装置通过合成所述视频数据来再现所述图象,使得所述目标的重心被设置在显示屏的中心。
10.根据权利要求1所述的图象通信设备,其特征在于,
所述通信设备还包括一个存储有对应于所述图象的目标的组成部分的模型的公知表达方式的数据库,
所述提取装置对所述目标的诸如轮廓、尺寸和重心的组成部分的特征进行计算,
还包括编码装置,用于分析经计算的所述特征,并且将对应于所述提取的视频数据和所述特征的组成部分的模型转换为和所述数据库相匹配的公知表达方式,
所述传输装置包括接口装置,该接口装置用于将所述公知表达方式转换为一个具有与传输路径相匹配的格式的信号,并且经所述传输路径发射所述转换的信号,
所述再现装置包括译码装置,该译码装置用于接收所述转换的信号,将所述转换的信号译码为所述公知表达方式,并且参照根据所述公知表达方式的数据库,通过利用所述特征修正对应的模型,从而产生所获得的对应的组成部分,并且
所述再现装置还合成经修正的所述相应的组成部分,以再现所述图象。
11.根据权利要求10所述的图象通信设备,其特征在于,
表示目标的特征的公知表达方式以实时方式传输;
整个电视图象的视频信号以低传输速率传输。
12.根据权利要求3所述的图象通信设备,其特征在于,所述再现装置包括一个显示器,用于显示经再现的所述图象,直到接收到新的提取的视频数据,由此逐步更新所述图象。
13.根据权利要求10所述的图象通信设备,其特征在于,所述图象表示一个人,并且
其中,存储在所述数据库中的所述组成部分的模型包括人的头部的面部类型、眼、口和眉毛的图象。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP076863/1994 | 1994-04-15 | ||
JP076863/94 | 1994-04-15 | ||
JP7686394A JPH07288789A (ja) | 1994-04-15 | 1994-04-15 | 知的符号化装置及び画像通信装置 |
JP6155691A JPH0823527A (ja) | 1994-07-07 | 1994-07-07 | テレビ電話システム |
JP155691/94 | 1994-07-07 | ||
JP155691/1994 | 1994-07-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1112326A CN1112326A (zh) | 1995-11-22 |
CN1132406C true CN1132406C (zh) | 2003-12-24 |
Family
ID=26417985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN95105104A Expired - Fee Related CN1132406C (zh) | 1994-04-15 | 1995-04-13 | 图象通信设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US5710590A (zh) |
KR (1) | KR0180543B1 (zh) |
CN (1) | CN1132406C (zh) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6313863B1 (en) * | 1994-07-29 | 2001-11-06 | Canon Kabushiki Kaisha | Image communication apparatus and system |
US6049517A (en) | 1996-04-30 | 2000-04-11 | Sony Corporation | Dual format audio signal compression |
US6031929A (en) * | 1996-07-18 | 2000-02-29 | University Of Pittsburgh | Image facsimile with real time image segmentation |
US6654414B1 (en) * | 1996-11-12 | 2003-11-25 | Ibm Corporation | Video conferencing using camera environment panoramas |
JPH10268447A (ja) * | 1997-03-21 | 1998-10-09 | Fuji Photo Film Co Ltd | 画像処理装置及び写真焼付装置 |
US6288753B1 (en) * | 1999-07-07 | 2001-09-11 | Corrugated Services Corp. | System and method for live interactive distance learning |
AU2001275335A1 (en) * | 2000-06-06 | 2001-12-17 | Georgia Tech Research Corporation | System and method for object-oriented video processing |
KR20020007511A (ko) * | 2000-07-14 | 2002-01-29 | 유현중 | 화상 통신기의 배경화면 변환장치 |
KR100420620B1 (ko) * | 2001-02-16 | 2004-03-02 | 주식회사 이스턴정보통신 | 객체기반 영상 감시시스템 |
KR100474352B1 (ko) * | 2001-05-14 | 2005-03-08 | 주식회사 페이스쓰리디 | 2차원 영상으로부터 3차원 얼굴형상의 획득 시스템 및 방법 |
US6496217B1 (en) * | 2001-06-12 | 2002-12-17 | Koninklijke Philips Electronics N.V. | Video communication system using model-based coding and prioritzation techniques |
US7283672B1 (en) * | 2001-06-29 | 2007-10-16 | Harris Scott C | Image compression by object segregation |
US7274800B2 (en) * | 2001-07-18 | 2007-09-25 | Intel Corporation | Dynamic gesture recognition from stereo sequences |
US7165029B2 (en) | 2002-05-09 | 2007-01-16 | Intel Corporation | Coupled hidden Markov model for audiovisual speech recognition |
US7209883B2 (en) * | 2002-05-09 | 2007-04-24 | Intel Corporation | Factorial hidden markov model for audiovisual speech recognition |
US20030212552A1 (en) * | 2002-05-09 | 2003-11-13 | Liang Lu Hong | Face recognition procedure useful for audiovisual speech recognition |
US7171043B2 (en) | 2002-10-11 | 2007-01-30 | Intel Corporation | Image recognition using hidden markov models and coupled hidden markov models |
KR20040046318A (ko) * | 2002-11-27 | 2004-06-05 | 엘지전자 주식회사 | 화상통신 시스템에서 영상신호 처리방법 |
US7472063B2 (en) * | 2002-12-19 | 2008-12-30 | Intel Corporation | Audio-visual feature fusion and support vector machine useful for continuous speech recognition |
US7203368B2 (en) * | 2003-01-06 | 2007-04-10 | Intel Corporation | Embedded bayesian network for pattern recognition |
US8638846B1 (en) * | 2003-06-23 | 2014-01-28 | At&T Intellectual Property Ii, L.P. | Systems and methods for encoding and decoding video streams |
WO2006003625A1 (en) * | 2004-07-02 | 2006-01-12 | Koninklijke Philips Electronics N.V. | Video processing |
US9743078B2 (en) | 2004-07-30 | 2017-08-22 | Euclid Discoveries, Llc | Standards-compliant model-based video encoding and decoding |
US9532069B2 (en) | 2004-07-30 | 2016-12-27 | Euclid Discoveries, Llc | Video compression repository and model reuse |
US7508990B2 (en) * | 2004-07-30 | 2009-03-24 | Euclid Discoveries, Llc | Apparatus and method for processing video data |
US8902971B2 (en) | 2004-07-30 | 2014-12-02 | Euclid Discoveries, Llc | Video compression repository and model reuse |
WO2008091483A2 (en) * | 2007-01-23 | 2008-07-31 | Euclid Discoveries, Llc | Computer method and apparatus for processing image data |
US9578345B2 (en) | 2005-03-31 | 2017-02-21 | Euclid Discoveries, Llc | Model-based video encoding and decoding |
JP4410732B2 (ja) * | 2005-07-27 | 2010-02-03 | グローリー株式会社 | 顔画像検出装置、顔画像検出方法および顔画像検出プログラム |
US7925105B2 (en) * | 2006-03-14 | 2011-04-12 | Seiko Epson Corporation | Image transfer and motion picture clipping process using outline of image |
US8120675B2 (en) * | 2006-10-17 | 2012-02-21 | Panasonic Corporation | Moving image recording/playback device |
EP2106663A2 (en) | 2007-01-23 | 2009-10-07 | Euclid Discoveries, LLC | Object archival systems and methods |
CN102685441A (zh) | 2007-01-23 | 2012-09-19 | 欧几里得发现有限责任公司 | 用于提供个人视频服务的系统和方法 |
EP2345256B1 (en) * | 2008-10-07 | 2018-03-14 | Euclid Discoveries, LLC | Feature-based video compression |
CN104904203A (zh) * | 2013-09-30 | 2015-09-09 | 酷派软件技术(深圳)有限公司 | 图像编码、解码方法和系统以及终端 |
US10091507B2 (en) | 2014-03-10 | 2018-10-02 | Euclid Discoveries, Llc | Perceptual optimization for model-based video encoding |
US10097851B2 (en) | 2014-03-10 | 2018-10-09 | Euclid Discoveries, Llc | Perceptual optimization for model-based video encoding |
CA2942336A1 (en) | 2014-03-10 | 2015-09-17 | Euclid Discoveries, Llc | Continuous block tracking for temporal prediction in video encoding |
JP6669617B2 (ja) * | 2016-09-12 | 2020-03-18 | ルネサスエレクトロニクス株式会社 | 動画像処理システム |
US10096125B1 (en) * | 2017-04-07 | 2018-10-09 | Adobe Systems Incorporated | Forecasting multiple poses based on a graphical image |
US10685466B2 (en) * | 2017-05-23 | 2020-06-16 | Dell Products L.P. | System and method of utilizing video systems with available bandwidth |
JP7425479B2 (ja) * | 2020-05-01 | 2024-01-31 | Awl株式会社 | サイネージ制御システム、及びサイネージ制御プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5073927A (en) * | 1989-08-29 | 1991-12-17 | Motorola, Inc. | Imaging identification method for a communication system |
FR2690031A1 (fr) * | 1992-04-14 | 1993-10-15 | Philips Electronique Lab | Dispositif de segmentation d'images. |
US5426460A (en) * | 1993-12-17 | 1995-06-20 | At&T Corp. | Virtual multimedia service for mass market connectivity |
-
1995
- 1995-04-07 US US08/418,688 patent/US5710590A/en not_active Expired - Fee Related
- 1995-04-12 KR KR1019950008477A patent/KR0180543B1/ko not_active IP Right Cessation
- 1995-04-13 CN CN95105104A patent/CN1132406C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1112326A (zh) | 1995-11-22 |
US5710590A (en) | 1998-01-20 |
KR950030647A (ko) | 1995-11-24 |
KR0180543B1 (ko) | 1999-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1132406C (zh) | 图象通信设备 | |
EP3751857A1 (en) | A method, an apparatus and a computer program product for volumetric video encoding and decoding | |
CN103220543B (zh) | 基于kinect的实时3d视频通信系统及其实现方法 | |
US6055330A (en) | Methods and apparatus for performing digital image and video segmentation and compression using 3-D depth information | |
CN106303289B (zh) | 一种将真实对象与虚拟场景融合显示的方法、装置及系统 | |
EP2234406A1 (en) | A three dimensional video communication terminal, system and method | |
US11044437B2 (en) | Method and system for combining multiple area-of-interest video codestreams into a combined video codestream | |
US20210076016A1 (en) | Video Information Compression Using Sketch-Video | |
US8639046B2 (en) | Method and system for scalable multi-user interactive visualization | |
JP2001514825A (ja) | イメージ品質の対話型制御のためのイメージング・システムおよび方法 | |
US20100309287A1 (en) | 3D Data Representation, Conveyance, and Use | |
US6597736B1 (en) | Throughput enhanced video communication | |
US20030023982A1 (en) | Scalable video encoding/storage/distribution/decoding for symmetrical multiple video processors | |
CN1399468A (zh) | 多频道视频编码装置和方法 | |
CN102986214A (zh) | 从低动态范围图像生成高动态范围图像 | |
WO1998015915A9 (en) | Methods and apparatus for performing digital image and video segmentation and compression using 3-d depth information | |
CN1450816A (zh) | 一种立体视频流编码/解码器及其立体视频编解码系统 | |
CN1802858A (zh) | 基于运动图像专家组-4的立体视频因特网广播系统和方法 | |
DE10197255T5 (de) | VTV-System | |
CN1313706A (zh) | 用于编码视频图象的方法和装置 | |
CN1150508A (zh) | 传输图象的通信系统 | |
CN1809153A (zh) | 视频合成设备及视频合成方法 | |
JP2010515306A (ja) | ビデオデータをエンコードする装置及びデコードするシステム | |
CN1236265A (zh) | 数据复用器和数据复用方法 | |
CN1210947C (zh) | 摄像机设备和具有该摄像机设备的电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |