CN102067595B

CN102067595B - 图像声音通信装置以及其通信方法

Info

Publication number: CN102067595B
Application number: CN2010800015685A
Authority: CN
Inventors: 本田义雅
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2009-03-16
Filing date: 2010-03-01
Publication date: 2013-07-24
Anticipated expiration: 2030-03-01
Also published as: JP5490782B2; JPWO2010106743A1; CN102067595A; WO2010106743A1; US9007525B2; US20110063504A1

Abstract

一种图像声音通信装置，能够针对用户不产生图像/声音的不协调感而解除系统时钟不一致的现象，并且，包括：收发部(106/108)，经由网络，收发图像以及声音；显示时间标记校正定时判断部(111)，根据由所述收发部发送的声音的内容，或者，根据由所述收发部接收的图像的内容或接收的声音的内容，判断应更新该接收的图像或接收的声音的显示时间标记的校正量的定时；显示时间标记校正部(112)，通过在由所述显示时间标记校正定时判断部所判断的定时，更新该接收的图像或接收的声音的显示时间标记的校正量，从而校正该显示时间标记；以及图像声音输出部(113)，输出与已被校正的显示时间标记相对应的该接收的图像以及接收的声音，所述已被校正的显示时间标记是所述图像声音通信装置所示出的与当前时刻相对应的显示时间标记。

Description

图像声音通信装置以及其通信方法

技术领域

本发明涉及一种图像声音通信装置以及其通信方法，尤其涉及用于进行视频会议的图像声音通信装置以及其通信方法。

背景技术

近几年，随着ADSL(Asymmetric Digital Subscriber line：非对称数字用户线路)以及光纤网络的迅速普及，能够利用低价格的高速的互联网连接。此外，通过利用这样低价格的高速互联网来进行远距离的据点间的影像声音数据的双方向传输，从而也能够简单地建立视频会议系统。

并且，作为能够建立的视频会议系统，存在面对感且临场感强的视频会议系统，例如，由于能够以HD(High Definition：高清晰度)分辨率拍摄的摄像机的出现和以PDP(Plasma Display Panel：等离子显示板)为代表的显示器的大型化，从而能够在大画面的显示屏上显示等身大的人物等。

在这样存在面对感且临场感强的大画面视频会议系统中，例如在1920×1080像素的全高清(full HD)中能够将每秒60帧的高清晰的运动平稳的影像以等身大进行显示。因此，影像的中断或者声音的中断会导致品质的劣化。

此外，与影像声音的单方向的传播不同，在视频会议装置系统中进行影像声音的双方向通信，但是，却不能使作为发送终端的视频会议装置和作为接收终端的视频会议终端的系统时钟同步。

因此，视频会议装置会出现以下问题，即作为接收终端的视频会议装置虽然按照由作为发送终端的视频会议装置方向每个数据包赋予的时间标记，来进行AV(Audio Video：音频/视频)的再生，但是，由于发送终端和接收终端的系统时钟不同步，因此，出现再生时刻发生的不一致的情况。

在例如接收终端方的视频会议装置中的系统时钟比作为发送终端方的视频会议装置中的系统时钟快(提前)的情况下，在接收终端方的视频会议装置中AV再生定时比作为发送终端方的视频会议装置快，因此，就会出现再生数据不足(下溢)的状态。相反，在例如接收终端方的视频会议装置中的系统时钟比作为发送终端方的视频会议装置中的系统时钟慢(迟延)的情况下，在接收终端方的视频会议装置中AV生成定时比作为发送终端方的视频会议装置慢，因此，就会出现再生数据累积(上溢)的状态。

在以往的技术中公开了用于对应以上情况的视频会议装置(参照下述专利文献1。)。在此视频会议装置中，需要根据被输入的流中的时间标记和自动时间标记之间的时刻差，计算输入时间标记的精度，并且，在计算出的精度的误差在范围之外的情况下，对图像数据进行跳过或重播的控制。由此，对再生的图像数据进行校正。

[专利文献1]日本国特开2004-15553号公报

然而，在所述专利文献1中所公开的以视频会议终端来构成的存在面对感且临场感强的视频会议系统中，若例如对帧的跳过或帧的重播等图像数据的跳过或重播进行控制，就会例如在会话中出现影像暂时停止以及图像暂时中断的现象。也就是说，专利文献1所公开的视频会议终端出现如下情况，即虽然能够抑制发送终端和接收终端的再生时刻发生不一致的现象，但是，会导致影像的中断等品质的劣化。

如上所述，在专利文献1所公开的视频会议终端中，由于品质的劣化，会导致通信受到阻碍，因此，作为以存在面对感且临场感强的视频会议系统所代表的通信用途来适用是不适当的。

发明内容

于是，鉴于所述内容，本发明的目的在于提供一种图像声音通信装置以及其通信方法，能够针对用户不产生图像/声音的不协调感而解除系统时钟不一致的现象。

为了实现上述目的，本发明涉及的图像声音通信装置为一种图像声音通信装置，其中包括：收发部，经由网络，收发图像以及声音；定时判断部，根据由所述收发部发送的声音的内容、由所述收发部接收的图像的内容、或由所述收发部接收的声音的内容，判断应更新该接收的图像或接收的声音的显示时间标记(presentation Time Stamp：PTS)的校正量的定时；显示时间标记校正部，通过在由所述定时判断部所判断的定时，更新该接收的图像或接收的声音的显示时间标记的校正量，从而校正该显示时间标记；以及图像声音输出部，输出与已被校正的显示时间标记相对应的该接收的图像以及接收的声音，所述已被校正的显示时间标记是所述图像声音通信装置所示出的与当前时刻相对应的显示时间标记。

根据此构成，能够判断用户很难认识到的定时，并输出在判断出的定时上进行了PTS校正的图像或声音。因此，能够针对用户不产生图像/声音的不协调感而解除系统时钟不一致的现象。

并且，可以是，所述图像声音通信装置还包括用户输入部，该用户输入部通过用户操作输入用户操作信息，所述定时判断部，在被输入到所述用户输入部的用户操作信息表示是伴有所述接收的图像的画面配置变更的用户操作的情况下，将伴有该画面配置变更的用户操作的定时判断为应更新所述校正量的定时。

根据此构成，在变更画面配置的定时上进行图像的PTS校正，从而能够进行例如帧的跳过等图像的PTS校正，而使用户很难察觉到。因此，能够针对用户不产生图像/声音的不协调感而解除系统时钟不一致的现象。

并且，也可以是，所述定时判断部，在由所述收发部接收的图像与在时间上处于该接收的图像之前的图像之间的相关值比预先设定的阈值大的情况下，将所述图像声音输出部输出该接收的图像的定时判断为应更新所述校正量的定时。

根据此构成，在显示的画面的时间相关性高且画面内的运动少的定时上进行图像的PTS校正，从而能够进行例如帧的跳过或者帧的重播等的图像的PTS校正，而使用户很难察觉到。因此，能够针对用户不产生图像/声音的不协调感而解除系统时钟不一致的现象。

并且，也可以是，所述定时判断部，在由所述收发部接收的图像的数据量比预先设定的阈值小的情况下，将所述图像声音输出部输出所述接收的图像的定时判断为应更新所述校正量的定时。

根据此构成，在预测为输出的图像的数据量小且画面内的运动少的定时上进行图像的PTS校正，从而能够进行例如帧的跳过或者帧的重播等的图像的PTS校正，而使用户很难察觉到。因此，能够针对用户不产生图像/声音的不协调感而解除系统时钟不一致的现象。

并且，也可以是，所述定时判断部，在由所述收发部接收的声音的大小比预先设定的阈值小的情况下，将所述图像声音输出部输出所述接收的声音的定时判断为应更新所述校正量的定时。

根据此构成，在再生的声音的大小小的定时进行PTS校正，从而能够进行例如因声音的跳过等引起的声音的PTS校正，而使用户很难察觉到。因此，能够针对用户不产生图像/声音的不协调感而解除系统时钟不一致的现象。

并且，也可以是，所述图像声音通信装置还包括声音输入部，该声音输入部被输入有由所述收发部发送的声音，该声音是利用麦克风拾音的，所述定时判断部，在被输入到所述声音输入部的声音的大小比预先设定的阈值大的情况下，将所述图像声音输出部输出被输入的所述声音的定时判断为应更新所述校正量的定时。

根据此构成，在例如使周边的声音大，或者，使用户等的说话者处于发声状态来输入的声音的大小大的定时进行PTS校正，从而能够进行例如因声音的跳过等引起的声音的PTS校正，而使用户很难察觉到。因此，能够针对用户不产生图像/声音的不协调感而解除系统时钟不一致的现象。

并且，也可以是，所述图像声音通信装置还包括：缓冲器，暂时存储由所述收发部接收的图像或接收的声音；以及显示时间标记校正量计算部，监视所述缓冲器的容量的余量，根据该余量计算显示时间标记校正量，所述显示时间标记校正部，通过对在由所述定时判断部判断的定时的图像或声音的显示时间标记与由所述显示时间标记校正量计算部计算出的显示时间标记校正量进行加法运算，从而对被判断的该定时的图像或声音的显示时间标记进行校正。

根据此构成，能够计算PTS校正量，以便抵消系统时钟不一致的量。因此，能够针对用户不产生图像/声音的不协调感而解除系统时钟不一致的现象。

另外，本发明不仅能够作为装置来实现，还可以作为具备这样的装置所包括的处理单元的集成电路来实现，也可以作为将构成此装置的处理单元作为步骤的方法来实现，也可以作为将这些步骤在计算机执行的程序来实现。并且，这些程序也可以经由CD-ROW等记录介质或互联网等通信介质来进行传输。

根据本发明的图像声音通信装置以及其通信方法能够取得如下效果，即能够针对用户不产生图像/声音的不协调感而解除系统时钟不一致的现象。

具体地，通过对用户很难认识到的且应更新PTS(Presentation Time Stamp：PTS)的校正量的定时进行判断，并在此定时校正图像或声音的PTS，从而能够使用户不产生因对PTS进行校正所带来的例如声音跳过或帧的跳过等而引起的不协调感而解除系统时钟不一致的现象。

附图说明

图1是示出具备本发明的图像声音通信装置的视频会议系统的构成例子的图。

图2是示出本发明涉及的图像声音通信装置的构成的框图。

图3是用于说明本发明涉及的图像声音通信装置的发送方的处理的流程图。

图4是用于说明本发明涉及的图像声音通信装置的接收方的处理的流程图。

图5是用于说明本发明涉及的PTS校正量决定处理的一个例子的流程图。

图6是用于说明本发明涉及的图像差分值计算处理的流程图。

图7是用于说明本发明涉及的画面配置判断处理的流程图。

图8是用于说明本发明涉及的输入声音大小检测处理的流程图。

图9是用于说明本发明涉及的接收声音大小检测处理的流程图。

图10是用于说明本发明涉及的图像声音通信装置的图像的PTS校正定时判断处理的流程图。

图11是用于说明本发明涉及的图像声音通信装置的声音的PTS校正定时判断处理的流程图。

图12是示出本发明涉及的图像声音通信装置的最小构成的框图。

具体实施方式

以下，针对本发明的实施例，参照附图进行详细的说明。

(实施例1)

图1是示出具备本发明的图像声音通信装置的视频会议系统构成例子的图。

如图1所示在视频会议系统中，图像声音通信装置100经由网络207与其他的图像声音通信装置300进行图像声音数据的双方向的传输。

图像声音通信装置100经由网络207将由摄像机/麦克风101所拍摄的图像声音发送给其他的图像声音通信装置300，且从其他的图像声音通信装置300接收图像声音数据。此外，图像声音通信装置100通过对接收的图像声音数据进行PTS校正，从而防止因其他的图像声音通信装置300间即装置间的时钟的不一致而引起的上溢或下溢，并且，将图像声音数据输出到显示器/扬声器103。

其他的图像声音通信装置300经由网络207将由摄像机/麦克风301所拍摄的图像声音发送给其他的图像声音通信装置300。此外，其他的图像声音通信装置300从图像声音通信装置100接收图像声音数据，并且，将接收的图像声音数据输出到显示器/扬声器303。

图2是示出本发明涉及的图像声音通信装置的构成的框图。

如图2所示，图像声音通信装置100包括：图像声音输入部104、编码部105、发送部106、接收部108、PTS校正量计算部109、解码部110、PTS校正量定时判断部111、PTS校正部112、图像声音输出部113、接收缓冲器114、以及输出缓冲器115。此外，图像声音通信装置100与用户输入部102相连接，并且，用于拍摄图像的摄像机/麦克风101被连接于外部，所述用户输入部102为输入作为来自用户操作的GUI(Graphical User Interface：图形用户接口)操作的用户接口。此外，图像声音通信装置100与用于再生图像声音数据的显示器/扬声器103相连接。

图像声音输入部104为从拍摄图像的摄像机/麦克风101输入非压缩的图像以及声音数据的接口。图像声音输入部104将由摄像机/麦克风101以帧单位输入的图像以及声音数据(以下称为自身装置图像声音数据。)输出到编码部105、图像声音输出部113、PTS校正定时判断部111。

编码部105对由图像声音输入部104输入的自身装置图像声音数据进行编码(压缩编码)，将进行了编码的自身装置图像声音数据输出到发送部106。在此，编码部105例如利用H.264以及MPEG-4ACC等压缩编码方式对自身装置图像声音数据进行压缩编码。

发送部106将由编码部105输入的编码后的自身装置图像声音数据输出到网络207。在此，例如发送部106将自身装置图像声音数据例如进行RTP(Realtime Transport Protocol：实时传送协议)数据包化，并进行输出。具体地，发送部106将作为输出时刻的PTS(Presentation Time Stamp：显示时间标记)写入到RTP数据包的RTP头的时间标记区域，并将进行了RTP数据包化的自身装置图像声音数据经由网络207输出到其他的图像声音通信装置 300。

接收部108包括接收缓冲器114，经由网络207接收从其他的图像声音通信装置300发送来的图像以及声音数据(以下称为对方装置图像声音数据。)，并将接收的对方装置图像数据输出到解码部110，并且，将接收数据量输出到PTS校正量计算部109。具体地，接收部108将接收的对方装置图像声音数据的RTP数据包暂时保存到接收缓冲器114。接收部108将从存储在接收缓冲器114的对方装置图像声音数据的RTP数据包中抽出的接收时刻和接收数据量输出到PTS校正量计算部109，并将存储在接收缓冲器114的对方装置图像声音数据的RTP数据包输出到解码部110。

接收缓冲器114暂时存储由接收部108接收的对方装置图像声音数据的RTP数据包。接收缓冲器114所存储的对方装置图像声音数据的RTP数据包经由接收部108输出到解码部110。

PTS校正量计算部109对接收数据量进行观测，并根据正在观测的接收数据量计算PTS校正量。具体地，PTS校正量计算部109利用由接收部108输入的接收数据量和由解码部110输入的接收缓冲器114的容量的余量，计算PTS校正量，并将计算出的PTS校正量输出到PTS校正定时判断部111。

解码部110对由接收部108输入的对方装置图像声音数据进行解码，并将解码后的对方装置图像声音数据输出到PTS校正部112以及PTS校正定时判断部111。此外，解码部110确认接收缓冲器114的容量的余量，并且，一边向PTS校正量计算部109输出接收缓冲器114的容量的余量，一边确认是否处于可解码状态，所述可解码状态为输出缓冲器115内有空余的状态。并且，解码部110在处于可解码状态的情况下，进行解码处理。也就是说，在解码部110处于作为输出缓冲器115内有空余的状态的可解码状态的情况下，从接收缓冲器114接受对方装置图像声音数据的RTP数据包，并进行解码处理。

具体地，解码部110作为RTP数据包的解码处理，将从接收缓冲器114接受的RTP数据包变换为编码图像数据形式以及编码声音数据形式，并计算作为输出时刻的PTS。进一步，解码部110针对编码图像数据以H.264进行解码，针对编码声音数据以MPEG-4AAC进行解码，并将解码后的图像数据以及声音数据(以下称为对方装置解码后图像声音数据。)输出到PTS校正定时判断部111。与此同时，解码部110将对方装置解码后图像声音数据和PTS相关联地保存到输出缓冲器115。

PTS校正定时判断部111根据由发送部106发送的声音、由接收部108接收的图像的内容或声音的内容，即至少利用由图像声音输入部104输入的自身装置图像声音数据、由用户输入部102输入的用户操作信息以及由解码部110输入的解码后图像声音数据中的任一个，来判断作为应更新PTS的校正量的定时的PTS校正定时，并将由PTS校正量计算部109计算出的PTS校正量和PTS校正请求一同输出到PTS校正部112。也就是说，PTS校正定时判断部111将用户很难认识到的定时判断为应更新PTS的校正量的定时，以作为对时钟的不一致进行校正的定时，并以PTS校正请求将PTS校正定时通知给PTS校正部112。

PTS校正部112按照由PTS校正定时判断部111输入的PTS校正请求，对与对方装置解码后图像声音数据相关联的PTS进行校正。具体地，PTS校正部112针对由解码部110保存到输出缓冲器115的与对方装置解码后图像声音数据相关联的PTS信息，利用由PTS校正定时判断部111输出的PTS校正量，对PTS信息进行校正，并将校正后的PTS信息输出到图像声音输出部113。

图像声音输出部113按照由PTS校正部112输入的校正后的PTS信息，将保存在输出缓冲器115的对方装置解码后图像声音数据输出到显示器/扬声器103。也就是说，图像声音输出部113对由PTS校正部112输入的校正后的PTS值与图像声音通信装置100的系统时钟(当前时刻)进行比较，并将接近于此系统时钟的PTS的对方装置解码后图像以及声音数据从输出缓冲器115输出到显示器/扬声器103。

以上，构成图像声音通信装置100。

接着，针对具有上述构成的图像声音通信装置100的工作，利用附图进行说明。另外，以下说明的工作作为控制程序被存储在图像声音通信装置100的图没有示出的例如ROM或内存器等的记忆装置内，并由CPU来进行控制。

图3是用于说明本发明涉及的图像声音通信装置的发送处理的流程图。

首先，图像声音通信装置100进行图像声音输入处理(S201)。具体地，图像声音输入部104从被连接于外部的摄像机/麦克风101以帧单位输入非压缩的自装置图像声音，并将输入的自身装置图像声音数据输出到编码部 105、PTS校正定时判断部111以及图像声音输出部113。

接着，图像声音通信装置100进行图像声音编码处理(S202)。具体地，编码部105针对由图像声音输入部104输入的非压缩的自身装置图像声音数据，例如利用H.264以及MPEG-4AAC等的压缩编码方式，进行压缩编码，并将编码后的自身装置图像声音数据输出到发送部106。

接着，图像声音通信装置100进行发送处理(S203)。具体地，发送部106将由编码部105输入的编码后的自装置图像声音数据例如进行RTP(Realtime Transport Protocol：实时传送协议)数据包化。也就是说，发送部106将作为输出时刻的PTS(Presentation Time Stamp：显示时间标记)描述到RTP头的时间标记区域，并将进行了RTP数据包化的自身装置图像声音数据经由网络207输出到其他的图像声音通信装置300。

如上所述，图像声音通信装置100将自身装置图像声音数据经由网络207输出到其他的图像声音通信装置300。

图4是用于说明本发明涉及的图像声音通信装置的接收方处理的流程图。

首先，图像声音通信装置100进行数据包接收处理(S301)。具体地，接收部108经由网络207接收从其他的图像声音通信装置300发送来的对方装置图像声音数据的RTP数据包，并将接收的对方装置图像声音数据的RTP数据包暂时保存到接收缓冲器114。并且，将从保存在接收缓冲器114的接收的对方装置图像声音数据中抽出的接收时刻和接收数据量输出到PTS校正量计算部109，并且，在解码部110处于可解码状态的情况下，将接收的对方装置图像声音数据的RTP数据包输出到解码部110。

接着，图像声音通信装置100进行数据包解码处理(S302)。具体地，解码部110确认接收缓冲器114的容量的余量，并且，一边向PTS校正量计算部109输出接收缓冲器114的容量的余量，一边确认是否处于作为输出缓冲器115内有空余的状态的可解码状态。并且，在处于可解码状态的情况下，对从接收缓冲器114接受的对方装置图像声音数据的RTP数据包进行解码处理，计算作为输出时刻的PTS，并且，将解码后的对方装置图像声音数据输出到PTS校正定时判断部111。此外，解码部110将解码图像数据以及解码声音数据分别与PTS相关联地存储到输出缓冲器115。

接着，图像声音通信装置100进行PTS校正量计算处理(S303)。具体地，PTS校正量计算部109利用由接收部108输入的接收数据量和由解码部110输入的接收缓冲器114的容量的余量，计算PTS校正量，并将计算出的PTS校正量输出到PTS校正定时判断部111。另外，针对PTS校正量计算处理的详细操作在后述中加以说明，因此，在此予以省略。

接着，图像声音通信装置100进行PTS校正定时判断处理(S304)。具体地，PTS校正定时判断部111至少利用由图像声音输入部104输入的自身装置图像声音数据、由用户输入部102输入的用户操作信息以及由解码部110输入的解码后图像声音数据中的任一个，来判断PTS校正定时。另外，针对PTS校正定时判断的详细操作在后述中加以说明，因此，在此予以省略。

在步骤S304中判断PTS校正定时的情况下(在步骤S304中“是”的情况下)，PTS校正定时判断部111将由PTS校正量计算部109计算出的PTS校正量和PTS校正请求一同输出到PTS校正部112。

接着，图像声音通信装置100进行PTS偏移变更(S305)以及PTS校正(S306)。具体地，PTS校正部112针对由解码部110保存到输出缓冲器115的与对方装置解码后图像声音数据相关联的PTS信息，利用由PTS校正定时判断部111输出的PTS校正量，来对PTS信息进行校正。并且，将校正后的PTS信息输出到图像声音输出部113。

在此，针对PTS校正部112所进行的PTS校正处理方法的例子进行说明。PTS校正部112根据以下(公式1)～(公式4)，进行PTS的校正。

(算式1)

Offset_A＝Offset_A_prev+Correct_A (公式1)

(算式2)

Offset_V＝Offset_V_prev+Correct_V (公式2)

(算式3)

PTS_V’(t)＝PTS_V(t)+Offset_V (公式3)

(算式4)

PTS_A’(t)＝PTS_A(t)+Offset_A (公式4)

在(公式1)以及(公式2)中，Offset_V以及Offset_A分别表示图像数据以及声音数据的PTS偏移值，Offset_V_prev以及Offset_A_prev分别表示图像数据以及声音数据的PTS偏移值的上次的值。此外，Correct_V以及Correct_A分别表示图像数据以及声音数据的PTS校正值。此外，在(公式3) 以及(公式4)中，PTS_V’(t)以及PTS_A’(t)分别表示帧t的图像以及声音的PTS校正后的PTS值，PTS_V(t)以及PTS_A(t)分别表示帧t的图像以及声音的PTS值。

PTS校正部112根据(公式1)～(公式4)，对保存在输出缓冲器115的帧t的图像以及声音数据的PTS值(PTS_V(t)以及PTS_A(t))和PTS偏移值(Offset_V以及Offset_A)进行加法运算，从而校正PTS值。

进一步，PTS校正部112利用由PTS校正定时判断部111输出的PTS校正量(Correct_V以及Correct_A)，来对用于校正PTS的偏移值(Offset_V以及Offset_A)进行更新。

如上所述，PTS校正部112通过利用PTS校正量，在由PTS校正定时判断部111所决定的定时，对偏移进行更新，从而能够对PTS进行间断性更新。

接着，图像声音通信装置100进行图像声音输出处理(S307)。具体地，图像声音输出部113对由PTS校正部112输入的校正后的PTS值和图像声音通信装值100的系统时钟(当前时刻)进行比较，并将接近于此系统时钟(当前时刻)的PTS的对方装置解码后图像声音数据从输出缓冲器115输出到显示器/扬声器103。

另外，在步骤S304中没有判断PTS校正定时的情况下(在步骤S304中“否”的情况下)，PTS校正定时判断部111向PTS校正部112不进行任何输出。

在此情况下，PTS校正部112不进行PTS的偏移变更(S306)。并且，图像声音输出部113对由PTS校正部112输入的PTS值和图像声音通信装置100的系统时钟(当前时刻)进行比较，并将接近于此系统时钟(当前时刻)的PTS的对方装置解码后图像声音数据从输出缓冲器115输出到显示器/扬声器103。

如上所述，图像声音通信装置100进行接收方的处理。

图5是用于说明本发明涉及的图像声音通信装置的PTS校正量计算处理的一个例子的流程图。

首先，图像声音通信装置100进行平均接收速率计算处理(S3031)。具体地，利用由接收部108输入的接收数据量，PTS校正量计算部109计算平均接收速率(AverageBps)。虽然在(公式5)中示出平均接收速率的计算公式，但是，接收速率的计算方法并不限定于在(公式5)所示出的计算公式。

(算式5)

AverageBps＝SUM(RecvBits)/N (公式5)

在此，AverageBps表示平均接收速率(bit/s)，RecvBits表示接收数据量(bit)。N表示预先设定的统计区间N(秒)，SUM(RecvBits)表示在统计区间N(秒)由接收部108接收的接收数据量的合计值。

如(公式5)所示，PTS校正量计算部109利用在统计区间N(秒)由接收部108接收的数据量的平均值，计算平均接收速率。

接着，图像声音通信装置100进行接收缓冲器114的余量统计处理(S3032)。具体地，PTS校正量计算部109，进行由解码部110输入的接收缓冲器114的容量的余量的统计处理，并判断缓冲器余量是处于增加趋势还是减少趋势。在此，作为增减趋势的评价值，利用作为受到缓冲器容量的余量增减的影响的其中之一的延迟时间进行说明。(公式6)中示出作为增减趋势的评价值的当前延迟时间(CurrDelay)的计算公式。

(算式6)

CurrDelay＝(BufferLevel/AverageBps)-INIT_DELAY (公式6)

在此，CurrDelay表示当前延迟时间，BufferLevel表示当前的接收缓冲器114的容量的余量(bit)。AverageBps表示平均接收速率(bit/s)，INIT_DELAY表示预先设定的初始延迟时间。

如(公式6)所示，PTS校正量计算部109通过将缓冲器容量的余量除以平均接收速率，从而计算出消耗缓冲器所需要的时间，取计算出的消耗缓冲器所需要的时间与初始延迟时间的差分，以作为当前迟延时间。也就是说，通过观察当前延迟时间的趋势，从而观测接收缓冲器114的容量的余量影响迟延时间的趋势。但是，在此为了简单地进行说明，设为不进行当前迟延时间的增减趋势的统计处理，而以一定间隔根据公式6计算当前迟延时间(CurrDelay)来进行说明。另外，平均接收速率，由于与平均编码速率等效，因此，使用在计算用于消耗缓冲器的时间。

接着，图像声音通信装置100，进行PTS校正量决定处理(S3033)。具体地，PTS校正量计算部109利用平均接收速率(AveregeBps)和接收缓冲器114的容量的余量，计算PTS校正量。在(公式7)中示出PTS校正量的计算公式。

(算式7)if((CurrDelay＞0)&&(|CurrDelay|-TH_H＞0)){

Correct_A＝-(CurrDelay-TH_H)×SCALE：

(公式7)

Correct_V＝-(CurrDelay-TH_H)×SCALE；

}else if((CurrDelay＜0)&&(|CurrDelay|-TH_L＞0)){

Correct_A＝(|CurrDelay|-TH_L)×SCALE；

Correct_V＝(|CurrDelay|-TH_L)×SCALE；

}else{

Correct_A＝0；

Correct_V＝0；

}

在此，CurrDelay表示当前延迟时间，Correct_A表示声音的PTS校正量，Correct_V表示图像的PTS校正量。TH_H以及TH_L表示预先决定的阈值(但是设为THvL＜INIT_DELAY＜TH_L。)，SCALE表示用于从秒变换为作为PTS单位的90kHZ的常数。

此外，(公式7)表示以下1至3。1、在当前延迟时间为正值且绝对值大于阈值(TH_H)的情况下，PTS校正量设为负值。2、在当前延迟时间为负值且绝对值大于阈值(TH_L)的情况下，PTS校正量设为正值。3、在上述1以及2以外的情况下，PTS校正量设为0。

如上所述，PTS校正量计算部109，如(公式7)所示，根据当前延迟时间的阈值判断，决定PTS校正量。

另外，虽然PTS校正量计算部109，根据(公式7)，在图像和声音中将PTS校正量作为相同的值而计算出，但是计算PTS校正量的方法并不限定于(公式7)。也可以例如通过在图像和声音中将当前延迟时间以及平均接收速率分别进行处理，从而在图像和声音中个别地计算出PTS校正量。

如上所述，图像声音通信装置100进行PTS校正量计算处理。

接着，利用图6-图11，针对图像声音通信装置100中的PTS校正定时判断处理的例子进行说明。

图6是用于说明本发明涉及的图像差分值计算处理的流程图。

首先，PTS校正定时判断部111利用由解码部110输入的解码图像数据，在连续的图像之间进行差分处理，并作为图像差分值计算出差分值绝对和(SAD)(S401)。

接着，PTS校正定时判断部111判断计算出的图像差分值是否小于预先规定的阈值(S402)。

PTS校正定时判断部111在计算出的图像差分值小于预先规定的阈值的情况下(在S402中“是”的情况下)，判断为PTS校正定时(S403)。如上所述，PTS校正定时判断部111将显示图像的运动小且用户很难认识到的控制帧的跳过等的跳过或重播的定时判断为应更新PTS校正量的PTS校正定时。

另一方面，PTS校正定时判断部111，在计算出的图像差分值大于预先规定的阈值的情况下(在S402中“否”的情况下)，判断不是PTS校正定时(S404)。

如上所述，利用由解码部110输入的解码图像数据，PTS校正定时判断部111对PTS校正定时进行判断。

作为所述的图像差分值的差分值绝对和(SAD)是，例如根据(公式8)计算的。

(算式8)

SAD (i) = Σ_{y = 1}^{H} Σ_{x = 1}^{W} (| Y (x, y, i) - Y (x, y, i - 1) |)

(公式8)

在此，SAD(i)表示第i个图像的差分值绝对和，Y(x、y、i)表示第i个图像的x以及y坐标的像素的亮度值。W表示图像的水平像素数，H表示图像的垂直像素数。

此外，如(公式8)所示，图像差分值为连续的图像之间的差分绝对值的合计值，且可以说是图像差分值越小，在时间上运动越少的图像。因此，这样计算出的图像差分值比预先规定的阈值小的情况下，将用户很难认识到的应更新PTS校正量的定时判断为对时钟的不一致进行校正的定时。

另外，图像差分值的计算方法并不限定于(公式8)，只要能够检测图像内的运动的方法即可。作为检测图像内的运动的其他的方法，也可以是以下的方法，例如监视接收图像的数据量，在接收图像的数据量小的情况下判断为运动少的图像。这是因为，在图像编码中，预测帧之间的差分图像并进行编码处理的情况比较多，在运动少的图像中此差分值变小并作为编码结果的数据量也变小的缘故。

图7是用于说明本发明涉及的画面配置判断处理的流程图。

首先，PTS校正定时判断部111对由用户输入部102输入的例如作为用户请求的用户操作信息进行分析(S411)，并判断是否存在画面配置变更(S412)。

PTS校正定时判断部111在根据用户操作信息并分析出发生以下1至3所示的画面转移时，判断为存在画面配置变更的情况下(在S412中“是”的情况下)，判断为PTS校正定时。

1、自身图像显示与对方图像显示之间的画面转移

2、对方图像显示与GUI显示之间的画面转移

3、GUI显示和自身图像显示之间的画面转移

如上所述，PTS校正定时判断部111通过使画面配置发生很大的改变，从而将用户很难认识到的帧的跳过等的图像的PTS校正的定时，判断为应更新PTS校正量的PTS校正定时。

另一方面，在根据用户操作信息，分析为没有进行如上所示的画面转移的情况下，PTS校正定时判断部111判断为没有画面配置变更(在S412中”否”的情况下)，并且，判断不是PTS定时(S414)。

如上所述，PTS校正定时判断部111利用由用户输入部102输入的用户操作信息，对PTS校正定时进行判断。

另外，被判断为存在画面配置变更的画面转移，并不限定于如上述的1至3的画面显示改变很大的情况。例如，即使用户正在注视的画面上时常显示GUI，例如在由用户对GUI正在进行菜单操作等的情况下，也可以判断为存在画面配置变更。

首先，利用由图像声音输入部104输入的输入声音数据，PTS校正定时判断部111检测输入声音大小(AudioInLevel)(S421)。在此，例如将检测出的输入声音大小作为一定区间的平均音量。

接着，PTS校正定时判断部111判断检测出的输入声音大小是否大于预先规定的阈值(S422)。

在检测出的输入声音大小大于预先规定的阈值的情况下(在S422中“是”的情况下)，PTS校正定时判断部111判断为PTS校正定时(S423)。这是因为，在检测的输入声音大小大的情况下，由于周围的声音很大或用户(说话者)正在发言中，很难认识到接收声音的声音跳过，从而能够判断其为应更新PTS校正量的PTS校正定时的缘故。

另一方面，在检测出的输入声音大小小于预先规定的阈值的情况下(在S422中“否”的情况下)，PTS校正定时判断部111判断不是PTS校正定时(S424)。

如上所述，PTS校正定时判断部111利用由图像声音输入部104输入的自身装置的输入声音数据，对PTS校正定时进行判断。

首先，利用由解码部110输入的解码声音数据，PTS校正定时判断部111检测接收声音大小(AudioOutLevel)(S431)。在此，例如将检测出的接收声音大小作为一定区间的平均音量。

接着，PTS校正定时判断部111判断检测出的接收声音大小是否小于预先规定的阈值(S432)。

在检测出的输入声音大小小于预先规定的阈值的情况下(在S432中“是”的情况下)PTS校正定时判断部111判断为PTS校正定时(S433)。这是因为，检测出的接收声音大小小于预先规定的阈值时，很难认识到接收声音的声音跳过，从而能够判断为应更新PTS校正量的PTS校正定时的缘故。

另一方面，在检测出的输入声音大小大于预先规定的阈值的情况下(在S432中“否”的情况下)，PTS校正定时判断部111判断不是PTS校正定时(S434)。

如上所述，PTS校正定时判断部111利用由解码部110输入的解码后的声音数据，对PTS校正定时进行判断。

此外，PTS校正定时判断部111至少利用上述的图6至图9中的任一个来判断PTS校正定时即可。例如，也可以仅判断有关图像的PTS校正定时，还可以仅判断有关声音的PTS校正定时。

图10是用于说明本发明涉及的图像声音通信装置的图像的PTS校正定时处理的流程图。

如图10所示，首先，PTS校正定时判断部111进行图像差分值计算处理(S400)。接着，PTS校正定时判断部111进行画面配置判断处理(S410)。另外，由于S400的图像差分值计算处理进行上述的S401至S404的处理，S410的画面配置判断处理进行上述的S411至S414的处理，因此，予以省略其说明。

接着，PTS校正定时判断部111确认是否是以S400以及S410中的至少一个处理来判断了PTS校正定时(S452)。

PTS校正定时判断部111在以S400以及S410中的至少一个处理，判断为PTS校正定时的情况下(在S452中“是”的情况下)，判断为PTS校正定时(S453)。

如上所述，作为用户很难认识到的控制帧的跳过等的跳过或重播的定时，将画面的运动少时或画面配置改变很大时的定时，判断为应更新PTS校正量的PTS校正定时。

另一方面，PTS校正定时判断部111在S400以及S410中的处理中，都判断为不是PTS校正定时的情况下(在S452中”否”的情况下)，判断为不是PTS校正定时(S454)。

如上所述，PTS校正定时判断部111对图像的PTS校正定时进行判断。

以下同样地说明判断声音的PTS校正定时的情况。

如图11所示，首先，PTS校正定时判断部111进行输入声音大小检测处理(S420)。接着，PTS校正定时判断部111进行接收声音大小检测处理(S430)。另外，由于S420的输入声音大小检测处理进行上述的S421至S424的处理，S430的接收声音大小检测处理进行上述的S431至S434的处理，因此，予以省略其说明。

接着，PTS校正定时判断部111确认是否是在S420以及S430中的至少一个处理来判断了PTS校正定时(S452)。PTS校正定时判断部111在以S420以及S430中的至少一个处理，判断为PTS校正定时的情况下(在S452中“是”的情况下)，判断为PTS校正定时(S453)。

如上所述，作为用户很难认识到的声音跳过的定时，将输入声音大小大时或接收声音大小小时的定时，判断为应更新PTS校正量的PTS校正定时。

另一方面，PTS校正定时判断部111在S430以及S420中的处理中，都判断为不是PTS校正定时的情况下(在S452中”否”的情况下)，判断为不是PTS校正定时(S454)。

如上所述，PTS校正定时判断部111对声音的PTS校正定时进行判断。

另外，PTS校正定时判断部111，也可以同时判断如图10以及图11所示的图像以及声音的PTS校正定时，也可以任意组合S400、S410、S420、以及S430来判断PTS校正定时。

如上所述，在本实施例中，PTS校正量计算部109监视接收缓冲器114的容量的增减趋势并计算PTS校正量，以便抵消系统时钟不一致的量，PTS校正定时判断部111将用户很难认识到的校正图像或校正声音的定时判断为PTS校正定时。并且，PTS校正部112按照由PTS校正定时判断部111判断的PTS校正请求，利用PTS校正量，对图像或声音的PTS进行校正，并按照由图像声音输出部113校正的PTS进行图像以及声音的输出。

以上，根据本发明，能够针对用户不产生图像/声音的不协调感而进行输出时刻校正(解除系统时钟的不一致)，所述输出时刻校正是因如图像声音通信装置100和其他的图像声音通信装置300这样的收发终端之间的系统时钟差而需要的校正。

此外，在本发明中，通过如上述所进行PTS校正，从而能够保持AV同步，并且，防止接收缓冲器114的上溢或下溢现象。

此外，本发明尤其作为利用大画面的临场感强的视频会议装置而被使用的图像声音通信装置，通过能够防止因降低面对感的帧的跳过或声音的跳过而引起的用户的主观品质的降低来发挥作用。

另外，在上述的说明中，本发明涉及的图像声音通信装置100虽然包括：图像声音输入部104、编码部105、发送部106、接收部108、PTS校正量计算部109、解码部110、PTS定时判断部111、PTS校正部112、图像声音输出部113、接收缓冲器114、以及输出缓冲器115，不过，并不限定于这些。如图12所示，至少包括：收发部106/108、PTS校正定时判断部111、PTS校正部112、以及图像声音输出部113，以作为图像声音通信装置100的最小结构即可。

具体地，作为最小结构，图像声音通信装置100包括：收发部106/108，经由网络，收发图像以及声音；PTS校正定时判断部111，根据由收发部106/108发送的声音的内容、由收发部106/108接收的图像的内容、或由收发部106/108接收的声音的内容，判断应更新接收的图像或接收的声音的PTS的校正量的定时；PTS校正部112，通过在由所述PTS校正定时判断部111所判断的定时，更新该接收的图像或接收的声音的PTS的校正量，从而校正该PTS；以及图像声音输出部113，输出与已被校正的PTS相对应的该接收的图像以及接收的声音，所述已被校正的PTS是所述图像声音通信装置所示出的与当前时刻相对应的PTS。在此，收发部106/108是将上述的发送部106和接收部108的功能一体化而得到的。并且，根据此最小结构能够判断用户很难认识到的定时，并且，输出在判断的定时，进行了PTS校正的图像或声音。因此，能够取得的效果是，针对用户不产生图像/声音的不协调感，而解除系统时钟的不一致。也就是说，本发明能够实现的图像声音通信装置是，能够针对用户不产生图像/声音的不协调感而解除系统时钟的不一致。

以上，针对本发明的图像声音通信装置以及其通信方法利用实施例进行了说明，但是，本发明并不限定于此实施例。本发明可以作为不脱离本发明的主旨的范围内本领域技术人员对本实施例进行所想到的各种变形而得到的实施例来实现，或者，本发明也可以作为组合不同的实施例中的构成要素而得到的实施例来实现。

本发明能够作为图像声音通信装置以及其方法来利用，尤其，能够作为利用大画面的临场感强的图像声音通信装置以及其方法来利用。

符号说明

100 图像声音通信装置

101、301 摄像机/麦克风

102 用户输入

103、303 显示器/扬声器

104 图像声音输入部

105 编码部

106 发送部

108 接收部

109 PTS校正量计算部

110 解码部

111 PTS校正定时判断部

112 PTS校正部

113 图像声音输出部

114 接收缓冲器

115 输出缓冲器

207 网络

300 其他的图像声音通信装置

Claims

1.一种图像声音通信装置，包括:

收发部,经由网络,收发图像以及声音;

定时判断部,根据由所述收发部发送的声音的内容、由所述收发部接收的图像的内容、或由所述收发部接收的声音的内容，判断应更新该接收的图像或接收的声音的显示时间标记的校正量的定时;

显示时间标记校正部,通过在由所述定时判断部所判断的定时,更新该接收的图像或接收的声音的显示时间标记的校正量,从而校正该显示时间标记;以及

图像声音输出部,输出与已被校正的显示时间标记相对应的该接收的图像以及接收的声音，所述已被校正的显示时间标记是所述图像声音通信装置所示出的与当前时刻相对应的显示时间标记,

所述定时判断部，

在由所述收发部接收的图像与在时间上处于该接收的图像之前的图像之间的相关值比预先设定的阈值大的情况下,将所述图像声音输出部输出该接收的图像的定时判断为应更新所述校正量的定时。

2.如权利要求1所述的图像声音通信装置，

所述图像声音通信装置还包括用户输入部,该用户输入部通过用户操作输入用户操作信息,

所述定时判断部,在被输入到所述用户输入部的用户操作信息表示是伴有所述接收的图像的画面配置变更的用户操作的情况下,将伴有该画面配置变更的用户操作的定时判断为应更新所述校正量的定时。

3.如权利要求1所述的图像声音通信装置,

所述定时判断部，

在由所述收发部接收的图像的数据量比预先设定的阈值小的情况下,将所述图像声音输出部输出所述接收的图像的定时判断为应更新所述校正量的定时。

4.如权利要求1所述的图像声音通信装置,

所述定时判断部，

在由所述收发部接收的声音的大小比预先设定的阈值小的情况下,将所述图像声音输出部输出所述接收的声音的定时判断为应更新所述校正量的定时。

5.如权利要求1所述的图像声音通信装置,

所述图像声音通信装置还包括声音输入部，该声音输入部被输入有由所述收发部发送的声音,该声音是利用麦克风拾音的,

所述定时判断部,

在被输入到所述声音输入部的声音的大小比预先设定的阈值大的情况下,将所述图像声音输出部输出被输入的所述声音的定时判断为应更新所述校正量的定时。

6.如权利要求1所述的图像声音通信装置,

所述图像声音通信装置还包括:

缓冲器，暂时存储由所述收发部接收的图像或接收的声音;以及

显示时间标记校正量计算部,监视所述缓冲器的容量的余量,根据该余量计算显示时间标记校正量,

所述显示时间标记校正部,通过对在由所述定时判断部判断的定时的图像或声音的显示时间标记与由所述显示时间标记校正量计算部计算出的显示时间标记校正量进行加法运算,从而对被判断的该定时的图像或声音的显示时间标记进行校正。

7.如权利要求6所述的图像声音通信装置,

所述显示时间标记校正量计算部，在该余量处于单调增加的情况下,计算负值的显示时间标记校正量,在该余量处于单调减少的情况下,计算正值的显示时间标记校正量。

8.一种通信方法，是图像声音通信装置的通信方法,包括:

收发步骤,经由网络,收发图像以及声音;

定时判断步骤,根据在所述收发步骤中发送的声音,或者,根据由所述收发部接收的图像的内容或接收的声音的内容，判断应更新该接收的图像或接收的声音的显示时间标记的校正量的定时;

显示时间标记校正步骤,通过在所述定时判断步骤中所判断的定时,更新该接收的图像或接收的声音的显示时间标记的校正量,从而校正该显示时间标记;以及

图像声音输出步骤,输出与已被校正的显示时间标记相对应的该接收的图像以及接收的声音，所述已被校正的显示时间标记是所述图像声音通信装置所示出的与当前时刻相对应的显示时间标记,

在所述定时判断步骤中，

在所述收发步骤中接收的图像与在时间上处于该接收的图像之前的图像之间的相关值比预先设定的阈值大的情况下,将在所述图像声音输出步骤中输出该接收的图像的定时判断为应更新所述校正量的定时。

9.一种集成电路，是图像声音通信装置的集成电路,包括:

收发部,经由网络,收发图像以及声音;

所述定时判断部，