CN1942962A

CN1942962A - 声音再生装置、声音再生方法和程序

Info

Publication number: CN1942962A
Application number: CNA2005800119734A
Authority: CN
Inventors: 藤本和生; 冈田智之; 片山大朗
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2004-04-06
Filing date: 2005-04-05
Publication date: 2007-04-04
Anticipated expiration: 2025-04-05
Also published as: WO2005098854A1; EP1734527A1; CN100505064C; KR20070003958A; JPWO2005098854A1; KR100762608B1; JP3892478B2; US7877156B2; EP1734527A4; US20080037151A1

Abstract

本发明提供将多个数字声音信号同步再生的声音再生装置。声音再生装置具备同步设定部(11)和声音合成部(6)，所述同步设定部(11)通过在将与每个声音信号相邻的音频再生时刻信息分别表示的再生时刻的差进行保持的状态下，将多个声音信号各自的多个音频再生时刻信息分配到一根时间轴上，来使多个声音信号同步，所述声音合成部(6)利用分配到上述时间轴上的多个音频再生时刻信息对多个声音信号进行合成。

Description

声音再生装置、声音再生方法和程序

技术领域

本发明涉及一种声音再生装置，对被压缩编码的数字声音信号进行再生。

背景技术

近年一种再生装置广泛普及，该再生装置对被压缩并记录到CD-ROM或DVD-ROM、硬盘等各种记录媒介的数字的音频信号及视频信号进行读取并解压，通过自身连接的显示器和扬声器等对解压后的信号进行再生。

并且，对BS数字播放、CS数字播放、地面数字播放等被压缩的数字的音频信号和视频信号进行记录并再生的装置也已经普及。

作为用于将音频信号和视频信号编码成数字信号并压缩，然后解码该信号的已知规格，已知MPEG。MPEG为了在对被多路化并压缩编码的音频信号和视频信号进行译码之后，使音频信号和视频信号同步并进行再生，分别在音频信号和视频信号中附加在编码时执行信号的再生及显示的时刻的信息(以下称为“时刻信息”)并进行压缩。由此，在对被压缩编码的数字音频信号和视频信号进行解压时，再生装置以自身拥有的系统时钟基准参数为基准，参照时刻信息使音频信号和视频信号同步并进行再生。

下面说明现有的再生方法。另外，申请人已知专利文献1中公开的图像及声音的再生方法，为了明确本发明的目的，以专利文献1所公开的再生方法作为现有例进行简单说明。该方法为了再生拍摄时角度不同的第1和第2图像，将与各角度对应的视频信号分别输入不同的动画图像解码单元中进行解码，将被分别解码的图像结合并显示在一个画面中。对于音频信号也一样，通过不同的声音解码单元同时解码多个音频信号并进行再生。

下面用图1说明现有的声音再生方法。图1为表示进行该再生方法的双通道音频译码器183的结构的方框图。参照图1对双通道音频译码器183的具体结构进行说明。双通道音频译码器183中设置有第1音频解码器183a和第2音频解码器183b、以及第1声音选择电路183c和第2声音选择电路183d。例如，在同时对日语和英语的2个音频信号进行再生时，作为日语声音信号的第1音频信号被输入第1音频解码器183a，并在那里被译码。与此同时，作为英语声音信号的第2音频信号被输入第2音频解码器183b，并在那里被译码。

这些被译码的第1和第2音频信号由第1声音选择电路183c和第2声音选择电路183d进行处理。例如，在声音的输出通道为左右各一个通道时，第1和第2音频信号被处理以便使其分别以单声道一个通道一个信号地进行输出。或者被处理以便使只有第1和第2之一的音频信号以双通道立体声进行输出。并且，在声音的输出通道比左右各一个通道多时，第1和第2音频信号被处理以便以立体声与单声道的组合等进行输出。

并且，对于杜比数字式的5+1通道结构的音频数据，第1声音选择电路183c和第2声音选择电路183d对可以输出的5+1通道，可以进行每个电路立体声2通道的输出，也可以只选择一个音频数据的5+1通道并进行输出。

专利文献1：日本特开平10-145735号公报(第10-11页，图4、图8、图9)

专利文献1对通过多个动画图像解码单元对来自多个角度的数据进行解码，并通过图像数据结合单元将这些数据进行结合并显示的方法进行说明。并且，专利文献1对在动画数据中附加不同语言的多个声音数据时，通过多个声音解码单元对各个声音数据进行解码，并将它们混合并再生的方法，以及选择其中之一并进行再生的方法进行说明。

但是，专利文献1对用于混合2种数据的详细的实施方法、和确定再生的同步的方法未作具体的阐述。即使只限定于声音，对再生的2种声音数据的采样速率不同时的混合方法、各声音数据的混合比，如环绕声音和立体声这样的通道数不同的声音数据的混合方法、混合区间、使各声音数据的同步一致的方法，都未作任何说明。

例如，即使想要再生的声音为DVD的多重声音，当第1声音通过杜比数据方式被压缩编码、第2声音通过线性PCM被编码时，为了用采样速率为48KHz、5.1ch的环绕声音混合第1声音，用96KHz、2ch的立体声混合第2声音，需要进行使其与哪个采样速率一致的处理、为了设定混合点的处理。

无论如何，在合成多个数据的声音信号并再生时，需要使多个声音信号同步并再生，但迄今为止不存在实现的方法。

发明内容

本发明有鉴于上述问题，其目的是提供一种声音再生装置，使多个数据的声音信号同步并再生。

本发明的第1声音再生装置为对声音信号进行再生并输出的装置，具备：同步单元，通过在将与每个声音信号相邻的音频再生时刻信息分别表示的再生时刻的差保持的状态下，将多个声音信号各自的多个上述音频再生时刻信息分配到一根时间轴上，由此使上述多个声音信号同步；合成单元，利用分配到上述时间轴上的多个上述音频再生时刻信息，对上述多个声音信号进行合成。如此，由于本发明的声音再生装置将多个声音信号各自的多个音频再生时刻信息分配到一根时间轴上，因此能够使多个数据的声音信号同步并再生。

本发明的第2声音再生装置为如下的装置：上述时间轴为由上述多个声音信号中的任一个声音信号的多个上述音频再生时刻信息所确定的时间轴，并且上述同步单元将另外的声音信号的上述多个音频再生时刻信息，分配到由上述任一个声音信号的上述音频再生时刻信息所确定的时间轴上。如此，通过使其他声音信号的音频再生时刻信息与主声音信号的音频再生时刻信息一致，能够使多个声音同步。

本发明的第3声音再生装置为如下的装置：上述时间轴为由被可变速度再生的上述任一个声音信号的多个上述音频再生时刻信息所确定的时间轴。其作用为：即使在可变速度再生的情况下，通过利用可变速度再生的声音信号的音频再生时刻信息进行译码，能够使多个声音信号同步。

本发明的第4方案的声音再生装置为如下的装置：上述多个声音信号与视频信号被多路化，上述时间轴为由上述视频信号的多个视频再生时刻信息所确定的时间轴，并且上述同步单元将上述多个声音信号各自的上述多个音频再生时刻信息，分配到由上述视频再生时刻信息所确定的时间轴上。其作用为：使声音与再生图像的输出一致，并实现声音同步。

本发明的第5声音再生装置为如下的装置：上述时间轴为由可变速度再生的上述视频信号的视频再生时刻信息所确定的时间轴。其作用为：使根据跳跃再生的图像输出，实现声音相对于跳跃点的再生图像的同步。

本发明的第6声音再生装置为如下的装置：上述时间轴为由可变速度的系统时钟基准参照信号所确定的时间轴。其作用为：通过使作为整个系统的基准的系统时钟基准参照信号可变，并实现图像和声音的同步。

本发明的第7声音再生装置为如下的装置：还具备采样速率改变单元，与上述多个声音信号中的任一个声音信号的采样速率一致，并对其他声音信号的采样速率进行改变，上述合成单元将上述任一个声音信号和被上述采样速率改变单元改变后的上述其他声音信号进行合成。由此，能够进行使多个声音与一个声音的采样速率一致的再生。在内容本身中记录了是主声音、还是解说等副声音的种类时，例如如果与主声音的采样速率一致地再生多个声音，则不管是否有解说等副声音，使用者能够以一定的采样速率听取多个声音。

本发明的第8声音再生装置为如下的装置：上述任一个声音信号为上述多个声音信号中连续的声音再生区间最长的声音信号。存在解说等副声音以对特定的场景的解说等、主声音进行辅助为目的被插入的情况，并假定声音再生区间相对于主声音短。因此，如果选择再生区间长的声音，则能够减少在中途改变采样速率的次数。

本发明的第9声音再生装置为如下的装置：上述任一个声音信号为上述多个声音信号中声音再生区间的间断最少的声音信号。例如在将声音再生区间的间断最少的声音作为主，对具有每个场景都间断的解说再生区间的声音进行再生时，如果进行速率改变以便使间断的声音信号的采样速率与间隔最少的声音信号(包括没有间隔的声音信号)一致，则能够减少在中途改变采样速率的次数。

本发明的第10声音再生装置为如下的装置：上述任一个声音信号为上述多个声音信号中的具有最高采样速率的声音信号。其作用为：使高音质的声音保持不变、提高其他声音的采样速率，并尽量保持音质。

本发明的第11声音再生装置为如下的装置：上述任一个声音信号为上述多个声音信号中具有最低采样速率的声音信号。其作用为：在用于声音输出的传送频带被限制等情况下，通过与低采样速率一致并进行改变，来减少传送声音的数据量。

本发明的第12声音再生装置为如下的装置：上述任一个声音信号为上述多个声音信号中采样速率不变的声音信号。当在中途采样速率被改变时，存在在速率再生的变化点需要声音静噪的情况。其作用为：选择速率没有被改变的一个为主，并保持声音的连续再生。

本发明的第13声音再生装置为如下的装置：还具备输出电平调整单元，在通过将其他的声音信号加到上述多个声音信号中的任一个声音信号中来对上述多个声音信号进行合成时，将上述任一个声音信号的再生输出电平只减掉上述其他声音信号加上的部分。由此，能够强调并听取被加侧的声音。例如，具有在想要集中注意力听合成的解说声音时等，提高解说声音的再生声音电平，降低主声音的再生声音电平的作用。

本发明的第14声音再生装置为如下的装置：在将上述其他的声音信号合成到上述任一个声音信号中时，当使用者将上述其他声音信号的再生输出电平设定得更高时，上述输出电平调整单元将上述任一个声音信号的再生输出电平减掉上述其他声音信号的再生输出电平的增加量。其作用为：防止当增加一个声音并且另一个声音以原样的音量相加时，在加上的声音的一部分产生声音削波等的声音失真，变成非常难听取的声音。

本发明的第15声音再生装置为如下的装置：还具备统合分配单元，根据上述多个声音信号中的任一个声音信号的再生信号通道数，对其他声音信号的再生信号通道数进行统合或分配。其作用为：即使相互的再生信号的再生通道数不同也不会引起声音失真，并实现对特定的声音信号的通道的相加。

本发明的第16声音再生装置为如下的装置：还具备统合分配单元，配合与上述声音再生装置连接的声音输出装置的通道数，对上述各声音信号的再生信号通道数进行统合或分配。其作用为：根据使用者的声音输出装置的通道数(例如连接的扬声器的数量)，对再生信号的通道数进行统合或分配，并实现声音合成。

本发明的第17声音再生装置为如下的装置：上述合并分配单元根据使用者的上述声音输出装置的声音输出规定通道，对上述各声音信号的再生信号通道数进行统合或分配。其作用为：根据使用者的声音输出装置中想要再生的通道数(例如连接扬声器的数量)，对再生信号的通道数进行统合或分配，并实现合成。

并且，本发明能够将本发明的声音再生装置的特征的构成单元，作为成为步骤的声音再生方法来实现，还可以作为在计算机中执行这些步骤的程序来实现。程序可以通过CD-ROM等记录媒介或通信网络等传输媒介进行流通。

本发明能够提供一种声音再生装置，对多个数字的声音信号进行同步并再生。即，本发明的声音再生装置，能够进行采样速率或编码方式不同的多个声音信号的混合、以及在可变速度再生过程中的多个声音信号的同步再生。

附图说明

图1是进行现有的声音再生方法的双通道音频译码器的结构图。

图2是表示实施方式1的图像声音再生装置的结构的方框图。

图3是表示实施方式1的图像和声音的同步再生方法的流程图。

图4是用于说明实施方式的声音再生数据的存储方法的图。

图5是表示实施方式的叠加多个图像的例的图。

图6是表示实施方式的主体图像与解说图像被放映的时间的关系的一例的图。

图7是表示实施方式1和4的将解说图像叠加到主体图像的图像再生装置的结构的方框图。

图8是各实施方式中叠加主声音和副声音的声音再生装置的结构图。

图9是表示主声音的音频再生时刻信息与副声音的音频再生时刻信息的关系的图。

图10是表示将音频再生时刻信息附加到主声音和副声音的声音流中的情况的图。

图11是表示用于说明实施方式1的声音相加方法的相加输出部的结构例的图。

图12是用于说明实施方式1的声音再生装置与外部连接设备的连接的图。

图13是用于说明声音的合并的图。

图14是用于说明声音的分配的图。

图15是用于说明实施方式1的声音再生装置与外部连接设备的连接的图。

图16是表示主声音结束后副声音仍未结束的情况的图。

图17是表示将效果音合成到主声音中的情况的图。

图18是用于说明声音的合成和统合的图。

图19是表示记录了多个声音信号的DVD的图。

图20是表示实施方式2中在可变速度处理前或后将副声音加到主声音中进行声音合成的处理的流程图。

图21是用于说明实施方式2和3的通过音频输出处理单元进行可变速度控制的方法的方框图。

图22是用于说明实施方式2的音频可变速度处理的原理的图。

图23是表示实施方式4的多个图像的同步再生的方法的流程图。

具体实施方式

下面利用附图说明实施本发明的最佳方式。

(实施方式1)

首先，主要参照表示实施方式1的图像声音再生装置的结构的方框图的图2，对实施方式1的图像声音再生装置的结构以及图像再生方法和声音再生方法进行说明。另外，虽然本发明为关于使多个数字声音信号同步并进行再生的技术的发明，但在详细说明该技术之前，对将视频信号和音频信号被多路化后的信号进行再生的技术进行说明。

图2为表示实施方式1的图像声音再生装置的结构的方框图。实施方式1的图像声音再生装置为对视频信号和音频信号被多路化后的信号进行再生的装置，如图2所示，包括：输入部1、视频缓冲部A102、视频缓冲部B103、视频译码部A104、视频译码部B105、图像合成部106、音频缓冲部A2、音频缓冲部B3、音频译码部A4、音频译码部B5和声音合成部6。

视频缓冲部A102、视频缓冲部B103、视频译码部A104、视频译码部B105和图像合成部106为处理视频信号的构成部。音频缓冲部A2、音频缓冲部B3、音频译码部A4、音频译码部B5和声音合成部6为处理音频信号的构成部。

输入部1是对从数据记录装置等(图中未表示)供给的被多路化的音频信号和视频信号进行接受的构成部，该数据记录装置等是对通过各种编码方式编码后的内容、或数字播放等的压缩编码后的数字的音频信号和视频信号进行存储的光盘等。并且，输入部1将被多路化的音频信号和视频信号分离成视频信号和音频信号，并从视频信号中抽出视频再生时刻信息、从音频信号中抽出音频再生时刻信息。在实施方式1中，假设输入到输入部1中的视频信号和音频信号分别为2通道信号。因此，输入部1将被多路化的音频信号和视频信号对每个通道分离成视频信号和音频信号。

下面分别对处理视频信号的视频缓冲部A102、视频缓冲部B103、视频译码部A104、视频译码部B105和图像合成部106进行说明。

视频缓冲部A102为存储由输入部1分离的第1通道的视频信号的构成部。视频缓冲部A102包括：视频再生时刻信息管理部A121，存储第1通道的视频信号中的视频再生时刻信息；和压缩视频缓冲部A122，存储第1通道的视频信号中被压缩的视频数据。视频再生时刻信息管理部A121具有将第1通道的压缩视频数据与视频再生时刻信息建立关联的表。

视频缓冲部B103为存储由输入部1分离的第2通道的视频信号的构成部。视频缓冲部B103包括：视频再生时刻信息管理部B131，存储第2通道的视频信号中的视频再生时刻信息；和压缩视频缓冲部B132，存储第2通道的视频信号中被压缩的视频数据。视频再生时刻信息管理部B131具有将第2通道的压缩视频数据与视频再生时刻信息建立关联的表。

视频译码部A104为对存储在压缩视频缓冲部A122中的第1通道的压缩视频数据的属性信息(视频标题信息)进行解析，并根据存储在视频再生时刻信息管理部A121中的视频再生时刻信息对压缩视频数据进行解压的构成部。视频译码部A104具有存储解压后的视频数据的帧缓冲部A141。

视频译码部B105为对存储在压缩视频缓冲部B132中的第2通道的压缩视频数据的属性信息(视频标题信息)进行解析，并根据存储在视频再生时刻信息管理部B131中的视频再生时刻信息对压缩数据进行解压的构成部。视频译码部B105具有存储解压后的视频数据的帧缓冲部B151。

图像合成部106为将由视频译码部A104和视频译码部B105解压的各视频数据进行合成，并输出给外部的显示部的构成部。

下面分别说明处理音频信号的音频缓冲部A2、音频缓冲部B3、音频译码部A4、音频译码部B5和声音合成部6。

音频缓冲部A2为存储由输入部1分离的第1通道的音频信号的构成部。音频缓冲部A2包括：压缩音频缓冲部A21，存储第1通道的音频信号中被压缩的音频数据；和音频再生时刻信息管理部A22，存储第1通道的音频信号中的音频再生时刻信息。音频再生时刻信息管理部A22具有将第1通道的压缩音频数据与音频再生时刻信息建立关联的表。

音频缓冲部B3为存储由输入部1分离的第2通道的音频信号的构成部。音频缓冲部B3包括：压缩音频缓冲部B31，存储第2通道的音频信号中被压缩的音频数据；和音频再生时刻信息管理部B32，存储第2通道的音频信号中的音频再生时刻信息。音频再生时刻信息管理部B32具有将第2通道的压缩音频数据与音频再生时刻信息建立关联的表。

音频译码部A4为对存储在压缩音频缓冲部A21中的第1通道的压缩音频数据的属性信息(视频标题信息)进行解析，并根据存储在音频再生时刻信息管理部A22中的音频再生时刻信息对压缩音频数据进行解压的构成部。音频译码部A4具有存储解压的音频数据的PCM缓冲部A41。

音频译码部B5为对存储在压缩音频缓冲部B31中的第2通道的压缩音频数据的属性信息(视频标题信息)进行解析，并根据存储在音频再生时刻信息管理部B32中的音频再生时刻信息对压缩音频数据进行解压的构成部。音频译码部B5具有存储解压的音频数据的PCM缓冲部B51。

声音合成部6为将由音频译码部A4和音频译码部B5解压的各音频数据进行合成，并输出给外部的扬声器的构成部。

MPEG为了使视频数据和音频数据同步并进行输出，对视频信号和音频信号中的每个被称为存取单元的解码和再生的单位(视频数据时为每帧，音频数据时为每音频帧)，附加表示何时应该对该单位进行解码及再生的时间戳信息。该时间戳信息称为Presentation TimeStamp(PTS，显示时间戳)，视频用的称为Video PTS(以下称为“VPTS”)，音频用的称为Audio PTS(以下称为“APTS”)。它们表示各视频帧和各音频帧的输出的时刻管理信息。

图像声音再生装置中设置有图2没有表示的系统基准参照部。系统基准参照部为产生MPEG系统的基准解码器内部的系统时刻基准System Time Clock(STC)的构成部。为了制作系统时刻基准STC，系统基准参照部使用在DVD等中所使用的程序流(PS)中所使用的System Clock Reference(SCR：系统时刻基准参数)，或BS数字播放中所使用的传送流(TS)中所使用的Program Clock Reference(PCR：程序时刻基准参数)。在各流的最终字节到达时(读入时)，系统基准参照部将与SCR或PCR所表示的值相同的值设定为系统时刻基准STC，由此设定基准时刻。

另外，通过在图像声音再生装置中设置锁相环(PLL)电路，并使上述系统时刻基准STC值的设定与PLL电路组合，能够使图像声音再生装置具有时钟的频率与基准时刻用系统时钟完全一致的系统时刻基准STC。系统时刻基准STC的系统时钟由27MHz构成。通过用计数器等对系统时刻基准STC进行分频，来被各PTS(90KHz周期)参照。当系统时刻基准STC，在视频数据时与视频再生时刻信息VPTS一致、在音频数据时与音频再生时刻信息APTS一致时，视频译码部A104、视频译码部B105、音频译码部A4和音频译码部B5的各译码器输出各自的存取单元。系统时刻基准STC的精度为90KHz。因此，如果各译码器在该90KHz的精度范围内再生各再生单位，以便使系统时刻基准STC、视频再生时刻信息VPTS和音频再生时刻信息APTS得到同步，则进行得到了AV同步的输出。

图3为AV同步处理的流程图。这里为了简化说明，假定为1通道的视频流和音频流是被多路化的情况(2通道的视频流和音频流被多路化的情况在后面说明)。

在步骤301和步骤302，输入部1将从数据记录装置等输入的编码数据分离成压缩视频数据、视频再生时刻信息VPTS、压缩音频数据和音频再生时刻信息APTS。

压缩视频缓冲部A122存储压缩视频数据，视频再生时刻信息管理部A121存储视频再生时刻信息VPTS(步骤301)。此时，视频再生时刻信息管理部A121存储压缩视频缓冲部A122中的各压缩视频数据的地址和视频再生时刻信息VPTS。

压缩音频缓冲部A21存储压缩音频数据，音频再生时刻信息管理部A22存储音频再生时刻信息APTS(步骤302)。此时，如图4所示，音频再生时刻信息管理部A22以称为时隙的单位对音频再生时刻信息APTS进行分割，并将其与压缩音频缓冲部A21中的各音频数据的地址一起存储。因此，音频再生时刻信息管理部A22中存储有音频再生时刻信息APTS的值、和存储了与其相关的压缩音频数据的地址的指针。

另外，步骤301和步骤302对应于视频信号和音频信号向输入部1输入的先后，被适当改变顺序。

压缩音频缓冲部A21具有在写入数据的最终点之前最新的写入位置移动的写入指针。并且，压缩音频缓冲部A21也具有确定压缩音频数据的读取位置的读取指针，并通过由音频译码部A4读取压缩音频数据来更新读取指针的位置。并且，压缩音频缓冲部A21为如果写入数据一直到最终地址，则写入位置返回最初的地址的环状存储部。因此，在数据被读取的位置之前，能够写入下一个数据，由输入部1使写入指针不超过读取指针，并对压缩音频数据的写入进行管理。

接着，视频译码部A104从压缩视频缓冲部A122获取压缩视频数据，并从视频再生时刻信息管理部A121获取视频再生时刻信息VPTS(步骤303)。音频译码部A4从压缩音频缓冲部A21获取压缩音频数据，并从音频再生时刻信息管理部A22获取音频再生时刻信息APTS(步骤304)。

然后，在视频再生时刻信息VPTS到达系统时刻基准STC之前，视频译码部A104实施视频译码，将译码数据存储到帧缓冲部A141中(步骤305)。同样，在音频再生时刻信息APTS到达系统时刻基准STC之前，音频译码部A4实施音频译码，将译码数据存储到PCM缓冲部A41中(步骤306)。另外，虽然视频译码部A104和音频译码部A4对各数据进行译码，但在译码后不是立即输出译码数据。

然后，音频译码部A4参照系统时刻基准STC，并在音频再生时刻信息APTS与系统时刻基准STC一致的时刻，或者音频再生时刻信息APTS超过系统时刻基准STC的时刻，从PCM缓冲部A41输出与该音频再生时刻信息APTS相关联的音频译码数据(步骤307)。

并且，视频译码部A104参照系统时刻基准STC，在视频再生时刻信息VPTS与系统时钟STC一致的时刻，或者视频再生时刻信息VPTS超过系统时钟STC的时刻，从帧缓冲部A141输出与该视频再生时刻信息VPTS相关联的视频译码数据(步骤308)。

另外，图像声音再生装置也可以从光输出端子将杜比数字等流原样输出。此时，流暂时被存储在流缓冲器(图中未表示)中，并在音频再生时刻信息APTS与系统时刻基准STC一致或超过系统时刻基准STC的时刻，输出与该音频再生时刻信息APTS相关联的音频译码数据。

然后，如果当输入的数据结束、或使用者发出停止再生的指示(步骤309中为Yes)，图像声音再生装置结束译码。另一方面，如果有输入的数据，使用者未发出停止再生的指示(步骤309中为No)，则返回到压缩视频缓冲部A122存储压缩视频数据、并且视频再生时刻信息管理部A121存储视频再生时刻信息VPTS的视频信号存储步骤(步骤301)。

如上所述，图像声音再生装置使视频再生时刻信息VPTS和音频再生时刻信息APTS与系统时刻基准STC同步，并输出视频译码数据和音频译码数据。尤其是如果视频再生时刻信息VPTS在相对于音频再生时刻信息APTS超前50毫秒到滞后30毫秒之间，输出对应的视频译码数据和音频译码数据，则对口形(lip sync)的偏差为不被注意的程度。

至此，对音频和视频各为一个通道的流时的同步再生的方法进行了说明。下面对音频和视频各为2通道时的流的同步再生的方法进行说明。

这里如图5所示，假设一个场景：在同一画面上，利用子画面将内容制作者的解说图像叠加到作为通常的再生图像的主图像上，并将与解说图像相对应的声音(以下称为“副声音”)叠加到与主图像相对应的声音(以下称为“主声音”)上。另外，解说图像为用于解说主图像的图像，例如，当放映作为主图像的风景时，解说者对该风景的地名等进行解说的图像为解说图像。并且，副声音为放映解说图像时输出的对主图像进行解说的声音，并随着解说图像输出。

下面用图6说明主图像和解说图像被放映的时间关系。图6为表示主图像和解说图像被放映的时间关系的一例的图。如图6所示，例如主图像从节目的开始一直被放映到最后，解说图像在节目的途中、以比节目的长度短的规定的时间，被放映多次。并且，副声音在如上所述的解说图像被放映时输出。另外，也存在解说图像的放映时间比主图像的放映时间长的情况。并且，还存在副声音的输出时间比主声音的输出时间长的情况。

下面对将解说图像和副声音叠加到主图像和主声音的方法进行说明。

首先用图7对将解说图像叠加到主图像的方法进行说明。图7为表示将解说图像叠加到主图像的图像再生装置的结构的方框图。

视频译码部A104对主图像的视频数据进行译码，视频译码部B105对解说图像的视频数据进行译码。由视频译码部A104和视频译码部B105译码的各译码数据的同步，由各自的存在于视频流内的视频再生时刻信息VPTS等进行管理。当各视频再生时刻信息VPTS与系统时刻基准STC一致时，如果对由视频译码部A104获得的译码数据和由视频译码部B105获得的译码数据进行输出，则能够使这些译码数据同步并输出。

但是，根据解说图像的种类不同，存在不得不对主图像与解说图像的同步下功夫的情况。例如主图像和解说图像中的一个为从图像素材中获得的、每秒有24帧的图像，另一个为每秒有30帧的图像的情况。在将其用NTSC制式的显像机放映时，图像处理部160改变格式将从图像素材中获得的图像格式改变成每秒有30帧后，放大或缩小2个图像中的一个或两个。然后帧同步部162进行2个图像的帧同步。合成输出部161将一个图像叠加到另一个图像并输出2个图像。由此，主图像和解说图像在获得同步的基础上被叠加显示。

如上所述，由于主图像存在主声音，解说图像存在副声音，因此在将解说图像叠加到主图像时，需要将副声音叠加到主声音。下面用图8对叠加主声音和副声音的声音再生装置进行说明。

图8为表示叠加主声音和副声音的声音再生装置的结构的方框图。在图8所示的声音再生装置中，输入部1将主声音的压缩音频数据和音频再生时刻信息APTS存储到音频缓冲部A2中，并将副声音的压缩音频数据和音频再生时刻信息APTS存储到音频缓冲部B3中。

如图9所示，同步设定部11将副声音的各音频再生时刻信息APTS分配到由主声音的各音频再生时刻信息APTS确定的时间轴T上。主声音的各音频再生时刻信息APTS为附加了“M00”、“M11”、“M20”、“M29”、“M40”及“M52”……的各块。即，同步设定部11将用附加了“S00”、“S09”、“S20”、“S31”或“S40”……的块所表示的副声音的各音频再生时刻信息APTS分配到时间轴T上。此时，同步设定部11保持副声音的相邻的音频再生时刻信息APTS各自的值的差，并将副声音的各音频再生时刻信息APTS分配到时间轴T上。

在图9的例子中，主声音的开头的音频再生时刻信息APTS“M00”与副声音的开头的音频再生时刻信息APTS“S00”之差值为“11”。因此，同步设定部11将副声音的各音频再生时刻信息APTS分配给在副声音的各音频再生时刻信息APTS的值加上值“11”的值中。例如，在将副声音的音频再生时刻信息“S09”分配到时间轴T上时，同步设定部11将音频再生时刻信息“S09”分配给将差值“11”加到该值“09”的值、即值“M20”。由此，在保持副声音的相邻的音频再生时刻信息APTS的各值的差的状态下，副声音的各音频再生时刻信息APTS被分配到时间轴T上。结果，如后所述的，当利用音频再生时刻信息APTS使主声音和副声音被再生时，使主声音和副声音同步并被再生。

当同步设定部11的动作结束时，音频译码部A4对存储在音频缓冲部A2中的主声音压缩音频数据进行译码，并通过参照音频再生时刻信息APTS，在与系统时刻基准STC同步的时间再生声音。另一方面，音频译码部B5对存储在音频缓冲部B3中的副声音的压缩音频数据进行译码，并通过参照音频再生时刻信息APTS，在与系统时刻基准STC同步的时间再生声音。由此，使主声音和副声音同步并被再生。

另外，在图9的例中，主声音的开头的音频再生时刻信息“M00”与副声音的开头音频再生时刻信息“S00”之差值为“11”，该差值被记录在例如流的标题中，并由于解说图像(副声音)的开始时刻被预先规定而产生。上述差可以为“0”。即，主声音和副声音可以同时开始。并且，当由于使用者的遥控器操作等对副声音的起动开始时刻进行了设定时，上述差成为起动开始时刻的主声音的再生时刻信息与主声音的再生时刻信息的差。

接着考虑以下情况。由主声音和副声音的压缩音频编码数据构成的声音流被存储在一个记录媒介(光盘等)中，识别主声音和副声音的标志信息被存储在各音频流的比特流的标题信息内。并且，具有主声音标志的声音流有3种，具有副声音标志的声音流有1种。从杜比数字5.1ch的日语声音、杜比数字5.1ch的英语声音、线性PCM2ch声音中选择主声音并再生。副声音是作者的解说用杜比数字2ch的英语声音被再生。各声音流中存储有音频再生时刻信息APTS。利用者通过选择主声音并选择称为混合再生副声音的菜单，来对主声音和副声音同时再生时的声音进行选择。

另外，可以假设主声音为英语，副声音为日语、法语和德语之一的、存在多个副声音的情况，也可以假设同时存在多个主声音和副声音的情况。

无论哪种情况，使用者选择再生的声音。在对电影等的内容进行再生时，预先将对再生的电影场景的主声音进行识别的标识符、和对电影制作者在制作上的技巧进行解说的副声音进行识别的标识符赋予内容，并可以预先对主声音和副声音进行区别，且使两者同步并再生。由此，使用者能够使主声音和副声音同步并再生。

图10表示主声音为1ch、副声音为3ch时将音频再生时刻信息APTS附加到各声音流的情况。副声音例如为英语声音、日语声音和韩国语声音的声音流。如图10所示，由于各声音流中存储有音频再生时刻信息APTS，因此通过上述的同步设定部11的动作，能够使任一个副声音与主声音同步并再生。

但是，在对多个音频数据进行译码时，由于主声音和副声音的音频编码方式不同，存在各数据的音频帧大小不同的情况。但是，如果在各音频流被附加有音频再生时刻信息APTS，则通过利用系统时刻基准STC和各音频再生时刻信息APTS，能够使主声音和副声音同步并再生。如果是多个音频译码部具有处理的独立性的结构，即使编码方式的不同使音频帧处理单位也不同，也能够使各音频流根据各音频再生时刻信息APTS同步并再生。

并且，存在主声音的采样速率与副声音的采样速率不同的情况。在这种情况下，速率改变部7使一个再生声音信号的采样速率与另一个再生声音信号的采样速率一致的改变。由此，能够使主声音和副声音的采样速率一致并再生。在内容本身中记录有是主声音、还是解说等副声音的种类时，速率改变部7使副声音的采样速率与主声音的采样速率一致。由此，由于不管有无解说声音，都能以一定的采样速率对主声音和副声音进行再生，因此使用者能够没有不适感地听到主声音和副声音。

作为采样速率改变的方法，有利用将数字声音改变成模拟声音的DA变换器和进行相反动作的AD变换器，将数字声音暂时变回模拟声音的方法。并且，有通过使用构成采样速率变换器的半导体电路来改变成希望的采样速率的方法，以及易适用于彼此的采样速率成倍数关系时，通过去掉中间部分或插值来生成速率改变声音的方法等。

下面对在没有记录主声音和副声音的标识符时等，具有成为主要的采样速率的声音信号的选择方法进行说明。作为具有成为主要的采样速率的声音信号的选择方法，有选择连续的声音再生区间比较长的声音信号，并使连续的声音再生区间短的声音信号的采样速率与长的采样速率一致的方法。如图6所示，在作为解说插入以对特定场景的解说等、对主声音进行辅助为目的的副声音时，副声音的声音再生区间比主声音的短。因此，选择再生区间长者作为具有成为主要的采样速率的声音信号，并对再生区间短的信号的采样速率进行改变使其与选择的声音信号的采样速率一致。并且，如图6所示，副声音存在只有特定的场景被再生等、从节目的中途开始并在中途结束的情况。如果选择声音再生时间长者作为具有成为主要的采样速率的声音信号，则相同采样速率的声音被再生的时间变长，由于使用者感到不适的时间变短，因此很好。

作为另外的选择方法，在选择一个声音信号时，选择没有间断的声音再生区间的声音信号，并使具有间断的再生区间的声音信号的采样速率，与没有间断的声音再生区间的声音信号的采样速率一致。在对每个场景都具有间断的解说再生区间的声音信号进行再生时等，对具有间断的声音再生区间的声音信号的采样速率进行改变使其与没有间断的信号一致。

并且，作为其他的选择方法，在选择一个声音信号时，选择具有较高的采样速率声音信号，对具有低采样速率的声音信号的采样速率进行改变使其与高的采样速率一致。即，使高音质的声音信号保持不变，通过对其他声音信号进行提高采样速率等来进行速率改变并进行合成。此时，如果2个声音信号的采样速率比是一个为另一个的倍数关系，则能够简化在速率改变后合成声音的电路。例如，如果一个声音信号的采样速率为96KHz、另一个声音信号的采样速率为48KHz时，或者一个为48KHz、另一个为24KHz时等，由于能够将进行了频率插值的声音信号数据直接相加，因此容易合成。

反之，在选择一个声音信号时，也可以选择具有低采样速率的声音信号，对具有高采样速率的声音信号的采样速率进行改变使其与低采样速率一致。在输出声音的传送频带受限制的情况，或者不需要高音质的再生声音时等使用该方法。例如，当假定通过特定的传送路径传送声音数据的情况等时，通过与低采样速率一致进行改变，可以预计到减少声音数据的传送量的效果。在这种情况下，如果2个声音信号的采样速率比是一个为另一个的倍数关系，则能够简化在速率改变后合成声音的电路。例如，如果一个声音信号的采样速率为96KHz、另一个声音信号的采样速率为48KHz时，或者在一个为48KHz、另一个为24KHz时等，由于能够将进行了频率插值的声音信号的数据直接相加，因此容易合成。

并且，在选择一个声音信号时，选择由采样速率在中途不变的连续的声音再生区间构成的声音信号，对采样速率在中途改变的声音信号的采样速率进行改变使其与没有改变的采样速率一致。在有多个解说、或者主声音也经常改变采样速率的情况下使用该方法。在对压缩音频数据进行译码时，存在在采样速率的改变点需要进行声音降噪(mute)的情况。因此，将速率没有变化的声音信号作为主进行选择时，对声音进行降噪的区间减少，并容易实现声音的连续再生。

根据再生内容的编码方式在中途被改变、或采样速率被变更时的音频译码部的结构，存在必须对译码的编码方式程序或硬件的运算电路的设定进行变更的情况。此时，需要进行音频译码部的初始化处理，并且还需要对与其成对应的存储在压缩音频缓冲部中的压缩音频数据、或读取指针、写入指针等信息进行清除。不仅需要对压缩音频缓冲部进行删除，还需要对音频再生时刻信息管理部的音频再生时刻信息APTS、和保存地址指针的信息进行删除。该音频缓冲信息的清除可以只是改变了编码方式或采样速率。没有被改变的信号通过继续进行连续的压缩音频数据的译码和再生，使用者可以不意识到切换，来欣赏再生的声音。

为了将这些由速率改变部7改变过采样速率的音频数据相加，相加比处理部A8和相加比处理部B9改变再生输出电平。例如，在记录媒介等中，表示对于主声音的解说等副声音的相加比的相加比信息，存储在各音频流或解说等副声音的流的标题信息内。在将解说等副声音合成到主声音内时，相加比处理部A8和相加比处理部B9用根据该相加比信息的值，将主声音和副声音中的一个或两个乘以相加比，将主声音和副声音进行合成。例如，相加比处理部A8和相加比处理部B9降低主声音和副声音双方的输出电平到原声音的0.7倍等并相加。

通常，根据相加比信息，进行各声音乘以相加比的声音的再生，但也有想要强调解说等副声音的情况。

作为第1方法，在被分别译码的声音中的任意的一个声音中合成另一个声音时，将上述任意一个声音的再生输出电平只减去合成另一个声音的部分并将两声音合成，在不合成另一个声音的部分不减去上述任意一个声音的再生输出电平。例如，在将再生输出电平设为一定值“1”并对2个声音进行合成时，将被加数侧的声音的再生输出电平从一定值“1”减至“0.6”，使加数侧的声音的再生输出电平为“0.4”，确保整个再生输出电平为一定值“1”。此时，能够强调被加数侧的声音并听取。例如，当想要合成的声音为解说声音时，在想要注意听取解说时等，则提高解说声音的再生声音电平，并降低主声音的再生声音电平。

作为第2种方法，对应于使用者想要任意地设定再生声音电平使其比规定值高或低的情况，当使用者想要将上述另一个声音的电平设定得更高时，在任意一个原声音合成另一个声音的部分，将上述任意一个原声音的输出电平减掉与另一个声音的增加量相对应的量。其原因是，使另一个声音增加并直接将其音量加到一个声音上时，相加后的声音的一部分中产生超出再生动态范围的信号成分，产生削波等声音失真，有可能成为非常难听到的声音。相反，在降低副声音的输出电平时，只要相对地提高主声音的相加比就可以。

当速率改变部7改变采样速率、相加比处理部A8和相加比处理部B9进行相加比处理时，相加输出部10合成声音。此时，存在各声音的再生通道数不同的情况。图11表示相加输出部10的结构例(为了简化图省略了速率改变部7)。在根据上述任意一个声音的再生信号通道数并进行了相加比处理后，相加输出部10对另一个声音的再生信号通道数进行统合或分配来进行合成。

例如，将解说等副声音加到主声音中的相加通道信息，存储到各音频流或者解说流的标题信息内，并将其记录到记录媒介等中。在将解说等副声音合成到主声音中时，相加输出部10用根据该相加通道信息的值合成声音。例如，相加输出部10将副声音合成到主声音的中心通道中。

作为相加通道信息，可以假设有：各相加通道的混合电平或通道匹配、对特定通道的相加限制信息等的相加通道信息、或者采样速率、各通道的采样字节数、压缩流的数据率等。并且，如果有相加通道信息和相加音量系数表等详细的相加比信息，则副声音将输出电平下降到0.7倍等加到主声音的右前通道中，并将输出电平下降到0.7倍等加到左前通道中。

并且，在具有相加通道信息能够从多种模式中进行选择的信息时，例如由音频译码部A4再生的声音为5.1ch、由音频译码部B5再生的声音为单声道1ch时，将由音频译码部B5再生的声音作为被加入方，预先设置向使用者显示选择分支的界面，(第1)仅中央通道、(第2)右前通道和左前通道的2个通道、(第3)中央通道和超重低音(サブウ-ハ)通道、(第4)右前和左前以及超重低音通道等，让使用者选择被加入方。由此，能够以对应于使用者所希望的通道的相加比，改变各通道的输出增益后，实现规定通道的合成。当然，在主声音和副声音的通道数相同，使用者没有指定相加通道时，可以将各通道相加。并且，在根据使用者的要求，想要进行对有相加通道的副声音的音量进行增加等的改变时，必须调节的混合电平以便使主声音不产生削波。此时，不仅要进行对相加通道的主声音的增益进行减小等的改变，还要考虑到与其他的主声音通道的平衡，根据需要改变其他通道的相加比。如果增大副声音的音量，就降低主声音的音量，如果降低副声音的音量，就增大主声音的音量，为此，优选能够根据使用者的要求灵活地设定相加比。

在现有例的专利文献1中，对于再生通道不同时的同时再生有若干说明。对于将第1声音作为单声道输出给右前通道，将第2声音作为单声道输出给左前通道的错开一个通道输出，或者将第1和第2声音之一的声音以立体声2ch输出具有说明。并且在5.1ch的情况下，对将第1声音以立体声2ch、第2声音以立体声2ch输出的设定，或者将第1和第2声音之一的声音以5.1ch输出的情况有说明，但这些不是将第1声音和第2声音合成并输出，而是同时从不同的扬声器输出的情况的说明。对于将多个声音合成为从同一个扬声器输出的声音的方法没有详细的说明。并且，对于多个声音的同步方法也没有详细的说明。

并且在本发明中，在解说等副声音的通道数多于主声音的通道数时，向使用者显示对将多个通道合并到主声音的哪个通道中等进行设定的选择分支，受理使用者的选择，并根据该选择对在相加部中执行没有削波的声音的相加的相加比进行设定。相加比的设定通过如下实现：首先将削波的通道设定为不进行削波的值，然后，根据与设定了相加比的通道的输出相对的电平再次设定其他通道的相加比。当然，也可以设置使用者设定每个通道的相加比的结构。因此，各相加比处理部根据再生通道的数量进行相加。

当改变相加值是按使用者的指令进行时，如果暂停再生并将声音降噪、并进行改变相加系数等处理，则能够在改变途中不会产生异音等，并实现相加值的变更。如果设置检测部，用于将相加比乘到译码声音中并在合成并输出之前检查削波，则通过相加比处理部A8和相加比处理部B9自动地变更相加值，能够再次变更相加比，并重新进行合成以便不引起削波，并防止异音的产生。并且，对应于上述检测部发现削波时预先设置改变相加系数的处理部，以便使声音输出电平逐渐变小并成为不会引起削波的电平。

并且，操作声音的合成有被与声音再生装置相连的外部连接设备的结构所决定的情况。例如假设图12所示的外部音响设备92被连接在声音再生装置上的情况。由于外部音响设备92的结构，存在即使原来的再生内容有5.1ch时，但连接的扬声器只有3个通道的情况。在这样的情况下，对应于外部音响设备92的通道数，对上述任意一个声音信号的通道数进行统合或分配，并且对其他声音信号的通道数进行统合或分配来进行合成。

并且，存在使用者改变再生输出的通道数的情况。在这种情况下，如果采用如下的结构，使外部音响设备92或声音再生装置内的输出部的设定对应于使用者的声音输出规定通道，并对上述任意一个声音的再生信号通道数进行统合或分配，并且对其他的声音的再生信号通道数进行统合或分配并进行合成，则使用者通过对声音输出的全部或一部分进行设定，声音再生装置能够自动地设定相加处理所必需的相加值。

下面用图13对主声音的再生内容为5.1ch，副声音的再生内容为2ch，连接的扬声器只有3个声道时的声音的合并的一例进行说明。在上述合并的一例中，如图13所示，将主声音的SL通道和副声音的FL通道加到主声音的L通道，并使其从第1扬声器输出。并且，将主声音的SR通道和副声音的FR通道加到主声音的R通道，并使其从第2扬声器输出。并且，将主声音的SL通道和主声音的SR通道加到主声音的C通道，并使其从第3扬声器输出。或者，使主声音的L通道从第1扬声器输出。并且，使主声音的R通道从第2扬声器输出。并且，将副声音的FL通道和副声音的FR通道加到主声音的C通道，并使其从第3扬声器输出。

并且，也可以使加上副声音的通道进行时间的改变。例如，可以随着时间的推移使相加的通道改变，以便将副声音之一的通道或2个通道最初只加到主声音的L通道中，然后加到主声音的L通道和主声音的C通道，接着只加到主声音的C通道，再接着加到主声音的C通道和主声音的R通道，最后只加到主声音的R通道。如此，叠加声音成为听起来是从视听者的左方向右方进行空间移动。

下面用图14对主声音和副声音的再生内容分别为2ch，连接扬声器为6通道时的声音的分配的一例进行说明。如图14所示，在上述分配的一例中，通过变换器将主声音的L通道和R通道改变成6通道后，(1)将副声音的L通道加到改变后的主声音的FL通道，并使其从第1扬声器输出；(2)将副声音的R通道加到改变后的主声音的FR通道，并使其从第2扬声器输出；(3)将副声音的L通道加到改变后的主声音的SL通道，并使其从第三扬声器输出；(4)将副声音的R通道加到改变后的主声音的SR通道，并使其从第4扬声器输出；(5)从第5扬声器输出改变后的主声音的C通道；(6)加上改变后的主声音的SUB通道并使其从第6扬声器输出。

并且，如图12所示，如果结构是，在声音再生装置上连接外部图像设备91或外部音响设备92，声音再生装置通过对外部连接设备的设备ID等确定对方设备的信息进行识别，来获得能够输出的扬声器的数量的信息，并获得合成主声音和副声音的通道的设定信息，并在可变速度再生时对各输出处理前后的相加的选择进行选择，则更提高方便性。

例如，如果声音再生装置采用的结构是，接受识别对方侧输出设备的设备种类的ID编号等，并参照主体内或条件设定用的存储卡内的表设定各种设定条件，则即使使用者不操作声音再生装置也能够根据能够输出的通道数合成主声音和副声音。

为了获得对方设备的信息，通过被称为High-DefinitionMultimedia Interface(HDMI，高清晰多媒体接口)的规格等连接设备。图15表示用HDMI连接的2个设备的结构。图15中表示了信号源侧设备81、接收侧设备82、发送AV数据86的发送机83、接收AV数据的接收机84、发送称为电源接通或通道控制的指令的命令总线88、交换设备固有信息的总线87、存储设备固有信息的ROM85。在HDMI中，通过进行信号源(source)侧的设备81与接收侧(sink)设备82能够互相连接的认证手续，信号源侧设备81以适当的AV数据格式向接收侧设备82发送AV数据。此时发送设备固有的信息数据。如果作为信号源侧设备81的声音再生装置，通过该方法获得外部图像设备91或外部音响设备92的设备固有信息，则能够获取合成通道数的限制或合成图像格式的限制等信息并改变设定。如果采用声音再生装置将这些获得的信息作为缺省设定值保存的结构，则只要设备连接不变，在何时都能以相同的状态欣赏AV。如果存在连接设备的ID等的改变，则只要接收此时对方设备的信息改变设定就可以。

通过对各PCM缓冲部中存储的PCM数据进行合成并输出来进行主声音和副声音的合成输出。通过从声音再生装置中自带的音频DAC、或者根据IEC60958等数字音频接口规格的光纤数字电缆输出该PCM数据，能够将PCM数据传送给外部音响设备92并进行再生。并且，也可以通过对合成主声音和副声音并制作的PCM数据实施音频编码，改变成道比尔方式等的数字编码数据，并用光纤数字电缆或HDMI电缆等、且按压缩编码流的IEC61937规格等的音频数据接口规格，输出给外部连接设备。

作为这些外部连接设备，假设为TV等监视器输出设备、音频输出放大器、具有AV选择功能的AV放大器等接口设备、便携式输出设备、车载用AV再生设备等。

相加输出部10对被各相加比处理部进行过相加比处理的音频数据，以相同的采样速率进行不会引起声音削波的声音输出。并且，在改变采样速率时或改变相加比时等不能保持声音的连续性时，还分担实施声音的降噪处理等的处理。

如图8所示，声音合成部6由速率改变部7、相加比处理部A8、相加比处理部B9和相加输出部10构成。对速率改变部7仅位于音频译码部B5侧时的情况进行了说明，但速率改变部7也可以位于音频译码部A4侧，或者位于音频译码部A4侧和音频译码部B5侧。并且，说明过合成2个声音时的情况，但也可以是如下结构：具有对3个以上的压缩音频数据进行译码的各译码部并进行合成。

并且，如果采用的结构是，使作为整个系统的基准的系统时刻基准本身可变，并使系统时刻基准参照信号的基准值的更新为可变，则通过对根据基准值信息进行同步再生的多个声音信号的音频再生时刻信息集中进行译码，能够取得彼此的同步。

副声音用的压缩音频数据的编码数据流并不仅限于从一个记录媒介提供，也存在从通过网络连接的设备输入的情况。并且，也存在从与记录主声音的记录媒介不同的记录媒介提供的情况。存在双方从通过网络连接的外部设备下载并再生的情况。并且，还存在预先记录到设备固有的半导体或硬盘装置等记录装置中、或者作为初始设定被记录的情况。无论哪种情况，如果为了确保主声音和副声音的同步再生而将彼此的声音再生时刻信息进行关联，则能够同步再生。如果没有进行关联，则即使同时进行再生也不需要将再生时刻信息集中进行再生。

并且，被输入的流并不仅限于记录到如DVD的记录媒介的流、或接收数字播放信号并记录的流。也可以是将来自外部的模拟信号进行数字编码并编码了的流。在编码时，通过附加音频再生时刻信息APTS或视频再生时刻信息VPTS，可以在再生时分离AV同步。并且，对与最初的再生声音同步了的其他的音频流进行编码，并参照最初存在的音频流的音频再生时刻信息附加音频再生时刻信息，由此可以构成实现后期配音()再生的系统。

并且，在图6中，解说图像在比主图像的长度短的规定的期间被放映多次。但是，如图16所示，解说图像存在从主图像的中途开始，并在主图像结束后还未结束的情况。随之，副声音在主声音结束后也未结束(参照图16的“SB”部分)。此时，在主图像结束之前，副声音按主声音的音频再生时刻信息APTS与主声音同步并再生。当主声音结束时，副声音也可以(1)按系统时刻基准STC再生；(2)对主声音结束后的音频再生时刻信息APTS进行预测，并按预测的主声音的音频再生时刻信息APTS再生；或者(3)按副声音的音频再生时刻信息APTS再生。并且，当主图像结束时，解说图像也可以放大并显示。

并且，如图17所示，效果音(例如蜂鸣声)也可以被合成到主声音。当效果音的信号中包含音频再生时刻信息APTS时，效果音也可以作为副声音来处理，并通过利用该音频再生时刻信息APTS，效果音与主声音和副声音进行同步并再生。当效果音的信号中不包含音频再生时刻信息APTS时，如果将与效果音的开始再生时刻相应的主声音的音频再生时刻信息APTS定义为效果音的音频再生时刻信息，则同样能够同步再生。

并且，如图18所示，在将2ch的副声音合成到6ch的主声音中时，(1)将副声音左前(FL)ch的信号加到主声音的左(L)ch的信号和中央(C)ch的信号中；(2)将副声音的右前(FR)ch的信号加到主声音的右(R)ch的信号和中央(C)加到ch的信号中。由此，即使主声音和副声音的通道数不同，也能够合成主声音和副声音。该合成时刻的声音信号为5.1ch的信号。当由于输出扬声器的限制等必须将该5.1ch的信号合并成为3ch时，即在“TL”、“TR”和“TC”的3ch进行输出时，主声音的信号，例如将合成声音的“L”和“SL”合并到合并声音的“TL”，合成声音的“R”和“SR”合并到合并声音的“TR”，合成声音的“C”和“SUB”合并到合并声音的“TC”的3ch中。

并且，当能够合成的多个声音信号被记录到DVD中时，如图19所示，DVD500中也可以记录多个声音数据501和附属数据501。附属数据为确定各声音信号的通道数、编码方式、采样速率、声音再生区间等的信息。并且，附属数据也可以包含相加比信号信息或相加通道信息。并且还可以包含确定副声音的开始时间的信息。由此，声音再生装置能够容易地进行合成或统合多个声音。

即使当声音数据501和附属数据502被从网络下载并存储到装置内的硬盘等存储部中时，也能够与上述一样对多个声音信号进行合成并再生。

(实施方式2)

下面主要参照表示实施方式2的声音再生装置的结构的方框图的图8对实施方式2的声音再生装置的结构及声音再生方法进行说明。

实施方式1中对以系统时刻基准STC为基准来实现多个声音和多个图像的AV同步的方法进行了说明。在实施方式2中，作为AV同步的方法，声音再生装置从输入的压缩音频数据中分离出多个声音信号，并读取各自的音频再生时刻信息，根据一个声音信号的音频再生时刻信息实施主声音信号的译码，并使另一个声音信号的音频再生时刻信息与上述主声音信号的音频再生时刻信息一致并进行译码，由此获取互相的同步。

至此已对以正常再生速度的声音合成、和同步的方法进行了说明，下面对高速再生(例如2倍速度再生)等的可变速度再生时的声音合成、和同步方法进行说明。

当音频译码器具有正常再生速度处理以上的处理能力时，并且具有进行可变速度的声音输出的再生处理的能力时，通过根据对一个声音信号的音频译码进行了可变速度处理的、再生时的音频再生时刻信息，使另一个声音信号的音频再生时刻信息与基础音频再生时刻信息一致并进行译码，能够得到互相的同步。

图20为表示在音频译码处理后对是在可变速度处理前还是在之后将副声音加到主声音中进行选择、并进行声音合成并再生的处理的流程图。在步骤306将音频译码的结果存储到PCM缓冲部中。在步骤331选择音频合成处理的前或后。判断基准将在后面说明。

选择音频合成处理前时(步骤331为Yes)，在步骤332中如果主声音的音频再生时刻信息与解说副声音的音频再生时刻信息一致(在允许输出时刻差以内，例如数十ms以内为一致)，则将解说等副声音加到主声音中，并在步骤333中进行音频可变速度处理。另一方面，选择音频合成处理后时(步骤331中为No)，在步骤334中对主声音进行音频可变速度处理，然后在步骤335中将副声音加到主声音中。在步骤307中使将副声音加到主声音中后的声音与视频的输出的同步一致并进行输出。

图21为用于说明进行实施方式2的音频输出处理部61的可变速度控制的方法的方框图。下面详细对进行图22所示的再生速度改变功能时的可变速度控制的例进行说明。

在图21中，来自PCM缓冲部A41的声音信号被输入可变速度处理部62，实施以下说明的可变速度处理。然后，声音信号暂时被存储在输出缓冲部63中，并被输出给声音合成部6。

实现可变速度再生的方法有几种。第1，反复进行正常速度再生和跳跃再生的方法；第2，实际进行高速译码处理的方法。

首先对第1的反复进行正常再生和跳跃(skip)再生的方法进行说明。基本上为切除跳过了读出位置的部分，并只进行没有被跳跃的部分的再生的跳跃再生处理。例如，在实施2倍速度再生时，不是对所有的音频帧进行再生，而是在音频输出部内的可变速度处理部62中，制作跳过特定的音频帧并再生的音频数据，以便使在音频输出改变处理后的再生时间变为一半，并保存到输出缓冲部63中。然后，获取与再生的音频帧部分相应的音频再生时刻信息APTS值。

另一方面，在视频输出部中，为了获取同步信息、并对与该音频再生时刻信息APTS相对应的视频进行输出，跳过特定帧的显示并进行AV同步。即，通过对与以音频帧处理单位跳跃再生时的音频再生时刻信息APTS进行了同步的视频显示进行实施，实现可变速度再生时的AV同步。

并且，作为另外的方法还有在输入部1预先跳跃并读取的方法。由于向输入部1中只输入进行了跳跃的流，因此通过从被输入的流中对系统时刻基准STC等的系统基准时刻信息、音频再生时刻信息APTS和视频再生时刻信息VPTS进行读取，来实现同步。这与正常再生的AV同步方法相同。但是，通过在进行了0.5秒到数秒左右的再生后再进行跳跃，实现作为整体的高速的再生。

接着对为了进行可变速度处理通过正常再生速度处理以上的处理能力进行音频译码处理时的情况进行说明。在上述音频译码处理后加上另外的译码声音，所有能够实施上述可变速度处理。例如，由于在将解说等副声音加到主声音中以后，通过音频输出处理部61实施可变速度处理，所有加上的声音也能够进行与译码声音的可变速度处理同步的声音输出。

另外，也可以在上述可变速度处理后将副声音加到主声音中。由于在通过音频输出处理部61实施可变速度处理后将副声音加到主声音中，因此即使译码声音被可变速度处理，加上的副声音也能够以正常的声音速度相加。

首先对高速译码处理时的同步再生方法进行说明。输入部1读取正常再生所需要的输入速度以上的数据，并在分离成视频流和音频流后，将流存储到各缓冲部中。由此，多个视频译码部和多个音频译码部起动。各译码器以正常的再生速度以上的高速(与再生速度无关，有效利用被给予的资源)实施译码，并将译码结果存储到各帧缓冲部、各PCM缓冲部中。

为了进行可变速度处理，音频译码器的处理能力需要正常再生速度处理能力以上的处理能力。例如，为了保持1.3倍左右的再生速度，优选有比再生速度高的1.5倍左右的译码处理能力。这不单是译码处理性能，从再生媒介中读出的处理性能、或传输处理性能也需要同样的能力。

译码被高速进行，存储在PCM缓冲部等中的音频数据被如下处理。在图22中，上侧是表示可变速度处理前的正常速度的再生的数据，下侧是表示可变速度处理后的高速再生的数据。上侧是表示在T1时间对6音频帧(1音频帧为10多ms左右)进行正常再生的情况。而下侧是表示将第1个和第2个音频帧的再生叠加进行，并作为结果在T1的6分之5的时间的T2内对6音频帧进行了再生的情况。将压缩比定义为处理后的时间长度除以处理前的时间长度的值时，则速度比为压缩比的倒数。因此，此处成为以5分之6倍(1.2倍)的高速再生。

通过使此时叠加的音频帧的再生的一个淡出，并使一个淡入来实现重合。设两者是以正常再生速度的叠加。在除此以外的不叠加的音频帧中为正常速度再生。由于称为高速再生的也全部是以正常再生速度的再生，因此原音的音调没有改变。因此，能够实现可以听取自然的声音的可变速度再生。

存在由于主声音与副声音之间音频编码方式或采样速率不同等，使音频帧的大小不同的情况。在可变速度再生时，当音频帧的大小不同时，不需要完全地得到两者的同步。如果进行再生以便使双方具有相同的速度比，并在某个区分较好的一定再生时间内取得同步，则作为结果能够实现两者的同步。

如果对如此的在音频输出处理部61中的可变速度控制进行实施，并设置选择部，该选择部对在上述音频译码处理后加上另外的译码声音并实施上述可变速度处理，还是在上述可变速度处理后对另外的译码声音进行相加处理进行选择，则加上的数据声音也能够以与原来的声音没有区别的音调进行再生。

另外，主再生声音与副声音的同步是如此前已说明过。当相加之前获取同步时，以最初对所有的音频帧所算出的PTS为基准，参照其他声音的PTS进行相加即可。另外当在可变速后进行附加声音相加时，音频帧的叠加部分的PTS可以预先确定叠加的哪个音频帧的PTS为有效的规则。

并且，在对副声音侧提供了完全没有音频再生时刻信息的流时，或者在忽略再生时刻信息同时进行再生时，由于基本上没有与主声音的同步关系，因此声音再生装置只要进行再生以便保持当时再生的主声音的再生的连续性就可以。此时的采样速率的改变、相加值的改变和输出通道的改变等用与以前的实施方式相同的方法实施就可以。

如本实施方式2，尤其是在音频的可变速度再生中，如果使用作为音频的再生基准时刻的音频再生时刻信息APTS，则容易进行AV同步再生。

并且，关于多个图像或多个声音的同步，预先设置判断再生流的内容的判断部，作为用于再生合成的相加的选择单元。根据由上述判断部所获得的结果，能够在再生时对音频输出处理的前或后进行选择，作为加上从数据中抽出的声音信息的时刻，或者对视频输出处理的前或后进行选择，作为加上从数据中抽出的文本或文字信息的时刻并进行再生。

例如，能够根据再生内容进行如下选择：是如同卡拉OK字幕实施音频和视频同步的各输出处理好，还是如同紧急临时播放(没有同步性)在实施了各输出处理后输出文字信息好。

预先设置作为相加选择部的选择部，该选择部从使用者的指示内容选择内容的再生处理内容。根据由上述选择部得到的结果，能够对音频输出处理的前或后进行选择，作为加上从数据中抽出的声音信息的时刻，或者对视频输出处理的前或后进行选择，作为加上从数据中抽出的文本或文字信息的时刻并进行再生。

例如，能够根据使用者的指示进行相加选择，该相加指示是在可变速度处理前加上声音信号和文字信息，还是在可变速度处理后加上声音信号和文字信息。

为了决定进行相加的时刻，预先设置判断部，对再生的流的内容和使用者的使用用途进行判断。根据由上述判断部得到的结果，能够在再生时对音频输出处理的前或后进行选择，作为加上从数据中抽出的声音信息的时刻，或者对视频输出处理的前或后进行选择，作为加上从数据中抽出的文本或文字信息的时刻并进行再生。

例如，即使是卡拉OK内容，也能够根据使用者的指示对除内容外再加上使用者的指示内容的向各输出处理的前后的相加进行选择，该指示内容为，是在可变速度处理中在可变速度处理前加上声音信息和文字信息、还是在只使音调改变的音调变化处理中在音调变化处理之后加上声音信息和文字信息。

(实施方式3)

下面主要参照表示实施方式3的声音再生装置的结构的方框图的图8、和表示进行可变速度控制的音频输出处理部的结构的图21，对实施方式3的声音再生装置的结构和声音再生方法进行说明。

音频输出处理部61并不是限于进行可变速度再生处理。例如也可以进行对译码后的声音的音高进行改变的处理。在接收数字播放信号并记录，至少将音频被编码的流进行确保时刻同步并再生时，在音频译码处理后，根据同步信息对在音频合成处理之前或后进行选择并加上从数据中抽出的声音信息并进行再生。如此，例如在将副声音加到主声音中后，能够通过音频输出处理使原声音的音程高低改变，或是通过音频合成处理在使原来的主声音的音程高低改变后加上副声音，由此来对被加上的声音信号的输出的方式进行改变。

并且，音频输出处理部61还能够实施除此以外的加了各种环绕效果的音响效果处理。能够进行是在加了副声音后实施环绕效果，或是在施加了环绕效果后加上副声音的改变。结果，能够改变副声音的扩张感、及扬声器的输出处。此外，音频输出处理部61还可以进行考虑了图像处理和音响处理之间的同步处理延迟的延迟设定效果等。为在通过声音再生装置能够对连接的图像设备和音响设备的输出延迟进行设定时，能够对是在实施延迟之前加上副声音、还是在延迟以后加上副声音进行设定。

(实施方式4)

下面主要参照表示实施方式4的图像再生装置和声音再生装置的结构的方框图的图7和图8，以及表示实施方式4的多个图像的同步再生方法的流程图的图23对实施方式4的图像再生装置和声音再生装置的结构、以及图像再生方法和声音再生方法进行说明。

此前已经对根据音频再生时刻信息APTS使多个声音信号的同步一致的方法进行了说明。下面对根据视频再生时刻信息VPTS使多个声音信号的同步一致的方法进行说明。

该方法是使各声音信号的音频再生时刻信息，与主视频信号的视频再生时刻信息一致并进行译码，由此获得彼此的同步。图23为表示在视频译码部A104进行译码处理后，视频译码部B105根据同步信息对在视频输出处理的前和后进行选择，并对译码后的图像信息进行图像合成并进行再生的处理的流程图。在步骤305中，视频译码的结果存储到帧缓冲部A141中。在步骤351中，对是在视频合成后跳跃还是在合成之前跳跃进行选择。

在合成之后跳跃时(步骤351中为Yes)，视频译码部B105将译码的结果存储到帧缓冲部B151中(步骤405)。然后，在步骤352中，如果视频译码部A104的再生时刻信息与视频译码部B105的再生时刻信息一致(在允许输出时刻差以内，例如在33ms以内为一致)，则在使译码图像重合后，在步骤353中进行图像跳跃输出处理。

而在合成之前跳跃时(步骤351中为No)，在步骤354中，在通过图像跳跃处理进行跳跃后，在步骤355中使与视频译码部A104的再生时刻信息一致的视频译码部B105的再生时刻信息的译码图像重合。然后在步骤308中与音频输出进行同步并输出图像。

因此，在一个视频译码处理后，根据另一个视频译码时的同步信息对是在视频输出处理的前和后进行选择并进行图像合成且再生。例如，在将另一个图像加到译码图像中后，能够对加上的图像的输出的方式进行改变，上述方式为，是通过图像跳跃处理使一个图像和另一个图像进行同步并输出，还是在通过图像跳跃处理进行跳跃后加上另一个译码图像。

并且，也可以与图23所示的处理不同，在对视频合成处理的前和后进行判定后，暂时实施视频跳跃处理，并将另一个译码图像加到与显示的视频再生时刻信息VPTS一致的图像中。即，视频合成处理之前的时刻信息一致的相加为，实施视频跳跃处理，并只选择再生时刻信息与显示的视频的视频再生时刻信息VPTS一致的译码图像，并进行相加、显示。而视频合成处理后的时刻信息一致的相加为，在实施视频跳跃处理之后，不依据显示的视频的视频再生时刻信息VPTS，进行译码图像的相加并显示。此时，在实施了视频跳跃处理后，能够实施处理，该处理为与显示的一个视频译码再生时刻信息无关，使另一个视频译码的再生图像重合。

该跳跃处理与只再生I图像、并对P图像和B图像进行跳跃处理的高速I再生，或者只跳过B图像的IP再生等相当。这些处理通过是由输入部1舍弃B图像的数据、或者在译码后舍弃等，来使B图像不进行再生。因此，不需要B图像的图像再生用的再生时刻信息。因此，在伴有跳跃等的高速再生时，最终输出的图像的再生时刻信息为有效。

在由图像合成部106将来自各帧缓冲部的输出进行相加后，视频输出相加结果。在跳跃处理中，当没有与输出的视频帧的视频再生时刻信息VPTS相对应的解说等的副图像数据时，不进行相加处理，并等待直到位于下一个数据的同步的帧输出时刻。在NTSC制式的情况下，由于1秒中输出约30幅图像，因此各PTS的时间差为33ms左右。当以视频再生时刻信息VPTS为基准时，如果在正负16.5ms以内，则判定为同步并进行图像等的叠加处理。另外，主音频数据与解说等副声音的PCM缓冲部的声音合成也可以用相同的原理实现同步。如果这些是1音频帧单位十几ms(根据音频压缩方式的不同几ms到几十ms)精度以内的差，则判定为同步，并生成合成声音即可。

另外，在没有同步所需的图像或声音的时刻信息时，如果参照当时出现的画面或发出的声音的PTS值，将该PTS值换算成再生时刻信息，并作为使视频数据与音频数据同步的时间来设定，则能够通过与正常的同步再生相同的方法进行数据合成。

这里假定为编辑了录像节目时等，以图像为主体进行了无间隙编辑的情况。此时，编辑后的图像是连续无中断的，但声音有中断的情况多。这是用MPEG进行编辑的特征，是图像和声音不是用完全相同的方式同时编码而造成的。因此，如果以图像为主体，则不保持声音的连续性，如果以声音为主体则不保持图像的连续性。因此在进行以图像为主体的无隙再生时，优选以视频再生时刻信息VPTS为基准，再生声音以便使对应的音频再生时刻信息APTS与该视频再生时刻信息VPTS一致并进行同步。

而在进行以声音为主体的无隙编辑时的无隙再生时，优选以音频再生时刻信息APTS为基准，进行同步以便使具有对应的视频再生时刻信息VPTS的图像的再生与该音频再生时刻信息APTS一致。

在无隙再生时，为了尽可能保持两者的连续性来进行无隙再生，有以下方法。首先，以图像为主体进行无隙编辑。在一个音频译码部A4，对连接点前的图像进行声音的再生，直到无隙连接点之前的最后的再生时刻。接着，在另外的音频译码部B5，用与下一个无隙连接点的最初的图像的再生时刻相对应的音频进行译码，并进行准备以便能够在同步的时刻输出声音。然后根据图像的无隙再生的视频再生时刻信息，进行切换两个译码声音的再生即可。根据需要对声音实施衰减处理，不容易产生由于连接点前后的相位的不同产生的异音。在进行该无隙再生时，当只重视主声音的连续再生时，如果采用禁止副声音的合成并停止副声音用的音频译码处理的结构，则能够将多个音频译码部用于主声音的无隙再生。如果设置3个音频译码部，则预先确保一个为副声音的译码用，其他的能够作为主声音的译码用和无隙处理用。如果再有一个音频译码部，则能将副声音也确保为无隙用，并且使副声音也能进行无隙再生。

而当在视频译码后用图像合成部106合成图像时，如果设置图像处理部160，则在译码后对放大缩小合成画面等的输出大小的改变进行设定时，当合成子画面时，能够对是在缩小后合成子画面、还是切出特定部分并进行放大进行选择。还可以进行原画面的局部放大或缩小等选择。此外，还假定实施如下改变，从与输出电视监视器一致的高分辨率向低分辨率的改变、或者相反的分辨率格式改变(从480I标准分辨率向1080I高画质分辨率改变等)、信箱与侧面板的输出格式的改变、NTSC制式与PAL制式之间的频率格式改变等的各种格式改变、从隔行扫描画质到逐行进画质的IP改变等。这些顺序并不局限于该例的顺序。并且，格式改变也有可能同时进行多种格式改变(分辨率格式和输出格式等)。另外，在合成2个图像时，当一个为NTSC制式的图像、另一个为PAL制式的图像，或者一个为标准画质图像、另一个为高画质图像时等，如果预先使两者的格式一致，则容易进行合成。

并且，为了贴附并显示有助于使用者操作该图像的GUI画面等，还希望这些重合的图像以适合于GUI画面的菜单配置的画面大小进行合成的情况。例如，如果采用如下结构：使主图像显示在背景画面中，再通过子画面将解说图像叠加在其上，并在其上叠加各种画面设定用的透明菜单画面，则使用者容易对根据设定菜单的图像效果进行确认。

并且，在美国的播放制式中，字幕称为闭合字幕信号，通过使用者通过操作遥控器，可以用规格决定进行显示或非显示的切换。因此，在用于本发明的实施方式时，优选根据使用者的指示进行各输出处理的相加的选择、和显示的选择。而且，即使在伴随有使字幕文字等在纵向或横向滚动、或者擦除等的各种显示效果时，如果能够对各种输出处理的前后进行选择，则即使在快放时也消除了漏掉重要的信息、或者当没有确认字幕的全部显示时就不放映下一幅画面的显示这样的麻烦。作为这样的字幕或字幕的类似例，不仅有美国的闭合字幕，还有欧洲的图文电视等。

并且，当从卫星数字播放的数据播放中，可以分别进行字幕数据和声音数据的再生的选择时，例如，能够进行如下设定：将从数据播放中的流数据中抽出的声音信息在音频输出处理之前相加，并将文字信息在视频输出处理后相加等，可以对各信息进行分别相加。

如果设置判断部，对这些流的再生内容的种类或内容进行判断，则在再生时，能够根据由上述判断部得到的结果对音频输出处理之前或后进行选择、并对从数据中抽出的声音信息进行再生，或者对是在视频输出处理之前或后进行选择、并对从数据中抽出的文本或文字信息进行再生。因此，不必确定输入或再生媒介，就能够用相同的再生方法应对。

如果采用的结构是能够根据音频和视频输出处理的功能的不同，进行相加的前后的选择，则能够应对在画面放大后追加子画面，并实施可变速度处理的多个输出处理。

并且，如果采用的结构是，除了副声音以外还能够选择是在音频输出处理之前或后加上蜂鸣等附加音、用于相加多个记录声音的后期配音、将卡拉OK等的麦克回声加到伴奏音的麦克回声声音，则能够获得与上述相同的效果。此外，通过采用除子画面外还能够选择在视频输出处理之前或后加上字幕或文字叠印、个人在编辑时想要插入的文字或图像等这样的结构，由此能够获得相同的效果。这一点能够通过搭载专用的音频运算元件或数字信号处理器(DSP)、或者使用高性能的CPU来实现。

另外，虽然对输入数据为从外部输入的数据、或从外部记录媒介输入的数据进行了说明，但也可以是预先存储在设备内的数据。

至此，对输入部1将输入数据分离成视频信号和音频信号时的情况进行了说明。但视频信号和音频信号也可以是预先分离的文件数据。如果采用的结构是，将与压缩视频数据关联的再生时刻信息、压缩音频数据和再生时刻信息作为输入，能够利用各再生时刻信息使再生压缩视频数据和压缩音频数据同步并再生，则能够构成实施本发明的声音再生方法的声音再生装置。这一点作为在个人计算机上编辑摄像机等拍摄的信号的结果，无论是AV和数据混合的文件、还是AV数据独立的文件，都能适用于得到将与压缩视频数据相关的再生时刻信息、压缩音频数据和再生时刻信息、文件上的数据信息互相建立关联获得同步并进行再生的所有情况。

作为该数据再生方法及装置的应用例有：机顶盒、数字卫星播放接收机及其记录设备、DVD播放器或DVD录像机、VCD的相关设备、硬盘录像机、个人计算机等。通过制作本发明的声音再生方法产生的AV再生节目，能够将外部的动作节目载入个人计算机等，合成声音或图像并执行AV同步动作。

另外，图2所示的各构成部的一部分或全部也可以通过一个集成电路(集成芯片)来实现。并且，图7所示的各构成部的一部分或全部也可以通过一个集成电路(集成芯片)来实现。图8所示的各构成部的一部分或全部也可以通过一个集成电路(集成芯片)来实现。图12所示的各构成部的一部分或全部也可以通过一个集成电路(集成芯片)来实现。而且图21所示的各构成部的一部分或全部也可以通过一个集成电路(集成芯片)来实现。

本发明的声音再生方法和声音再生装置，通过使用根据编码后的多个数字声音信号的同步信号，即使编码方式不同也改变采样速率等、来混合多个声音信号的单元，由此其可以用于，不停止主声音和主图像的再生、插入并再生补充主声音和主图像的内容的解说等副声音或副图像。

Claims

1.一种声音再生装置，对声音信号进行再生并输出，其特征在于，具备：

同步单元，通过在将与每个声音信号相邻的音频再生时刻信息分别表示的再生时刻的差进行保持的状态下，将多个声音信号各自的多个上述音频再生时刻信息分配到一根时间轴上，由此使上述多个声音信号同步；

合成单元，利用分配到上述时间轴上的多个上述音频再生时刻信息，对上述多个声音信号进行合成。

2.如权利要求1所述的声音再生装置，其特征在于，

上述时间轴为根据上述多个声音信号中的任一个声音信号的多个上述音频再生时刻信息所确定的时间轴，

上述同步单元将另外的声音信号的上述多个音频再生时刻信息，分配到根据上述任一个声音信号的上述音频再生时刻信息所确定的时间轴上。

3.如权利要求2所述的声音再生装置，其特征在于，

上述时间轴为根据被可变速度再生的上述任一个声音信号的多个上述音频再生时刻信息所确定的时间轴。

4.如权利要求1所述的声音再生装置，其特征在于，

上述多个声音信号与视频信号被多路化，

上述时间轴为根据上述视频信号的多个视频再生时刻信息所确定的时间轴，

上述同步单元将上述多个声音信号各自的上述多个音频再生时刻信息分配到根据上述视频再生时刻信息所确定的时间轴上。

5.如权利要求4所述的声音再生装置，其特征在于，

上述时间轴为根据被可变速度再生的上述视频信号的视频再生时刻信息所确定的时间轴。

6.如权利要求1所述的声音再生装置，其特征在于，

上述时间轴为根据可变速度的系统时刻基准参照信号所确定的时间轴。

7.如权利要求1所述的声音再生装置，其特征在于，

还具备采样速率改变单元，使其他声音信号的采样速率与上述多个声音信号中的任一个声音信号的采样速率一致并对其进行改变，

上述合成单元将上述任一个声音信号和被上述采样速率改变单元改变后的上述其他声音信号进行合成。

8.如权利要求7所述的声音再生装置，其特征在于，

上述任一个声音信号为上述多个声音信号中连续的声音再生区间最长的声音信号。

9.如权利要求7所述的声音再生装置，其特征在于，

上述任一个声音信号为上述多个声音信号中声音再生区间中的间断最少的声音信号。

10.如权利要求7所述的声音再生装置，其特征在于，

上述任一个声音信号为上述多个声音信号中具有最高采样速率的声音信号。

11.如权利要求7所述的声音再生装置，其特征在于，

上述任一个声音信号为上述多个声音信号中具有最低采样速率的声音信号。

12.如权利要求7所述的声音再生装置，其特征在于，

上述任一个声音信号为上述多个声音信号中采样速率不变的声音信号。

13.如权利要求1所述的声音再生装置，其特征在于，

还具备输出电平调整单元，在通过将其他的声音信号加到上述多个声音信号中的任一个声音信号中，对上述多个声音信号进行合成时，将上述任一个声音信号的再生输出电平只减掉加上上述其他的声音信号的部分。

14.如权利要求13所述的声音再生装置，其特征在于，

在将上述其他的声音信号合成到上述任一个声音信号中时，当使用者将上述其他的声音信号的再生输出电平设定得较高时，上述输出电平调整单元将上述任一个声音信号的再生输出电平，减掉上述其他的声音信号的再生输出电平的增加量。

15.如权利要求1所述的声音再生装置，其特征在于，

还具备统合分配单元，根据上述多个声音信号中的任一个声音信号的再生信号通道数，对其他的声音信号的再生信号通道数进行统合或分配。

16.如权利要求1所述的声音再生装置，其特征在于，

还具备统合分配单元，根据与上述声音再生装置连接的声音输出装置的通道数，对各上述声音信号的再生信号通道数进行统合或分配。

17.如权利要求16所述的声音再生装置，其特征在于，

上述合并分配单元根据使用者的上述声音输出装置的声音输出指定通道，对上述各声音信号的再生信号通道数进行统合或分配。

18.一种声音再生方法，对声音信号进行再生并输出，其特征在于，包含：

同步步骤，通过在将与每个声音信号相邻的音频再生时刻信息分别表示的再生时刻的差进行保持的状态下，将多个声音信号各自的多个上述音频再生时刻信息分配到一根时间轴上，由此使上述多个声音信号同步；

合成步骤，利用分配到上述时间轴上的多个上述音频再生时刻信息，对上述多个声音信号进行合成。

19.一种程序，对声音信号进行再生并输出，其特征在于，在计算机中运行：