CN105393547B

CN105393547B - 发送方法、接收方法、发送装置及接收装置

Info

Publication number: CN105393547B
Application number: CN201480028426.6A
Authority: CN
Inventors: 远间正真; 井口贺敬; 西孝启; 加藤久也
Original assignee: Sun Patent Trust Inc
Current assignee: Sun Patent Trust Inc
Priority date: 2013-07-19
Filing date: 2014-07-17
Publication date: 2019-01-15
Anticipated expiration: 2034-07-17
Also published as: US11064243B2; JP7307239B2; CN105393547A; EP3024244A1; US20230336810A1; JP2019176503A; CN109905725A; US20230396830A1; EP3024244A4; JP2021119697A; US20200045360A1; JP7100175B2; US11770577B2; JP2023115315A; JP6878503B2; US10484734B2; US20210306698A1; JP2022121617A; CN109905725B; EP3024244B1

Abstract

本发明的一个方式的发送方法，包括影像控制信息发送步骤，发送用于再现能够单独再现的单位的影像数据的影像控制信息；影像数据发送步骤，发送所述影像数据；声音控制信息发送步骤，将用于再现与所述影像数据的再现区间对应的再现区间的声音数据的声音控制信息的发送顺序决定为所述影像控制信息之后，并以决定的所述发送顺序发送所述声音控制信息；以及声音数据发送步骤，发送所述声音数据。由此，能够减小接收到数据起到影像及声音被再现为止的延迟时间。

Description

发送方法、接收方法、发送装置及接收装置

技术领域

本发明涉及发送方法、接收方法、发送方法及接收装置。

背景技术

现在，正在探讨通过MPEG-DASH(Dynamic Adaptive Streaming over HTTP)或MMT(MPEG Media Transport)等格式，将音频以及视频等编码数据进行段化，通过将得到的段(segment)进行分割而打包，将得到的包通过广播或通信等发送的技术。

例如，非专利文献1中公开了按照MMT，将编码后的媒体数据按每个包发送的技术。

现有技术文献

非专利文献

非专利文献1:Information technology-High efficiency coding and mediadelivery in heterogeneous environment-Part1：MPEG media transport(MMT)，ISO/IECDIS 23008-1

发明内容

本发明的一个方式的发送方法包括：影像控制信息发送步骤，发送用于再现能够单独再现的单位的影像数据的影像控制信息；影像数据发送步骤，发送所述影像数据；声音控制信息发送步骤，将用于再现与所述影像数据的再现区间对应的再现区间的声音数据的声音控制信息的发送顺序决定为所述影像控制信息之后，以决定的所述发送顺序发送所述声音控制信息；以及声音数据发送步骤，发送所述声音数据。

另外，这些整体性的或具体的方式既可以通过系统、方法、集成电路、计算机程序或计算机可读取的CD-ROM等记录介质实现，也可以通过系统、方法、集成电路、计算机程序以及记录介质的任意的组合实现。

由此，本发明能够提供可减少在接收装置中接收数据起到影像以及声音被再现之前的延迟时间的发送方法或接收方法。

附图说明

图1是表示MP4文件的结构例的图。

图2是表示MMT数据的结构例的图。

图3是表示能够开始MMT数据的解码的音频样本的图。

图4是表示能够开始MPEG-2TS的解码的音频样本的图。

图5是表示实施方式1的发送数据的结构例的图。

图6是表示实施方式1的数据的发送顺序的图。

图7是实施方式1的发送装置的框图。

图8是实施方式1的发送处理的流程图。

图9是实施方式1的发送处理的流程图。

图10是表示实施方式2的发送数据的结构例的图。

图11是实施方式2的发送装置的框图。

图12是实施方式2的发送处理的流程图。

图13是表示实施方式3的发送数据的结构例的图。

图14是表示实施方式3的发送数据的结构例的图。

图15是实施方式3的发送装置的框图。

图16是实施方式3的发送处理的流程图。

图17是实施方式4的接收装置的框图。

图18是实施方式4的接收处理的流程图。

图19是实施方式5的接收装置的框图。

图20是实施方式5的接收处理的流程图。

图21是实施方式5的接收处理的其他例的流程图。

具体实施方式

(本发明的基础知识)

各段由头部和编码数据的存放部构成。接收装置从编码数据分离访问单元(在DASH以及MMT等以MP4为基础的格式中，称为样本)。此外，接收装置为了取得访问单元的PTS(Presentation Time Stamp)以及DTS(Decoding Time Stamp)，需要进行头部的解析。

在此，以往的广播中，将视频以及音频按每个访问单元打包，复用到MPEG-2TS(Transport Stream)来发送。因此，接收装置能够以包单位进行访问单元的分离、以及PTS以及DTS的取得。

另一方面，在如DASH以及MMT等那样将段打包而发送的情况下，接收装置在随机访问时也需要取得段的头。因此，在接收装置从段的中途开始接收信号的情况下，该接收装置不能将该段的访问单元解码。因此，接收装置能够解码的是从下一个段开始。像这样，本发明者发现在随机访问中存在解码开始前的延迟时间增大的问题。

以下，参照图1～图4说明将构成MMT的MPU(Media Processing Unit)进行包复用的以往的方法中的、随机访问时的问题。

首先，说明以往的MP4中的视频以及音频数据的存放方法、以及作为以MP4为基础的传送格式的MMT中的数据存放例。

图1是表示MP4中的数据存放例的图。如图1所示，MP4文件包含多个MP4片段(Fragment)。各MP4片段包含一对moof和mdat。Mdat包含交替配置的多个视频样本和多个音频样本。

一般而言，MP4片段被用作随机访问点，存放构成视频的随机访问单位(称为RAU：Random Access Unit)的样本。音频能够从任意的样本解码，存放与视频的随机访问单位的再现区间对应的样本。

例如，若设视频的随机访问单位的再现区间为从10秒到11秒的1秒钟，则作为对应的音频样本，存放从10秒到11秒的1秒钟的样本。

在此，根据视频的帧速率以及音频的采样频率，有两者的再现区间不严格地一致的情况。在该情况下，例如选择从具有视频的再现区间的开头样本的PTS的紧前的PTS的音频的样本到具有视频的再现区间的最终样本的再现结束时刻的紧前的再现结束时刻的音频的样本。

图2是表示数据向MMT中的MPU的存放例的图。与图1的情况同样，以视频与音频的MPU的再现区间相等的方式生成MPU。

在视频以及音频的样本的解码中，需要该样本所属的MPU的头(moof等)的解析。

图3是表示将如图2所示的MMT数据在MMT包等中包复用而发送时的随机访问中的问题的图。该图3表示存放在MMT包中而被发送的视频以及音频的数据的排列(发送顺序)。在此，关于视频，从视频样本V4起开始RAU。也就是说，视频能够从视频样本V4起进行解码。

此外，在此，音频的第N个MPU#N从音频样本A1开始，MPU#N+1从音频样本A10开始。此外，具有视频样本V4的PTS的紧后的PTS的音频样本为音频样本A2。

在这种情况下，当接收装置从视频样本V4起开始接收时，由于尚未取得音频的MPU#N的头，因此无法将该MPU#N中包含的音频样本A2以及A3等进行解码。因此，接收装置中能够解码音频的是作为MPU#N+1的开头样本的音频样本A10开始。

另一方面，在作为传送格式而使用MPEG-2TS(Transport Stream)的以往的TS中，接收装置从视频的随机访问点的紧后开始的音频的访问单元起进行了解码。例如，如图4所示，在以与图3相同的排列接收到数据的情况下，接收装置能够从音频样本A2起解码音频。

如以上那样，在通过广播或通信等发送将视频以及音频进而复用而得到的MMT的流的情况下，存在有时接收装置从视频的随机访问点起开始解码到能够开始音频的再现之前的延迟时间变长的问题。

在此，关于视频，存在仅能以RAU单位开始再现的限制。因此，关于视频的数据，在影像被显示之前存在某种程度的延迟时间是没有办法的。另一方面，音频尽管能够从任意的样本开始进行再现，但在如上述的情形中，在开始再现之前发生延迟时间。像这样，本发明者发现以下问题：接收装置尽管接收能够再现的数据，但由于没有接收到该数据的控制信息，因此无法再现该数据。

本发明的一个方式的发送方法，包括：影像控制信息发送步骤，发送用于再现能够单独再现的单位的影像数据的影像控制信息；影像数据发送步骤，发送所述影像数据；声音控制信息发送步骤，将用于再现与所述影像数据的再现区间对应的再现区间的声音数据的声音控制信息的发送顺序决定为所述影像控制信息之后，以决定的所述发送顺序发送所述声音控制信息；以及声音数据发送步骤，发送所述声音数据。

由此，该发送方法将声音数据的声音控制信息在与该声音数据对应的影像数据的影像控制信息之后发送。由此，接收装置在随机访问时在能够开始视频的解码的时刻能够将音频也开始解码。因此，接收装置开始声音数据的解码之前的延迟时间减小。此外，将声音的段不细分也可以，因此还能够减少开销。

例如，所述声音数据包含分别能够单独再现的多个声音样本，所述声音控制信息包含表示所述多个声音样本各自的再现开始时刻的时刻信息。

例如，所述声音数据的所述再现区间与所述影像数据的所述再现区间大致相等。

例如，所述声音数据发送步骤中，将所述声音数据分割为分别包含多个声音样本中的一个的多个包而发送，所述多个包分别包含表示该包为所述多个包中的第几个包的次序信息。

由此，接收装置在不能接收声音控制信息的情况下，也能够计算各声音样本的再现开始时刻，使用计算出的再现开始时刻将声音样本进行再现。因此，接收装置开始声音数据的解码之前的延迟时间减小。

例如，所述影像数据是通过将影像信号进行分割而得到的多个影像数据的一个，所述声音数据是通过将声音信号进行分割而得到的多个声音数据的一个，所述声音数据的再现时间比所述影像数据的再现时间短。

由此，接收装置开始声音数据的解码之前的延迟时间减小。

例如，所述多个声音数据包含与所述多个影像数据各自的再现开始时刻大致相等的再现开始时刻的多个声音数据。

此外，本发明的一个方式的接收方法接收通过上述的发送方法发送的所述影像控制信息、所述影像数据、所述声音控制信息以及所述声音数据。

由此，接收装置在随机访问时在能够开始视频的解码的时刻能够将音频也开始解码。因此，接收装置开始声音数据的解码之前的延迟时间减小。

例如，一种接收方法，接收通过上述的发送方法发送的所述影像控制信息、所述影像数据、所述声音控制信息以及所述声音数据，包括：再现开始时刻取得步骤，取得所述多个声音样本之中的最初被再现的声音样本的再现开始时刻即开头再现开始时刻；再现时间取得步骤，取得所述多个声音样本各自的再现时间；以及判定步骤，使用所述开头再现开始时刻、所述再现时间、以及处理对象的所述包中包含的所述次序信息，判定该处理对象的所述包中包含的所述声音样本的再现开始时刻。

此外，本发明的一个方式的发送装置，具备：影像控制信息发送部，发送用于再现能够单独再现的单位的影像数据的影像控制信息；影像数据发送部，发送所述影像数据；声音控制信息发送部，将用于再现与所述影像数据的再现区间对应的再现区间的声音数据的声音控制信息的发送顺序决定为所述影像控制信息之后，以决定的所述发送顺序发送所述声音控制信息；以及声音数据发送部，发送所述声音数据。

由此，该发送装置将声音数据的声音控制信息在与该声音数据对应的影像数据的影像控制信息之后发送。由此，接收装置在随机访问时在能够开始视频的解码的时刻能够将音频也开始解码。因此，接收装置开始声音数据的解码之前的延迟时间减小。此外，将声音的段不细分也可以，因此还能够减少开销。

此外，本发明的一个方式的接收装置接收通过上述的发送装置发送的所述影像控制信息、所述影像数据、所述声音控制信息以及所述声音数据。

由此，该接收装置在随机访问时在能够开始视频的解码的时刻能够将音频也开始解码。因此，接收装置开始声音数据的解码之前的延迟时间减小。

另外，这些包括性的或具体的方式既可以通过系统、方法、集成电路、计算机程序或者计算机可读取的CD-ROM等记录介质实现，也可以通过系统、方法、集成电路、计算机程序以及记录介质的任意的组合实现。

以下，参照附图对实施方式进行具体的说明。

另外，以下说明的实施方式都表示本发明的一具体例。以下的实施方式中示出的数值、形状、材料、构成要素、构成要素的配置位置以及连接形态、步骤、步骤的顺序等是一例，并不是要限定本发明。此外，关于以下的实施方式中的构成要素之中的、表示最上位概念的独立权利要求中没有记载的构成要素，作为任意的构成要素来进行说明。

(实施方式1)

以下，说明本实施方式的发送方法以及发送装置。本实施方式的发送方法中，在将视频的MPU的MPU头进行存放的MMT包之后，发送将具有与该视频的MPU相同的再现区间的音频的MPU的MPU头进行存放的MMT包。

由此，接收装置在随机访问时在能够开始视频的解码的时刻能够将音频也开始解码。因此，能够减小接收装置开始音频的解码之前的延迟时间。此外，将音频的段不细分也可以，因此还能够减少开销。

首先，对本实施方式的发送方法中的数据构造进行说明。

图5是表示本实施方式的MPU的结构的图。如图5所示，MMT数据包含多个视频MPU(V_MPU)和多个音频MPU(A_MPU)。

各MPU(视频MPU以及音频MPU)包含MPU头和MPU有效载荷。MPU头包含MPU元数据(ftyp、mmpu以及moov等)和FRG元数据(moof以及mdat等movie fragment单位的头)。此外，MPU头包含表示MPU元数据中包含的多个样本各自的PTS以及DTS的至少一方的信息。

另外，以下将视频MPU的MPU头称为视频MPU头，将视频MPU的MPU有效载荷称为视频MPU有效载荷。此外，将音频MPU的MPU头称为音频MPU头，将音频MPU的MPU有效载荷称为音频MPU有效载荷。

例如，多个音频MPU分别与多个视频MPU的一个对应。图5中，将对应的视频MPU和音频MPU表示为V_MPU#n(n为自然数)以及A_MPU#n。此外，对应的音频MPU和视频MPU例如具有相同的再现区间。

另外，根据视频的帧速率或音频的采样频率，有两者的再现区间不严格地一致的情况。此时，例如，作为与视频MPU对应的音频MPU，选择具有从视频MPU的再现区间的开头样本的PTS的紧前的PTS的音频的样本到具有视频MPU的再现区间的最终样本的再现结束时刻的紧前的再现结束时刻的音频的样本。另外，作为与视频MPU对应的音频MPU，也可以选择从具有视频MPU的再现区间的开头样本的PTS的紧后的PTS的样本到具有视频MPU的再现区间的最终样本的再现结束时刻的紧后的再现结束时刻的样本。

也就是说，对应的视频MPU和音频MPU具有大致相同的再现区间。换而言之，对应的视频MPU和音频MPU的再现区间的至少一部分重复。

图6是表示本实施方式中的MTT包的发送顺序(复用顺序)的一例。

视频MPU有效载荷包含多个视频样本(访问单元)V1～V8。视频MPU被分割为多个MMT包(以下，还称为视频MMT包)。多个视频MMT包包含存放视频MPU头的包(V_MPU(n)_H)、和存放视频MPU有效载荷中包含的多个视频样本的多个包(V_MPU(n)_P)。多个包(V_MPU(n)_P)中将多个视频样本(V1～V8)分割而存放。

音频MPU有效载荷包含多个音频样本(访问单元)A1～A10。音频MPU被分割为多个MMT包(以下，还称为音频MMT包)。多个音频MMT包包含存放音频MPU头的包(A_MPU(n)_H)、和存放音频MPU有效载荷中包含的多个音频样本的多个包(A_MPU(n)_P)。多个包(A_MPU(n)_P)中将多个音频样本(A1～A10)分割而存放。

本实施方式中，如图6所示，在存放视频MPU的MPU头的MMT包V_MPU(n)_H之后，发送存放与该视频MPU对应的音频MPU的MPU头的MMT包V_MPU(n)_H。

在此，在视频的编码中，RAU的开头的访问单元(MP4中的样本)的编码量通常比后续的访问单元大。另一方面，关于音频，访问单元的编码量的偏差比视频少。因此，尤其在以固定速率发送将音频以及视频的编码数据进行复用而得到的包序列的情况下，关于视频的RAU的开头访问单元，为了保证在解码时刻之前将访问单元的全部数据接收完，在较早的时刻起开始送出。因而，在MMT中与MPEG-2TS(Transport Stream)同样规定了如STD(SystemTarget Decoder：系统目标解码器)那样的系统解码器模型的情况下，也能够在存放第n个视频MPU头的MMT包之后，发送存放第n个音频MPU的头的MMT包，并且满足系统解码器模型。

以下，对本实施方式的发送装置的结构及其动作进行说明。

图7是本实施方式的发送装置100的框图。图7所示的发送装置100具备MPU生成部101和包复用部102。包复用部102具备视频头判定部111、音频头判定部112以及复用部113。

图8是本实施方式的发送处理(复用处理)的流程图。

MPU生成部101通过将所输入的视频信号以及音频信号进行分割，生成多个视频MPU以及多个音频MPU。

接着，包复用部102将视频MPU以及音频MPU进行复用。

具体而言，首先，视频头判定部111判定存放第n个视频MPU即V_MPU(n)的MPU头的MMT包的发送顺序(VH_LOC)是否已决定(S101)。

在VH_LOC已决定的情况下(S101中是)，音频头判定部112决定发送顺序，以使存放第n个音频MPU即A_MPU(n)的MPU头的MMT包在VH__LOC之后被发送(S102)。

接着，复用部113将音频MPU以及视频MPU的数据存放到MMT包，通过将包进行复用而生成发送流(S103)。另外，此时，复用部113将存放音频MPU头的MMT包按照在步骤S102中决定的发送顺序发送。也就是说，复用部113将存放第n个音频MPU即A_MPU(n)的MPU头的MMT包在存放第n个视频MPU即V_MPU(n)的MPU头的MMT包之后发送。

另一方面，VH_LOC没有决定的情况下(S101中否)，复用部113将音频MPU以及视频MPU的数据存放到MMT包，通过将包进行复用而生成发送流(S103)。

此外，将上述的一系列的处理重复进行，直到发送全部的MMT包(S104)。

另外，在此，发送装置100以视频MPU头的MMT包为基准，以发送顺序成为该MMT包之后的方式决定音频MPU头的MMT包的发送顺序，但也能够以音频MPU头的MMT包为基准，以发送顺序成为该MMT包之前的方式决定视频MPU头的MMT包的发送顺序。换而言之，复用部113也可以将存放第n个视频MPU即V_MPU(n)的MPU头的MMT包在存放第n个音频MPU即A_MPU(n)的MPU头的MMT包之前发送。

另外，上述说明中，发送装置100将各MPU中包含的MPU头和MPU有效载荷复用到单一的流来发送，但也可以将MPU头(或MPU头中包含的信息的一部分)作为与复用了MPU有效载荷的流不同的信号来发送。在该情况下，发送装置100也在该不同信号中将音频MPU头在与该音频MPU头对应的视频MPU头之后发送。

此外，也可以是，发送装置100在不发送MPU头而仅发送MPU有效载荷的情况下也使音频MPU和视频MPU的再现区间一致。由此，被同步再现的视频MPU和音频MPU的索引号成为相同。在MMT的传送中，将每个MPU的PTS以及DTS的绝对值提供给接收装置。因此，通过使被同步再现的视频MPU和音频MPU的索引号相同，能够减少接收装置中的、对具有与开始再现的视频的访问单元的PTS对应的PTS的音频的访问单元进行搜索的处理的处理量。

如以上那样，本实施方式的发送装置100进行图9所示的处理。

首先，发送装置100发送用于再现能够单独再现的单位(RAU单位)的影像数据(视频MPU)的影像控制信息(视频MPU头)(S121)。

接着，发送装置100发送上述能够单独再现的单位(RAU单位)的影像数据(视频MPU)(S122)。

接着，发送装置100将用于再现与上述影像数据的再现区间对应的再现区间的声音数据(音频MPU)的声音控制信息(音频MPU头)在发送上述影像控制信息之后发送(S123)。也就是说，发送装置100将用于再现与上述影像数据的再现区间对应的再现区间的声音数据(音频MPU)的声音控制信息(音频MPU头)的发送顺序决定为上述影像控制信息之后，并以所决定的发送顺序发送声音控制信息。换而言之，发送装置100将声音控制信息的发送顺序决定为声音控制信息的发送顺序不成为上述影像控制信息之前，并以所决定的发送顺序发送声音控制信息。由此，总是在影像控制信息之后发送声音控制信息。换而言之，发送装置100禁止在影像控制信息之前发送声音控制信息。

接着，发送装置100发送上述声音数据(S124)。

例如，上述声音数据包含分别能够单独再现的多个声音样本。此外，声音控制信息包含表示多个声音样本各自的再现开始时刻的时刻信息(PTS)。此外，声音数据的再现区间与影像数据的再现区间大致相等。

由此，本实施方式的发送装置100在将段进行包复用而发送时，将音频的段(MPU)的头在段的开头PTS与该音频的段一致的视频的段的头之后发送。由此，接收装置在随机访问时在能够开始视频的解码的时刻还能够开始音频的解码。因此，从视频的解码开始到音频的解码开始之前的延迟时间减小。此外，由于不需要将音频的段进行细分，因此还能够减少开销。

(实施方式2)

本实施方式中，发送装置生成接收装置能够基于音频的样本数据中包含的信息等而决定音频样本的PTS的流。由此，接收装置在不能取得音频MPU头的情况下也能够再现音频样本。

例如，通过使用本实施方式的方法，在图3所示的情形中，接收装置也能够从音频样本A2起开始解码。

图10是表示本实施方式的音频MPU的结构的图。

如图10所示，在存放音频样本的多个MMT包(A_MPU(n)_P1～AMPU(n)_P8)各自中存放一个音频样本(A1～A8的某一个)。也就是说，多个MMT包与多个音频样本一对一对应。

此外，各MMT包包含头和存放音频样本的数据的有效载荷。该头包含片段SN。片段SN是将MPU分割而得到的单位(片段)的索引号。也就是说，片段SN表示该片段(包)在MPU内为第几个片段。此外，本实施方式中，在一个片段(包)存放一个音频样本，因此该片段SN表示该片段中包含的音频样本在MPU内的解码顺序。

另外，存放音频样本的MMT包中不包含MPU头。

此外，开始解码的音频MPU中的开头样本的PTS(Presentation Time Stamp)通过MMT消息等另行发送至接收装置。

例如，在广播的选台后开始解码的情况下，在选台时取得的MMT的PA消息等中示出在选台后的一定期间中发送的MPU的开头样本的PTS。

此外，样本数据中包含表示采样频率的信息。例如，在MPEG-2以及MPEG-4的AAC的ADTS(Audio Data Transport Stream)方式中，在ADTS头中包含表示采样频率以及频道构成的信息。

此外，在将AAC的ADTS以及LATM(Low-overhead MPEG-4 Audio TransportMultiplex)存放到MP4时，有时从样本数据中删除ADTS头等的头信息，将头信息存放到moov的stsd。在该情况下，既可以将表示在AAC的样本数据中是否包含头信息的信息存放到MP4文件的brand或另定义的Box等，也可以在广播等运用规定中预先决定在AAC的样本数据中是否包含头信息。或者，也可以将表示在样本数据中是否包含头信息的信息包含于MMT的SI信息等中。此外，在复用方式为MMT的情况下，也可以作为流的类型而指定ADTS或LATM，从而表示头信息包含于样本数据。在头信息包含于样本数据的情况下，接收装置在不发送MPU头或无法取得MPU头的情况下也能够基于头信息对音频进行解码并再现。

另外，在头信息不包含于样本数据的情况下，接收装置需要预先取得样本的再现时间。另外，接收装置在头信息不包含于样本数据的情况下，也可以不使用下述方法，而从能够取得MPU头的MPU起开始解码。

接收装置使用MPU的开头样本的PTS、一个音频样本的再现时间以及片段SN，计算音频样本的PTS。

具体而言，接收装置使用下述(式1)决定任意的音频样本的PTS。

sample(i).pts＝MPU(n).pts+(num_spl/sampling_rate)＊frg_sn···(式1)

在此，sample(i).pts是第n个MPU中的第i个样本的PTS，MPU(n).pts是第n个MPU中在显示顺序上为开头的样本的PTS。

num_spl是音频帧中包含的样本数。另外，该情况下的样本与MP4中的样本不同。在MPEG-2或MPEG-4的AAC(Advanced Audio Coding)的情况下，样本数为每一帧1024。

sampling_rate是音频的采样频率，frg_sn是片段SN。

也就是说，接收装置通过将音频帧中包含的样本数除以采样频率，计算一个音频样本的再现时间。接收装置通过对MPU的开头样本的PTS加上一个音频样本的再现时间与片段SN(MPU内的样本的索引号)的积，计算音频样本的PTS。

另外，在能够通过上述以外的方法取得音频样本的再现时间的情况下，接收装置也可以使用其他方法。

例如音频的采样频率一定等样本的再现时间一定的情况下，接收装置也可以基于预先取得的再现时间来决定音频样本的PTS。

此外，也可以通过MMT消息等发送表示采样频率或样本的再现时间的信息。此外，在将MMT包直接或复用到IP包之后存放在TS包中而发送的情况下，也可以通过MPEG-2系统的描述符等发送表示采样频率或样本的再现时间的信息。

此外，在视频中，在帧速率已知或能够通过MMT消息等另取得帧速率的情况下，也能够适用本方法。

此外，在MPEG-4AVC(Advanced Video Coding)、以及MPEG HEVC(High EfficiencyVideo Coding)等中，需要在样本数据中包含SPS(Sequence Parameter Set)以及PPS(Picture Parameter Set)等解码时的初始化信息。SPS以及PPS是否包含在样本内能够通过MP4的品牌名或样本入口的类型进行识别，因此也可以另发送这些信息。

通过以上，接收装置在不能接收音频MPU头的情况下，也能够取得MPU内的任意的音频样本的PTS。由此，不用对视频MPU头和音频MPU头的发送顺序设置限制就能够减小音频被再现之前的延迟时间。

以下，对本实施方式的发送装置的结构及其动作进行说明。

图11是本实施方式的发送装置200的框图。图11所示的发送装置200具备视频MPU生成部201、音频MPU生成部202、音频打包部203以及视频打包部204。

图12是本实施方式的发送处理(复用处理)的流程图。

首先，视频MPU生成部201决定第n个视频MPU即V_MPU(n)的再现区间(S201)。此外，视频打包部204将决定的V_MPU(n)打包为多个MMT包。此时，视频打包部204生成V_MPU(n)，以使该V_MPU(n)的开头样本成为随机访问点。也就是说，V_MPU(n)由一个以上的视频的随机访问单位构成。

接着，音频MPU生成部202决定第n个音频MPU即A_MPU(n)的再现区间，以使其与V_MPU(n)的再现区间一致(S202)。

接着，音频打包部203以在步骤S202中决定的A_MPU(n)中包含的各样本分别存放于一个MMT包的方式生成多个MMT包(S203)。

并且，发送装置200将由音频打包部203生成的音频的MMT包和由视频打包部204生成的视频的MMT包复用而发送。

另外，上述说明中，也可以是V_MPU(n)和A_MPU(n)的再现区间一致，但V_MPU(n)和A_MPU(n)的再现区间不同。本实施方式中，接收装置即使将音频MPU从中途起接收，由于在刚接收后能够从所取得的样本起开始解码，因此V_MPU(n)和A_MPU(n)的再现区间不需要必须一致。

通过以上，本实施方式的发送装置200在将音频的段进行包复用而发送时，将段的头部和数据存放部存放到不同的包，进而将数据存放部按每个访问单元打包。此外，发送装置200在存放访问单元的包的头中存放表示该访问单元在段内的解码顺序的索引号而发送。由此，接收装置能够计算访问单元的PTS。因此，不用限制段的包复用动作就能够减小接收装置开始解码之前的延迟时间。

也就是说，发送装置200将声音数据(音频MPU)分割为分别包含多个声音样本(音频样本)中的一个的多个包(MMT包)来发送。此外，多个包分别包含表示该包是多个包中的第几个包的次序信息(片段SN)。

(实施方式3)

本实施方式中，不使视频MPU和音频MPU的再现区间一致，将音频MPU的再现时间设定为比视频MPU的再现时间短。由此，音频的MPU的发送频度变高，能够提高随机访问性。

若设想以MPU单位的随机访问，则在视频中，编码数据中的RAU为MPU的最小单位。另一方面，在音频中，能够从任意的样本(访问单元)起进行解码，因此能够自由地设定构成MPU的样本数。

例如，视频的RAU的再现时间从兼顾编码效率和随机访问性的观点出发，通常是0.5秒到1秒左右。此外，视频MPU的再现时间也按照RAU的再现时间。

另一方面，在音频的情况下，还能够将MPU的再现时间设为0.1秒左右。例如，若将音频MPU的再现时间设为0.1秒，则能够在开始视频的再现起最迟0.1秒以内开始音频的再现。像这样，通过将音频MPU的再现时间设定得短，能够缩短开始视频的再现起到开始音频的再现为止的延迟时间。

图13是表示本实施方式的视频MPU以及音频MPU的一例的图。如图13所示，多个音频MPU各自的再现时间被设定为比多个视频MPU各自的再现时间短。

此外，对于视频MPU的开头PTS，也可以以对应于某一个音频MPU的开头PTS的方式设定多个音频MPU的再现区间。图14是表示该情况下的视频MPU以及音频MPU的一例的图。

例如，如果如图13所示设定音频MPU的再现区间，则具有与视频MPU(1)的开头PTS相同的开头PTS的音频MPU不存在。像这样，在图13所示的例中，对于视频MPU的开头PTS，没有保证对应某一个音频MPU的开头PTS。

另一方面，如果如图14所示设定音频MPU的再现区间，则具有与各视频MPU的开头PTS相同的开头PTS的音频MPU必然存在。也就是说，对于视频MPU的开头PTS，保证对应某一个音频MPU的开头PTS。

此外，若视频的RAU的再现时间一定，则发送装置能够通过在MPU生成处理的开始之前取得视频的MPU的再现时间，来决定音频MPU的再现时间。另一方面，在发生视频素材的帧速率的切换或编码条件的变更、视频的RAU的再现时间可变的情况下，发送装置一边取得各视频MPU的再现时间，一边决定音频MPU的再现时间。

以下，对本实施方式的发送装置的结构及其动作进行说明。

图15是本实施方式的发送装置300的框图。图15所示的发送装置300具备视频MPU生成部301、区间判定部302、第1决定部303、第2决定部304、开头决定部305以及MPU生成部306。

图16是本实施方式的发送处理(复用处理)的流程图。

首先，作为初始设定，发送装置300通过将n设定为0，选择最初的MPU(S301)。

接着，视频MPU生成部301基于视频的RAU，决定开头的视频MPU(V_MPU(0))的再现区间(S302)。在此，视频MPU由一个以上的RAU构成。

接着，开头决定部305以V_MPU(0)和开头的音频MPU(A_MPU(0))的开头样本的PTS相等的方式决定A_MPU(0)的开头样本(S303)。

接着，区间判定部302判定处理对象的音频的MPU(A_MPU)是否为V_MPU(n)的再现区间中的最终MPU(S304)。

在A_MPU为最终MPU的情况下(S304中是)，第1决定部303以A_MPU的最终样本的再现结束时刻与V_MPU(n)的再现结束时刻相等、并且A_MPU的再现时间成为阈值以下的方式决定A_MPU的最终样本(S305)。

另一方面，在A_MPU不是最终MPU的情况下(S304中否)，第2决定部304以A_MPU的再现时间成为阈值以下的方式决定A_MPU的最终样本(S306)。

在此，在步骤S305以及S306中使用的阈值基于将从视频的随机访问点的再现开始起到音频的再现开始为止的延迟时间能够允许到多少来设定。但是，MPU的再现时间变短，并且MPU头在发送数据中所占的比例增加。特别是，音频与视频相比位速率低。此外，在MPU头中，不依赖于在MPU中存放的样本数的固定部分较大。因此，MPU头的开销的减少较为重要。因而，例如基于延迟时间和MPU头的开销这双方来决定MPU的再现时间。

此外，能够存放于一个MPU的音频的样本数依赖于一个样本的再现时间。一个样本的再现时间依赖于采样频率等。

在步骤S305或S306后，MPU生成部306基于在步骤S303中决定的音频MPU的开头样本和在步骤S305或S306中决定的音频MPU的最终样本，生成音频MPU(n)。

接着，发送装置300通过将n增加1，选择下一个MPU(S307)，重复步骤S304～S307的处理，直到决定全部的MPU的再现区间(S308)。

另外，作为开头的MPU以后的MPU中的开头样本，设定紧前的MPU中的最终样本的紧后的样本。

此外，发送装置300也可以在采样频率或频道构成(单频道、立体声、或5.1频道等)的切换中将MPU划分。由此，在相同的MPU中音频的编码条件一定。由此，接收装置在再现时中仅对应于MPU单位的编码条件的切换即可，因此能够实现切换时刻的无缝再现。例如，接收装置在再现时，通过预测在下一个MPU的头或开头样本中存放的编码条件(参数)，能够预先对应于切换。

此外，如图13及图14所示，对于视频MPU的开头PTS，既可以保证对应某一个音频MPU的开头PTS，也可以不保证。

通过以上，本实施方式的发送装置300以视频的段(MPU)的开头成为随机访问点的方式生成，并且以音频的段的再现时间成为规定值以下的方式生成。此外，发送装置300将音频的段的再现时间设定为比视频的段短。由此，音频的段的开销增加，但能够使得不需要接收装置中的PTS计算处理等。此外，接收装置开始解码之前的延迟时间减小。

也就是说，影像数据(视频MPU)是将影像信号进行分割而得到的多个影像数据的一个。声音数据(音频MPU)是将声音信号进行分割而得到的多个声音数据的一个。并且，如图13所示，声音数据(音频MPU)的再现时间比影像数据(视频MPU)的再现时间短。

此外，如图14所示，多个声音数据(音频MPU)也可以包含与多个影像数据(视频MPU)各自的再现开始时刻(PTS)大致相等的再现开始时刻(PTS)的多个声音数据。

(实施方式4)

本实施方式中，说明接收通过上述实施方式1的发送装置100发送的数据并再现该数据的接收装置。

图17是本实施方式的接收装置400的框图。图17所示的接收装置400具备视频MPU决定部401、音频MPU决定部402以及样本决定部403。

图18是本实施方式的接收处理的流程图。图18所示的流程图表示在随机访问时决定开始解码的音频样本时的动作例。

首先，视频MPU决定部401决定开始再现的视频MPU(V_MPU)(S401)。例如，MMT包的头中包含表示有效载荷包含MPU头和样本数据中的哪一个的识别信息。此外，通过包的ID(相当于TS包的PID)，接收装置400还能够识别有效载荷中存放的数据是视频以及音频的资源中的哪一个。因而，视频MPU决定部401在广播或通信中，在开始接收具有相当于视频的资源的包ID的包之后，将最初取得MPU头的MPU决定为V_MPU。

接着，音频MPU决定部402从V_MPU之后接收到MPU头的MPU之中，搜索具有与在V_MPU中的显示顺序上成为开头的样本的PTS(开头PTS)相同的开头PTS的音频MPU，将通过搜索而得到的音频MPU决定为开始再现的音频MPU(A_MPU)(S402)。在此，所谓PTS相同，不限定于PTS完全一致的情况，只要如实施方式1中说明的那样彼此PTS大致相同即可。

此外，音频以及视频MPU的开头PTS由MMT消息或将MMT包通过TS进行复用时的MPEG-2系统的描述符等而另行表示，因此音频MPU决定部402能够基于这些另行表示的信息，搜索具有V_MPU的开头PTS的音频MPU。另外，也可以是，表示MPU的开头PTS的信息包含于MPU头，音频MPU决定部402使用该信息搜索具有V_MPU的开头PTS的音频MPU。

接着，样本决定部403决定为从A_MPU的开头样本起开始再现(S403)。

另外，在步骤S403中，视频MPU和音频MPU的再现区间一致的情况得到保证，因此样本决定部403能够决定为从A_MPU的开头样本起开始再现。另一方面，在视频MPU和音频MPU的再现区间一致的情况没有得到保证的情况下，接收装置400也可以进行以下的处理。

首先，接收装置400取得V_MPU的开头PTS(V_MPU.pts)。

接着，接收装置400取得在V_MPU之后最初取得的音频MPU的开头PTS，并且对MPU头进行解析而取得音频MPU的再现时间。并且，接收装置400判定具有与V_MPU.Pts相同的PTS的音频样本是否包含于该音频MPU。另外，PTS不需要必须一致，接收装置400也可以判定具有V_MPU.pts的紧前或紧后的PTS的音频样本是否包含于音频MPU。

此外，在音频MPU的再现时间与MPU的开头PTS同样被另行表示的情况下，接收装置400不进行MPU头的解析，从另行表示的信息取得音频MPU的再现时间。

在判定为具有与V_MPU.Pts相同的PTS的音频样本不存在的情况下，接收装置400取得下一个音频MPU，进行上述判定处理。并且，接收装置400对后续的音频MPU依次重复判定处理，直到判定为具有与V_MPU.Pts相同的PTS的音频样本存在。

另外，也可以是，接收装置400关于视频，从V_MPU的开头样本起开始再现，关于音频，从A_MPU的紧后的MPU起开始再现。在此，在视频中解码顺序与显示顺序不同的情况下，接收装置400从在解码顺序上为开头的样本起开始解码，从在显示顺序上为开头的样本起开始再现(显示)。

此外，也可以是，关于音频，在开始视频的V_MPU的再现之前，从A_MPU起开始再现，关于视频，从V_MPU.pts的时刻起开始再现。

通过以上，本实施方式的接收装置400决定为从在接收开始后最初接收到头的视频的段起开始解码，从与开始解码的视频的段的开头PTS一致的音频的段起开始解码。由此，接收装置400能够减小解码开始之前的延迟时间。

此外，在此，对接收通过实施方式1的发送装置100发送的信号的情况进行了说明，但也可以将同样的方法适用于接收通过实施方式3的发送装置300发送的信号的情况。

也就是说，接收装置400决定为从在接收开始后最初接收到头的视频的段起开始解码。此外，接收装置400从开头PTS与开始解码的视频的段的PTS相同或为开始解码的视频的段的PTS之后、并且最初接收到的音频的段起开始解码。由此，接收装置400能够减小解码开始之前的延迟时间。

像这样，接收装置400能够接收通过实施方式1或3的发送装置100或300发送的影像控制信息(视频MPU头)、影像数据(视频MPU)、声音控制信息(音频MPU头)以及声音数据(音频MPU)，并再现影像数据以及声音数据。

(实施方式5)

本实施方式中，说明接收通过上述实施方式2的发送装置200发送的数据并再现该数据的接收装置。

图19是本实施方式的接收装置500的框图。图19所示的接收装置500具备开始PTS决定部501、判定部502、第1PTS计算部503、第2PTS计算部504以及样本取得部505。

图20是本实施方式的接收处理的流程图。图20所示的流程图表示取得开始解码的音频样本并决定PTS的动作例。

首先，开始PTS决定部501决定开始解码的音频样本的PTS(tgt_pts)(S501)。此外，将PTS为tgt_pts的音频样本记为tgt_spl。tgt_pts例如是开始再现的视频MPU的开头PTS。这是因为，在广播的选台后或经由通信网络取得内容时的接收开始时，通常以视频的随机访问点为基准。

接着，判定部502判定是否取得了tgt_spl所属的MPU(mpu_cur)的MPU头(S502)。例如，判定部502基于从MMT消息等另行取得的各MPU的开头PTS，判定包含PTS为tgt_pts的样本的MPU(mpu_cur)。另外，也可以是表示MPU的开头PTS的信息包含于MPU头，判定部502基于该信息判定包含PTS为tgt_pts的样本的MPU(mpu_cur)。或者，也可以是，判定部502另下载与构成MMT封装包的资源相关的信息，并基于该信息判定包含PTS为tgt_pts的样本的MPU(mpu_cur)。

在取得了MPU(mpu_cur)的MPU头的情况下(S502中是)，第1PTS计算部503对MPU头进行解析而取得mpu_cur内的tgt_spl的索引号(S503)。在此，MPU中包含的样本的PTS能够基于表示moof内的trun中包含的样本的DTS以及PTS的信息来决定。通过moof的解析而得到的PTS是相对于MPU的开头PTS的差分值，因此第1PTS计算部503对得到的PTS加上MPU的开头PTS来计算实际的PTS。并且，第1PTS计算部503将计算出的PTS与tgt_pts相同的样本决定为tgt_spl。另外，在不存在PTS与tgt_pts相同的样本的情况下，第1PTS计算部503将PST为tgt_pts的紧前或紧后的样本决定为tgt_spl。

接着，第1PTS计算部503取得表示tgt_spl在MPU内在解码顺序上为第几个样本的索引号(片段SN)。另外，在MPU由多个movie fragment构成的情况下，片段SN为相对于开头的movie fragment的开头样本的连续号。

另一方面，在未能取得MPU(mpu_cur)的MPU头的情况下(S502中否)，第2PTS计算部504根据每一个样本的再现时间等，基于上述(式1)计算样本的PTS，取得mpu_cur内的tgt_spl的索引号(S504)。此外，在通过使用(式1)的方法以外的方法求出样本的PTS的情况下，第2PTS计算部504也可以使用这些方法。另外，关于PTS的计算方法，在上述的实施方式2中进行了详细说明。

在步骤S503或S504后，样本取得部505取得MMT包的头中的MPU的序列号与mpu_cur的序列号一致、并且片段SN与在步骤S503或S504中得到的索引号相等的包，并取得该包中包含的开始再现的音频样本(S505)。

视频的随机访问点中，有无法取得对应的音频样本的MPU头的情形。若将该音频样本所属的MPU设为MPU(n)，则接收装置500关于MPU(n)中包含的样本，通过步骤S504的方法取得PTS，关于MPU(n+1)以后中包含的样本，通过步骤S503的方法取得PTS。

另外，接收装置500也可以不进行步骤S502以及S503的处理，总是通过步骤S504的方法取得PTS。

此外，在此叙述了在步骤S501中基于视频的再现开始时刻决定开始解码的音频样本的例子，但也可以将本实施方式适用于从在接收开始后最初能够取得的音频样本起开始再现的情况。图21是该情况下的接收处理的流程图。

首先，接收装置500决定开始解码的音频样本(tgt_spl)(S511)。例如，接收装置500将最初接收到的音频样本决定为tgt_spl。

接着，接收装置500判定是否取得了tgt_spl所属的MPU(mpu_cur)的MPU头(S512)。另外，该处理与上述步骤S502相同。

在取得了MPU(mpu_cur)的MPU头的情况下(S512中是)，接收装置500对MPU头进行解析，计算tgt_spl的PTS(S513)。另外，PTS的计算方法的详细情况与上述步骤S503相同。

另一方面，在未能取得MPU(mpu_cur)的MPU头的情况下(S512中否)，接收装置500根据每一个样本的再现时间等，基于上述(式1)计算样本的PTS(S514)。另外，PTS的计算方法的详细情况与上述步骤S504相同。

通过以上的处理，接收装置500在无法取得音频的MPU头的情况下也能够取得音频样本的PTS。

通过以上，接收装置500从1包的有效载荷取得1访问单元量的数据，基于索引号计算在段中的解码顺序上为开头的访问单元与所取得的访问单元的PTS的差分。进而，接收装置500通过另取得段的开头PTS，决定访问单元的PTS。像这样，接收装置500中通过计算访问单元的PTS，不限制段的包复用动作而能够减小解码开始之前的延迟时间。

也就是说，接收装置500接收通过实施方式2的发送装置200发送的影像控制信息(视频MPU头)、影像数据(视频MPU)、声音控制信息(音频MPU头)以及声音数据(音频MPU)。此外，接收装置500取得声音数据(音频MPU)中包含的多个声音样本(音频样本)之中的最初被再现的声音样本的再现开始时刻(PTS)即开头再现开始时刻。

此外，接收装置500取得多个声音样本各自的再现时间。例如，接收装置500取得音频帧中包含的样本数和采样频率，根据所取得的样本数以及采样频率，计算多个声音样本各自的再现时间。

接着，接收装置500使用上述开头再现开始时刻、上述再现时间、以及处理对象的包中包含的次序信息(片段SN)，判定该处理对象的包中包含的声音样本(音频样本)的再现开始时刻(PTS)。

(变形例)

本发明中适用的复用方式不限定于MP4、MMT或DASH，也可以将本发明适用于能够将音频以及视频等的编码数据进行段化的其他格式。

发送装置也可以将MMT包存放在IP包等中而发送。进而，在广播中，发送装置也可以将IP包存放在TS包或ARIB(电波产业会)中规定的TLV(Time Length Value)包等中而发送。

此外，接收装置也可以将MPU等的段复用到与MMT包不同的包。也可以将本发明适用于能够将音频以及视频的MPU数据在1个流进行包复用的任意的协议。

此外，实施方式1～3中，发送装置也可以将音频及视频的包进行复用，以满足包复用时的系统解码器模型(如MPEG-2系统中的STD(System Target Decoder)那样的模型)。此外，在MMT包的处理中也能够规定系统解码器模型。

此外，上述说明中，在实施方式1～3中分别说明了不同的方法，但也可以将这些方法之中的2个以上进行组合。例如，通过将实施方式1的方法和实施方式2或3的方法进行组合，在因通信错误等而接收装置中不能取得音频的MPU头的情况下，能够通过实施方式2或3的方法减小音频被再现之前的延迟时间。此外，通过将实施方式2和实施方式3进行组合，能够减小根据MPU头以外的信息来计算PTS的处理的发生频度。

以上，对实施方式的发送装置、接收装置、发送方法以及接收方法进行了说明，但本发明并不限定于该实施方式。

此外，上述实施方式的发送装置以及接收装置中包含的各处理部典型地被实现为作为集成电路的LSI。它们既可以单独形成一个芯片，也可以以包含一部分或全部的方式形成一个芯片。

此外，集成电路化不限于LSI，也可以通过专用电路或通用处理器实现。也可以利用在LSI制造后能够编程的FPGA(Field Programmable Gate Array)或能够重构LSI内部的电路单元的连接及设定的可重构处理器。

上述各实施方式中，各构成要素由专用的硬件构成，或也可以通过执行适合于各构成要素的软件程序来实现。各构成要素也可以通过由CPU或处理器等程序执行部读出并执行硬盘或半导体存储器等记录介质中记录的软件程序来实现。

换而言之，发送装置以及接收装置具备处理电路(processing circuitry)、以及与该处理电路电连接的(能够从该控制电路访问的)存储装置(storage)。处理电路包括专用的硬件以及程序执行部的至少一方。此外，存储装置在处理电路包括程序执行部的情况下，存储由该程序执行部执行的软件程序。处理电路使用存储装置执行上述实施方式的发送方法或接收方法。

进而，本发明既可以是上述软件程序，也可以是记录有上述程序的非暂时性的计算机可读取的记录介质。此外，上述程序当然能够经由互联网等传送媒体而流通。

此外，上述中使用的全部数字是为了具体说明本发明而例示的，本发明不限于所例示的数字。

此外，框图中的功能模块的分割是一例，也可以将多个功能模块作为一个功能模块来实现、或将一个功能模块分割为多个、或将一部分功能转移到其他功能模块。此外，也可以将具有类似的功能的多个功能模块的功能由单一硬件或软件并行或分时地处理。

此外，执行上述的发送方法或接收方法中包含的步骤的顺序是为了具体说明本发明而例示的，也可以是上述以外的顺序。此外，上述步骤的一部分也可以与其他步骤同时(并行)被执行。

以上，基于实施方式说明了本发明的一个或多个方式的发送装置、接收装置、发送方法以及接收方法，但本发明不限定于该实施方式。只要不脱离本发明的主旨，对本实施方式实施了本领域技术人员想到的各种变形的形态、将不同的实施方式中的构成要素组合而构筑的形态也包含在本发明的一个或多个方式的范围内。

工业实用性

本发明能够适用于进行视频数据以及音频数据等的媒体传输的装置或设备。

附图标记说明

100、200、300 发送装置

101 MPU生成部

102 包复用部

111 视频头判定部

112 音频头判定部

113 复用部

201、301 视频MPU生成部

202 音频MPU生成部

203 音频打包部

204 视频打包部

302 区间判定部

303 第1决定部

304 第2决定部

305 开头决定部

306MPU 生成部

400、500 接收装置

401 视频MPU决定部

402 音频MPU决定部

403 样本决定部

501 开始PTS决定部

502 判定部

503 第1PTS计算部

504 第2PTS计算部

505 样本取得部

Claims

1.一种发送方法，包括：

影像控制信息发送步骤，发送用于再现能够单独再现的单位的影像数据的影像控制信息；

影像数据发送步骤，发送被分割为多个影像包的所述影像数据；

声音控制信息发送步骤，将用于再现与所述影像数据的再现区间对应的再现区间的声音数据的声音控制信息的发送顺序决定为所述影像控制信息之后，并以决定的所述发送顺序发送所述声音控制信息；以及

声音数据发送步骤，发送被分割为多个声音包的所述声音数据，

在所述发送顺序中，所述多个影像包在所述影像控制信息被发送之后非连续地被发送，所述多个声音包在所述声音控制信息被发送之后作为组连续地被发送，

在所述影像数据被分割出的所述多个影像包之间，发送所述声音控制信息。

2.如权利要求1所述的发送方法，

所述声音数据包含分别能够单独再现的多个声音样本，

所述声音控制信息包含表示所述多个声音样本各自的再现开始时刻的时刻信息。

3.如权利要求1或2所述的发送方法，

所述声音数据的所述再现区间与所述影像数据的所述再现区间大致相等。

4.如权利要求2所述的发送方法，

所述多个声音包分别包含所述多个声音样本中的一个，

所述多个声音包分别包含表示该声音包是所述多个声音包中的第几个声音包的次序信息。

5.如权利要求1所述的发送方法，

所述影像数据是通过将影像信号分割而得到的多个影像数据中的一个，

所述声音数据是通过将声音信号分割而得到的多个声音数据中的一个，

所述声音数据的再现时间比所述影像数据的再现时间短。

6.如权利要求5所述的发送方法，

所述多个声音数据包含与所述多个影像数据各自的再现开始时刻大致相等的再现开始时刻的多个声音数据。

7.一种接收方法，

接收通过权利要求1～6中任一项所述的发送方法发送的所述影像控制信息、所述影像数据、所述声音控制信息以及所述声音数据。

8.一种接收方法，接收通过权利要求4所述的发送方法发送的所述影像控制信息、所述影像数据、所述声音控制信息以及所述声音数据，包括：

再现开始时刻取得步骤，取得开头再现开始时刻，该开头再现开始时刻是所述多个声音样本之中的最先被再现的声音样本的再现开始时刻；

再现时间取得步骤，取得所述多个声音样本各自的再现时间；以及

判定步骤，使用所述开头再现开始时刻、所述再现时间、以及处理对象的所述声音包中包含的所述次序信息，判定该处理对象的所述声音包中包含的所述声音样本的再现开始时刻。

9.一种发送装置，具备：

影像控制信息发送部，发送用于再现能够单独再现的单位的影像数据的影像控制信息；

影像数据发送部，发送被分割为多个影像包的所述影像数据；

声音控制信息发送部，将用于再现与所述影像数据的再现区间对应的再现区间的声音数据的声音控制信息的发送顺序决定为所述影像控制信息之后，并以决定的所述发送顺序发送所述声音控制信息；以及

声音数据发送部，发送被分割为多个声音包的所述声音数据，

10.一种接收装置，

接收通过权利要求9所述的发送装置发送的所述影像控制信息、所述影像数据、所述声音控制信息以及所述声音数据。