CN116210216A - 媒体文件生成设备、媒体文件重放设备、媒体文件生成方法、媒体文件重放方法、程序和存储介质 - Google Patents
媒体文件生成设备、媒体文件重放设备、媒体文件生成方法、媒体文件重放方法、程序和存储介质 Download PDFInfo
- Publication number
- CN116210216A CN116210216A CN202180066092.1A CN202180066092A CN116210216A CN 116210216 A CN116210216 A CN 116210216A CN 202180066092 A CN202180066092 A CN 202180066092A CN 116210216 A CN116210216 A CN 116210216A
- Authority
- CN
- China
- Prior art keywords
- audio
- data
- media file
- metadata
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 108
- 238000012545 processing Methods 0.000 claims description 108
- 230000008569 process Effects 0.000 claims description 86
- 238000010586 diagram Methods 0.000 description 15
- 238000013500 data storage Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 6
- AWSBQWZZLBPUQH-UHFFFAOYSA-N mdat Chemical compound C1=C2CC(N)CCC2=CC2=C1OCO2 AWSBQWZZLBPUQH-UHFFFAOYSA-N 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/438—Presentation of query results
- G06F16/4387—Presentation of query results by the use of playlists
- G06F16/4393—Multimedia presentations, e.g. slide shows, multimedia albums
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/483—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/487—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8146—Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
- H04N21/8153—Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics comprising still images, e.g. texture, background image
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/85406—Content authoring involving a specific file format, e.g. MP4 format
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/80—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N9/82—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
- H04N9/8205—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Computer Graphics (AREA)
- Computer Security & Cryptography (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
从数据区域中确定多个图像数据和音频数据,将与同用于识别各个图像数据的多个识别信息和用于识别音频数据的识别信息相关联的幻灯片组有关的信息以及用于指示多个图像数据和音频数据在数据区域中的位置的位置信息存储在元数据区域中,并且将元数据、多个图像数据以及音频数据存储在单个媒体文件中。
Description
技术领域
本发明涉及媒体文件生成设备、媒体文件重放设备、媒体文件生成方法、媒体文件重放方法、程序和存储介质。
背景技术
已知有用于将诸如图像项等的项以及诸如运动图像轨和/或音频轨等的轨存储在根据HEIF(高效率图像文件格式)的图像文件中的技术(参见专利文献1)。
现有技术文献
专利文献
专利文献1:美国专利申请公开2020/145705
发明内容
发明要解决的问题
本发明旨在解决在生成/重放包含用于连续显示具有音频的多个图像的信息的媒体文件方面的问题。
用于解决问题的方案
根据一方面,本发明提供一种媒体文件生成设备,其被配置为生成根据预定文件格式的媒体文件,所述媒体文件具有用于存储图像数据和音频数据的数据区域以及用于存储与图像数据和音频数据相关的元数据的元数据区域,所述媒体文件生成设备包括:确定部件,其被配置为从所述数据区域中确定多个图像数据以及音频数据;元数据处理部件,其被配置为将与同用于识别各个图像数据的多个识别信息和用于识别音频数据的识别信息相关联的幻灯片组有关的信息以及用于指示多个图像数据和音频数据在所述数据区域中的位置的位置信息存储在所述元数据区域中;以及存储部件,其被配置为将元数据、多个图像数据以及音频数据存储在单个媒体文件中。
附图说明
图1是示出媒体文件生成设备的结构的框图。
图2是示出由媒体文件生成设备进行以生成具有音频的幻灯片的处理的流程图。
图3是示出根据第一实施例的由媒体文件生成设备进行以生成具有音频的幻灯片的元数据的处理的流程图。
图4是示出根据第一实施例的由媒体文件生成设备进行以重放具有音频的幻灯片的处理的流程图。
图5是示出所生成的HEIF文件的构造的图。
图6是示出根据第一实施例的SlideshowWithAudioGroupBox(具有音频的幻灯片组框)的数据格式的示例的图。
图7是示出EntityToGroupBox(实体到组框)的数据格式的图。
图8是示出根据第一实施例的所输出的HEIF文件的示例的图。
图9是示出根据第一实施例的由媒体文件生成设备进行以生成具有音频的幻灯片的元数据的处理的另一示例的流程图。
图10是示出根据第一实施例的所输出的HEIF文件的另一示例的图。
图11是示出SlideshowEntityToGroupBox(幻灯片实体到组框)的数据格式的图。
图12是示出根据第二实施例的由媒体文件生成设备进行以生成具有音频的幻灯片的元数据的处理的流程图。
图13是示出根据第二实施例的SlideshowWithAudioGroupBox的数据格式的示例的图。
图14是示出根据第二实施例的SlideshowWithAudioGroupBox的数据格式的另一示例的图。
图15是示出根据第二实施例的所输出的HEIF文件的示例的图。
图16是示出根据第二实施例的由媒体文件生成设备进行以重放幻灯片的处理的流程图。
图17是示出根据第一实施例的所输出的HEIF文件的另一示例的图。
具体实施方式
以下参考附图来详细说明实施例。注意,本发明的范围不受以下所述的实施例限制。还注意,尽管在实施例中描述了多个特征,但所有这些特征对于本发明来说并不是必要的。仍注意,可以任意组合多个特征。在附图中,相同或类似的元件由相同的附图标记表示,并且省略其冗余说明。
第一实施例
硬件结构
图1是示出媒体文件生成设备100的结构的示例的图。在媒体文件生成设备100中,CPU 102、用作在执行系统程序时使用的暂时存储设备的RAM 103和用作存储有系统程序的非易失性存储设备的ROM 104连接到系统总线101。将系统程序和应用程序从ROM 104加载到RAM 103中并由CPU 102执行。此外,编码/解码单元105、元数据处理单元106、显示单元107、用户接口单元108、通信控制单元109、音频解码处理单元110和音频输出单元111连接到系统总线101。系统总线101在这些块之间传输数据。RAM 103包括输出缓冲器,并且还用作媒体文件生成处理中的数据缓冲器和要存储在媒体文件中的数据的输出目的地。
图像编码/解码处理单元105是根据H.265(HEVC)、H.264(AVC)、AV1、JPEG等的针对视频和静止图像的视频编解码器,并且用于对静止图像和视频数据进行编码和解码。音频编码/解码处理单元110是根据MP3、AAC、AC-3、FLAC、LPCM、WMA等的音频编解码器,并且执行对音频数据进行编码和解码的处理。元数据处理单元106获取由图像编码/解码处理单元105编码后的数据(编码数据)和由音频编码/解码处理单元110编码后的数据。然后,元数据处理单元106生成根据预定文件格式(例如,HEIF)的媒体文件。更具体地,元数据处理单元106对包含静止图像、运动图像和音频数据等的媒体文件中所存储的元数据进行分析处理,并且生成与静止图像、运动图像和音频数据有关的信息,并获取与编码数据相关的参数信息。然后,元数据处理单元106执行将这些信息作为元数据与编码数据一起存储在文件中的处理。要获取的编码数据可以是预先存储在ROM 104中的数据、或者经由通信控制单元109获取到并存储在RAM 103的缓冲器中的数据。另外,元数据处理单元106分析文件中所存储的元数据,并且在重放静止图像、运动图像或音频数据时处理元数据。
显示单元107旨在是用于显示媒体文件生成设备100的应用的画面。显示单元107的示例是液晶显示设备。显示单元107可以包括屏幕触摸传感器,以使得用户能够使用GUI(图形用户界面)来操作应用。显示单元107可用于重放用以检查所生成的文件的文件。用户接口单元108是用于接收用户所进行的针对媒体文件生成设备100的操作(输入)的接口。用户接口单元108例如包括诸如按钮和/或开关等的物理操作接口。
通信控制单元109是连接到网络以发送和接收传输帧的网络接口。通信控制单元109例如是有线LAN以太网(Ethernet,注册商标)的PHY和MAC(传输介质控制处理)。可替代地,在媒体文件生成设备100可以连接到无线LAN的情况下,通信控制单元109包括被配置为执行根据IEEE 802.11a/b/g/n/ac/ax的无线LAN控制的控制器、RF电路以及天线。
音频输出单元111旨在是在向诸如头戴式耳机或扬声器等的音频输出装置输出方面控制媒体文件生成设备100的处理单元。尽管上述本实施例不包括用于输入图像和音频的输入单元,但可以设置输入单元。
媒体文件生成处理
接着,参考图2、图5和图8来说明由媒体文件生成设备100进行的媒体文件生成处理的流程。图2是示出媒体文件生成处理的流程图。更具体地,图2示出根据HEIF文件格式生成包含一个或多于一个静止图像的文件的处理流程。图2的流程图的各步骤表示由CPU102、图像编码/解码处理单元105、元数据处理单元106或音频编码/解码处理单元110通过软件执行的处理。在以下的说明中,“CPU 102”的描述意味着由CPU 102执行的软件处理。图5示出HEIF文件500的构造,该HEIF文件500是根据本实施例的媒体文件生成设备100所生成的HEIF文件的示例。HEIF文件500具有元数据存储区域510、元数据区域530和编码数据存储区域550。元数据存储区域510(MetaBox(元框)(meta))是与非定时元数据(主要是静止图像)相关的元数据区域。元数据区域530(MoovieBox(Moovie框)(moov))是与诸如运动图像和音频数据等的呈现相关的元数据所用的元数据区域。编码数据存储区域550(MediaDataBox(媒体数据框)(mdat))是用于存储诸如编码数据等的数据的数据区域。
图8示出根据本实施例输出的HEIF文件的示例。在图8所示的示例中,HEIF文件根据HEIF文件格式存储一个或多于一个静止图像、一个音频、以及构成幻灯片的组。
媒体文件生成处理从S201开始。首先,在S202中,CPU 102从RAM 103或ROM 104内所存储的图像数据中获取(选择)要存储在HEIF文件中的图像数据。该获取处理可以基于针对媒体文件生成设备100预先设置的信息或者基于用户经由用户接口单元108所进行的操作等来进行。图像数据可以是存储有一个静止图像的HEIF文件、或者存储有根据诸如JPEG等的其他格式的静止图像的文件。图像数据可以是存储有多个静止图像的HEIF文件中的一个图像数据。图像数据可以是未编码的RAW图像数据。可替代地,图像数据可以是未作为文件进行存储的静止图像数据。可以单独提供摄像部件,并且图像数据可以是由摄像部件获取到的图像数据。接着,在S203中,CPU 102分析S202中所获取到的图像数据以获取图像属性信息。图像属性信息例如包括图像的宽度和高度、颜色分量的数量和/或位长度等。在S204中,图像编码/解码处理单元105对图像数据进行HEVC编码,并将编码数据传送到RAM103上的输出缓冲器并将该编码数据存储在该输出缓冲器中。在给定图像数据已被HEVC编码的情况下,编码数据可以被直接传送到缓冲器,或者可以使用指定参数被重新编码。
注意,在给定图像数据已根据其他编码方法进行了编码的情况下,可以对该数据进行译码以获得HEVC编码数据。编码数据是编码数据存储区域550中所存储的编码数据其中之一。在下文,在S204中存储(在HEIF文件中)的图像数据/编码数据也将被统称为图像数据。
接着,在S205中,由元数据处理单元106执行用以生成与要存储在HEIF文件中的图像数据相关的元数据的处理。元数据处理单元106获取对S205中生成的编码数据进行解码所需的参数集。更具体地,该参数集是视频参数集(VPS)、序列参数集(SPS)或图片参数集(PPS)等。S205中生成的元数据包括图像项信息和/或图像属性信息等。
图像项信息是图5所示的区域514(ItemInfoBox(项信息框)(iinf))中所存储的条目数据。iinf中的条目数据设置用于在文件中识别图像数据的项ID(识别信息)和指示图像数据是HEVC编码图像的项类型。
另一方面,图像属性信息是图5所示的区域516(ItemPropertiesBox(项属性框)(iprp))中所存储的数据。也就是说,图像属性信息包括区域517(ItemPropertyContainerBox(项属性容器框)(ipco))中的条目数据和区域518(ItemPropertyAssociationBox(项属性关联框)(ipma))中的条目数据。ipco中所存储的属性信息包括指示所获取到的HEVC参数集的条目数据、以及/或者指示所选择的图像的宽度和高度的条目数据等。在ipma中,生成指示项ID和ipco中的条目数据之间的关联的条目数据。将S205中生成的图像属性信息的数据作为图5所示的元数据存储区域510(MetaDataBox(元数据框)(meta))中所存储的元数据的一部分存储在RAM 103上的输出缓冲器中。另外,生成缩略图图像和/或所获取到的图像的诸如EXIF等的元数据构造等。在获取到的图像是派生图像等的情况下,生成指示图像数据之间的关联的iref的条目数据并存储在区域515(ItemReferenceBox(项参考框)(iref))中。在EXIF元数据等的情况下,生成项信息作为与图像项相关联的元数据项。在派生图像的情况下,存在要存储的编码数据包括多个子图像的可能性。在这种情况下,除了与表示派生图像的图像相关的图像项信息和图像属性信息之外,针对各子图像生成图像项信息和图像属性信息。
当处理从S205进入S206时,CPU 201判断是否存在要存储在要生成的HEIF文件中的更多图像数据。在存在要存储的更多图像数据的情况下,处理返回到S202,否则,处理进入S207。当处理从S206返回到S202时,CPU 201获取(选择)其他图像数据,并且执行如上所述的从S203到S209的处理。
在S207中,CPU 102判断是否将具有音频的幻灯片(其中图像与音频的重放一起连续显示)的设置存储在正在生成的HEIF文件中。该判断处理可以基于针对媒体文件生成设备100预先设置的信息或者基于用户经由用户接口单元108所进行的操作等来进行。在要将具有音频的幻灯片的设置存储在HEIF文件中的情况下(S207中为“是”),处理进入S208。
在S208中,CPU 102从RAM 103或ROM 104内所存储的音频(声音/语音)数据中获取(选择)要存储在HEIF文件中的音频(声音/语音)数据。该获取处理可以基于针对媒体文件生成设备100预先设置的信息或者基于用户经由用户接口单元108所进行的操作等来进行。音频数据可以是存储有一个音频数据的诸如MP3文件或AAC文件等的音频文件,或者可以是诸如MP4文件等的视频文件中所存储的音频数据。音频数据可以是能够存储其他音频数据的文件,或者可以是在存储有多个音频数据的文件中的一个音频数据。音频数据可以是未作为文件进行存储的音频(声音/语音)数据。音频数据可以是通过使用诸如麦克风等的音频输入部件所获得的音频(声音/语音)数据。
在S209中,音频编码/解码处理单元110对音频数据进行编码,并且将编码数据传送到RAM 103上的输出缓冲器并将该编码数据存储在该输出缓冲器中。在给定音频数据是这种已被编码的音频数据的情况下,给定音频数据可以被直接传送到缓冲器。编码数据是编码数据存储区域550中所存储的编码数据其中之一。在以下的说明中,在S209中存储(在HEIF文件中)的音频数据/编码数据也将被统称为音频数据。
接着,在S210中,由元数据处理单元106执行用以生成与要存储在HEIF文件中的音频(声音/语音)数据相关的元数据的处理。
元数据处理单元106生成要存储在图5的区域530(MoovieBox(moov))中的区域531(MoovieHeaderBox(Moovie头框)(mvhd))和区域532(TrackBox(轨框)(trak))。
接着,生成要存储在区域532(TrackBox(trak))中的区域533(TrackHeaderBox(轨头框)(tkhd))和区域534(MediaBox(媒体框)(mdia))。
此外,生成要存储在区域534(MediaBox(mdia))中的MediaHeaderBox(媒体头框)(mdhd)、HandlerBox(处理程序框)(hdlr)和MediaInformationBox(媒体信息框)(minf)。
如图8所示,在hdlr中指定的MediaBox(mdia)的处理程序类型可以是“soun”。
接着,生成要存储在区域537(MediaInformationBox(minf))中的区域538、区域539和区域540。这里,区域538是SoundMediaHeaderBox(声音媒体头框)(smhd),区域539是DataInformationBox(数据信息框)(dinf),并且区域540是SampleTableBox(样本表框)(stbl)。
此外,在区域540中,存储未示出的SampleDescriptionBox(样本描述框)(stsd)、SampleSizeBox(样本大小框)(stsz)、TimeToSampleBox(时间到样本框)(stts)和SampleToChunkBox(样本到块框)(stsc)。
将S210中生成的与音频数据相关的元数据作为图5中的与运动图像和音频数据等的呈现相关的元数据区域530中所存储的元数据的一部分存储在RAM 103上的输出缓冲器中。
接着,在S211中,执行用以生成具有音频的幻灯片的元数据的处理。后面将说明S211中的处理。
在S212中,元数据处理单元106从HEIF文件内所存储的图像中确定代表图像,并且生成主要图像项信息的元数据(在元数据中设置主要图像项信息)。该代表图像确定处理可以基于针对媒体文件生成设备100预先设置的信息或者基于用户经由用户接口单元108所进行的操作等来进行。将S212中所生成的元数据存储在图5的区域512(PrimaryItemBox(主项框)(pitm))中。pitm的数据格式仅指定代表图像的项ID。将S212中生成的元数据存储在RAM 103上的输出缓冲器中。
S213中的最后处理由元数据处理单元106执行。在S213中,元数据处理单元106生成要存储在图5的区域501(FileTypeBox(文件类型框)(ftyp))和区域511(HandlerBox(hdlr))中的数据。如图8所示,在hdlr中指定的MetaDataBox(meta)的处理程序类型可以是“pict”。
然后,元数据处理单元106将所生成的ftyp和hdlr元数据、以及RAM 103中所保存的要存储在元数据存储区域510中的元数据和要存储在编码数据存储区域550中的编码数据进行组合。
此外,生成区域513中所示的ItemLocationBox(项位置框)(iloc)作为用于识别编码数据的位置的元数据。
此外,在存储了音频数据的情况下(S207中为“是”),在区域540中生成ChunkOffsetBox(块偏移框)(stco)(未示出)作为用于识别编码音频数据的位置的元数据,并且存储偏移信息。
然后,元数据处理单元106在ROM 103上形成具有诸如图5所示的构造等的构造的数据,并且将如此得到的数据作为HEIF文件输出。之后,处理进入S214,并且本处理流程结束(S214)。所生成的HEIF文件的数据可以由CPU 102从RAM 103写入ROM 104并存储在ROM104中。
注意,在跳过了S208至S211中的存储具有音频的幻灯片的设置的处理的情况下(S207中为“否”),没有生成图5的区域530(MoovieBox(moov))。因此,存在区域530中的区域531至540中的各种类型的元数据未被生成且未包括在HEIF文件的元数据中的可能性。
然而,例如,当存储用于除幻灯片以外的目的的图像序列时,或者当存储相关的音频数据时,生成区域530(MoovieBox(moov))。然后,可以将moov包括在最终生成的HEIF文件的元数据中。
在根据本实施例的上述流程中,关注于判断是否要存储具有音频的幻灯片的设置。然而,该流程可以用于存储无音频的幻灯片的设置。流程可以包括用于设置要存储在HEIF中的各种类型的元数据的处理。例如,流程可以用于生成仅包括将静止图像和音频关联的设置的HEIF文件,或者流程可以考虑可以由HEIF(诸如用于对包围式拍摄到的图像进行分组和存储的处理等)指定的各种类型的元数据。
参考图8来说明根据上述流程在HEIF文件的内部构造中存储值(数据)的示例。图8是示出根据本实施例输出的HEIF文件的示例的图。作为item_ID,在图8的描述801中所示的PrimaryItemBox(pitm)(与区域512相对应)中存储2049。注意,可以扩展PrimaryItemBox,以指定识别具有音频的幻灯片的组的组ID作为该框中所指定的ID。更具体地,指定用于识别后面将说明的SlideshowWithAudioEntityToGroup(具有音频的幻灯片实体到组)(slda)(与区域520相对应)的组ID。在这种情况下,指定作为后面所述的group_id的1001作为ID。描述802中所述的ItemInfoBox(与区域514相对应)使各图像项可由item_ID识别并且指示由item_ID识别的图像项的类型。这里描述了item_ID为2001的图像项具有类型“hvc1”,也就是说,该图像项是HEVC编码图像。类似地,将具有直到item_ID 2048的所有图像项和具有item_ID 2050的图像项作为HEVC编码图像进行存储。item_ID为2049的图像项具有类型“grid”,其指示该图像项是网格派生图像项。网格派生图像项是指将多个图像项组合成单个图像项的图像项。对于配置信息,参考后面将说明的ItemReferenceBox(项参考框)(与区域515相对应)和ItemDataBox(项数据框)。描述803中所述的ItemLocationBox(iloc)(与区域513相对应)指示各图像数据位流在文件中的存储位置。item_ID为2049的图像项具有construction_method 1,这指示在描述807中所述的ItemDataBox(idat)中存在数据。同样对于其他图像,可以在描述810中所述的MediaDataBox(与编码数据存储区域550相对应)中识别这些图像的数据位置。描述804中所述的ItemReferenceBox(iref)(与区域515相对应)是用于指示图像项之间的参考关系的区域。这里,reference_type“dimg”指示指向构成具有item_ID 2049的网格派生图像项的多个图像的图像项ID。此外,描述了在reference_type“dimg”的派生图像中,从具有item_ID 2049的派生图像项参考具有item_ID 2045至item_ID 2048的图像项。接着,reference_type“thmb”表示缩略图图像,也就是说,这指示具有item_ID 2050的图像项是具有item_ID 2049的缩略图图像。
在描述805中所述的ItemPropertiesBox(iprp)(与区域516相对应)中的ItemPropertyContainerBox(ipco)((与区域517相对应)中,存储指示图像属性信息的ItemProperty(项属性),其中hvcC指示HEVC编码参数,并且ispe是指示图像大小的属性信息。描述806描述指示各图像项和属性信息之间的关联的ItemPropertyAssociationBox(ipma)(与区域518相对应)。图像项与ipco中的属性信息一对一地相关联。例如,item_ID2001和item_ID 2049与共同的ispe相关联,这指示这两者具有共同的图像大小。另一方面,item_ID 2050与不同的“ispe”相关联,这指示其具有不同的图像大小。
描述808描述SlideshowWithAudioEntityToGroupBox(具有音频的幻灯片实体到组框)(slda)(与区域520相对应),其中指定1001作为group_id,并且指定46作为组的条目数量。最初指定的entity_id 1指示后面将说明的音频轨的轨ID,并且随后指定的entity_id按在幻灯片中显示图像的顺序指示各个图像的项ID 2001至2044和2049。也就是说,存储用于重放和显示具有音频的幻灯片的信息。
MovieBox(moov)(与区域530相对应)的描述809存储MoovieHeaderBox(mvhd)(与区域531相对应)和TrackBox(trak)(与区域532相对应),其中以Box(框)构造存储与音频呈现有关的信息。TrackBox还存储TrackHeaderBox(tkhd)(与区域533相对应)和MediaBox(mdia)(与区域534相对应)。在TrackHeaderBox中,flags(标志)指示3,这指示该轨包含音频数据。TrackID 1指示用于识别音频轨的ID,其是在上述的SlideshowWithAudioEntityToGroupBox的entity_id中指示的ID值。
此外,MediaBox(mdia)存储MediaHeaderBox(mdhd)、HandlerBox(hdlr)和MediaInformationBox(minf)。MoovieHeaderBox、TrackHeaderBox和MediaHeaderBox存储与生成时间、编辑时间、时标和持续时间有关的信息。
HandlerBox(hdlr)指定“soun”作为用于识别音频轨的hdlrType。由于音频轨,MediaInformationBox(minf)存储SoundMediaHeaderBox(声音媒体头框)(smhd)(与区域538相对应)。DataInformationBox(dinf)(与区域539相对应)存储指示编码音频数据的存储位置的信息。尽管没有详细示出,但SampleTableBox(stbl)(与区域540相对应)存储与各音频样本有关的信息。更具体地,使用SampleDescriptionBox(stsd)存储与音频编码等有关的信息。将指示各样本大小的信息存储在SampleSizeBox(stsz)中。另外,使用TimeToSampleBox(stts)、SampleToChunkBox(stsc)和ChunkOffsetBox(stco)存储与音频样本相关的信息。
在本实施例中,如上所述,将用于重放和显示具有音频的幻灯片的音频和图像分组在一起,并且在显示幻灯片时,将与各图像有关的属性信息应用到该图像。然而,可以采用不同的方法,只要将音频和图像分组、并且将关联的属性作为该组的属性或参数进行存储即可。
幻灯片元数据生成处理
接着,参考图3、图5、图6、图7、图8、图9、图10和图11来说明图2的S211中的幻灯片元数据生成处理。在本实施例中,将构成具有音频的幻灯片的音频和图像作为组(SlideshowWithAudioEntityToGroup)存储在HEIF文件中。图3示出根据本实施例的元数据生成处理的流程图。该处理从S301开始。首先,在S302中,CPU 102从要存储在HEIF文件内的图像数据中选择在幻灯片中要显示的一个或多于一个图像数据,并且确定这些图像数据的显示顺序。在本实施例中,没有指定与HEIF文件中所存储的在幻灯片中要显示的图像的显示时间(时间段)有关的信息。也就是说,在生成文件时没有指定值,并且在重放文件时确定任意值。然而,可以确定显示时间并将该显示时间存储在文件中。接着,在S303中,CPU 102选择在进行幻灯片时要重放的音频数据,并且从元数据获取音频轨ID。S302和S303中的选择处理可以基于媒体文件生成设备100中预先设置的信息或者基于用户经由用户接口单元108所进行的操作等来进行。
接着,在S304中,元数据处理单元106定义具有音频的幻灯片所用的重放图像和音频的组。更具体地,元数据处理单元106生成用于对在幻灯片中要显示和重放的图像和音频进行分组的信息(组信息)。将该组信息作为元数据存储在图5所示的区域519(GroupsListBox(组列表框)(grpl))中。在HEIF中,在grpl中存储与诸如图像数据等的项和轨有关的组信息。向该组信息指派用作组识别信息的组ID以及组类型,由此在HEIF文件中识别组。在本实施例中,在S304中,元数据处理单元106生成具有音频的幻灯片组信息(SlideshowWithAudioEntityToGroupBox)作为组信息。图6示出SlideshowWithAudioEntityToGroupBox的数据格式。图7示出派生出的SlideshowWithAudioEntityToGroupBox的EntityToGroupBox的数据格式。
元数据处理单元106生成采用图6所示的数据格式的数据,并将该数据存储在grpl中(参见图5所示的区域520)。该SlideshowWithAudioEntityToGroupBox是用于识别用于显示包括具有音频的多个图像的集合的幻灯片的目的的实体组的Box。该SlideshowWithAudioEntityToGroupBox的组类型是如描述601中所述的“slda”,其指示具有音频的幻灯片所使用的轨和项的组。
图6所示的数据格式是EntityToGroupBox的扩展。因此,图7所示的描述701中的group_id和描述702中的num_entries_in_group是单独指定的。这里,group_id指示组ID,并且num_entries_in_group指示组中所包括的轨和项的数量。
在描述703中,entity_id指示轨ID或项ID,其中最初指定的entity_id指示音频轨的轨ID。在S304中,将所选择的音频的轨ID设置在开头的entity_id中。
之后,在S305中,在随后的entity_id中按显示顺序指定在幻灯片中要显示的选择图像的项ID。在本实施例中,SlideshowWithAudioEntityToGroupBox是单独定义的以存储具有音频的幻灯片组。
然而,如图11所示,可以扩展并使用在ISO/IEC23008-12:2017CDMA3中定义的slid实体组。
例如,可以在描述1101中描述flags以识别感兴趣的幻灯片组是具有音频的幻灯片组还是无音频的幻灯片组。更具体地,(例如,通过将值设置为1)定义幻灯片with_audio,并且当flags&with_audio为正(真)时,指示具有音频的幻灯片组。另一方面,在flags&with_audio为负(假)的情况下,指示无音频的幻灯片组。也就是说,当flags&with_audio为正(真)时,最初的entity_id仅指示音频轨ID。
在该方法中,不仅SlideshowEntityToGroupBox而且其他grouping_type的EntityToGroup都可以使用iaug组与图像项和音频轨相关联。
接着,在S306中,在所选择的图像的图像属性信息中设置单独指定的切换效果,然后在S307中,处理结束。注意,HEIF文件中所存储的具有音频的幻灯片组不包括与要再现和显示所存储图像的时间(时间段)相关的信息。这使得应用能够确定幻灯片中的图像的显示时间,并根据所确定的时间再现图像。在这种情况下,由于HEIF文件中所存储的音频轨是与时间信息相关联的呈现信息,因此存在音频轨的重放可能较早结束的可能性。为了应对上述情形,描述602中所示的flags用于指示用以指定当在幻灯片重放的中途结束音频轨数据的重放时所要进行的行为的信息。更具体地,定义了audio_play_loop(例如,具有值2),并且当flags&audio_play_loop为正(真)时,重复地播放音频轨。另一方面,当flags&audio_play_loop是负(假)时,这指定即使在音频轨的重放已完全结束之后幻灯片的显示继续,也不进行进一步的音频重放。注意,ISOBMFF在TrackBox(trak)内的EditBox(编辑框)(edts)中定义EditListBox(编辑列表框)(elst)。该Box具有用以指示呈现时间和媒体时间之间的映射的Box结构。类似地,在该Box中也定义了flags以指定是否重复地播放编辑列表。也就是说,可以指定是否要重复音频轨。另一方面,通过使用上述的iaugEntityToGroupBox(iaug实体到组框)中所提供的flags,可以设置是否重复音频轨的重放。因此,即使当针对多个iaug组指定相同的音频轨时,也可以针对各单独组指定是否重复音频轨。在这种情况下,优选忽略(覆盖)使用EditListBox指定的重复设置,并且仅在iaugEntityToGroupBox中指定的flags设置有效。另一方面,可以考虑到这两个flags设置来进行操作。更具体地,在任一设置指定重复的情况下,只要继续显示组中所指定的图像,就重复地重放音频轨。可替代地,仅在两个flags设置都指定重复的情况下,才重复音频轨的重放。
还可替代地,可以根据与预先指定的音频轨有关的信息来确定幻灯片重放的总时间,并且可以将图像显示了通过将总时间除以指定图像数量所获得的时间段。更具体地,根据在TrackHeaderBox中指定的持续时间和在TimeScale(时标)中指定的值来确定幻灯片的总重放时间。然后,应用进行控制,使得显示幻灯片的图像,直到音频轨被完全重放了一次或多于一次为止。也就是说,各图像的幻灯片显示时间可以由如下的时间给出,该时间是通过将在TrackHeaderBox指定的重放时间除以与(在幻灯片组中指定的num_entities_in_group减去1)相等的值所获得的。注意,可以在不使用flags的情况下将上述操作定义为默认。例如,当幻灯片显示了比在音频轨持续时间中指定的持续时间长的时间段时,只要继续幻灯片显示,就重复地重放音频轨。另一方面,即使在幻灯片组中指定的图像的显示结束之后,也可以继续音频轨的重放。更具体地,以与音频重复设置的flags相同的方式定义audio_play_completely(例如,具有值4)。在flags&audio_play_completely为正(真)的情况下,即使在幻灯片中的图像的显示结束之后,也继续音频的重放。在flags&audio_play_completely为负(假)的情况下,当幻灯片中的图像的显示结束时,即使音频轨的重放在进行中,也终止音频轨的重放。
由于SlideshowWithAudioEntityToGroupBox是EntityToGroupBox的扩展,因此允许不受限制地将轨作为组进行存储。然而,在本实施例中,track_id仅被限制为最初的entity_id,并且后续的entity_id仅被限制为图像项。结果,即使在不能唯一地识别轨ID和项ID的情况下,也可以通过entity_id指定的存储位置来识别轨ID和项ID。即使在可以唯一地识别轨ID和项ID的情况下,通过预先将第一个ID限制为轨ID,也可以限制在重放处理中进行ID搜索的ID搜索范围,这使得可以提高处理效率。然而,可替代地,轨ID可以包括在任意位置处。例如,在指定轨ID之后,可以开始音频轨的重放,使得当显示后续的项ID作为幻灯片时,由此实现了具有音频的幻灯片的重放。在这种情况下,需要唯一地识别项ID和轨ID,因此要求可以唯一地识别项ID、轨ID和组ID。例如,如果metaBox存储在文件的顶层(而不是存储在moovBox中的metaBox中)并且SlideshowWithAudioEntityToGroupBox存储在该顶层,则可以唯一地识别上述的ID。类似地,如果由ISOBMFF定义的unif类定义(branddefinition)是在FileTypeBox(ftyp)(与区域501相对应)中指定的文件,则可以保证唯一的可识别性。可替代地,可以使用用以将音频数据定义为项并通过entity_id指定该音频数据的方法。在这种情况下,需要进一步进行用以进行音频项和实际音频数据之间的关联的定义并存储该定义的处理。
在本实施例中,定义具有音频的幻灯片组的类型,并且扩展幻灯片组,使得可以存储音频轨ID。注意,可以进行类似的扩展,使得可以不仅向幻灯片而且还向其他实体组添加音频重放。例如,针对全景实体组或立体声实体组等定义具有音频的实体组的类型。通过将特定存储位置处的entity_id设置为音频轨,可以关联音频。
可以扩展ISO/IEC23008-12:2017FDAM2中定义的iaug实体组以存储具有音频的幻灯片组。更具体地,在ISO/IEC23008-12:2017CDAM3中定义的slide实体组和扩展的iaug实体组中存储数据。以下参考图10来说明根据本实施例的存储与具有音频的幻灯片组相关的值(数据)的示例。图10是示出根据本实施例输出的HEIF文件的示例的图。在图10的描述1001中所述的FileTypeBox(ftyp)存储唯一地定义项ID、轨ID和组ID的unif类。此外,在描述1002中的PrimaryItemBox(pitm)中,存储2001作为item_ID。注意,可以扩展PrimaryItemBox,以通过在该Box中指定ID来指定识别具有音频的幻灯片的组的组ID。更具体地,指定后面将进一步说明的用以识别iaugEntityToGroupBox(iaug)的组ID或用以识别SlideshowEntityToGroupBox(slid)的组ID。在这种情况下,在后面将说明的group_id中,指定1002或1001作为ID。描述1003中所述的ItemInfoBox使得能够通过item_ID识别各图像项,这指示由item_ID识别的图像项是什么种类。这里描述了item_ID为2001的图像项具有类型“hvc1”,这表示该图像项是HEVC编码图像。类似地,将具有直到item_ID 2048的所有图像项作为HEVC编码图像进行存储。描述1004中所述的ItemLocationBox(iloc)指示各图像数据位流在文件中的存储位置。对于各图像数据位流,可以识别数据在描述1010中所述的MediaDataBox中的位置。在描述1005中所述的ItemPropertiesBox(iprp)中的ItemPropertyContainerBox(ipco)中,存储指示图像属性信息的ItemProperty,其中hvcC指示HEVC编码参数,并且ispe是指示图像大小的属性信息。此外,wipe(擦除)指示在幻灯片中的图像之间切换显示的效果。描述1006描述指示各图像项和属性信息之间的关联的ItemPropertyAssociationBox(ipma)。图像项与ipco中的属性信息一对一地相关联。例如,item_ID 2001至item_ID 2048与共同ispe相关联,这指示图像项具有共同的图像大小。此外,item_ID 2001指定wipe作为图像切换效果。这指示当将项ID 2001的图像切换到其他图像时,应用wipe的效果以切换显示。描述1007描述SlideshowEntityToGroupBox(slid)。指定1001作为group_id,并且指定48作为组的条目数量。这里,按在幻灯片中要显示图像的顺序,指定图像的从2001到2048的项ID作为entity_id。描述1008描述iaugEntityToGroupBox(iaug)。指定1002作为group_id,并且指定2作为组的条目数量。在指示音频轨ID的entity_id中存储1,并且存储指示幻灯片组的组ID 1001。在ISO/IEC23008-12:2017FDAM2中所定义的iaug实体组中,指定2作为num_entities_in_group,其中的一个指示图像项并且另一个指示音频轨。另一方面,在本实施例中,扩展用于指定图像项的部分以使得能够指定其他EntityToGroupBox的组ID。这使得可以将SlideshowEntityToGroupBox的组ID指定为iaug组的entity_id。因此,可以在显示SlideshowEntityToGroupBox中所存储的幻灯片时重放音频数据。也就是说,存储用于显示和播放具有音频的幻灯片的信息。
描述1009描述MovieBox(moov)并且具有与图8所示的描述809的配置相同的配置。以下说明扩展在ISO/IEC 23008-12:2017FDAM2中定义的iaug实体组的存储具有音频的幻灯片组的另一形式。以下参考图17来说明根据本实施例的存储与具有音频的幻灯片组相关的值(数据)的示例。在图10所示的存储有与具有音频的幻灯片组相关的值(数据)的示例中,在iaugEntityToGroupBox中指定与音频相关联的图像组的组ID。另一方面,在图17所示的示例中,还使用EntityToGroupBox对要关联的音频轨进行分组,并且可以指定iaugEntityToGroupBox中的音频entity_id的组ID。图17中的描述1701至1707与图10中的描述1001至1007相同。描述1708描述iaugEntityToGroupBox(iaug)。指定1002作为group_id,并且指定2作为组的条目数量。在entity_id中存储1003以指示altrEntityToGroupBox(altr实体到组框)(其指示以下所述的替代音频轨)的组ID,并且存储指示幻灯片组的组ID1001。在ISO/IEC23008-12:2017FDAM2中定义的iaug实体组中,指定2作为num_entities_in_group,其中的一个指示图像项并且另一个指示音频轨。另一方面,在本实施例中,扩展用于指定图像项的部分,使得可以指定其他EntityToGroupBox的组ID。此外,还扩展用于指定音频轨的部分以使得能够指定其他EntityToGroupBox的组ID。这使得可以将SlideshowEntityToGroupBox的组ID指定为iaug组的entity_id。此外,可以在iaug组的entity_id中指定包括多个音频轨的altrEntityToGroupBox的组ID。描述1709描述altrEntityToGroupBox(altr),其中指定1003作为group_id且指定2作为组的条目数量,并且指定1和2作为entity_id,其中1是描述1710中所述的音频轨的ID,并且2是描述1711中所述的音频轨的ID。此外,在altrEntityToGroupBox中指定替代entity_id的ID,使得在重放时,允许根据应用的需要选择其中的任一个。在iaugEntityToGroupBox中的音频所用的entity_id中指定EntityToGroupBox的组id的情况下,期望针对为该组指定的所有entity_id中的各entity_id指定音频轨ID。
注意,音频轨的分组不限于组类型altr,而且还允许像幻灯片那样定义和指定指示音频播放列表的组类型。这使得可以使用iaugEntityToGroupBox作为将音频和图像相关联的信息。也就是说,允许音频轨和图像组、音频组和图像、音频组和图像组的任何组合。在ISO/IEC23008-12:2017FDAM2中定义的iaug实体组中,仅允许指定音频轨ID和图像项ID。在这里指定的音频轨ID也被指定为作为不同组所指定的altrEntityToGroupBox的entity_id的情况下,规定了选择其中一个并作为音频进行播放。本实施例使得可以直接指定altr组ID,这使得重放处理简化。也就是说,根据以前的技术,需要首先解析在iaugEntityToGroupBox中指定的音频轨ID是否在另一altr组中被指定,然后确定要播放的音频,但根据本实施例,可以直接指定组ID。这使得可以在解析iaugEntityToGroupBox的时间点判断是否存在替代音频轨。
结果,当显示SlideshowEntityToGroupBox中所存储的幻灯片时,可以通过根据所指定的组的音频重放方法来播放音频组中所指定的音频数据。也就是说,存储用于显示和播放具有音频的幻灯片的信息。
注意,也可以将多个iaugEntityToGroupBox存储在一个文件中。因此,在针对多个iaugEntityToGroupBox指定相同的音频轨ID的情况下,假定针对各组从头开始播放音频数据。另一方面,在当切换所显示的图像组或图像时、在iaugEntityToGroupBox中指定的音频轨在重放的中途的情况下,可以在播放音频轨的同时切换所显示的图像。即使在单独的iaugEntityToGroupBox中图像项和音频轨彼此关联,在生成图像组时也忽略了单独关联的音频轨信息。在本实施例中,可以指定其他EntityToGroupBox的组ID作为在iaugEntityToGroupBox中指定的entity_id。然而,作为要指定的组ID,不允许指定iaugEntityToGroupBox的组ID。换句话说,需要避免嵌套循环。
接着,参考图9来说明根据本实施例的元数据生成处理。图9示出根据本实施例的生成幻灯片的元数据的处理的流程图。在图9中,生成幻灯片的元数据的处理从S901开始。首先,在S902中,CPU 102选择在幻灯片中要显示的图像,并确定显示这些图像的顺序。在本实施例中,由于假定显示时间(时间段)由重放设备确定,因此不存储与显示时间相关的参数。也就是说,当重放文件时,应用在重放处理中指定任意时间(时间段)。接着,在S903中,元数据处理单元106生成SlideshowEntityToGroupBox的元数据,并设置幻灯片所用的显示图像的组。更具体地,元数据处理单元106生成用于对在幻灯片中要显示的图像进行分组的信息(组信息)。该组信息是GroupsListBox(grpl)中所存储的图10的描述1007中所述的元数据。在HEIF中,在grpl中存储与诸如图像数据等的项有关的组信息。向该组信息指派用作组识别信息的组ID以及组类型,由此在HEIF文件中识别组。在本实施例中,在S903中,元数据处理单元106生成幻灯片组信息(SlideshowEntityToGroupBox)作为组信息。图11示出SlideshowEntityToGroupBox的数据格式。元数据处理单元106生成根据图11所示的数据格式的数据,并将该数据存储在grpl中。该SlideshowEntityToGroupBox是用于识别用于以幻灯片显示多个图像的集合的目的的实体组的Box。该SlideshowWithAudioEntityToGroupBox的组类型为“slid”,这指示在具有音频的幻灯片中所使用的项组。图11所示的数据格式是从EntityToGroupBox的扩展。因此,存储组ID的group_id和指示组中所包括的项数量的num_entries_in_group是单独指定的。在幻灯片中要显示的选择图像的项ID是按要显示这些图像的顺序指定的。
接着,在S904中,选择当在幻灯片中显示图像时要播放的音频轨,并且从元数据获取音频轨ID。在单独对音频轨分组的情况下,获取多个音频轨ID并分组在一起,然后获取组ID。S902和S904中的选择处理可以基于媒体文件生成设备100中预先设置的信息或者基于用户经由用户接口单元108所进行的操作等来进行。
接着,在S905中,元数据处理单元106生成用于构成具有音频的幻灯片的元数据。更具体地,元数据处理单元106生成iaug实体组作为组信息。该组信息是GroupsListBox(grpl)中所存储的图10的描述1008中所述的元数据。向组信息指派用作组识别信息的组ID以及组类型,由此在HEIF文件中识别组。在本实施例中,在S905中,元数据处理单元106生成iaug实体组作为组信息。该iaugEntityToGroupBox是用于识别用于将一个音频轨与图像项或实体组相关联的目的的实体组的Box。该iaugEntityToGroupBox的组类型为“iaug”,这指示这是音频和项的一个或多于一个组。
接着,在S906中,在SlideshowEntityToGroupBox中选择并存储的图像的图像属性信息中设置单独指定的切换效果,并且在S907中处理结束。如上所述,在本实施例中,允许在iaug实体组中所存储的entity_id其中一个中指定音频轨ID,并且允许在entity_id中的另一个中指定实体组的图像项ID或组ID。根据本实施例,不仅允许将音频轨与幻灯片组相关联,而且还允许在其他实体组(例如,全景实体组、突发实体组等)中将实体组与音频轨相关联。在本实施例中,可以向iaug实体组添加标志,以指定在图像被显示了比音频轨的持续时间长的时间段的情况下、播放器是否应重复音频的重放。注意,可以在不使用标志的情况下将该操作定义为默认操作。例如,在幻灯片被显示了比在音频轨持续时间中指定的持续时间长的时间段时,只要继续幻灯片显示,就重复地重放音频轨。
在SlideshowEntityToGroupBox中所存储的项ID与音频轨相关联的情况下,允许将音频轨与整个组相关联。也就是说,这是如下情况:当在iaug实体组中图像项和音频轨相关联时,其项ID存储在SlideshowEntityToGroupBox中。在这种情况下,在iaug实体组中指定的音频轨不仅应用于关联的图像项,而且该音频轨应用于整个组,使得在播放包括该图像项的SlideshowEntity组的幻灯片时播放音频轨。在存在多个这样的iaug组的情况下,可以选择多个iaug组其中之一,或者可以在重放项ID时开始音频轨的重放,并且可以在播放与下一音频轨相关联的图像项时切换音频轨。在这种情况下,第一次显示与音频轨相关联的图像项,可以开始播放音频轨,或者可以在开始幻灯片时开始播放音频轨。可替代地,仅在PrimaryItemBox中指定的项ID是iaug组并存储在SlideshowEntityToGroupBox中的情况下才可以播放具有音频的幻灯片。可替代地,可以扩展SlideshowEntityToGroupBox,使得第一个entity_id用于指定音频轨的ID,并且为了关联音频轨,在第一个entity_id中指定其音频轨ID。在没有关联音频轨的情况下,可以在第一个entity_id中指定在文件中未使用的诸如0等的值以指示感兴趣的幻灯片组不包括音频。
幻灯片重放处理
接着,参考图4来说明播放媒体文件中所存储的幻灯片的处理。图4是示出播放媒体文件中的幻灯片的处理的流程图。更具体地,图4示出播放根据HEIF文件格式存储了一个或多于一个静止图像的文件的处理流程。图4的流程图中的各步骤表示由CPU 102、图像编码/解码处理单元105、元数据处理单元106或音频编码/解码处理单元110通过软件执行的处理。在以下的说明中,“CPU 102”的描述意味着由CPU 102执行的软件处理。
媒体文件中所述的幻灯片的重放处理从S401开始。首先,在S402中,CPU 102从RAM103或ROM 104上所存储的HEIF文件获取元数据存储区域510(MetaBox(meta))中所存储的元数据。接着,在S403中,CPU 102分析S402中所获取到的元数据。在S404中,CPU 102基于分析结果来判断在该元数据中是否存储有与幻灯片相关的元数据。在该元数据中存储有与幻灯片相关的元数据的情况下(S404中为“是”),处理进入S405,否则(S404中为“否”),处理进入S419。在处理进入S419的情况下,媒体文件生成设备100执行用以重放HEIF文件中所存储的代表图像的处理。在S419和S420中,获取并解码作为代表图像所指定的图像的编码数据,并且将如此得到的图像数据存储在缓冲器中。在S421中,显示代表图像,并且在S422中处理结束。
在S405中,进一步判断音频是否与同幻灯片相关的元数据相关联。在音频与幻灯片的元数据相关联的情况下(S405中为“是”),处理进入S406,否则(S405中为“否”),处理进入S415。在处理进入S415的情况下,媒体文件生成设备100执行用以重放HEIF文件中所存储的无音频的幻灯片的处理。在S415中,图像编码/解码处理单元105按在幻灯片中要显示图像的顺序获取图像数据。通过基于元数据中所存储的指示媒体文件中的位置的位置信息指定编码数据存储区域550(MediaDataBox(mdat))中的位置,来获取图像数据。在S416中,图像编码/解码处理单元105对要显示的图像数据进行解码,并且在S417中将解码图像数据暂时存储在缓冲器中。随后,在S418中,CPU 102根据元数据中所描述的属性信息和由应用确定的显示时间在显示单元107上显示图像。重复地执行S415至S418中的处理,以将HEIF文件中所存储的图像顺次显示在显示单元107上。尽管在本实施例中未示出,但当显示了作为幻灯片所存储的所有图像时,CPU 102可以控制显示单元107以重复从开头图像起显示或者结束幻灯片的显示。
在步骤S406中,CPU 102从RAM 103或ROM 104上所存储的HEIF文件获取与幻灯片的元数据相关联的音频的元数据。更具体地,从存储区域530(MoovieBox(moov))中所存储的元数据获取与音频轨有关的元数据。在S407中,CPU 102分析S406中所获取到的元数据,并且音频编码/解码处理单元110获取要重放的编码音频数据。通过基于元数据中所存储的指示媒体文件中的位置的位置信息指定编码数据存储区域550(MediaDataBox(mdat))中的位置,来获取编码音频数据。在S408中,音频编码/解码处理单元110对要重放的音频数据进行解码,并且在S409中,将解码后的音频数据暂时存储在缓冲器中。在S410中,图像编码/解码处理单元105按在幻灯片中要显示图像的顺序获取图像数据。通过基于元数据中所存储的指示媒体文件中的位置的位置信息指定编码数据存储区域550(MediaDataBox(mdat))中的位置,来获取图像数据。在S411中,图像编码/解码处理单元105对要显示的图像数据进行解码,并且在S412中将解码图像数据暂时存储在缓冲器中。在S413中,判断媒体文件生成设备(重放设备)的音频输出是否有效。这通过检查软件设置(诸如音频输出单元111是否被设置为静音或者该装置是否被启用等)来判断。该判断还包括硬件连接的检查,诸如是否提供了音频输出装置等。例如,判断是否连接了头戴式耳机或扬声器。在重放设备的音频输出有效的情况下(S413中为“是”),处理进入S414,否则(S413中为“否”),处理进入S418。在S414中,开始缓冲器中所存储的音频数据的重放。随后,在S418中,CPU 102根据元数据中所描述的属性信息和由应用确定的显示时间在显示单元107上显示图像。重复地执行从S410到S412和S418的处理,以将HEIF文件中所存储的图像顺次显示在显示单元107上。尽管在本实施例中未示出,但当显示了作为幻灯片所存储的所有图像时,CPU 102可以控制显示单元107以从开头图像起重复显示或者结束幻灯片的显示。在音频数据的重放完成的情况下(在所存储的样本被重放直到最后的情况下),可以进行控制,以从头开始重复地重放音频数据,或者仅停止音频数据的重放。可以如由上述的具有音频的幻灯片的元数据中所包括的flags等所指定的进行音频重放。在元数据指定了在显示特定图像数据之后开始音频数据的重放的情况下,可以以这种方式控制流程。
如上所述,根据本实施例,通过对在幻灯片中要使用的音频和图像分组,可以有效地将HEIF文件中所存储的多个图像和音频数据与在幻灯片中要使用的意图相关联。另外,可以通过在不将图像以运动图像格式存储的情况下将图像作为图像和音频数据的组进行存储来容易地识别和存储图像。
另外,通过将派生图像存储在幻灯片组中,可以将派生图像显示为具有音频的幻灯片。派生图像的示例是身份图像(iden)、网格图像(grid)和叠加图像(iovl)等。
还可以使用不同的组ID将多个幻灯片组存储在一个文件中,并且还可以将多个幻灯片表现存储在一个文件中。另外,通过将幻灯片重放所用的多个图像、音频和播放列表信息存储在单个文件中,可以将幻灯片重放所用的信息作为单个文件进行处理,这使得提高了可携带性。
第二实施例
在第一实施例中,说明了用于将一个音频(声音)数据与幻灯片相关联的方法。在以下所述的第二实施例中,关联多个音频数据,并且在幻灯片期间切换这多个音频数据。根据第二实施例的媒体文件生成设备具有与根据第一实施例的图1所述的结构相同的结构。以上参考图2所述的媒体文件生成处理可以应用于第二实施例。然而,在图2所示的从S208到S210的存储音频数据的处理中,存储指定的音频数据。生成具有音频的幻灯片的元数据的处理(S211)以及重放流程与根据第一实施例的这两者不同。因此,第二实施例的说明将参考图12、图13、图14、图15和图16来集中于S211的处理以及重放处理流程。
图12示出根据本实施例的生成具有音频的幻灯片的元数据的处理的流程图。该处理从S1201开始。首先,在S1202中,CPU 102从要存储在HEIF文件中的图像数据中选择幻灯片中要显示的一个或多于一个图像数据,并确定这些图像数据的显示顺序。在本实施例中,没有指定与HEIF文件中所存储的幻灯片中要显示的图像的显示时间(时间段)有关的信息。也就是说,在生成文件时不指定值,并且在重放文件时确定任意值。然而,可以确定显示时间并存储在文件中。接着,在S1203中,CPU 102选择在进行幻灯片时要重放的音频数据,并从元数据获取音频轨ID。在该处理中,可以选择多个音频数据,或者可以选择仅一个音频数据。S1202和S1203中的选择处理可以基于媒体文件生成设备100中预先设置的信息或者基于用户经由用户接口单元108所进行的操作等来进行。接着,在S1204中,选择幻灯片显示图像,使得当在幻灯片中显示所选择的图像时开始所选择的音频数据。在选择了多个音频数据的情况下,针对各音频数据进行选择图像的处理。当在幻灯片中显示这里选择的图像时,开始相应的音频数据的重放。
接着,在S1205中,元数据处理单元106生成具有音频的幻灯片的组的元数据,并按要显示图像的顺序设置图像项ID。接着,在S1206中,紧挨在具有音频的幻灯片组中所存储的并且与触发音频数据的重放开始的所选择图像相对应的图像项ID之前插入音频轨ID。更具体地,元数据处理单元106生成用于对在幻灯片中要显示和重放的图像和音频数据进行分组的信息(组信息)。将该组信息作为元数据存储在图5所示的区域519(GroupsListBox(grpl))中。在HEIF中,在grpl中存储与诸如图像数据等的项和轨有关的组信息。向组信息指派用作组识别信息的组ID以及组类型,由此在HEIF文件中识别组。在本实施例中,在S1205和S1206中,元数据处理单元106生成具有音频的幻灯片组信息(SlideshowWithAudioEntityToGroupBox)作为组信息。图13示出SlideshowWithAudioEntityToGroupBox的数据格式。派生出的SlideshowWithAudioEntityToGroupBox的EntityToGroupBox的数据格式与图7所示的数据格式是共同的。注意,不允许连续地设置轨ID。在连续地存储轨ID的文件的情况下,在重放中忽略这些轨ID其中之一。可替代地,可以在重放处理中将与两个(或多于两个)连续轨ID相对应的两个(或更大数量个)音频数据作为包括一系列音频数据的一个音频数据进行处理。在这种情况下,当第一个轨ID的重放完成时,重放后续的轨ID。在后续图像项ID之后轨ID出现的情况下,将重放新出现的轨ID的声音/语音。
元数据处理单元106生成根据图13所示的数据格式的数据,并将该数据存储在grpl中(参见图5所示的区域520)。该SlideshowWithAudioEntityToGroupBox是用于识别用于显示包括具有音频的多个图像的集合的幻灯片的目的的实体组的Box。该SlideshowWithAudioEntityToGroupBox的组类型是如描述1301中所述的“slda”,其指示具有音频的幻灯片所用的轨和项的组。
图13所示的数据格式是从EntityToGroupBox的扩展。因此,图7所示的描述701中的group_id和描述702中的num_entries_in_group是单独指定的。
在描述1303中,num_entries_in_group具有与描述702中所指定的值相同的值。在描述703中,entity_id指示轨ID或项ID。在S1205中,在entity_id中根据要显示图像的顺序来指定在幻灯片中要显示的所选择图像的项ID。接着,在S1206中,通过将轨ID插入到S1205中指定的项ID中来指定轨ID。之后,设置描述1304中的flags以识别其是音频轨还是图像项。例如,定义了audio_flag(例如具有值1)。这意味着,当flags&audio_flag为正(真)时,entity_id为音频轨ID。当flags&audio_flag为负(假)时,entity_id为图像项。注意,HEIF文件中所存储的具有音频的幻灯片组不包括与要再现和显示所存储图像的时间(时间段)相关的信息。在这种情况下,由于HEIF文件中所存储的音频轨是与时间信息相关联的呈现信息,因此存在音频轨的重放可能较早结束的可能性。为了应对上述情形,使用描述1302中所示的flags作为用于指定当在幻灯片的重放的中途结束音频轨数据的重放时所要进行的行为的信息。更具体地,定义了audio_play_loop(例如,具有值1),并且当flags&audio_play_loop为正(真)时,重复地播放音频轨。另一方面,当flags&audio_play_loop为负(假)时,指定了即使在音频轨的重放已完全结束之后继续幻灯片的显示,也不进行进一步的音频重放。注意,可以在不使用flags的情况下将上述操作定义为默认。注意,ISOBMFF在TrackBox(trak)中的EditBox(edts)中定义EditListBox(elst)。该Box具有用以指示呈现时间和媒体时间之间的映射的Box构造。类似地,在该Box中还定义flags以指定是否重复地播放编辑列表。也就是说,可以指定是否要重复音频轨。另一方面,通过使用上述的iaugEntityToGroupBox中所提供的flags,可以设置是否重复音频轨的重放。因此,即使当针对多个iaug组指定相同的音频轨时,也可以指定针对各单独组指定是否重复音频轨。在这种情况下,优选忽略(覆盖)使用EditListBox所指定的重复设置,并且仅在iaugEntityToGroupBox中指定的flags设置是有效的。另一方面,可以考虑到这两个flags设置来进行操作。更具体地,在任一设置指定重复的情况下,只要继续显示组中所指定的图像,就重复地重放音频轨。可替代地,仅在这两个flags设置都指定重复的情况下,才可以重复音频轨的重放。例如,在幻灯片被显示了比在音频轨持续时间中指定的持续时间长的时间段的情况下,只要继续幻灯片显示,就重复地重放音频轨。在本实施例中,图13的描述1304中所述的flags可以指定感兴趣的ID是音频轨ID还是图像项ID。也就是说,由于1位的指派对于flags是足够的,因此可以使用图14所示的格式。更具体地,将描述1304中的flags修改为如描述1401所示的具有1位配置的flag,并且用于识别其是音频轨还是图像项。在这种情况下,无法实现位大小对齐。为了应对该情况,数据格式包括在描述1402中指定的填充数据,以调整位大小的对齐。另一方面,即使在幻灯片组中指定的图像的显示结束之后,也可以继续音频轨的重放。更具体地,以与音频重复设置的flags相同的方式定义audio_play_completely(例如,具有值4)。在flags&audio_play_completely为正(真)的情况下,即使在幻灯片中的图像的显示结束之后,也继续音频的重放。在flags&audio_play_completely为负(假)的情况下,当幻灯片中的图像的显示结束时,即使音频轨的重放在进行中,也终止音频轨的重放。
接着,在S1207中,在所选择图像的图像属性信息中设置单独指定的切换效果,然后在S1208中结束处理。
在本实施例中,可以使用flags来指示SlideshowWithAudioEntityToGroupBox中所存储的entity_id是音频轨ID还是图像项ID。然而,在可以唯一地识别轨ID和项ID的情况下,这些flags是不需要的。更具体地,存在具有unif类的HEIF文件的情况、以及SlideshowWithAudioEntityToGroupBox存储在MetaBox的顶层(而不是moovBox内的metaBox中)的情况。另一方面,通过允许通过flag识别ID是项ID还是轨ID,可以限制在重放处理期间获取到ID值的范围,这使得处理效率提高。在替代方法中,音频数据可以被定义为项并且在entity_id中指定。在这种情况下,需要进一步的处理来定义音频项和实际音频数据之间的关联并存储该定义。参考图15来说明根据上述流程在HEIF文件的内部构造中存储值(数据)的示例。图15是示出根据本实施例输出的HEIF文件的示例的图。在图15所示的该示例中,在描述1501中的PrimaryItemBox(pitm)中存储1作为item_ID。注意,可以扩展PrimaryItemBox,以通过在Box中指定ID来指定识别具有音频的幻灯片的组的组ID。更具体地,指定组ID以识别后面将说明的SlideshowWithAudioEntityToGroup(slda)。在这种情况下,指定作为后面所述的group_id的1001作为ID。然而,在这种情况下,ID值对于项ID和组ID值必须是唯一可识别的。描述1502中所述的ItemInfoBox使得能够通过item_ID来识别各图像项,这指示由item_ID识别的图像项是什么类型。这里描述了item_ID为1的图像项具有类型“hvc1”,这指示该图像项是HEVC编码图像。类似地,将具有直到item_ID 48的所有图像项都作为HEVC编码图像进行存储。描述1503中所述的ItemLocationBox(iloc)指示各图像数据位流在文件中的存储位置。在描述1504中所述的ItemPropertiesBox(iprp)中的ItemPropertyContainerBox(ipco)中,存储指示图像属性信息的ItemProperty,其中hvcC指示HEVC编码参数,并且ispe是指示图像大小的属性信息。描述1505描述指示各图像项和属性信息之间的关联的ItemPropertyAssociationBox(ipma)。图像项与ipco中的属性信息一对一地相关联。例如,item_ID 1至item_ID 48与共同的ispe相关联,这指示共同的图像大小。描述1506描述SlideshowWithAudioEntityToGroupBox(slda),其中指定1001作为group_id,并且指定50作为组的条目数量。所指定的entity_id指示音频轨的轨ID或图像项的项ID,其中具有flag=1的entity_id指示轨ID,并且具有flag=0的entity_id指示项ID。当该flag被设置为1时,参考后面将说明的TrackBox中的TrackHeaderBox中所述的轨ID。另一方面,当该flag被设置为0时,参考上述的描述1502中的ItemInfoBox中所述的轨ID。结果,即使在不能唯一地识别ID值的情况下,也可以判断是参考项ID还是轨ID。也就是说,存储用于重放和显示具有音频的幻灯片的信息。
描述1507和1508各自描述MovieBox(moov)中所存储的TrackBox(trak),其中与音频呈现有关的信息是以Box构造存储的。TrackBox还存储TrackHeaderBox(tkhd)和MediaBox(mdia)。在TrackHeaderBox中,flags指示3,这指示该轨包含音频数据。在描述1507中描述了TrackID为1,而在描述1508中描述了TrackID为2,这指示该ID用于音频轨。这是作为SlideshowWithAudioEntityToGroupBox中的具有flag=1的entity_id进行描述的ID值。此外,MediaBox(mdia)存储MediaHeaderBox(mdhd)、HandlerBox(hdlr)和MediaInformationBox(minf)。MoovieHeaderBox、TrackHeaderBox和MediaHeaderBox存储与生成时间、编辑时间、时标和持续时间有关的信息。
HandlerBox(hdlr)指定“soun”作为用于识别音频轨的hdlrType。由于音频轨,MediaInformationBox(minf)存储SoundMediaHeaderBox(smhd)。在DataInformationBox(dinf)中存储指示编码音频数据的存储位置的信息。尽管在该图中没有示出细节,但在SampleTableBox(stbl)中存储与各音频样本有关的信息。更具体地,使用SampleDescriptionBox(stsd)存储与音频编码等有关的信息。将指示各样本的大小的信息存储在SampleSizeBox(stsz)中。另外,使用TimeToSampleBox(stts)、SampleToChunkBox(stsc)和ChunkOffsetBox(stco)存储与音频样本相关的信息。
在本实施例中,如上所述,将用于重放和显示具有音频的幻灯片的音频和图像分组在一起,并且在进行幻灯片时,将与各图像有关的属性信息应用于该图像。然而,可以采用不同的配置,只要对多个音频数据和多个图像进行分组并存储即可。例如,可以首先形成各自基于第一实施例的具有一个音频数据的多个幻灯片组,然后可以将这些组分组以形成具有多个音频的幻灯片组。更具体地,在图6所示的SlideshowWithAudioEntityToGroupBox中定义了具有音频的一个幻灯片,然后将SlideshowWithAudioEntityToGroupBox的组ID存储为图11所示的SlideshowEntityToGroupBox中的entity_id。类似地,可以形成使用基于第一实施例的iaug实体组的具有音频的多个幻灯片,并且可以将组ID存储在SlideshowEntityToGroupBox的entity_id中。因此,在存储具有音频的多个幻灯片组的HEIF文件中,可以指定这些组的重放顺序,这使得可以以更有效的方式重放幻灯片。此外,在本实施例中,通过扩展幻灯片组,可以存储音频轨ID。注意,通过进行类似的扩展,可以将组配置为不仅在幻灯片中而且在其他实体组中都包括轨ID和项ID的混合。可替代地,可以配置SlideshowWithAudioEntityToGroupBox的数据格式,使得按将显示图像的顺序通过entity_id来指定图像项,并且在另一列表中指定音频轨ID。可以将指定响应于显示相应图像而要播放的音频轨ID的图像项ID添加到音频轨ID的列表,由此实现切换音频的重放的组。还可替代地,可以配置SlideshowWithAudioEntityToGroupBox的数据格式,使得指定音频轨ID和图像项ID,并且索引信息指定图像项和响应于显示相应图像而要重放的相应音频轨ID。
幻灯片重放处理
接着,参考图16来说明用于播放媒体文件中所存储的幻灯片的处理。注意,在图16所示的重放处理流程中,假定将具有音频的幻灯片组存储在媒体文件中。在图4的S404或S405中判断为“否”的情况下,以下的处理流程与图4所示的处理流程类似,因此省略了其说明。图16是示出播放媒体文件中的幻灯片的处理的流程图。更具体地,图16示出播放存储了根据HEIF文件格式的一个或多于一个静止图像的文件的处理流程。图16的流程图的各步骤表示由CPU 102、图像编码/解码处理单元105、元数据处理单元106或音频编码/解码处理单元110通过软件执行的处理。在以下的说明中,“CPU 102”的描述意味着由CPU 102执行的软件处理。
媒体文件中所述的幻灯片的重放从S1601开始。首先,在S1602中,CPU 102从RAM103或ROM 104上所存储的HEIF文件获取元数据存储区域510(MetaBox(meta))中所存储的元数据。接着,在S1603中,CPU 102分析S1602中所获取到的元数据。在S1604中,按存储实体ID的顺序获取具有音频的幻灯片组中所存储的实体ID,并分析所获取到的实体ID。
在S1605中,判断分析是否指示实体ID是音频轨ID。更具体地,检查图13所示的flags的值以判断标志值是否指示音频。在指示了音频轨ID的情况下(S1605中为“是”),处理进入S1606,否则(S1606中为“否”),处理进入S1609。在处理进入S1609的情况下,媒体文件生成设备100执行用以对HEIF文件中所存储的编码图像数据进行解码的处理。在S1609和S1610中,获取并解码与项ID相对应的图像的编码数据,并且处理进入S1608。
在S1606中,获取与实体ID相对应的音频轨ID的元数据。更具体地,从存储区域530(MoovieBox(moov))中所存储的元数据获取与音频轨有关的元数据。音频编码/解码处理单元110分析所获取到的元数据并获取要重放的编码音频数据。通过基于元数据中所存储的指示媒体文件中的位置的位置信息指定编码数据存储区域550(MediaDataBox(mdat))中的位置,来获取编码音频数据。在S1607中,音频编码/解码处理单元110对要重放的音频数据进行解码,并且处理进入S1608。
在S1608中,将解码图像数据或音频数据按获取解码数据的顺序暂时存储在缓冲器中。
在S1611中,判断是否获取到具有音频的幻灯片组中所存储的所有实体ID、并且相应的图像或音频的编码数据的解码是否完成。在与所有实体ID相对应的处理没有完成的情况下(S1611中为“否”),处理进入S1604以重复直到S1611的处理。在该处理已完成的情况下(S1611中为“是”),处理进入S1612。在根据本实施例的上述流程中,对与所有实体ID相对应的编码数据进行解码,并且将所有解码数据存储在缓冲器中。然而,这些处理可以并行地进行。在这种情况下,并行地进行后续的显示/重放处理和解码处理。此外,在这种情况下,尽管允许减小缓冲器容量,但在进行显示和重放之前必须完成下一数据的解码处理。
接着,在S1612中,将在直至S1611的处理中存储在缓冲器中的图像数据和音频数据的解码数据按将该图像数据和音频数据存储在缓冲器中的顺序获取。在S1613中判断为所获取到的解码数据是音频数据的情况下(S1613中为“是”),处理进入S1614,否则(S1613中为“否”),处理进入S1616。在S1614中,判断媒体文件生成设备(重放设备)的音频输出是否有效。这通过检查软件设置(诸如音频输出单元111是否被设置为静音或者该装置是否被启用等)来判断。该判断还包括检查硬件连接,诸如是否提供了音频输出装置等。例如,判断是否连接了头戴式耳机或扬声器。在重放设备的音频输出有效的情况下(S1614中为“是”),处理进入S1615,否则(S1614中为“否”),处理进入S1612以重复该处理。在S1615中,开始缓冲器中所存储的音频数据的重放。在另一音频的重放在进行中的情况下,将重放从当前正在重放的音频切换到所获取到的音频数据。然后,处理进入S1612以重复该处理。
随后,在S1616中,CPU 102根据元数据中所描述的属性信息和由应用确定的显示时间在显示单元107上显示图像。然后,在S1617中,判断是否显示了缓冲器中所存储的幻灯片组的所有图像。在显示了所有图像的情况下,处理进入S1618,并且该处理结束。否则,处理进入S1612,并且重复该处理。
尽管在本实施例中未示出,但在显示了作为幻灯片所存储的所有图像的情况下,CPU 102可以控制显示单元107以从开头图像起重复显示或者结束幻灯片的显示。在音频数据的重放完成的情况下(在所存储的样本被重放直到最后的情况下),可以进行控制,以从头开始重复地重放音频数据,或者仅停止音频数据的重放。可以如由上述的具有音频的幻灯片的元数据中所包括的flags等所指定的进行音频重放。在元数据指定了在显示特定图像数据之后开始音频数据的重放的情况下,可以以这种方式控制流程。
在本实施例中,如上所述,将在具有音频的幻灯片中要显示和重放的一个或多于一个图像和一个或多于一个音频数据分组在一起,并且在进行具有音频的幻灯片时,将各图像的属性信息应用于该图像。
如上所述,根据本实施例,通过对在幻灯片中要使用的音频和图像分组,可以有效地将HEIF文件中所存储的多个图像和音频数据与在幻灯片中要使用的意图关联。另外,可以通过在不将图像以运动图像格式存储的情况下将图像作为图像和音频数据的组进行存储来容易地识别和存储图像。另外,通过将派生图像存储在幻灯片组中,可以将派生图像显示为具有音频的幻灯片。派生图像的示例是身份图像(iden)、网格图像(grid)和叠加图像(iovl)等。还可以使用不同的组ID将多个幻灯片组存储在一个文件中,并且还可以将多个幻灯片表现存储在一个文件中。另外,可以将多个音频轨应用于一个幻灯片,这使得可以以更灵活的方式重放具有音频的幻灯片。另外,通过将幻灯片重放所用的多个图像、音频和播放列表信息存储在单个文件中,可以将幻灯片重放所用的信息作为单个文件进行处理,这使得提高了可携带性。
以上从媒体文件生成处理和生成媒体文件中所存储的具有音频的幻灯片的元数据的处理方面说明了各种实施例。如图5所示,根据各实施例所生成的HEIF媒体文件具有ftyp、meta、moov和mdat布置在层次结构中的最高层的构造。然而,媒体文件生成设备所生成的HEIF文件不限于具有该内部构造。例如,根据上述实施例其中之一生成HEIF文件,然后可以将运动图像数据一起存储在HEIF文件中。
在HEIF文件包括时间上连续的静止图像的序列的情况下,必须将静止图像的序列作为视频轨定义在HEIF中,使得图像显示应用可以连续地显示图像。HEIF文件可能必须具有除包括meta之外还包括运动图像的moov元数据的文件构造。在上述各个实施例中,生成HEIF文件,使得将幻灯片所用的多个图像数据的信息存储在meta中。这使得可以与生成用以存储图像序列的HEIF文件相比更高效地生成HEIF文件。
在上述实施例中,使用HEIF作为文件格式的示例,但可以使用任何其他文件格式,只要其允许将多个图像数据以及一个或多于一个音频数据存储在一个文件中并且将与它们相关联的元数据保持在该文件中即可。
可以将用于进行控制的一部分或全部以实现上述实施例其中之一的功能的计算机程序(软件)经由网络或各种类型的存储介质供给至摄像设备或信息处理设备。该摄像设备或信息处理设备中的计算机(或CPU或MPU等)可以读取该程序并执行该程序。
本发明不限于上述实施例,而且可以在没有背离本发明的精神和范围的情况下进行各种改变和修改。因此,添加了所附权利要求书以公开本发明的范围。
本申请基于2020年9月28日提交的日本专利申请2020-162751和2020年12月18日提交的日本专利申请2020-210739而要求优先权,这两个申请的全部内容通过引用而被并入于此。
Claims (17)
1.一种媒体文件生成设备,其被配置为生成根据预定文件格式的媒体文件,所述媒体文件具有用于存储图像数据和音频数据的数据区域以及用于存储与图像数据和音频数据相关的元数据的元数据区域,所述媒体文件生成设备包括:
确定部件,其被配置为从所述数据区域中确定多个图像数据以及音频数据;
元数据处理部件,其被配置为将与同用于识别各个图像数据的多个识别信息和用于识别音频数据的识别信息相关联的幻灯片组有关的信息以及用于指示多个图像数据和音频数据在所述数据区域中的位置的位置信息存储在所述元数据区域中;以及
存储部件,其被配置为将元数据、多个图像数据以及音频数据存储在单个媒体文件中。
2.根据权利要求1所述的媒体文件生成设备,其中,所述元数据处理部件生成用于对多个图像进行分组的信息,使得通过将多个识别信息存储在用于分组的信息中的顺序来指定多个图像要显示的顺序。
3.根据权利要求1或2所述的媒体文件生成设备,其中,多个图像中的一个或多于一个图像是构成多个子图像的派生图像。
4.根据权利要求1至3中任一项所述的媒体文件生成设备,其中,与组有关的信息包括音频数据的识别信息和用于识别将多个图像分组而得的组的组识别信息。
5.根据权利要求1至4中任一项所述的媒体文件生成设备,其中,
所述确定部件确定多个音频数据,
所述元数据处理部件生成用于对多个音频进行分组的信息,以及
与组有关的信息包括用于识别将多个音频分组而得的组的信息以及用于识别将多个图像分组而得的组的组识别信息。
6.根据权利要求1至4中任一项所述的媒体文件生成设备,其中,在与组有关的信息中存储识别信息,使得以预定特定顺序所存储的一个或多于一个识别信息识别音频并且按其他顺序所存储的多个识别信息识别图像或组。
7.根据权利要求1至4中任一项所述的媒体文件生成设备,其中,
所述元数据处理部件存储针对各个图像的多个识别信息和针对音频数据的识别信息,使得所述多个识别信息和针对音频数据的识别信息分别提供唯一识别,
并且将针对多个图像的多个识别信息和针对音频的识别信息中的针对音频的识别信息按任意顺序存储,
使得在将多个图像按图像存储的顺序显示时,重放该音频。
8.根据权利要求1至3中任一项所述的媒体文件生成设备,其中,与组有关的信息还包括如下的信息,该信息用于指示组中所存储的针对图像数据的多个识别信息和针对音频数据的识别信息是图像识别信息还是音频识别信息。
9.根据权利要求1至8中任一项所述的媒体文件生成设备,其中,所述元数据处理部件还包括如下的信息,该信息用于指示在连续地显示多个图像的中途、被指定为在显示多个图像时所要重放的音频数据的重放结束的情况下,是否要重复音频数据的重放。
10.根据权利要求1至9中任一项所述的媒体文件生成设备,其中,所述预定文件格式是HEIF即高效率图像文件格式。
11.一种媒体文件重放设备,其被配置为重放根据预定文件格式的媒体文件,所述媒体文件具有用于存储图像数据和音频数据的数据区域以及用于存储与图像数据和音频数据相关的元数据的元数据区域,所述媒体文件重放设备包括:
元数据处理部件,其被配置为处理元数据,所述元数据用于存储与同用于识别各个图像数据的多个识别信息和用于识别音频数据的识别信息相关联的幻灯片组有关的信息以及用于指示多个图像数据和音频数据在所述数据区域中的位置的位置信息;
获取部件,其被配置为基于对所述元数据的处理的结果来获取多个图像数据以及音频数据;以及
重放部件,其被配置为重放多个图像数据以及音频数据。
12.根据权利要求8所述的媒体文件重放设备,其中,根据多个识别信息存储在组中的顺序来确定用于指示该组中所存储的多个图像要显示的顺序的信息。
13.一种媒体文件生成方法,用于生成根据预定文件格式的媒体文件,所述媒体文件具有用于存储图像数据和音频数据的数据区域以及用于存储与图像数据和音频数据相关的元数据的元数据区域,所述媒体文件生成方法包括:
从所述数据区域中确定多个图像数据以及音频数据;
处理元数据,以将与同用于识别各个图像数据的多个识别信息和用于识别音频数据的识别信息相关联的幻灯片组有关的信息以及用于指示多个图像数据和音频数据在所述数据区域中的位置的位置信息存储在所述元数据区域中;以及
将元数据、多个图像数据以及音频数据存储在单个媒体文件中。
14.一种媒体文件重放方法,用于重放根据预定文件格式的媒体文件,所述媒体文件具有用于存储图像数据和音频数据的数据区域以及用于存储与图像数据和音频数据相关的元数据的元数据区域,所述媒体文件重放方法包括:
处理元数据,所述元数据用于存储与同用于识别各个图像数据的多个识别信息和用于识别音频数据的识别信息相关联的幻灯片组有关的信息以及用于指示多个图像数据和音频数据在所述数据区域中的位置的位置信息;
基于对所述元数据的处理的结果来获取多个图像数据以及音频数据;以及
重放多个图像数据以及音频数据。
15.一种程序,其被配置为使得计算机执行媒体文件生成方法,所述媒体文件生成方法用于生成根据预定文件格式的媒体文件,所述媒体文件具有用于存储图像数据和音频数据的数据区域以及用于存储与图像数据和音频数据相关的元数据的元数据区域,所述媒体文件生成方法包括:
从所述数据区域中确定多个图像数据以及音频数据;
处理元数据,以将与同用于识别各个图像数据的多个识别信息和用于识别音频数据的识别信息相关联的幻灯片组有关的信息以及用于指示多个图像数据和音频数据在所述数据区域中的位置的位置信息存储在所述元数据区域中;以及
将元数据、多个图像数据以及音频数据存储在单个媒体文件中。
16.一种程序,其被配置为使得计算机执行媒体文件重放方法,所述媒体文件重放方法用于重放根据预定文件格式的媒体文件,所述媒体文件具有用于存储图像数据和音频数据的数据区域以及用于存储与图像数据和音频数据相关的元数据的元数据区域,所述媒体文件重放方法包括:
处理元数据,所述元数据用于存储与同用于识别各个图像数据的多个识别信息和用于识别音频数据的识别信息相关联的幻灯片组有关的信息以及用于指示多个图像数据和音频数据在所述数据区域中的位置的位置信息;
基于对所述元数据的处理的结果来获取多个图像数据以及音频数据;以及
重放多个图像数据以及音频数据。
17.一种计算机可读存储介质,其存储有根据权利要求15或16所述的程序。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020-162751 | 2020-09-28 | ||
JP2020162751 | 2020-09-28 | ||
JP2020210739A JP7321991B2 (ja) | 2020-09-28 | 2020-12-18 | メディアファイルの生成装置、メディアファイルの再生装置、メディアファイルの生成方法、メディアファイルの再生方法、プログラム、記憶媒体 |
JP2020-210739 | 2020-12-18 | ||
PCT/JP2021/034698 WO2022065335A1 (ja) | 2020-09-28 | 2021-09-22 | メディアファイルの生成装置、メディアファイルの再生装置、メディアファイルの生成方法、メディアファイルの再生方法、プログラム、記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116210216A true CN116210216A (zh) | 2023-06-02 |
Family
ID=80845449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180066092.1A Pending CN116210216A (zh) | 2020-09-28 | 2021-09-22 | 媒体文件生成设备、媒体文件重放设备、媒体文件生成方法、媒体文件重放方法、程序和存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230229689A1 (zh) |
EP (1) | EP4221191A1 (zh) |
JP (1) | JP2023126655A (zh) |
CN (1) | CN116210216A (zh) |
WO (1) | WO2022065335A1 (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007013918A (ja) * | 2005-06-30 | 2007-01-18 | Neucore Technol Inc | 電子式ビジュアル・ジョッキー機能を有するデジタル・カメラとそのためのファイル |
JP5377050B2 (ja) * | 2009-04-16 | 2013-12-25 | キヤノン株式会社 | 画像処理装置及びその制御方法、並びにプログラム |
JP2011078139A (ja) * | 2011-01-17 | 2011-04-14 | Nikon Corp | 画像再生装置、音楽加工プログラム、および画像再生プログラム |
JP5532344B2 (ja) * | 2011-09-28 | 2014-06-25 | 株式会社東芝 | 電子機器、画像データの表示方法およびプログラム |
GB2538997A (en) | 2015-06-03 | 2016-12-07 | Nokia Technologies Oy | A method, an apparatus, a computer program for video coding |
JP7388823B2 (ja) | 2019-03-28 | 2023-11-29 | 大和ハウス工業株式会社 | 衣服、安全帯及び衣服本体 |
-
2021
- 2021-09-22 WO PCT/JP2021/034698 patent/WO2022065335A1/ja active Application Filing
- 2021-09-22 EP EP21872464.9A patent/EP4221191A1/en active Pending
- 2021-09-22 CN CN202180066092.1A patent/CN116210216A/zh active Pending
-
2023
- 2023-03-23 US US18/189,040 patent/US20230229689A1/en active Pending
- 2023-07-21 JP JP2023119161A patent/JP2023126655A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022065335A1 (ja) | 2022-03-31 |
JP2023126655A (ja) | 2023-09-07 |
EP4221191A1 (en) | 2023-08-02 |
US20230229689A1 (en) | 2023-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4551668B2 (ja) | 議事録ファイル生成方法、議事録ファイル管理方法、会議サーバおよびネットワーク会議システム | |
JP7409362B2 (ja) | 再生装置および方法、並びにプログラム | |
JP2004349731A (ja) | 画像データ作成装置および画像データ再生装置 | |
JP2005094168A (ja) | ファイル構造及びそれを用いる画像記録装置並びに画像再生装置 | |
CN103428555A (zh) | 一种多媒体文件的合成方法、系统及应用方法 | |
US9241145B2 (en) | Information processing system, recording/playback apparatus, playback terminal, information processing method, and program | |
EP4221191A1 (en) | Media file generation device, media file playback device, media file generation method, media file playback method, program, and recording medium | |
JP7321991B2 (ja) | メディアファイルの生成装置、メディアファイルの再生装置、メディアファイルの生成方法、メディアファイルの再生方法、プログラム、記憶媒体 | |
JP4946935B2 (ja) | 撮像装置 | |
JP2005117083A (ja) | 再生装置、記録装置、再生プログラム、及び再生プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
US20210382931A1 (en) | Information processing apparatus, control method of information processing apparatus, and non-transitory computer-readable storage medium | |
WO2003092285A1 (fr) | Dispositif de demultiplexage | |
JP7457506B2 (ja) | 画像ファイル生成装置、画像ファイル生成方法、画像ファイル再生装置、画像ファイル再生方法、及びプログラム | |
JP2008060622A (ja) | 映像編集システム、映像処理装置、映像編集装置、映像処理方法、映像編集方法、プログラムおよびデータ構造 | |
JP2013141065A (ja) | 撮像装置、及び制御方法 | |
JP2015159484A (ja) | 記録装置、記録方法、プログラム、ならびに撮像装置 | |
US20220121704A1 (en) | Image file creation apparatus, image file creation method, and storage medium | |
JP2013141064A (ja) | 撮像装置、及び制御方法 | |
US20240095387A1 (en) | Image processing apparatus, image processing method, and non-transitory computer-readable storage medium | |
US20120195571A1 (en) | Image processing apparatus | |
WO2004030375A1 (ja) | 画像データ生成装置、画像データ再生装置、画像データ生成方法、画像データ再生方法、画像データ又は画像処理プログラムを記録した記録媒体および画像データ記録装置 | |
JP2020170998A (ja) | 画像処理装置、撮像装置、画像処理方法およびプログラム | |
KR20070114571A (ko) | 복수의 카메라 렌즈를 이용하는 입체영상 촬영장치 및입체영상 촬영방법 | |
JP2021193777A (ja) | 情報処理装置、情報処理装置の制御方法、およびプログラム | |
JP2011103617A (ja) | 映像処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |