CN101471115B

CN101471115B - 拍摄装置和拍摄方法

Info

Publication number: CN101471115B
Application number: CN2008101911800A
Authority: CN
Inventors: 真贝光俊; 柴田贺昭
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-08-31
Filing date: 2008-09-01
Publication date: 2011-08-03
Anticipated expiration: 2028-09-01
Also published as: JP2009060326A; US20090060449A1; CN101471115A; US8059167B2; JP4962783B2

Abstract

提供了拍摄装置和拍摄方法、信息处理装置和信息处理方法以及程序。所述拍摄装置包括：拍摄部件，其拍摄景物；获取部件，其获取环境的声音；以及指定部件，其在以下的每种情况下：在声音的级别已变成等于或大于第一阈值第一时间段或以上的情况下，以及在其后声音的级别已变成小于第二阈值第二时间段或以上的情况下，其将指示该声音的特性特征的电子标记指定到对应于该声音的具有声音的图像中的位置。

Description

拍摄装置和拍摄方法

相关申请的交叉引用

本发明包括涉及2007年8月31日向日本专利局提交的日本专利申请JP2007-225207的主题，其全部内容通过引用合并于此。

技术领域

本发明涉及拍摄装置和拍摄方法、信息处理装置和信息处理方法以及程序。具体地，本发明涉及这样的拍摄装置和拍摄方法、信息处理装置和信息处理方法以及程序，其使得在对具有声音的图像执行非破坏性编辑的情况下，可以容易地将预处理应用到编辑结果的期望的发音者的声音。

背景技术

在现有技术中，在新闻节目或纪录节目中，通常在需要隐藏发音者的身份的情况下应用改变发音者的声音的音调或共振峰的处理。虽然处理后的声音类似于大人或小孩的声音，但多数情况下，该声音还是类似于唐老鸭的声音，因此称之为鸭语。在以下描述中，将声音变为鸭语的处理称之为鸭语处理。

此外，为提高编辑操作的效率，近年来广泛采用了执行非破坏性编辑的编辑设备，在该非破坏性编辑中，在维持拍摄图像或声音原样的同时描述剪切点(Cut point)。应该注意的是，剪切点指的是指示将包括在编辑结果中的拍摄图像或声音段落的开始位置的入口点(In point)，或者指示该段落的结束位置的出口点(Out point)。

作为这种类型的编辑设备，例如，存在这样一种编辑设备，其中当用户规定剪切点时，将指示剪切点的电子标记添加到作为诸如EssenceMark(R)之类的、表示图像特性特征的电子标记的列表的电子标记列表，并且产生用于基于剪切点编辑图像或声音的编辑列表。例如，美国专利No.2004/0244047描述了这样的编辑设备。

发明内容

然而，对在执行非破坏性编辑的编辑设备中将诸如鸭语处理的预处理应用到编辑结果的预定发音者的声音的情形，没有进行任何考虑。因此，对有利于容易地将诸如鸭语处理的预处理应用到编辑结果的期望发音者的声音的电子标记，没有进行任何考虑。

期望在对具有声音的图像进行非破坏性编辑的情况下，允许容易地将预处理应用到编辑结果的期望的发音者的声音。

根据本发明的实施例，提供了拍摄具有声音的图像的拍摄装置，包括：拍摄部件，其拍摄景物；获取部件，其获取环境的声音；以及指定部件，其在以下每种情况下：当声音的级别变成等于或大于第一阈值第一时间段或以上时，以及当其后声音的级别变成小于第二阈值第二时间段或以上时，将指示该声音的特性特征的电子标记指定到对应于该声音的具有声音的图像中的位置。

根据本发明的实施例，提供用于拍摄具有声音的图像的拍摄装置的拍摄方法，包括以下步骤：拍摄景物；获取环境的声音；以及在以下每种情况下：当声音的级别变成大于或等于第一阈值第一时间段或以上的情况，以及其后声音的级别变成小于第二阈值第二时间段或以上的情况，将指示该声音的特性特征的电子标记指定到具有声音的图像中对应于该语音的位置。

根据本发明的实施例，提供使计算机执行拍摄具有声音的图像的拍摄处理的程序，该拍摄处理包括以下步骤：拍摄景物；获取环境的声音；以及在以下每种情况下：声音的级别变成大于或等于第一阈值第一时间段或以上的情况，以及其后声音的级别变成小于第二阈值第二时间段或以上的情况，将指示该声音的特性特征的电子标记指定到具有声音的图像中对应于该语音的位置。

根据本发明的实施例，提供信息处理装置，其执行关于被指定到具有声音的图像并且指示声音的特性特征的电子标记的预处理，包括：接受部件，用于从用户接受唯一信息的输入，该唯一信息是对具有声音的图像内的声音的发音者唯一的信息；以及唯一信息添加部件，添加其输入已经被接受部件接受的唯一信息到被指定到具有声音的图像内对应于该输入的位置的电子标记。

信息处理装置可进一步包括电子标记指定部件，响应于唯一信息的输入，将电子标记指定到具有声音的图像内对应于该输入的位置。

根据本发明的实施例，提供用于信息处理装置的信息处理方法，该信息处理装置执行关于被指定到具有声音的图像并且指示声音的特性特征的电子标记的预处理，包括以下步骤：从用户接受唯一信息的输入，该唯一信息是对具有声音的图像内的声音的发音者唯一的信息；以及添加其输入已经被接受部件接受的唯一信息到被指定到具有声音的图像内对应于该输入的位置的电子标记。

根据本发明的实施例，提供使计算机执行关于被指定到具有声音的图像并且指示声音的特性特征的电子标记的处理的程序，该处理包括以下步骤：从用户接受唯一信息的输入，该唯一信息是对具有声音的图像内的声音的发音者唯一的信息；以及添加其输入已经被接受部件接受的唯一信息到被指定到具有声音的图像内对应于该输入的位置的电子标记。

根据本发明的实施例，景物被拍摄，环境声音被获取，并且在以下每种情况下：声音的级别变成大于或等于第一阈值第一时间段或以上的情况，以及其后声音的级别变成小于第二阈值第二时间段或以上的情况，将指示该声音的特性特征的电子标记指定到具有声音的图像中对应于该语音的位置。

根据本发明的实施例，从用户接受唯一信息的输入，该唯一信息是对于具有声音的图像中的声音的发音者唯一的信息，以及将其输入已被接受部件接受的唯一信息添加到被指定到具有声音的图像中对应于该输入的位置的电子标记。

附图说明

图1是示出根据本发明第一实施例的拍摄和编辑系统的配置的示例的视图；

图2是示出图1所示的视频摄像机的硬件配置的示例的框图；

图3是示出图1所示的视频摄像机的拍摄处理部件的功能配置的示例的框图；

图4是示出记录在图1所示的光盘上的文件的目录结构的示例的图；

图5A和图5B均是示出图4中所示的剪辑文件的格式的示例的图；

图6是示出描述未定发音者EM(start)和未定发音者EM(end)的电子标记数据的示例的图；

图7是图解使用图1所示的视频摄像机进行的拍摄操作的图；

图8是图解使用图3所示的拍摄处理部件的拍摄处理的流程图；

图9是示出图1所示的编辑设备的硬件配置的示例的框图；

图10是示出图9所示的编辑设备的拍摄处理部件的功能配置的示例的框图；

图11是示出已经执行了非破坏性编辑的、记录在光盘上的文件的目录结构的示例的图；

图12是示出输入屏的示例的图；

图13是示出描述发音者EM(start)或发音者EM(end)的电子标记数据的示例的图；

图14A和图14B是图解待编辑剪辑和编辑结果的图；

图15是图解编辑结果的图；

图16是示出图15所示的编辑结果的编辑列表的图；

图17是图解指定到图15所示的编辑结果的发音者EM(start)和发音者EM(end)的图；

图18是示出描述指定到编辑结果的发音者EM(start)和发音者EM(end)的电子标记数据的示例的图；

图19是示出应用鸭语处理的情况下编辑列表的示例的图；

图20是示出应用鸭语处理的情况下编辑结果的电子标记数据的示例的图；

图21是图解使用图1所示的编辑设备进行的拍摄操作的图；

图22是图解图10所示的添加部件的添加处理的流程图；

图23是图解图10所示的编辑处理部件的声音编辑处理的流程图；

图24是示出根据本发明第二实施例的拍摄和编辑系统的配置的示例的视图；

图25是示出图24所示的视频摄像机的硬件配置的示例的框图；

图26是示出图25所示的视频摄像机的拍摄处理部件的功能配置的示例的框图；

图27是图解使用图24的视频摄像机进行的拍摄操作的图；

图28是示出图26所示的拍摄处理部件的拍摄处理的细节的流程图；

图29是示出图24所示的编辑设备的硬件配置的示例的框图；

图30是示出图29所示的编辑设备中的编辑处理部件的功能配置的示例的框图；

图31A和图31B是图解待编辑剪辑和编辑结果的图；

图32是图解编辑结果的图；

图33是示出第一剪辑的电子标记数据的图；

图34是示出编辑结果的电子标记数据的图；

图35是图解使用编辑设备执行的编辑操作的图；

图36是示出图24所示的拍摄和编辑系统的另一配置的示例的视图；

图37是示出根据本发明第三实施例的拍摄和编辑系统的配置的示例的视图；

图38是示出图37所示的视频摄像机的硬件配置的示例的框图；

图39是示出图38所示的视频摄像机中的拍摄处理部件的功能配置的示例的框图；

图40是图解使用图37的视频摄像机执行的拍摄操作的图；

图41是图解使用图39所示的拍摄处理部件执行的拍摄处理的流程图；

图42是示出图37所示的编辑设备的硬件配置的示例的框图；

图43是示出图42所示的编辑设备中的拍摄处理部件的功能配置的示例的框图；

图44是图解使用图37所示的编辑设备执行的编辑操作的图；以及

图45是图解图43所示的EM指定部件的指定处理的流程图。

具体实施方式

以下，将参考附图详细说明本发明的特定实施例。

图1显示根据本发明第一实施例的拍摄和编辑系统的配置的示例。

图1所示的拍摄和编辑系统10是用于例如拍摄和编辑电视素材的拍摄和编辑系统，该素材是用于电视节目的原始素材。

拍摄和编辑系统10包括具有麦克风21A的视频摄像机21、视频摄像机22和编辑设备41。

视频摄像机21和22是这样的装置，其用于作为电视节目的新闻片或纪录片的电视素材的录像带记录。视频摄像机21拍摄电视素材的图像并通过麦克风21A获取环境的声音。视频摄像机21将具有声音的图像的结果数据记录到光盘31上作为表示电视素材的数据的素材数据。

视频摄像机22拍摄电视素材的图像，并将所得到的图像数据作为素材数据记录到光盘32上。进一步，基于用户的输入，例如，视频摄像机21和22生成在随后执行的编辑的时间中有用的信息等，诸如涉及录像带记录的信息等，并将生成信息作为元数据与素材数据关联。

光盘31或32安装在编辑设备41的光盘驱动器41A中，光盘31或32中记录了素材数据和与素材关联的元数据。

编辑设备41是用于将安装在光盘驱动器41A中的光盘31和32上所记录的素材数据的片段汇编(compile)到单独的光盘31上的设备。

编辑设备41根据需要将记录在光盘32上的素材数据复制到光盘31上。同样地，根据用户的输入，编辑设备41对汇编在光盘31上的素材数据执行非破坏性编辑，创建表示涉及编辑结果的信息的编辑列表，并在光盘31上记录编辑列表。进一步，根据用户的输入，编辑设备41将鸭语(duck voice)处理应用于编辑结果的所期望发音者(speaker)的声音。

虽然在图1所示的拍摄和编辑系统10中，视频摄像机21或22和编辑设备41是独立设备，但这些设备也可集成在一起。

在上述拍摄和编辑系统10中，光盘31和32安装在编辑设备41的光盘驱动器41A中，并且数据的读取或记录是针对光盘31和32进行的。然而，编辑设备41通过网络连接到具有安装在其中的光盘31的视频摄像机21和具有安装在其中的光盘32的视频摄像机22的配置也是可能的，并且通过网络对光盘31和32进行数据的读取或记录。

图2是示出图1所示的视频摄像机21的硬件配置的示例的框图。

在图2所示的视频摄像机21中，图像输入I/F(接口)60、声音输入I/F61、微型计算机62、临时存储存储器I/F 63、光盘驱动器I/F 64、操作部件I/F65、声音输出I/F 66、串行数据I/F 67、图像显示I/F 68、存储卡I/F 69、网络I/F 70、硬盘驱动器I/F 71和驱动器I/F 72连接到系统总线73。

图像输入I/F 60与摄像机74连接。从摄像机74输入作为利用摄像机74拍摄的结果而获得的图像信号。图像输入I/F 60对图像信号中包括的同步信号(诸如符合SDI(串行数字接口)标准的信号)、混合信号和组分信号应用A/D(模/数)转换，并将所得到的数字信号作为图像数据通过系统总线73提供给微型计算机62、图像显示I/F 68或临时存储存储器I/F 63。

声音输入I/F 61与外部提供的麦克风21A连接。作为麦克风21A获取的环境声音的模拟信号的声音信号被输入到声音输入I/F 61中。声音输入I/F 61对声音信号应用A/D转换，并通过系统总线73将所得到的数字信号作为声音数据提供给微型计算机62或临时存储存储器I/F 63。

微型计算机62包括CPU(中央处理单元)、ROM(只读存储器)、RAM(随机存取存储器)。响应于来自操作部件I/F 65的操作信号等，根据记录在ROM或硬盘81上的程序，微型计算机62的CPU控制视频摄像机21的各个部分。

例如，使用包括图像输入I/F 60提供的图像数据和声音输入I/F 61提供的声音数据的素材数据，CPU创建代用数据(proxy data)作为图像数据的低分辨率版本。CPU向临时存储存储器I/F 63提供代用数据和素材数据，以存储在临时存储存储器75中。此外，根据声音输入I/F 61提供的声音级别数据，CPU创建描述指示声音的特性特征的电子标记的电子标记数据，并将电子标记数据提供给光盘驱动器I/F 64。

进一步，CPU通过系统总线73向声音输出I/F 66提供临时存储存储器I/F63所提供的素材数据或代用数据中的声音数据，并且促使从扬声器78输出与声音数据对应的声音。

此外，CPU通过系统总线73向图像显示I/F 68提供临时存储存储器I/F 63所提供的素材数据或代用数据中的声音数据，并且促使在显示设备79上显示与图像数据对应的图像。适当时，将待由CPU执行的程序、数据等存储在RAM中。

临时存储存储器I/F 63与诸如缓冲器之类的临时存储存储器75连接。临时存储存储器I/F 63将包括来自于图像输入I/F 60的图像数据以及来自于声音输入I/F 61的声音数据的素材数据存储到临时存储存储器75中。此外，临时存储存储器I/F 63将微型计算机62提供的代用数据存储到临时存储存储器75中。

进一步，临时存储存储器1/F 63读取存储在临时存储存储器75中的、包括来自于图像输入I/F 60的图像数据以及来自于声音输入I/F 61的声音数据的素材数据和代用数据。然后，临时存储存储器I/F 63通过系统总线73向光盘驱动器I/F 64提供素材数据和代用数据，以记录到光盘31上。

此外，临时存储存储器I/F 63将光盘驱动器I/F 64提供的剪辑(clip)的素材数据或代用数据(稍后将描述其细节)存储到临时存储存储器75。进一步，临时存储存储器I/F 63读取光盘驱动器I/F 64提供的且存储在临时存储存储器75中的素材数据或代用数据，并通过系统总线73将读取的数据提供给微型计算机62。

应该注意的是，术语剪辑是指，例如，单次拍摄处理(从拍摄开始到拍摄结束的拍摄处理)获取的素材数据、元数据、代用数据等的集合。

光盘驱动器I/F 64与安装光盘31的光盘驱动器76连接。光盘驱动器I/F64控制光盘驱动器76读取剪辑的素材数据或代用数据，并且通过系统总线73将读取的数据提供给临时存储存储器I/F 63。

此外，光盘驱动器I/F 64控制光盘驱动器76以在逐剪辑的基础上将来自于临时存储存储器I/F 63的素材数据、代用数据等记录到光盘31上。进一步，光盘驱动器I/F 64控制光盘驱动器76将来自于微型计算机62的电子标记数据记录到光盘31上。

操作部件I/F 65与诸如接收部件之类的操作部件77连接，以便于接收操作按钮或遥控器传送的命令。响应于关于操作部件77的用户操作，操作部件I/F 65生成指示操作的操作信号，并通过系统总线73将操作信号提供给微型计算机62。

声音输出I/F 66与扬声器78连接。声音输出I/F 66对微型计算机62提供的声音数据应用D/A(数/模)转换，并放大所得到的模拟信号，且将经放大的模拟信号提供给扬声器78。扬声器78基于来自于声音输出I/F 66的模拟信号将声音输出至外界。声音输出I/F 66将声音数据按照其原样提供给扬声器78的配置也是可能的，扬声器78执行D/A转换等并且基于所得到的模拟信号将声音输出至外界。

串行数据I/F 67根据需要与诸如外部计算机(未示出)之类的数字装置交换数据。图像显示I/F 68与显示设备79连接。图像显示I/F 68对来自于图像输入I/F 60或微型计算机62的图像数据应用D/A转换，并放大所得到的模拟信号(诸如混合信号或组分信号)且将经放大的模拟信号提供给显示设备79。

应该注意的是，图像显示I/F 68将图像数据按照其原样提供给显示设备79的配置也是可能的，并且显示设备79执行D/A转换等且基于所得到的模拟信号将图像输出至外界。

存储卡I/F 69根据需要读写关于视频摄像机21中安装的存储卡(未示出)的素材数据、各种设置数据等。网络I/F 70根据需要通过有线或无线网络(诸如因特网或局域网)与所连接的另一设备交换数据。

例如，网络I/F 70通过网络从另一设备获取程序，并通过系统总线73、硬盘驱动器I/F 71和硬盘驱动器80将该程序记录在硬盘81上。

硬盘驱动器I/F 71与安装了硬盘81的硬盘驱动器80连接。硬盘驱动器I/F 71控制硬盘驱动器80以执行关于硬盘81的数据的读写。例如，硬盘驱动器I/F 71控制硬盘驱动器80以将通过网络I/F 70和系统总线73提供的程序记录到硬盘81上。

驱动器I/F 72与驱动器82连接。驱动器I/F 72控制驱动器82；当驱动器82中安装有可移动介质51时，驱动可移动介质51，诸如磁盘、光盘、磁光盘或半导体存储器；以及获取记录在可移动介质51上的程序、数据等。根据需要，通过硬盘驱动器I/F 71等将所获取的程序或数据传递至且记录在硬盘81上。

系统总线73仲裁(mediate)连接到系统总线73的各个部件之间的数据交换。

应该注意的是，虽然图1中的视频摄像机22被配置为类似于图2中的视频摄像机21，但视频摄像机22不与麦克风连接且不将来自于麦克风的声音信号输入至视频摄像机22。即，视频摄像机22仅能拍摄电视素材的图像。因此，除了声音部分，视频摄像机22均与视频摄像机21相同。因而，以下忽略视频摄像机22的描述。

接下来，在图2中的视频摄像机21中，微型计算机62用作拍摄处理部件，其通过执行预定程序拍摄具有电视素材的声音的图像。

图3示出这种拍摄处理部件的功能配置的示例。

图3中的拍摄处理部件90包括控制部件91、确定部件92以及创建部件93。

控制部件91执行涉及拍摄的各种控制。例如，控制部件91根据指示用于命令拍摄开始的操作的操作信号(其从操作部件I/F 65提供)来控制图像输入I/F 60和声音输入I/F 61，并开始素材数据的获取。此外，控制部件91将所获取的素材数据中的声音数据提供给确定部件92。

此外，控制部件91使用获取的素材数据创建代用数据。进一步，控制部件91将素材数据和代用数据提供给临时存储存储器I/F 63，以便于存储到临时存储存储器75。

对于电视素材中的未定发音者，确定部件92根据控制部件91提供的声音级别数据来确定声音数据是语音的开始处的声音数据还是语音的结束处的声音数据。基于确定结果，确定部件92将与该未定发音者的语音的开始或结束处的声音数据对应的帧号提供给创建部件93。

基于确定部件92提供的与未定发音者的语音的开始或结束处的声音数据对应的帧号，创建部件93创建被指定给帧号的帧的电子标记，并指示未定发音者的语音的开始位置和结束位置，作为声音的特性特征。创建部件93将描述电子标记的电子标记数据提供至光盘驱动器I/F 64，以便于记录到光盘31上。

图4示出记录在图1所示的光盘31上的文件的目录结构的示例。

在图4中，符号95表示单一目录。虽然附图标记未表示，但是每一个与符号(目录)95相一致的其它符号也表示单一目录。此外，符号96表示单一文件。虽然附图标记未表示，但是每一个与符号(文件)96相一致的其它符号也表示单一文件。

下文中，除非特别指出，否则目录符号和目录符号均被认为是相同的。同样，文件符号和文件符号被认为是相同的。为了易于在独立的目录和独立的文件之间进行区分，以下将每个文件或目录的名称均写在该文件或目录之后的括号中。

在图4的示例中，在光盘31上提供了：索引文件(INDEX.XML)96，其为描述内容表的数据的文件并且描述用于管理剪辑的信息；以及盘元数据文件(DISCMETA.XML)，其为包括至光盘31的代表图像的路径、光盘31的标题、注释等的盘元数据的文件。

此外，在光盘31上提供了剪辑目录(Clip)95和代用目录(Sub)，其中，在剪辑目录(Clip)95之下提供了剪辑的素材数据和元数据的文件，在代用目录(Sub)之下提供了剪辑的代用数据的文件。

剪辑目录(Clip)95中，记录在光盘31上的剪辑的素材数据和元数据被记录为对于每个剪辑均不同的文件。

具体地，例如，图4示出在光盘31上记录了关于三个剪辑的数据片段的情况。

即，例如，在剪辑目录95下提供了：第一剪辑文件(C0001.MXF)，其为记录在光盘31上的第一剪辑的素材数据的文件；以及第一NRT文件(C0001M01.XML)，其为包含与不可被实时处理的诸如电子标记数据(在下文中，称为非实时元数据(NRT数据))之类的剪辑的素材数据相对应的元数据的文件。

此外，在剪辑目录95下，提供了类似于第一剪辑文件(C0001.MXF)和第一NRT文件(C0001M01.XML)的第二剪辑文件(C0002.MXF)和第二NRT文件(C0002M01.XML)，以及第三剪辑文件(C0003.MXF)和第三NRT文件(C0003M01.XML)。

在图4中，在上述剪辑目录(Clip)下所示的代用目录(Sub)中，光盘31上记录的剪辑的代用数据片段被记录为对于每个剪辑均不同的文件。

例如，在图4的示例中，在代用目录(Sub)下提供了：第一代用文件(C0001S01.MXF)，其为记录在光盘31上的第一剪辑的代用数据的文件；第二代用文件(C0002S01.MXF)，其为第二剪辑的代用数据的文件；以及第三代用文件(C0003S01.MXF)，其为第三剪辑的代用数据的文件。

进一步，在光盘31上提供了通用目录(General)，在该目录中提供了除了剪辑之外的数据的文件。

图5A和5B均示出图4中所示的剪辑文件的格式的示例。

如图5A所示，在剪辑文件中，将对应于一个剪辑的素材数据片段共同地配置在主体(body)中，并且还给该主体添加了标题(header)和脚注(footer)。

在标题内，从起始处依次配置标题分区包(Header Partition Pack)、标题元数据(Header Metadata)以及索引表(Index Table)。在标题分区包中配置了作为指示文件格式(例如，MXF(Material exchange Format，素材交换格式))的数据的分区元数据、指示该主体的长度的数据、该主体的起始位置以及配置在该主体中的数据的格式等。在标题元数据中，例如，配置了UMID(Unique MaterialIdentifier，唯一素材识别符)、起始时间码、文件创建日期、与配置在该主体中的数据相关的信息(例如，图像像素数、纵横比等)等。

应该注意的是，UMID是指文件的唯一识别符，其为用于以全局唯一的方式识别每个独立的文件且由SMPTE(Society of Motion Picture andTelevision Engineers，电影与电视工程师协会)指定。即，添加到素材数据的UMID指示所讨论的素材是全球唯一的。

在索引表中配置用于管理配置在该主体中的数据的数据等。脚注由脚注分区包(Footer Partition Pack)构成。在脚注分区包中配置用于识别脚注的数据等。

如图5B中所示，在剪辑文件的主体中配置：系统项(System Item)，其中配置了待实时处理的一帧元数据(在下文中，称为实时元数据)；被称为D10的、以MPEG(Moving Picture Experts Group，运动图像专家组)IMX格式编码的图像数据；以及AES(Audio Engineering Society，音频工程师协会)3格式的无压缩声音数据，同时将其KLV编码为KLV(Key、Length、Value)结构。

KLV结构是从起始处顺序地配置关键字(Key)、长度(Length)和值(Value)的结构。配置在关键字中的是16字节的标号，其符合SMPTE 298M标准并指示值中配置的数据的类型。配置在长度中的是值中所配置的数据的数据长度。配置在值中的是实时数据，在该示例中其为系统项、图像数据或声音数据。

KLV编码的系统项、图像数据以及声音数据的数据长度为基于KAG(KLV Alignment Grid，KLV对齐网格)的定长。为使KLV编码的系统项、图像数据以及声音数据定长，还将作为填充数据的填充符(Filler)转换为KLV结构，并将其配置在系统项、图像数据和声音数据中的每一个之后。

图6示出描述电子标记的电子标记数据的示例，其中每一个电子标记均指示未定发音者的语音的开始位置和结束位置。

应该注意的是，在图6的示例中，以XML(Extensible Markup Language，可扩展标记语音)形式描述电子标记数据。此外，在图6中，每行起始处的数字是为了说明的方便而添加，其不构成XML描述的一部分。相同的应用于稍后描述的图13、18、20、33和34。

如图6所示，电子标记数据的XML描述主要由电子标记表所括起来的电子标记表部分(<EssenceMark Table></EssenceMark Table>)构成。在图6的示例中，在第2至第11行上描述该电子标记表部分。

应该注意的是，第2行上的描述“targetMedia＝“Original-Material””表示该电子标记数据是描述指定给剪辑的素材数据的电子标记的电子标记数据。

具体地，在电子标记表部分中，以列表的形式共同地描述指定给剪辑的素材数据的所有电子标记的信息片段。在图6的示例中，在指定了电子标记的指定位置处，Essencemark元素对应于每个电子标记，value属性表示电子标记所指示的特性特征，且frameCount属性表示从剪辑起始处的帧号。

例如，图6中第3行上的描述“EssenceMark value＝“Speaker-X：start”frameCount＝“0””指示：该电子标记指示的特性特征是未定发音者的语音的开始位置，且电子标记的指定位置是从剪辑起始处的第0帧。

此外，图6中第4行上的描述“EssenceMark value＝“Speaker-X：end”frameCount＝“564””指示：该电子标记指示的特性特征是未定发音者的语音的结束位置，且电子标记的指定位置是从剪辑起始处的第564帧。

同样，第5行上的描述“EssenceMark value＝“Speaker-X：start”frameCount＝“564””、第7行上的描述“EssenceMark value＝“Speaker-X：start”frameCount＝“924””、以及第9行上的描述“EssenceMark value＝“Speaker-X：start”frameCount＝“1804””指示：这些电子标记中的每一个所指示的特性特征是未定发音者的语音的开始位置，该电子标记的指定位置分别是从剪辑的起始处的第564帧、第924帧以及第1804帧。

此外，第6行上的描述“EssenceMark value＝“Speaker-X：end”frameCount＝“924””、第8行上的描述“EssenceMark value＝“Speaker-X：end”frameCount＝“1804””以及第10行上的描述“EssenceMark value＝“Speaker-X：end”frameCount＝“2100””指示：该电子标记中的每一个所指示的特性特征是未定发音者的语音的结束位置，该电子标记的指定位置分别是从剪辑的起始处的第924帧、第1804帧以及第2100帧。

接下来，参考图7，给出用户使用视频摄像机21进行拍摄操作的描述。

与拍摄操作每个步骤的数字相关联，图7的表描述该步骤中的拍摄操作的内容、视频摄像机21的主要处理的内容以及应用了该处理的数据

如图7中所示，在步骤S11中，用户操作操作部件77以命令开始拍摄。此时，视频摄像机21的控制部件91在光盘31上创建剪辑的NRT文件(参见图4)。此外，控制部件91在光盘31上创建剪辑文件。进一步，控制部件91开始将图像输入I/F 60和声音输入I/F 61提供的素材数据记录到剪辑文件，并开始将素材数据的声音数据提供给确定部件92。

确定部件92检测从控制部件91提供的声音级别数据等于或大于预定阈值的状态持续了预定时间或以上。然后，当声音级别数据等于或大于预定阈值的状态持续了预定时间或以上时，确定部件92确定该声音数据是电视素材中的未定发音者的语音的开始位置处的声音数据，并且将对应于持续段的开始点的帧号提供给创建部件93。

基于与确定部件92提供的未定发音者的语音的开始处的声音数据相对应的帧号，创建部件93创建指定到该帧号的帧且指示未定发音者的语音的开始位置的电子标记，作为声音的特性特征(在下文中，称为未定发音者EM(start))。然后，创建部件93将未定发音者EM(start)描述为剪辑的NRT文件的电子标记数据。

此外，确定部件92检测声音级别数据小于预定阈值的状态持续了预定时间或以上。然后，当声音级别数据小于预定阈值的状态持续了预定时间或以上时，确定部件92确定该声音数据是电视素材中的未定发音者的语音的结束处的声音数据，并且将与持续段的开始点对应的帧号提供给创建部件93。

基于与确定部件92提供的未定发音者的语音的结束处的声音数据对应的帧号，创建部件93创建指定到该帧号的帧且指示未定发音者的语音的结束位置的电子标记，作为声音的特性特征(在下文中，称为未定发音者EM(end))。然后，创建部件93将未定发音者EM(end)描述为剪辑的NRT文件的电子标记数据。

在步骤S12中，用户操作操作部件77以命令结束拍摄。此时，控制部件91结束将素材数据记录到剪辑文件，并结束将素材数据的声音数据提供给确定部件92。

接下来，参考图8的流程图，描述由图3中所示的拍摄处理部件90进行拍摄处理。例如，当用户通过操作操作处理部件77来命令开始拍摄时，开始该拍摄处理。

在步骤S31中，拍摄处理部件90的控制部件91在光盘31上创建剪辑的NRT文件。在步骤S32中，控制部件91在光盘31上创建剪辑文件。在步骤S33中，控制部件91开始将图像输入I/F 60和声音输入I/F 61提供的素材数据记录到剪辑文件。此外，控制部件91开始将素材数据的声音数据提供给确定部件92。

在步骤S34中，确定部件92确定控制部件91所提供的声音级别数据等于或大于阈值的状态是否已持续了预定时间或以上，即，声音级别数据是否已等于或大于阈值预定时间或以上。如果在步骤S34中确定声音级别数据等于或大于阈值的状态尚未持续预定时间或以上，则确定部件92等待直到声音级别数据等于或大于阈值的状态持续了预定时间或以上。

如果步骤S34中确定声音级别数据等于或大于阈值的状态已持续了预定时间或以上，则确定部件92确定该声音数据是电视素材中的未定发音者的语音的开始位置处的声音数据，并且将与持续段的开始点对应的帧号提供给创建部件93。

然后，在步骤S35中，基于与确定部件92提供的未定发音者的语音的开始处的声音数据对应的帧号，创建部件93创建指定到该帧号的帧的未定发音者EM(start)，并将未定发音者EM(start)描述为剪辑的NRT文件的电子标记数据。

在步骤S36中，确定部件92确定控制部件91所提供的声音级别数据小于阈值的状态是否已持续了预定时间或以上，即，声音级别数据是否已小于阈值预定时间或以上。如果步骤S36中确定声音级别数据小于阈值的状态尚未持续预定时间或以上，则确定部件92等待直到声音级别数据小于阈值的状态持续了预定时间或以上。

另一方面，如果在步骤S36中确定声音级别数据小于阈值的状态持续了预定时间或以上，则确定部件92确定该声音数据是电视素材中的未定发音者的语音的结束处的声音数据，并将与持续段的开始点对应的帧号提供给创建部件93。

然后，在步骤37中，基于与确定部件92提供的未定发音者的语音的结束处的声音数据对应的帧号，创建部件93创建指定到该帧号的帧的未定发音者EM(end)，并将未定发音者EM(end)描述为剪辑的NRT文件的电子标记数据。

在步骤S38中，控制部件91基于来自于操作部件77的操作信号，确定用户是否已命令结束拍摄。如果在步骤S38中确定尚未命令结束拍摄，则处理返回步骤S34，并且重复上述处理。

如果在步骤S38中确定用户已命令结束拍摄，则在步骤S39中，控制部件91结束将素材数据记录到剪辑文件。此外，控制部件91结束将素材数据的声音数据提供给确定部件92。然后，处理结束。

以这种方式，如果声音级别数据已等于或大于阈值预定时间或以上，或者如果声音级别数据已小于阈值预定时间或以上，则视频摄像机21将未定发音者EM(start)或未定发音者EM(end)指定到对应于该声音数据的帧。这使得稍后描述的编辑设备41可以基于未定发音者EM(start)以及未定发音者EM(end)来容易地识别语音的开始位置和结束位置。

图9是示出图1中所示的编辑设备41的硬件配置的示例的框图。

在图9所示的编辑设备41中，微型计算机111、临时存储存储器I/F 112、光盘驱动器I/F 113、操作部件I/F 114、声音输入I/F 115、串行数据I/F 116、图像显示I/F 117、存储卡I/F 118、网络I/F 119、硬盘驱动器I/F 120和驱动器I/F 121通过系统总线122互连。

微型计算机111包括CPU、ROM和RAM。响应于来自操作部件I/F 114的操作信号等，微型计算机111的CPU根据记录在ROM或硬盘128中的程序来控制编辑设备41的各个部件。

例如，CPU将从安装在光盘驱动器41A中的光盘31或光盘32读取的并且从光盘驱动器I/F 113提供的剪辑提供给临时存储存储器I/F 112。此外，CPU通过光盘驱动器I/F 113将记录在光盘32上的并且从临时存储存储器I/F 112提供的剪辑提供给光盘驱动器41A，并将该剪辑汇编到光盘31上。

进一步，CPU通过响应于操作信号创建编辑列表来执行非破坏性编辑。CPU通过光盘驱动器I/F 113将编辑列表提供给光盘驱动器41A，并将该编辑列表记录到光盘31上。

此外，响应于操作信号，CPU向临时存储存储器I/F 112提供的剪辑的电子标记数据中描述的未定发音者EM(start)和未定发音者EM(end)添加用户输入的作为发音者唯一信息的发音者ID。然后，CPU将描述发音者EM(start)(其为具有向其添加了发音者ID的未定发音者EM(start))以及发音者EM(end)(其为具有向其添加了发音者ID的未定发音者EM(end))的电子标记数据提供给光盘驱动器I/F 113，并在光盘31上将该电子标记数据记录到剪辑的NRT文件中。

进一步，基于编辑列表以及该剪辑的NRT文件的电子标记数据，CPU创建编辑结果的电子标记数据。然后，CPU将该电子标记数据提供给光盘驱动器I/F 113，以便于记录到光盘31上。

此外，对于编辑结果的声音，基于操作信号以及编辑结果的电子标记数据，CPU以下面的方式来改变的编辑列表：即将鸭语处理应用于具有用户规定的发音者ID的发音者的语音。

进一步，CPU通过系统总线122将临时存储存储器I/F 112提供的剪辑的声音数据提供给声音输出I/F 115，并促使从扬声器125输出该剪辑的声音。此外，CPU通过系统总线122将临时存储存储器I/F 112提供的剪辑的图像数据提供给图像显示I/F 117，并促使在显示设备126上显示该剪辑的图像。适当时，将待由CPU执行的程序、数据等存储在RAM中。

临时存储存储器I/F 112与诸如缓冲器之类的临时存储存储器123相连。临时存储存储器I/F 112将记录光盘31或光盘32上记录的且微处理器111提供的剪辑存储到临时存储存储器123。此外，临时存储存储器I/F 112读取存储在临时存储存储器123的剪辑，并将该剪辑提供给微型计算机111。

光盘驱动器I/F 113与安装光盘31或光盘32的光盘驱动器41A连接。光盘驱动器I/F 113控制光盘驱动器41A从安装在光盘驱动器41A中的光盘31或光盘32读取剪辑，并且通过系统总线122将该剪辑提供给临时存储存储器I/F 112。

此外，光盘驱动器I/F 113控制光盘驱动器I/F 41A以将微型计算机111提供的、记录在光盘32上的剪辑、编辑列表、描述发音者EM(start)和发音者EM(end)的电子标记数据以及编辑结果的电子标记数据记录在光盘31上。

操作部件I/F 114与诸如接收部件之类的操作部件124连接，用于接收从操作按钮、键盘、鼠标或遥控器发送的命令。响应于关于操作部件124的用户操作，操作部件I/F 114生成指示该操作的操作信号，并通过系统总线122将该操作信号提供给微型计算机111。

声音输出I/F 115与扬声器125连接。声音输出I/F 115对微型计算机111提供的声音数据应用D/A转换，并放大所得到的模拟信号，且将经放大的模拟信号提供给扬声器125。扬声器125基于声音输出I/F 115提供的模拟信号向外界输出声音。应该注意的是，声音输出I/F 115将声音数据按照其原样提供给扬声器125的配置也是可能的，扬声器125执行D/A转换等并基于所得到的模拟信号将声音输出至外界。

串行数据I/F 116根据需要与诸如外部计算机(未示出)之类的数字装置交换数据。图像显示I/F 117与显示设备126连接。图像显示I/F 117对来自于微型计算机111的图像数据应用D/A转换，并放大所得到的模拟信号(诸如混合信号或组分信号)且将经放大的模拟信号提供给显示设备126。显示设备 126基于来自于图像显示I/F 117的模拟信号显示图像。

应该注意的是，图像显示I/F 117将图像数据按照其原样提供给显示设备126的配置也是可能的，并且显示设备126执行D/A转换等且基于所得到的模拟信号将图像输出至外界。

存储卡I/F 118根据需要读写关于编辑设备41中安装的存储卡(未示出)的素材数据、各种设置数据等。网络I/F 119根据需要通过有线或无线网络(诸如因特网或局域网)与所连接的另一设备交换数据。

例如，网络I/F 119通过网络从另一设备获取程序，并通过系统总线122、硬盘驱动器I/F 120和硬盘驱动器127将该程序记录在硬盘128上。

硬盘驱动器I/F 120与安装了硬盘128的硬盘驱动器127连接。硬盘驱动器I/F 120控制硬盘驱动器127以执行关于硬盘128的数据的读写。例如，硬盘驱动器I/F 120控制硬盘驱动器127以将通过网络I/F 119和系统总线122提供的程序记录到硬盘128上。

驱动器I/F 121与驱动器129连接。驱动器I/F 121控制驱动器129；当驱动器129中安装有可移动介质101时，驱动可移动介质101，诸如磁盘、光盘、磁光盘或半导体存储器；以及获取记录在可移动介质101上的程序、数据等。根据需要，通过硬盘驱动器I/F 120等将所获取的程序或数据传递至且记录在硬盘128上。

系统总线122仲裁(mediate)连接到系统总线122的各个部件之间的数据交换。

接下来，在图9中的编辑设备41中，微型计算机111用作编辑处理部件，其通过执行预定程序来编辑具有电视素材的声音的图像。

图10示出这种编辑处理部件150的功能配置的示例。

图10中所示的编辑处理部件150包括添加部件151、编辑列表创建部件152以及EM创建部件153。

添加部件151读取记录在硬盘128上的发音者列表，并且其中发音者ID和发音者的名称彼此相关联。添加部件151基于发音者列表生成输入屏的图像数据(稍后描述的图12)，以便于输入发音者ID。添加部件151将输入屏的图像数据提供给图像显示I/F 117，并促使在显示设备126上显示该输入屏。

此外，响应于用户操作输入屏上的操作部件124而从操作部件I/F 114提供的操作信号，添加部件151将对应于该操作信号的发音者ID提供给描述在临时存储存储器I/F 112所提供的剪辑的电子标记数据中的未定发音者EM(start)和未定发音者EM(end)。然后，EM创建部件153将已添加发音者ID的电子标记数据提供给光盘驱动器I/F 113，以便于记录到光盘31上的NRT文件中。

编辑列表创建部件152将从光盘31或光盘32读取的且光盘驱动器I/F113提供的剪辑提供给临时存储存储器I/F 112。此外，编辑列表创建部件152将记录在光盘32上的且从临时存储存储器I/F 112提供的剪辑提供给光盘驱动器113，并且将该剪辑汇编到光盘31上。

进一步，编辑列表创建部件152将临时存储存储器I/F 112提供的代用数据的声音数据提供给声音输出I/F 115，并促使从扬声器125输出该剪辑的声音。此外，编辑列表创建部件152将代用数据的图像数据提供给图像显示I/Fl17，并促使在显示设备126上显示低分辨率的剪辑图像，作为执行编辑的编辑屏。此时，当在听来自于扬声器125的声音并且看编辑屏的同时，用户通过操作操作部件124执行编辑操作。

响应于由于用户的编辑操作而从操作部件I/F 114提供的编辑信号，编辑列表创建部件152通过创建编辑列表来执行非破坏性编辑。然后，编辑列表创建部件152将该编辑列表提供给光盘驱动器I/F 113以便于存储在光盘31上，并且还将该编辑列表提供给EM创建部件153。

此外，对于编辑结果的声音，基于操作部件I/F 114提供的操作信号以及EM创建部件153提供的编辑结果的电子标记数据，编辑列表创建部件152以下面这种方式改变编辑列表：即将鸭语处理应用于具有用户规定的发音者ID的发音者的语音。

基于编辑列表创建部件152提供的编辑列表以及存储在临时存储存储器I/F 112中的剪辑的电子标记数据，EM创建部件153创建编辑结果的电子标记数据。然后，EM创建部件153将该电子标记数据提供给光盘驱动器I/F 113以便于在光盘31上记录，并且还将该电子标记数据提供给编辑列表创建部件152。

此外，响应于操作部件I/F 114提供的操作信号，EM创建部件153将指示是否应用了鸭语处理的信息添加到发音者EM(start)和发音者EM(end)，其中该发音者EM(start)和发音者EM(end)已添加了用户规定的发音者ID并且在该编辑结果的电子标记数据中描述。

图11示出非破坏性编辑之后记录在光盘31上的文件的目录结构的示例。

应该注意的是，在图11中，与图4中的组件所相同的组件被附于相同的附图标记，因此将其描述省略以避免重复。

在图11的示例中，光盘31上提供了索引文件(INDEX.XML)96和盘元数据文件(DISCMETA.XML)。在图11中的索引文件96中，不仅描述了用于管理剪辑的信息，而且描述了用于编辑列表管理的信息。

此外，光盘31上提供了剪辑目录(Chip)95、编辑列表目录(Edit)和代用目录(Sub)，其中，该编辑列表目录(Edit)之下提供了编辑列表文件。

在图11的示例中，将关于视频摄像机21或视频摄像机22拍摄的4个剪辑的数据片段汇编在光盘31上。

即，例如，在剪辑目录95之下，提供了视频摄像机21拍摄的第一剪辑文件(C0001.MXF)和第一NRT文件(C0001M01.XML)、第二剪辑文件(C0002.MXF)和第二NRT文件(C0002M01.XML)及第三剪辑文件(C0003.MXF)和第三NRT文件(C0003M01.XML)，以及视频摄像机22拍摄的第四剪辑文件(C0004.MXF)和第四NRT文件(C0004M01.XML)。

在图11中，在上述剪辑目录95下所示的编辑目录(Edit)中，将编辑列表记录为对于每个编辑处理均不同的文件。

例如，在图11的示例中，编辑目录(Edit)之下提供了：编辑列表文件(E0001E01.SMI)，其包含与记录在光盘31中的第一至第四剪辑的第一编辑处理的编辑结果相关的编辑列表；以及用于编辑列表(E0001M01.XML)的NRT文件，其为包含与构成第一编辑结果的素材数据相对应的NRT数据或包含基于该NRT数据所重新产生的NRT数据的文件。同样的，为第二编辑处理的编辑列表(E0002M01.XML)提供了编辑列表文件(E0002E01.SMI)和NRT文件。

此外，在图11中，将关于记录在光盘31上的4个剪辑的代用数据片段汇编至上述剪辑目录(Clip)下所示的代用目录(Sub)中。

例如，图11示例中，在代用目录(Sub)下提供了视频摄像机21拍摄的第一剪辑的代用文件(C0001S01.MXF)、第二剪辑的代用文件(C0002S01.MXF)及第三剪辑的代用文件(C0003S01.MXF)，以及视频摄像机22拍摄的第四剪辑的代用文件(C0004S01.MXF)。

进一步，在光盘31上提供了通用目录(General)。通用目录(General)中提供了除了剪辑之外的数据的文件。

接下来，图12示出输入屏的示例。

图12中所示的输入屏显示彼此关联的发音者ID和发音者名称。在图12的示例中以彼此关联的方式分别显示了：表示发音者ID为“A”且发音者名称是“OO”的“发音者-A”；表示发音者ID是“B”且发音者名称是“xx”的“发音者-B”；表示发音者ID是“C”且发音者名是“ΔΔ”的“发音者-C”。

此外，光标160被置于发音者ID和发音者名称之一的显示位置处。当将发音者ID添加到未定发音者EM(start)和未定发音者EM(end)时操作光标160。

具体地，当听到扬声器125输出的剪辑的声音时，用户操作操作部件124，例如，将光标160移动到发出语音的发音者的发音者ID和名称的显示位置，并且提供确定命令。响应于指示该操作的操作信号，添加部件151将对应于光标160的位置的发音者ID添加到未定发音者EM(start)(其在与确定命令时回放的声音对应的帧之前被立即指定)和未定发音者EM(end)(其在该帧之后被立即指定)。

接下来，图13示出描述发音者EM(start)或发音者EM(end)的电子标记数据的示例。应该注意的是，图13示出描述发音者EM(start)和发音者EM(end)(其为已向图6中所示的未定发音者EM(start)和未定发音者EM(end)添加了发音者ID的EM(start)和发音者EM(end))的电子标记数据。

在图13的示例中，在第2到第11行上描述电子标记表所括起来的电子标记表部分(<EssenceMark Table></EssenceMark Table>)。

图13中的第2行上的“targetMedia＝“Original-Material””指示该电子标记数据是描述指定到剪辑的素材数据的电子标记的电子标记数据。

此外，第3行上的描述“EssenceMark value＝“Speaker-A：start”frameCount＝“0””指示：该电子标记指示的特性特征是具有发音者ID“A”的发音者的语音的开始位置，并且该电子标记的指定位置是从剪辑起始处的第0帧。即，图13的第3行上的描述指示具有添加给图6的第3行上的描述所指示的未定发音者EM(start)的发音者ID“A”的发音者EM(start)。

此外，第4行上的描述“EssenceMark value＝“Speaker-A：end”frameCount＝“564””指示：该电子标记指示的特性特征是具有发音者ID“A”的发音者的语音的结束位置，并且该电子标记的指定位置是从剪辑起始处的第564帧。

同样，第5行上的描述“EssenceMark value＝“Speaker-B：start”frameCount ＝“564””、第7行上的描述“EssenceMark value＝“Speaker-A：start”frameCount＝“924””、第9行上的描述“EssenceMark value＝“Speaker-B：start”frameCount＝“1804””指示：这些电子标记指示的特性特征是分别具有发音者ID“B”的发音者、具有发音者ID“A”的发音者、具有发音者ID“B”的发音者的语音的开始位置，并且这些电子标记的指定位置分别是从剪辑起始处的第564帧、第924帧以及第1804帧。

此外，第6行上的描述“EssenceMark value＝“Speaker-B：end”frameCount＝“924””、第8行上的描述“EssenceMark value＝“Speaker-A：end”frameCount＝“1804””、第10行上的描述“EssenceMark value＝“Speaker-B：end”frameCount＝“2100””指示：这些电子标记指示的特性特征是分别具有发音者ID“B”的发音者、具有发音者ID“A”的发音者、具有发音者ID“B”的发音者的语音的结束位置，并且这些电子标记的指定位置分别是从剪辑起始处的第924帧、第1804帧以及第2100帧。

接下来，参考图14A～20，将描述编辑设备41中的非破坏性编辑。

应该注意的是，在该示例中，视频摄像机21拍摄两个人(具有发音者ID”A”的发音者“OO”和具有发音者ID“B”的发音者“xx”)作为景物并获取他们对话的声音，而视频摄像机22仅拍摄发音者“xx”作为景物。因此，使用视频摄像机21和22，将两个发音者之间的对话拍摄为电视素材。

然后，用户剪切预定连续段的电视素材的声音以用作为编辑结果的声音，并且还剪切预定连续段的图像以用作为编辑结果的图像，并以将鸭语处理应用于发音者“xx”的声音的方式来执行非破坏性编辑。

参考图14A、14B和图15，首先给出记录在光盘31上的待编辑剪辑以及编辑结果的描述。应该注意的是，在图14A中，水平轴表示拍摄时间，而在图14B和15中，水平轴表示帧号。

图14A顶部的条表示视频摄像机21拍摄的待编辑的第一剪辑的长度，条上所描述的每个数字表示与其描述位置对应的拍摄时间处所拍摄的图像的帧号。即，在图14A和14B的示例中，第一剪辑的图像帧数是2525帧，并且从“0”到“2524”依次将帧号指定给各个帧。

图14A中部的条表示第一剪辑的声音长度，并且条内每个字母表示发出对应于该位置的语音的发音者的发音者ID。

应该注意的是，在图14A和14B的示例中，图13中所示的发音者EM(start) 和发音者EM(end)被指定到第一剪辑。相应地，图14A中部的条中，在与从帧号为“0”的帧(图13中的第3行上的描述所表示的发音者EM(start)被指定给该帧)至帧号为“564”的帧(图13中的第4行上的描述所表示的发音者EM(end)被指定给该帧)的段对应的位置处，描述了该段中发音者ID为“A”的发音者的声音。

同样，在图14A中部的条中，在与从帧号为“564”的帧(图13中的第5行上的描述所表示的发音者EM(start)被指定给该帧)至帧号为“924”的帧(图13中的第6行上的描述所表示的发音者EM(end)被指定给该帧)的段对应的位置处，描述了该段中发音者ID为“B”的发音者的声音。

此外，在图14A中部的条中，在与从帧号为“924”的帧(图13中的第7行上的描述所表示的发音者EM(start)被指定给该帧)至帧号为“1804”的帧(图13中的第8行上的描述所表示的发音者EM(end)被指定给该帧)的段对应的位置处，描述了该段中发音者ID为“A”的发音者的声音。

进一步，在图14A中部的条中，在与从帧号为“1804”的帧(图13中的第9行上的描述所表示的发音者EM(start)被指定给该帧)至帧号为“2100”的帧(图13中的第10行上的描述所表示的发音者EM(end)被指定给该帧)的段对应的位置处，描述了该段中发音者ID为“B”的发音者的声音。

图14A底部的条表示视频摄像机22拍摄的待编辑的第四剪辑的长度，并且条上所描述的每个数字表示与其描述位置对应的拍摄时间处所拍摄的图像的帧号。即，在图14A和14B的示例中，第四剪辑的图像帧数是2415帧，并且从“0”到“2414”依次将帧号指定给各个帧。

图14B顶部的条表示作为对于图14A中所示的第一剪辑和第4剪辑执行非破坏性编辑的结果而获得的编辑结果的图像长度，并且条上所描述的每个数字表示对应于其描述位置的编辑结果的图像的帧号。

即，在图14A和14B的示例中，用户规定图14A中所示的第一剪辑的帧号“284”作为图像的入口点，并且规定帧号“564”作为图像的出口点。因此，如图14B顶部所示，在编辑结果中，作为编辑结果的帧号“0”到“280”的图像数据(在下文中，称为第一图像子剪辑(sub-clip))包括第一剪辑的帧号“284”到“564”的编辑段中的图像数据。

此外，在图14A和14B的示例中，用户规定图14A中所示的第四剪辑的帧号“454”作为图像的入口点，并且规定帧号“1054”作为图像的出口点。因此，如图14B顶部所示，在编辑结果中，作为编辑结果的帧号“280”到“880”的图像数据(在下文中，称为第二图像子剪辑)包括第四剪辑的帧号“454”到“1054”的编辑段中的图像数据。

进一步，在图14A和14B的示例中，用户规定图14A中所示的第一剪辑的帧号“1164”作为图像的入口点，并且规定帧号“1644”作为图像的出口点。因此，如图14B顶部所示，在编辑结果中，作为编辑结果的帧号“880”到“1360”的图像数据(在下文中，称为第三图像子剪辑)包括第一剪辑的帧号“1164”到“1664”的编辑段中的图像数据。

此外，在图14A和14B的示例中，用户规定图14A中所示的第四剪辑的帧号“1534”作为图像的入口点，并且规定帧号“1974”作为图像的出口点。因此，如图14B顶部所示，在编辑结果中，作为编辑结果的帧号“1360”到“1800”的图像数据(在下文中，称为第四图像子剪辑)包括第四剪辑的帧号“1534”到“1974”的编辑段中的图像数据。

进一步，在图14A和14B的示例中，用户规定图14A中所示的第一剪辑的帧号“284”作为图像的入口点，并且规定帧号“2084”作为图像的出口点。因此，如图14B和图15的每个的底部所示，在编辑结果中，作为编辑结果的帧号“0”到“1800”的声音数据(在下文中，称为声音子剪辑)包括第一剪辑的帧号“284”到“2084”的编辑段中的声音数据。

现在，如图14A中所示，对应于第一剪辑的帧号“0”到“564”的声音数据的发音者ID是“A”。因此，如图14B的底部所示，对应于编辑结果的帧号“0”到“280”的声音数据(其为第一剪辑的帧号“284”到“564”的声音数据)的发音者ID是“A”。

此外，如图14A中所示，对应于第一剪辑的帧号“564”到“924”的声音数据的发音者ID是“B”。因此，如图14B的底部所示，对应于编辑结果的帧号“280”到“640”的声音数据(其为第一剪辑的帧号“564”到“924”的声音数据)的发音者ID是“B”。

进一步，如图14A中所示，对应于第一剪辑的帧号“924”到“1804”的声音数据的发音者ID是“A”。因此，如图14B的底部所示，对应于编辑结果的帧号“640”到“1520”的声音数据(其为第一剪辑的帧号“924”到“1804”的声音数据)的发音者ID是“A”。

此外，如图14A中所示，对应于第一剪辑的帧号“1804”到“2100”的声音数据的发音者ID是“B”。因此，如图14B的底部所示，对应于编辑结果的帧号“1520”到“1800”的声音数据(其为第一剪辑的帧号“1804”到“2084”的声音数据)的发音者ID是“B”。

如上所述，在图14A和14B的示例中，第三图像子剪辑的入口点和出口点与发音者的切换点彼此不同。即，如图15中所示，在图14B中所示的编辑结果中，从编辑结果的帧号“640”到“1520”，在发音者“OO”的语音的开始和结束处仅显示发音者“xx”的图像。

图16示出图14B和图15中所示的编辑结果的编辑列表。

即，图16是以XML描述的、示出编辑列表文件(图11)的具体描述的示例的图。

编辑列表文件是包含涉及编辑结果的编辑列表的文件，并且还描述了回放编辑结果的方法。

如图16中所示，编辑列表文件的XML描述主要包括用smile标签(<smil></smil>)和主体(body)标签(<body></body>)括起来的主体部分。在图16的示例中，第3到第16行上描述了主体部分。应该注意的是，第2行上的描述“name＝“Initial-EditList””表示该文件是编辑列表文件。

在主体部分内，描述了涉及该编辑描述的临时行为的信息。在图16的示例中，描述在第4行上的开始标签“<par>”和第15行上的结束标签“</par>”之间的“par”元素定义了简单时间组，用于多个元素的同时回放。

在图16示例中，假定同时回放第一剪切(其在图16的示例中被描述为Cut1，并且其为图14B中所示的第一图像子剪辑)、第二剪切(其在图16的示例中被描述为Cut2，并且其为图14B中所示的第二图像子剪辑)、第三剪切(其在图16的示例中被描述为Cut3，并且其为图14B中所示的第三图像子剪辑)、第四剪切(其在图16的示例中被描述为Cut4，并且其为图14B中所示的第四图像子剪辑)以及声音(其在图16的示例中被描述为audio inCaml-Clip.mxf，并且其为图14B中所示的声音子剪辑)。

然而，应该注意的是，在稍后描述的图16的示例中，第一到第四图像子剪辑之间的回放开始时间不同，实际上，顺序地回放第一到第四图像子剪辑。

具体地，在图16中，在第6、第8、第10以及第12行上的“video”元素中，描述了所涉及的作为编辑结果的图像的剪辑文件以及所涉及的剪辑文件的回放区域等。

第6行上的描述“src＝“Caml-clipl.mxf””表示将涉及的剪辑文件是使用视频摄像机21记录的第一剪辑。

此外，第6行上的描述“clipBegin＝“284””通过第一剪辑的帧号表示第一图像子剪辑中开始图像的回放的位置。第6行上的描述“clipEnd＝“564””通过第一剪辑的帧号表示第一图像子剪辑中结束图像的回放的位置。

进一步，在上面描述随后的、第6行上的描述“begin＝“0””通过编辑结果上的帧号表示编辑结果上开始第一图像子剪辑的位置。第6行上的描述“end＝“280””通过编辑结果的帧号表示编辑结果上结束第一图像子剪辑的位置。

以这种方式，在图16的示例中，编辑列表中描述了将第一剪辑的从帧号“284”的帧到帧号“564”的帧回放为编辑结果的从帧号“0”的帧到帧号“280”的帧。

此外，以类似于第一图像子剪辑的方式在第8行上描述了第二图像子剪辑。在图16的示例中，编辑列表中描述了将使用视频摄像机22记录的第四剪辑的从帧号“454”的帧到帧号“1054”的帧回放为编辑结果的从帧号“280”的帧到帧号“880”的帧。

进一步，以类似于第一和第二图像子剪辑的方式在第10行上描述了第三图像子剪辑。在图16的示例中，编辑列表中描述了将第一剪辑的从帧号“1164”的帧到帧号“1644”的帧回放为编辑结果的从帧号“880”的帧到帧号“1360”的帧。

此外，以类似于第一至第三图像子剪辑的方式在第12行上描述了第四图像子剪辑。在图16的示例中，编辑列表中描述了将第四剪辑的从帧号“1534”的帧到帧号“1974”的帧回放为编辑结果的从帧号“1360”的帧到帧号“1800”的帧。

进一步，在图16的第14行上的“audio”元素中，描述了所涉及的作为编辑结果的声音的剪辑文件以及所涉及的剪辑文件的回放区域等。

此外，第14行上的描述“channel＝1”表示用于回放第一剪辑的声音的通道。第14行上的描述“clipBegin＝“284””通过第一剪辑的帧号表示作为声音子剪辑开始声音回放的位置。第14行上的描述“clipEnd＝“2084””通过第一剪辑的帧号表示作为声音子剪辑结束声音回放的位置。

进一步，在上面描述随后的、第14行上的描述“begin＝“0””通过编辑结果上的帧号表示编辑结果上开始声音子剪辑的位置。第14行上的描述“end＝“1800””通过编辑结果的帧号表示编辑结果上结束声音子剪辑的位置。

以这种方式，在图16的示例中，编辑列表中描述了将从帧号“284”的帧到帧号“2084”的帧的声音回放为编辑结果的从帧号“0”的帧到帧号“1800”的帧的一个通道的声音。

因此，根据图16中所示的编辑列表，如图14B中所示，第一到第四子剪辑被连续回放为编辑结果的从帧号“0”的帧到帧号“1800”的帧的图像。此外，同时声音子剪辑被回放为编辑结果的从帧号“0”的帧的声音到帧号“1800”的帧的一个通道的声音。

接下来，参考图17，将给出指定给图14B和15中所示的编辑结果的发音者EM(start)和发音者EM(end)的描述。应该注意的是，在图17中，水平轴表示帧号。

图17顶部所示的是指定给第一剪辑的发音者EM(start)和发音者EM(end)，其已在图13中所示的电子标记数据中描述。即，如图17顶部所示，具有添加到帧号“0”的帧(A11s)的发音者ID“A”的发音者EM(start)被指定到第一剪辑，具有添加到帧号“564”的帧(A11e)的发音者ID“A”的发音者EM(end)被指定到第一剪辑。

此外，如图17顶部所示，具有添加到帧号“564”的帧(B11s)的发音者ID“B”的发音者EM(start)被指定到第一剪辑，具有添加到帧号“924”的帧(B11e)的发音者ID“B”的发音者EM(end)被指定到第一剪辑。

进一步，如图17顶部所示，具有添加到帧号“924”的帧(A12s)的发音者ID“A”的发音者EM(start)被指定到第一剪辑，具有添加到帧号“1804”的帧(A12e)的发音者ID“A”的发音者EM(end)被指定到第一剪辑。

此外，如图17顶部所示，具有添加到帧号“1804”的帧(B12s)的发音者ID“B”的发音者EM(start)被指定到第一剪辑，具有添加到帧号“2100”的帧(B12e)的发音者ID“B”的发音者EM(end)被指定到第一剪辑。

在对上述发音者EM(start)和发音者EM(end)被指定给的第一剪辑执行非毁坏编辑以便获得图14B和15中所示的编辑结果的情况下，将被指定到第一剪辑的帧号的帧(其被规定为声音的入口点)紧接之前的帧的发音者EM(start)指定到对应于入口点的编辑结果上的帧。

在图17的示例中，将被指定到第一剪辑的帧号“284”的帧(其被规定为声音的入口点)紧接之前的帧号“0”的帧的、具有添加至其的发音者ID“A”的发音者EM(start)指定至对应于入口点的编辑结果上的帧号“0”的帧(A21s)。

此外，指定到每帧(从规定为声音入口点的第一剪辑的帧号的帧至作为声音出口点的第一剪辑的帧号的帧)的电子标记被指定到对应于该帧的编辑结果上的帧。

在图17的示例中，已向其添加了发音者ID“A”且被指定至帧号“564”的帧(其位于规定为声音入口点的第一剪辑的帧号“284”的帧与规定为声音出口点的第一剪辑的帧号“2084”的帧之间)的发音者EM(end)被指定到对应于该帧的编辑结果上的帧号“280”的帧。

此外，被指定到帧号“924”的帧的具有添加至其的发音者ID“A”的发音者EM(start)以及具有添加至其的发音者ID“B”的发音者EM(end)被指定到对应于该帧的编辑结果上的帧号“640”的帧(A22s，B21e)。进一步，被指定到帧号“1804”的帧的具有添加至其的发音者ID“A”的发音者EM(start)以及具有添加至其的发音者ID“B”的发音者EM(end)被指定到对应于该帧的编辑结果上的帧号“1520”的帧(A22e，B22s)。

进一步，将被指定到第一剪辑的帧号的帧(其被规定为声音的出口点)紧接之后的帧的发音者EM(end)指定到对应于该出口点的编辑结果上的帧。在图17的示例中，将被指定到第一剪辑的帧号“2084”的帧(其被规定为声音的出口点)紧接之后的帧号“2100”的帧的、具有添加至其的发音者ID“B”的发音者EM(end)指定至对应于出口点的编辑结果上的帧号“1800”的帧(B22e)

图18中示出描述以这种方式指定到编辑结果的发音者EM(start)和发音者EM(end)的电子标记数据。

在图18的示例中，在第2到第11行上描述了电子标记表括起来的电子标记表部分(<EssenceMark Table></EssenceMark Table>)。

应该注意的是，图18中第2行上的描述“targetMedia＝“Initial-EditList””表示该电子标记数据是描述指定到编辑结果的电子标记的电子标记数据。

此外，第3行上的描述“EssenceMark value＝“Speaker-A：start”frameCount＝“0””指示：该电子标记指示的特性特征是具有发音者ID“A”的发音者的语音的开始位置，并且该电子标记的指定位置是从编辑结果起始处的第0帧。

此外，第4行上的描述“EssenceMark value＝“Speaker-A：end”frameCount＝“280””指示：该电子标记指示的特性特征是发音者ID为“A”的发音者的语音的结束位置，并且该电子标记的指定位置是从编辑结果开始的第280帧。

同样，第5行上的描述“EssenceMark value＝“Speaker-B：start”frameCount＝“280””、第7行上的描述“EssenceMark value＝“Speaker-A：start”frameCount＝“640””、第9行上的描述“EssenceMark value＝“Speaker-B：start”frameCount＝“1520””指示：这些电子标记指示的特性特征是分别具有发音者ID“B”的发音者、具有发音者ID“A”的发音者、具有发音者ID“B”的发音者的语音的开始位置，并且这些电子标记的指定位置分别是从编辑结果起始处的第280帧、第640帧以及第1520帧。

此外，第6行上的描述“EssenceMark value＝“Speaker-B：end”frameCount＝“640””、第8行上的描述“EssenceMark value＝“Speaker-A：end”frameCount＝“1520””、第10行上的描述“EssenceMark value＝“Speaker-B：end”frameCount＝“1800””指示：这些电子标记指示的特性特征是分别具有发音者ID“B”的发音者、具有发音者ID“A”的发音者、具有发音者ID“B”的发音者的语音的结束位置，并且这些电子标记的指定位置分别是从编辑结果起始处的第640帧、第1520帧以及第1800帧。

图19示出在将鸭语处理应用于具有图14B和15中所示的编辑结果的发音者ID“B”的发音者的声音的情况下的编辑列表的示例。

图19所示的编辑列表中，在图16中所示的第14行上的“audio”元素之后，提供了由音频过滤标签括起来的音频过滤部分(<audioFilter></audioFilter>)。在音频过滤部分中，描述了说明应用了预处理的声音段的信息。

具体地，在第15～18行上描述提供在第14行上的“audio”元素之后的第一音频过滤部分，在第19～22行上描述第二音频过滤部分。

第15行上的描述“type＝“duckVoice”“表示应用了鸭语处理。在上面描述之后的第15行上的描述“begin＝“280””通过编辑结果上的帧号表示在编辑结果上应用了鸭语处理的语音的开始位置。因而，如图18中所示，指示具有发音者ID“B”的发音者的语音的开始位置的第一发音者EM(start)被指定到编辑结果的帧号“280”的帧，在第15行上的描述“begin＝“280””中，帧号“280”被指示为编辑结果上应用了鸭语处理的语音的开始位置。

此外，第15行上的描述“end＝“640””通过编辑结果的帧号表示在编辑结果上应用了鸭语处理的语音的结束位置。因而，如图18中所示，指示具有发音者ID“B”的发音者的语音的结束位置的第一发音者EM(end)被指定到编辑结果的帧号“640”的帧，在第15行上的描述“end＝“640””中，帧号“640”被指示为编辑结果上应用了鸭语处理的语音的结束位置。

以这种方式，第15行上的描述“begin＝“280”“和第15行上的描述“end＝“640””将从第280帧到第640帧的段(其为具有发音者ID“B”的发音者的声音段)规定为应用了鸭语处理的段。

进一步，第16和第17行上的“param”元素中，描述与鸭语处理有关的参数的设置值。具体地，第16行上的描述“name＝“pitch””表示对其设置设置值的参数是音调(pitch)，此外，第16行上的描述“value＝“0.5””表示设置值是0.5。

此外，第17行上的描述“name＝“formant””表示对其设置设置值的参数是共振峰(formant)，此外，第17行上的描述“value＝“1.0””表示设置值是1.0。

同样，在第19行上，具有添加至其的发音者ID“B”的第二发音者EM(start)所被指定到的帧的帧号以及发音者EM(end)所被指定到的帧的帧号(其描述在图18中所示的电子标记数据中)，被分别描述为应用了鸭语处理的语音的开始位置和结束位置。

图20示出在将鸭语处理应用于具有图14B和15中所示的编辑结果的发音者ID“B”的发音者的声音的情况下的编辑结果的电子标记数据的示例。

在图20的示例中，在第2至第11行上描述了电子标记表括起来的电子标记表部分(<EssenceMark Table></EssenceMark Table>)。

图20中第2行上的“targetMedia＝“Initial-EditList””表示该电子标记数据是描述指定到编辑结果的电子标记的电子标记数据。

此外，第3行上的描述“EssenceMark value＝“Speaker-A：start：normal”frameCount＝“0””指示：该电子标记指示的特性特征是具有发音者ID“A”的发音者的语音的开始位置，该语音被按照其原样输出，而不经历鸭语处理，并且该电子标记的指定位置是从编辑结果起始处的第0帧。

第4行上的描述“EssenceMark value＝“Speaker-A：end：normal”frameCount＝“280””指示：该电子标记指示的特性特征是具有发音者ID“A”的发音者的语音的结束位置，该语音被按照其原样输出，而不经历鸭语处理，并且该电子标记的指定位置是从编辑结果起始处的第280帧。

此外，第5行上的描述“EssenceMark value＝“Speaker-B：start：duckVoice”frameCount＝“280””指示：该电子标记指示的特性特征是具有发音者ID“B”的发音者的语音的开始位置，该语音在经历鸭语处理之后被输出，并且该电子标记的指定位置是从编辑结果起始处的第280帧。

第6行上的描述“EssenceMark value＝“Speaker-B：end：duckVoice”frameCount＝“640””指示：该电子标记指示的特性特征是具有发音者ID“B”的发音者的语音的结束位置，该语音在经历鸭语处理之后被输出，并且该电子标记的指定位置是从编辑结果起始处的第640帧。

同样，从第7至第10行的描述指示：从帧号“640”到帧号“1520”，鸭语处理不应用于具有发音者ID“A”的发音者的声音，并且从帧号“1520”到帧号“1800”，鸭语处理应用于具有发音者ID“B”的发音者的声音。

接下来，参考图21给出用户使用编辑设备41执行编辑操作的描述。

与拍摄操作的每个步骤的数字相关联，图21的表描述了该步骤中拍摄操作的内容、编辑设备41的主要处理的内容以及应用了该处理的数据。

如图21中所示，在步骤S51中，用户在编辑设备41的光盘驱动器41A中安装光盘31，并且命令显示输入屏(图12)。同时，基于预先寄存在硬盘128上的发音者列表，编辑设备41的添加部件151促使输入屏显示在显示设备126上。

在步骤S52中，用户操作操作部件124以命令记录在光盘31上的剪辑的回放。同时，编辑设备41的添加部件151从光盘31回放该剪辑的剪辑文件。结果，从扬声器125输出剪辑的声音，并且在显示设备126上显示图像。

在步骤S53中，用户收听剪辑的声音，并且在听到每个发音者的语音时，用户操作操作部件124以输入该发音者的发音者ID。此时，添加部件151将被输入的发音者ID添加到未定发音者EM(start)和未定发音者EM(end)，其中该未定发音者EM(start)和未定发音者EM(end)分别被指定到与被回放的声音对应的帧的紧接之前和紧接之后的帧并且被描述在剪辑的电子标记数据中。

在步骤S54中，用户通过操作操作部件124来命令编辑屏的显示。同时，基于代用文件的代用数据，编辑列表创建部件152促使在显示设备126上显示编辑屏，并促使从扬声器125输出剪辑的声音。

在步骤S55中，用户通过规定编辑屏上的图像和声音的入口点和出口点来操作操作部件124以执行编辑。此时，基于用户所规定的图像和声音的入口点和出口点，编辑列表创建部件152创建编辑列表。然后，编辑列表创建部件152将编辑列表记录到光盘31上的编辑列表文件，并将编辑列表提供给EM创建部件153。

此外，基于编辑列表创建部件152提供的编辑列表以及其中描述了剪辑的发音者EM(start)和发音者EM(end)的电子标记数据，EM创建部件153在声音的剪切点处插入发音者EM(start)或发音者EM(end)，并且将指定到从声音的入口点到出口点的位置的发音者EM(start)或发音者EM(end)复制到编辑结果上的相应位置，从而创建了编辑结果的电子标记数据。

即，对于剪辑的电子标记数据的描述，通过复制指定到声音的入口点到出口点的位置的发音者EM(start)或发音者EM(end)，改变发音者EM(start)或发音者EM(end)的指定位置处的描述，并进一步重新描述对应于声音剪切点的指定到编辑结果的位置的发音者EM(start)或发音者EM(end)，创建编辑结果的电子标记数据。

然后，EM创建部件153将编辑结果的电子标记数据记录到光盘31上的用于编辑列表的NRT文件中。

在步骤S56中，用户操作操作部件124以规定编辑结果上应用了鸭语处理的语音的发音者的发音者ID。此时，基于用户规定的发音者ID以及EM创建部件153创建的编辑结果的电子标记数据，编辑列表创建部件152定位应用鸭语处理的段，并在编辑列表文件的编辑列表中描述鸭语处理将应用于那个段。

在步骤S57中，用户操作操作部件124以命令在其之中已将鸭语处理应用于期望的发音者的声音的编辑结果的回放。此时，微型计算机111的CPU根据在其之中已描述了将应用鸭语处理的编辑列表，从光盘31回放编辑结果。

具体地，根据在其之中已描述了将应用鸭语处理的编辑列表，CPU从光盘31读取预定剪辑的预定段的图像数据和声音数据。然后，CPU将鸭语处理应用于与读取的声音数据的预定发音者的声音对应的声音数据，并将所得到的声音数据提供给声音输出I/F 115，从而促使从扬声器125输出编辑结果的声音。此外，CPU将读取的图像数据提供给图像显示I/F 117，从而促使在显示设备126上显示编辑结果的图像。

接下来，参考图22的流程图，给出图10中所示的添加部件151所执行的添加处理，其中将发音者ID添加到未定发音者EM(start)和未定发音者EM(end)。例如，当用户通过操作操作部件124命令图12中所示的输入屏显示时，该添加处理开始。

在步骤S71中，基于预先寄存在硬盘128上的发音者列表，添加部件151促使在显示设备126上显示输入屏。在步骤S72中，添加部件151确定用户是否已命令回放光盘31上记录的剪辑。如果在步骤S72中确定尚未命令回放，则添加部件151等待直到命令回放。

另一方面，如果在步骤S72中确定已命令回放剪辑，则在步骤S73中，添加部件151开始回放剪辑。在步骤S74中，添加部件151根据操作部件I/F114提供的操作信号来确定用户是否已输入发音者ID。

具体地，用户通过操作操作部件124来移动输入屏上的光标160并提供确定命令。操作部件I/F 114通过该操作接受发音者ID的输入，并向添加部件151提供指示该操作的操作信号。如果提供了该操作信号，则添加部件151确定用户已输入了发音者ID。

如果在步骤S74中确定用户尚未输入发音者ID，则添加部件151等待输入了发音者ID。如果在步骤S74中确定用户已输入了发音者ID，则处理进入步骤S75。

在步骤S75中，基于当前回放的帧的帧号以及所输入的发音者ID，添加部件151将所输入的发音者ID添加到分别紧接着当前回放的帧的之前和之后的且其被指定了对应于发音者ID的输入的位置的未定发音者EM(start)和未定发音者EM(end)。结果，例如，图6中所示的剪辑的电子标记数据改变为图13中所示的剪辑的电子标记数据。

在步骤S76中，添加部件151确定当前回放的剪辑是否已回放至结束处。如果确定该剪辑尚未回放至结束处，则处理返回至步骤S74，并且重复上述处理。

另一方面，如果在步骤S76中确定回放的剪辑已回放至结束处，则在步骤77中，添加部件151结束剪辑的回放。然后，处理结束。

由于编辑设备41以这种方式将未定发音者EM(start)和未定发音者EM(end)添加到发音者ID，因此在将鸭语处理应用于编辑结果的期望发音者的声音的情况下，借助于添加到发音者ID的发音者EM(start)和发音者EM(end)，可容易地识别将应用鸭语处理的声音段。

因此，可以说发音者EM(start)和发音者EM(end)是对于将鸭语处理容易地应用于编辑结果的期望发音者的声音的有用的电子标记。

接下来，参考图23，给出图10所示的编辑处理部件150执行的用于声音的非破坏性编辑的声音编辑处理的描述。例如，当用户通过操作操作部件124命令编辑屏的显示时，该声音编辑处理开始。

在步骤S81中，编辑列表创建部件152从光盘31开始回放待编辑剪辑的代用数据。结果，待编辑剪辑的低分辨率图像被显示为显示设备126上的编辑屏，并且剪辑的声音从扬声器125输出。

在步骤S82，编辑列表创建部件152确定用户是否已经在编辑屏上输入声音的入口点。如果确定尚未输入声音的入口点，则编辑列表创建部件152等待直至输入声音的入口点。

另一方面，如果在步骤S82中确定已输入声音的入口点，则在步骤S83中，编辑列表创建部件152在编辑列表中描述当前回放的帧的帧号，作为声音子剪辑的声音回放开始的位置。例如，图14A和14B的示例中，当回放第一剪辑的帧号“284”的帧时，用户输入声音的入口点，并且编辑列表创建部件152将帧号“284”描述到编辑列表中。

在步骤S84中，编辑列表创建部件152确定用户是否已在编辑屏上输入声音的出口点。如果确定没有输入声音的出口点，则编辑列表创建部件152等待直到输入声音的出口点。

另一方面，若步骤S84中确定已输入声音的出口点，则在步骤S85中，编辑列表创建部件152在编辑列表中描述当前回放的帧的帧号，作为声音子剪辑的声音回放结束的位置。例如，在图14A和14B的示例中，当回放第一剪辑的帧号“2084”的帧时，用户输入声音的出口点，并且编辑列表创建部件152在编辑列表中描述帧号“2084”。

在步骤S86中，编辑列表创建部件152确定用户是否命令改变待编辑剪辑。应该注意的是，在图14A和14B的示例中，对于待编辑剪辑中，只有第一剪辑包括声音，因此，步骤S86中确定的确定结果总是为否定的(否)。

若在步骤S86中确定已命令改变待编辑剪辑，则在步骤S87中，编辑列表创建部件152结束待编辑的当前剪辑的代用数据的回放。然后，处理返回S81，其中新的待编辑剪辑的代用数据的回放开始，并重复随后的处理。

另一方面，若在步骤S86中确定尚未命令改变待编辑剪辑，则在步骤S88中，编辑列表创建部件152确定用户是否命令结束声音的编辑。若在步骤S88中，用户没有命令结束声音的编辑，则处理返回步骤S82，并重复上述处理。

若在步骤S88中确定已命令了结束声音的编辑，则在步骤S89中，编辑列表创建部件152结束待编辑剪辑的代用数据的回放，并将编辑列表提供给EM创建部件153。

在步骤S90中，基于编辑列表创建部件152提供的编辑列表和剪辑的电子标记数据，EM创建部件153创建编辑结果的电子标记数据。

例如，基于图16所示的编辑列表和图13所示的剪辑的电子标记数据，EM创建部件153创建图18所示的编辑结果的电子标记数据。然后，EM创建部件153将编辑结果的电子标记数据记录到光盘31上的用于编辑列表的NRT文件中，并将电子标记数据提供给编辑列表创建部件152。

在步骤S91中，根据来自于操作部件I/F 114的操作信号，编辑列表创建部件152确定用户是否输入了鸭语处理将应用到的语音的发音者的发音者ID。

具体地，用户操作操作部件124以输入待应用鸭语处理的语音的发音者的发音者ID。操作部件I/F 114向编辑列表创建部件152提供指示该操作的操作信号，从而规定待应用鸭语处理的语音的发音者的发音者ID。若操作部件I/F 114提供了操作信号，则编辑列表创建部件152确定用户已输入了待应用鸭语处理的语音的发音者的发音者ID。

若步骤S91确定输入了待应用鸭语处理的语音的发音者的发音者ID，则在步骤S92，基于输入的发音者ID和步骤S90创建的编辑结果的电子标记数据，编辑列表创建部件152向编辑列表添加描述，该描述指示将鸭语处理应用到对应于发音者声音的段的声音。结果，例如，图16所示的编辑列表变为图19所示的编辑列表。

在步骤S93中，基于用户输入的作为待应用鸭语处理的语音的发音者的发音者ID的发音者ID，EM创建部件153向步骤S91中创建的编辑结果的电子标记数据中描述的发音者EM(start)和发音者EM(end)添加“鸭语”或“常规”作为指示是否应用了鸭语处理的信息。因此，例如，图18所示的编辑结果的电子标记数据变为图20所示的编辑结果的电子标记数据。然后，该处理结束。

虽然参考图23描述了用于声音的非破坏性编辑的声音编辑处理时，但用于图像的非破坏性编辑的图像编辑处理也以类似的方式执行。那种情况下，在编辑列表中，指示作为图像子剪辑的图像回放开始或结束的位置的信息等被描述为与用户输入的图像的入口点或出口点相对应。然而，应该注意的是，在图像的编辑处理中未执行图23中的步骤S90至S93的处理。

在图1的拍摄和编辑系统10中，由于以这种方式在编辑结果的电子标记数据中描述发音者EM(start)和发音者EM(end)，因此，基于该电子标记数据，可以容易地识别编辑结果的声音中的每个发音者的语音段。

因此，通过输入待应用鸭语处理的语音的发音者的发音者ID，用户可容易地向编辑列表添加指示将鸭语处理应用到对应于发音者的声音的段的声音的描述。结果，用户可容易地将鸭语处理应用到编辑结果的声音中的特定发音者的语音中。

此外，在改变或删除应用鸭语处理的声音的发音者的情况下，通过输入要改变或删除的发音者的发音者ID，在编辑结果的声音中应用了鸭语处理的声音的发音者可被容易地改变或删除。具体地，在新节目的情况下，由于需要在很短时间中完成编辑，因此能够容易地改变或删除应用鸭语处理的声音的发音者尤其有用。

虽然，图10的拍摄和编辑系统10中，两个视频摄像机21和22拍摄电视素材，但也可由一个视频摄像机拍摄电视素材。这种情况下，不需要编辑设备41将剪辑汇编到单个光盘上。

此外，虽然在拍摄和编辑系统10中，通过单个视频摄像机21获取声音，但也可通过两个视频摄像机21和22获取声音。在这种情况下，编辑设备41可同时执行图像和声音的非破坏性编辑。

随后，图24示出根据本发明的第二实施例的拍摄和编辑系统的配置的示例。应该注意的是，与图1中的组件所相同的组件被附于相同的附图标记，因此将其描述省略以避免重复。

在图24的拍摄和编辑系统170中，用户在拍摄期间向视频摄像机171输入发音者ID。

具体地，如图1所示的视频摄像机21和视频摄像机22，视频摄像机171是用于电视素材的录像带记录的设备。如同视频摄像机21，视频摄像机171拍摄电视素材的图像并通过麦克风21A获取声音。如同视频摄像机21，视频摄像机171将具有声音的结果图像数据记录到光盘172上的剪辑文件中。

此外，视频摄像机171获取发出语音的发音者的发音者ID，其由用户在获取电视素材的声音期间输入。根据用户输入的发音者ID，视频摄像机171将已添加了发音者ID的发音者EM(start)指定到获取的声音的帧。视频摄像机171将描述发音者EM(start)的电子标记数据记录到光盘172上的剪辑的NRT 文件。光盘172安装在编辑设备173的光盘驱动器41A中。

如同编辑设备41，编辑设备173是用于编辑记录在光盘驱动器41A中安装的光盘172上的素材数据等的设备。如同编辑设备41，响应于用户的输入，编辑设备173对记录在光盘172上的素材数据执行非破坏性编辑以创建编辑列表，以及在光盘172上的编辑列表文件中记录编辑列表。

此外，基于编辑列表和剪辑的电子标记数据，编辑设备173将发音者EM(start)指定到编辑结果。然后，编辑设备173将描述发音者EM(start)的电子标记数据记录到光盘32上的用于编辑列表的NRT文件，作为编辑结果的电子标记数据。进一步，如同编辑设备41，编辑设备173响应于用户的输入来对编辑结果的预定发音者的声音应用鸭语处理。

虽然在图24中，视频摄像机171和编辑设备173是独立设备，但视频摄像机171和编辑设备173也可集成在一起。

此外，在图24中，光盘172安装在编辑设备173的光盘驱动器41A中，并且执行关于光盘172的读取或记录。然而，编辑设备173通过网络连接到安装了光盘172的视频摄像机171并且通过网络执行关于光盘172的读取或记录的配置也是可能的。

图25是示出图24中的视频摄像机171的硬件配置的示例的框图。

在图25的视频摄像机171中，图像输入I/F 60、声音输入I/F 61、临时存储存储器I/F 63、光盘驱动器I/F 64、操作部件I/F 65、声音输出I/F 66、串行数据I/F 67、图像显示I/F 68、存储卡I/F 69、网络I/F 70、硬盘驱动器I/F 71、驱动器I/F 72和微型计算机181通过系统总线73连接。

应该注意的是，在图25中，与图2中的组件所相同的组件被附于相同的附图标记，因此将其描述省略以避免重复。

微型计算机181包括CPU、ROM和RAM。微型计算机181的CPU响应于来自于操作部件I/F 65的操作信号等，根据记录在ROM或硬盘81中的程序来控制视频摄像机171的各个部件。

例如，如同图2中所示的微型计算机62的CPU，通过使用包括图像输入I/F 60提供的图像数据和声音输入I/F 61提供的声音数据的素材数据，CPU创建代用数据，并将代用数据存储在临时存储存储器75中。此外，响应于从操作部件I/F 65输入的操作信号，CPU将发音者EM(start)指定到被拍摄的帧。然后，CPU创建描述发音者EM(start)的电子标记数据，并将该电子标记数据提供给光盘驱动器I/F 64，以便于记录到光盘172上的剪辑的NRT文件中。

进一步，如同微型计算机62的CPU，CPU通过系统总线73向声音输出I/F 66提供临时存储存储器I/F 63所提供的素材数据或代用数据中的声音数据，并且促使从扬声器78输出对应于声音数据的声音。

此外，如同微型计算机62的CPU，CPU通过系统总线73向图像显示I/F68提供临时存储存储器I/F 63所提供的素材数据或代用数据中的图像数据，并且促使在显示设备79上显示对应于该图像数据的图像。适当时，将待由CPU执行的程序、数据等存储在RAM中。

图26示出图25中所示的视频摄像机171的拍摄处理部件的功能配置的示例。

图26中所示的拍摄处理部件190包括控制部件191和创建部件192。

控制部件191执行关于拍摄的各种控制。例如，如同图3中的控制部件91，响应于操作部件I/F 65提供的、指示命令开始拍摄的操作的操作信号，控制部件191控制图像输入I/F 60和声音输入I/F 61，并开始素材数据的获取。

此外，如同控制部件91，控制部件191使用获取的素材数据来创建代用数据。进一步，控制部件191向临时存储存储器I/F 63提供素材数据和代用数据以存储到临时存储存储器75。

响应于指示输入操作部件I/F 65提供的发音者ID的操作的操作信号，创建部件192将添加了发音者ID的发音者EM(start)指定到被拍摄的帧。然后，创建部件192创建描述发音者EM(start)的电子标记数据，并将该电子标记数据提供给光盘驱动器I/F 64以存储在光盘172上的剪辑的NRT文件中。

接下来，参考图27，给出用户使用视频摄像机21执行拍摄操作的描述。

与拍摄操作的每个步骤的数字相关联，图27的表描述了该步骤中拍摄操作的内容、视频摄像机171的主要处理的内容以及应用了该处理的数据。

如图27中所示，在步骤S101中，用户操作操作部件77以命令显示图12中所示的输入屏。此时，基于预先寄存到硬盘81的发音者列表，视频摄像机171的创建部件192促使在显示设备79上显示输入屏。

在步骤S102中，用户操作操作部件77以命令开始拍摄。此时，视频摄像机171的控制部件191在光盘172上创建剪辑的NRT文件。此外，控制部件191在光盘172上创建剪辑文件。进一步，控制部件191开始将图像输入I/F 60和声音输入I/F 61提供的素材数据记录到剪辑文件。

在步骤S103中，每个发音者的语音的开始时，用户在输入屏上操作操作部件77以输入该发音者的发音者ID。此时，创建部件192将添加了发音者ID的发音者EM(start)指定到被拍摄的帧，并将发音者EM(start)描述到剪辑的NRT文件的电子标记数据中

在步骤S104中，用户操作操作部件77以命令结束拍摄。此时，控制部件191结束将素材数据记录到剪辑文件。

接下来，参考图28的流程图，描述图26中所示的拍摄处理部件190的拍摄处理。例如，当用户通过操作操作处理部件77命令开始拍摄时，开始该拍摄处理。

在步骤S111中，基于预先寄存在硬盘81上的发音者列表，视频摄像机171的创建部件192促使在显示设备79上显示输入屏。在步骤S112中，控制部件191根据操作部件I/F 65提供的操作信号，确定用户是否已命令开始拍摄。若在步骤S112中确定尚未命令开始拍摄，则控制部件191等待直到命令开始拍摄。

另一方面，若在步骤S112确定已命令开始拍摄，则在步骤S113中，如图8的步骤S31的处理中，控制部件191在光盘172上创建剪辑的NRT文件。在步骤S114，如图8的步骤S32的处理中，控制部件191在光盘172上创建剪辑文件。在步骤S115中，控制部件191开始将图像输入I/F 60和声音输入I/F 61提供的素材数据记录到剪辑文件。

在步骤S116中，创建部件192根据操作部件I/F 65提供的操作信号，确定用户是否输入了发音者ID。若在步骤S116中确定用户尚未输入发音者ID，则该处理跳过步骤S117而进入步骤S118。

若在步骤S116中确定已输入了发音者ID，则在步骤S117中，基于当前拍摄的帧的帧号，创建部件192将已添加了用户所输入的发音者ID的发音者EM(start)指定到该帧号的帧。然后，创建部件192将该发音者EM(start)描述到剪辑的NRT文件的电子标记数据中。

在步骤S118中，控制部件191响应于来自于操作部件77的操作信号，确定用户是否已命令结束拍摄。若在步骤S118中确定尚未命令结束拍摄，则处理返回S116，并且重复上述处理。

如果在步骤S118中确定已命令结束拍摄，则在步骤S119中，控制部件191结束将素材数据记录到剪辑文件。然后，处理结束。

图29是示出图24中所示的编辑设备173的硬件配置的示例的框图。

在图29中所示的编辑设备173中，临时存储存储器I/F 112、光盘驱动器I/F 113、操作部件I/F 114、声音输入I/F 115、串行数据I/F 116、图像显示I/F117、存储卡I/F 118、网络I/F 119、硬盘驱动器I/F 120、驱动器I/F 121和微型计算机195通过系统总线122连接。应该注意的是，在图29中，与图9中的组件所相同的组件被附于相同的附图标记，因此将其描述省略以避免重复。

微型计算机195包括CPU、ROM和RAM。微型计算机195的CPU响应于来自于操作部件I/F 114的操作信号等，根据记录在ROM或硬盘128中的程序来控制编辑设备173的各个部件。

例如，如同图9中所示的微型计算机111的CPU，CPU向临时存储存储器I/F 112提供读取自光盘驱动器41A中安装的光盘172且从光盘驱动器I/F113提供的剪辑。

此外，如同微型计算机111的CPU，CPU通过响应于操作信号创建编辑列表来执行非破坏性编辑。如同微型计算机111的CPU，CPU将编辑列表记录在光盘172上。

进一步，如同微型计算机111的CPU，基于编辑列表和剪辑的NRT文件的电子标记数据，CPU创建编辑结果的电子标记数据。然后，如同微型计算机111的CPU，CPU将该电子标记数据记录到光盘172上的用于编辑列表的NRT文件。

此外，如同微型计算机111的CPU，对于编辑结果的声音，基于操作信号和编辑结果的电子标记数据，CPU以这种方式改变编辑列表：即将鸭语处理应用到具有用户规定的发音者ID的发音者的语音。

进一步，如同微型计算机111的CPU，CPU通过系统总线122向声音输出I/F 115提供临时存储存储器I/F 112提供的剪辑的声音数据，并促使从扬声器125输出剪辑的声音。此外，CPU通过系统总线122向图像显示I/F 117提供临时存储存储器I/F 112提供的剪辑的图像数据，并促使在显示设备126上显示剪辑的图像。适当时，将待由CPU执行的程序、数据等存储在RAM中。

图30示出图29中所示的编辑设备173中的拍摄处理部件的功能配置的示例。

图30中所示的拍摄处理部件200包括编辑列表创建部件201和EM创建部件202。

例如，如同编辑列表创建部件152，编辑创建部件201向临时存储存储器I/F 112提供读取自光盘172且从光盘驱动器I/F 113提供的剪辑。

进一步，如同编辑列表创建部件152，编辑列表创建部件201向声音输出I/F 115提供临时存储存储器I/F 112提供的代用数据的声音数据，并促使从扬声器125输出剪辑的声音。此外，编辑列表创建部件201向图像显示I/F117提供代用数据的图像数据，并促使在显示设备126上显示剪辑的低分辨率图像，作为编辑屏。此时，当听到来自于扬声器125的声音并看到编辑屏时，用户通过操作操作部件124来执行编辑操作。

如同编辑列表创建部件152，响应于由于用户的编辑操作而从操作部件I/F 114提供的操作信号，编辑列表创建部件201通过创建编辑列表来执行非破坏性编辑。然后，如同编辑列表创建部件152，编辑列表创建部件201向光盘驱动器I/F 113提供编辑列表以存储在光盘172上，并还向EM创建部件202提供该编辑列表。

此外，如同编辑列表创建部件152，对于编辑结果的声音，基于操作部件I/F 114提供的操作信号以及EM创建部件202提供的编辑结果的电子标记数，编辑列表创建部件201以这种方式改变编辑列表：即将鸭语处理应用到具有用户规定的发音者ID的发音者的语音。

如同EM创建部件153，基于编辑列表创建部件201提供的编辑列表以及存储在临时存储存储器I/F 112中的剪辑的电子标记数据，EM创建部件202创建编辑结果的电子标记数据。然后，如同EM创建部件153，EM创建部件202将电子标记数据记录到光盘172上的用于编辑列表的NRT文件，并还向编辑列表创建部件201提供电子标记数据。

此外，响应操作部件I/F 114提供的操作信号，EM创建部件202将指示是否应用了鸭语处理的信息添加到发音者EM(start)，其中发音者EM(start)已被添加了用户规定的发音者ID并被描述在编辑结果的电子标记数据中。

接下来，参考图31A到34，描述编辑设备173中的非破坏性编辑。

应该注意的是，在该示例中，视频摄像机171拍摄3个人(具有发音者ID“A”的发音者”OO”、具有发音者ID“B”的发音者“xx”以及具有发音者“C”的发音者“ΔΔ”)作为景物并获取他们对话的声音。因此，拍摄3个发音者之间的对话作为电视素材。

然后，用户剪切电视素材的预定段的声音以用作编辑结果的声音，并还剪切预定段的图像以用于编辑结果的图像，并且以对于3个发音者中的至少一个的声音应用鸭语处理的方式来执行非破坏性编辑。

首先，参考图31A、31B和图32，给出记录在光盘172上的待编辑剪辑以及编辑结果的描述。应该注意的是，在图31A和31B中，水平轴表示帧号。

图31A顶部的条表示视频摄像机171拍摄的待编辑的第一剪辑的长度，条上的每个数字表示在对应于其描述位置的拍摄时间时所拍摄的图像的帧号。即，在图31A和31B的示例中，第一剪辑的图像的帧数是1001帧，从“0”到“1000”依次将帧号指定给单个帧。

图31A中部的条表示第一剪辑的声音的长度，条内每个字母表示发出对应于该位置的语音的发音者的发音者ID。此外，条下所描述的每个箭头表示发音者EM(start)。

具体地，在图31A和31B的示例中，在第一剪辑中，将具有向其添加了发音者ID“A”的发音者EM(start)指定到第100帧，将具有向其添加了发音者ID“B”的发音者EM(start)指定到第350帧。此外，将具有向其添加了发音者ID“C”的发音者EM(start)指定到第600帧。

此外，图31B的条表示作为对于图31A中所示的第一剪辑执行非破坏性编辑的结果而获得的编辑结果的长度，并且条上所描述的每个数字表示对应于其描述位置的编辑结果上的帧号。即，在图31A和31B的示例中，编辑结果的帧数是601帧，并且从“0”到“600”依次将帧号指定给单个帧。

具体地，在图31A和31B的示例中，用户将第一剪辑的第200帧规定为入口点，并将第300帧规定为出口点。因此，第一剪辑的第200帧到第300帧的帧的素材数据为编辑结果的第0帧到第100帧的帧的素材数据(在下文中，称为第一素材子剪辑)。

此外，在图31A和31B的示例中，用户将第一剪辑的第400帧规定为入口点，并将第750帧规定为出口点。因此，第一剪辑的第400帧到第750帧的帧的素材数据为编辑结果的第100帧到第450帧的帧的素材数据(在下文中，称为第二素材子剪辑)。

进一步，在图31A和31B的示例中，用户将第一剪辑的第850帧规定为入口点，并将第1000帧规定为出口点。因此，第一剪辑的第850帧到第1000帧的帧的素材数据为编辑结果的第450帧到第600帧的帧的素材数据(在下文中，称为第三素材子剪辑)。

在使用以这种方式规定的入口点和出口点来执行非破坏性编辑的情况下，将被指定到第一剪辑的每个入口点紧接之前的位置的发音者EM(start)指定到对应于该入口点的编辑结果的位置。

在图31A和31B的示例中，将被指定到规定为入口点的第一剪辑的第200帧紧接之前的第100帧的、具有发音者ID“A”的发音者EM(start)指定到作为对应于该入口点的编辑结果的位置的第0帧。

此外，将被指定到规定为入口点的第一剪辑的第400帧紧接之前的第350帧的、具有发音者ID“B”的发音者EM(start)指定到作为对应于该入口点的编辑结果的位置的第100帧。

进一步，将被指定到规定为入口点的第一剪辑的第850帧紧接之前的第600帧的、具有发音者ID“C”的发音者EM(start)指定到作为对应于该入口点的编辑结果的位置的第450帧。

此外，将被指定到从第一剪辑的每个入口点到每个出口点的编辑段内的位置的发音者EM(start)指定到对应于该位置的编辑结果上的位置。在图31A和31B的示例中，将被指定到从规定为入口点的第一剪辑的第400帧到规定为出口点的第二剪辑的第750帧的编辑部分内的第600帧的发音者EM(start)指定到作为对应于该位置的编辑结果的位置的第300帧。

应该注意的是，其上指定了发音者EM(start)的编辑结果的位置Tee3(图31A和31B的示例中的300)由下面的方程(1)获得，方程(1)使用对应于入口点的编辑结果的位置Tec1(图31A和31B示例中的100)、指定发音者EM(start)的剪辑上的位置Tme3(图31A和31B示例中的600)以及入口点Tmc3(图31A和31B示例中的400)。

Tee3＝Tec1+Tme3-Tmc3 (1)

此外，编辑结果以及对应于该编辑结果的声音的发音者ID如图32中所示。应该注意的是，在图32中，水平轴代表帧号。

即，编辑结果包括从起始处顺序配置的第一素材子剪辑、第二素材子剪辑和第三素材子剪辑。此外，编辑结果的从帧号“0”到“100”的帧中的声音是具有发音者ID“A”的发音者的声音，编辑结果的从帧号为“100”到“300”的帧中的声音是发音者ID“B”的发音者的声音。进一步，编辑结果的从帧号为“300”到“600”的帧中的声音是发音者ID“C”的发音者的声音。

如上所述，在图31B和32的编辑结果中，第二素材子剪辑的出口点和发音者的切换点彼此不同。即，如图31B和32的编辑结果中，在第二素材子剪辑的某个中点，发音者“xx”的声音切换到发音者“ΔΔ”的声音。

图33示出图31A和31B所示的第一剪辑的电子标记数据，图34示出图31A、31B和32中所示的编辑结果的电子标记数据。

在图33的示例中，电子标记表括起来的电子标记表部分(<EssenceMarkTable></EssenceMark Table>)描述在第2到第6行上。

图33第2行上的“targetMedia＝“Original-Material””表示该电子标记数据是描述指定到剪辑的素材数据的电子标记的电子标记数据。

此外，第3行上的描述“EssenceMark value＝“Speaker-A”frameCount＝“100””指示：该电子标记指示的特性特征是具有发音者ID“A”的发音者的语音的开始位置，并且该电子标记的指定位置是从剪辑起始处的第100帧。

同样，第4行上的描述“EssenceMark value＝“Speaker-B”frameCount＝“350””以及第5行上的“EssenceMark value＝“Speaker-C”frameCount＝“600””指示：这些电子标记指示的特性特征分别是具有发音者ID“B”的发音者以及具有发音者ID“C”的发音者的语音的开始位置，并且这些电子标记的指定位置分别是从剪辑起始处的第350帧以及第600帧。

在图34的示例中，电子标记表括起来的电子标记表部分(<EssenceMarkTable></EssenceMark Table>)描述在第2到第7行上。

应该注意的是，第2行上的“targetMedia＝“Initial-Editlist””表示该电子标记数据是描述指定到编辑结果的电子标记的电子标记数据。

此外，第3行上的描述“EssenceMark value＝“Speaker-A”frameCount＝“0””指示：该电子标记指示的特性特征是具有发音者ID“A”的发音者的语音的开始位置，并且该电子标记的指定位置是从编辑结果起始处的第0帧。

同样，第4行上的描述“EssenceMark value＝“Speaker-B”frameCount＝“100””、第5行上的“EssenceMark value＝“Speaker-C”frameCount＝“300””以及第6行上的“EssenceMark value＝“Speaker-C”frameCount＝“450””指示：这些电子标记指示的特性特征分别是具有发音者ID“B”的发音者、具有发音者ID“C”的发音者以及具有发音者ID“C”的发音者的语音的开始位置，并且这些电子标记的指定位置分别是从编辑结果起始处的第100帧、第300帧以及第450帧。

应该注意的是，在上述描述中，具有添加至其的相同发音者ID“C”的发音者EM(start)被连续指定到编辑结果的第300帧和第450帧。然而，在具有添加至其的相同发音者ID的发音者EM(start)彼此连续的情况下，仅可指定第一个发音者EM(start)。

随后，参考图35，将给出用户使用编辑设备173执行编辑操作的描述。

与编辑操作的每个步骤的数字相关联，图35的表描述了该步骤中编辑操作的内容、编辑设备173的主要处理的内容以及应用了该处理的数据。

如图35中所示，在步骤S131中，用户在编辑设备173的光盘驱动器41A中安装光盘172，并且通过操作操作部件124命令编辑屏的显示。同时，基于代用文件的代用数据，编辑列表创建部件201促使在显示设备126上显示编辑屏，并促使从扬声器125输出剪辑的声音。

在步骤S132中，用户通过在编辑屏上规定入口点和出口点来操作操作部件124以执行编辑。同时，编辑列表创建部件201基于用户规定的入口点和出口点来创建编辑列表。然后，编辑列表创建部件201将该编辑列表记录到光盘172上的编辑列表文件中，并将该编辑列表提供给EM创建部件202。

此外，基于编辑列表创建部件201提供的编辑列表以及其中描述了剪辑的发音者EM(start)的电子标记数据，EM创建部件202在剪切点处插入发音者EM(start)，并且将指定到入口点到出口点的位置的发音者EM(start)复制到编辑结果上的相应位置，从而创建编辑结果的电子标记数据。然后，EM创建部件202将编辑结果的电子标记数据记录到光盘172上的用于编辑列表的NRT文件。

由于步骤S133和S134的处理与图21中步骤S56和S57的处理相同，因此其描述省略。

虽然没有示出，但编辑处理部件200执行的声音和图像的非破坏性编辑的编辑处理与图23中的声音编辑处理相同。然而，应该注意的是，在图23中步骤S83和S85的编辑处理部件200的编辑处理中，当前回放的帧的帧号在编辑列表中描述为作为素材子剪辑的声音和图像回放开始或结束的位置。

图24的拍摄和编辑系统170中，视频摄像机171执行拍摄和发音者EM(start)的指定。然而，如图36所示，可从执行拍摄的视频摄像机205独立提供指定发音者EM(start)的指定设备206。

进一步，在图24的拍摄和编辑系统170中，电视素材由单个视频摄像机 171拍摄。然而，电视素材也可由多个视频摄像机拍摄。

这种情况下，如同图1中的编辑设备41，编辑设备173在单个光盘上汇编各个视频摄像机拍摄的剪辑。此外，这种情况下，声音可由多个视频摄像机中的每个获取，或仅由一个视频摄像机获取。在声音被一个视频摄像机获取的情况下，如同编辑设备41，编辑设备173对图像和声音独立地执行非破坏性编辑。

接下来，图37示出根据本发明第三实施例的拍摄和编辑系统的配置的示例。应该注意的是，与图1和24中的组件所相同的组件被附于相同的附图标记，因此将其描述省略以避免重复。

在拍摄和编辑系统210中，用户输入发音者ID，同时编辑设备213回放编辑结果。

具体地，如同图24中的视频摄像机171，视频摄像机211是用于电视素材的录像带记录的设备。如同视频摄像机171，视频摄像机211拍摄电视素材的图像并通过麦克风21A获取声音。如同视频摄像机171，视频摄像机211在光盘212上将具有声音的结果图像数据记录到剪辑文件。

光盘212安装在编辑设备213的光盘驱动器41A中。如同编辑设备173，编辑设备213是用于编辑在光盘驱动器41A中安装的光盘212上记录的素材数据的设备。

如同编辑设备173，响应于用户的输入，编辑设备213对记录在光盘212上的素材数据执行非破坏性编辑以创建编辑列表，并且在光盘212上将编辑列表记录到编辑列表文件。此外，响应于用户的输入，编辑设备213将发音者EM(start)指定到编辑结果，并将描述发音者EM(start)的电子标记数据记录到光盘212上的用于编辑列表的NRT文件，作为编辑结果的电子标记数据。

进一步，如同编辑设备173，响应于用户的输入，编辑设备213对编辑结果的预定发音者的声音应用鸭语处理。

虽然在图37中，视频摄像机211和编辑设备213是独立设备，但视频摄像机211和编辑设备213也可集成在一起。

此外，在图37中，光盘212安装在编辑设备213的光盘驱动器41A中，并且执行关于光盘212的读取或记录。然而，编辑设备213通过网络连接到安装了光盘212的视频摄像机211以及通过网络执行关于光盘212的读取或记录的配置也是可能的。

图38是示出图37中的视频摄像机211的硬件配置的示例的框图。

在图38的视频摄像机211中，图像输入I/F 60、声音输入I/F 61、临时存储存储器I/F 63、光盘驱动器I/F 64、操作部件I/F 65、声音输出I/F 66、串行数据I/F 67、图像显示I/F 68、存储卡I/F 69、网络I/F 70、硬盘驱动器I/F 71、驱动器I/F 72和微型计算机221通过系统总线73连接。

应该注意的是，在图38中，与图2和25中的组件所相同的组件被附于相同的附图标记，因此将其描述省略以避免重复。

微型计算机221包括CPU、ROM和RAM。响应于来自操作部件I/F 65的操作信号等，微型计算机221的CPU根据记录在ROM或硬盘81中的程序来控制视频摄像机211的各个部件。

例如，如同图25中的微型计算机181的CPU，CPU通过使用包括图像输入I/F 60提供的图像数据和声音输入I/F 61提供的声音数据的素材数据来创建代用数据，并将该代用数据存储在临时存储存储器75中。此外，如同微型计算机181的CPU，CPU通过系统总线73向声音输出I/F 66提供从临时存储存储器I/F 63提供的素材数据或代用数据中的声音数据，并促使从扬声器78输出对应于该声音数据的声音。

此外，如同微型计算机181的CPU，CPU通过系统总线73向图像显示I/F 68提供从临时存储存储器I/F 63提供的素材数据或代用数据中的图像数据，并且促使在显示设备79上显示对应于该图像数据的图像。适当时，将待由CPU执行的程序、数据等存储在RAM中。

图39示出图38中的视频摄像机211的拍摄处理部件的功能配置的示例。如图39中所示，拍摄处理部件230通过图26中的控制部件191配置，因此其描述省略。

随后，参考图40，给出用户使用视频摄像机211执行拍摄操作的描述。

与拍摄操作的每个步骤的数字相关联，图40的表描述了该步骤中拍摄操作的内容、视频摄像机211的主要处理的内容以及应用了该处理的数据

图40中的步骤S171和S172与图27中的步骤S102和S104相同。即，在图40的编辑操作中，从图27中的编辑操作中删除了与指定发音者EM(start)有关的操作的步骤S101和S103。

随后，参考图41的流程图，描述图39所示的拍摄处理部件230的拍摄处理。例如，当用户通过操作操作处理部件77来命令开始拍摄时，该拍摄处理开始。

由于步骤S191到S195的处理与图28中的步骤S113到S115、S118以及S119的处理相同，因此省略其描述。

图42是示出图37中所示的编辑设备213的硬件配置的示例的框图。

在图42所示的编辑设备213中，临时存储存储器I/F 112、光盘驱动器I/F 113、操作部件I/F 114、声音输入I/F 115、串行数据I/F 116、图像显示I/F117、存储卡I/F 118、网络I/F 119、硬盘驱动器I/F 120、驱动器I/F 121和微型计算机241通过系统总线122连接。应该注意的是，在图42中，与图9和29中的组件所相同的组件被附于相同的附图标记，因此将其描述省略以避免重复。

微型计算机241包括CPU、ROM和RAM。响应于来自操作部件I/F 114的操作信号等，微型计算机241的CPU根据记录在ROM或硬盘128中的程序来控制编辑设备213的各个部件。

例如，如同图29中所示的微型计算机195的CPU，CPU向临时存储存储器I/F 112提供读取自光盘驱动器41A中安装的光盘172且从光盘驱动器I/F113提供的剪辑。

此外，如同微型计算机195的CPU，CPU通过响应于操作信号创建编辑列表来执行非破坏性编辑。如同微型计算机195的CPU，CPU将编辑列表记录到光盘212上。

进一步，CPU响应于来自操作部件I/F 114的操作信号来创建编辑结果的电子标记数据。然后，如同微型计算机195的CPU，CPU将电子标记数据记录到光盘212上的用于编辑列表的NRT文件。

此外，如同微型计算机195的CPU，对于编辑结果的声音，基于操作信号和编辑结果的电子标记数据，CPU以这种方式改变编辑列表：即将鸭语处理应用到具有用户规定的发音者ID的发音者的声音。

进一步，如同微型计算机195的CPU，CPU通过系统总线122向声音输出I/F 115提供临时存储存储器I/F 112提供的剪辑的声音数据，并促使从扬声器125输出该剪辑的声音。此外，CPU通过系统总线122向图像显示I/F 117提供临时存储存储器I/F 112提供的剪辑的图像数据，并促使将剪辑的图像显示在显示设备126上。适当时，将待由CPU执行的程序、数据等存储在RAM中。

图43示出图42中所示的编辑设备213的拍摄处理部件的功能配置的示例。

图43中所示的拍摄处理部件250包括编辑列表创建部件201和EM创建部件251。应该注意的是，在图43中，与图30中的组件所相同的组件被附于相同的附图标记，因此将其描述省略以避免重复。

EM创建部件251响应于来自操作部件I/F 114的操作信号创建编辑结果的电子标记数据。然后，如同图30中的EM创建部件202，EM创建部件251将电子标记数据记录到光盘212上的用于编辑列表的NRT文件，并还向编辑列表创建部件201提供电子标记数据。

此外，如同EM创建部件202，响应操作部件I/F 114提供的操作信号，EM创建部件251将指示是否应用了鸭语处理的信息添加到发音者EM(start)，其中发音者EM(start)已被添加了用户规定的发音者ID并被描述在编辑结果的电子标记数据中。

随后，参考图44，给出用户使用编辑设备213执行编辑操作的描述。

与编辑操作的每个步骤的数字相关联，图44的表描述了该步骤中编辑操作的内容、编辑设备213的主要处理的内容以及应用了该处理的数据。

如图44中所示，如图35中的步骤S131那样，在步骤S211中，用户在编辑设备213的光盘驱动器41A中安装光盘212，并且通过操作操作部件124来命令编辑屏的显示。同时，基于代用文件的代用数据，编辑设备213的编辑列表创建部件201促使在显示设备126上显示编辑屏，并促使从扬声器125输出剪辑的声音。

在步骤S212中，用户通过在编辑屏上规定入口点和出口点来操作操作部件124以执行编辑。同时，编辑列表创建部件201基于用户规定的入口点和出口点来创建编辑列表。然后，编辑列表创建部件201将编辑列表记录到光盘212上的编辑列表文件中，并将编辑列表提供给EM创建部件251。

在步骤S213，用户操作操作部件124以命令输入屏的显示(图12)。同时，基于预先寄存在硬盘128上的发音者列表，EM创建部件251促使在显示设备126上显示输入屏。

在步骤S214中，用户命令回放编辑结果。同时，基于编辑列表，EM创建部件251从光盘212上的剪辑文件回放构成剪辑结果的素材数据。结果，从扬声器125输出编辑结果的声音，并且在显示设备126上显示图像。

在步骤S215中，用户收听剪辑的声音，并且在每个发音者语音的开始处，用户操作操作部件124以输入该发音者的发音者ID。此时，EM创建部件251将向其已添加了所输入的发音者ID的发音者EM(start)指定到对应于回放声音的帧，并且将发音者EM(start)描述到用于编辑列表的NRT文件的电子标记数据中。

由于步骤S216和S217的处理与图35中步骤S133和S134的处理相同，因此省略其描述。

随后，参考图45的流程图，给出其中发音者EM(start)被指定到编辑结果的图43中的EM创建部件251的指定处理的描述。例如，当用户通过操作操作处理部件124开始命令图12中所示的输入屏的显示时，开始该指定处理。

在步骤S231中，基于预先寄存到硬盘128的发音者列表，EM创建部件251在显示设备126上显示输入屏。在步骤S232中，EM创建部件251确定用户是否已命令回放编辑结果。若步骤S232中确定尚未命令回放编辑结果，则EM创建部件251等待直到命令回放。

另一方面，若步骤S232在确定已命令回放编辑结果，则在步骤S233中，EM创建部件251开始回放编辑结果。在步骤S234中，EM创建部件251根据操作部件I/F 114提供的操作信号来确定用户是否已输入了发音者ID。

如果在步骤S234确定用户尚未输入发音者ID，则EM创建部件251等待直到输入发音者ID。如果在步骤S234中确定用户已输入了发音者ID，则在步骤S235中，基于表示对应于发音者ID输入的位置的当前回放的帧的帧号，EM创建部件251将具有向其添加了所输入发音者ID的发音者EM(start)指定到当前回放的帧，并将该发音者EM(start)描述到编辑列表的NRT文件的电子标记数据中。

在步骤S236中，EM创建部件251确定当前回放的编辑结果是否已回放到结束处。若确定编辑结果尚未回放到结束处，则处理返回步骤S234并重复上述处理。

另一方面，若在步骤S236中确定编辑结果已回放到结束处，则在步骤S237中，EM创建部件251结束编辑结果的回放。然后，处理结束。

以这种方式，编辑设备213响应于用户的输入将发音者EM(start)指定到编辑结果。因此，在将鸭语处理应用到编辑结果的期望发音者的声音的情况下，基于该发音者EM(start)，可容易地识别应用了鸭语处理的声音段。

虽然没有显示，但编辑处理部件250执行的声音和图像的非破坏性编辑的编辑处理与图23中的声音编辑处理相同。然而，应该注意的是，在图23中的步骤S83和S85中，编辑处理部件250执行的编辑处理中，当前回放的帧的帧号在编辑列表中被描述为作为素材子剪辑的声音和图像开始或结束回放的位置。

进一步，在图37的拍摄和编辑系统210中，电视素材由单个视频摄像机211拍摄。然而，电视素材也可由多个视频摄像机拍摄。

在这种情况下，如同图1中的编辑设备41，编辑设备213将各视频摄像机拍摄的剪辑汇编到单个光盘上。此外，在这种情况下，声音可由多个视频摄像机中的每一个获取，或仅由一个视频摄像机获取。在声音由一个视频摄像机获取的情况下，如同编辑设备41，编辑设备213对图像和声音分别执行非破坏性编辑。

进一步，在上述描述中，剪辑记录在光盘上。然而，记录剪辑的记录介质当然不限于光盘。

此外，在上述描述中，发音者列表记录在硬盘上。然而，可以和剪辑一起将发音者列表记录在诸如光盘的记录介质上。

进一步，可对已应用了鸭语处理的声音的发音者的图像应用马赛克。

此外，在图24和36中的拍摄和编辑系统170中以及图37中的拍摄和编辑系统210中指定了发音者ID(start)。然而，发音者ID(start)和发音者ID(end)两者均可被指定。

进一步，在上述描述中，当输入用户对其应用了鸭语处理的语音的发音者的发音者ID时，指示鸭语处理是否被应用的信息被添加到编辑结果的电子标记数据中描述的发音者EM(start)和发音者EM(end)，或被添加到发音者EM(start)，该信息也可不被添加。

应该注意的是，在本说明书中，描述记录在程序记录介质上的程序的步骤不仅包括以它们在描述中出现的次序的时间顺序来执行的处理，也包括不以时间顺序执行而是并行或独立执行的处理。

此外，在本说明书中，术语系统是指多个设备构成的整个设备。

进一步，本发明的实施例并不限于上述实施例，而是在不脱离本发明的范围的情况下，各种修改都是可能的。

Claims

1.一种拍摄具有声音的图像的拍摄装置，包含：

拍摄部件，其拍摄景物；

获取部件，其获取环境的声音；以及

指定部件，在以下的每种情况下：即，声音的级别已变成等于或大于第一阈值达第一时间段或以上的情况下，以及其后声音的级别已变成小于第二阈值达第二时间段或以上的情况下，该指定部件将指示未定发音者的语音的开始位置和结束位置的电子标记指定到具有声音的图像中对应于该语音的位置。

2.一种用于拍摄具有声音的图像的拍摄装置的拍摄方法，包含以下步骤：

拍摄景物；

获取环境的声音；以及

在以下的每种情况下：即，声音的级别已变成等于或大于第一阈值达第一时间段或以上的情况下，以及其后声音的级别已变成小于第二阈值达第二时间段或以上的情况下，将指示未定发音者的语音的开始位置和结束位置指定到具有声音的图像中对应于该语音的位置。