具体实施方式
以下,参照附图说明本发明的实施例。
(成为本发明的基础的知识)
本发明人们,关于“背景技术”的栏中记载的分发、视听系统,发现了会产生以下的问题。
利用图1说明背景技术的通过广播波的影像内容的分发、视听系统。分发、视听系统10,如图1示出,由作为制作并发送影像内容的广播电台的系统的广播系统100、以及从广播波接收影像内容的再生装置110构成。
广播系统100,由广播影像摄影部101、广播影像编辑部102、以及广播流制作部103构成。
广播影像摄影部101,主要是指广播电台的摄像机,拍摄影像、且收集声音(以下,单纯地称为“拍摄影像”。)。也就是说,影像是,一般而言,多个摄影师从各种各样的角度利用广播影像摄影部101来拍摄的。例如,在制作足球的内容的情况下,为了拍摄足球的赛场的俯瞰影像、放大了选手的影像、从球门后等的不同视点影像等的从各种各样的视点的影像,摄影师在各种各样的位置使用广播影像摄影部101进行拍摄。
广播影像编辑部102,对由广播影像摄影部101拍摄而记录的影像以及声音进行编辑。具体而言,在由多个广播影像摄影部101拍摄的影像中,由广播影像编辑部102进行,要广播的场景的选择、在拍摄的影像重叠比分信息以及字幕信息等的图形的图像处理等。从由多个广播影像摄影部101拍摄的影像中的要广播的场景的影像的选择是,由专门进行场景的选择的总监进行的。总监,按照拍摄的内容的状况进行判断,适当地选择要利用的场景。例如,在足球的例子中,总监,一边看比赛状况,一边选择良好地拍摄选手以及球的相机的影像。
广播流制作部103,将由广播影像编辑部102编辑的影像以及声音的内容,变换为作为用于在广播波中流过的格式的广播流104。广播流制作部103,例如,若是影像,则以MPEG-2以及MPEG-4AVC等的视频编解码进行编码来生成视频流,若是声音,则以AC3以及AAC等的音频编解码进行编码来生成音频流,将他们多路复用为一条MPEG-2TS等的系统流。
再生装置110,由调谐器111以及广播流解码部112构成。
调谐器111具有,接收系统流,并解调接收的信号的功能。
广播流解码部112,对系统流进行解码。广播流解码部112,对系统流内的压缩编码后的视频流进行解码,从而生成非压缩的印象影像,来输出到视频平面并输出到电视机等。广播流解码部112,还对系统流内的压缩编码后的音频流进行解码,生成非压缩的LPCM(Linear Pulse CodeModulation)状态的音频帧,来输出到电视机等的扬声器。
以上是以往的广泛地普及的通过广播波的影像内容的分发、视听系统10的结构。
然而,在图1示出的由广播电台的影像内容的分发、视听系统10中,用户能够视听由广播电台制作的影像内容,但是,不能欣赏进行了反映了用户的意图的编辑的影像内容。也就是说,影像内容的细节,取决于使用广播影像摄影部101拍摄的摄影师、以及使用广播影像编辑部102从多个场景中选择影像的总监的意思,不能反映用户的喜好。
例如,在足球的转播影像的情况下,即使用户想要视听放大了喜欢的选手的影像,由广播电台的编辑是,为了被大众广泛地接受而进行的,因此,广播集中拍摄特定的选手的影像的情况少。例如,在偶像的演唱会的转播影像的情况下,即使用户想要视听放大了喜欢的偶像的影像,由广播电台的编辑是,为了被大众广泛地接受而进行的,因此,广播集中拍摄特定的偶像的影像的情况少。
并且,在专利文献1以及专利文献2示出的由互联网的运动图像分发服务中,也不能解决该问题。用户能够从多个影像内容中选择自己喜欢的内容并按需再生,但是,不能将要视听的影像内容动态地变换为反映了自己的嗜好的影像内容来视听。
为了解决这样的问题,本发明的实施方案之一涉及的影像提供方法,用于由计算机向用户提供影像,所述影像提供方法包括:影像获得步骤,获得(i)第一摄影空间被拍摄而得到的第一主影像、以及(ii)包含所述第一空间以外的空间的第二摄影空间被拍摄而得到的第二主影像,所述第一摄影空间以及所述第二摄影空间均是摄影空间中的一部分的空间;影像生成步骤,对所述影像获得步骤中获得的所述第一主影像以及所述第二主影像进行合成,从而生成广角影像;信息获得步骤,经由网络,获得所述用户的嗜好信息;区域计算步骤,根据所述信息获得步骤中获得的所述用户的嗜好信息,计算裁剪区域,该裁剪区域是所述广角影像中的一部分且比所述广角影像的区域小的区域;裁剪步骤,以所述区域计算步骤中计算出的所述裁剪区域,对所述影像生成步骤中生成的所述广角影像进行裁剪;以及影像提供步骤,将所述裁剪步骤中进行裁剪而生成的裁剪影像提供给所述用户。
据此,根据用户的嗜好信息确定合成了多个影像的广角影像中的裁剪区域,将以确定的裁剪区域进行裁剪而生成的裁剪影像提供给用户,因此,能够将与用户的嗜好信息对应的影像提供给用户。
并且,例如,也可以是,所述用户的嗜好信息示出视听对象,所述视听对象是用户想要视听的对象,所述影像提供方法,还包括位置确定步骤,在所述位置确定步骤中,根据所述用户的嗜好信息对所述广角影像进行图像识别,从而确定所述广角影像中的所述视听对象的位置,在所述区域计算步骤中,利用所述广角影像中的、所述位置确定步骤中确定的所述视听对象的位置,计算包含所述视听对象的区域,以作为所述裁剪区域。
据此,对于根据用户的嗜好信息确定的作为用户想要视听的对象的视听对象,对广角影像进行图像识别,来能够将广角影像中的视听对象出现的区域确定为裁剪区域,因此,能够将用户想要视听的对象出现的影像供给用户。
并且,例如,也可以是,在所述区域计算步骤中,计算所述广角影像中的由为了对所述广角影像进行裁剪而预先决定了尺寸的裁剪框在如下情况下所确定的区域,以作为所述裁剪区域,该情况是将所述视听对象的位置与所述裁剪框中的规定的基准位置一致的情况。
据此,以使视听对象的位置与用于裁剪的裁剪框的基准位置一致的方式确定裁剪区域,因此,确实能够将包含视听对象的影像设为裁剪影像。
并且,例如,也可以是,在所述区域计算步骤中,计算所述广角影像中的由所述裁剪框在如下情况下所确定的区域,以作为所述裁剪区域,该情况是将与处理对象的帧相比规定时间以前的帧的所述视听对象的位置与所述裁剪框的所述规定的基准位置一致的情况。
能够使裁剪区域的移动相对于视听对象的移动而延迟,因此,能够生成像人操作相机那样的影像。因此,能够向用户提供不会给予不协调感的自然的印象的影像。
并且,例如,也可以是,在所述影像获得步骤中,进一步,获得副影像,该副影像是在与所述第一主影像以及所述第二主影像相同的定时、以与所述第一主影像以及所述第二主影像不同的角度拍摄所述摄影空间中的至少一部分的空间而得到的影像,所述影像提供方法,还包括位置确定步骤,场景分割步骤,根据规定的算法,将所述裁剪步骤中裁剪的所述裁剪影像、和所述影像获得步骤中获得的所述副影像,分别分割为多个场景;以及影像选择步骤,根据所述信息获得步骤中获得的所述用户的嗜好信息,针对所述多个场景的每一个,选择所述裁剪影像以及所述副影像中的某一个,在所述影像提供步骤中,将所述影像选择步骤中选择的所述裁剪影像以及所述副影像中的某一个提供给用户。
据此,将多个影像分割为多个场景,针对多个场景的每一个,按照用户的嗜好信息能够选择最佳的影像,因此,更能够提供适于用户的影像。
并且,例如,也可以是,在所述场景分割步骤中,在将所述裁剪影像以及所述副影像分别分割为所述多个场景时,除了以所述规定的算法进行分割以外,还按每个规定时间进行分割。
据此,除了规定的算法以外,还按每规定时间进行分割,因此,即使因基于规定的算法的场景的分割而一个场景变长,也能够还按每规定时间分割该一个场景。据此,能够使影像提供方法涉及的处理单位变小,因此,针对多个影像能够进行几乎实时的处理。
并且,例如,也可以是,所述规定的算法,按所述摄影空间内进行的每个事件的种类而不同。
据此,规定的算法按每个事件的种类而不同,因此,能够进行适于事件的种类的场景的分割。
并且,例如,也可以是,在所述场景分割步骤中,在所述摄影空间内进行的事件的种类为体育的情况下,通过根据所述规定的算法判定该事件的状态是“比赛中”还是“非比赛中”,从而在判定结果从所述“比赛中”以及所述“非比赛中”的一方切换为另一方的定时,将所述裁剪影像和所述副影像,分别分割为多个场景。
在事件的种类为体育的情况下,按照事件的状态是“比赛中”还是“非比赛中”分割场景,因此,能够适当地分割场景。
并且,例如,也可以是,在所述影像选择步骤中,在所述摄影空间内进行的事件的种类为体育的情况下,在从所述“比赛中”切换为所述“非比赛中”时,替代选择该“非比赛中”的场景,而从刚刚切换前的“比赛中”的场景的影像中选择。
在从“比赛中”切换为“非比赛中”时,选择刚刚切换前的“比赛中”的影像,因此,能够向用户提供重放影像。
并且,例如,也可以是,在所述场景分割步骤中,在所述摄影空间内进行的事件的种类为演唱会的情况下,通过根据所述规定的算法判定该事件的状态是“演奏中”还是“非演奏中”,从而将所述裁剪影像和所述副影像,分别分割为多个场景。
在事件的种类为演唱会的情况下,按照事件的状态是“演奏中”还是“非演奏中”分割场景,因此,能够适当地分割场景。
并且,例如,也可以是,在所述场景分割步骤中,在所述摄影空间内进行的事件的种类为讨论会的情况下,通过根据所述规定的算法判定参加该讨论会的多个参加者之中在该讨论会上发言人的交替,从而将所述裁剪影像和所述副影像,分别分割为多个场景。
在事件的种类为讨论会的情况下,在发言人交替的定时分割场景,因此,能够适当地分割场景。
并且,例如,也可以是,所述影像提供方法,还包括评价步骤,在所述评价步骤中,根据所述信息获得步骤中获得的所述用户的嗜好信息、和规定的评价指标,对所述场景分割步骤中分割的所述多个场景分别进行评价,在所述影像选择步骤中,根据所述评价步骤中评价的结果,针对所述多个场景的每一个,选择所述裁剪影像以及所述副影像中的某一个。
按照对多个场景分别进行评价的结果,选择将要提供的影像,因此,更能够提供适于用户的嗜好的影像。
并且,例如,也可以是,所述规定的评价指标中包括用于如下评价的指标,该评价是指,对于由拍摄了影像的多个相机之中的视角内包含所述视听对象的、且与所述视听对象的距离越近的相机所拍摄的影像的场景就评价得越高。
对于由与视听对象最近的相机所拍摄的影像的场景就评价得越高,因此,能够选择适于用户的嗜好的影像。
并且,例如,也可以是,所述规定的评价指标中包括用于如下评价的指标,该评价是指,对于由拍摄了影像的多个相机之中的视角内包含所述视听对象的、且位于与所述视听对象之间的对象的数量越少的相机所拍摄的影像的场景就评价得越高。
对于由与视听对象之间的对象的数量越少的影像的场景就评价得越高,因此,能够选择适于用户的嗜好的影像。
并且,例如,也可以是,所述规定的评价指标中包括用于如下评价的指标,该评价是指,对于由拍摄了影像的多个相机之中的视角内包含所述视听对象的、且该影像中出现的所述视听对象的面积越大的相机所拍摄的场景就评价得越高。
对于由出现的视听对象越大的相机所拍摄的影像的场景就评价得越高,因此,能够选择适于用户的嗜好的影像。
并且,例如,也可以是,所述规定的评价指标中包括第一指标、第二指标、以及第三指标之中的两个以上的指标,所述第一指标用于,对于由拍摄了影像的多个相机之中的视角内包含所述视听对象的、且与所述视听对象的距离越近的相机所拍摄的影像的场景就评价得越高,所述第二指标用于,对于由拍摄了影像的多个相机之中的视角内包含所述视听对象的、且位于与所述视听对象之间的对象的数量越少的相机所拍摄的影像的场景就评价得越高,所述第三指标用于,对于由拍摄了影像的多个相机之中的视角内包含所述视听对象的、且该影像中出现的所述视听对象的面积越大的相机所拍摄的场景就评价得越高,在所述评价步骤中,针对所述多个场景的每一个,对于由对该场景的所述两个以上的指标而评价的多个结果,根据由与所述两个以上的指标关联的预先决定的加权而加权加法后的加法值进行评价。
根据多个评价指标的组合,能够评价影像的场景,因此,能够从多方面选择适于用户的嗜好的影像。
并且,例如,也可以是,在所述信息获得步骤中,经由所述网络获得,由所述用户输入到经由所述网络与所述计算机连接的信息终端的所述用户的嗜好信息。
若用户操作手里的信息终端,则能够获得反映了嗜好信息的影像,因此,容易能够阅览适于用户的嗜好的影像。
而且,这些全般或具体的形态,可以由系统、发送装置、接收装置、集成电路、计算机程序或计算机可读取的CD-ROM等的记录介质实现,也可以由系统、发送装置、接收装置、集成电路、计算机程序或记录介质的任意的组合实现。
以下,对于本发明的实施方案之一涉及的影像提供方法、发送装置以及接收装置,参照附图进行说明。
而且,以下说明的各个实施例,都示出本发明的一个例子。以下的实施例所示的数值、形状、材料、构成要素、构成要素的配置位置以及连接形态、步骤、步骤的顺序等,是一个例子,而不是限定本发明的宗旨。并且,对于以下的实施例的构成要素中的、示出最上位概念的独立权利要求中没有记载的构成要素,作为任意的构成要素来说明。
(实施例1)
说明本实施例涉及的用于进行影像内容的制作、传输以及再生的影像提供方法、发送装置以及接收装置。
首先,对于本实施例的接收装置的使用形态,利用图2进行说明。
用户利用接收装置,对由通信I/F等接收的影像内容进行再生。在此,如图2示出,举出数字电视机202进行说明,以作为接收装置的例子。
如图2的(a)示出,数字电视机202,附带作为用户接口的遥控器201,用户对遥控器201进行输入,从而对数字电视机202进行操作。数字电视机202,显示用于反映用户的嗜好的菜单画面。在图2的例子中,数字电视机202,针对足球,显示使用户选择喜欢以什么为中心聚焦的影像的画面。用户,在想要以例如“球”为中心看的情况下,若选择菜单画面的“球”按钮,如图2的(b),显示以球为中心聚焦的影像,用户能够视听以球为中心的影像。用户,在想要以例如“选手A”为中心看的情况下,若选择“选手A”按钮,如图2的(c),显示以选手A为中心聚焦的影像,用户能够视听以选手A为中心的影像。如此,在本实施例的再生装置的使用形态中,能够视听与用户的喜好对应的影像内容。
以上是,关于接收装置的使用形态的说明。
接着,说明由数字电视机的广播波以及通信等传输的一般的流的构造。
在数字电视机的广播波等的传输中,使用MPEG-2传输流形式的数字流。MPEG-2传输流是,用于将视频以及音频等的各种各样的流多路复用来传输的标准。在ISO/IEC13818-1以及ITU-T劝告H222.0中被标准化。
图3是示出MPEG-2传输流形式的数字流的结构的图。如该图示出,传输流是,对视频流、音频流、字幕流等进行多路复用来能够得到的。视频流存储节目的主影像,音频流节存储目的主声音部分以及副声音,字幕流存储节目的字幕信息。视频流是,使用MPEG-2、MPEG-4AVC等的方式来编码记录的。音频流是,杜比AC-3、MPEG-2AAC、MPEG-4AAC、HE-AAC等的方式来压缩、编码记录的。
说明视频流的结构。在MPEG-2、MPEG-4AVC、SMPTE VC-1等的运动图像压缩编码中,利用运动图像的空间方向以及时间方向的冗余性进行数据量的压缩。对于利用时间方向的冗余性的方法,利用图片间预测编码。图片间预测编码,在对某图片进行编码时,将按照显示时间顺序位于前方或后方的图片设为参考图片。而且,检测从该参考图片的运动量,针对进行了运动补偿的图片与编码对象的图片的差分值,除去空间方向的冗余度,从而进行数据量的压缩。图11示出一般的视频流的图片的参考构造。箭头示出参考并压缩的情况。
在此,将不具有参考图片而仅利用编码对象图片进行图片内预测编码的图片称为I图片。图片是,包含帧以及场这两者的一个编码的单位。并且,将参考已经处理完毕的一张图片进行图片间预测编码的图片称为P图片,将同时参考已经处理完毕的两张图片进行图片间预测编码的图片称为B图片,将B图片之中由其他的图片参考的图片称为Br图片。并且,在此,将帧构造时的帧、以及场构造的场,称为视频访问单元。
并且,视频流具有,图4所示的层次构造。视频流,由多个GOP(Groupof Pictures)构成,将它设为编码处理的基本单位,从而能够进行运动图像的编辑以及随机访问。GOP由一个以上的视频访问单元构成。视频访问单元是,存储图片的编码数据的单位,在帧构造的情况下,存储1帧,在场构造的情况下,存储1场的数据。各个视频访问单元,由AU识别码、序列头、图片头、补充数据、压缩图片数据、添加数据、序列末尾码、流末尾码等构成。在MPEG-4AVC的情况下,以所谓NAL单元的单位存储各个数据。
AU识别码是示出访问单元的开头的开始码。序列头是,存储由多个视频访问单元构成的再生序列共同的信息的头部,存储分辩率、帧率、纵横比、比特率等的信息。图片头是,存储图片整体的编码的方式等的信息的头部。补充数据是,对压缩数据的解码不必须的附加信息,例如,存储与影像同步显示在TV的隐藏字幕的文字信息以及GOP构造信息等。在压缩图片数据中,存储压缩编码后的图片的数据。添加数据,存储用于调整形式的没有含义的数据。例如,作为用于保持规定的比特率的填充数据来利用。序列末尾码是,示出再生序列的末尾的数据。流末尾码是,示出比特流的末尾的数据。
AU识别码、序列头、图片头、补充数据、压缩图片数据、添加数据、序列末尾码、以及流末尾码的细节的结构,根据视频的编码方式而不同。
例如,在MPEG-4AVC的情况下,AU识别码与AU定界符(AccessUnit Delimiter)对应,序列头与SPS(Sequence Paramter Set)对应,图片头与PPS(Picture Parameter Set)对应,压缩图片数据与多个片对应,补充数据与SEI(Supplemental Enhancement Information)对应,添加数据与FillerData对应,序列末尾码与End of Sequence对应,流末尾码与End of Stream对应。
并且,例如,在MPEG-2的情况下,序列头与sequence_Header、sequence_extension、group_of_picture_header对应,图片头与picture_header、picture_coding_extension对应,压缩图片数据与多个片对应,补充数据与user_data对应,序列末尾码与sequence_end_code对应。而且,在此情况下AU识别码不存在,但是,若使用各自的头部的开始码,则能够判断访问单元的段落。
并不一定需要各个数据,例如,对于序列头,仅在GOP开头的视频访问单元中需要,而在除此以外的视频访问单元中可以不存在。并且,根据编码方式也可以,参考按照编码顺序前面的视频访问单元的图片头,自己的视频访问单元内可以不存在图片头。
并且,如图5示出,GOP开头的视频访问单元,存储作为压缩图片数据的I图片的数据,一定存储AU识别码、序列头、图片头、以及压缩图片数据,存储补充数据、添加数据、序列末尾码、以及流末尾码。GOP开头以外的视频访问单元,一定存储AU识别码以及压缩图片数据,存储补充数据、添加数据、序列末尾码、以及流末尾码。
接着,对于裁剪区域信息以及定标信息,参照图6以及图7进行说明。
根据视频编码方式,能够变更编码后的帧的区域、以及实际用于显示的区域。如图6示出,能够从编码后的帧区域中,将实际显示的区域,指定为“裁剪区域”。例如,在MPEG-4AVC的情况下,能够使用SPS中存储的frame_cropping信息指定。frame_cropping信息,如图7的(a)示出,将裁剪区域的上线/下线/左线/右线、与编码后的帧区域的上线/下线/左线/右线的差分,指定为上下左右的裁剪量。更具体地说,在指定裁剪区域的情况下,将frame_cropping_flag设定为1,对frame_crop_top_offset/frame_crop_bottom_offset/frame_crop_left_offset/frame_crop_right_offset指定上/下/左/右的裁剪量。在MPEG-2的情况下,如图7的(b)示出,使用裁剪区域的纵横的尺寸(sequence_display_extension的display_horizontal_size,display_vertical_size)、和编码后的帧区域的中心与裁剪区域的中心的差分信息(picture_display_extension的frame_centre_horizontal_offset,frame_centre_vertical_offset),能够指定裁剪区域。
并且,根据视频编码方式,存在示出将裁剪区域实际显示在电视机等时的定标方法的定标信息。例如,它被设定为纵横比。再生装置使用其纵横比的信息,将裁剪区域上变换来进行显示。例如,在MPEG-4AVC的情况下,作为定标信息,在SPS中存储纵横比的信息(aspect_ratio_idc)。在MPEG-4AVC的情况下,为了将1440x1080的裁剪区域,以1920x1080放大来显示,将纵横比指定为4∶3。在此情况下,在水平方向上以4/3倍上变换(1440x4/3=1920),以1920x1080放大并显示。在MPEG-2的情况下,也同样,sequence_header中存储纵横比的信息(aspect_ratio_information)。
以上是,视频流的结构的说明。
传输流中包含的各个流由所谓PID的流识别ID识别。通过提取该PID的数据包,解码装置,能够提取对象的流。PID与流的对应,被存储在以后说明的PMT数据包的描述符中。
图3,模式地示出传输流如何被多路复用。首先,将由多个视频帧构成的视频流501、由多个音频帧构成的音频流504,分别变换为PES数据包列502以及505,变换为TS数据包503以及506。同样,将字幕流507的数据分别变换为PES数据包列508,还变换为TS数据包509。MPEG-2传输流513是,将这样的TS数据包多路复用为1条流来构成的。
图8,更详细地示出PES数据包列中如何存储视频流。该图中,第一段示出视频流的视频帧列。第二段示出PES数据包列。如该图的箭头线yy1、yy2、yy3、yy4示出,作为视频流中的多个Video Presentation Unit的I图片、B图片、P图片,按每个图片被分割,存储到PES数据包的有效负载中。各个PES数据包具有PES头,PES头中存储,作为图片的显示时刻的PTS(Presentation Time-Stamp)以及作为图片的解码时刻的DTS(Decoding Time-Stamp)。
图9是示出构成传输流的TS数据包的数据结构的图。TS数据包是,由4Byte的TS头、自适应字段以及TS有效负载构成的188Byte固定长度的数据包。TS头,由transport_priority、PID、adaptaion_field_control等构成。PID是,如上所述,用于识别多路复用为传输流的流的ID。transport_priority是,用于识别同一PID的TS数据包中的数据包的类别的信息。adaptation_field_control是,用于控制自适应字段和TS有效负载的结构的信息。对于自适应字段和TS有效负载,有某一方存在的情况和双方都存在的情况,adaptation_field_control示出其有无。在adaptation_field_control为1的情况下,示出仅TS有效负载存在,在adaptation_field_control为2的情况下,示出仅自适应字段存在,在adaptation_field_control为3的情况下,示出TS有效负载和自适应字段的双方存在。
自适应字段是,进行PCR等的信息的存储、以及进行用于将TS数据包成为188字节固定长度的填充的数据的存储的区域。在TS有效负载中,PES数据包被分割并存储。
对于传输流中包含的TS数据包,除了影像、声音、字幕等的各个流以外,还有PAT(Program Association Table)、PMT(Program MapTable)、PCR(Program Clock Reference)等。这样的数据包被称为PSI(Program Specific Information)。PAT示出传输流中利用的PMT的PID是什么,PAT本身的PID被登记为0。PMT,具有传输流中包含的影像、声音、字幕等的各个流的PID以及与各个PID对应的流的属性信息,并且,具有与传输流有关的各种描述符。描述符有,指示AV流的复制的允许、不允许的复制控制信息等。PCR,为了得到TS数据包的到解码器的到达时刻、与作为PTS、DTS的时间轴的STC(System Time Clock)的同步,具有与其PCR数据包传输到解码器的定时对应的STC时间的信息。
图10是用于详细说明PMT的数据结构的图。在PMT的开头,配置描述该PMT中包含的数据的长度等的PMT头。在其后面,与传输流有关的描述符被配置多个。所述的复制控制信息等,被记载为描述符。在描述符的后面,与传输流中包含的各个流有关的流信息被配置多个。流信息,由用于识别流的压缩编解码等的流类型、流的PID、记载有流的属性信息(帧率、纵横比等)的流描述符构成。
在此,图9示出的传输流是,TS数据包排列的流,一般用于广播波的流是该形式。图9示出的传输流,以后被称为TS流。另一方面,图12示出的传输流是,在188字节的TS数据包的开头赋予了4Byte的时间戳的源数据包排列的流,一般在通信中传输的流是该形式。图12示出的传输流,以后被称为TTS流。TS数据包中赋予的开头的时间戳,以后被称为ATS(Arrival_time_stamp),ATS示出被赋予的TS数据包的流的向解码器的传输开始时刻。对于TTS流,如图12示出,源数据包排列,将从TTS流的开头增加的编号称为SPN(源数据包编号)。
根据通常的广播波,以多个频道的TS被多路复用的全TS被送出。全TS是由188字节的固定长度TS数据包列构成的TS流。另一方面,在BD-RE以及HDD等的积蓄介质中记录广播节目的情况下,从全TS中,仅提取需要的频道的数据,作为部分TS来记录。部分TS是TTS流。在此,在将TS流变换为TTS流的情况下,若将从全TS中不需要的TS数据包单纯地紧挨记录,则TS数据包间的时间间隔信息不存在。因此,向解码器的输入定时,与送出时估计了的定时不一致,导致不能准确地再生解码器。于是,为了留下从全TS中不需要的TS数据包的时间间隔信息,赋予ATS。根据啊该结构,向解码器的数据的输入定时,由ATS控制,从而不使解码器破绽,而能够进行再生。
从TS流向TTS流的变换是,利用图13的结构进行的。图13示出,将TS流变换为TTS流的方式,该方式,由TS数据包滤波、ATS赋予器、ATC计数器、以及高频发送器构成。
水晶振荡器是,利用水晶(石英)的压电效果产生高频率精度的振荡的装置,在此,设为振荡27Mhz的时钟。
ATC计数器是,根据水晶振荡器的时钟,刻画ATC时间轴的计数器。ATC计数器,以从数据缓冲器输入的TS数据包的ATS初始化,以27Mhz的频率增加值。
TS数据包滤波,利用EIT的节目信息、以及PMT数据包的程序内的流结构信息,仅对构成用户选择的节目的TS数据包进行滤波,输入到ATS赋予器。
ATS赋予器,针对经由TS数据包滤波输入的188字节的TS数据包,参考ATC计数器的ATC值,在TS数据包的开头赋予ATS值,生成192字节的TS数据包。ATS的场为4字节,因此,取0x0至0xFFFFFFFF的值,在ATC值成为0xFFFFFFFF以上的值的情况下,再次进行Wrap-around来返回到0。而且,在Blu-ray(注册商标的)的情况下,TS数据包的开头4Byte的开头2bit利用于复制控制信息,因此,ATS值为30bit,以30bit进行Wrap-around。
以上是由数字电视机的广播波以及通信等传输的一般的流的构造的说明。
(反映了个人嗜好的影像内容的自动生成、视听系统)
接着,对于本实施例涉及的反映了个人嗜好的影像内容的自动生成、视听系统(以下,称为“分发、视听系统”。),参照附图进行说明。
图14示出,分发、视听系统的整体。分发、视听系统1400,由摄影系统1410、编辑系统1420、再生系统1430构成。
(摄影系统)
摄影系统1410,由摄影控制部1401、多个影像摄影部1402、通信I/F1403构成。摄影系统1410,利用由摄影控制部1401控制的多个影像摄影部1402,拍摄事件,对拍摄的影像进行压缩编码,将压缩编码后的影像通过通信I/F1403传输到编辑系统1420。
影像摄影部1402,主要是指摄像机,根据摄影控制部1401的控制,拍摄影像(包含声音),将压缩编码后的影像数据传输到通信I/F1403。在此,影像摄影部存在1个或多个,如图15的(a)示出,被配置为以广角拍摄事件整体。在图15的(a)中,示出足球的比赛的拍摄例,以拍摄赛场整体的方式,作为多个影像摄影部的第一相机1501、第二相机1502、以及第三相机1503被广角配置。也就是说,第一相机1501,以拍摄赛场左侧的朝向而被设置,第二相机1502,以拍摄赛场正中的朝向而被设置,第三相机1503,以拍摄赛场右侧的朝向而被设置。图15的(b),模式地示出由各个相机1501至1503拍摄的影像。第一主影像1511是由第一相机1501拍摄的影像,第二主影像1512是由第二相机1502拍摄的影像,第三主影像1513是由第三相机1503拍摄的影像。总之,由第一相机1501拍摄的影像是,摄影空间之中的一部分的第一摄影空间被拍摄的第一主影像1511。并且,由第二相机1502拍摄的影像是,摄影空间之中的一部分的空间、且包含第一空间以外的空间的第二摄影空间被拍摄的第二主影像1512。由第三相机1503拍摄的影像是,摄影空间之中的包含第一空间以及第二空间以外的空间的第三摄影空间被拍摄的第三主影像1513。如此,影像摄影部1402,一个或多个,以拍摄事件整体的方式被配置,以固定朝向以及位置。而且,影像摄影部1402,由三台相机1501至1503构成,但是,由多台相机构成即可,至少由两台相机1501、1502构成即可。
摄影控制部1401,针对多个影像摄影部1402,进行同步的拍摄开始、拍摄停止等的控制。在图15的(a)中,摄影控制部1401是,平板型终端1504。平板型终端1504,具有与作为多个影像摄影部1402的第一相机1501、第二相机1502以及第三相机1503以无线以及有线等能够进行通信的通信部,通过在平板型终端1504上执行的应用,能够对第一相机1501、第二相机1502以及第三相机1503的工作进行控制。平板型终端1504,具体而言,能够对第一相机1501、第二相机1502以及第三相机1503进行拍摄开始、拍摄停止等的指示。并且,平板型终端1504,通过通信部,以无线以及有线等向第一相机1501、第二相机1502以及第三相机1503发送同步信号。该同步信号嵌入到由第一相机1501、第二相机1502以及第三相机1503拍摄并生成的流中,据此,在后级的处理中,若利用该同步信号,则能够得到多个流间的同步。也就是说,能够容易判断与某流的帧的时间相同的时间的其他的流的帧在哪里。同步信号也可以是,例如,由NTP服务器的信号信息。而且,对于摄影控制部1401的功能,也可以由影像摄影部1402的某一个具有。而且,在这些平板型终端1504上显示的、用于控制第一相机1501、第二相机1502以及第三相机1503的GUI,也可以由HTML5以及Java(注册商标)等的应用实现。
通信I/F1403,示出用于与互联网连接的I/F,例如,示出路由器等。如图15的(a)示出,由各个相机1501至1503拍摄的影像流,通过作为通信I/F1403的路由器等,传输到位于互联网上的编辑系统1420。而且,通信I/F1403是,用于向网络上存在的编辑系统传输的I/F即可,例如,也可以与移动电话网(3G以及LTE等)连接。而且,也可以是,预先将影像摄影部1402的摄影影像存储到终端内部的本地存储(存储器以及HDD),在拍摄后,将该数据,利用个人电脑等的信息终端,上载到编辑系统。
(编辑系统)
编辑系统1420,由位置确定部1422、影像生成部1423、自动影像编辑部1424、信息获得部1425、影像提供部1426、以及通信I/F1421、1427构成。编辑系统1420,从由摄影系统1410拍摄的事件的影像流生成广角影像,并且,进行图像识别来确定被摄体的位置信息,根据该位置信息和用户的嗜好信息,生成对用户最适合的影像流。而且,编辑系统1420,由计算机构成,发挥作为提供根据用户的嗜好信息而被编辑的影像的、发送装置的功能。
通信I/F1421,发挥作为影像获得部的功能,获得由第一相机1501拍摄的第一主影像、由第二相机1502拍摄的第二主影像、以及由第三相机1503拍摄的第三主影像。
影像生成部1423,从由摄影系统1410拍摄的多个影像流,生成广角影像(全景影像)。也就是说,影像生成部1423,对作为多个影像流的第一主影像1511、第二主影像1512以及第三主影像1513进行合成,从而生成广角影像。
图16是示出广角影像的具体生成方法的模式图。图16的(a)是,由摄影系统1410拍摄的多个影像,并且是以图15的例子示出的第一主影像1511、第二主影像1512、以及第三主影像1513。如图16的(a)示出,第一主影像1511以及第二主影像1512,包含作为拍摄彼此相同的空间的区域的重叠区域,并且,第二主影像1512以及第三主影像1513,包含重叠区域。影像生成部1423,重叠各个影像中包含的重叠区域,生成图16的(c)所示的一张广角影像。
具体而言,影像生成部1423,进行以下的处理。
首先,影像生成部1423,(1)针对各个影像中包含的重叠区域,提取图像特征点,进行影像间的图像特征点的匹配。在此,对于图像特征点的提取,例如,使用SIFT以及SURF那样的算法。在图16的(b)的第一主影像1511以及第二主影像1512的例子中,以圆圈围住的部位是特征点,以箭头示出该特征点的第一主影像1511以及第二主影像1512间的匹配。
接着,影像生成部1423,(2)变形图像,以使各个影像1511至1513间的图像特征点一致。对图16的(b)的例子而言,根据图像特征点得知第一主影像1511是比第二主影像1512放大的影像,因此,通过缩小第一主影像1511或放大第二主影像1512,从而能够实现第一主影像1511和第二主影像1512的无缝连接。为了进行从图像特征点的图像变形,根据特征点生成用于形状变形的单应性矩阵等的矩阵,对图像进行矩阵运算,从而能够进行变形。
接着,影像生成部1423,(3)将变形后的影像合成为一张广角影像。在进行合成的情况下,可以构成为混合各个影像1511至1513中包含的重叠区域部分,也可以构成为删除某一方的重叠区域。对于这样的从多个影像生成广角影像的手段,一般被称为“拼接”,作为广角影像的生成手段逐渐被广泛地利用,安装在OpenCV等的各种各样的软件。而且,在(1)的步骤中也可以,不利用特征点匹配,而利用多个相机1501至1503各自的位置、朝向信息以及视角参数等,来确定图像的失真,利用确定的图像的失真合成各个影像1511至1513。
而且,在生成利用了多个影像1511至1513的广角影像时,影像生成部1423,对多个影像1511至1513之中的在同一定时拍摄的三个帧进行所述的图像合成。也就是说,影像生成部1423,根据嵌入在第一主影像1511、第二主影像1512、以及第三主影像1513中的、用于使第一主影像1511、第二主影像1512、以及第三主影像1513同步的同步信号,一边进行同步,一边对在同一定时拍摄的第一主影像1511、第二主影像1512、以及第三主影像1513的各个帧进行图像合成。
位置确定部1422,针对由影像生成部1423生成的广角影像,一边参考内容数据库,一边进行图像识别处理,分析且确定被摄体的位置信息。而且,在此,“内容数据库”存储,例如球的形状、运动场的形状、选手的名字、攻守位置、球衣号码、脸照片那样的信息。例如,球的位置信息是,针对由影像生成部1423生成的广角影像,进行与球的形状以及颜色的模式匹配来确定的。并且,例如,选手的位置信息是,针对广角影像,进行选手的脸以及球衣、球衣号码、体型等的模式匹配来确定的。也就是说,若知道作为用户想要视听的对象的视听对象,位置确定部1422,则根据该视听对象,一边参考内容数据库,一边对广角影像进行图像识别,从而确定广角影像中的视听对象的位置。
并且,若跟踪确定的选手以及球的运动,则能够确定选手以及球的位置信息。在此,选手、球等的物体的跟踪处理是,进行背景差分,仅提取有运动的物体,测量图像的运动来能够实现的。对于由图像处理的物体的跟踪处理,光流等为有名,安装在OpenCV等的各种各样的软件。并且,在因选手重叠等而跟踪不准的情况下,对紧在跟踪不准之前的选手的位置信息、与下次检测该选手的位置信息进行插值即可。
并且,在广角影像中也可以,确定赛场的区域,将人物位置信息变换为赛场的区域上的二维坐标的信息。这是,例如,如图17示出,根据广角影像上的赛场的端点、和二维坐标上的赛场的端点的对应关系,制作单应性矩阵等的变换矩阵,广角影像上的选手以及球位置信息乘以矩阵运算,从而变换为二维坐标。而且,若将摄影系统1410的相机分别设为立体相机,则能够以立体图像生成广角影像,并且,能够得到深度信息。因此,通过使用深度信息,能够更高精度地得到选手以及球的位置信息。并且,若替代立体相机,摄影系统1410的相机中搭载深度传感器,则能够获得作为深度信息的深度图,因此,能够高精度地得到选手以及球的位置信息。在此,“深度传感器”是指,利用测量向目标照射红外线等的激光,直到往返为止的时间的方式(TOF)等,以各个像素单位测量与目标的距离的传感器。利用了深度传感器的相机,例如,Microsoft公司的Kinect等为有名。若使用如此生成的深度图,不仅人物位置,也能够获得骨架信息,因此,也能够在三维空间上,以CG等再现摄影对象的事件。
信息获得部1425,经由通信I/F1427,获得用户的嗜好信息。也就是说,信息获得部1425,经由网络,获得用户的嗜好信息。用户的嗜好信息是,描述该影像内容的用户的喜好的看法的信息。例如,在图2的例子中,用户的嗜好信息是,从“以球为中心的影像”“以选手A为中心的影像”“以选手B为中心的影像”的选择项中用户选择的值。也就是说,用户的嗜好信息是,示出作为用户想要视听的对象的视听对象的信息。
自动影像编辑部1424,利用影像生成部1423生成的广角影像、位置确定部1422生成的示出视听对象的位置的被摄体位置信息、以及由信息获得部1425获得的用户的嗜好信息,生成符合用户的嗜好的影像流。自动影像编辑部1424具有,区域计算部1424a以及裁剪部1424b。
区域计算部1424a,根据由信息获得部1425获得的用户的嗜好信息,计算由影像生成部1423生成的广角影像之中的一部分的区域、且比该广角影像的区域小的裁剪区域。更具体地说,区域计算部1424a,在广角影像中,利用由位置确定部1422确定的视听对象的位置,计算包含视听对象的区域,以作为裁剪区域。在此,区域计算部1424a也可以,在广角影像中,在将视听对象的位置,与为了对广角影像进行裁剪而预先决定的尺寸的裁剪框中的规定的基准位置一致的情况下,计算由该裁剪框确定的区域,以作为裁剪区域。
而且,裁剪部1424b,对由影像生成部1423生成的广角影像,以由区域计算部1424a计算出的裁剪区域进行裁剪。
图18示出其例子。区域计算部1424a,在用户的嗜好信息中,示出视听对象为“以球为中心的影像”的情况下,从广角影像中,以例如球的位置信息位于正中的方式,决定裁剪框的位置。而且,裁剪部1424b,对广角影像,以由裁剪框确定的裁剪区域进行裁剪,从而生成用户的喜好的影像。也就是说,在图18的(a)的例子中,以黑框(裁剪框)围住的裁剪区域成为向用户提供的影像(裁剪影像)。并且,在用户的嗜好信息示出“以特定的选手为中心的影像”的情况下,从广角影像中,以特定的选手的位置信息位于正中的方式,进行裁剪,生成用户的喜好的影像。也就是说,在图18的(b)的例子中,在特定的选手(即,视听对象)为选手A的情况下,以黑框(裁剪框)围住的裁剪区域的裁剪影像成为向用户提供的影像。由裁剪部1424b裁剪的影像,由影像提供部1426压缩编码后,与声音一起多路复用并输出,以作为系统流。也就是说,影像提供部1426,将由裁剪部1424b裁剪而生成的裁剪影像作为系统流提供给用户。而且,以后,将由自动影像编辑部1424生成的系统流称为通信流。
而且,在此,对于从广角影像的裁剪方法,有图19所示的几个方法,根据用途适当地选择来利用即可。图19的(a)是,从广角影像中切出矩形区域的方法。图19的(b)以及(c)的方法是,构成三维的对象来显示广角影像的方法。对于广角影像的显示方法,一般利用该方法。具体而言,利用OpenGL等的三维描绘程序库,在三维的坐标上生成圆柱模型,将全景影像作为纹理,如图19的(b)所示,向圆柱模型的表面内侧进行粘贴。按照广角影像的帧率,对广角影像进行解码,进行纹理的更新。图19的(c)是,从上方看图19的(b)示出的圆柱的图。如图19的(c)示出,用户的视点配置在三维坐标上的圆柱的中心,将从该视点位置向箭头示出的视线方向看圆柱的三维模型的影像透视投影,从而能够将从视点看的影像从广角影像中裁剪来显示。作为例子在以“球”为中心视听的情况下,确定广角影像的纹理被粘贴的圆柱的表面的、球位置的坐标,对该球位置设定从视点位置的朝向,从而能够进行以球位置为中心的裁剪再生。而且,也可以构成为,不是圆柱模型,而是向球体模型,粘贴广角影像的纹理。在此情况下,以与圆柱模型相同的方法,将视点位置配置在球体的中心,根据朝向和视角进行透视投影,从而能够得到裁剪影像。
而且,将视点位置配置在圆柱的中心,改变朝向和视角来进行裁剪,但是,如图20示出,视点位置并不一定需要是中心。在图20的(a)的例子中,没有配置在中心,而配置在其后方的圆周上。在此情况下,在相对于中心而后方配置视点位置,据此,失真变小,根据影像,会有后方比较好的情况。并且,特别是,在配置在圆周上的情况下,根据圆周角的定理,视角为中心的一半,因此计算变得容易。在此情况下,固定视点的朝向,如图20的(b),使圆柱本身,以连结圆的中心和圆的中心的轴为中心旋转。在图20的(b)的例子中,在广角影像中球向左侧移动的情况下,使圆柱向右侧旋转。根据该结构,即使视点朝向固定,也能够跟踪球位置来生成裁剪影像。
并且,对于声音数据的生成,利用由影像摄影部收音的声音数据来能够生成。而且,在如图15由多台影像摄影部生成广角影像的情况下,若构成为选择用于拍摄被裁剪的区域的影像摄影部的声音数据,则影像和声音的关系性增加,因此,能够生成具有临场感的声音数据。而且,在如图15由多台影像摄影部生成广角影像的情况下,也可以按照被裁剪的区域的位置,改变影像摄影部的声音合成系数,来生成影像数据。图21示出具体例。图21的影像是,对由多个影像摄影部拍摄的影像进行合成的广角影像,影像的上段的箭头示出各个影像摄影部(第一相机、第二相机、第三相机)的摄影区域。影像的下部的箭头示出,针对由这些相机收音的声音数据的声音合成系数的例子。k1是针对第一相机的声音数据的声音合成系数,k2是针对第二相机的声音数据的声音合成系数,k3是针对第三相机的声音数据的声音合成系数。该声音合成系数的例子,按照被裁剪的中心位置而变动。例如,在图21中,在裁剪区域为黑框区域的情况下,且在中心为黑圆的地点的情况下,k1为0.5,k2为0.5,k3为0.0,因此,各个声音数据乘以该系数来合成,从而生成合成声音数据。根据该结构,影像和声音的关系性增加,因此,能够生成更具有临场感的声音数据。而且,对于裁剪区域的位置和声音合成系数的关系,图21仅仅是一个例子,也可以按照内容的特性以及用户嗜好变更。
而且,对于声音数据的生成,也可以利用由位置确定部1422生成的被摄体位置信息或影像数据,解析该场景的含义,从而合成效果音。例如,若举出足球的例子,在紧接球位置信息与选手位置信息接近之后,球位置信息从选手位置信息远离,球位置信息以一定速度以上的速度向球门移动的情况下,可以确定为选手射门的定时。因此,也可以将预先准备的、选手进行射门时的一般的声音,作为效果音来合成。同样,若通过被摄体位置信息或影像数据的图像解析来判断,撞到球门柱、或守门员接球的情况,通过合成与该行为对应的效果音,从而能够向用户提供具有震撼力的声音。
通信I/F1421、1427示出,用于与互联网连接的I/F,是例如NIC,也是通过路由器等与互联网连接的I/F。
(编辑系统的工作)
编辑系统1420,进行以下的处理,以作为影像提供方法。
图22是示出由编辑系统1420进行的影像提供处理的流程的流程图。
首先,作为影像获得部的通信I/F1421,获得第一主影像1511、第二主影像1512以及第三主影像1513(S2201:影像获得步骤)。
接着,影像生成部1423,从由通信I/F1421获得的第一主影像1511、第二主影像1512以及第三主影像1513生成广角影像(S2202:影像生成步骤)。
并且,信息获得部1425,经由通过通信I/F1427的网络,获得用户的嗜好信息(S2203:信息获得步骤)。
位置确定部1422,根据用户的嗜好信息,对广角影像进行图像识别,从而确定广角影像中的视听对象的位置(S2204:位置确定步骤)。
区域计算部1424a,利用由位置确定部1422确定的视听对象的位置,计算包含视听对象的区域,以作为裁剪区域(S2205:区域计算步骤)。
影像提供部1426,将通过进行裁剪而裁剪并生成的裁剪影像发送到再生系统,从而提供给用户(S2206:影像提供步骤)。
(再生系统)
再生系统1430是,由通信I/F1431、流解码部1432、应用执行部1434、以及输入I/F1433构成的、再生由编辑系统1420生成的通信流的、例如数字电视机等的终端。而且,再生系统1430,作为通过网络与作为发送装置发挥功能的编辑系统1420连接的接收装置发挥功能,接收从编辑系统1420发送的影像。
通信I/F1431是例如NIC,且是用于与互联网连接的I/F。
流解码部1432,对通信流进行解码。流解码部1432,对通信流内的压缩编码后的视频流进行解码,生成非压缩的印象影像,输出到视频平面,并输出到电视机等。流解码部1432,对通信流内的压缩编码后的音频流进行解码,生成非压缩的LPCM状态的音频帧,输出到电视机等的扬声器。
应用执行部1434是,执行经由通信I/F1431传输的应用的执行控制部。对于应用执行部1434,例如,在应用为HTML内容的情况下,成为Web浏览器,在应用为Java(注册商标)的情况下,成为Java(注册商标)VM,经由各种API,能够访问再生装置的各个处理部。并且,应用,经由再生控制的API,对流解码部1432的再生、停止等进行控制。并且,应用,经由图形的描绘API,将图形数据输出到图形平面,与流解码部1432输出的视频平面合成并输出到电视机等,从而能够向用户提示由图形的菜单等。并且,应用,获得来自输入I/F1433的数据,按照用户的指示,使画面的显示内容变更,从而实现图形用户界面。
输入I/F1433是,向再生系统,输入示出用户的意图的信息的I/F,是例如遥控器。输入的信息,输入到应用执行控制部。
以上是,本实施例涉及的分发、视听系统1400的说明。
而且,对于由多个影像摄影部1402得到的同步的方法,在图15的例子中说明了,在多个相机间进行网络连接,将由摄影控制部1401的同步信号嵌入到流的方法,但是,对于得到同步的方法,可以利用以下所示的方法的任一个。
1.将GPS信息嵌入到流中的方法
若在影像摄影部1402各自中搭载GPS接收机,则能够接收来自GPS卫星的GPS信息。在GPS信息中,存储有由卫星中搭载的原子钟的时刻数据,因此,若使用其信息,则能够得到由多个影像摄影部1402制作的流间的同步。并且,通过使用GPS信息的地点信息,能够确定由多个影像摄影部1402制作的流的关系性。也就是说,在上载到服务器的多个影像流存在的情况下,能够利用位置信息判断,用于构成广角影像的流的组合。而且,也可以仅摄影控制部1401具有GPS信息的接收机,在此情况下构成为,摄影控制部1401获得GPS信息,将其信息通过无线以及有线等的通信部,传输到各个影像摄影部1402。
2.将由多个影像摄影部1402拍摄的影像积蓄/传输到其他器件的方法
在图23中,相对于图15的结构,追加了同步控制部2301。同步控制部2301,将由相机1501至1503拍摄的影像照原样以有线(例如HDMI(注册商标))或无线输入,针对各个影像流,赋予同步信号,存储到SD卡等的器件,或者,经由通信I/F,上载到网络上的编辑系统。因此,即使在各个相机1501至1503侧,不设定同步信号,也能够得到同步。
3.在由多个影像摄影部1402拍摄场记板/时钟后,改变视角的方法
在由多个影像摄影部1402拍摄场记板或时钟后,若将多个影像摄影部1402以成为规定的朝向的方式改变视角,则由多个影像摄影部1402拍摄的影像中分别包含场记板或时钟。因此,通过对场记板以及时钟被拍摄的流,进行图像分析,若是场记板,则确定拍出场记板的瞬间的帧,若是时钟,则确定同一时刻的帧,从而能够得到多个流间的同步。
4.向多个影像摄影部1402照射强度变动的光的方法
通过向多个影像摄影部1402照射强度变动的光,从而由多个影像摄影部1402拍摄的影像中分别包含同一光被照射的影像。也就是说,针对同一光被照射的多个流,进行用于确定光的时间上的强度差的图像分析,从而能够确定同一强度的帧。如此,能够确定同一强度的帧,因此,能够得到多个流的同步。
5.使用从影像摄影部1402上载到服务器的时刻信息的方法
在实时从多个影像摄影部1402上载到服务器的情况下,也可以利用到服务器的到达时刻以作为用于得到同步的参考值。
而且,如图15示出,多个影像摄影部1402,以拍摄事件整体的方式固定朝向以及位置,但也可以,为了支援由用户的多个影像摄影部1402的朝向以及位置的设定,导入如下方法。如图24示出构成为,向摄影控制部1401传输多个影像摄影部1402的影像数据,能够确认合成时的影像。图24与图15相比,作为摄影控制部的平板型终端2404的结构不同。图24的平板型终端2404具有,与所述的编辑系统1420具备的影像生成部1423相同的功能。也就是说,平板型终端2404显示,由多个影像摄影部1402拍摄的各个影像流、以及各个影像流因影像生成部的功能而合成的广角影像。据此,用户能够,一边看影像,一边确认多个影像摄影部1402的位置以及朝向。而且,也可以构成为,在由多个影像摄影部1402拍摄的影像流的显示中,如图24的各个影像1511、1512、1513,以框边以及颜色等显示重叠区域(重复区域)。而且,对于由平板型终端2404显示的影像,由于是用于确认多个影像摄影部1402的朝向以及位置的设定的影像,因此,并不一定需要是运动图像,也可以是同一时刻的静止图像。
而且,对于广角影像,也可以不由平板型终端2404制作。例如,也可以是,由多个影像摄影部1402拍摄的多个影像,上载到网络上的服务器,由服务器具有的影像生成部生成广角影像。而且,在此情况下也可以构成为,将由服务器生成的广角影像下载到平板来显示。
而且,在不能如上准确地生成广角影像的情况下,也可以与警告消息一起,提示用于合成的建议。例如,是像“请改变右侧的相机的变焦率”“请将左侧的相机的位置靠近右侧”那样的消息。根据该结构,用户根据指示,能够容易实现相机的设定。
而且,若影像摄影部1402具备接受云台变焦操作控制码,来执行相机的云台变焦操作的功能,则可以是,摄影控制部1401计算云台变焦,将控制码传输到各个影像摄影部1402,从而以成为最佳的相机的朝向以及变焦率的方式进行相机的设定的自动调整。例如,像因相机间发生死角而被摄体隐藏的情况那样,在不能准确地生成广角影像的情况下,为了不发生该死角,以相机的朝向往内方移动的方式,由摄影控制部1401传输代码。对于实现由这样的程序操作的相机的自动云台操作的相机,PTZ相机为有名,通过使用这样的相机能够实现影像摄影部1402。并且,摄影控制部1401,在由多个影像摄影部1402不能拍摄事件整体的情况下,也可以以警告等以及消息等通知不足部分。
而且,若由无线或有线上的信号能够控制影像摄影部1402的相机参数的设定,摄影控制部1401能够控制成,使影像摄影部1402的相机参数成为均匀。例如,影像摄影部1402,使白平衡等的相机参数一致,从而能够使成为广角影像时的颜色的不同变小。而且,对于相机参数,在多个影像摄影部1402中,也可以与性能最低的影像摄影部一致。例如,在第一相机是以1920x108060p影像能够拍摄的相机、第二相机1920x108030p影像能够拍摄的相机、第三相机3是以1280x72030p影像能够拍摄的相机的情况下,使所有的相机以1280x72030p工作。据此,能够使合成后的广角影像的质量的失真变少,并且,能够削减影像的上转换以及下转换那样的处理。
而且,自动影像编辑部1424,在利用用户的嗜好信息,跟踪被摄体的位置信息从广角影像裁剪来生成影像的方法中,若利用以下示出的方法的任一个,则能够事先生成更舒适的影像。
1.对视听对象的画面上的位置信息进行低通滤波的方法
图25的(a)示出,被摄体的位置信息(在此,X坐标的值)的时间上的推移。在照原样使用位置信息,进行裁剪的情况下,也跟踪被摄体的细微的运动,因此,成为抖动的影像,成为用户难以观看的影像。于是,如图25的(b)示出,通过将利用进行了利用前后位置信息进行低通滤波的位置信息而计算出的位置信息(以黑圆点示出的点)利用于裁剪,能够将画面抖动少的容易观看的影像提供给用户。如下进行具体的位置信息的计算方法。在求出时刻T的位置坐标的情况下,时刻(t-N)至时刻(t+M)的被摄体的位置信息的合计,除以N+M+1,从而能够求出。在图21下段记载计算式。对于N以及M的值,例如,给予N=M=0.5秒钟等的一定的间隔。但是,以k不超过负值以及流末尾的方式,调整N以及M的值。对于N以及M的值,也可以按每个内容设定为不同的值。对于N以及M的值,例如,在足球的情况下为0.5秒,在篮球的情况下为0.4秒等。根据这样的结构,能够进行符合内容的特性的控制。也可以是,用户能够设定N以及M的值。根据这样的结构,能够反映用户的喜好。
2.采用过去的时刻以作为视听对象的位置信息的方法
利用相对于流的再生时刻(t)而时间上过去的时刻(t-D)的位置信息,以作为成为进行裁剪的基准的视听对象的位置信息。图26是示出跟踪球位置信息设定裁剪区域的例子的模式图。图26的(a)示出,与球位置信息的移动同时裁剪区域也移动的例子。在此情况下,裁剪区域过度跟踪球的位置信息,使用户感到不协调感。这是因为,给予像裁剪的移动预测球的运动那样的印象的缘故。于是,如图26的(b),与球的位置信息的移动相比,使裁剪区域的移动延迟。在图26的(b)的例子中,成为裁剪区域的基准的黑圆点示出,与视频帧的显示时刻(t)相比稍微延迟的时刻(t-D)地点的球的位置信息,用于确定裁剪区域的黑框(裁剪框)示出,以将时刻(t-D)地点的球的位置信息设定在正中的方式裁剪的区域。也就是说,区域计算部1424a,在广角影像中,相对于处理对象的帧而规定时间(延迟量D)之前的帧的视听对象的位置(黑点)、与裁剪框(黑框)的规定的基准位置(裁剪框的中心)一致的情况下,将由该裁剪框确定的区域作为裁剪区域来计算。
根据这样的结构,球的位置信息和裁剪区域的关系变得缓慢,成为给予没有不协调感的好像人拍摄的印象的影像。也就是说,若人想要使相机摇拍,则成为跟踪视听对象的移动的状态,因此,由人的摇拍操作是,基本上被摄体移动之后进行的。因此,通过以规定的基准使相机的运动延迟,能够向用户提示好像人拍摄的自然的印象。而且,对于该延迟量D,可以用户能够设定,也可以按照内容的特性变更。
3.按照被摄体的位置信息变更裁剪区域的尺寸的方法
如图27示出也可以构成为,按照被摄体的位置信息,以好像进行了俯仰以及变焦那样的方式,变更裁剪区域的尺寸。图27的(a)示出,变更裁剪区域的尺寸之前的影像,图27的(b)示出,变更裁剪区域的尺寸之后的影像。对于裁剪区域的尺寸变更,通过利用位置信息的纵方向的坐标值,从而能够变更。而且,对于裁剪区域的尺寸,可以由用户能够设定。例如,若在平板上进行双指缩放操作,来能够进行裁剪区域的尺寸的放大、缩小,则能够使用户易懂。
而且,对于反映了用户意图的由自动影像编辑部1424的裁剪再生的方法,在图18的例子中,说明了排他性地仅选择一个视听对象的结构,但是,在反映用户想要同时看多个视听对象的意图的情况下,也可以以多个视听对象的位置信息的平均值位于画面正中的方式,设定裁剪区域的位置。图28示出其例子,在图28的例子中,以选手A和球的位置信息的平均值位于中心的方式,设定裁剪区域。根据这样的结构,能够欣赏聚焦于多个视听对象的影像。而且,若设定感兴趣的视听对象的优先序列,则可以不是多个视听对象的位置信息的平均值,而是加权后的平均值的值。例如,在选手A的优先级比球高的情况下,通过设为(球位置信息*2+选手A的位置信息*1)/3,从而能够设为加权后的平均值。
而且,对于用户的嗜好信息,指定了“选手”以及“球”之类,但也可以是,用于指定例如“俯瞰”以及“变焦”那样的喜好的影像角度的信息。例如,在选择“俯瞰”的情况下,自动影像编辑部1424,以从广角影像中裁剪时能够俯瞰赛场整体那样的影像为中心分发。并且,例如,在选择“变焦”的情况下,自动影像编辑部1424,以从广角影像中裁剪时稍微变焦的影像为中心分发。对于用户的嗜好信息,用户可以更具体地通知裁剪区域。在此情况下,在平板型终端等显示广角影像和示出裁剪区域的裁剪框的双方,用户可以对裁剪区域进行双指缩小/双指放大来变更其尺寸以及/或位置,将变更后的裁剪区域的区域信息通知给编辑系统1420。根据这样的结构,用户,不仅反映作为目标的视听对象的喜好,也可以反映影像的种类的喜好。并且,也可以向编辑系统1420通知电视机的尺寸,以作为用户的嗜好信息。更具体地说,若电视机的尺寸大,则以成为俯瞰影像的方式变更裁剪区域,并且,若电视机的尺寸小则以成为变焦影像的方式变更裁剪区域,用户则能够实现适于器件的大小的影像视听。
而且,在本实施例1涉及的分发、视听系统1400中,编辑系统1420,按照用户的嗜好信息,对从广角影像中裁剪的影像进行压缩并编码来传输到用户的终端,但也可以构成为,对广角影像本身进行压缩并编码来传输到用户的终端,由作为用户的终端的再生系统1430进行裁剪涉及的处理。在此情况下,在向用户传输的流的视频流的补充数据等中,存储有示出对各个帧的球位置以及人物位置的坐标信息。在此情况下,若再生系统1430具有自动影像编辑部,则能够按照用户的嗜好信息,使用广角影像和流中嵌入的坐标信息,在再生系统内进行裁剪处理,在电视机等的显示终端进行显示。根据这样的结构,不需要在网络上传输用户的嗜好信息,能够实现响应的高速化。而且,在流中嵌入位置信息的情况下也可以,在GOP开头以及场景开头,将ID与人物名以及静止图像关联起来存储,在其以后的帧中存储ID和位置信息。若如此存储,与所有的帧中,存储人物名以及静止图像时相比,数据量少,因此效率高。而且,当然,也可以以广播波实现该流的构造以及再生方法。
而且,当然,由通信I/F1403、1421、1427、1431连接的网络的一部分或全部也可以,不是互联网,而是本地区域上的网络。
而且,影像生成部1423,也可以存在于摄影系统上。在此情况下,摄影系统1410生成广角影像的流,将生成的广角影像的流,传输到编辑系统。因此,编辑系统被构成为,使用传输的流,以作为广角影像。并且,例如,在影像摄影部1402是,存储能够拍摄广角影像的广角镜头的、8K4K那样的高分辨率相机的情况下,不需要影像生成部1423,可以构成为将影像摄影部1402拍摄的影像流传输到编辑系统。也就是说,在这样的情况下也可以,在摄影系统以及编辑系统都不搭载影像生成部。
而且,对于影像摄影部1402,不仅限于摄像机,也可以由搭载相机功能的智能手机等构成。排列智能手机来拍摄时的问题点是,在拍摄事件的中途,该终端被来电的情况。在此情况下,也可以将与该智能手机认证的朋友以及夫人等的移动电话设为代理受话器,向代理受话器转发来电。例如,在对拍摄利用爸爸的智能手机的情况下也可以,在来电时,向妈妈的移动电话显示“给爸爸从某某先生来电”来通知,由该移动电话能够通话。
而且,在将由多个影像摄影部1402拍摄的影像内容传输到编辑系统的情况下也可以构成为,不是从各个终端经由网络传输,而是一旦收集在一个终端来传输。例如,在由A、B、以及C的智能手机拍摄的情况下,可以在A收集B以及C的影像内容。对于收集的方法,可以考虑由Wi-Fi以及WiGig等的无线传输以及由SD卡的数据交接等。而且,由A的智能手机,将影像内容一并传输到编辑系统。对于传输的方法,可以考虑由Wi-fi、LTE、3G等的无线传输、有线LAN等的有线传输。这样,不是将影像内容个别传输,而是一并传输,据此,内容的管理、建立联系变得容易。
(实施例2)
在本实施例1中,说明了用于实现反映了个人嗜好的影像内容的视听的分发、视听系统1400,但是,在本实施例中,说明进一步演出视听的乐趣的、用于实现影像内容的高度的编辑的分发、视听系统2900的实现方法。
图29示出本实施例2涉及的分发、视听系统。基本结构与图14中说明的系统相同,因此省略说明,仅说明差分。
摄影系统2910,除了摄影控制部1401、生成广角影像的影像摄影部1402、以及通信I/F1403以外,还增加点影像摄影部2901。
点影像摄影部2901是,从与广角影像不同的视点拍摄事件的影像的固定相机。在图30的例子中,对于拍摄事件整体的广角影像的影像摄影部,配置相机1501至1503,与该相机不同,对于点影像摄影部2901,配置相机3001至3007。相机3001至3007,拍摄从各个视点的影像。点影像摄影部2901,与影像摄影部1402同样,由摄影控制部1401控制拍摄,拍摄的影像流经由通信I/F1403传输到编辑系统2920。对于由点影像摄影部2901拍摄的影像流,通过与由影像摄影部1402拍摄的影像流同样的手段能够得到同步。点影像摄影部2901,在与第一主影像1511、第二主影像1512、以及第三主影像1513相同的定时,对摄影空间中的至少一部分的空间以与第一主影像1511、第二主影像1512、以及第三主影像1513不同的角度拍摄的作为副影像的点影像进行拍摄。
编辑系统2920,与图14的编辑系统1420不同,替代自动影像编辑部1424,而是自动影像选择编辑部2902。并且,不同之处是,通信I/F1421,除了第一主影像1511、第二主影像1512、以及第三主影像1513以外,还获得点影像。
自动影像选择编辑部2902,利用影像生成部1423生成的广角影像、由点影像摄影部2901拍摄的点影像、位置确定部1422生成的被摄体位置信息、以及信息获得部1425获得的用户的嗜好信息,生成符合用户的嗜好的影像流。自动影像选择编辑部2902,与图14的自动影像编辑部1424相比,不同之处是,除了具有区域计算部1424a、裁剪部1424b以外,还具有场景分割部2902a、评价部2902b、以及影像选择部2902c。也就是说,自动影像选择编辑部2902,与自动影像编辑部1424不同,将由点影像摄影部2901拍摄的影像利用于提供影像的生成,不同之处是,在生成反映了用户意图的影像时,从广角影像和点影像中,选择最佳的影像,生成通信流。场景分割部2902a,将由裁剪部1424b裁剪的裁剪影像、和由作为影像获得部的通信I/F1421获得的点影像,分别根据规定的算法分割为多个场景。评价部2902b,针对由场景分割部2902a分割的多个场景的每一个,根据由信息获得部1425获得的用户的嗜好信息、和规定的评价指标进行评价。影像选择部2902c,根据由信息获得部1425获得的用户的嗜好信息,针对由场景分割部2902a分割的多个场景的每一个,选择裁剪影像以及点影像中的某一个。并且,影像选择部2902c也可以,根据由评价部2902b评价的结果,针对多个场景的每一个,选择裁剪影像以及点影像中的某一个。
图31是由该自动影像选择编辑部2902的编辑例。图31的左侧示出摄影对象的场景和相机的结构。图31是足球的一个场景的例子。具体而言,示出以下的场景,即,在赛场上存在选手1以及选手2,选手1以运球向下方向进攻,并且,选手2防守选手1的进攻的场景,也是选手1以运球摆脱选手2的场景。在此,对于用户的嗜好信息,假设选择“选手1”和“球”的双方。
在此,对于影像摄影部1402,以俯瞰赛场整体的方式配置由多台相机构成的相机C,影像生成部1423,从由相机C拍摄的多个影像生成广角影像。自动影像选择编辑部2902,针对由影像生成部1423生成的广角影像,根据用户的嗜好信息进行裁剪处理,生成由裁剪影像构成的影像流。对于用户的嗜好信息,由于选择选手1以及球,因此,以选手1以及球的位置信息的平均值位于画面正中的方式,生成从广角影像中裁剪的影像。其画面印象,由3103的列所示。并且,对于点影像摄影部2901,配置相机A以及相机B,在固定的位置拍摄事件影像。这样的影像,传输到自动影像选择编辑部2902。其画面印象,分别由3101、3102所示。
自动影像选择编辑部2902,从这样的影像中选择一个影像,生成通信流。由于从广角影像中裁剪的裁剪影像和由点影像摄影部2901拍摄的点影像同步,因此,若从这样的多个影像中选择一个影像来结合,则能够生成时间的推移一定的内容。也就是说,能够生成时间不会回到过去、也不会跳到未来的影像内容。
自动影像选择编辑部2902,为了从多个影像(裁剪影像以及多个点影像)中选择一个影像,利用由位置确定部1422生成的被摄体位置信息。例如,在图31的例子中,以3104示出时刻t1的位置信息,以3105示出时刻t2的位置信息,以3106示出时刻t3的位置信息。以各个圆圈所述的物体示出,人物和球以及相机的位置。也就是说,数字的“1”以及“2”示出人物的位置,英文的“A”、“B”、以及“C”示出相机的位置,黑圆点示出球。在此,示出根据“选择与视听对象接近、且没有障碍的影像”的逻辑(规定的算法)选择影像时的由自动影像选择编辑部2902的影像选择处理的例子。在此,将根据用户的嗜好信息选择的对象设为“选手1以及球”。而且,在图31的例子中,影像选择部2902c,按各个影像的每个帧进行影像选择处理。也就是说,在图31中示出以下的例子,即,自动影像选择编辑部2902中的、区域计算部1424a、裁剪部1424b、以及影像选择部2902c发挥功能,场景分割部2902a以及评价部2902b没有发挥功能。也就是说,在利用图31进行说明的处理中,可以没有场景分割部2902a以及评价部2902b的结构。
在时刻t1的帧中,与作为视听对象的选手1以及球最近的是,多个相机之中的相机A,在相机A与视听对象之间,不存在视听对象以外的物体。因此,影像选择部2902c,选择多个相机之中的与视听对象最近的相机A的影像。
在时刻t2的帧中,与作为视听对象的选手1以及球最近的是相机A,但是,在相机A与视听对象之间,存在不是视听对象的选手2,在由相机A拍摄的影像中难以确认视听对象。因此,影像选择部2902c,选择多个相机之中的与视听对象第二近的相机的相机C的影像。
在时刻t3的帧中,与作为视听对象的选手1以及球最近的是相机B,在相机B与视听对象之间,不存在视听对象以外的物体。因此,影像选择部2902c,选择多个相机之中的与视听对象最近的相机B的影像。
如此,利用被摄体位置信息,从多个影像中选择一个影像,从而能够实现与用户嗜好对应的自动的影像选择。自动影像选择编辑部2902,对选择出的影像进行压缩编码,并进行多路复用,从而生成通信流。而且,影像提供部1426,将由自动影像选择编辑部2902的影像选择部2902c选择的裁剪影像以及点影像中的某一个,经由通信I/F1427提供到用户。
在由自动影像选择编辑部2902,从多个影像中选择一个影像时,在图31的例子中,按照各个时刻的帧,选择使用的图像,但是,在此情况下,多个影像的切换变得过多,成为用户难以看的影像的可能性高。于是,如图32,也可以是,以时间轴将内容划分为多个场景,针对各个场景,根据被摄体的位置关系,评价同步的多个影像,根据评价结果,选择显示该场景的一个影像。因此,同一场景中选择的影像成为,由相同的相机拍摄的影像。在图32中说明的处理中,自动影像选择编辑部2902中的、区域计算部1424a、裁剪部1424b、场景分割部2902a、评价部2902b以及影像选择部2902c的全部发挥功能。
对于图32的结构,与图31的相机、人物、球的位置等结构相同。在此,自动影像选择编辑部2902的场景分割部2902a,如图32示出,根据被摄体位置信息,在时间轴上划分场景。在图32的例子的情况下,场景分割部2902a,利用规定的算法,根据被摄体位置信息,划分为选手1摆脱选手2为止的场景1、和选手1摆脱选手2之后的场景2。场景分割部2902a,根据被摄体位置信息,参考场景的数据库,从而进行场景的划分。而且,对于“场景的划分方法”,在后面进行详细说明。
而且,评价部2902b,按由场景分割部2902a划分的每个场景,针对同步的多个影像的每一个进行评价。在图32的例子中,首先,针对相机A的影像、相机B的影像、相机C的影像的每一个,在场景1的范围内进行评价。对于评价的方法,例如,若是“与对象近、且在相机与对象之间障碍少”的逻辑,在场景1的区间的范围内,利用被摄体位置信息,选择最符合“与对象近、且在相机与对象之间障碍少”的逻辑的影像。更具体地说,评价部2902b也可以,在场景1内,对从相机到视听对象(选手A以及球的位置信息)为止的距离总和进行计数,并且,对从相机到对象为止进入对象以外的物体的次数的总和进行计数,根据这样的量进行评价。对于如此从同步的多个影像中选择一个影像的评价方法的具体例,在后面进行说明。在图32的例子中,影像选择部2902c,根据评价部2902b的评价结果,在场景1中选择相机C的影像。在场景2中也同样,由评价部2902b进行评价,影像选择部2902c,根据评价部2902b的对场景2的评价,在图32的例子中,选择相机B的影像。如此,自动影像选择编辑部2902,将多个同步的影像分割为多个场景,按被分割的每个场景选择一个影像,据此,能够抑制相机的切换,能够提供用户容易看的影像。
说明自动影像选择编辑部2902的场景分割部2902a的场景的划分方法。
划分场景的最单纯的方法是,以一定间隔划分的方法。也就是说,场景分割部2902a也可以,根据规定的算法,按每个规定间隔将多个影像的每一个分割为多个场景。例如,设置5秒钟那样的定数,以5秒为单位划分场景。根据这样的结构,能够抑制相机的切换。但是,另一方面,会有与内容的细节不联动,而角度被切换的情况,也会有成为难以看的影像的可能性。例如,也会有在足球的进行射门的场景中场景被分割,从俯瞰影像切换为选手的特写的可能性,用户不能知道球以及选手的运动以及位置关系。因此,优选的是,场景的划分方法,与事件上发生的细节联动。
于是,可以考虑以下的情况,即,按每个内容定义场景,利用被摄体位置信息、影像以及声音,实现场景的划分。也就是说,对于由场景分割部2902a对多个影像的场景的分割处理涉及的规定的算法,也可以按照在摄影空间内进行的每个事件的种类不同。图33示出其例子。图33示出足球的比赛的影像内容的场景。对于各个场景,定义有场景的细节、和各个场景的段落(开始地点以及结束地点)的检测算法。各个场景的段落的检测是,对被摄体位置信息、影像或声音执行检测算法来能够得到的。各个场景,由场景ID、场景细节、场景开始、场景开始检测算法、场景结束、以及场景结束检测算法构成。“场景ID”意味着场景的唯一的号码,“场景细节”意味着记载场景的细节的信息,“场景开始”意味着场景的开始的内容上的意义,“场景开始检测算法”意味着检测场景的开始的算法,“场景结束”意味着场景的结束的内容上的意义,“场景结束检测算法”意味着检测场景的结束的算法。
在此,不仅足球,体育的内容,可以大致分类为两个场景。一个是“比赛中”。比赛中意味着,通过选手的动作会发生得分的状况。在足球的情况下,是限制时间内、球在场内、没有发生因犯规等而引起的中断、通过选手的运动能够得分的状况。在排球、网球的情况下,是开始发球后,直到哪个球队、选手决定得分为止。另一个是“非比赛中”。非比赛中意味着,通过选手的动作不会发生得分的状况,且与比赛中相反的状况。在足球的情况下,是超过限制时间、球出界、因犯规而引起的中断、因得分而引起的中断等,即使哪个选手进行任何动作也绝对不能决定得分的状况。对排球以及网球的例子而言,是哪个球队或选手决定得分后直到开始发球为止的期间,或者是中场休息。如此,对于体育的许多内容,能够将场景分离为“比赛中”和“非比赛”,且其特性大不同。“比赛中”是紧张状态,用户不能疏忽,另一方面,“非比赛中”是缓和状态,用户能够休息一下。通过选择与该“比赛中”“非比赛中”对应的特性的影像,从而能够实现有效的演出。也就是说,场景分割部2902a也可以,在摄影空间内进行的事件的种类为体育的情况下,根据规定的算法判定是“比赛中”还是“非比赛中”,在判定结果从比赛中以及非比赛中的一方切换为另一方的定时,将多个影像(裁剪影像以及多个点影像)的每一个,分割为多个场景。
说明图33的足球的比赛的情况的场景例。也就是说,图33是用于说明摄影空间内进行的事件为足球的比赛时的通过由场景分割部2902a的场景分割处理执行的规定的算法的图。
首先,说明图33的(a)示出的、用于判定各个场景的算法。
可以如下定义,即,场景ID=0的场景是,意味着“比赛中”的场景,场景开始检测算法是场景ID1至4的“非比赛中”的结束,场景结束检测算法是场景ID1至4的“非比赛中”的开始。
场景ID=1的场景是,意味着“非比赛中”的、定义球从赛场出去的期间的场景。场景开始检测算法为“球的位置信息从赛场区域内出去”,场景开始检测算法为“球的位置信息进入赛场区域内”。该算法的执行是,通过利用被摄体位置信息来能够实现的。也就是说,通过检测球的位置信息是从赛场区域内出去,还是进入赛场区域内来能够判断。某点,是否在某多角形区域内存在的判定是,通过计算从点发出的射线与相交的多边形的线段的数量来能够求出的。若该数量是奇数,则意味着点在内部存在,若是偶数则意味着点在外部存在。该问题被称为Point-in-Polygon,安装在opencv等的软件。
场景ID=2的场景是,意味着“非比赛中”的、定义超时期间的场景。场景开始检测算法为“多个选手位置信息从赛场区域出去”,场景开始检测算法为“多个选手位置信息从赛场区域出去”。该算法的执行是,通过利用被摄体位置信息来能够实现的。也就是说,通过检测多个选手位置信息是从赛场区域内出去,还是进入赛场区域内来能够判断。而且,检测算法也可以是,“哨声”。由于宣布超时的哨声具有特征,因此,通过对声音的波长的特征进行模式匹配来检测,从而能够判断。
场景ID=3的场景是,意味着“非比赛中”的、定义因犯规而引起的中断的期间的场景。场景开始检测算法为“裁判员的哨声以及选手位置信息一旦静止”,场景结束检测算法为“球位置信息一旦被静止在特定位置,开始”。在场景开始检测算法中,裁判员的哨声的检测是,通过对声音的波长的特征进行模式匹配来能够检测的,选手位置信息的静止是,通过检测选手的位置信息的运动来能够判断的。在场景结束检测算法中,球位置信息的静止是,通过检测球的位置信息的运动来能够判断的。
场景ID=4的场景是,意味着“非比赛中”的、定义因得分而引起的中断的期间的场景。场景开始检测算法为“球的位置信息进入球门区域”,场景结束检测算法为“球位置信息一旦被静止在特定位置,开始”。在场景开始检测算法中,利用被摄体位置信息,若球的位置信息进入球门区域内,则能够判断为得分。在场景结束检测算法中,利用被摄体位置信息,球位置信息的静止是,通过检测球的位置信息的运动来能够判断的。
图34示出算法的流程图。首先,在确定时刻t的场景时,检查时刻t-d的场景。d示出帧时间,即检查前一个帧的场景是什么。若时刻t-d的场景是“比赛中”,则执行“非比赛中”的场景(图33的情况的场景ID=1至4)的场景开始检测算法。若检测出某个场景开始,则判断时刻t的场景是“非比赛中”,若没有检测出,则判断为“比赛中”。若时刻t-d的场景是“非比赛中”,则执行该“非比赛中”的场景ID的场景结束检测算法。若检测出场景结束,则判断时刻t的场景是“比赛中”,若没有检测出,则判断为“非比赛中”。
图33的(b)示出足球的比赛的场景的划分的例子。构成为,开始后,若犯规或球从赛场出去、或得分等,则从“比赛中”向“非比赛中”转移,除此以外是“比赛中”。
以上是,关于自动影像选择编辑部2902的场景的划分方法的说明。
接着,说明由自动影像选择编辑部2902的评价部2902b的用于从同步的多个影像中选择一个影像的评价方法(以后将该评价方法简单地称为“影像评价方法”)的具体方法。在影像评价方法中,设定评价影像的评价指标,对该场景的所有的或几个时刻的帧进行评价,选择评价值高的影像。也就是说,对于成为由评价部2902b的评价的基准的规定的评价指标,以后示出。对于以后说明的影像项目,并不需要进行全部,按照内容的特性以及用户的喜好变更即可。
评价指标1:由用户的嗜好信息指定的视听对象(例:球以及选手)的位置信息与影像摄影部(包含点影像摄影部)的距离
评价指标1是,用于提高由视角内包含视听对象的、且位于与视听对象的距离近的位置的影像摄影部拍摄的影像的评价的指标。根据这样的结构,用户能够视听出现的视听对象大的影像。也就是说,规定的评价指标中包括,由拍摄了影像的多个相机之中的视角内包含视听对象的、且与视听对象的距离越近的相机拍摄的影像的场景评价越高的指标。
评价指标2:在由用户的嗜好信息指定的视听对象的位置信息与影像摄影部(包含点影像摄影部)的位置信息为止之间存在的对象的数量
评价指标2是,在该影像摄影部与视听对象为止之间,视听对象以外的对象存在多数时,用于降低评价的指标。特别是,在裁判员等的选手以外的人物的情况下,降低评价。根据这样的结构,用户能够视听不被障碍隐藏而视听对象出现的影像。也就是说,规定的评价指标中包括,由拍摄了影像的多个相机之中的视角内包含视听对象的、且位于与视听对象之间的对象的数量越少的相机拍摄的影像的场景评价越高的指标。
评价指标3:由用户的嗜好信息指定的视听对象,在由该影像摄影部(包含点影像摄影部)拍摄的影像中出现的面积
评价指标3,将由该影像摄影部拍摄的影像中出现的视听对象的面积大的场景评价为高。针对影像数据,通过人脸识别等确定视听对象(选手等),求出该人物的面积来能够得到。但是,与评价指标1同样,若不完全包含在视角内,则为没有意义的影像,因此可以是,例如,若没有包含脸,则反而降低评价。根据这样的结构,用户能够视听出现的视听对象大的影像。也就是说,规定的评价指标中包括,由拍摄了影像的多个相机之中的、视角内包含视听对象的、且该影像中出现的视听对象的面积越大的相机拍摄的影像的场景评价越高的指标。
而且,也可以构成为,按照用户的嗜好以及场景变更各个评价指标的加权。例如,对足球的例子而言,在球门前的场景中,除了成为目标的选手以及球以外,球门的位置信息也是重要的,因此,也可以构成为,提高得知选手、目标、球门的位置关系的影像的评价。也就是说,对于规定的评价指标,在包含第一指标(评价指标1)、第二指标(评价指标2)、第三指标(评价指标3)之中的两个以上的指标的情况下,评价部2902b也可以,针对多个场景的每一个,对于由对该场景的两个以上的指标而评价的多个结果,根据由与两个以上的指标关联的预先决定的加权而加权加法后的加法值进行评价。
在此,如上所述,在自动影像选择编辑部2902中,由场景分割部2902a划分场景,从而实现与内容的细节对应的场景的划分,使用该特性,变更由评价部2902b的影像评价或由影像选择部2902c的选择方法,从而能够生成对用户有效地编辑的影像内容。
如上所述,体育内容的结构为,可以大致分离为“比赛中”和“非比赛中”的两个场景,反复成为紧张(比赛中)和缓和(非比赛中)。
在“比赛中”和“非比赛中”中,对用户来说想要看的视点的影像大不同。在“比赛中”中,由于是能否得分的紧迫状况,因此优选的是,给用户看的影像不是仅对一名选手进行变焦的影像,而是能够把握选手和球和赛场的位置关系的影像,例如俯瞰影像。另一方面,在“非比赛中”中,由于不是发生得分的状况,而是用户休息一下、或者回想上场的比赛中的状况,因此优选的是,反而聚焦于每一名选手的影像以及重放影像。以下,列举实现符合该“比赛中”和“非比赛中”的场景的特性的影像选择的具体的影像方法。对于以后说明的影像选择方法,并不需要进行全部,按照内容的特性以及用户的喜好变更即可。
1.自动影像选择编辑部2902也可以,在“非比赛中”的场景的区间,切换为其紧前的“比赛中”最后接触球的选手出现的影像。接触球的选手是,接触球位置信息的位置信息的选手。根据这样的结构,在“非比赛中”,用户能够,聚焦于紧前的“比赛中”的关键选手来进行视听,影像视听的乐趣更增加。
2.自动影像选择编辑部2902也可以,在“非比赛中”的场景的区间,切换为其紧前的“比赛中”,进攻球队中的赛场内最后接触球的选手出现的影像。根据这样的结构,能够提供聚焦于对许多用户来说注目的选手的影像。这是因为,对许多用户来说,注目的选手是进攻方的选手。
3.自动影像选择编辑部2902也可以,在“非比赛中”的场景的区间,切换为用户的嗜好信息中有的自己的喜好的选手出现的影像。根据这样的结构,在“非比赛中”的期间,能够提供聚焦于用户喜好的选手的影像。
4.自动影像选择编辑部2902也可以,在“非比赛中”的场景的区间,切换为用户的嗜好信息中有的自己的喜好的球队的选手出现的影像。根据这样的结构,在“非比赛中”的期间,能够提供聚焦于用户喜好的球队的选手的影像。
5.自动影像选择编辑部2902也可以,在“非比赛中”的场景的区间,切换为紧前的“比赛中”的重放影像。根据这样的结构,在“非比赛中”的期间,用户能够回想紧前的比赛中的场景。也就是说,自动影像选择编辑部2902的影像选择部2902c也可以,在摄影空间内进行的事件的种类为体育的情况下,在从“比赛中”切换为“非比赛中”时,替代选择该“非比赛中”的场景,而从紧前的“比赛中”的场景的影像中选择。在此被设定为,利用于重放影像的“比赛中”的场景,在紧前的“比赛中”的场景结束时刻结束。图35示出利用于重放影像的区间的时间关系。在图35中,t1是“比赛中”的开始时刻,t2是“比赛中”的结束时刻且“非比赛中”的开始时,t4是“非比赛中”的结束时刻且下一个“比赛中”的开始时刻。此时,在“非比赛中”的开头部分为向用户通知进行特定选手的变焦以及重放影像的再生的消息的情况下,也可以从时刻t3开始重放影像的再生。在此情况下,重放影像的再生时间为,t4-t3。该重放影像除以再生速度,从而确定作为利用于重放影像的紧前的“比赛中”的场景的期间的重放场景时间。而且,在此,再生速度是,比预先决定的实时慢的再生速度。从作为紧前的“比赛中”的结束时刻的t2中,减去重放场景时间,从而确定利用于重放影像的紧前的“比赛中”的开头时刻(t5)。据此,能够进行紧前的“比赛中”的注目场景的重放再生。
6.自动影像选择编辑部2902也可以,在“非比赛中”的场景的区间,切换为拍摄观众的相机影像。根据这样的结构,在“非比赛中”的期间,用户能够知道进行事件的周围的状况。
7.自动影像选择编辑部2902也可以,在从“非比赛中”切换为“比赛中”的定时,切换为带球的选手(接近球位置信息的位置信息的选手)出现的影像。在体育中,在从“非比赛中”向“比赛中”的切换中,由某特定的一名选手,再开始的情况多,例如,在足球的情况下,为掷界外球以及踢角球,在排球的情况下,为发球等。在从“非比赛中”切换为“比赛中”的定时,切换为带球的选手出现的影像,从而能够向用户准确地通知比赛的再开始。而且,在足球的情况的掷界外球的情况下,优选的是,切换为从后方拍摄掷界外球的选手的影像。通过选择这样的影像,用户不仅把握掷界外球的选手,也能够把握周围的位置关系。
8.自动影像选择编辑部2902也可以,在“比赛中”的场景的区间,切换为俯瞰影像。俯瞰影像是,根据用户指定的球或选手的位置信息,对由影像生成部拍摄的广角影像进行裁剪来能够生成的。俯瞰影像是,能够把握球和选手、赛场的位置关系的影像,因此,在会发生得分的紧迫的“比赛中”,用户不错过得分场景而能够了望整体来视听。
9.自动影像选择编辑部2902也可以,在“比赛中”的场景的区间,暂时切换为对特定的选手以及球进行变焦的影像。在此情况下,通过对特定的选手以及球进行变焦的影像,用户,能够视听反映了用户的嗜好的影像。但是,在此情况下若因聚焦于特定的选手的变焦影像,而不错过得分场景,则用户的乐趣会被损坏,因此,优选的是,在“比赛中”,限定为得分不会发生的区间。
10.自动影像选择编辑部2902也可以,在“比赛中”的场景的区间,也可以切换为朝向带球的选手的运动矢量的方向、且位于该运动矢量的后方的相机的影像。例如,在图35的(a)的例子的情况下,在带球的选手的运动矢量为箭头的情况下,切换为位于运动矢量的后方的相机3006,在图35的(b)的例子的情况下,在带球的选手的运动矢量为箭头的情况下,切换为位于运动矢量的后方的相机3007。根据这样的结构,能够视听以带球进攻的方向为深度的影像,能够向用户提供给予好像自己进攻那样的印象的具有震撼力的影像。
以上是,本实施例涉及的反映了个人嗜好的影像内容的自动生成、视听系统的说明。
而且,在实施例1以及实施例2中,没有提及实时性(向用户实时地提供事件),但是,当然,若逐渐将(1)从摄影系统向编辑系统的传输、(2)编辑系统的影像生成处理、(3)从编辑系统向再生系统的流的传输变短,则接近实时性,即能够实现实况转播。例如,在(1)的传输中有1秒、(2)的影像生成处理中有10秒、(3)的传输中有1秒的延迟的情况下,虽然有12秒的延迟,但是,用户能够欣赏近似于实况转播的事件的内容视听。也就是说,场景分割部2902a也可以,在将裁剪影像以及多个点影像分别分割为多个场景时,与规定的算法不同,按每个规定时间分割。
在此,说明如此以近似于实况转播的形式向用户提供时的场景的划分方法。图37示出此时的场景的分割的方法。图37的(a)是,离线(即,拍摄所有的事件后执行编辑系统的情况)的例子,在此情况下,根据事件的被摄体位置信息等,划分场景后,在自动影像选择编辑部生成影像即可,因此,在同一状态(比赛中或非比赛中)的区间,不会划分为场景。图37的(b)是,自动影像选择编辑部2902被允许5秒的延迟时间的情况的例子。也就是说,自动影像选择编辑部2902,在5秒后决定场景即可。在此情况下,若等待到场景的结束的检测,则导致处理延迟。也就是说,在虽允许延迟为5秒钟,但10秒钟的场景存在的情况下,若等待到10秒后的场景划分,则导致处理来不及。于是,在已经决定允许延迟量的情况下,在从场景开始到允许延迟量为止,不发生场景划分的情况下,即使是同一状态,也划分场景。自动影像选择编辑部,在被划分的场景内,进行所述的影像评价、选择。据此,即使以近似于实况转播的形式,也能够实现场景划分。而且,在同一状态的场景连续的情况下(例:图37的(b)的#1和#2),尽可能选择同样的角度的影像。根据这样的结构,能够减少切换角度的次数。
而且,对于用户的嗜好信息,指定了“选手”以及“球”那样的单位,但也可以是,例如“球队”那样的单位。若作为用户的嗜好信息设定喜好的球队,自动影像选择编辑部2902,以喜好的球队的多名选手出现的方式进行影像的选择。据此,用户在影像内容的视听中,能够实现反映了自己的嗜好的视听。
而且,自动影像选择编辑部2902,选择了影像数据,但是,当然,也可以以从广角影像中裁剪来生成影像的方式,仅将感兴趣区域切出来利用。
而且,对于场景的划分方法的例子,在图33中举出了“比赛中”和“非比赛中”,但也可以是,如图38示出,在“比赛中”,将攻防交替地点设为场景的划分。在此情况下,例如,对于A队的进攻中的场景中的、检测算法,可以考虑为“(1)接触球的选手变为A队的选手。”、“(2)B队的阵地内的选手的人数超过半数。”、以及“(3)选手的移动矢量的过半数在B队侧。”。在(1)中,根据球位置信息接近的选手位置信息的选手是否为A队,能够判断。在(2)中,通过计算具有在B队的阵地区域内存在的位置信息的选手的人数,能够判断。在(3)中,通过计算选手位置信息的移动矢量,能够判断。如此,以“攻防交替”来分离场景,例如,通过选择进攻方的选手出现的影像,基本上,在体育中进攻方被注目,因此,能够将许多用户注目的选手出现多的影像提供给用户。
而且,对于本实施例的内容的例子,举出了体育事件,但是,当然,能够运用于除此以外的事件。例如,也可以是图39所示的、演唱会的影像。在多名的偶像小组的演唱会的情况下,歌迷,并不一定想要看小组的成员全部出现的影像,想要看聚焦于小组的特定的成员的影像这样的要求强。即使在这样的情况下,本实施例的反映了个人嗜好的影像内容的自动生成、视听系统也是有效的,能够以与体育时相同的结构来实现。说明演唱会的场景的划分方法。对于演唱会的结构,首先,可以分离为两个大的场景。是“演奏中”和“非演奏中”。也就是说,场景分割部2902a也可以,在摄影空间内进行的事件的种类为演唱会的情况下,通过以规定的算法判定是“演奏中”还是“非演奏中”,将裁剪影像和多个点影像,分别分割为多个场景。
在此情况下,“演奏中”,在偶像小组的情况下,示出唱歌以及跳舞的时间。“非演奏中”,在偶像小组的情况下,示出唱歌以及跳舞以外的时间。在演奏以外中,称为MC,在偶像小组的情况下,小组彼此谈话,或者,跟观众说话。“演奏中”和“非演奏中”的判别是,通过解析由影像摄影部收音的声音来进行的。声音解析是,例如,针对数字化后的声音测量音程,根据该音程的特征来判断的方式。预先在进行演唱会的乐曲的音程的数据库中登记,得到被收音的声音的音程与数据库上的音程的匹配,从而能够判定正在是“演奏中”还是“非演奏中”。对于这样的声音解析技术,周知的技术是,例如,索尼公司的“12音解析”等。
除此以外,分离“演奏中”“非演奏中”的信息有,照明以及观众的声音。对于照明,通过解析图像,并测量亮度值,能够作为场景的分离的补助利用。并且,对于观众的声音,通过测量声音的大小,能够作为场景的分离的补助利用。据此,通过分离“演奏中”“非演奏中”的场景,能够实现符合该场景的影像选择。例如,在“非演奏中”,进行讲话的情况多,因此,也可以确定实际发出声音的人物,切换为聚焦于该人物的影像。发出声音的人物的确定是,通过测量每个人的麦克风的音量来能够实现的。根据这样的结构,用户能够同时视听实际说话的人的声音和影像,因此,能够向用户提供易懂的影像。
并且,在“非演奏中”也可以,对讲话进行声音解析,将其细节重叠显示在画面上,以作为字幕。据此,能够以用户易懂的方式提示讲话的细节。而且,在“演奏中”也可以,进一步利用声音解析,与数据库上的乐曲的音程匹配,以“前奏”“正歌”“桥段”“副歌”“间奏”那样的单位分离场景。根据这样的结构,通过按每个场景切换影像,能够提供不会使用户厌倦的具有震撼力的影像内容。而且,对于演奏中的场景分离,以歌词的单位(例如,每一行等)分离,也能够得到同样的效果。
而且,对于本实施例的内容的例子,举出了体育事件,但是,当然,能够运用于除此以外的事件。例如,也可以是图40所示的、讨论会以及会议的事件摄影。在此情况下,在图40的例子中,对各个讨论者准备点影像摄影部,另外准备用于生成广角影像的影像摄影部。说明这样的讨论会以及会议的场景的划分方法。讨论会以及会议的场景的划分是,发言人的交替。也就是说,场景分割部2902a,在摄影空间内进行的事件的种类为讨论会的情况下也可以,以规定的算法判定参加该讨论会的多个参加者中在该讨论会发言人的交替,从而将裁剪影像和多个点影像的每一个,分割为多个场景。
例如,在A先生、B先生、C先生进行讨论的情况下,A先生说话的场景、B先生说话的场景、以及C先生说话的场景交替发生。为了判定发言人的切换,预先在数据库中登记每个人的麦克风的音量的测量结果、发言人的声音的音程的特征量等。而且,针对正在发出的声音与数据库得到匹配,从而能够确定谁正在说话。或者,通过图像识别来检测人物的嘴的变动,也可以确定当前的发言人。如此,按每个发言人划分场景,自动影像选择编辑部2902,选择聚焦于场景的发言人的影像,从而用户能够同时视听实际说话的人的声音和影像。因此,能够向用户提供易懂的影像。
而且,对于场景的划分方法的例子,图33中举出了“比赛中”和“非比赛中”,但可以是,例如,若是花样滑冰,则按每个技巧划分场景。如此,通过按每个场景切换影像,能够提供不会使用户厌倦的具有震撼力的影像内容。例如,若在选手位置信息中获得人物的骨架信息,则根据其骨架的运动的模式能够判断技巧的段落。
而且,也可以使操作员能够一边视听广角影像等的影像一边以手动设定场景。例如,操作员,在平板等的显示器件上准备表示“比赛中”以及“非比赛中”的按钮,一边视听广角影像,一边按压按钮进行场景的设定,将其信息通知给编辑系统的自动影像选择编辑部2902。据此,自动影像选择编辑部,即使不进行位置信息的解析,也能够设定场景。
而且,对于生成的场景信息,当然,也可以作为由用户的影像视听的章节信息来利用。在电视机等上显示为章节菜单,用户通过遥控器等,选择章节信息的情况下,若从该章节位置开始再生,用户则能够简单地检索感兴趣的影像,能够简单地再生。
而且,也可以构成为,利用生成的场景信息,编辑系统2920生成精彩影像,并提供给用户。例如,在A队以及B队的比赛中,若用户是A队的球迷,则也可以仅选择“比赛中”且“A队进攻中”的场景,生成影像流,并提供给用户。如此,若利用场景信息生成精彩影像,用户则能够以短的时间仅再生感兴趣的场景。
而且,也可以将生成的场景信息,利用于在“非比赛中”等的场景区间中再生的重放影像的再生。例如,假设从攻防交替的地点进行重放影像。根据这样的结构,用户能够将成为关键的场景的影像作为重放影像来视听。
而且,在本实施例1以及2的分发、视听系统1400、2900中,利用作为输入I/F的遥控器进行了说明,但也可以是,图41的平板型终端4101所示的、像平板以及智能手机那样的带有显示器的器件(信息终端)。也可以是,在平板型终端上,配置球以及选手的名字等的按钮(图标),若用户选择按钮,则其选择信息作为用户的嗜好信息传输到编辑系统1420、2920。也就是说,信息获得部1425也可以,针对经由网络与计算机连接的信息终端,将由用户输入的用户的嗜好信息,经由网络获得。编辑系统1420、2920也可以,从聚焦于用户的嗜好信息的目标的广角影像的裁剪的影像以及点影像摄影部的影像生成影像,传输给再生系统1430,显示在电视机等。此时,编辑系统1420、2920也可以,生成与平板型终端4101的分辩率符合的广角影像的流,在平板型终端4101上进行再生,合成示出正在哪里被裁剪的矩形区域来显示。根据这样的结构,用户通过易懂的操作能够舒适地视听。
而且,也可以是,若用户通过双指缩小/双指放大以及滑动操作等,将图41的平板型终端4101示出的矩形区域移动,则将其位置以及矩形尺寸信息通知给编辑系统1420、2920,编辑系统1420、2920,从其位置以及矩形尺寸的区域广角影像中裁剪,生成流,传输给视听系统,由电视机等进行显示。据此,用户更能够直接操作自己想要看的视点。而且,在平板上配置滑动杆,使滑动杆移动,来变更裁剪区域的位置,从而也能够得到同样的效果。
并且,在本实施例1以及2的分发、视听系统1400、2900中,准备人物以及球等的“名字”的按钮,选择它,反映用户的嗜好信息,但也可以构成为,如图42示出,不是“名字”,而利用被摄体位置信息,将从广角影像中剪取的“静止图像”的按钮显示在平板型终端4101等的信息终端,来选择。对于被摄体位置信息,按每个被摄体赋予ID,静止图像和ID成一对的信息传输到平板型终端4101。若用户选择静止图像,则与该静止图像对应的ID作为用户的嗜好信息,传输到编辑系统。编辑系统,利用该ID的被摄体位置信息,进行广角影像的裁剪以及点影像的选择,生成影像内容,传输到视听系统,显示在电视机等。根据这样的结构,即使在不能得到广角影像上的被摄体(人物等)和名字的关联性的情况下,用户也能够再生反映了用户的嗜好的影像。
并且,在本实施例1以及2的分发、视听系统1400、2900中,接收利用被摄体位置信息从广角影像进行裁剪来生成的影像,提示给用户,但也可以构成为,如图43示出,接收广角影像,显示在排列多个的电视机。根据图43的结构,STB与互联网连接,从网络上的摄影系统接受广角影像,STB,将广角影像的左一半的影像裁剪从HDMI(注册商标)1输出到电视机1,将广角影像的右一半的影像裁剪从HDMI(注册商标)2输出到电视机2。如此,联结电视机,用户能够视听超广角的影像。而且,对于从各个HDMI(注册商标)输出的影像的选择,也可以使用户能够通过GUI等设定。
并且,也可以构成为,如图44示出,各个电视机与网络连接,左侧设置的电视机1从摄影系统接收广角影像的左侧的影像流,右侧设置的电视机2从摄影系统接收广角影像的右侧的影像流,来显示。为了得到同步,电视机1和电视机2的实时刻信息由NTP服务器等同步,在各个影像流中,显示在各个帧的实时刻信息附加在补充数据等,各个电视机构成为将其实时刻信息显示在该帧,从而能够得到多个电视机间的同步。根据这样的结构,能够由多个电视机显示广角影像,并且,不需要图43的STB。
并且,在本实施例1以及2的分发、视听系统1400、2900中,对于用户的嗜好信息,设定了喜好的选手以及看法等,但也可以是,在此指定“设定再生时间”。例如,是想要以10分钟的再生时间看120分钟的比赛那样的要求。在此情况下,编辑系统,根据用户的嗜好信息(喜好的选手)以及被摄体位置信息、场景信息进行加权,以包含在设定再生时间的范围内的方式生成精彩场景,生成影像,来提供给用户。根据这样的结构,用户能够,在设定时间范围内,视听仅提取了感兴趣的部分的影像。利用图45具体说明由体育的自动编辑方法的例子。图45的例子是,足球的比赛的例子。首先,编辑系统,从图45的(a)示出的非比赛中的场景中,删除进球中断以外的“非比赛中”。图45的(b)示出结果。由于对非比赛中的关心少,因此,通过剪辑其场景,能够提取用户的感兴趣区域。接着,编辑系统,从图45的(b)示出的攻守交替的场景中,提取自己的喜好的球队的进攻方的场景。图45的(c)示出用户的喜好为B队时的结果。一般而言,用户,喜欢看喜好的球队的进攻方的场景,因此,能够提取用户的感兴趣区域。接着,编辑系统,提取图45的(c)示出的用户的喜好的选手与球位置信息接近的场景。图45的(d)示出用户的喜好为X选手时的结果。一般而言,对于用户,球位置成为感兴趣区域,因此,通过提取喜好的选手与球位置信息接近的场景,能够提取用户的感兴趣区域。据此,能够生成反映了用户的兴趣的短时间的精彩再生内容。图45是一个例子,例如,可以替换场景的提取顺序,也可以是仅一个。
而且,在本实施例1以及2的分发、视听系统1400、2900中,位置确定部1422,对广角影像进行图像识别处理,从而确定被摄体位置信息,但也可以是,除了由影像生成部1423生成的广角影像以外,还将由点影像摄影部2901拍摄的多个点影像、以及如图46所示从与广角影像不同的视点拍摄的第二广角影像,利用于图像识别处理。对于图像识别处理的人物识别的问题之一,可以举出图像分辩率。在图46的例子的情况下,若在赛场下部(靠前侧)存在人物,相机1501至1503能够放大拍摄人物,因此,能够识别脸等,但是,若人物移动到上部(赛场的深处),根据相机1501至1503的拍摄不能放大人物,会有人脸识别等变得困难的可能性。于是,若设置相机4401、4402、4403那样从相反侧拍摄的手段,也能够放大拍摄向赛场上部移动的人物。于是,在人物位置位于上部的情况下,使基于相机4401、4402、4403的广角影像的解析结果优先,在人物位置位于下部的情况下,使基于相机1501至1503的广角影像的解析结果优先,从而能够提高人物识别的解析结果的精度。
并且,例如,在根据脸进行人物识别的情况下,若人物朝向图46的赛场下方向,则能够识别脸,但是,在朝向相反侧的情况下,不能识别。于是,若设置相机4401、4402、4403那样从相反侧拍摄的手段,即使人物朝向赛场上方向(赛场深处的方向),也能够进行人脸识别。同样,例如,在根据背上的球衣号码进行人物识别的情况下,若人物朝向图46的赛场上方向,则能够识别球衣的号码,但是,在朝向相反侧的情况下,不能识别。于是,若设置相机4401、4402、4403那样从相反侧拍摄的手段,即使人物朝向赛场下方向(赛场靠前侧的方向),也能够进行球衣的号码识别。于是,对多个视点的影像同时进行图像识别,若在某个影像中能够识别,则将其信息作为被摄体位置信息利用。根据这样的结构,能够提高被摄体位置信息的精度。
并且,本实施例1以及2的分发、视听系统1400、2900的实施方案之一有,个人内容的利用,例如,可以考虑自己的孩子的幼儿园、小学校的发表会的拍摄以及运动会、各种体育事件等。在这样的情况下,父母要求进行以自己的孩子为中心视听那样的视听。此时,编辑系统1420、2920的位置确定部1422,预先保持孩子的人脸识别数据库,使用该人脸识别数据库,确定、跟踪人物,自动影像选择编辑部,根据由用户的嗜好信息指定的孩子的位置信息,切换为从广角影像的裁剪的影像、以及点影像摄影部的影像,从而能够满足该要求。在此,人脸识别数据库也可以,如图47示出,根据用户拍摄的个人内容按每个年代管理。图47的箭头示出摄影时期的时间轴,以白四角示出运动图像以及照片的个人内容。在此情况下,人脸识别用的数据库是,按照运动图像以及照片的摄影时期生成的。在图47的例子中,人脸识别数据库1(脸DB1),由2012至2013年拍摄的运动图像以及照片生成,人脸识别数据库2(脸DB2),由2013至2014年拍摄的运动图像以及照片生成,人脸识别数据库3(脸DB3),由2014至2015年拍摄的运动图像以及照片生成,人脸识别数据库4(脸DB4),由2015至2016年拍摄的运动图像以及照片生成。在此,例如,在追加摄影时期为2013年10月的影像内容的情况下,参照与该摄影时期对应的数据库,在图47的情况下参考脸DB2,进行人脸识别。如此,通过按每个年代改变人脸识别数据库,即使是成长的人物的脸,位置确定部1422也能够高精度地进行人脸识别,进行人物的确定。
并且,在本实施例1以及2中,位置确定部1422,利用人脸识别数据库进行被摄体位置信息的生成,但也可以是,在该被摄体位置信息的生成中,不仅限于一次,而隔时间后追加进行。也就是说,人脸识别数据库,照片越增加,因学习而精度就越提高,因此,隔着时间个人内容增加,从而人脸识别数据库的精度提高。根据这样的结构,即使用户最初看时,对自己的孩子的跟踪不好,下次,隔时间看时,跟踪精度也提高。
并且,在本实施例2的分发、视听系统2900中,点影像摄影部2901,由固定相机拍摄,但也可以是,由能够云台变焦的PTZ相机等构成点影像摄影部2901,使编辑系统2920的位置确定部1422的解析成为实时化,将其被摄体位置信息传输到摄影控制部1401,摄影控制部1401,以聚焦人物以及球的周边的方式,对点影像摄影部2901的云台变焦进行控制。根据这样的结构,更能够拍摄具有震撼力的影像,并提供给用户。
而且,在本实施例1以及2的分发、视听系统1400、2900中,编辑系统1420、2920,生成符合个人嗜好的影像流并提供给用户,但也可以是,如图48示出,不是影像流,而是作为电子书籍来提供,尤其作为漫画来提供。为了实现它,自动影像编辑部1424或自动影像选择编辑部2902,根据场景信息、被摄体位置信息、用户的嗜好信息,生成代表静止图像列表。自动影像编辑部1424或自动影像选择编辑部2902,根据代表静止图像信息进行漫画的画面分割,插入静止图像。此时,也可以将比赛经过信息等作为图48的解说来提示。并且,像图48的(a)的最后的画面那样,在从被摄体位置信息判别出射门场景的情况下,可以合成效果以及拟声词(象声词)。并且,在拍摄会议等的事件的情况下也可以,将会话文字信息化,像图48的(b)那样,在人物位置的旁边以对白合成文字信息。根据这样的结构,用户,不仅限于影像,以像漫画那样的其他的形态也能够欣赏事件。
而且,在所述各个实施例中也可以,各个构成要素,由专用的硬件构成、或通过执行适于各个构成要素的软件程序来实现。各个构成要素也可以,CPU或处理器等的程序执行部,读出并执行硬盘或半导体存储器等的记录介质中记录的软件程序来实现。在此,实现所述各个实施例的图像解码装置等的软件是,如下的程序。
也就是说,该程序,使计算机,执行利用计算机提供根据用户的嗜好信息编辑的影像的影像提供方法,该影像提供方法包括:影像获得步骤,获得(i)作为摄影空间中的一部分的第一摄影空间被拍摄而得到的第一主影像、以及(ii)包含所述第一空间以外的空间的第二摄影空间被拍摄而得到的第二主影像,所述第二摄影空间均是摄影空间中的空间;影像生成步骤,对所述影像获得步骤中获得的所述第一主影像以及所述第二主影像进行合成,从而生成广角影像;信息获得步骤,经由网络,获得所述用户的嗜好信息;区域计算步骤,根据所述信息获得步骤中获得的所述用户的嗜好信息,计算裁剪区域,该裁剪区域是所述广角影像中的比所述广角影像的区域小的区域;裁剪步骤,以所述区域计算步骤中计算出的所述裁剪区域,对所述影像生成步骤中生成的所述广角影像进行裁剪;以及影像提供步骤,将所述裁剪步骤中进行裁剪而生成的裁剪影像提供给用户。
以上,对于本发明的一个或多个实施方案涉及的……装置,根据实施例进行了说明,但是,本发明,不仅限于该实施例。只要不脱离本发明的宗旨,对本实施例施行本领域的技术人员想到的各种变形的形态、或组合不同的实施例中的构成要素而构成的形态,也包含在本发明的一个或多个实施方案的范围内。
而且,根据所述实施例说明了本发明,但是,当然,本发明不仅限于所述的实施例。如下的情况也包含在本发明中。
(1)具体而言,所述的各个装置是,由微处理器、ROM、RAM、硬盘组件、显示器组件、键盘、鼠标等构成的计算机系统。RAM或硬盘组件存储有计算机程序。微处理器根据计算机程序进行工作,据此,各个装置实现其功能。在此,计算机程序是,为了实现规定的功能,组合表示对计算机的命令的多个指令码而构成的。
(2)构成所述的各个装置的构成要素的一部分或全部也可以,由一个系统LSI(Large Scale Integration:大规模集成电路)构成。系统LSI是,在一个芯片上集成多个构成部而制造的超多功能LSI,具体而言,是包含微处理器、ROM、RAM等而构成的计算机系统。ROM存储有计算机程序。微处理器,从ROM向RAM加载计算机程序,根据加载的计算机程序进行运算等的工作,据此,系统LSI实现其功能。
(3)构成所述的各个装置的构成要素的一部分或全部也可以,由与各个装置可装卸的IC卡或单体的模块构成。IC卡或模块是,由微处理器、ROM、RAM等构成的计算机系统。IC卡或模块也可以,包含所述的超多功能LSI。微处理器根据计算机程序进行工作,据此,IC卡或模块实现其功能。该IC卡或该模块也可以,具有防篡改性。
(4)本发明也可以由所述的方法实现。并且,可以由以计算机来实现这样的方法的计算机程序实现,也可以由计算机程序所构成的数字信号实现。
并且,本发明也可以,将计算机程序或数字信号记录到计算机可读取的记录介质,例如,软盘、硬盘、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(注册商标)Disc)、半导体存储器等来实现。并且,也可以由这样的记录介质记录有的数字信号实现。
并且,本发明也可以,将计算机程序或数字信号,经由电通信线路、无线或有线通信线路、以互联网为代表的网络、数据广播等传输。
并且,本发明也可以是,具备微处理器和存储器的计算机系统,存储器存储有计算机程序,微处理器根据计算机程序进行工作。
并且,也可以是,将程序或数字信号记录到记录介质来转送,或者,将程序或数字信号经由网络等转送,从而由独立的其他的计算机系统实施。
(5)也可以将所述实施例以及所述变形例分别组合。
本发明涉及的利用了数据制作装置的影像内容的分发、视听系统,能够实现由以往的广播电台的分发不能实现的、反映了用户的嗜好信息的新的影像内容的分发。因此,本发明,在网络运动图像分发事业等的影像分发产业、电视等的民用设备产业中,具有高的利用可能性。
符号说明
10 分发、视听系统
100 广播系统
101 广播影像摄影部
102 广播影像编辑部
103 广播流制作部
104 广播流
110 再生装置
111 调谐器
112 广播流解码部
201 遥控器
202 数字电视机
501 视频流
502PES 数据包列
503TS 数据包
504 音频流
505PES 数据包列
506TS 数据包
507 字幕流
508PES 数据包列
509TS 数据包
513 传输流
1400、2900 分发、视听系统
1401 摄影控制部
1402 影像摄影部
1403 通信I/F
1410 摄影系统
1420 编辑系统
1421、1427 通信I/F
1422 位置确定部
1423 影像生成部
1424 自动影像编辑部
1424a 区域计算部
1424b 裁剪部
1425 信息获得部
1426 影像提供部
1430 再生系统
1431 通信I/F
1432 流解码部
1433 输入I/F
1434 应用执行部
1501 第一相机
1502 第二相机
1503 第三相机
1504 平板型终端
1511 第一主影像
1512 第二主影像
1513 第三主影像
2301 同步控制部
2404 平板型终端
2901 点影像摄影部
2902 自动影像选择编辑部
2902a 场景分割部
2902b 评价部
2902c 影像选择部
2910 摄影系统
2920 编辑系统
3001至3007 相机
4101 平板型终端
4401 相机