CN114157823A

CN114157823A - 信息处理装置、信息处理方法以及计算机可读介质

Info

Publication number: CN114157823A
Application number: CN202110239050.5A
Authority: CN
Inventors: 小川正和
Original assignee: Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2020-08-17
Filing date: 2021-03-04
Publication date: 2022-03-08
Also published as: JP2022033624A; US11651167B2; US20220050974A1

Abstract

本发明提供信息处理装置、信息处理方法以及计算机可读介质。信息处理装置具有处理器，所述处理器获取能够再现使语音、图像以及字幕在时间序列上同步的视频的视频数据，接收所述视频的再现时间中的进行删除的区间，将与接收到的所述区间内的所述语音对应并且作为所述字幕的至少一部分的部分字幕从所述区间内的图像中删除。

Description

信息处理装置、信息处理方法以及计算机可读介质

技术领域

本公开涉及信息处理装置、信息处理方法以及计算机可读介质。

背景技术

在日本专利5676087号公报中记载了与改良后的特技模式再现有关、尤其与影像演示的特技模式再现期间的字幕信息的显示有关的技术。

发明内容

在此，作为进行视频编辑的现有装置，例如有如下结构：即使指定视频的再现时间中的进行删除的区间，也只是从编辑后的视频中删除该区间内的图像，而不删除该区间内的图像中提示的字幕。因此，该现有装置除了视频的再现时间中的进行删除的区间内的图像的删除作业之外，还需进行该区间内的图像中提示的字幕的删除作业。

因此，本公开的目的在于，在视频编辑中，与除了视频中的图像的删除作业之外还需进行相对于视频的字幕删除作业的结构相比，减少字幕的删除作业所需的用户的作业数量。

根据本公开的第1方案，提供一种信息处理装置，其具有处理器，所述处理器获取能够再现使语音、图像以及字幕在时间序列上同步的视频的视频数据，接收所述视频的再现时间中的进行删除的区间，将与接收到的所述区间内的所述语音对应并且作为所述字幕的至少一部分的部分字幕从所述区间内的图像中删除。

根据本公开的第2方案，所述处理器在删除所述部分字幕之前，提示删除了所述部分字幕时的字幕。

根据本公开的第3方案，所述处理器与删除了所述部分字幕时的字幕一起揭示不删除所述部分字幕时的字幕。

根据本公开的第4方案，所述处理器以能够相对于其他字幕确定的形态提示所述部分字幕。

根据本公开的第5方案，所述处理器在删除所述部分字幕之前揭示的所述字幕中接收删除范围的调整，将接收到的删除范围作为新的部分字幕。

根据本公开的第6方案，所述处理器与删除了所述部分字幕时的字幕一起提示删除所述部分字幕时的所述区间内的至少一部分图像。

根据本公开的第7方案，在所述语音和所述字幕的语言不同的情况下，所述处理器将所述语音以及所述字幕中的一方的语言翻译成另一方的语言而确定所述部分字幕。

根据本公开的第8方案，提供一种计算机可读介质，其存储有使计算机执行处理的程序，在所述处理中，获取能够再现使语音、图像以及字幕在时间序列上同步的视频的视频数据，接收所述视频的再现时间中的进行删除的区间，将与接收到的所述区间内的所述语音对应并且作为所述字幕的至少一部分的部分字幕从所述区间内的图像中删除。

根据本公开的第9方案，提供一种信息处理方法，其中，在该信息处理方法中进行以下处理：获取能够再现使语音、图像以及字幕在时间序列上同步的视频的视频数据；接收所述视频的再现时间中的进行删除的区间；以及将与接收到的所述区间内的所述语音对应并且作为所述字幕的至少一部分的部分字幕从所述区间内的图像中删除。

(效果)

根据所述第1或者第9方案，在视频编辑中，与除了视频中的图像的删除作业之外还需进行相对于视频的字幕删除作业的结构相比，减少字幕的删除作业所需的用户的作业数量。

根据所述第2方案，能够在删除部分字幕之前，确认删除了部分字幕时的字幕内容。

根据所述第3方案，能够进行删除前后的字幕内容的比较。

根据所述第4方案，与所提示的字幕的所有文字为相同形态的结构相比，容易确定部分字幕。

根据所述第5方案，能够一边确认所揭示的字幕内容，一边调整从字幕中删除的范围。

根据所述第6方案，能够与删除了部分字幕时的字幕内容一起掌握删除后的视频的图像结构。

根据所述第7方案，即使语音和字幕的语言不同，也能够确定部分字幕。

根据所述第8方案，在视频编辑中，与除了视频中的图像的删除作业之外还需进行相对于视频的字幕删除作业的结构相比，减少字幕的删除作业所需的用户的作业数量。

附图说明

图1为示出信息处理装置的硬件结构的框图。

图2为示出字幕处理的流程的流程图。

图3为再现编辑前视频的样子的一例。

图4为编辑画面的一例。

图5相对于图4所示的编辑画面图示了删除区间。

图6为示出部分字幕确定处理的流程的流程图。

图7相对于图5所示的编辑画面图示了语音文本。

图8相对于图7所示的编辑画面图示了已确定的部分字幕。

图9为示出确认画面生成处理的流程的流程图。

图10相对于图8所示的编辑画面图示了删除后字幕。

图11为第1实施方式中的确认画面的一例。

图12为操作是按钮后的编辑画面的一例。

图13为编辑后视频的结构的一例。

图14为第2实施方式中的确认画面的一例。

图15为第3实施方式中的确认画面的一例。

图16为第3实施方式中的确认画面的一例。

图17为第4实施方式中的确认画面的一例。

具体实施方式

以下，对本实施方式所涉及的信息处理装置10进行说明。

(第1实施方式)

信息处理装置10为能够执行使语音、图像以及字幕在时间序列上同步的视频的编辑处理的计算机。作为一例，信息处理装置10中适用了服务器计算机或者个人计算机(＝PC：Personal Computer)等通用计算机装置或者智能手机或者平板终端等可便携式计算机装置等。

另外，以下记载的语音、图像或者字幕等的“删除”是指用户无法从再现的视频中识别作为删除对象的语音、图像或者字幕等的处理。因此，上述“删除”包含如下处理：消除作为删除对象的语音、图像或者字幕等数据的处理；以及不消除作为删除对象的语音、图像或者字幕等数据而停止该语音的输出或该图像以及该字幕等的提示的处理。

接着，对信息处理装置10的硬件结构进行说明。

图1是示出信息处理装置10的硬件结构的框图。

如图1所示，信息处理装置10具有控制信息处理装置10的动作的控制部20。该控制部20借助总线将CPU22(＝Central Processing Unit)、ROM24(＝Read Only Memory)、RAM26(＝Random Access Memory)以及输入输出接口(＝I/O)28连接成能够相互通信。

CPU22为中央运算处理单元，执行各种程序，或者控制各部分。即，CPU22从ROM24中读取程序，将RAM26作为作业区域来执行程序。CPU22按照记录在ROM24中的程序进行上述各结构的控制以及各种运算处理。

ROM24存储有各种程序以及各种数据。各种程序中包含用于使信息处理装置10执行视频的编辑处理的信息处理程序。另外，信息处理程序可以预先安装于信息处理装置10，也可以通过存储于非易失性存储介质或者经由网络分发而适当地安装于信息处理装置10。作为非易失性存储介质的例，可以设想CD-ROM、光磁盘、HDD(＝Hard Disk Drive)、DVD-ROM、闪速存储器、存储卡等。

RAM26作为作业区域暂时存储程序或者数据。

在I/O28连接有存储部30、显示部32以及操作部34。

作为存储部30，例如使用HDD、SSD(＝Solid State Drive)、闪速存储器等。

存储部30中存储有能够再现使语音、图像以及字幕在时间序列上同步的视频的视频数据。视频数据为具有视频形式的文件，例如使用MP4形式或AVI形式等作为文件类型。

然后，视频数据中包含用于输出上述语音的语音数据、用于提示上述图像的图像数据以及用于提示上述字幕的字幕数据。语音数据为具有语音形式的文件，例如使用AAC形式或MP3形式等作为文件类型。图像数据为具有图像形式的文件，例如使用JPEG形式或PNG形式作为文件类型。字幕数据例如用TTML形式或WebVTT形式等进行描述。

而且，视频数据中包含存储有视频的再现时间的时间数据。该时间数据为了使各视频的语音、图像以及字幕在时间序列同步而具有包含以下位置的数据，所述位置分别是：输出各语音的开始位置以及结束位置；提示各图像的开始位置以及结束位置；以及提示各字幕的开始位置以及结束位置。

显示部32中例如使用液晶显示器(＝LCD:Liquid Crystal Display)或有机EL(＝Electro Luminescence)显示器等。该显示部32一体地具有触摸面板。

操作部34从信息处理装置10的用户接收各种指示。然后，在显示部32上提示按照从用户接收到的指示执行的处理的结果或者对于处理的通知等各种信息。

接着，利用图2至图13对信息处理装置10所进行的视频的编辑处理进行说明。

图2是示出进行字幕数据的获取或者字幕的删除的字幕处理的流程的流程图。

在图2所示的步骤S10中，CPU22在根据用户对操作部34的操作从存储部30中获取作为编辑对象的视频(以下，称作“编辑前视频”)的视频数据之后，将编辑前视频的再现时间中的进行删除的区间确定为删除区间。例如，CPU22从时间数据中获取编辑前视频的再现时间，在所获取的再现时间内接收删除区间的开始位置以及结束位置的输入。然后，进入步骤S11。另外，能够如下实现开始位置以及结束位置的接收。例如，CPU22在显示部32上提示将再现时间的最开始到最后为止表示为线段的线图，从用户接收线图的总长中的删除区间的开始位置以及结束位置的输入。

在步骤S11中，CPU22参照编辑前视频的时间数据，获取字幕区间的数量作为字幕数N(N为变量)，所述字幕区间为开始提示字幕的开始位置与结束提示该字幕的结束位置之间的区间。并且，CPU22将变量N的值存储在表示第n个字幕的Cn(n为变量)中，并且在变量N的值为2以上的情况下，按照字幕区间的开始位置从早到晚的顺序排列与Cn对应的字幕数据。然后，进入步骤S12。

接着，CPU22开始进行重复执行步骤S12至步骤S22的控制的循环处理。

在第一次的步骤S12中，CPU22设定变量n的初始值、循环处理的结束条件以及变量n的增量值。例如，CPU22将变量n的初始值设定为“1”，将循环处理的结束条件设定为“n＞N”，将变量n的增量值设定为“1”。

并且，CPU22在第2次以后的步骤S12中，在将增量值与变量n相加之后，判定循环处理的结束条件是否成立。然后，在CPU22判定为循环处理的结束条件成立的情况下，退出循环处理，结束该处理，在CPU22判定为循环处理的结束条件不成立的情况下，继续进行循环处理，进入步骤S13。

在步骤S13中，CPU22从与Cn对应的字幕数据中获取作为字幕的文本的字幕文本，并且从时间数据中获取通过该字幕数据提示的字幕的字幕区间。然后，进入步骤S14。

在步骤S14中，CPU22判定字幕区间的开始位置是否为删除区间的后面，在判定为是删除区间的后面的情况下(步骤S14：是)，退出循环处理，结束该处理。另一方面，在CPU22判定为不是删除区间的后面的情况下(步骤S14：否)，进入步骤S15。

在步骤S15中，CPU22判定字幕区间的结束位置是否为删除区间的前面，在判定为是删除区间的前面的情况下(步骤S15：是)，进入步骤S22。另一方面，在CPU22判定为不是删除区间的前面的情况下(步骤S15：否)，进入步骤S16。

在步骤S16中，CPU22判定字幕区间是否包含于删除区间内，在判定为包含于删除区间内的情况下(步骤S16：是)，进入步骤S21。另一方面，在CPU22判定为不包含于删除区间内的情况下(步骤S16：否)，进入步骤S17。

在步骤S17中，CPU22判定字幕区间的结束位置是否包含于删除区间内，在判定为包含于删除区间内的情况下(步骤S17：是)，进入步骤S20。另一方面，在CPU22判定为不包含于删除区间内的情况下(步骤S17：否)，进入步骤S18。

在步骤S18中，CPU22判定字幕区间的开始位置是否包含于删除区间内，在判定为包含于删除区间内的情况下(步骤S18：是)，进入步骤S20。另一方面，在CPU22判定为不包含于删除区间内的情况下(步骤S18：否)，进入步骤S19。

在步骤S19中，CPU22判定删除区间是否包含于字幕区间内，在判定为包含于字幕区间内的情况下(步骤S19：是)，进入步骤S20。另一方面，在CPU22判定为不包含于字幕区间内的情况下(步骤S19：否)，进入步骤S22。

在步骤S20中，CPU22从视频数据中获取与Cn对应的字幕数据。然后，进入步骤S22。

在步骤S21中，CPU22删除通过与Cn对应的字幕数据提示的字幕。然后，进入步骤S22。

在步骤S22中，CPU22执行循环结束处理，进入作为循环处理的开始处理的步骤S12。

接着，利用图3至图5对字幕处理的具体例进行说明。

图3示出了再现编辑前视频的场景。编辑前视频的再现时间为30秒。并且，编辑前视频由如下部分构成：包含图3的(A)以及图3的(B)所示的第1图像44以及图3的(C)所示的第2图像46的各图像；包含图3的(A)所示的第1字幕48、图3的(B)所示的第2字幕50以及图3的(C)所示的第3字幕52的各字幕；以及表达各字幕的内容的各语音。通过在时间序列上同步地依次再现各图像44、46、各字幕48、50、52以及语音而形成视频。

图4是对显示部32上提示的编辑前视频进行编辑时的编辑画面的一例。

用户对操作部34进行操作而输入编辑前视频的编辑处理的指示，CPU22若接收该指示，则提示图4所示的编辑画面。

在图4所示的编辑画面上提示有：提示与编辑前视频的各图像有关的信息的图像条80；以及提示与编辑前视频的各字幕有关的信息的字幕条82。

在图像条80内提示有在编辑前视频的再现中提示的各图像，具体提示有第1图像44以及第2图像46。并且，在图像条80的上部提示有编辑前视频的再现时间中的各图像的提示时间。例如，在编辑前视频的再现时间中，第1图像44的提示时间为“00：00～00：20(秒)”的区间，第2图像46的提示时间为“00：20～00：30(秒)”的区间。

在字幕条82内提示有在编辑前视频的再现中提示的各字幕，具体提示有第1字幕48、第2字幕50以及第3字幕52。并且，在字幕条82的下部提示有编辑前视频的再现时间中的各字幕的字幕区间。

第1字幕48的编辑前视频的再现时间中的“00：01～00：08(秒)”的区间为字幕区间，在该区间内与第1图像44一起提示“大家好，我是ABC公司的CEO雷德”这一文字(参照图3的(A))。第2字幕50的编辑前视频的再现时间中的“00：11～00：18(秒)”的区间为字幕区间，在该区间内与第1图像44一起提示“对2020年第4季度的业绩进行说明”这一文字(参照图3的(B))。第3字幕52的编辑前视频的再现时间中的“00：21～00：28(秒)”的区间为字幕区间，在该区间内与第2图像46一起提示“第4季度的销售额为1,140万美金，大幅增收”这一文字(参照图3的(C))。

图5相对于图4所示的编辑画面图示了删除区间。

在图5的编辑画面中指定删除区间时，如图5所示，用虚线表示删除区间。在图5所示的例中，作为一例，删除区间为再现时间“00：05～00：20(秒)”之间的区间。另外，例如通过如下地设定删除区间的开始位置以及结束位置：在显示部32上提示的编辑画面中提示将该视频的再现时间的最开始到最后为止表示为线段的线图的时间条(未图示)，并由用户指定该时间条上的任意时间。

另外，也可以不必在编辑画面中显示图像条80以及字幕条82，例如由用户直接输入值等而指定删除区间的开始位置以及结束位置，接收来自该用户的输入。

在此，第1字幕48的字幕区间的结束位置包含于删除区间内，第2字幕50的字幕区间包含于删除区间内，第3字幕52的字幕区间不包含于删除区间内，第3字幕52的字幕区间的开始位置为删除区间的后面。在该情况下，作为对第1字幕48的处理，CPU22在图2所示的步骤S20中从视频数据中获取第1字幕48的字幕数据，进行后述的部分字幕确定处理以及确认画面生成处理。并且，作为对第2字幕50的处理，CPU22在图2所示的步骤S21中删除第2字幕50。而且，作为对第3字幕52的处理，CPU22在图2所示的流程图中不进行第3字幕52的字幕数据的获取或者第3字幕52的删除，结束该处理。

上述的结果，第2字幕50被删除，第3字幕52维持当前状态，因此在以下图6以后的附图中，对从与删除区间内的第1图像44一起提示第1字幕48的删除对象图像54(参照图3的(A))中删除部分字幕的流程进行说明。

图6是示出对与在删除区间内输出的语音对应并且作为在删除区间内提示的字幕的至少一部分的部分字幕进行确定的部分字幕确定处理的流程的流程图。

在图6所示的步骤S30中，CPU22从视频数据中获取在删除区间内输出的语音的语音数据，并且从时间数据中获取语音区间，所述语音区间为开始输出该语音的开始位置与结束输出该语音的结束位置之间的区间。然后，进入步骤S31。

在步骤S31中，CPU22将在图2所示的步骤S20中获取的字幕数据的数量存储在对字幕数据的数量进行存储的字幕数M(M为变量)中，并且在变量M的值为2以上的情况下，按照字幕区间的开始位置从早到晚的顺序排列与表示第m个字幕的Cm(m为变量)对应的各字幕数据。然后，进入步骤S32。

接着，CPU22开始进行重复执行步骤S32至步骤S36的控制的循环处理。

在第一次的步骤S32中，CPU22设定变量m的初始值、循环处理的结束条件以及变量m的增量值。例如，CPU22将变量m的初始值设定为“1”，将循环处理的结束条件设定为“m＞M”，将变量m的增量值设定为“1”。

并且，CPU22在第2次以后的步骤S32中，在将增量值与变量m相加之后，判定循环处理的结束条件是否成立。然后，在CPU22判定为循环处理的结束条件成立的情况下，退出循环处理，结束该处理，在CPU22判定为循环处理的结束条件不成立的情况下，继续进行循环处理，进入步骤S33。

在步骤S33中，CPU22从与Cm对应的字幕数据中获取字幕文本，并且从时间数据中获取通过该字幕数据提示的字幕的字幕区间。然后，进入步骤S34。

在步骤S34中，CPU22获取将删除区间以及字幕区间的重合部分的语音转换为文本的语音文本。上述“字幕区间”为通过与Cm对应的字幕数据提示的字幕的字幕区间。在此，CPU22利用公知的语音识别技术进行语音识别处理，将该语音的语音数据转换为文本。然后，进入步骤S35。

另外，作为在步骤S34中获取的语音文本的范围，有以下三种类型。

(1)在删除区间包含于字幕区间内的情况下，从删除区间的开始位置至结束位置为止的范围。

(2)在只有字幕区间的开始位置包含于删除区间内并且结束位置位于删除区间外的情况下，从字幕区间的开始位置至删除区间的结束位置为止的范围。

(3)在只有字幕区间的结束位置包含于删除区间内并且开始位置位于删除区间外的情况下，从删除区间的开始位置至字幕区间的结束位置为止的范围。

在步骤S35中，CPU22确定与在删除区间内输出的语音对应并且作为在删除区间内提示的字幕的至少一部分的部分字幕。

在此，“部分字幕与语音对应”的情况包含以下两种情况，该两种情况分别是：语音文本以及字幕文本一致的情况；以及根据预先规定的类似度视为语音文本以及字幕文本一致的情况。例如，作为上述类似度，可以列举语言的类似度，在对语音以及字幕这双方的语言进行比较的情况下，若超过预先规定的阈值，则判定为类似。例如，可以如下构成：在从语音以及字幕这双方的语言联想到相同意思的情况下，超过预先规定的阈值，判定为类似。然后，在CPU22根据上述类似度判定为类似的情况下，根据上述类似度视为语音文本以及字幕文本一致。

作为“部分字幕与语音对应”的例，例如可以考虑如下情况。语音文本以及字幕文本均为“我是ABC公司的CEO雷德”的情况；语音文本为“大家好”并且字幕文本为“大家好”的情况；以及语音文本为“我是ABC公司的CEO雷德”并且字幕文本为“我是ABC公司的首席执行官雷德”的情况；等等。

步骤S35中的部分字幕为与删除区间内的图像一起提示的字幕的文字部分，该删除区间内的图像通过对在步骤S33中获取的字幕文本与在步骤S34中获取的语音文本进行比较而确定。后面对确定部分字幕的流程的细节进行叙述。然后，进入步骤S36。

在步骤S36中，CPU22执行循环结束处理，进入作为循环处理的开始处理的步骤S32。

接着，利用图7以及图8对部分字幕确定处理的具体例进行说明。

图7相对于图5所示的编辑画面图示了将删除区间以及第1字幕48的字幕区间的重合部分的语音的语音数据转换为文本的语音文本。

在图7所示的编辑画面中重新提示了提示与编辑前视频的各语音有关的信息的语音条84。

在此，编辑前视频的各语音包含显示第1字幕48、第2字幕50以及第3字幕52各自的内容的语音。然后，在图7所示的一例中，删除区间为“00：05～00：20(秒)”，第1字幕48的字幕区间为“00：01～00：08(秒)”。在该情况下，CPU22在图6所示的步骤S34中获取从删除区间的开始位置至字幕区间的结束位置为止的范围的语音文本。因此，作为从删除区间的开始位置至字幕区间的结束位置为止的范围的语音文本，在图7所示的语音条84内提示有“我是ABC公司的CEO雷德”这一文字。

图8相对于图7所示的编辑画面图示了已确定的部分字幕。

在图8中，通过CPU22对第1字幕48的字幕文本与删除区间以及第1字幕48的字幕区间的重合部分的语音文本进行比较的结果，将在字幕条82内的第1字幕48的一部分文字上标注下划线的“我是ABC公司的CEO雷德”确定为部分字幕。

图9是示出了生成用于确认字幕的删除的确认画面的确认画面生成处理的流程的流程图。

在图9所示的步骤S40中，CPU22从视频数据中获取在删除区间内输出的语音的语音数据，并且从时间数据中获取该语音的语音区间。然后，进入步骤S41。

在步骤S41中，CPU22将在图2所示的步骤S20中获取的字幕数据的数量存储在对字幕数据的数量进行存储的字幕数M(M为变量)，并且在变量M的值为2以上的情况下，按照字幕区间的开始位置从早到晚的顺序排列与表示第m个字幕的Cm(m为变量)对应的各字幕数据。然后，进入步骤S42。

接着，CPU22开始进行重复执行步骤S42至步骤S48的控制的循环处理。

在第一次的步骤S42中，CPU22设定变量m的初始值、循环处理的结束条件以及变量m的增量值。例如，CPU22将变量m的初始值设定为“1”，将循环处理的结束条件设定为“m＞M”，将变量m的增量值设定为“1”。

并且，CPU22在第2次以后的步骤S42中，在将增量值与变量m相加之后，判定循环处理的结束条件是否成立。然后，在CPU22判定为循环处理的结束条件成立的情况下，退出循环处理，结束该处理，在CPU22判定为循环处理的结束条件不成立的情况下，继续进行循环处理，进入步骤S43。

在步骤S43中，CPU22从与Cm对应的字幕数据中获取字幕文本，并且从时间数据中获取通过该字幕数据提示的字幕的字幕区间。然后，进入步骤S44。

在步骤S44中，CPU22判定在步骤S33中获取的字幕文本与在步骤S35中确定的部分字幕之间是否成立一致条件。在CPU22判定为一致条件成立的情况下(步骤S44：是)，进入步骤S47。另一方面，在CPU22判定为一致条件不成立的情况下(步骤S44：否)，进入步骤S45。作为一例，在上述字幕文本与部分字幕的文本数据一致的情况下，CPU22判定为一致条件成立。例如，在上述字幕文本以及部分字幕为“我是ABC公司的CEO雷德”的情况下，CPU22判定为一致条件成立，但是在上述字幕文本为“大家好，我是ABC公司的CEO雷德”并且部分字幕为“我是ABC公司的CEO雷德”的情况下，判定为一致条件不成立。

在步骤S45中，CPU22生成删除部分字幕时的字幕。例如，在与删除区间内的图像一起提示的字幕为“大家好，我是ABC公司的CEO雷德”并且部分字幕为“我是ABC公司的CEO雷德”的情况下，CPU22生成“大家好”这一字幕文本作为删除部分字幕时的字幕。然后，进入步骤S46。

在步骤S46中，CPU22更新作为删除对象的字幕的字幕区间的开始位置以及结束位置中的至少一方。然后，进入步骤S47。

另外，作为步骤S46中的字幕区间的更新模式，有如下三种类型。

(1)在删除区间包含于字幕区间内的情况下，该字幕区间的开始位置在更新前后没有变化，更新后的结束位置成为从更新前的结束位置提前与删除区间相应的时间的位置。

(2)在只有字幕区间的开始位置包含于删除区间内并且结束位置位于删除区间外的情况下，该字幕区间的更新后的开始位置成为从更新前的开始位置提前删除区间与该字幕区间的重合部分的时间的位置，结束位置在更新前后没有变化。

(3)在只有字幕区间的结束位置包含于删除区间内并且开始位置位于删除区间外的情况下，该字幕区间的开始位置在更新前后没有变化，更新后的结束位置成为从更新前的结束位置提前了删除区间与该字幕区间的重合部分的时间的位置。

在步骤S47中，CPU22生成用于确认字幕的删除的确认画面。然后，进入步骤S48。另外，后面对确认画面的细节进行叙述。

在步骤S48中，CPU22执行循环结束处理，进入作为循环处理的开始处理的步骤S42。

接着，利用图10以及图11对确认画面生成处理的具体例进行说明。

图10相对于图8所示的编辑画面图示了从删除对象图像54中删除了部分字幕时的删除后字幕56。

在图10中，从图8中变更了字幕条82内呈现的文字，从与删除区间内的第1图像44一起提示的第1字幕48“大家好，我是ABC公司的CEO雷德”中删除作为其一部分的部分字幕“我是ABC公司的CEO雷德”之后的“大家好”成为删除后字幕56。

图11是第1实施方式中的确认画面的一例。

如图11所示，在显示部32上的确认画面中提示有编辑前信息60、编辑后信息62、是按钮64、否按钮66以及取消按钮68。编辑前信息60包含第1字幕48的文字部分以及字幕区间，编辑后信息62包含删除后字幕56的文字部分以及字幕区间。

在此，若操作是按钮64，则从删除对象图像54中删除部分字幕，与第1图像44一起提示的字幕变更为删除后字幕56，并且图像以及语音变更为删除区间的删除后的内容。在上述例中，CPU22通过操作是按钮64，将编辑前视频的时间数据更新为删除区间的删除后的内容，并且通过对删除区间内的图像进行删除来变更第1图像44以及第2图像46的提示时间，通过删除部分字幕，与第1图像44一起提示的字幕变更为删除后字幕56，通过对删除区间内的语音进行删除而停止输出该语音。

如以上，在第1实施方式中，CPU22在从删除对象图像54中删除部分字幕之前，在确认画面上提示删除后字幕56。因此，根据第1实施方式，能够在删除部分字幕之前，确认删除了部分字幕时的字幕内容。

并且，在第1实施方式中，CPU22在确认画面上与删除后字幕56一起揭示不删除部分字幕时的字幕(上述例中为第1字幕48)。因此，根据第1实施方式，能够进行删除前后的字幕内容的比较。

另外，在图11的确认画面中，与编辑后信息62一起揭示编辑前信息60，但是也可以相对于编辑前信息60反映编辑履历进行揭示。例如，通过在“大家好，我是ABC公司的CEO雷德”中的“我是ABC公司的CEO雷德”部分标注如后述的图15以及图16所示的双删除线，而相对于编辑前信息60反映编辑履历进行揭示，由此用户能够掌握编辑前的字幕和编辑后的字幕以及编辑部位。

图12为操作是按钮64后的编辑画面的一例。

如图12所示，在操作是按钮64之后，第1图像44的提示时间变更为“00：00～00：05(秒)”的区间，第2图像46的提示时间变更为“00：05～00：15(秒)”的区间。并且，在操作是按钮64之后，“00：01～00：05(秒)”成为删除后字幕56的字幕区间以及表达删除后字幕56的内容的语音的语音区间，“00：06～00：13(秒)”成为第3字幕52的字幕区间以及表达第3字幕52的内容的语音的语音区间。

另外，在图11所示的确认画面中操作否按钮66的情况下，不从删除对象图像54中删除部分字幕，与第1图像44一起提示的字幕维持第1字幕48的状态，图像以及语音变更为删除区间的删除后的内容，在操作取消按钮68的情况下，取消一连串视频的编辑处理。

图13示出了再现编辑后的视频(以下，称作“编辑后视频”)的场景。编辑后视频的再现时间随着删除区间的删除而缩短为15秒。并且，编辑后视频随着删除区间的删除而从图3的(A)所示的删除对象图像54中被删除部分字幕，如图13的(A)所示，与第1图像44一起提示的字幕变更为删除后字幕56。而且，编辑后视频随着删除区间的删除而从视频的再现时间中被删除图3的(B)所示的第2字幕50的字幕区间，并且如图13的(B)所示，第3字幕52的字幕区间从图3的(C)所示编辑前视频发生了变更。

与此相对，在第1实施方式中，CPU22获取视频数据，接收从基于所获取的视频数据的视频的再现时间中进行删除的删除区间，从删除对象图像54中删除所接收到的删除区间内的部分字幕。通过所述的各结构，在第1实施方式中通过接收删除区间而进行删除区间内的图像的删除以及字幕的删除。

综上所述，根据第1实施方式，在视频编辑中，与除了视频中的图像的删除作业之外还需进行针对视频的字幕删除作业的结构相比，减少字幕的删除作业所需的用户的作业数量。

在第1实施方式中，CPU22在从删除对象图像54中删除部分字幕之前，在确认画面上提示了删除后字幕56，但是并不限于此，也可以基于接收了删除区间的情况，无需提示删除后字幕56而从删除对象图像54中删除部分字幕。

在第1实施方式中，CPU22在确认画面上与删除后字幕56一起揭示了不删除部分字幕时的字幕，但是并不限于此，也可以在确认画面上提示删除后字幕56，但是不提示不删除部分字幕时的字幕。

第1实施方式中记载的视频数据、语音数据、图像数据以及字幕数据的文件形式为一例，也可以使用其他文件形式。

在第1实施方式中，在图6所示的步骤S34中，CPU22获取将删除区间以及通过与Cm对应的字幕数据提示的字幕的字幕区间的重合部分的语音转换为文本而得到的语音文本。但是，并不限于此，也可以如下构成：通过使将编辑前视频的语音转换为文本而得到的语音文本存储在存储部30中，CPU22无需将作为对象的语音转换为文本，而从存储部30中获取作为该对象的语音的语音文本。在该情况下，在步骤S35中成为部分字幕的“与在删除区间内输出的语音对应并且在删除区间内提示的字幕”通过对以下两个文本进行比较来确定，该两个文本分别是：CPU22将作为对象的语音转换为文本而得到的语音文本以及CPU22从存储部30中获取到的作为对象的语音的语音文本中的任一个；以及在步骤S33中获取到的字幕文本。

在第1实施方式中，用于提示视频中的图像的数据以及用于提示视频中的字幕的数据分别作为图像数据以及字幕数据成为独立的数据。但是，并不限于此，也可以将用于提示视频中的图像的数据以及用于提示视频中的字幕的数据设为一体数据，在进行视频的编辑处理时分离成独立的数据。

在第1实施方式中，以语句为单位提示了视频中的字幕，但是并不限于此，也可以以一个文字单位慢慢提示字幕。

第1实施方式中说明的图2、图6以及图9所示的流程图的处理顺序为一例，只要处理结果不变，则也可以适当地变更流程图的处理顺序。第1实施方式在图6所示的流程图中，CPU22在步骤S33中从与Cm对应的字幕数据中获取字幕文本之后，在步骤S34中获取删除区间以及通过与Cm对应的字幕数据提示的字幕的字幕区间的重合部分的语音的语音文本。例如，也可以代替此而如下构成：CPU22在确定删除区间的语音，并获取该语音的语音文本之后，获取与该语音文本对应的字幕文本。

(第2实施方式)

接着，关于第2实施方式，省略或简化与其他实施方式重复的部分进行说明。

图14为第2实施方式中的确认画面的一例。

如图14所示，CPU22在该确认画面中以能够在作为编辑前信息60提示的第1字幕48中进行确定的形态提示了部分字幕。例如，在图14所示的确认画面中，将第1字幕48“大家好，我是ABC公司的CEO雷德”中的部分字幕“我是ABC公司的CEO雷德”的周围用虚线圈起来显示。

通过以上结构，根据第2实施方式，与在确认画面中提示的字幕的所有文字为相同形态的结构相比，容易确定部分字幕。

在第2实施方式中，CPU22将作为编辑前信息60提示的第1字幕48中的部分字幕以能够相对于其他字幕确定的形态进行提示，但是并不限于此，也可以将作为编辑后信息62提示的删除后字幕56中的部分字幕以能够相对于其他字幕确定的形态进行提示。

(第3实施方式)

接着，关于第3实施方式，省略或简化与其他实施方式重复的部分进行说明。

第3实施方式构成为：CPU22在删除部分字幕之前作为编辑后信息62揭示在确认画面中的删除后字幕56中接收删除范围的调整，将接收到的删除范围作为新的部分字幕。

图15为第3实施方式中的确认画面的一例。

在图15所示的确认画面中，在作为编辑后信息62提示的删除后字幕56中的“我是ABC公司的CEO雷德”上标注双删除线而显示部分字幕。并且，在该确认画面中，在作为标注双删除线的首位文字的“A”的下部提示有用箭头表示的调整标记70。在该确认画面中，能够通过使调整标记70左右移动而调整作为部分字幕删除的范围。

图16示出了调整标记70从图15所示的确认画面移动之后的状态。

在图16所示的确认画面中，调整标记70从图15所示的确认画面朝左侧移动，标注双删除线的首位文字成为“好”。因此，在该确认画面中，在作为编辑后信息62提示的删除后字幕56中的“好，我是ABC公司的CEO雷德”上标注双删除线。在该情况下，CPU22将作为接收到的删除范围的“好，我是ABC公司的CEO雷德”确定为新的部分字幕。并且，CPU22随着部分字幕的范围的变更，将作为编辑后信息62提示的删除后字幕56的字幕区间变更为“00：01～00：02(秒)”。

通过以上结构，根据第3实施方式，能够一边确认揭示的字幕内容，一边调整从字幕中删除的范围。

如图15以及图16所示，在第3实施方式中虽有在删除后字幕56中的一部分标注双删除线的差异，但是在确认画面中在第1字幕48以及删除后字幕56中提示有相同的“大家好，我是ABC公司的CEO雷德”这一文字。并且，在上述第1实施方式以及第2实施方式中，在确认画面中提示有在第1字幕48以及删除后字幕56中不同的文字，具体地说作为删除后字幕56提示有从第1字幕48中删除了部分字幕时的文字(参照图11以及图14)。如以上，在确认画面中提示的删除后字幕56可以是从第1字幕48中删除了部分字幕时的文字，也可以以能够相对于其他字幕确定的形态提示部分字幕。

在第3实施方式中，CPU22在删除部分字幕之前作为编辑后信息62揭示在确认画面中的删除后字幕56中接收删除范围的调整，但是并不限于此，也可以在删除部分字幕之前作为编辑前信息60揭示在确认画面中的第1字幕48中接收删除范围的调整。

(第4实施方式)

接着，关于第4实施方式，省略或简化与其他实施方式重复的部分进行说明。

图17为第4实施方式中的确认画面的一例。

如图17所示，CPU22在该确认画面中与删除后字幕56的内容以及字幕区间一起提示有从删除对象图像54中删除部分字幕时的删除后图像72作为编辑后信息62。例如，在图17所示的确认画面中与第1图像44一起提示有删除后字幕56“大家好”作为删除后图像72。

通过以上结构，根据第4实施方式，能够与删除部分字幕时的字幕内容一起掌握删除后的视频的图像结构。

在第4实施方式中，CPU22与删除后字幕56的内容以及字幕区间一起提示有1张图像作为删除后图像72，但是并不限于此，也可以提示多张图像作为删除后图像72。

(第5实施方式)

接着，关于第5实施方式，省略或简化与其他实施方式重叠的部分进行说明。

与其他实施方式不同，第5实施方式为进行语音和字幕的语言不同的视频的编辑处理的信息处理装置10的实施方式。

第5实施方式构成为：CPU22将视频中的语音以及字幕中的一方的语言翻译成另一方的语言来确定部分字幕。

以下，对将视频中的语音设为英语、将字幕设为日语、将在删除区间内输出的英语语音设为“I'm ABC company CEO Red.I will explain the financial results for thefourth quarter of 2020.”的一例进行说明。

在视频中的语音和字幕的语言不同的情况下，CPU22在图6所示的步骤S34中将删除区间以及通过与Cm对应的字幕数据提示的字幕的字幕区间的重合部分的英语语音转换为英语文本之后，利用公知的翻译技术将该英语文本转换为日语语音文本。

例如，CPU22在步骤S34中将英语语音转换为英语文本“I'm ABC company CEORed.I will explain the financial results for the fourth quarter of 2020.”之后，将该英语文本转换为日语语音文本“我是ABC公司的CEO雷德，对2020年第4季度的业绩进行说明”。

之后，CPU22通过对上述日语语音文本与在步骤S33中获取到的日语字幕文本进行比较，将“我是ABC公司的CEO雷德”确定为部分字幕。另外，由于确定部分字幕之后的流程与其他实施方式相同，因此省略。

通过以上结构，根据第5实施方式，即使视频中的语音和字幕的语言不同，也能够确定部分字幕。

在第5实施方式中，将视频中的语音设为英语，将字幕设为日语，但是并不限于此，也可以将视频中的语音设为日语，将字幕设为英语，视频中的语音以及字幕的语言的组合并不限于日语以及英语。

在第5实施方式中，预先设定了视频中的语音以及字幕的语言，但是并不限于此，也可以在每次进行视频的编辑处理时，获取视频中的语音以及字幕的语言来设定该语音以及字幕的语言。

另外，可以适当地组合上述各实施方式。

在上述各实施方式中，信息处理装置10所具有的CPU22为处理器的一例。而且，该处理器是指广义上的处理器，包含通用处理器(例如CPU：＝Central Processing Unit等)或专用处理器(例如GPU：＝Graphics Processing Unit、ASIC：＝Application SpecificIntegrated Circuit、FPGA：＝Field Programmable Gate Array、可编程逻辑设备等)。

并且，上述处理器的动作不仅通过1个处理器完成，还可以由存在于物理上分离的位置的多个处理器协同工作来完成。而且，上述处理器的各动作的顺序并不仅限于上述实施方式中记载的顺序，也可以适当地变更。

Claims

1.一种信息处理装置，其具有处理器，

所述处理器获取能够再现使语音、图像以及字幕在时间序列上同步的视频的视频数据，

接收所述视频的再现时间中的进行删除的区间，

将与接收到的所述区间内的所述语音对应并且作为所述字幕的至少一部分的部分字幕从所述区间内的图像中删除。

2.根据权利要求1所述的信息处理装置，其中，

所述处理器在删除所述部分字幕之前，提示删除了所述部分字幕时的字幕。

3.根据权利要求2所述的信息处理装置，其中，

所述处理器与删除了所述部分字幕时的字幕一起揭示不删除所述部分字幕时的字幕。

4.根据权利要求3所述的信息处理装置，其中，

所述处理器以能够相对于其他字幕确定的形态提示所述部分字幕。

5.根据权利要求2所述的信息处理装置，其中，

所述处理器在删除所述部分字幕之前揭示的所述字幕中接收删除范围的调整，

将接收到的删除范围作为新的部分字幕。

6.根据权利要求2至5中任意一项所述的信息处理装置，其中，

所述处理器与删除了所述部分字幕时的字幕一起提示删除了所述部分字幕时的所述区间内的至少一部分图像。

7.根据权利要求1至6中任意一项所述的信息处理装置，其中，

在所述语音和所述字幕的语言不同的情况下，所述处理器将所述语音以及所述字幕中的一方的语言翻译成另一方的语言而确定所述部分字幕。

8.一种计算机可读介质，其存储有使计算机执行处理的程序，

在所述处理中，

获取能够再现使语音、图像以及字幕在时间序列上同步的视频的视频数据，

接收所述视频的再现时间中的进行删除的区间，

9.一种信息处理方法，其中，在该信息处理方法中进行以下处理：

获取能够再现使语音、图像以及字幕在时间序列上同步的视频的视频数据；

接收所述视频的再现时间中的进行删除的区间；以及