JP2022033624A

JP2022033624A - 情報処理装置及び情報処理プログラム

Info

Publication number: JP2022033624A
Application number: JP2020137621A
Authority: JP
Inventors: 正和小川; Masakazu Ogawa
Original assignee: Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2022-03-02
Also published as: CN114157823A; US11651167B2; US20220050974A1

Abstract

【課題】動画に対する字幕の削除作業を、動画中の画像の削除作業と別に行う必要がある構成に比べて、字幕の削除作業に要する、ユーザの作業数を低減する動画編集装置を提供する。【解決手段】情報処理装置１０において、プロセッサは、音声、画像、及び字幕を時系列に同期させた動画を再生可能な動画データを取得し、動画の再生時間のうち、削除する区間を受け付け、受け付けた区間中の音声に対応し、かつ、字幕の少なくとも一部である部分字幕を、区間中の画像から削除する。【選択図】図１

Description

本発明は、情報処理装置及び情報処理プログラムに関する。

特許文献１には、改善されたトリックモード再生に関し、特に、映像プレゼンテーションのトリックモード再生の間の字幕情報の表示に関する技術が記載されている。

特許５６７６０８７号公報

ここで、動画編集を行う従来装置として、例えば、動画の再生時間のうち削除する区間を指定しても、編集後の動画から当該区間中の画像が削除されるのみで、当該区間中の画像に提示される字幕が削除されない構成があった。そのため、当該従来装置は、動画の再生時間のうち削除する区間中の画像の削除作業とは別に、当該区間中の画像に提示される字幕の削除作業を行う必要があった。

そこで、本発明は、動画編集において、動画に対する字幕の削除作業を、動画中の画像の削除作業と別に行う必要がある構成に比べて、字幕の削除作業に要する、ユーザの作業数を低減することを目的とする。

第１の態様の情報処理装置は、プロセッサを備え、前記プロセッサは、音声、画像、及び字幕を時系列に同期させた動画を再生可能な動画データを取得し、前記動画の再生時間のうち、削除する区間を受け付け、受け付けた前記区間中の前記音声に対応し、かつ前記字幕の少なくとも一部である部分字幕を、前記区間中の画像から削除する。

第２の態様の情報処理装置は、第１の態様の情報処理装置であって、前記プロセッサは、前記部分字幕を削除する前に、前記部分字幕を削除した場合の字幕を提示する。

第３の態様の情報処理装置は、第２の態様の情報処理装置であって、前記プロセッサは、前記部分字幕を削除した場合の字幕とともに前記部分字幕を削除しない場合の字幕を掲示する。

第４の態様の情報処理装置は、第３の態様の情報処理装置であって、前記プロセッサは、前記部分字幕を他の字幕に対して特定可能な態様で提示する。

第５の態様の情報処理装置は、第２の態様の情報処理装置であって、前記プロセッサは、前記部分字幕の削除前に掲示された前記字幕において、削除の範囲の調整を受け付け、受け付けた削除の範囲を、新たな部分字幕とする。

第６の態様の情報処理装置は、第２から第５の何れかの態様の情報処理装置であって、前記プロセッサは、前記部分字幕を削除した場合の字幕と共に、前記部分字幕を削除した場合の前記区間中の少なくとも一部の画像を提示する。

第７の態様の情報処理装置は、第１から第６の何れかの態様の情報処理装置であって、前記プロセッサは、前記音声と前記字幕との言語が異なる場合は、前記音声又は前記字幕の一方の言語を、他方の言語に翻訳して、前記部分字幕を特定する。

第８の態様の情報処理プログラムは、コンピュータに、音声、画像、及び字幕を時系列に同期させた動画を再生可能な動画データを取得し、前記動画の再生時間のうち、削除する区間を受け付け、受け付けた前記区間中の前記音声に対応し、かつ前記字幕の少なくとも一部である部分字幕を、前記区間中の画像から削除する、処理を実行させる。

第１の態様によれば、動画編集において、動画に対する字幕の削除作業を、動画中の画像の削除作業と別に行う必要がある構成に比べて、字幕の削除作業に要する、ユーザの作業数が低減される。

第２の態様によれば、部分字幕を削除する前に、部分字幕を削除した場合の字幕内容の確認を行える。

第３の態様によれば、削除前後の字幕内容の比較が行える。

第４の態様によれば、提示された字幕の全ての文字が同様の態様である構成に比べて、部分字幕の特定が容易となる。

第５の態様によれば、掲示された字幕内容を確認しつつ、字幕から削除する範囲の調整が行える。

第６の態様によれば、部分字幕を削除した場合の字幕内容と共に削除後の動画の画像構成の把握が行える。

第７の態様によれば、音声と字幕との言語が異なっても、部分字幕の特定が行える。

第８の態様によれば、動画編集において、動画に対する字幕の削除作業を、動画中の画像の削除作業と別に行う必要がある構成に比べて、字幕の削除作業に要する、ユーザの作業数が低減される。

情報処理装置のハードウェア構成を示すブロック図である。字幕処理の流れを示したフローチャートである。編集前動画が再生される様子の一例である。編集画面の一例である。図４に示す編集画面に対して、削除区間を図示した。部分字幕特定処理の流れを示したフローチャートである。図５に示す編集画面に対して、音声テキストを図示した。図７に示す編集画面に対して、特定した部分字幕を図示した。確認画面生成処理の流れを示したフローチャートである。図８に示す編集画面に対して、削除後字幕を図示した。第１の実施形態における確認画面の一例である。はいボタンの操作後の編集画面の一例である。編集後動画の構成の一例である。第２の実施形態における確認画面の一例である。第３の実施形態における確認画面の一例である。第３の実施形態における確認画面の一例である。第４の実施形態における確認画面の一例である。

以下、本実施の形態に係る情報処理装置１０について説明する。
（第１の実施形態）

情報処理装置１０は、音声、画像、及び字幕を時系列に同期させた動画の編集処理を実行可能なコンピュータである。情報処理装置１０には、一例として、サーバコンピュータ、又はパーソナルコンピュータ（＝ＰＣ：ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）等の汎用的なコンピュータ装置や、スマートフォン、又はタブレット端末等の携帯可能なコンピュータ装置等が適用される。

なお、以下で記載する音声、画像、又は字幕等の「削除」とは、再生された動画からユーザが削除対象の音声、画像、又は字幕等を認識できなくする処理をいう。そのため、上記の「削除」には、削除対象の音声、画像、又は字幕等のデータを消去する処理や、削除対象の音声、画像、又は字幕等のデータを消去せずに、当該音声の出力や当該画像及び当該字幕等の提示を停止する処理が含まれる。

次に、情報処理装置１０のハードウェア構成について説明する。
図１は、情報処理装置１０のハードウェア構成を示すブロック図である。
図１に示すように、情報処理装置１０は、情報処理装置１０の動作を制御する制御部２０を備えている。この制御部２０は、ＣＰＵ２２（＝ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭ２４（＝ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ２６（＝ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、及び入出力インターフェース（＝Ｉ／Ｏ）２８がバスを介して相互に通信可能に接続されている。

ＣＰＵ２２は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、ＣＰＵ２２は、ＲＯＭ２４からプログラムを読み出し、ＲＡＭ２６を作業領域としてプログラムを実行する。ＣＰＵ２２は、ＲＯＭ２４に記録されているプログラムにしたがって、上記各構成の制御及び各種の演算処理を行う。

ＲＯＭ２４は、各種プログラム及び各種データを格納する。各種プログラムには、情報処理装置１０に動画の編集処理を実行させるための情報処理プログラムが含まれている。なお、情報処理プログラムは、情報処理装置１０に予めインストールされていてもよいし、不揮発性の記憶媒体に記憶したり、又は、ネットワークを介して配布したりして、情報処理装置１０に適宜インストールしてもよい。不揮発性の記憶媒体の例としては、ＣＤ-ＲＯＭ、光磁気ディスク、ＨＤＤ（＝ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＤＶＤ-ＲＯＭ、フラッシュメモリ、メモリカード等が想定される。

ＲＡＭ２６は、作業領域として一時的にプログラム又はデータを記憶する。
Ｉ／Ｏ２８には、記憶部３０、表示部３２、及び操作部３４が接続されている。

記憶部３０としては、例えば、ＨＤＤ、ＳＳＤ（＝ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、フラッシュメモリ等が用いられる。
記憶部３０には、音声、画像、及び字幕を時系列に同期させた動画を再生可能な動画データが記憶されている。動画データは、動画形式を有するファイルであり、例えば、ファイル形式としてＭＰ４形式やＡＶＩ形式等が用いられる。

そして、動画データには、上記の音声を出力するための音声データ、上記の画像を提示するための画像データ、及び上記の字幕を提示するための字幕データが含まれている。音声データは、音声形式を有するファイルであり、例えば、ファイル形式としてＡＡＣ形式やＭＰ３形式等が用いられる。画像データは、画像形式を有するファイルであり、例えば、ファイル形式としてＪＰＥＧ形式やＰＮＧ形式が用いられる。字幕データは、例えば、ＴＴＭＬ形式やＷｅｂＶＴＴ形式等で記述されている。

さらに、動画データには、動画の再生時間を記憶した時間データが含まれている。この時間データは、各動画の音声、画像、及び字幕を時系列に同期させるために、各音声が出力される開始位置及び終了位置、各画像が提示される開始位置及び終了位置、並びに、各字幕が提示される開始位置及び終了位置を含んだデータを有している。

表示部３２には、例えば、液晶ディスプレイ（＝ＬＣＤ:ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）や、有機ＥＬ（＝ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ等が用いられる。この表示部３２は、タッチパネルを一体的に有している。

操作部３４は、情報処理装置１０のユーザから各種の指示を受け付けるものである。そして、表示部３２には、ユーザから受け付けた指示に応じて実行された処理の結果や、処理に対する通知等の各種の情報が提示される。

次に、図２から図１３までを用いて、情報処理装置１０が行う動画の編集処理について説明する。
図２は、字幕データの取得又は字幕の削除が行われる字幕処理の流れを示したフローチャートである。

図２に示すステップＳ１０において、ＣＰＵ２２は、ユーザによる操作部３４の操作に基づき編集対象となる動画（以下、「編集前動画」とする）の動画データを記憶部３０から取得した後、編集前動画の再生時間のうちの削除する区間を削除区間として決定する。例えば、ＣＰＵ２２は、編集前動画の再生時間を時間データ中から取得し、取得した再生時間内で削除区間の開始位置及び終了位置の入力を受け付ける。そして、ステップＳ１１に進む。なお、開始位置及び終了位置の受け付けは、次のように実現できる。例えば、ＣＰＵ２２は、表示部３２に再生時間の最初から終わりまでを線分として表す線図を提示させ、線図の全長の中で、削除区間の開始位置及び終了位置の入力をユーザから受け付ける。

ステップＳ１１において、ＣＰＵ２２は、編集前動画の時間データを参照して、字幕の提示が開始する開始位置と当該字幕の提示が終了する終了位置との間の区間である字幕区間の数を字幕数Ｎ（Ｎは変数）として取得する。また、ＣＰＵ２２は、ｎ番目の字幕であることを示すＣｎ（ｎは変数）に変数Ｎの値を格納するとともに、変数Ｎの値が２以上の場合は字幕区間の開始位置が早い順にＣｎに対応する字幕データを整列させる。そして、ステップＳ１２に進む。

次に、ＣＰＵ２２は、ステップＳ１２からステップＳ２２までの制御を繰り返し実行するループ処理を開始する。
初回のステップＳ１２において、ＣＰＵ２２は、変数ｎの初期値、ループ処理の終了条件、及び変数ｎの増分値を設定する。例えば、ＣＰＵ２２は、変数ｎの初期値を「１」、ループ処理の終了条件を「ｎ＞Ｎ」、変数ｎの増分値を「１」に設定する。

また、ＣＰＵ２２は、２回目以降のステップＳ１２においては、増分値を変数ｎに加算した後、ループ処理の終了条件の成否を判定する。そして、ＣＰＵ２２がループ処理の終了条件が成立したと判定した場合はループ処理を抜けて当該処理を終了し、ＣＰＵ２２がループ処理の終了条件が成立しないと判定した場合はループ処理を継続してステップＳ１３に進む。

ステップＳ１３において、ＣＰＵ２２は、Ｃｎに対応する字幕データから字幕のテキストである字幕テキストを取得するとともに、時間データから当該字幕データにより提示される字幕の字幕区間を取得する。そして、ステップＳ１４に進む。

ステップＳ１４において、ＣＰＵ２２は、字幕区間の開始位置が削除区間の後であるか否かを判定し、削除区間の後であると判定した場合（ステップＳ１４：ＹＥＳ）はループ処理を抜けて当該処理を終了する。一方、ＣＰＵ２２が削除区間の後でないと判定した場合（ステップＳ１４：ＮＯ）はステップＳ１５に進む。

ステップＳ１５において、ＣＰＵ２２は、字幕区間の終了位置が削除区間の前であるか否かを判定し、削除区間の前であると判定した場合（ステップＳ１５：ＹＥＳ）はステップＳ２２に進む。一方、ＣＰＵ２２が削除区間の前でないと判定した場合（ステップＳ１５：ＮＯ）はステップＳ１６に進む。

ステップＳ１６において、ＣＰＵ２２は、字幕区間が削除区間内に含まれているか否かを判定し、削除区間内に含まれていると判定した場合（ステップＳ１６：ＹＥＳ）はステップＳ２１に進む。一方、ＣＰＵ２２が削除区間内に含まれていないと判定した場合（ステップＳ１６：ＮＯ）はステップＳ１７に進む。

ステップＳ１７において、ＣＰＵ２２は、字幕区間の終了位置が削除区間内に含まれているか否かを判定し、削除区間内に含まれていると判定した場合（ステップＳ１７：ＹＥＳ）はステップＳ２０に進む。一方、ＣＰＵ２２が削除区間内に含まれていないと判定した場合（ステップＳ１７：ＮＯ）はステップＳ１８に進む。

ステップＳ１８において、ＣＰＵ２２は、字幕区間の開始位置が削除区間内に含まれているか否かを判定し、削除区間内に含まれていると判定した場合（ステップＳ１８：ＹＥＳ）はステップＳ２０に進む。一方、ＣＰＵ２２が削除区間内に含まれていないと判定した場合（ステップＳ１８：ＮＯ）はステップＳ１９に進む。

ステップＳ１９において、ＣＰＵ２２は、削除区間が字幕区間内に含まれているか否かを判定し、字幕区間内に含まれていると判定した場合（ステップＳ１９：ＹＥＳ）はステップＳ２０に進む。一方、ＣＰＵ２２が字幕区間内に含まれていないと判定した場合（ステップＳ１９：ＮＯ）はステップＳ２２に進む。

ステップＳ２０において、ＣＰＵ２２は、Ｃｎに対応する字幕データを動画データから取得する。そして、ステップＳ２２に進む。

ステップＳ２１において、ＣＰＵ２２は、Ｃｎに対応する字幕データにより提示される字幕を削除する。そして、ステップＳ２２に進む。

ステップＳ２２において、ＣＰＵ２２は、ループ端処理を実行してループ処理の開始処理であるステップＳ１２に進む。

次に、図３から図５までを用いて、字幕処理の具体例について説明する。
図３は、編集前動画が再生される様子を示している。編集前動画は、再生時間が３０秒とされている。また、編集前動画は、図３（Ａ）及び（Ｂ）に示す第１画像４４及び図３（Ｃ）に示す第２画像４６を含む各画像と、図３（Ａ）に示す第１字幕４８、図３（Ｂ）に示す第２字幕５０、及び図３（Ｃ）に示す第３字幕５２を含む各字幕と、各字幕の内容が発話された各音声と、から構成されている。各画像４４、４６、各字幕４８、５０、５２及び音声が、時系列に同期して順に再生されることにより、動画が形成される。

図４は、表示部３２に提示された編集前動画を編集する際の編集画面の一例である。
ＣＰＵ２２は、ユーザによる操作部３４の操作に基づき編集前動画の編集処理を受け付けると、図４に示す編集画面を提示する。
図４に示す編集画面には、編集前動画の各画像に関する情報を提示する画像バー８０と、編集前動画の各字幕に関する情報を提示する字幕バー８２と、が提示されている。

画像バー８０内には、編集前動画の再生中に提示される各画像、具体的には、第１画像４４及び第２画像４６が提示されている。また、画像バー８０の上部には、編集前動画の再生時間中における各画像の提示時間が提示されている。例えば、編集前動画の再生時間において、第１画像４４の提示時間は「００：００～００：２０（秒）」の区間とされ、第２画像４６の提示時間は「００：２０～００：３０（秒）」の区間とされている。

字幕バー８２内には、編集前動画の再生中に提示される各字幕、具体的には、第１字幕４８、第２字幕５０及び第３字幕５２が提示されている。また、字幕バー８２の下部には、編集前動画の再生時間中における各字幕の字幕区間が提示されている。

第１字幕４８は、編集前動画の再生時間における「００：０１～００：０８（秒）」の区間が字幕区間とされ、当該区間中は「皆さん、こんにちは、ＡＢＣ社ＣＥＯのレッドです」の文字が第１画像４４と共に提示される（図３（Ａ）参照）。第２字幕５０は、編集前動画の再生時間における「００：１１～００：１８（秒）」の区間が字幕区間とされ、当該区間中は「２０２０年度の第４四半期の業績を説明いたします」の文字が第１画像４４と共に提示される（図３（Ｂ）参照）。第３字幕５２は、編集前動画の再生時間における「００：２１～００：２８（秒）」の区間が字幕区間とされ、当該区間中は「第４四半期の売上は１，１４０万ドルとなり、大幅な増収となりました」の文字が第２画像４６と共に提示される（図３（Ｃ）参照）。

図５は、図４に示す編集画面に対して、削除区間を図示したものである。
図５の編集画面において、削除区間が指定されると、図５に示すように、削除区間が破線で示される。図５に示す例では、削除区間は、一例として、再生時間「００：０５～００：２０（秒）」の間の区間とされている。なお、削除区間の開始位置及び終了位置は、例えば、表示部３２に提示される編集画面において、当該動画の再生時間の最初から終わりまでを線分として表す線図の時間バー（不図示）を提示させ、当該時間バー上の任意の時間がユーザに指定されることにより設定される。

なお、編集画面において、画像バー８０や字幕バー８２を表示する必要はなく、例えば、ユーザが動画の再生区間を直接入力する等、指定することにより、動画の削除区間の入力をユーザから受け付けてもよい。

ここで、第１字幕４８は、字幕区間の終了位置が削除区間内に含まれ、第２字幕５０は、字幕区間が削除区間内に含まれ、第３字幕５２は、字幕区間が削除区間内に含まれず、字幕区間の開始位置が削除区間の後となっている。この場合、ＣＰＵ２２は、第１字幕４８に対する処理として、図２に示すステップＳ２０で第１字幕４８の字幕データを動画データから取得して、後述する部分字幕特定処理及び確認画面生成処理を行う。また、ＣＰＵ２２は、第２字幕５０に対する処理として、図２に示すステップＳ２１で第２字幕５０を削除する。さらに、ＣＰＵ２２は、第３字幕５２に対する処理として、図２に示すフローチャートで第３字幕５２の字幕データの取得又は第３字幕５２の削除を行わず、当該処理を終了する。

上記の結果、第２字幕５０は削除され、第３字幕５２は現在の状態が維持されるため、以下の図６以降では、削除区間中の第１画像４４と共に第１字幕４８が提示された削除対象画像５４（図３（Ａ）参照）から部分字幕が削除される流れについて説明する。

図６は、削除区間中に出力される音声に対応し、かつ削除区間中に提示される字幕の少なくとも一部である部分字幕を特定する部分字幕特定処理の流れを示したフローチャートである。
図６に示すステップＳ３０において、ＣＰＵ２２は、削除区間中に出力される音声の音声データを動画データから取得するとともに、時間データから当該音声の出力が開始する開始位置と当該音声の出力が終了する終了位置との間の区間である音声区間を取得する。そして、ステップＳ３１に進む。

ステップＳ３１において、ＣＰＵ２２は、字幕データの数を格納する字幕数Ｍ（Ｍは変数）に図２に示すステップＳ２０で取得した字幕データの数を格納するとともに、変数Ｍの値が２以上の場合は字幕区間の開始位置が早い順に、ｍ番目の字幕であることを示すＣｍ（ｍは変数）に対応する各字幕データを整列させる。そして、ステップＳ３２に進む。

次に、ＣＰＵ２２は、ステップＳ３２からステップＳ３６までの制御を繰り返し実行するループ処理を開始する。
初回のステップＳ３２において、ＣＰＵ２２は、変数ｍの初期値、ループ処理の終了条件、及び変数ｍの増分値を設定する。例えば、ＣＰＵ２２は、変数ｍの初期値を「１」、ループ処理の終了条件を「ｍ＞Ｍ」、変数ｍの増分値を「１」に設定する。

また、ＣＰＵ２２は、２回目以降のステップＳ３２においては、増分値を変数ｍに加算した後、ループ処理の終了条件の成否を判定する。そして、ＣＰＵ２２がループ処理の終了条件が成立したと判定した場合はループ処理を抜けて当該処理を終了し、ＣＰＵ２２がループ処理の終了条件が成立しないと判定した場合はループ処理を継続してステップＳ３３に進む。

ステップＳ３３において、ＣＰＵ２２は、Ｃｍに対応する字幕データから字幕テキストを取得するとともに、時間データから当該字幕データにより提示される字幕の字幕区間を取得する。そして、ステップＳ３４に進む。

ステップＳ３４において、ＣＰＵ２２は、削除区間及び字幕区間の重複部分の音声をテキストに変換した音声テキストを取得する。上記の「字幕区間」は、Ｃｍに対応する字幕データにより提示される字幕の字幕区間である。ここで、ＣＰＵ２２は、公知の音声認識技術を用いて音声認識処理を行い、当該音声の音声データをテキストに変換している。そして、ステップＳ３５に進む。

なお、ステップＳ３４で取得する音声テキストの範囲としては、以下の３通りがある。
（１）削除区間が字幕区間内に含まれている場合は、削除区間の開始位置から終了位置までの範囲
（２）字幕区間の開始位置のみが削除区間内に含まれ、終了位置が削除区間外にある場合は、字幕区間の開始位置から削除区間の終了位置までの範囲
（３）字幕区間の終了位置のみが削除区間内に含まれ、開始位置が削除区間外にある場合は、削除区間の開始位置から字幕区間の終了位置までの範囲

ステップＳ３５において、ＣＰＵ２２は、削除区間中に出力される音声に対応し、かつ削除区間中に提示される字幕の少なくとも一部である部分字幕を特定する。

ここで、「部分字幕が音声に対応する」場合には、音声テキスト及び字幕テキストが一致する場合と、予め定めた類似度に基づいて音声テキスト及び字幕テキストが一致するとみなされた場合との双方を含む。例えば、上記の類似度としては、言葉の類似度が挙げられ、音声及び字幕の双方の言葉を比較した場合に、予め定めた閾値を超えると類似と判定される。例えば、音声及び字幕の双方の言葉から同様の意味が想起される場合には、予め定めた閾値を超えて類似と判定されるよう構成してもよい。そして、ＣＰＵ２２が上記の類似度に基づき類似と判定した場合は、上記の類似度に基づいて音声テキスト及び字幕テキストが一致するとみなされる。

「部分字幕が音声に対応する」例としては、例えば次の場合が考えられる。音声テキスト及び字幕テキストが共に「ＡＢＣ社ＣＥＯのレッドです」である場合、音声テキストが「皆さん、こんにちは」で字幕テキストが「皆様、こんにちは」である場合、音声テキストが「ＡＢＣ社ＣＥＯのレッドです」で字幕テキストが「ＡＢＣ社最高経営責任者のレッドです」である場合等である。

ステップＳ３５における部分字幕は、ステップＳ３３で取得した字幕テキストと、ステップＳ３４で取得した音声テキストとを比較することにより特定された削除区間中の画像と共に提示された字幕の文字部分である。部分字幕が特定される流れの詳細については後述する。そして、ステップＳ３６に進む。

ステップＳ３６において、ＣＰＵ２２は、ループ端処理を実行してループ処理の開始処理であるステップＳ３２に進む。

次に、図７及び図８を用いて、部分字幕特定処理の具体例について説明する。
図７は、図５に示す編集画面に対して、削除区間及び第１字幕４８の字幕区間の重複部分の音声の音声データをテキストに変換した音声テキストを図示したものである。
図７に示す編集画面には、編集前動画の各音声に関する情報を提示する音声バー８４が新たに提示されている。
ここで、編集前動画の各音声は、第１字幕４８、第２字幕５０、及び第３字幕５２のそれぞれの内容が発話された音声を含んでいる。そして、図７に示す一例では、削除区間が「００：０５～００：２０（秒）」であり、第１字幕４８の字幕区間が「００：０１～００：０８（秒）」である。この場合、ＣＰＵ２２は、図６に示すステップＳ３４において、削除区間の開始位置から字幕区間の終了位置までの範囲の音声テキストを取得する。そのため、図７に示す音声バー８４内には、削除区間の開始位置から字幕区間の終了位置までの範囲の音声テキストとして「ＡＢＣ社ＣＥＯのレッドです」の文字が提示されている。

図８は、図７に示す編集画面に対して、特定した部分字幕を図示したものである。
図８では、ＣＰＵ２２により第１字幕４８の字幕テキストと、削除区間及び第１字幕４８の字幕区間の重複部分の音声テキストと、が比較された結果、字幕バー８２内の第１字幕４８の一部の文字上に下線を付した「ＡＢＣ社ＣＥＯのレッドです」が部分字幕として特定されている。

図９は、字幕を削除することの確認を行う確認画面が生成される確認画面生成処理の流れを示したフローチャートである。
図９に示すステップＳ４０において、ＣＰＵ２２は、削除区間中に出力される音声の音声データを動画データから取得するとともに、時間データから当該音声の音声区間を取得する。そして、ステップＳ４１に進む。

ステップＳ４１において、ＣＰＵ２２は、字幕データの数を格納する字幕数Ｍ（Ｍは変数）に図２に示すステップＳ２０で取得した字幕データの数を格納するとともに、変数Ｍの値が２以上の場合は字幕区間の開始位置が早い順に、ｍ番目の字幕であることを示すＣｍ（ｍは変数）に対応する各字幕データを整列させる。そして、ステップＳ４２に進む。

次に、ＣＰＵ２２は、ステップＳ４２からステップＳ４８までの制御を繰り返し実行するループ処理を開始する。
初回のステップＳ４２において、ＣＰＵ２２は、変数ｍの初期値、ループ処理の終了条件、及び変数ｍの増分値を設定する。例えば、ＣＰＵ２２は、変数ｍの初期値を「１」、ループ処理の終了条件を「ｍ＞Ｍ」、変数ｍの増分値を「１」に設定する。

また、ＣＰＵ２２は、２回目以降のステップＳ４２においては、増分値を変数ｍに加算した後、ループ処理の終了条件の成否を判定する。そして、ＣＰＵ２２がループ処理の終了条件が成立したと判定した場合はループ処理を抜けて当該処理を終了し、ＣＰＵ２２がループ処理の終了条件が成立しないと判定した場合はループ処理を継続してステップＳ４３に進む。

ステップＳ４３において、ＣＰＵ２２は、Ｃｍに対応する字幕データから字幕テキストを取得するとともに、時間データから当該字幕データにより提示される字幕の字幕区間を取得する。そして、ステップＳ４４に進む。

ステップＳ４４において、ＣＰＵ２２は、ステップＳ３３で取得した字幕テキストと、ステップＳ３５で特定した部分字幕との間で一致条件が成立するか否かを判定する。ＣＰＵ２２が、一致条件が成立すると判定した場合（ステップＳ４４：ＹＥＳ）はステップＳ４７に進む。一方、ＣＰＵ２２が、一致条件が成立しないと判定した場合（ステップＳ４４：ＮＯ）はステップＳ４５に進む。ＣＰＵ２２は、一例として、上記の字幕テキストと部分字幕のテキストデータとが一致する場合に、一致条件が成立すると判定する。例えば、ＣＰＵ２２は、上記の字幕テキスト及び部分字幕が「ＡＢＣ社ＣＥＯのレッドです」である場合は一致条件が成立すると判定するが、上記の字幕テキストが「皆さん、こんにちは、ＡＢＣ社ＣＥＯのレッドです」で部分字幕が「ＡＢＣ社ＣＥＯのレッドです」である場合は一致条件が成立しないと判定する。

ステップＳ４５において、ＣＰＵ２２は、部分字幕を削除した場合の字幕を生成する。例えば、ＣＰＵ２２は、削除区間中の画像と共に提示された字幕が「皆さん、こんにちは、ＡＢＣ社ＣＥＯのレッドです」で部分字幕が「ＡＢＣ社ＣＥＯのレッドです」である場合、部分字幕を削除した場合の字幕として「皆さん、こんにちは」との字幕テキストを生成する。そして、ステップＳ４６に進む。

ステップＳ４６において、ＣＰＵ２２は、削除対象となる字幕の字幕区間の開始位置及び終了位置の少なくとも一方を更新する。そして、ステップＳ４７に進む。

なお、ステップＳ４６における字幕区間の更新パターンとしては、以下の３通りがある。
（１）削除区間が字幕区間内に含まれている場合、当該字幕区間は、開始位置が更新前後で変化せず、更新後の終了位置が、更新前の終了位置から削除区間分の時間が早まった位置となる。
（２）字幕区間の開始位置のみが削除区間内に含まれ、終了位置が削除区間外にある場合、当該字幕区間は、更新後の開始位置が、更新前の開始位置から削除区間と当該字幕区間との重複部分の時間が早まった位置となり、更新後の終了位置が、更新前の終了位置から削除区間分の時間が早まった位置となる。
（３）字幕区間の終了位置のみが削除区間内に含まれ、開始位置が削除区間外にある場合、当該字幕区間は、開始位置が更新前後で変化せず、更新後の終了位置が、更新前の終了位置から削除区間と当該字幕区間との重複部分の時間が早まった位置となる。

ステップＳ４７において、ＣＰＵ２２は、字幕を削除することの確認を行う確認画面を生成する。そして、ステップＳ４８に進む。なお、確認画面の詳細については後述する。

ステップＳ４８において、ＣＰＵ２２は、ループ端処理を実行してループ処理の開始処理であるステップＳ４２に進む。

次に、図１０及び図１１を用いて、確認画面生成処理の具体例について説明する。

図１０は、図８に示す編集画面に対して、削除対象画像５４から部分字幕を削除した場合の削除後字幕５６を図示したものである。
図１０では、図８から字幕バー８２内に示す文字が変更されており、削除区間中の第１画像４４と共に提示された第１字幕４８「皆さん、こんにちは、ＡＢＣ社ＣＥＯのレッドです」の一部である部分字幕「ＡＢＣ社ＣＥＯのレッドです」を削除した「皆さん、こんにちは」が削除後字幕５６となっている。

図１１は、第１の実施形態における確認画面の一例である。
図１１に示すように、表示部３２上の確認画面には、編集前情報６０と、編集後情報６２と、はいボタン６４と、いいえボタン６６と、キャンセルボタン６８と、が提示されている。編集前情報６０は、第１字幕４８の文字部分及び字幕区間を含み、編集後情報６２は、削除後字幕５６の文字部分及び字幕区間を含んでいる。

ここで、はいボタン６４が操作されると、削除対象画像５４から部分字幕が削除されて、第１画像４４と共に提示される字幕が削除後字幕５６に変更されるとともに、画像及び音声が削除区間の削除後の内容に変更される。上記の例では、ＣＰＵ２２が、はいボタン６４が操作されたことに基づき編集前動画の時間データを削除区間の削除後の内容に更新するとともに、削除区間中の画像を削除することで第１画像４４及び第２画像４６の提示時間が変更され、部分字幕を削除することで第１画像４４と共に提示される字幕が削除後字幕５６に変更され、削除区間中の音声を削除することで当該音声の出力が停止される。

以上のように、第１の実施形態では、ＣＰＵ２２が、削除対象画像５４から部分字幕を削除する前に、確認画面に削除後字幕５６を提示する。そのため、第１の実施形態によれば、部分字幕を削除する前に、部分字幕を削除した場合の字幕内容の確認を行える。

また、第１の実施形態では、ＣＰＵ２２が、確認画面に削除後字幕５６とともに部分字幕を削除しない場合の字幕（上記の例では第１字幕４８）を掲示する。そのため、第１の実施形態によれば、削除前後の字幕内容の比較が行える。

なお、図１１の確認画面においては、編集後情報６２とともに編集前情報６０をともに掲示しているが、編集前情報６０に対して、編集履歴を反映して掲示してもよい。例えば、「皆さん、こんにちは、ＡＢＣ社ＣＥＯのレッドです」のうち「ＡＢＣ社ＣＥＯのレッドです」の部分に後述する図１５及び図１６に示すような二重取り消し線を付すことで編集前情報６０に対して、編集履歴を反映して掲示することによって、ユーザは編集前の字幕と編集後の字幕、そして編集箇所を把握することができる。

図１２は、はいボタン６４の操作後の編集画面の一例である。
図１２に示すように、はいボタン６４の操作後は、第１画像４４の提示時間が「００：００～００：０５（秒）」の区間に変更され、第２画像４６の提示時間が「００：０５～００：１５（秒）」の区間に変更される。また、はいボタン６４の操作後は、「００：０１～００：０５（秒）」が削除後字幕５６の字幕区間及び削除後字幕５６の内容が発話された音声の音声区間となり、「００：０６～００：１３（秒）」が第３字幕５２の字幕区間及び第３字幕５２の内容が発話された音声の音声区間となる。

なお、図１１に示す確認画面において、いいえボタン６６が操作された場合は、削除対象画像５４から部分字幕が削除されず、第１画像４４と共に提示される字幕が第１字幕４８のままで、画像及び音声が削除区間の削除後の内容に変更され、キャンセルボタン６８が操作された場合は、一連の動画の編集処理がキャンセルされる。

図１３は、編集後の動画（以下、「編集後動画」とする）が再生される様子を示している。編集後動画は、削除区間の削除に伴い、再生時間が１５秒に短縮されている。また、編集後動画は、削除区間の削除に伴い、図３（Ａ）に示す削除対象画像５４から部分字幕が削除され、図１３（Ａ）に示すように、第１画像４４と共に提示される字幕が削除後字幕５６に変更されている。さらに、編集後動画は、削除区間の削除に伴い、動画の再生時間から図３（Ｂ）に示す第２字幕５０の字幕区間が削除されるとともに、図１３（Ｂ）に示すように、第３字幕５２の字幕区間が図３（Ｃ）に示す編集前動画から変更されている。

これに対し、第１の実施形態では、ＣＰＵ２２が、動画データを取得し、取得した動画データに基づく動画の再生時間のうちから削除する削除区間を受け付け、受け付けた削除区間中の部分字幕を削除対象画像５４から削除する。前記の各構成により、第１の実施形態では、削除区間を受け付けることで、削除区間中の画像の削除及び字幕の削除が行われる。

以上より、第１の実施形態によれば、動画編集において、動画に対する字幕の削除作業を、動画中の画像の削除作業と別に行う必要がある構成に比べて、字幕の削除作業に要する、ユーザの作業数が低減される。

第１の実施形態では、ＣＰＵ２２が、削除対象画像５４から部分字幕を削除する前に、確認画面に削除後字幕５６を提示したが、これに限らず、削除区間を受け付けたことに基づいて、削除後字幕５６を提示することなく、削除対象画像５４から部分字幕を削除してもよい。

第１の実施形態では、ＣＰＵ２２が、確認画面に削除後字幕５６とともに部分字幕を削除しない場合の字幕を掲示したが、これに限らず、確認画面に削除後字幕５６を提示するが、部分字幕を削除しない場合の字幕を提示しなくてもよい。

第１の実施形態で記載した動画データ、音声データ、画像データ、及び字幕データのファイル形式は一例であり、他のファイル形式を用いてもよい。

第１の実施形態では、図６に示すステップＳ３４において、ＣＰＵ２２が、削除区間及びＣｍに対応する字幕データにより提示される字幕の字幕区間の重複部分の音声をテキストに変換した音声テキストを取得することとした。しかし、これに限らず、編集前動画の音声をテキストに変換した音声テキストを記憶部３０に記憶させておくことで、ＣＰＵ２２が対象となる音声をテキストに変換することなく、記憶部３０から当該対象となる音声の音声テキストを取得するよう構成してもよい。この場合、ステップＳ３５において部分字幕となる「削除区間中に出力される音声に対応し、かつ削除区間中に提示される字幕」は、ＣＰＵ２２が対象となる音声をテキストに変換した音声テキスト、又はＣＰＵ２２が記憶部３０から取得した対象となる音声の音声テキストの何れかと、ステップＳ３３で取得した字幕テキストとを比較することにより特定される。

第１の実施形態では、動画中の画像を提示するためのデータ及び動画中の字幕を提示するためのデータがそれぞれ画像データ及び字幕データとして独立のデータとなっていた。しかし、これに限らず、動画中の画像を提示するためのデータ及び動画中の字幕を提示するためのデータを一体のデータとしておき、動画の編集処理を行う際に独立のデータに分離してもよい。

第１の実施形態では、動画中の字幕が文単位で提示されることとしたが、これに限らず、字幕が一文字単位で徐々に提示されることとしてもよい。

第１の実施形態で説明した図２、図６、及び図９に示すフローチャートの処理順序は一例であり、処理結果が変化しなければ、適宜フローチャートの処理順序を変更してもよい。第１の実施形態は、図６に示すフローチャートにおいて、ＣＰＵ２２が、ステップＳ３３でＣｍに対応する字幕データから字幕テキストを取得した後に、ステップＳ３４で削除区間及びＣｍに対応する字幕データにより提示される字幕の字幕区間の重複部分の音声の音声テキストを取得していた。例えば、これに代えて、ＣＰＵ２２が、削除区間の音声を特定し、当該音声の音声テキストを取得した後に、当該音声テキストに対応する字幕テキストを取得するよう構成してもよい。

（第２の実施形態）
次に、第２の実施形態について他の実施形態との重複部分を省略又は簡略しつつ説明する。
図１４は、第２の実施形態における確認画面の一例である。

図１４に示すように、当該確認画面は、ＣＰＵ２２が、編集前情報６０として提示されている第１字幕４８中において、部分字幕を特定可能な態様で提示している。例えば、図１４に示す確認画面では、第１字幕４８「皆さん、こんにちは、ＡＢＣ社ＣＥＯのレッドです」のうち、部分字幕「ＡＢＣ社ＣＥＯのレッドです」の周囲を破線で囲んで表現されている。

以上の構成により、第２の実施形態によれば、確認画面で提示された字幕の全ての文字が同様の態様である構成に比べて、部分字幕の特定が容易となる。

第２の実施形態では、ＣＰＵ２２が、編集前情報６０として提示されている第１字幕４８中の部分字幕を他の字幕に対して特定可能な態様で提示したが、これに限らず、編集後情報６２として提示されている削除後字幕５６中の部分字幕を他の字幕に対して特定可能な態様で提示してもよい。

（第３の実施形態）
次に、第３の実施形態について他の実施形態との重複部分を省略又は簡略しつつ説明する。

第３の実施形態は、ＣＰＵ２２が、部分字幕の削除前に確認画面で編集後情報６２として掲示された削除後字幕５６において、削除の範囲の調整を受け付け、受け付けた削除の範囲を、新たな部分字幕とするよう構成されている。

図１５は、第３の実施形態における確認画面の一例である。
図１５に示す確認画面では、編集後情報６２として提示されている削除後字幕５６中の「ＡＢＣ社ＣＥＯのレッドです」に二重取り消し線を付して部分字幕が表現されている。また、当該確認画面では、二重取り消し線が付された先頭の文字である「Ａ」の下部に矢印で示す調整マーク７０が提示されている。当該確認画面では、調整マーク７０を左右に移動させることで、部分字幕として削除する範囲の調整が行える。

図１６は、図１５に示す確認画面から調整マーク７０が移動された後の状態を示している。
図１６に示す確認画面では、図１５に示す確認画面から調整マーク７０が左方に移動されており、二重取り消し線が付された先頭の文字が「こ」となっている。そのため、当該確認画面では、編集後情報６２として提示されている削除後字幕５６中の「こんにちは、ＡＢＣ社ＣＥＯのレッドです」に二重取り消し線が付されている。この場合、ＣＰＵ２２は、受け付けた削除の範囲である「こんにちは、ＡＢＣ社ＣＥＯのレッドです」を新たな部分字幕として決定する。また、ＣＰＵ２２は、部分字幕の範囲の変更に伴い、編集後情報６２として提示されている削除後字幕５６の字幕区間を「００：０１～００：０２（秒）」に変更する。

以上の構成により、第３の実施形態によれば、掲示された字幕内容を確認しつつ、字幕から削除する範囲の調整が行える。

図１５及び図１６に示すように、第３の実施形態では、削除後字幕５６中の一部に二重取り消し線が付されている違いはあるが、確認画面において、第１字幕４８及び削除後字幕５６で同様の「皆さん、こんにちは、ＡＢＣ社ＣＥＯのレッドです」との文字が提示されている。また、上記の第１の実施形態及び第２の実施形態では、確認画面において、第１字幕４８及び削除後字幕５６で異なる文字、具体的には、削除後字幕５６として第１字幕４８から部分字幕を削除した場合の文字が提示されている（図１１及び図１４参照）。以上のように、確認画面において提示される削除後字幕５６は、第１字幕４８から部分字幕を削除した場合の文字であってもよいし、部分字幕を他の字幕に対して特定可能な態様で提示したものであってもよい。

第３の実施形態では、ＣＰＵ２２が、部分字幕の削除前に確認画面で編集後情報６２として掲示された削除後字幕５６において、削除の範囲の調整を受け付けたが、これに限らず、部分字幕の削除前に確認画面で編集前情報６０として掲示された第１字幕４８において、削除の範囲の調整を受け付けてもよい。

（第４の実施形態）
次に、第４の実施形態について他の実施形態との重複部分を省略又は簡略しつつ説明する。

図１７は、第４の実施形態における確認画面の一例である。
図１７に示すように、当該確認画面は、ＣＰＵ２２が、編集後情報６２として、削除後字幕５６の内容及び字幕区間と共に、削除対象画像５４から部分字幕を削除した場合の削除後画像７２を提示している。例えば、図１７に示す確認画面では、削除後画像７２として、第１画像４４と共に削除後字幕５６「皆さん、こんにちは」が提示されている。

以上の構成により、第４の実施形態によれば、部分字幕を削除した場合の字幕内容と共に削除後の動画の画像構成の把握が行える。

第４の実施形態では、ＣＰＵ２２が削除後画像７２として１枚の画像を削除後字幕５６の内容及び字幕区間と共に提示したが、これに限らず、削除後画像７２として複数枚の画像を提示してもよい。

（第５の実施形態）
次に、第５の実施形態について他の実施形態との重複部分を省略又は簡略しつつ説明する。

第５の実施形態は、他の実施形態と異なり、音声と字幕との言語が異なる動画の編集処理を行う情報処理装置１０の実施形態である。
第５の実施形態は、ＣＰＵ２２が、動画中の音声又は字幕の一方の言語を、他方の言語に翻訳して、部分字幕を特定するよう構成されている。

以下、動画中の音声を英語、字幕を日本語とし、削除区間中に出力される英語の音声を「I'm ABC company CEO Red. I will explain the financial results for the fourth quarter of 2020.」とした一例について説明する。

ＣＰＵ２２は、動画中の音声と字幕との言語が異なる場合、図６に示すステップＳ３４において、削除区間及びＣｍに対応する字幕データにより提示される字幕の字幕区間の重複部分の英語の音声を英語のテキストに変換した後、公知の翻訳技術を用いて当該英語のテキストを日本語の音声テキストに変換する。

例えば、ＣＰＵ２２は、ステップＳ３４において、英語の音声を英語のテキスト「I'm ABC company CEO Red. I will explain the financial results for the fourth quarter of 2020.」に変換した後、当該英語のテキストを日本語の音声テキスト「ＡＢＣ社ＣＥＯのレッドです２０２０年度の第４四半期の業績を説明いたします」に変換する。

その後、ＣＰＵ２２は、上記の日本語の音声テキストと、ステップＳ３３で取得した日本語の字幕テキストとを比較することで「ＡＢＣ社ＣＥＯのレッドです」を部分字幕として特定する。なお、部分字幕特定後の流れは、他の実施形態と同様のため省略する。

以上の構成により、第５の実施形態によれば、動画中の音声と字幕との言語が異なっても、部分字幕の特定が行える。

第５の実施形態では、動画中の音声を英語、字幕を日本語としたが、これに限らず、動画中の音声を日本語、字幕を英語としてもよいし、動画中の音声及び字幕の言語の組み合わせは、日本語及び英語に限られない。

第５の実施形態では、動画中の音声及び字幕の言語を予め設定していたが、これに限らず、動画の編集処理が行われる都度、動画中の音声及び字幕の言語を取得し、当該音声及び字幕の言語を設定してもよい。

なお、上記の各実施形態を適宜組み合わせてもよい。

上記の各実施形態において、情報処理装置１０が備えるＣＰＵ２２は、プロセッサの一例である。そして、このプロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ（例えばＣＰＵ：＝ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、等）や、専用のプロセッサ（例えばＧＰＵ：＝ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＡＳＩＣ：＝ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＦＰＧＡ：＝ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、プログラマブル論理デバイス、等）を含むものである。

また、上記のプロセッサの動作は、１つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。さらに、上記のプロセッサの各動作の順序は上記の実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。

１０情報処理装置
２２ＣＰＵ（プロセッサの一例）

Claims

プロセッサを備え、
前記プロセッサは、
音声、画像、及び字幕を時系列に同期させた動画を再生可能な動画データを取得し、
前記動画の再生時間のうち、削除する区間を受け付け、
受け付けた前記区間中の前記音声に対応し、かつ前記字幕の少なくとも一部である部分字幕を、前記区間中の画像から削除する、
情報処理装置。
前記プロセッサは、
前記部分字幕を削除する前に、前記部分字幕を削除した場合の字幕を提示する請求項１に記載の情報処理装置。
前記プロセッサは、
前記部分字幕を削除した場合の字幕とともに前記部分字幕を削除しない場合の字幕を掲示する請求項２に記載の情報処理装置。
前記プロセッサは、
前記部分字幕を他の字幕に対して特定可能な態様で提示する請求項３に記載の情報処理装置。
前記プロセッサは、
前記部分字幕の削除前に掲示された前記字幕において、削除の範囲の調整を受け付け、
受け付けた削除の範囲を、新たな部分字幕とする請求項２に記載の情報処理装置。
前記プロセッサは、
前記部分字幕を削除した場合の字幕と共に、前記部分字幕を削除した場合の前記区間中の少なくとも一部の画像を提示する請求項２から５の何れか１項に記載の情報処理装置。
前記プロセッサは、
前記音声と前記字幕との言語が異なる場合は、前記音声又は前記字幕の一方の言語を、他方の言語に翻訳して、前記部分字幕を特定する請求項１から６の何れか１項に記載の情報処理装置。
コンピュータに、
音声、画像、及び字幕を時系列に同期させた動画を再生可能な動画データを取得し、
前記動画の再生時間のうち、削除する区間を受け付け、
受け付けた前記区間中の前記音声に対応し、かつ前記字幕の少なくとも一部である部分字幕を、前記区間中の画像から削除する、
処理を実行させるための情報処理プログラム。