JP2022033624A - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JP2022033624A
JP2022033624A JP2020137621A JP2020137621A JP2022033624A JP 2022033624 A JP2022033624 A JP 2022033624A JP 2020137621 A JP2020137621 A JP 2020137621A JP 2020137621 A JP2020137621 A JP 2020137621A JP 2022033624 A JP2022033624 A JP 2022033624A
Authority
JP
Japan
Prior art keywords
subtitle
section
deleted
partial
subtitles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020137621A
Other languages
English (en)
Inventor
正和 小川
Masakazu Ogawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Business Innovation Corp filed Critical Fujifilm Business Innovation Corp
Priority to JP2020137621A priority Critical patent/JP2022033624A/ja
Priority to US17/143,316 priority patent/US11651167B2/en
Priority to CN202110239050.5A priority patent/CN114157823A/zh
Publication of JP2022033624A publication Critical patent/JP2022033624A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/005Reproducing at a different information rate from the information rate of recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4882Data services, e.g. news ticker for displaying messages, e.g. warnings, reminders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof
    • H04N5/9305Regeneration of the television signal or of selected parts thereof involving the mixing of the reproduced video signal with a non-recorded signal, e.g. a text signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Security & Cryptography (AREA)
  • Studio Circuits (AREA)
  • Television Signal Processing For Recording (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】動画に対する字幕の削除作業を、動画中の画像の削除作業と別に行う必要がある構成に比べて、字幕の削除作業に要する、ユーザの作業数を低減する動画編集装置を提供する。【解決手段】情報処理装置10において、プロセッサは、音声、画像、及び字幕を時系列に同期させた動画を再生可能な動画データを取得し、動画の再生時間のうち、削除する区間を受け付け、受け付けた区間中の音声に対応し、かつ、字幕の少なくとも一部である部分字幕を、区間中の画像から削除する。【選択図】図1

Description

本発明は、情報処理装置及び情報処理プログラムに関する。
特許文献1には、改善されたトリックモード再生に関し、特に、映像プレゼンテーションのトリックモード再生の間の字幕情報の表示に関する技術が記載されている。
特許5676087号公報
ここで、動画編集を行う従来装置として、例えば、動画の再生時間のうち削除する区間を指定しても、編集後の動画から当該区間中の画像が削除されるのみで、当該区間中の画像に提示される字幕が削除されない構成があった。そのため、当該従来装置は、動画の再生時間のうち削除する区間中の画像の削除作業とは別に、当該区間中の画像に提示される字幕の削除作業を行う必要があった。
そこで、本発明は、動画編集において、動画に対する字幕の削除作業を、動画中の画像の削除作業と別に行う必要がある構成に比べて、字幕の削除作業に要する、ユーザの作業数を低減することを目的とする。
第1の態様の情報処理装置は、プロセッサを備え、前記プロセッサは、音声、画像、及び字幕を時系列に同期させた動画を再生可能な動画データを取得し、前記動画の再生時間のうち、削除する区間を受け付け、受け付けた前記区間中の前記音声に対応し、かつ前記字幕の少なくとも一部である部分字幕を、前記区間中の画像から削除する。
第2の態様の情報処理装置は、第1の態様の情報処理装置であって、前記プロセッサは、前記部分字幕を削除する前に、前記部分字幕を削除した場合の字幕を提示する。
第3の態様の情報処理装置は、第2の態様の情報処理装置であって、前記プロセッサは、前記部分字幕を削除した場合の字幕とともに前記部分字幕を削除しない場合の字幕を掲示する。
第4の態様の情報処理装置は、第3の態様の情報処理装置であって、前記プロセッサは、前記部分字幕を他の字幕に対して特定可能な態様で提示する。
第5の態様の情報処理装置は、第2の態様の情報処理装置であって、前記プロセッサは、前記部分字幕の削除前に掲示された前記字幕において、削除の範囲の調整を受け付け、受け付けた削除の範囲を、新たな部分字幕とする。
第6の態様の情報処理装置は、第2から第5の何れかの態様の情報処理装置であって、前記プロセッサは、前記部分字幕を削除した場合の字幕と共に、前記部分字幕を削除した場合の前記区間中の少なくとも一部の画像を提示する。
第7の態様の情報処理装置は、第1から第6の何れかの態様の情報処理装置であって、前記プロセッサは、前記音声と前記字幕との言語が異なる場合は、前記音声又は前記字幕の一方の言語を、他方の言語に翻訳して、前記部分字幕を特定する。
第8の態様の情報処理プログラムは、コンピュータに、音声、画像、及び字幕を時系列に同期させた動画を再生可能な動画データを取得し、前記動画の再生時間のうち、削除する区間を受け付け、受け付けた前記区間中の前記音声に対応し、かつ前記字幕の少なくとも一部である部分字幕を、前記区間中の画像から削除する、処理を実行させる。
第1の態様によれば、動画編集において、動画に対する字幕の削除作業を、動画中の画像の削除作業と別に行う必要がある構成に比べて、字幕の削除作業に要する、ユーザの作業数が低減される。
第2の態様によれば、部分字幕を削除する前に、部分字幕を削除した場合の字幕内容の確認を行える。
第3の態様によれば、削除前後の字幕内容の比較が行える。
第4の態様によれば、提示された字幕の全ての文字が同様の態様である構成に比べて、部分字幕の特定が容易となる。
第5の態様によれば、掲示された字幕内容を確認しつつ、字幕から削除する範囲の調整が行える。
第6の態様によれば、部分字幕を削除した場合の字幕内容と共に削除後の動画の画像構成の把握が行える。
第7の態様によれば、音声と字幕との言語が異なっても、部分字幕の特定が行える。
第8の態様によれば、動画編集において、動画に対する字幕の削除作業を、動画中の画像の削除作業と別に行う必要がある構成に比べて、字幕の削除作業に要する、ユーザの作業数が低減される。
情報処理装置のハードウェア構成を示すブロック図である。 字幕処理の流れを示したフローチャートである。 編集前動画が再生される様子の一例である。 編集画面の一例である。 図4に示す編集画面に対して、削除区間を図示した。 部分字幕特定処理の流れを示したフローチャートである。 図5に示す編集画面に対して、音声テキストを図示した。 図7に示す編集画面に対して、特定した部分字幕を図示した。 確認画面生成処理の流れを示したフローチャートである。 図8に示す編集画面に対して、削除後字幕を図示した。 第1の実施形態における確認画面の一例である。 はいボタンの操作後の編集画面の一例である。 編集後動画の構成の一例である。 第2の実施形態における確認画面の一例である。 第3の実施形態における確認画面の一例である。 第3の実施形態における確認画面の一例である。 第4の実施形態における確認画面の一例である。
以下、本実施の形態に係る情報処理装置10について説明する。
(第1の実施形態)
情報処理装置10は、音声、画像、及び字幕を時系列に同期させた動画の編集処理を実行可能なコンピュータである。情報処理装置10には、一例として、サーバコンピュータ、又はパーソナルコンピュータ(=PC:Personal Computer)等の汎用的なコンピュータ装置や、スマートフォン、又はタブレット端末等の携帯可能なコンピュータ装置等が適用される。
なお、以下で記載する音声、画像、又は字幕等の「削除」とは、再生された動画からユーザが削除対象の音声、画像、又は字幕等を認識できなくする処理をいう。そのため、上記の「削除」には、削除対象の音声、画像、又は字幕等のデータを消去する処理や、削除対象の音声、画像、又は字幕等のデータを消去せずに、当該音声の出力や当該画像及び当該字幕等の提示を停止する処理が含まれる。
次に、情報処理装置10のハードウェア構成について説明する。
図1は、情報処理装置10のハードウェア構成を示すブロック図である。
図1に示すように、情報処理装置10は、情報処理装置10の動作を制御する制御部20を備えている。この制御部20は、CPU22(=Central Processing Unit)、ROM24(=Read Only Memory)、RAM26(=Random Access Memory)、及び入出力インターフェース(=I/O)28がバスを介して相互に通信可能に接続されている。
CPU22は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、CPU22は、ROM24からプログラムを読み出し、RAM26を作業領域としてプログラムを実行する。CPU22は、ROM24に記録されているプログラムにしたがって、上記各構成の制御及び各種の演算処理を行う。
ROM24は、各種プログラム及び各種データを格納する。各種プログラムには、情報処理装置10に動画の編集処理を実行させるための情報処理プログラムが含まれている。なお、情報処理プログラムは、情報処理装置10に予めインストールされていてもよいし、不揮発性の記憶媒体に記憶したり、又は、ネットワークを介して配布したりして、情報処理装置10に適宜インストールしてもよい。不揮発性の記憶媒体の例としては、CD-ROM、光磁気ディスク、HDD(=Hard Disk Drive)、DVD-ROM、フラッシュメモリ、メモリカード等が想定される。
RAM26は、作業領域として一時的にプログラム又はデータを記憶する。
I/O28には、記憶部30、表示部32、及び操作部34が接続されている。
記憶部30としては、例えば、HDD、SSD(=Solid State Drive)、フラッシュメモリ等が用いられる。
記憶部30には、音声、画像、及び字幕を時系列に同期させた動画を再生可能な動画データが記憶されている。動画データは、動画形式を有するファイルであり、例えば、ファイル形式としてMP4形式やAVI形式等が用いられる。
そして、動画データには、上記の音声を出力するための音声データ、上記の画像を提示するための画像データ、及び上記の字幕を提示するための字幕データが含まれている。音声データは、音声形式を有するファイルであり、例えば、ファイル形式としてAAC形式やMP3形式等が用いられる。画像データは、画像形式を有するファイルであり、例えば、ファイル形式としてJPEG形式やPNG形式が用いられる。字幕データは、例えば、TTML形式やWebVTT形式等で記述されている。
さらに、動画データには、動画の再生時間を記憶した時間データが含まれている。この時間データは、各動画の音声、画像、及び字幕を時系列に同期させるために、各音声が出力される開始位置及び終了位置、各画像が提示される開始位置及び終了位置、並びに、各字幕が提示される開始位置及び終了位置を含んだデータを有している。
表示部32には、例えば、液晶ディスプレイ(=LCD:Liquid Crystal Display)や、有機EL(=Electro Luminescence)ディスプレイ等が用いられる。この表示部32は、タッチパネルを一体的に有している。
操作部34は、情報処理装置10のユーザから各種の指示を受け付けるものである。そして、表示部32には、ユーザから受け付けた指示に応じて実行された処理の結果や、処理に対する通知等の各種の情報が提示される。
次に、図2から図13までを用いて、情報処理装置10が行う動画の編集処理について説明する。
図2は、字幕データの取得又は字幕の削除が行われる字幕処理の流れを示したフローチャートである。
図2に示すステップS10において、CPU22は、ユーザによる操作部34の操作に基づき編集対象となる動画(以下、「編集前動画」とする)の動画データを記憶部30から取得した後、編集前動画の再生時間のうちの削除する区間を削除区間として決定する。例えば、CPU22は、編集前動画の再生時間を時間データ中から取得し、取得した再生時間内で削除区間の開始位置及び終了位置の入力を受け付ける。そして、ステップS11に進む。なお、開始位置及び終了位置の受け付けは、次のように実現できる。例えば、CPU22は、表示部32に再生時間の最初から終わりまでを線分として表す線図を提示させ、線図の全長の中で、削除区間の開始位置及び終了位置の入力をユーザから受け付ける。
ステップS11において、CPU22は、編集前動画の時間データを参照して、字幕の提示が開始する開始位置と当該字幕の提示が終了する終了位置との間の区間である字幕区間の数を字幕数N(Nは変数)として取得する。また、CPU22は、n番目の字幕であることを示すCn(nは変数)に変数Nの値を格納するとともに、変数Nの値が2以上の場合は字幕区間の開始位置が早い順にCnに対応する字幕データを整列させる。そして、ステップS12に進む。
次に、CPU22は、ステップS12からステップS22までの制御を繰り返し実行するループ処理を開始する。
初回のステップS12において、CPU22は、変数nの初期値、ループ処理の終了条件、及び変数nの増分値を設定する。例えば、CPU22は、変数nの初期値を「1」、ループ処理の終了条件を「n>N」、変数nの増分値を「1」に設定する。
また、CPU22は、2回目以降のステップS12においては、増分値を変数nに加算した後、ループ処理の終了条件の成否を判定する。そして、CPU22がループ処理の終了条件が成立したと判定した場合はループ処理を抜けて当該処理を終了し、CPU22がループ処理の終了条件が成立しないと判定した場合はループ処理を継続してステップS13に進む。
ステップS13において、CPU22は、Cnに対応する字幕データから字幕のテキストである字幕テキストを取得するとともに、時間データから当該字幕データにより提示される字幕の字幕区間を取得する。そして、ステップS14に進む。
ステップS14において、CPU22は、字幕区間の開始位置が削除区間の後であるか否かを判定し、削除区間の後であると判定した場合(ステップS14:YES)はループ処理を抜けて当該処理を終了する。一方、CPU22が削除区間の後でないと判定した場合(ステップS14:NO)はステップS15に進む。
ステップS15において、CPU22は、字幕区間の終了位置が削除区間の前であるか否かを判定し、削除区間の前であると判定した場合(ステップS15:YES)はステップS22に進む。一方、CPU22が削除区間の前でないと判定した場合(ステップS15:NO)はステップS16に進む。
ステップS16において、CPU22は、字幕区間が削除区間内に含まれているか否かを判定し、削除区間内に含まれていると判定した場合(ステップS16:YES)はステップS21に進む。一方、CPU22が削除区間内に含まれていないと判定した場合(ステップS16:NO)はステップS17に進む。
ステップS17において、CPU22は、字幕区間の終了位置が削除区間内に含まれているか否かを判定し、削除区間内に含まれていると判定した場合(ステップS17:YES)はステップS20に進む。一方、CPU22が削除区間内に含まれていないと判定した場合(ステップS17:NO)はステップS18に進む。
ステップS18において、CPU22は、字幕区間の開始位置が削除区間内に含まれているか否かを判定し、削除区間内に含まれていると判定した場合(ステップS18:YES)はステップS20に進む。一方、CPU22が削除区間内に含まれていないと判定した場合(ステップS18:NO)はステップS19に進む。
ステップS19において、CPU22は、削除区間が字幕区間内に含まれているか否かを判定し、字幕区間内に含まれていると判定した場合(ステップS19:YES)はステップS20に進む。一方、CPU22が字幕区間内に含まれていないと判定した場合(ステップS19:NO)はステップS22に進む。
ステップS20において、CPU22は、Cnに対応する字幕データを動画データから取得する。そして、ステップS22に進む。
ステップS21において、CPU22は、Cnに対応する字幕データにより提示される字幕を削除する。そして、ステップS22に進む。
ステップS22において、CPU22は、ループ端処理を実行してループ処理の開始処理であるステップS12に進む。
次に、図3から図5までを用いて、字幕処理の具体例について説明する。
図3は、編集前動画が再生される様子を示している。編集前動画は、再生時間が30秒とされている。また、編集前動画は、図3(A)及び(B)に示す第1画像44及び図3(C)に示す第2画像46を含む各画像と、図3(A)に示す第1字幕48、図3(B)に示す第2字幕50、及び図3(C)に示す第3字幕52を含む各字幕と、各字幕の内容が発話された各音声と、から構成されている。各画像44、46、各字幕48、50、52及び音声が、時系列に同期して順に再生されることにより、動画が形成される。
図4は、表示部32に提示された編集前動画を編集する際の編集画面の一例である。
CPU22は、ユーザによる操作部34の操作に基づき編集前動画の編集処理を受け付けると、図4に示す編集画面を提示する。
図4に示す編集画面には、編集前動画の各画像に関する情報を提示する画像バー80と、編集前動画の各字幕に関する情報を提示する字幕バー82と、が提示されている。
画像バー80内には、編集前動画の再生中に提示される各画像、具体的には、第1画像44及び第2画像46が提示されている。また、画像バー80の上部には、編集前動画の再生時間中における各画像の提示時間が提示されている。例えば、編集前動画の再生時間において、第1画像44の提示時間は「00:00~00:20(秒)」の区間とされ、第2画像46の提示時間は「00:20~00:30(秒)」の区間とされている。
字幕バー82内には、編集前動画の再生中に提示される各字幕、具体的には、第1字幕48、第2字幕50及び第3字幕52が提示されている。また、字幕バー82の下部には、編集前動画の再生時間中における各字幕の字幕区間が提示されている。
第1字幕48は、編集前動画の再生時間における「00:01~00:08(秒)」の区間が字幕区間とされ、当該区間中は「皆さん、こんにちは、ABC社CEOのレッドです」の文字が第1画像44と共に提示される(図3(A)参照)。第2字幕50は、編集前動画の再生時間における「00:11~00:18(秒)」の区間が字幕区間とされ、当該区間中は「2020年度の第4四半期の業績を説明いたします」の文字が第1画像44と共に提示される(図3(B)参照)。第3字幕52は、編集前動画の再生時間における「00:21~00:28(秒)」の区間が字幕区間とされ、当該区間中は「第4四半期の売上は1,140万ドルとなり、大幅な増収となりました」の文字が第2画像46と共に提示される(図3(C)参照)。
図5は、図4に示す編集画面に対して、削除区間を図示したものである。
図5の編集画面において、削除区間が指定されると、図5に示すように、削除区間が破線で示される。図5に示す例では、削除区間は、一例として、再生時間「00:05~00:20(秒)」の間の区間とされている。なお、削除区間の開始位置及び終了位置は、例えば、表示部32に提示される編集画面において、当該動画の再生時間の最初から終わりまでを線分として表す線図の時間バー(不図示)を提示させ、当該時間バー上の任意の時間がユーザに指定されることにより設定される。
なお、編集画面において、画像バー80や字幕バー82を表示する必要はなく、例えば、ユーザが動画の再生区間を直接入力する等、指定することにより、動画の削除区間の入力をユーザから受け付けてもよい。
ここで、第1字幕48は、字幕区間の終了位置が削除区間内に含まれ、第2字幕50は、字幕区間が削除区間内に含まれ、第3字幕52は、字幕区間が削除区間内に含まれず、字幕区間の開始位置が削除区間の後となっている。この場合、CPU22は、第1字幕48に対する処理として、図2に示すステップS20で第1字幕48の字幕データを動画データから取得して、後述する部分字幕特定処理及び確認画面生成処理を行う。また、CPU22は、第2字幕50に対する処理として、図2に示すステップS21で第2字幕50を削除する。さらに、CPU22は、第3字幕52に対する処理として、図2に示すフローチャートで第3字幕52の字幕データの取得又は第3字幕52の削除を行わず、当該処理を終了する。
上記の結果、第2字幕50は削除され、第3字幕52は現在の状態が維持されるため、以下の図6以降では、削除区間中の第1画像44と共に第1字幕48が提示された削除対象画像54(図3(A)参照)から部分字幕が削除される流れについて説明する。
図6は、削除区間中に出力される音声に対応し、かつ削除区間中に提示される字幕の少なくとも一部である部分字幕を特定する部分字幕特定処理の流れを示したフローチャートである。
図6に示すステップS30において、CPU22は、削除区間中に出力される音声の音声データを動画データから取得するとともに、時間データから当該音声の出力が開始する開始位置と当該音声の出力が終了する終了位置との間の区間である音声区間を取得する。そして、ステップS31に進む。
ステップS31において、CPU22は、字幕データの数を格納する字幕数M(Mは変数)に図2に示すステップS20で取得した字幕データの数を格納するとともに、変数Mの値が2以上の場合は字幕区間の開始位置が早い順に、m番目の字幕であることを示すCm(mは変数)に対応する各字幕データを整列させる。そして、ステップS32に進む。
次に、CPU22は、ステップS32からステップS36までの制御を繰り返し実行するループ処理を開始する。
初回のステップS32において、CPU22は、変数mの初期値、ループ処理の終了条件、及び変数mの増分値を設定する。例えば、CPU22は、変数mの初期値を「1」、ループ処理の終了条件を「m>M」、変数mの増分値を「1」に設定する。
また、CPU22は、2回目以降のステップS32においては、増分値を変数mに加算した後、ループ処理の終了条件の成否を判定する。そして、CPU22がループ処理の終了条件が成立したと判定した場合はループ処理を抜けて当該処理を終了し、CPU22がループ処理の終了条件が成立しないと判定した場合はループ処理を継続してステップS33に進む。
ステップS33において、CPU22は、Cmに対応する字幕データから字幕テキストを取得するとともに、時間データから当該字幕データにより提示される字幕の字幕区間を取得する。そして、ステップS34に進む。
ステップS34において、CPU22は、削除区間及び字幕区間の重複部分の音声をテキストに変換した音声テキストを取得する。上記の「字幕区間」は、Cmに対応する字幕データにより提示される字幕の字幕区間である。ここで、CPU22は、公知の音声認識技術を用いて音声認識処理を行い、当該音声の音声データをテキストに変換している。そして、ステップS35に進む。
なお、ステップS34で取得する音声テキストの範囲としては、以下の3通りがある。
(1)削除区間が字幕区間内に含まれている場合は、削除区間の開始位置から終了位置までの範囲
(2)字幕区間の開始位置のみが削除区間内に含まれ、終了位置が削除区間外にある場合は、字幕区間の開始位置から削除区間の終了位置までの範囲
(3)字幕区間の終了位置のみが削除区間内に含まれ、開始位置が削除区間外にある場合は、削除区間の開始位置から字幕区間の終了位置までの範囲
ステップS35において、CPU22は、削除区間中に出力される音声に対応し、かつ削除区間中に提示される字幕の少なくとも一部である部分字幕を特定する。
ここで、「部分字幕が音声に対応する」場合には、音声テキスト及び字幕テキストが一致する場合と、予め定めた類似度に基づいて音声テキスト及び字幕テキストが一致するとみなされた場合との双方を含む。例えば、上記の類似度としては、言葉の類似度が挙げられ、音声及び字幕の双方の言葉を比較した場合に、予め定めた閾値を超えると類似と判定される。例えば、音声及び字幕の双方の言葉から同様の意味が想起される場合には、予め定めた閾値を超えて類似と判定されるよう構成してもよい。そして、CPU22が上記の類似度に基づき類似と判定した場合は、上記の類似度に基づいて音声テキスト及び字幕テキストが一致するとみなされる。
「部分字幕が音声に対応する」例としては、例えば次の場合が考えられる。音声テキスト及び字幕テキストが共に「ABC社CEOのレッドです」である場合、音声テキストが「皆さん、こんにちは」で字幕テキストが「皆様、こんにちは」である場合、音声テキストが「ABC社CEOのレッドです」で字幕テキストが「ABC社最高経営責任者のレッドです」である場合等である。
ステップS35における部分字幕は、ステップS33で取得した字幕テキストと、ステップS34で取得した音声テキストとを比較することにより特定された削除区間中の画像と共に提示された字幕の文字部分である。部分字幕が特定される流れの詳細については後述する。そして、ステップS36に進む。
ステップS36において、CPU22は、ループ端処理を実行してループ処理の開始処理であるステップS32に進む。
次に、図7及び図8を用いて、部分字幕特定処理の具体例について説明する。
図7は、図5に示す編集画面に対して、削除区間及び第1字幕48の字幕区間の重複部分の音声の音声データをテキストに変換した音声テキストを図示したものである。
図7に示す編集画面には、編集前動画の各音声に関する情報を提示する音声バー84が新たに提示されている。
ここで、編集前動画の各音声は、第1字幕48、第2字幕50、及び第3字幕52のそれぞれの内容が発話された音声を含んでいる。そして、図7に示す一例では、削除区間が「00:05~00:20(秒)」であり、第1字幕48の字幕区間が「00:01~00:08(秒)」である。この場合、CPU22は、図6に示すステップS34において、削除区間の開始位置から字幕区間の終了位置までの範囲の音声テキストを取得する。そのため、図7に示す音声バー84内には、削除区間の開始位置から字幕区間の終了位置までの範囲の音声テキストとして「ABC社CEOのレッドです」の文字が提示されている。
図8は、図7に示す編集画面に対して、特定した部分字幕を図示したものである。
図8では、CPU22により第1字幕48の字幕テキストと、削除区間及び第1字幕48の字幕区間の重複部分の音声テキストと、が比較された結果、字幕バー82内の第1字幕48の一部の文字上に下線を付した「ABC社CEOのレッドです」が部分字幕として特定されている。
図9は、字幕を削除することの確認を行う確認画面が生成される確認画面生成処理の流れを示したフローチャートである。
図9に示すステップS40において、CPU22は、削除区間中に出力される音声の音声データを動画データから取得するとともに、時間データから当該音声の音声区間を取得する。そして、ステップS41に進む。
ステップS41において、CPU22は、字幕データの数を格納する字幕数M(Mは変数)に図2に示すステップS20で取得した字幕データの数を格納するとともに、変数Mの値が2以上の場合は字幕区間の開始位置が早い順に、m番目の字幕であることを示すCm(mは変数)に対応する各字幕データを整列させる。そして、ステップS42に進む。
次に、CPU22は、ステップS42からステップS48までの制御を繰り返し実行するループ処理を開始する。
初回のステップS42において、CPU22は、変数mの初期値、ループ処理の終了条件、及び変数mの増分値を設定する。例えば、CPU22は、変数mの初期値を「1」、ループ処理の終了条件を「m>M」、変数mの増分値を「1」に設定する。
また、CPU22は、2回目以降のステップS42においては、増分値を変数mに加算した後、ループ処理の終了条件の成否を判定する。そして、CPU22がループ処理の終了条件が成立したと判定した場合はループ処理を抜けて当該処理を終了し、CPU22がループ処理の終了条件が成立しないと判定した場合はループ処理を継続してステップS43に進む。
ステップS43において、CPU22は、Cmに対応する字幕データから字幕テキストを取得するとともに、時間データから当該字幕データにより提示される字幕の字幕区間を取得する。そして、ステップS44に進む。
ステップS44において、CPU22は、ステップS33で取得した字幕テキストと、ステップS35で特定した部分字幕との間で一致条件が成立するか否かを判定する。CPU22が、一致条件が成立すると判定した場合(ステップS44:YES)はステップS47に進む。一方、CPU22が、一致条件が成立しないと判定した場合(ステップS44:NO)はステップS45に進む。CPU22は、一例として、上記の字幕テキストと部分字幕のテキストデータとが一致する場合に、一致条件が成立すると判定する。例えば、CPU22は、上記の字幕テキスト及び部分字幕が「ABC社CEOのレッドです」である場合は一致条件が成立すると判定するが、上記の字幕テキストが「皆さん、こんにちは、ABC社CEOのレッドです」で部分字幕が「ABC社CEOのレッドです」である場合は一致条件が成立しないと判定する。
ステップS45において、CPU22は、部分字幕を削除した場合の字幕を生成する。例えば、CPU22は、削除区間中の画像と共に提示された字幕が「皆さん、こんにちは、ABC社CEOのレッドです」で部分字幕が「ABC社CEOのレッドです」である場合、部分字幕を削除した場合の字幕として「皆さん、こんにちは」との字幕テキストを生成する。そして、ステップS46に進む。
ステップS46において、CPU22は、削除対象となる字幕の字幕区間の開始位置及び終了位置の少なくとも一方を更新する。そして、ステップS47に進む。
なお、ステップS46における字幕区間の更新パターンとしては、以下の3通りがある。
(1)削除区間が字幕区間内に含まれている場合、当該字幕区間は、開始位置が更新前後で変化せず、更新後の終了位置が、更新前の終了位置から削除区間分の時間が早まった位置となる。
(2)字幕区間の開始位置のみが削除区間内に含まれ、終了位置が削除区間外にある場合、当該字幕区間は、更新後の開始位置が、更新前の開始位置から削除区間と当該字幕区間との重複部分の時間が早まった位置となり、更新後の終了位置が、更新前の終了位置から削除区間分の時間が早まった位置となる。
(3)字幕区間の終了位置のみが削除区間内に含まれ、開始位置が削除区間外にある場合、当該字幕区間は、開始位置が更新前後で変化せず、更新後の終了位置が、更新前の終了位置から削除区間と当該字幕区間との重複部分の時間が早まった位置となる。
ステップS47において、CPU22は、字幕を削除することの確認を行う確認画面を生成する。そして、ステップS48に進む。なお、確認画面の詳細については後述する。
ステップS48において、CPU22は、ループ端処理を実行してループ処理の開始処理であるステップS42に進む。
次に、図10及び図11を用いて、確認画面生成処理の具体例について説明する。
図10は、図8に示す編集画面に対して、削除対象画像54から部分字幕を削除した場合の削除後字幕56を図示したものである。
図10では、図8から字幕バー82内に示す文字が変更されており、削除区間中の第1画像44と共に提示された第1字幕48「皆さん、こんにちは、ABC社CEOのレッドです」の一部である部分字幕「ABC社CEOのレッドです」を削除した「皆さん、こんにちは」が削除後字幕56となっている。
図11は、第1の実施形態における確認画面の一例である。
図11に示すように、表示部32上の確認画面には、編集前情報60と、編集後情報62と、はいボタン64と、いいえボタン66と、キャンセルボタン68と、が提示されている。編集前情報60は、第1字幕48の文字部分及び字幕区間を含み、編集後情報62は、削除後字幕56の文字部分及び字幕区間を含んでいる。
ここで、はいボタン64が操作されると、削除対象画像54から部分字幕が削除されて、第1画像44と共に提示される字幕が削除後字幕56に変更されるとともに、画像及び音声が削除区間の削除後の内容に変更される。上記の例では、CPU22が、はいボタン64が操作されたことに基づき編集前動画の時間データを削除区間の削除後の内容に更新するとともに、削除区間中の画像を削除することで第1画像44及び第2画像46の提示時間が変更され、部分字幕を削除することで第1画像44と共に提示される字幕が削除後字幕56に変更され、削除区間中の音声を削除することで当該音声の出力が停止される。
以上のように、第1の実施形態では、CPU22が、削除対象画像54から部分字幕を削除する前に、確認画面に削除後字幕56を提示する。そのため、第1の実施形態によれば、部分字幕を削除する前に、部分字幕を削除した場合の字幕内容の確認を行える。
また、第1の実施形態では、CPU22が、確認画面に削除後字幕56とともに部分字幕を削除しない場合の字幕(上記の例では第1字幕48)を掲示する。そのため、第1の実施形態によれば、削除前後の字幕内容の比較が行える。
なお、図11の確認画面においては、編集後情報62とともに編集前情報60をともに掲示しているが、編集前情報60に対して、編集履歴を反映して掲示してもよい。例えば、「皆さん、こんにちは、ABC社CEOのレッドです」のうち「ABC社CEOのレッドです」の部分に後述する図15及び図16に示すような二重取り消し線を付すことで編集前情報60に対して、編集履歴を反映して掲示することによって、ユーザは編集前の字幕と編集後の字幕、そして編集箇所を把握することができる。
図12は、はいボタン64の操作後の編集画面の一例である。
図12に示すように、はいボタン64の操作後は、第1画像44の提示時間が「00:00~00:05(秒)」の区間に変更され、第2画像46の提示時間が「00:05~00:15(秒)」の区間に変更される。また、はいボタン64の操作後は、「00:01~00:05(秒)」が削除後字幕56の字幕区間及び削除後字幕56の内容が発話された音声の音声区間となり、「00:06~00:13(秒)」が第3字幕52の字幕区間及び第3字幕52の内容が発話された音声の音声区間となる。
なお、図11に示す確認画面において、いいえボタン66が操作された場合は、削除対象画像54から部分字幕が削除されず、第1画像44と共に提示される字幕が第1字幕48のままで、画像及び音声が削除区間の削除後の内容に変更され、キャンセルボタン68が操作された場合は、一連の動画の編集処理がキャンセルされる。
図13は、編集後の動画(以下、「編集後動画」とする)が再生される様子を示している。編集後動画は、削除区間の削除に伴い、再生時間が15秒に短縮されている。また、編集後動画は、削除区間の削除に伴い、図3(A)に示す削除対象画像54から部分字幕が削除され、図13(A)に示すように、第1画像44と共に提示される字幕が削除後字幕56に変更されている。さらに、編集後動画は、削除区間の削除に伴い、動画の再生時間から図3(B)に示す第2字幕50の字幕区間が削除されるとともに、図13(B)に示すように、第3字幕52の字幕区間が図3(C)に示す編集前動画から変更されている。
ここで、動画編集を行う従来装置として、例えば、動画の再生時間のうち削除する区間を指定しても、編集後の動画から当該区間中の画像が削除されるのみで、当該区間中の画像に提示される字幕が削除されない構成があった。そのため、当該従来装置は、動画の再生時間のうち削除する区間中の画像の削除作業とは別に、当該区間中の画像に提示される字幕の削除作業を行う必要があった。
これに対し、第1の実施形態では、CPU22が、動画データを取得し、取得した動画データに基づく動画の再生時間のうちから削除する削除区間を受け付け、受け付けた削除区間中の部分字幕を削除対象画像54から削除する。前記の各構成により、第1の実施形態では、削除区間を受け付けることで、削除区間中の画像の削除及び字幕の削除が行われる。
以上より、第1の実施形態によれば、動画編集において、動画に対する字幕の削除作業を、動画中の画像の削除作業と別に行う必要がある構成に比べて、字幕の削除作業に要する、ユーザの作業数が低減される。
第1の実施形態では、CPU22が、削除対象画像54から部分字幕を削除する前に、確認画面に削除後字幕56を提示したが、これに限らず、削除区間を受け付けたことに基づいて、削除後字幕56を提示することなく、削除対象画像54から部分字幕を削除してもよい。
第1の実施形態では、CPU22が、確認画面に削除後字幕56とともに部分字幕を削除しない場合の字幕を掲示したが、これに限らず、確認画面に削除後字幕56を提示するが、部分字幕を削除しない場合の字幕を提示しなくてもよい。
第1の実施形態で記載した動画データ、音声データ、画像データ、及び字幕データのファイル形式は一例であり、他のファイル形式を用いてもよい。
第1の実施形態では、図6に示すステップS34において、CPU22が、削除区間及びCmに対応する字幕データにより提示される字幕の字幕区間の重複部分の音声をテキストに変換した音声テキストを取得することとした。しかし、これに限らず、編集前動画の音声をテキストに変換した音声テキストを記憶部30に記憶させておくことで、CPU22が対象となる音声をテキストに変換することなく、記憶部30から当該対象となる音声の音声テキストを取得するよう構成してもよい。この場合、ステップS35において部分字幕となる「削除区間中に出力される音声に対応し、かつ削除区間中に提示される字幕」は、CPU22が対象となる音声をテキストに変換した音声テキスト、又はCPU22が記憶部30から取得した対象となる音声の音声テキストの何れかと、ステップS33で取得した字幕テキストとを比較することにより特定される。
第1の実施形態では、動画中の画像を提示するためのデータ及び動画中の字幕を提示するためのデータがそれぞれ画像データ及び字幕データとして独立のデータとなっていた。しかし、これに限らず、動画中の画像を提示するためのデータ及び動画中の字幕を提示するためのデータを一体のデータとしておき、動画の編集処理を行う際に独立のデータに分離してもよい。
第1の実施形態では、動画中の字幕が文単位で提示されることとしたが、これに限らず、字幕が一文字単位で徐々に提示されることとしてもよい。
第1の実施形態で説明した図2、図6、及び図9に示すフローチャートの処理順序は一例であり、処理結果が変化しなければ、適宜フローチャートの処理順序を変更してもよい。第1の実施形態は、図6に示すフローチャートにおいて、CPU22が、ステップS33でCmに対応する字幕データから字幕テキストを取得した後に、ステップS34で削除区間及びCmに対応する字幕データにより提示される字幕の字幕区間の重複部分の音声の音声テキストを取得していた。例えば、これに代えて、CPU22が、削除区間の音声を特定し、当該音声の音声テキストを取得した後に、当該音声テキストに対応する字幕テキストを取得するよう構成してもよい。
(第2の実施形態)
次に、第2の実施形態について他の実施形態との重複部分を省略又は簡略しつつ説明する。
図14は、第2の実施形態における確認画面の一例である。
図14に示すように、当該確認画面は、CPU22が、編集前情報60として提示されている第1字幕48中において、部分字幕を特定可能な態様で提示している。例えば、図14に示す確認画面では、第1字幕48「皆さん、こんにちは、ABC社CEOのレッドです」のうち、部分字幕「ABC社CEOのレッドです」の周囲を破線で囲んで表現されている。
以上の構成により、第2の実施形態によれば、確認画面で提示された字幕の全ての文字が同様の態様である構成に比べて、部分字幕の特定が容易となる。
第2の実施形態では、CPU22が、編集前情報60として提示されている第1字幕48中の部分字幕を他の字幕に対して特定可能な態様で提示したが、これに限らず、編集後情報62として提示されている削除後字幕56中の部分字幕を他の字幕に対して特定可能な態様で提示してもよい。
(第3の実施形態)
次に、第3の実施形態について他の実施形態との重複部分を省略又は簡略しつつ説明する。
第3の実施形態は、CPU22が、部分字幕の削除前に確認画面で編集後情報62として掲示された削除後字幕56において、削除の範囲の調整を受け付け、受け付けた削除の範囲を、新たな部分字幕とするよう構成されている。
図15は、第3の実施形態における確認画面の一例である。
図15に示す確認画面では、編集後情報62として提示されている削除後字幕56中の「ABC社CEOのレッドです」に二重取り消し線を付して部分字幕が表現されている。また、当該確認画面では、二重取り消し線が付された先頭の文字である「A」の下部に矢印で示す調整マーク70が提示されている。当該確認画面では、調整マーク70を左右に移動させることで、部分字幕として削除する範囲の調整が行える。
図16は、図15に示す確認画面から調整マーク70が移動された後の状態を示している。
図16に示す確認画面では、図15に示す確認画面から調整マーク70が左方に移動されており、二重取り消し線が付された先頭の文字が「こ」となっている。そのため、当該確認画面では、編集後情報62として提示されている削除後字幕56中の「こんにちは、ABC社CEOのレッドです」に二重取り消し線が付されている。この場合、CPU22は、受け付けた削除の範囲である「こんにちは、ABC社CEOのレッドです」を新たな部分字幕として決定する。また、CPU22は、部分字幕の範囲の変更に伴い、編集後情報62として提示されている削除後字幕56の字幕区間を「00:01~00:02(秒)」に変更する。
以上の構成により、第3の実施形態によれば、掲示された字幕内容を確認しつつ、字幕から削除する範囲の調整が行える。
図15及び図16に示すように、第3の実施形態では、削除後字幕56中の一部に二重取り消し線が付されている違いはあるが、確認画面において、第1字幕48及び削除後字幕56で同様の「皆さん、こんにちは、ABC社CEOのレッドです」との文字が提示されている。また、上記の第1の実施形態及び第2の実施形態では、確認画面において、第1字幕48及び削除後字幕56で異なる文字、具体的には、削除後字幕56として第1字幕48から部分字幕を削除した場合の文字が提示されている(図11及び図14参照)。以上のように、確認画面において提示される削除後字幕56は、第1字幕48から部分字幕を削除した場合の文字であってもよいし、部分字幕を他の字幕に対して特定可能な態様で提示したものであってもよい。
第3の実施形態では、CPU22が、部分字幕の削除前に確認画面で編集後情報62として掲示された削除後字幕56において、削除の範囲の調整を受け付けたが、これに限らず、部分字幕の削除前に確認画面で編集前情報60として掲示された第1字幕48において、削除の範囲の調整を受け付けてもよい。
(第4の実施形態)
次に、第4の実施形態について他の実施形態との重複部分を省略又は簡略しつつ説明する。
図17は、第4の実施形態における確認画面の一例である。
図17に示すように、当該確認画面は、CPU22が、編集後情報62として、削除後字幕56の内容及び字幕区間と共に、削除対象画像54から部分字幕を削除した場合の削除後画像72を提示している。例えば、図17に示す確認画面では、削除後画像72として、第1画像44と共に削除後字幕56「皆さん、こんにちは」が提示されている。
以上の構成により、第4の実施形態によれば、部分字幕を削除した場合の字幕内容と共に削除後の動画の画像構成の把握が行える。
第4の実施形態では、CPU22が削除後画像72として1枚の画像を削除後字幕56の内容及び字幕区間と共に提示したが、これに限らず、削除後画像72として複数枚の画像を提示してもよい。
(第5の実施形態)
次に、第5の実施形態について他の実施形態との重複部分を省略又は簡略しつつ説明する。
第5の実施形態は、他の実施形態と異なり、音声と字幕との言語が異なる動画の編集処理を行う情報処理装置10の実施形態である。
第5の実施形態は、CPU22が、動画中の音声又は字幕の一方の言語を、他方の言語に翻訳して、部分字幕を特定するよう構成されている。
以下、動画中の音声を英語、字幕を日本語とし、削除区間中に出力される英語の音声を「I'm ABC company CEO Red. I will explain the financial results for the fourth quarter of 2020.」とした一例について説明する。
CPU22は、動画中の音声と字幕との言語が異なる場合、図6に示すステップS34において、削除区間及びCmに対応する字幕データにより提示される字幕の字幕区間の重複部分の英語の音声を英語のテキストに変換した後、公知の翻訳技術を用いて当該英語のテキストを日本語の音声テキストに変換する。
例えば、CPU22は、ステップS34において、英語の音声を英語のテキスト「I'm ABC company CEO Red. I will explain the financial results for the fourth quarter of 2020.」に変換した後、当該英語のテキストを日本語の音声テキスト「ABC社CEOのレッドです 2020年度の第4四半期の業績を説明いたします」に変換する。
その後、CPU22は、上記の日本語の音声テキストと、ステップS33で取得した日本語の字幕テキストとを比較することで「ABC社CEOのレッドです」を部分字幕として特定する。なお、部分字幕特定後の流れは、他の実施形態と同様のため省略する。
以上の構成により、第5の実施形態によれば、動画中の音声と字幕との言語が異なっても、部分字幕の特定が行える。
第5の実施形態では、動画中の音声を英語、字幕を日本語としたが、これに限らず、動画中の音声を日本語、字幕を英語としてもよいし、動画中の音声及び字幕の言語の組み合わせは、日本語及び英語に限られない。
第5の実施形態では、動画中の音声及び字幕の言語を予め設定していたが、これに限らず、動画の編集処理が行われる都度、動画中の音声及び字幕の言語を取得し、当該音声及び字幕の言語を設定してもよい。
なお、上記の各実施形態を適宜組み合わせてもよい。
上記の各実施形態において、情報処理装置10が備えるCPU22は、プロセッサの一例である。そして、このプロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU:=Central Processing Unit、等)や、専用のプロセッサ(例えばGPU:=Graphics Processing Unit、ASIC:=Application Specific Integrated Circuit、FPGA:=Field Programmable Gate Array、プログラマブル論理デバイス、等)を含むものである。
また、上記のプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。さらに、上記のプロセッサの各動作の順序は上記の実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。
10 情報処理装置
22 CPU(プロセッサの一例)

Claims (8)

  1. プロセッサを備え、
    前記プロセッサは、
    音声、画像、及び字幕を時系列に同期させた動画を再生可能な動画データを取得し、
    前記動画の再生時間のうち、削除する区間を受け付け、
    受け付けた前記区間中の前記音声に対応し、かつ前記字幕の少なくとも一部である部分字幕を、前記区間中の画像から削除する、
    情報処理装置。
  2. 前記プロセッサは、
    前記部分字幕を削除する前に、前記部分字幕を削除した場合の字幕を提示する請求項1に記載の情報処理装置。
  3. 前記プロセッサは、
    前記部分字幕を削除した場合の字幕とともに前記部分字幕を削除しない場合の字幕を掲示する請求項2に記載の情報処理装置。
  4. 前記プロセッサは、
    前記部分字幕を他の字幕に対して特定可能な態様で提示する請求項3に記載の情報処理装置。
  5. 前記プロセッサは、
    前記部分字幕の削除前に掲示された前記字幕において、削除の範囲の調整を受け付け、
    受け付けた削除の範囲を、新たな部分字幕とする請求項2に記載の情報処理装置。
  6. 前記プロセッサは、
    前記部分字幕を削除した場合の字幕と共に、前記部分字幕を削除した場合の前記区間中の少なくとも一部の画像を提示する請求項2から5の何れか1項に記載の情報処理装置。
  7. 前記プロセッサは、
    前記音声と前記字幕との言語が異なる場合は、前記音声又は前記字幕の一方の言語を、他方の言語に翻訳して、前記部分字幕を特定する請求項1から6の何れか1項に記載の情報処理装置。
  8. コンピュータに、
    音声、画像、及び字幕を時系列に同期させた動画を再生可能な動画データを取得し、
    前記動画の再生時間のうち、削除する区間を受け付け、
    受け付けた前記区間中の前記音声に対応し、かつ前記字幕の少なくとも一部である部分字幕を、前記区間中の画像から削除する、
    処理を実行させるための情報処理プログラム。
JP2020137621A 2020-08-17 2020-08-17 情報処理装置及び情報処理プログラム Pending JP2022033624A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020137621A JP2022033624A (ja) 2020-08-17 2020-08-17 情報処理装置及び情報処理プログラム
US17/143,316 US11651167B2 (en) 2020-08-17 2021-01-07 Information processing apparatus and non-transitory computer readable medium
CN202110239050.5A CN114157823A (zh) 2020-08-17 2021-03-04 信息处理装置、信息处理方法以及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020137621A JP2022033624A (ja) 2020-08-17 2020-08-17 情報処理装置及び情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2022033624A true JP2022033624A (ja) 2022-03-02

Family

ID=80224337

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020137621A Pending JP2022033624A (ja) 2020-08-17 2020-08-17 情報処理装置及び情報処理プログラム

Country Status (3)

Country Link
US (1) US11651167B2 (ja)
JP (1) JP2022033624A (ja)
CN (1) CN114157823A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114666637B (zh) * 2022-03-10 2024-02-02 阿里巴巴(中国)有限公司 视频剪辑方法、音频剪辑方法及电子设备
CN116193195A (zh) * 2023-02-23 2023-05-30 北京奇艺世纪科技有限公司 视频的处理方法、装置、处理设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4210723B2 (ja) 1999-03-17 2009-01-21 独立行政法人情報通信研究機構 自動字幕番組制作システム
US7330640B2 (en) 2002-04-15 2008-02-12 Thomson Licensing Display of closed caption and sub-picture information during limited speedup video trick modes
US8265450B2 (en) * 2009-01-16 2012-09-11 Apple Inc. Capturing and inserting closed captioning data in digital video
EP2946279B1 (en) * 2013-01-15 2019-10-16 Viki, Inc. System and method for captioning media
US10529383B2 (en) * 2015-04-09 2020-01-07 Avid Technology, Inc. Methods and systems for processing synchronous data tracks in a media editing system
JP6601944B2 (ja) 2015-06-09 2019-11-06 日本放送協会 コンテンツ生成装置およびプログラム
US11856315B2 (en) * 2017-09-29 2023-12-26 Apple Inc. Media editing application with anchored timeline for captions and subtitles

Also Published As

Publication number Publication date
CN114157823A (zh) 2022-03-08
US11651167B2 (en) 2023-05-16
US20220050974A1 (en) 2022-02-17

Similar Documents

Publication Publication Date Title
US8548618B1 (en) Systems and methods for creating narration audio
US8966360B2 (en) Transcript editor
JP2019198074A (ja) シーンメタ情報生成装置およびシーンメタ情報生成方法
JP2009163643A (ja) 映像検索装置、編集装置、映像検索方法およびプログラム
US20190213246A1 (en) Systems and Methods for Using a Program Schedule to Facilitate Modifying Closed-Captioning Text
JP2022033624A (ja) 情報処理装置及び情報処理プログラム
US20180189249A1 (en) Providing application based subtitle features for presentation
CN111885313A (zh) 一种音视频的修正方法、装置、介质及计算设备
JP2015203835A (ja) テキスト編集装置、テキスト編集方法、及びプログラム
US20140178046A1 (en) Video playback device, video playback method, non-transitory storage medium having stored thereon video playback program, video playback control device, video playback control method and non-transitory storage medium having stored thereon video playback control program
JP6865701B2 (ja) 音声認識誤り修正支援装置およびそのプログラム
JP2010085727A (ja) 辞書機能を備えた電子装置およびプログラム
CN110956020B (zh) 呈现校正候选的方法、存储介质和信息处理设备
JP6949075B2 (ja) 音声認識誤り修正支援装置およびそのプログラム
KR102643902B1 (ko) 회의록 관리 방법 및 장치
JP7176272B2 (ja) 情報処理装置およびプログラム
JP2001014135A (ja) プレゼンテーションシステム、プレゼンテーション方法および情報記憶媒体
JP7119857B2 (ja) 編集プログラム、編集方法および編集装置
US11386684B2 (en) Sound playback interval control method, sound playback interval control program, and information processing apparatus
KR102636708B1 (ko) 프레젠테이션 문서에 대한 수어 발표 영상을 제작할 수 있는 전자 단말 장치 및 그 동작 방법
JP2006065588A (ja) 情報閲覧装置、情報閲覧プログラム及び情報閲覧プログラム記録媒体
KR102503586B1 (ko) 음성을 텍스트로 변환한 음성 기록에서 유사 발음의 단어를 포함하여 검색하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
JP2022100504A (ja) 情報処理装置、制御方法、プログラム
KR20230096164A (ko) 영상 내 정보를 기반으로 영상을 요약하는 영상 요약 장치 및 방법
JP2006047866A (ja) 電子辞書装置およびその制御方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230720