JP2020027984A

JP2020027984A - コンテンツ配信装置及びプログラム

Info

Publication number: JP2020027984A
Application number: JP2018150817A
Authority: JP
Inventors: 壮田中; So Tanaka; 伊藤　均; Hitoshi Ito; 均伊藤; 克幸杉森; Katsuyuki Sugimori
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2018-08-09
Filing date: 2018-08-09
Publication date: 2020-02-20
Anticipated expiration: 2038-08-09
Also published as: JP7096732B2

Abstract

【課題】インターネット配信によるライブストリーミングにおいて、エンコード処理時間を超える遅延を発生させずにリアルタイム性を確保しつつ、番組内容に対する生字幕の遅延を抑制する。【解決手段】コンテンツ配信装置１の字幕補正部２３は、字幕遅延経過時刻ｔ≦エンコード処理完了時刻Ｅｔ、かつ、字幕遅延確定時刻Ｊｔ＋マッチング補正処理時間Ｒ≦Ｅｔの場合、補正タイプＡを判断し、Ｅｔ以前のタイミングで、生字幕データａの時刻ｔaを音声認識データｂの時刻ｔbに補正する。また、字幕補正部２３は、ｔ≦ＥｔかつＪｔ＋Ｒ＞Ｅｔの場合、補正タイプＢを判断し、Ｅｔ以前のタイミングで、字幕データａの時刻ｔaから所定の固定値Ｐを減算する。さらに、字幕補正部２３は、ｔ＞Ｅｔである場合、補正タイプＣを判断し、Ｅｔのタイミングで、音声認識データｂの一部または全部を適用して生字幕データａ’を生成するか、または補正処理を行わない。【選択図】図３

Description

本発明は、インターネットを介して、字幕データを含む映像のライブストリーミングを行うコンテンツ配信装置及びプログラムに関する。

従来、テレビ放送では、聴覚障碍者向け放送サービスとして、放送番組の音声を文字で画面上に表示する字幕放送を提供している。生放送番組において送出される字幕（以下、「生字幕」という。）は、生放送番組の音声から、人手による書き起こしにて制作される。このため、生字幕は、書き起こしの時間だけ遅延することとなり、生放送番組の音声に対して遅れて画面表示される。

この生字幕の遅延を抑制するために、人手による書き起こしにて生字幕を制作する際には、音声認識技術または高速入力用キーボードの活用等の取り組みが行われている。一般に、字幕を制作する方式には、放送番組の音声から直接制作する方式、音声認識の精度を高めるために放送番組の音声を改めて雑音の少ない部屋で話し直す方式等がある。これらの方式の違いによって、字幕制作の遅延、放送番組の音声に対する字幕の再現性等が異なるのが現状である。

一方、近年のスマートフォン及び動画配信技術の普及により、放送番組を放送だけでなくインターネットでも同時に提供する需要が高まっている。

国外のいくつかの放送局においては、既に、番組を放送しながら同時に同じ番組をインターネットでも提供しており、このようなサービスは今後、日本国内でも展開されることが想定される。日本国内で同じサービスを提供するためには、放送と同等のサービスレベルをインターネットにおいても実現することが必要とされ、字幕サービスについても放送と同等のサービスレベルを実現することが必要とされる。

また、近年の動画配信において広く使われている技術として、アダプティブストリーミングがある。アダプティブストリーミングは、マルチビットレートのコンテンツを、端末の通信速度に応じて配信する動画品質を変化させることによって、途切れ難い動画配信を実現する技術である。

具体的には、配信側は、コンテンツを複数のビットレートでエンコードし、数秒単位に分割したファイルを生成する。ストリーミングを受信する端末側は、端末自体の通信速度に合わせたビットレートのファイルを配信側から順次取得し、ファイルを繋ぎ合わせて再生を行う。これにより、通信速度が変動する端末においても、コンテンツの再生を継続することができ、中断し難い動画配信を実現することができる（例えば、非特許文献１を参照）。

しかしながら、アダプティブストリーミングにおいては、配信側は、数秒毎にファイル化するため、入力した映像音声データのコンテンツを一旦バッファに格納し、ファイルを生成することから、少なくとも数秒の遅延が発生する。

生放送番組の映像コンテンツを、インターネットを介してライブストリーミングする場合、配信側は、生放送番組と同じ信号を使用して、アダプティブストリーミング用のファイル生成処理であるエンコードを行う。

この場合も、生字幕は、生放送番組の音声から人手による書き起こしにて制作されることから、放送の場合と同様に、音声に対して遅れて画面表示される。

このように、映像音声に対応する生字幕は遅れて画面表示されるが、この生字幕の表示遅延が小さいほど、番組内容への理解が容易になる。特に聴覚障碍者にとっては、生字幕が番組内容への理解の材料として大きな役割を果たすため、その効果が大きい。

ここで、番組内容と生字幕とを同期させる技術が提案されている（例えば、特許文献１を参照）。このコンテンツ配信装置は、入力した映像音声の音声に対し、音声認識処理によりテキストデータを生成すると共に、映像音声に対応した字幕データのテキストデータを入力する。そして、コンテンツ配信装置は、これらのテキストデータを比較し、両者が同じであると判定した場合、当該部分の生字幕の時刻を、音声認識処理により得た時刻に修正する。

これにより、映像音声の番組内容に生字幕の時刻を合わせることができ、番組内容と生字幕とを同期させることができる。

特開２０１７−５４４２号公報

A.Zambelli，"IIS Smooth Streaming Technical Overview"，Mar.2009

前述の特許文献１の技術は、番組内容と生字幕とを同期させるものであるが、主にオフラインでの処理を想定しており、必ずしもオンラインでのライブストリーミングの処理に適用できるとは限らない。

なぜならば、ライブストリーミングでは、エンコードを行いながらストリーミングを行うことが必要となるが、前述の特許文献１には、ライブストリーミングにおいて重要な要素である処理遅延について記載されていないからである。

また、前述の特許文献１の技術では、生字幕に対応する映像音声の時点から生字幕の遅延の補正が完了する時点までの生字幕補正処理時間が長くなり、リアルタイム性が低下してしまう。

このように、前述の特許文献１の技術は、リアルタイム処理を想定したものではないため、リアルタイム性が必要となるライブストリーミングに適用することができない。

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、インターネット配信によるライブストリーミングにおいて、エンコード処理が完了する時刻（エンコード処理完了時刻）を超える遅延を発生させずにリアルタイム性を確保しつつ、番組内容に対する生字幕の遅延を抑制するコンテンツ配信装置及びプログラムを提供することにある。

前記課題を解決するために、請求項１のコンテンツ配信装置は、放送用送出信号を入力し、放送番組のコンテンツをライブストリーミングにてインターネット配信するための配信データを生成すると共に、前記放送用送出信号に含まれる生字幕データを補正するコンテンツ配信装置において、前記放送用送出信号をエンコードし、所定時間単位の前記配信データを生成するエンコーダと、前記放送用送出信号に含まれる音声に対して音声認識処理を施し、前記音声が出力される時刻に関する音声時刻情報を含む音声認識データを生成し、当該音声認識データに対応する前記生字幕データの遅延時間をカウントして字幕遅延経過時刻を求め、前記放送用送出信号に含まれる前記生字幕データを抽出し、前記音声認識データと前記生字幕データとの間のマッチングを行い、前記字幕遅延経過時刻と、前記エンコーダにより前記音声認識データの前記音声及び映像を含む前記放送用送出信号のエンコードが完了するエンコード処理完了時刻とを比較し、前記字幕遅延経過時刻が前記エンコード処理完了時刻以前であり、かつ、前記音声認識データに対応する前記生字幕データのマッチングが完了した場合、当該マッチングが完了したタイミングで、前記生字幕データに含まれる、当該生字幕データが画面表示される時刻に関する字幕時刻情報を、前記音声認識データに含まれる前記音声時刻情報、予め設定された固定値、または前記音声認識データに対応する前記生字幕データの遅延時間の統計値に基づいて補正し、補正後の前記生字幕データを新たな生字幕データとして出力し、前記字幕遅延経過時刻が前記エンコード処理完了時刻以前でない場合、前記エンコード処理完了時刻のタイミングで、前記音声認識データに基づいて新たな生字幕データを生成し、当該新たな生字幕データを出力する字幕処理部と、を備えたことを特徴とする。

また、請求項２のコンテンツ配信装置は、請求項１に記載のコンテンツ配信装置において、前記字幕処理部が、前記放送用送出信号から前記生字幕データを抽出する字幕抽出部と、前記放送用送出信号に含まれる前記音声に対して前記音声認識処理を施し、前記音声認識データを生成する音声認識部と、前記音声認識部により生成された前記音声認識データに対応する、前記字幕抽出部により抽出される前記生字幕データの前記遅延時間をカウントし、前記字幕遅延経過時刻を求め、前記音声認識データと前記生字幕データとのマッチングを行い、当該マッチングが完了した場合、前記音声認識データに含まれる前記音声時刻情報と、前記生字幕データに含まれる前記字幕時刻情報との間の差分を算出し、当該差分に基づいて字幕遅延確定時刻を求めるマッチング部と、前記生字幕データが抽出されて前記新たな生字幕データが出力されるまでの間の所定のマッチング補正処理時間を前記字幕遅延確定時刻に加算した時刻をマッチング補正完了予定時刻として、前記字幕遅延経過時刻が前記エンコード処理完了時刻以前であり、かつ、前記マッチング補正完了予定時刻が前記エンコード処理完了時刻以前である場合、前記マッチング部により前記マッチングが完了したタイミングで、前記音声認識データに含まれる前記音声時刻情報に基づいて、前記生字幕データに含まれる前記字幕時刻情報を補正し、補正後の前記生字幕データを前記新たな生字幕データとして出力し、前記字幕遅延経過時刻が前記エンコード処理完了時刻以前であり、かつ、前記マッチング補正完了予定時刻が前記エンコード処理完了時刻以前でない場合、前記マッチング部により前記マッチングが完了したタイミングで、前記固定値または前記統計値に基づいて、前記生字幕データに含まれる前記字幕時刻情報を補正し、補正後の前記生字幕データを前記新たな生字幕データとして出力し、前記字幕遅延経過時刻が前記エンコード処理完了時刻以前でない場合、前記エンコード処理完了時刻のタイミングで、前記音声認識データに基づいて前記新たな生字幕データを生成し、当該新たな生字幕データを出力する字幕補正部と、を備えたことを特徴とする。

また、請求項３のコンテンツ配信装置は、請求項２に記載のコンテンツ配信装置において、前記字幕補正部が、前記マッチング部により求めた前記字幕遅延経過時刻が前記エンコード処理完了時刻以前であり、かつ、前記マッチング補正完了予定時刻が前記エンコード処理完了時刻以前である場合、第１補正タイプを判断し、前記字幕遅延経過時刻が前記エンコード処理完了時刻以前であり、かつ、前記マッチング補正完了予定時刻が前記エンコード処理完了時刻以前でない場合、第２補正タイプを判断し、前記字幕遅延経過時刻が前記エンコード処理完了時刻以前でない場合、第３補正タイプを判断する補正タイプ判定部と、前記補正タイプ判定部により前記第１補正タイプが判断された場合、前記生字幕データに含まれる前記字幕時刻情報を前記音声認識データに含まれる前記音声時刻情報に補正し、補正後の前記生字幕データを前記新たな生字幕データとして出力し、前記第２補正タイプが判断された場合、前記生字幕データに含まれる前記字幕時刻情報の時刻から前記固定値または前記統計値を減算して減算結果を求め、前記生字幕データに含まれる前記字幕時刻情報を前記減算結果に補正し、補正後の前記生字幕データを前記新たな生字幕データとして出力し、前記第３補正タイプが判断された場合、前記音声認識データに基づいて新たな生字幕データを生成し、当該新たな生字幕データを出力する字幕時刻補正部と、を備えたことを特徴とする。

また、請求項４のコンテンツ配信装置は、請求項３に記載のコンテンツ配信装置において、前記字幕時刻補正部が、前記第２補正タイプが判断された場合、前記放送番組の種類に対応したそれぞれの前記固定値または前記統計値が格納されたテーブルを用いて、前記放送用送出信号の前記放送番組に対応した前記固定値または前記統計値を前記テーブルから読み出し、前記生字幕データに含まれる前記字幕時刻情報の時刻から前記固定値または前記統計値を減算して減算結果を求め、前記生字幕データに含まれる前記字幕時刻情報を前記減算結果に補正し、補正後の前記生字幕データを前記新たな生字幕データとして出力する、ことを特徴とする。

さらに、請求項５のプログラムは、コンピュータを、請求項１から４までのいずれか一項に記載のコンテンツ配信装置として機能させることを特徴とする。

以上のように、本発明によれば、インターネット配信によるライブストリーミングにおいて、エンコード処理完了時刻を超える遅延を発生させずにリアルタイム性を確保しつつ、番組内容に対する生字幕の遅延を抑制することができる。

本発明の実施形態によるコンテンツ配信装置を含むコンテンツ配信システムの全体構成例を示す概略図、及びコンテンツ配信装置の構成例を示すブロック図である。字幕処理部の構成例を示すブロック図である。字幕補正部の構成例を示すブロック図である。補正タイプ判定部の処理例を示すフローチャートである。（１）字幕遅延経過時刻ｔ≦エンコード処理完了時刻Ｅｔ、かつ、字幕遅延確定時刻Ｊｔ＋マッチング補正処理時間Ｒ≦エンコード処理完了時刻Ｅｔの場合（完全同期が可能な場合）を説明する図である。（２）字幕遅延経過時刻ｔ≦エンコード処理完了時刻Ｅｔ、かつ、字幕遅延確定時刻Ｊｔ＋マッチング補正処理時間Ｒ＞エンコード処理完了時刻Ｅｔの場合（完全同期が困難な場合）を説明する図である。（３）字幕遅延経過時刻ｔ＞エンコード処理完了時刻Ｅｔの場合（完全同期が困難な場合）を説明する図である。字幕時刻補正部の処理例を示すフローチャートである。

以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、インターネット配信によるライブストリーミングにおいて、番組内容に対する生字幕の遅延度合いに応じて、生字幕の時刻補正処理を変更することを特徴とし、生字幕の時刻補正処理を、エンコード処理完了時刻までに行うようにする。これにより、リアルタイム性を確保しつつ、番組内容に対する生字幕の遅延を抑制することができる。

〔コンテンツ配信装置〕
まず、本発明の実施形態によるコンテンツ配信装置について説明する。図１は、本発明の実施形態によるコンテンツ配信装置を含むコンテンツ配信システムの全体構成例を示す概略図、及びコンテンツ配信装置の構成例を示すブロック図である。このコンテンツ配信システムは、インターネットを介して、コンテンツのライブストリーミングを行うシステムであり、コンテンツ配信装置１、配信サーバ２及び端末装置３を備えて構成される。

コンテンツ配信装置１は、コンテンツの放送用送出信号を受信し、放送用送出信号をエンコードして複数のファイルに分割し、複数のファイルの配信データＤをそれぞれ生成すると共に、プレイリストを生成する。放送用送出信号としては、例えばＳＤＩ（Serial Digital Interface：シリアルデジタルインターフェース）信号が用いられる。

コンテンツ配信装置１は、放送用送出信号に含まれる生字幕データの時刻を補正し、生字幕データを映像及び音声であるコンテンツの番組内容に同期させ、プレイリストを編集する。そして、コンテンツ配信装置１は、配信データＤ、同期後（補正後）の生字幕データａ’及びプレイリストを配信サーバ２へ送信する。

コンテンツ配信装置１が入力する放送用送出信号は、映像、音声及び生字幕データ等から構成される。映像、音声及び生字幕データのそれぞれには、共通の時刻を基準とした時刻情報が含まれる。前述のとおり、生字幕データは、生放送番組の音声から人手による書き起こしにて制作されたデータであるから、映像及び音声の番組内容よりも遅延している。番組内容に対する生字幕データの遅延時間は、制作するオペレータ及び制作される生字幕データ自体に応じて変動する。また、プレイリストは、エンコードの処理により生成された配信データＤ（映像、音声及び生字幕データ）の取得先、構成内容、時刻情報等が記載されたメタデータである。

配信サーバ２は、コンテンツ配信装置１からコンテンツの配信データＤ、同期後の生字幕データａ’及びプレイリストを受信し、メモリに蓄積する。

端末装置３は、例えばスマートフォン等の動画視聴プレーヤであり、コンテンツ配信装置１からインターネットを介して、プレイリストを取得し、プレイリストに基づいてファイル構造を把握する。そして、端末装置３は、プレイリストに基づいて、配信データＤ及び同期後の生字幕データａ’を、インターネットを介してＨＴＴＰ（Hypertext Transfer Protocol：ハイパーテキスト転送プロトコル）にて取得する。

端末装置３は、プレイリストの時刻に従い、配信データＤ及び同期後の生字幕データａ’を繋ぎ合わせ、映像及び字幕を画面表示すると共に、音声を出力することで、コンテンツを再生する。

これにより、端末装置３は、映像及び音声に対する字幕の表示の遅延が小さいコンテンツを再生することができ、この字幕の表示遅延が小さいほど、ユーザは番組内容への理解が容易になる。特に聴覚障碍者にとっては、生字幕が番組内容への理解の材料として大きな役割を果たすため、その効果が大きい。尚、端末装置３は、字幕を画面表示する際に、表示行数及び表示列数を自由に設定することができるから、番組内容に同期した字幕表示が可能となる。

図１において、コンテンツ配信装置１は、分配部１０、エンコーダ１１及び字幕処理部１２を備えている。分配部１０は、コンテンツの放送用送出信号を受信し、放送用送出信号を分配し、放送用送出信号をエンコーダ１１及び字幕処理部１２に出力する。

エンコーダ１１は、分配部１０から放送用送出信号を入力し、放送用送出信号をエンコードすることで数秒単位のファイルに分割し、配信データＤを生成すると共にプレイリストを生成する。そして、エンコーダ１１は、エンコードに伴ってエンコード処理時間Ｅを求めると共に、プレイリストから番組情報を抽出する。エンコード処理時間Ｅは、エンコーダ１１が放送用送出信号を入力してから、当該放送用送出信号に対応する配信データＤを出力するまでの処理時間である。

エンコーダ１１は、配信データＤを配信サーバ２へ送信すると共に、エンコード処理時間Ｅを含むエンコードステータス、番組情報及びプレイリストを字幕処理部１２に出力する。エンコードステータス、番組情報及びプレイリストの出力頻度は任意であり、数秒単位、番組単位または１日単位であってもよい。

尚、エンコーダ１１がエンコードステータスを字幕処理部１２に出力することにより、字幕処理部１２が、配信データＤと生字幕データａとの同期処理を行う。これに対し、エンコーダ１１がエンコードステータスを配信サーバ２へ送信し、配信サーバ２がこのような同期処理を行うようにしてもよい。

字幕処理部１２は、分配部１０から放送用送出信号を入力すると共に、エンコーダ１１からエンコードステータス、番組情報及びプレイリストを入力する。

字幕処理部１２は、放送用送出信号から生字幕データａを抽出すると共に、放送用送出信号に対して音声認識処理を施し、音声認識データｂを生成する。字幕処理部１２は、音声認識データｂの音声を含む放送用送出信号を入力したタイミングの時刻を基準として時間をカウントし、字幕遅延経過時刻ｔを求める。ここで、時刻は、時の経過の中における瞬間の時点を意味し、時間は、時の経過の長さを意味する。

字幕遅延経過時刻ｔは、放送用送出信号に含まれる音声の時刻を基準とした時間経過の時刻を示す。音声認識データｂの音声を含む放送用送出信号を入力したタイミングの基準の時刻から字幕遅延経過時刻ｔまでの間の時間期間を、字幕遅延時間Ｊとする。字幕遅延経過時刻ｔは、音声認識データｂに対応する生字幕データａ（音声認識データｂと同じ内容の生字幕データａ）が抽出されるまでカウントされる。

字幕処理部１２は、エンコードステータスに含まれるエンコード処理時間Ｅを、エンコードステータスを入力する毎に積算して平均を求め、音声認識データｂの音声を含む放送用送出信号を入力したタイミングの時刻にエンコード処理時間Ｅの平均を加算する。そして、字幕処理部１２は、加算後の時刻をエンコード処理完了時刻Ｅｔに設定する。

字幕処理部１２は、生字幕データａと音声認識データｂとの間でマッチングを行う。そして、字幕処理部１２は、音声認識データｂに対応する生字幕データａを抽出すると（マッチングが完了すると）、生字幕データａに含まれる時刻情報（字幕時刻情報）と音声認識データｂに含まれる時刻情報（音声時刻情報）との間の差分を算出する。字幕処理部１２は、音声認識データｂの音声を含む放送用送出信号を入力したタイミングの時刻に、その差分を加算し、加算後の時刻を字幕遅延確定時刻Ｊｔに設定する。これらの時刻情報の差分に相当する時間は、生放送番組の音声から人手による書き起こしにて生字幕データａが制作された際の遅延時間に相当する。

ここで、字幕処理部１２は、生字幕データａを含む放送用送出信号を入力してから、当該生字幕データａの処理が完了するまでの間の処理時間を、生字幕データａ毎に積算して平均を求め、これをマッチング補正処理時間Ｒに設定して保持しているものとする。マッチング補正処理時間Ｒは、字幕処理部１２が生字幕データａを含む放送用送出信号を入力してから、当該生字幕データａの抽出、マッチング及び補正の各処理を行い、生字幕データａ’を出力するまでの処理時間である。

字幕処理部１２は、字幕遅延経過時刻ｔ、字幕遅延確定時刻Ｊｔ、エンコード処理完了時刻Ｅｔ及びマッチング補正処理時間Ｒ等に基づいて、生字幕データａの補正タイプを判断して補正処理を行い、生字幕データａ’を生成すると共に、プレイリストを編集する。字幕処理部１２は、生字幕データａ’及びプレイリストを配信サーバ２へ送信する。

図２は、図１に示した字幕処理部１２の構成例を示すブロック図である。この字幕処理部１２は、字幕抽出部２０、音声認識部２１、マッチング部２２及び字幕補正部２３を備えている。

字幕抽出部２０は、分配部１０から放送用送出信号を入力し、放送用送出信号から生字幕データａを抽出し、生字幕データａをマッチング部２２に出力する。生字幕データａには、生字幕が画面表示される時刻ｔ_aに関する時刻情報が含まれる。

音声認識部２１は、分配部１０から放送用送出信号を入力し、放送用送出信号に含まれる音声に対して既知の音声認識処理を施し、音声認識データｂを生成し、音声認識データｂをマッチング部２２に出力する。音声認識データｂには、音声が出力される時刻ｔ_bに関する時刻情報が含まれる。

マッチング部２２は、字幕抽出部２０から生字幕データａを入力すると共に、音声認識部２１から音声認識データｂを入力する。そして、マッチング部２２は、生字幕データａと音声認識データｂとをマッチングし、マッチングにより同一であると判定した生字幕データａ及び音声認識データｂを特定する。

この場合、マッチング部２２は、まず、音声認識データｂを入力し、その後、当該音声認識データｂに対応する生字幕データａを入力する。マッチング部２２は、音声認識データｂとこれに対応する生字幕データａとをマッチングすることで、両者は同一である（対応している）と判定する。

マッチング部２２は、音声認識部２１により音声認識データｂの音声を含む放送用送出信号が入力された時刻を基準として時間をカウントし、基準の時刻にカウント値を加算し、字幕遅延経過時刻ｔを求める。

マッチング部２２は、マッチングにより、音声認識データｂに対応する生字幕データａを判定すると、字幕遅延経過時刻ｔのカウントを停止する。そして、マッチング部２２は、生字幕データａに含まれる時刻ｔ_aと音声認識データｂに含まれる時刻ｔ_bとの間の差分を算出し、基準の時刻に差分を加算した時刻を、字幕遅延確定時刻Ｊｔに設定する。

マッチング部２２は、字幕抽出部２０の処理時間、当該マッチング部２２の処理時間及び字幕補正部２３の処理時間を取得し、これらの処理時間を加算した加算時間を求める。そして、マッチング部２２は、字幕補正部２３による処理が完了する毎に、加算時間を積算して平均を求め、これをマッチング補正処理時間Ｒに設定する。

マッチング部２２は、音声認識データｂを入力してから、当該音声認識データｂに対応する生字幕データａのマッチングを完了し、字幕遅延確定時刻Ｊｔを設定する直前までの間、音声認識データｂ、字幕遅延経過時刻ｔ及びマッチング補正処理時間Ｒを含むマッチングデータを字幕補正部２３に出力する。

また、マッチング部２２は、マッチングが完了して字幕遅延確定時刻Ｊｔを設定したときに、音声認識データｂに対応する生字幕データａ、音声認識データｂ、字幕遅延確定時刻Ｊｔ及びマッチング補正処理時間Ｒを含むマッチングデータを字幕補正部２３に出力する。

マッチングデータは、文章単位であってもよく、文字単位、単語単位または複数の文章単位であってもよい。

字幕補正部２３は、マッチング部２２からマッチングデータを入力すると共に、エンコーダ１１からエンコードステータス、番組情報及びプレイリストを入力する。そして、字幕補正部２３は、エンコードステータスに含まれるエンコード処理時間Ｅを積算して平均を求め、音声認識データｂの音声を含む放送用送出信号を入力したタイミングの時刻にその平均を加算し、加算結果の時刻をエンコード処理完了時刻Ｅｔに設定する。

ここで、エンコーダ１１は、エンコード処理時間Ｅを含むエンコードステータスを字幕補正部２３に出力する。これに対し、後述するように、実際に算出されたエンコード処理時間Ｅの代わりに固定値のエンコード処理時間Ｅを用いる場合には、エンコーダ１１は、エンコード処理時間Ｅを求めなくてもよく、また、エンコード処理時間Ｅを含むエンコードステータスを出力しなくてもよい。この場合、配信データＤ及び生字幕データａの同期は、後段の配信サーバ２にて可能である。

字幕補正部２３は、マッチングデータに含まれる字幕遅延経過時刻ｔ、字幕遅延確定時刻Ｊｔ及びマッチング補正処理時間Ｒ、並びにエンコード処理完了時刻Ｅｔ等に基づいて、補正タイプを判断する。

字幕補正部２３は、補正タイプに応じて生字幕データａの補正処理を行い、生字幕データａ’を生成すると共に、プレイリストを編集する。字幕補正部２３は、補正後の生字幕データａ’及びプレイリストを配信サーバ２へ送信する。

図３は、図２に示した字幕補正部２３の構成例を示すブロック図である。この字幕補正部２３は、入力部３０、通信部３１、補正タイプ判定部３２及び字幕時刻補正部３３を備えている。

入力部３０は、マッチング部２２からマッチングデータを入力し、マッチングデータを補正タイプ判定部３２に出力する。

通信部３１は、エンコーダ１１からエンコードステータス、番組情報及びプレイリストを入力（受信）し、エンコードステータスを補正タイプ判定部３２に出力すると共に、番組情報及びプレイリストを字幕時刻補正部３３に出力する。

尚、通信部３１は、エンコードステータス、番組情報及びプレイリストをエンコーダ１１から受信する代わりに、外部のシステム（エンコードステータス、番組情報及びプレイリスト等を管理しているシステム）から受信するようにしてもよい。また、エンコードステータス、番組情報及びプレイリストの受信頻度は任意であり、数秒単位、番組単位または１日単位であってもよい。

〔補正タイプ判定部３２〕
補正タイプ判定部３２は、入力部３０からマッチングデータを入力すると共に、通信部３１からエンコードステータスを入力する。そして、補正タイプ判定部３２は、マッチングデータ及びエンコードステータスに基づいて、生字幕データａの遅延度合いを求める。補正タイプ判定部３２は、生字幕データａの遅延度合いに応じて補正タイプを判断し、補正タイプ及びマッチングデータを字幕時刻補正部３３に出力する。

図４は、補正タイプ判定部３２の処理例を示すフローチャートである。補正タイプ判定部３２は、入力部３０からマッチングデータを入力すると共に（ステップＳ４０１）、通信部３１からエンコードステータスを入力する（ステップＳ４０２）。

補正タイプ判定部３２は、前述のとおり、エンコードステータスに含まれるエンコード処理時間Ｅを用いてエンコード処理完了時刻Ｅｔを求める（ステップＳ４０３）。ステップＳ４０１〜Ｓ４０３の処理は、後述するステップＳ４０５のとおり、図４の処理例において常に更新されるものとする。

ここで、マッチング部２２において音声認識データｂに対応する生字幕データａのマッチングが完了していない場合、マッチングデータには、音声認識データｂ、字幕遅延経過時刻ｔ及びマッチング補正処理時間Ｒが含まれる。また、マッチング部２２においてマッチングが完了している場合、マッチングデータには、生字幕データａ、音声認識データｂ、字幕遅延確定時刻Ｊｔ及びマッチング補正処理時間Ｒが含まれる。

補正タイプ判定部３２は、字幕の文章番号をｉとして、字幕文章番号ｉを初期化する（ｉ＝０、ステップＳ４０４）。字幕文章番号ｉの字幕遅延経過時刻ｔ、字幕遅延確定時刻Ｊｔ、マッチング補正処理時間Ｒ及びエンコード処理完了時刻Ｅｔを、それぞれｔ_i，Ｊｔ_i，Ｒ_i，Ｅｔ_iとする。以下の処理により、字幕文章番号ｉの字幕について補正タイプが判断される。

補正タイプ判定部３２は、ステップＳ４０１，Ｓ４０２の入力処理を更新すると共に、ステップＳ４０３の処理を更新する（ステップＳ４０５）。

補正タイプ判定部３２は、字幕遅延経過時刻ｔ_iがエンコード処理完了時刻Ｅｔ_i以前（よりも早いまたは同じ）（ｔ_i≦Ｅｔ_i）であるか否かを判定する（ステップＳ４０６）。補正タイプ判定部３２は、ステップＳ４０６において、字幕遅延経過時刻ｔ_iがエンコード処理完了時刻Ｅｔ_i以前である（ｔ_i≦Ｅｔ_i）と判定した場合（ステップＳ４０６：Ｙ）、字幕遅延の時刻が確定しているか否か、すなわちマッチングが完了して字幕遅延確定時刻Ｊｔ_iを入力済みであるか否かを判定する（ステップＳ４０７）。

補正タイプ判定部３２は、ステップＳ４０７において、字幕遅延の時刻が確定していないと判定した場合（ステップＳ４０７：Ｎ）、ステップＳ４０５へ移行する。一方、補正タイプ判定部３２は、ステップＳ４０７において、字幕遅延の時刻が確定していると判定した場合（ステップＳ４０７：Ｙ）、ステップＳ４０８へ移行する。

補正タイプ判定部３２は、ステップＳ４０７（Ｙ）から移行して、字幕遅延確定時刻Ｊｔ_iにマッチング補正処理時間Ｒ_iを加算する。補正タイプ判定部３２は、加算結果の時刻をマッチング補正完了予定時刻（Ｊｔ_i＋Ｒ_i）として、マッチング補正完了予定時刻（Ｊｔ_i＋Ｒ_i）がエンコード処理完了時刻Ｅｔ_i以前（よりも早いまたは同じ）（Ｊｔ_i＋Ｒ_i≦Ｅｔ_i）であるか否かを判定する（ステップＳ４０８）。

マッチング補正完了予定時刻（Ｊｔ_i＋Ｒ_i）は、字幕処理部１２が音声認識データｂの音声を含む放送用送出信号を入力した時刻を基準として、音声認識データｂに対応する生字幕データａが抽出されてマッチングが完了し、そして、生字幕データａの補正が完了する予定の時刻に相当する。

尚、ステップＳ４０６における字幕遅延経過時刻ｔ_i及びエンコード処理完了時刻Ｅｔ_iを用いた比較処理、及び、ステップＳ４０８における字幕遅延確定時刻Ｊｔ_i、マッチング補正処理時間Ｒ_i及びエンコード処理完了時刻Ｅｔ_iを用いた比較処理の技術的意義については、後述する図５〜図７にて説明する。

補正タイプ判定部３２は、ステップＳ４０８において、マッチング補正完了予定時刻（Ｊｔ_i＋Ｒ_i）がエンコード処理完了時刻Ｅｔ_i以前である（Ｊｔ_i＋Ｒ_i≦Ｅｔ_i）と判定した場合（ステップＳ４０８：Ｙ）、生字幕データａの遅延時間が短く、エンコード処理完了時刻Ｅｔ_iが経過する前に生字幕データａの補正処理が完了すると判断し、補正タイプをＡと判断する（ステップＳ４０９）。

補正タイプＡは、番組内容に対する生字幕の時刻完全一致（完全同期）が可能なタイプであり、後段の字幕時刻補正部３３により、生字幕データａの時刻ｔ_aが音声認識データｂの時刻ｔ_bに補正される。

補正タイプ判定部３２は、ステップＳ４０８において、マッチング補正完了予定時刻（Ｊｔ_i＋Ｒ_i）がエンコード処理完了時刻Ｅｔ_i以前でない（Ｊｔ_i＋Ｒ_i＞Ｅｔ_i）と判定した場合（ステップＳ４０８：Ｎ）、生字幕データａの遅延時間がさほど短くないと判断し、補正タイプをＢと判断する（ステップＳ４１０）。

補正タイプＢは、番組内容に対する生字幕の時刻完全一致（完全同期）が困難なタイプであり、字幕時刻補正部３３により、生字幕データａの時刻ｔ_aが、当該時刻ｔ_aを基準として所定の固定値Ｐに基づいて補正される。

補正タイプ判定部３２は、ステップＳ４０６において、字幕遅延経過時刻ｔ_iがエンコード処理完了時刻Ｅｔ_i以前でない（ｔ_i＞Ｅｔ_i）と判定した場合（ステップＳ４０６：Ｎ）、字幕遅延経過時刻ｔ_iがエンコード処理完了時刻Ｅｔ_iを超えたとして、生字幕データａの遅延時間が長いと判断し、補正タイプをＣと判断する（ステップＳ４１１）。

補正タイプＣは、番組内容に対する生字幕の時刻完全一致（完全同期）が困難なタイプであり、字幕時刻補正部３３は、音声認識データｂの一部または全部を適用して生字幕データａ’を生成するか、または生字幕データａ’を生成する処理を行わない。

このように、ステップＳ４０４〜Ｓ４１１の処理により、字幕遅延経過時刻ｔ_i、字幕遅延確定時刻Ｊｔ_i、マッチング補正処理時間Ｒ_i及びエンコード処理完了時刻Ｅｔ_iに基づいて、生字幕の時刻補正処理の種類を示す補正タイプＡ，Ｂ，Ｃが判断される。

補正タイプ判定部３２は、ステップＳ４０９〜Ｓ４１１から移行して、補正タイプ及びマッチングデータを字幕時刻補正部３３に出力する（ステップＳ４１２）。

補正タイプ判定部３２は、全ての字幕について処理が終了したか否かを判定し（ステップＳ４１３）、処理が終了していないと判定した場合（ステップＳ４１３：Ｎ）、字幕文章番号ｉをインクリメントし（ｉ＝ｉ＋１、ステップＳ４１４）、ステップＳ４０５へ移行する。これにより、次の字幕文章番号ｉの字幕について、ステップＳ４０５〜Ｓ４１２の処理が行われる。

補正タイプ判定部３２は、ステップＳ４１３において全ての字幕について処理が終了したと判定した場合（ステップＳ４１３：Ｙ）、処理を終了する。

尚、補正タイプ判定部３２は、通信部３１から、実際に算出されたエンコード処理時間Ｅを含むエンコードステータスを入力するようにしたが、予め設定された固定値のエンコード処理時間Ｅを用いるようにしてもよい。また、補正タイプ判定部３２は、入力部３０から、実際に算出されたマッチング補正処理時間Ｒを含むマッチングデータを入力するようにしたが、予め設定された固定値のマッチング補正処理時間Ｒを用いるようにしてもよい。

さらに、補正タイプ判定部３２は、予め設定されたエンコード処理時間Ｅとして、時刻に応じた固定値または番組単位の固定値を用いるようにしてもよく、予め設定されたマッチング補正処理時間Ｒとして、時刻に応じた固定値または番組単位の固定値を用いるようにしてもよい。

（ステップＳ４０６，Ｓ４０８の比較処理）
次に、図４に示したステップＳ４０６，Ｓ４０８の比較処理について詳細に説明する。以下、字幕文章番号ｉの表記は省略する。

図５は、（１）字幕遅延経過時刻ｔ≦エンコード処理完了時刻Ｅｔ、かつ、字幕遅延確定時刻Ｊｔ＋マッチング補正処理時間Ｒ≦エンコード処理完了時刻Ｅｔの場合（完全同期が可能な場合）を説明する図である。詳細には、図４のステップＳ４０６において「Ｙ」を判定し、ステップＳ４０８において「Ｙ」を判定し、補正タイプＡを判断する場合を説明する図である。横軸は時間軸である。

配信データＤは、映像及び音声の放送用送出信号のタイミング（音声認識データｂの音声を含む放送用送出信号を入力したタイミング）を基準として、エンコード処理時間Ｅを経過したエンコード処理完了時刻Ｅｔに生成される。

また、音声認識データｂに対応する生字幕データａは、映像及び音声の放送用送出信号のタイミングを基準として、字幕遅延時間Ｊだけ遅延しており、このタイミングでマッチングが完了したとする。このタイミングの時刻が字幕遅延確定時刻Ｊｔである。ｔ≦Ｅｔであり、かつＪｔ＋Ｒ≦Ｅｔの条件を満たすものとする。

エンコード処理時間Ｅはほぼ固定値であり、字幕遅延時間Ｊは変動値であり、マッチング補正処理時間Ｒはほぼ固定値である。後述する図６，７についても同様である。

そうすると、マッチング補正後の生字幕データａ（ａ’）のタイミングは、エンコード処理完了時刻Ｅｔ以前のＪｔ＋Ｒのタイミングとなる。この条件（ｔ≦Ｅｔ，Ｊｔ＋Ｒ≦Ｅｔ）を満たす生字幕データａのタイミング範囲（字幕遅延確定時刻Ｊｔの範囲）は、図５の矢印破線に示すとおりである。

この場合は、生字幕データａの遅延時間が短く、エンコード処理完了時刻Ｅｔが経過する前に生字幕データａの補正処理が完了すると判断される。したがって、番組内容に対する字幕の完全同期が可能であり、補正タイプＡが判断される。そして、生字幕データａのマッチングが完了したときに、生字幕データａの時刻ｔ_aが音声認識データｂの時刻ｔ_bに補正される（ｔ_a←ｔ_b）。これにより、エンコード処理完了時刻Ｅｔには、配信データＤ、及び当該配信データＤに対応する補正後の生字幕データａ’が揃うこととなる。

図６は、（２）字幕遅延経過時刻ｔ≦エンコード処理完了時刻Ｅｔ、かつ、字幕遅延確定時刻Ｊｔ＋マッチング補正処理時間Ｒ＞エンコード処理完了時刻Ｅｔの場合（完全同期が困難な場合）を説明する図である。詳細には、図４のステップＳ４０６において「Ｙ」を判定し、ステップＳ４０８において「Ｎ」を判定し、補正タイプＢを判断する場合を説明する図である。横軸は時間軸である。

また、音声認識データｂに対応する生字幕データａは、映像及び音声の放送用送出信号のタイミングを基準として、字幕遅延時間Ｊだけ遅延しており、このタイミングでマッチングが完了したとする。このタイミングの時刻が字幕遅延確定時刻Ｊｔである。ｔ≦Ｅｔであり、かつＪｔ＋Ｒ＞Ｅｔの条件を満たすものとする。

そうすると、字幕処理部１２により生字幕データａの補正が行われるとすると、マッチング補正後の生字幕データａ（ａ’）のタイミングは、エンコード処理完了時刻Ｅｔを超えるＪｔ＋Ｒのタイミングとなってしまう。この条件（ｔ≦Ｅｔ，Ｊｔ＋Ｒ＞Ｅｔ）を満たす生字幕データａのタイミング範囲（字幕遅延確定時刻Ｊｔの範囲）は、図６の矢印破線に示すとおりである。

この場合は、生字幕データａの遅延時間がさほど短くないが、エンコード処理完了時刻Ｅｔを超える所定時刻において生字幕データａの補正処理が完了すると判断される。したがって、番組内容に対する字幕の完全同期が困難であり、補正タイプＢが判断される。そして、生字幕データａのマッチングが完了したときに、生字幕データａの時刻ｔ_aを基準として所定の固定値Ｐに基づいて補正される（ｔ_a←ｔ_a−Ｐ）。これにより、エンコード処理完了時刻Ｅｔには、配信データＤ、及び当該配信データＤに対応する補正後の生字幕データａ’が揃うこととなる。

図７は、（３）字幕遅延経過時刻ｔ＞エンコード処理完了時刻Ｅｔの場合（完全同期が困難な場合）を説明する図であり、図４のステップＳ４０６において「Ｎ」を判定し、補正タイプＣを判断する場合の図である。横軸は時間軸である。

また、音声認識データｂに対応する生字幕データａは、映像及び音声の放送用送出信号のタイミングを基準として、字幕遅延時間Ｊだけ遅延し、字幕遅延経過時刻ｔがエンコード処理完了時刻Ｅｔを超えるものとする。

そうすると、この条件（ｔ＞Ｅｔ）を満たす生字幕データａのタイミング範囲（字幕遅延確定時刻Ｊｔの範囲）は、図７の矢印破線に示すものとなる。

この場合は、生字幕データａの遅延時間が長いと判断され、番組内容に対する字幕の完全同期が困難であり、補正タイプＣが判断される。そして、エンコード処理完了時刻Ｅｔのタイミングで、音声認識データｂの一部または全部を適用して生字幕データａ’が生成されるか、または生字幕データａ’の生成処理は行われない。これにより、エンコード処理完了時刻Ｅｔには、配信データＤ、及び当該配信データＤに対応する生字幕データａ’が揃うこととなる。

〔字幕時刻補正部３３〕
図３に戻って、字幕時刻補正部３３は、補正タイプ判定部３２から補正タイプ及びマッチングデータを入力すると共に、通信部３１から番組情報及びプレイリストを入力する。

字幕時刻補正部３３は、補正タイプに応じて、マッチングデータに含まれる生字幕データａの時刻情報を補正する処理等を行い、生字幕データａ’を生成する。また、字幕時刻補正部３３は、プレイリストに含まれる生字幕データａの時刻情報等を補正し、当該生字幕データａを生字幕データａ’とすることで、プレイリストを編集する。

字幕時刻補正部３３は、補正後の生字幕データａ’及びプレイリストを配信サーバ２へ送信する。ここで、生字幕データａの時刻情報の補正の際に、補正タイプによっては、番組情報に応じて予め設定された固定値Ｐが用いられる。

図８は、字幕時刻補正部３３の処理例を示すフローチャートである。字幕時刻補正部３３は、補正タイプ判定部３２から補正タイプ及びマッチングデータを入力する（ステップＳ８０１）。また、字幕時刻補正部３３は、通信部３１から番組情報及びプレイリストを入力する（ステップＳ８０２）。

補正タイプはＡ、ＢまたはＣである。補正タイプＡ，Ｂのときのマッチングデータは、生字幕データａ、音声認識データｂ、字幕遅延確定時刻Ｊｔ及びマッチング補正処理時間Ｒである。また、補正タイプＣのときのマッチングデータは、音声認識データｂ、字幕遅延経過時刻ｔ及びマッチング補正処理時間Ｒである。

字幕時刻補正部３３は、予め設定された複数の固定値Ｐ１，Ｐ２，・・・のうち、番組情報に応じた固定値Ｐを選択する（ステップＳ８０３）。

例えば、番組情報に含まれる番組の種類と、固定値Ｐ１，Ｐ２，・・・とが対応付けられたテーブルが予めメモリに格納されている。字幕時刻補正部３３は、通信部３１から入力した番組情報に含まれる番組の種類に対応する固定値Ｐをテーブルから読み出し、読み出した固定値Ｐを選択する。

固定値Ｐ１，Ｐ２，・・・は、番組の種類に応じてオペレータにより予め設定された遅延時間であり、テーブルに格納されている。一般に、ニュース番組は情報番組よりも、字幕の書き起こし時間が短くて済む。このため、ニュース番組の固定値Ｐ１は、情報番組の固定値Ｐ２よりも小さい値が格納される。

これにより、後述するステップＳ８０６において、生字幕データａの時刻情報（時刻ｔ_a）は、固定値Ｐに基づいて、番組の種類に応じて適切に補正される。

また、字幕時刻補正部３３は、番組の種類毎に、音声認識データｂに対応する生字幕データａの確定した字幕遅延時間を測定してメモリに蓄積し、蓄積した加算結果の統計値（例えば平均値）を求め、固定値Ｐの代わりに統計値Ｐ’を用いるようにしてもよい。この場合、統計値Ｐ’は、後述するステップＳ８０６において固定値Ｐの代わりに用いられる。

例えば、番組情報に含まれる番組の種類と、前述の統計値Ｐ１’，Ｐ２’，・・・とが対応付けられたテーブルが予めメモリに格納されている。字幕時刻補正部３３は、番組情報に含まれる番組の種類に対応する統計値Ｐ’をテーブルから読み出し、読み出した統計値Ｐ’を選択するようにしてもよい。

尚、字幕時刻補正部３３は、番組情報に応じた固定値Ｐを選択するようにしたが、番組情報によることなく予め設定された固定値Ｐを用いるようにしてもよい。

字幕時刻補正部３３は、補正タイプを判定する（ステップＳ８０４）。字幕時刻補正部３３は、ステップＳ８０４において補正タイプＡを判定した場合（ステップＳ８０４：Ａ）、番組内容に対する生字幕の完全同期が可能であると判断し、生字幕データａの時刻ｔ_aを音声認識データｂの時刻ｔ_bに補正する（ステップＳ８０５）。これにより、生字幕データａの時刻ｔ_aは、時刻ｔ_bに修正される。この字幕時刻の補正処理は、マッチングが完了したタイミングで行われる。つまり、字幕時刻の補正処理は、エンコード処理完了時刻Ｅｔ以前のタイミングで確実に行われ、エンコード処理完了時刻Ｅｔを超えるタイミングで行われることはない。

一方、字幕時刻補正部３３は、ステップＳ８０４において補正タイプＢを判定した場合（ステップＳ８０４：Ｂ）、番組内容に対する生字幕の完全同期が困難であると判断し、生字幕データａの時刻ｔ_aを、ステップＳ８０３にて選択した固定値Ｐに基づいて補正する（ステップＳ８０６）。

具体的には、字幕時刻補正部３３は、生字幕データａの時刻ｔ_aから固定値Ｐを減算し、減算結果を生字幕データａの新たな時刻（ｔ_a−Ｐ）とする。これにより、生字幕データａの時刻ｔ_aは、時刻ｔ_aから固定値Ｐを減算した時刻（ｔ_a−Ｐ）に修正される。この字幕時刻の補正処理は、マッチングが完了したタイミングで行われる。つまり、字幕時刻の補正処理は、ほぼエンコード処理完了時刻Ｅｔ以前のタイミングで行われる。

尚、字幕時刻補正部３３は、ステップＳ８０４において補正タイプＢを判定した場合、ステップＳ８０５と同様に、生字幕データａの時刻ｔ_aを音声認識データｂの時刻ｔ_bに補正するようにしてもよい。

字幕時刻補正部３３は、ステップＳ８０４において補正タイプＣを判定した場合（ステップＳ８０４：Ｃ）、番組内容に対する生字幕の完全同期が困難であると判断し、音声認識データｂの一部または全部を適用して新たな生字幕データを生成する生字幕データ生成処理を行うか、または何らの処理を行わない（生字幕データ生成処理を行わない）（ステップＳ８０７）。

具体的には、字幕時刻補正部３３は、音声認識データｂの一部または全部を適用して新たな生字幕データを生成する場合、音声認識データｂからテキストデータを抽出し、テキストデータの一部または全部を新たな字幕データの字幕とし、音声認識データｂの時刻ｔ_bを新たな字幕データの時刻とする。これにより、新たな字幕データは、音声認識データｂを適用したデータとなる。この字幕時刻の補正処理は、エンコード処理完了時刻Ｅｔのタイミングで行われる。

字幕時刻補正部３３は、ステップＳ８０５、ステップＳ８０６またはステップＳ８０７から移行して、補正後の生字幕データａを生字幕データａ’として生成するか、または新たな字幕データを生字幕データａ’とし、プレイリストに含まれる生字幕データａの時刻ｔ_aを、生字幕データａ’の時刻ｔ_b，ｔ_a−Ｐに編集する（ステップＳ８０８）。

これにより、補正タイプＡの場合、時刻ｔ_aを含む生字幕データａに代えて、時刻ｔ_bを含み、かつ生字幕データａと同じ字幕を有する生字幕データａ’が生成され、プレイリストに含まれる生字幕データａの時刻ｔ_aが生字幕データａ’の時刻ｔ_bに編集される。

また、補正タイプＢの場合、時刻ｔ_aを含む生字幕データａに代えて、時刻ｔ_a−Ｐを含み、かつ生字幕データａと同じ字幕を有する生字幕データａ’が生成され、プレイリストに含まれる生字幕データａの時刻ｔ_aが生字幕データａ’の時刻ｔ_a−Ｐに編集される。

また、補正タイプＣの場合、時刻を時刻ｔ_bとし、かつ音声認識データｂのテキストデータの一部または全部を字幕とした生字幕データａ’が生成される。また、プレイリストに含まれる生字幕データａの時刻ｔ_aが生字幕データａ’の時刻ｔ_bに編集される。または、補正タイプＣの場合、補正処理は行われない。

プレイリストは、エンコーダ１１において、配信データの取得先及び構成内容等が記載されたメタデータとして生成され、その後、字幕時刻補正部３３において、生字幕データａ’が端末装置３にて正常に画面表示されるように編集される。

字幕時刻補正部３３は、生字幕データａ’及びプレイリストを配信サーバ２へ送信する（ステップＳ８０９）。

尚、字幕時刻補正部３３から配信サーバ２へ送信される生字幕データａ’は、配信形式（HLS，MPEG-DASH等）に合わせた形式（WebVTT，TTML，ARIB-TTML等）とする。

以上のように、本発明の実施形態のコンテンツ配信装置１によれば、マッチング部２２は、音声認識部２１により音声認識データｂの音声を含む放送用送出信号が入力された時刻を基準として時間をカウントし、字幕遅延経過時刻ｔを求める。

マッチング部２２は、音声認識部２１により音声認識データｂの音声を含む放送用送出信号が入力されたタイミングから、当該音声認識データｂに対応する生字幕データａのマッチングが完了するまでの間、音声認識データｂ、字幕遅延経過時刻ｔ及びマッチング補正処理時間Ｒを含むマッチングデータを字幕補正部２３に出力する。

また、マッチング部２２は、当該音声認識データｂに対応する生字幕データａのマッチングが完了すると、生字幕データａに含まれる時刻ｔ_aと音声認識データｂに含まれる時刻ｔ_bとの間の差分を算出し、当該差分を反映した字幕遅延確定時刻Ｊｔを求め、生字幕データａ、音声認識データｂ、字幕遅延確定時刻Ｊｔ及びマッチング補正処理時間Ｒを含むマッチングデータを字幕補正部２３に出力する。

字幕補正部２３は、ｔ≦Ｅｔであり、かつＪｔ＋Ｒ≦Ｅｔである場合、補正タイプＡを判断する。そして、字幕補正部２３は、エンコード処理完了時刻Ｅｔ以前のタイミングで、生字幕データａの時刻ｔ_aを音声認識データｂの時刻ｔ_bに補正し、生字幕データａ’を生成する。

また、字幕補正部２３は、ｔ≦Ｅｔであり、かつＪｔ＋Ｒ＞Ｅｔである場合、補正タイプＢを判断する。そして、字幕補正部２３は、エンコード処理完了時刻Ｅｔ以前のタイミングで、生字幕データａの時刻ｔ_aから所定の固定値Ｐを減算することで生字幕データａの時刻ｔ_aを（ｔ_a−Ｐ）に補正し、生字幕データａ’を生成する。

さらに、字幕補正部２３は、ｔ＞Ｅｔである場合、補正タイプＣを判断し、エンコード処理完了時刻Ｅｔのタイミングで、音声認識データｂの一部または全部を適用して生字幕データａ’を生成するか、または補正処理を行わない。

これにより、生字幕データａの補正は、当該生字幕データａに対応する映像及び音声を含む放送用送出信号のエンコードが完了するエンコード処理完了時刻Ｅｔまでのタイミングで行われる。また、マッチングが完了した生字幕データａの時刻ｔ_aは、音声認識データｂの時刻ｔ_bに補正されるか、または当該時刻ｔ_bに近い時刻に補正される。

したがって、インターネット配信によるライブストリーミングにおいて、番組内容に対する生字幕の遅延を抑制することができる。特に、番組内容に対して生字幕が大きく遅延した場合であっても、生字幕の到着を待つことなく、エンコード処理完了時刻Ｅｔのタイミングで生字幕データａの補正を行うことができる。

すなわち、インターネット配信によるライブストリーミングにおいて、エンコード処理時間を超える遅延を発生させずにリアルタイム性を確保しつつ、番組内容に対する生字幕の遅延を抑制することができ、より分かりやすい番組提供が可能となる。

以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば前記実施形態のコンテンツ配信装置１において、字幕処理部１２の字幕補正部２３は、図４のステップＳ４０６にて、マッチング部２２に生字幕データａが入力されない状態で、字幕遅延経過時刻ｔがエンコード処理完了時刻Ｅｔ以下でないと判定した場合、補正タイプＣを判断し、音声認識データｂの一部または全部を適用して生字幕データａ’を生成するか、または補正処理を行わないようにした。

これに対し、字幕補正部２３は、音声認識データｂから時刻ｔ_bを抽出し、その時刻ｔ_bに関する情報を、生字幕データａの時刻として配信サーバ２へ送信するようにしてもよい。

また、前記実施形態のコンテンツ配信装置１において、字幕処理部１２は、インターネット配信用の生字幕データａ’を生成して配信サーバ２へ送信するようにした。

これに対し、字幕処理部１２は、生成した生字幕データａ’を、当該コンテンツ配信装置１の前段に設けられた装置（図１には図示せず）へ出力するようにしてもよい。この場合、当該装置は、放送用送出信号に生字幕データａ’を多重し、多重後の放送用送出信号をコンテンツ配信装置１へ出力する。コンテンツ配信装置１は、当該装置から多重後の放送用送出信号を入力し、放送用送出信号をエンコードして配信データＤを生成し、プレイリストを生成すると共に、放送用送出信号から生字幕データを抽出する。そして、コンテンツ配信装置１は、配信データ、生字幕データ及びプレイリストを配信サーバ２へ送信する。

また、図１に示したコンテンツ配信システムでは、配信サーバ２と端末装置３とがインターネットを介して接続される。これに対し、コンテンツ配信装置１及び配信サーバ２も、インターネットを介して接続されるようにしてもよい。

尚、本発明の実施形態によるコンテンツ配信装置１のハードウェア構成としては、通常のコンピュータを使用することができる。コンテンツ配信装置１は、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。

コンテンツ配信装置１に備えた分配部１０、エンコーダ１１及び字幕処理部１２の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。字幕処理部１２は、字幕抽出部２０、音声認識部２１、マッチング部２２及び字幕補正部２３により構成され、字幕補正部２３は、入力部３０、通信部３１、補正タイプ判定部３２及び字幕時刻補正部３３により構成される。

これらのプログラムは、前記記憶媒体に格納されており、ＣＰＵに読み出されて実行される。また、これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。

１コンテンツ配信装置
２配信サーバ
３端末装置
１０分配部
１１エンコーダ
１２字幕処理部
２０字幕抽出部
２１音声認識部
２２マッチング部
２３字幕補正部
３０入力部
３１通信部
３２補正タイプ判定部
３３字幕時刻補正部
ａ，ａ’ 生字幕データ
ｂ音声認識データ
Ｄ配信データ
ｔ，ｔｉ字幕遅延経過時刻
Ｊｔ，Ｊｔｉ字幕遅延確定時刻
Ｅｔ，Ｅｔi エンコード処理完了時刻
Ｒ，Ｒｉマッチング補正処理時間
Ｊ字幕遅延時間
Ｅエンコード処理時間
ｉ字幕文章番号

Claims

放送用送出信号を入力し、放送番組のコンテンツをライブストリーミングにてインターネット配信するための配信データを生成すると共に、前記放送用送出信号に含まれる生字幕データを補正するコンテンツ配信装置において、
前記放送用送出信号をエンコードし、所定時間単位の前記配信データを生成するエンコーダと、
前記放送用送出信号に含まれる音声に対して音声認識処理を施し、前記音声が出力される時刻に関する音声時刻情報を含む音声認識データを生成し、当該音声認識データに対応する前記生字幕データの遅延時間をカウントして字幕遅延経過時刻を求め、
前記放送用送出信号に含まれる前記生字幕データを抽出し、前記音声認識データと前記生字幕データとの間のマッチングを行い、
前記字幕遅延経過時刻と、前記エンコーダにより前記音声認識データの前記音声及び映像を含む前記放送用送出信号のエンコードが完了するエンコード処理完了時刻とを比較し、
前記字幕遅延経過時刻が前記エンコード処理完了時刻以前であり、かつ、前記音声認識データに対応する前記生字幕データのマッチングが完了した場合、当該マッチングが完了したタイミングで、前記生字幕データに含まれる、当該生字幕データが画面表示される時刻に関する字幕時刻情報を、前記音声認識データに含まれる前記音声時刻情報、予め設定された固定値、または前記音声認識データに対応する前記生字幕データの遅延時間の統計値に基づいて補正し、補正後の前記生字幕データを新たな生字幕データとして出力し、
前記字幕遅延経過時刻が前記エンコード処理完了時刻以前でない場合、前記エンコード処理完了時刻のタイミングで、前記音声認識データに基づいて新たな生字幕データを生成し、当該新たな生字幕データを出力する字幕処理部と、
を備えたことを特徴とするコンテンツ配信装置。
請求項１に記載のコンテンツ配信装置において、
前記字幕処理部は、
前記放送用送出信号から前記生字幕データを抽出する字幕抽出部と、
前記放送用送出信号に含まれる前記音声に対して前記音声認識処理を施し、前記音声認識データを生成する音声認識部と、
前記音声認識部により生成された前記音声認識データに対応する、前記字幕抽出部により抽出される前記生字幕データの前記遅延時間をカウントし、前記字幕遅延経過時刻を求め、
前記音声認識データと前記生字幕データとのマッチングを行い、当該マッチングが完了した場合、前記音声認識データに含まれる前記音声時刻情報と、前記生字幕データに含まれる前記字幕時刻情報との間の差分を算出し、当該差分に基づいて字幕遅延確定時刻を求めるマッチング部と、
前記生字幕データが抽出されて前記新たな生字幕データが出力されるまでの間の所定のマッチング補正処理時間を前記字幕遅延確定時刻に加算した時刻をマッチング補正完了予定時刻として、前記字幕遅延経過時刻が前記エンコード処理完了時刻以前であり、かつ、前記マッチング補正完了予定時刻が前記エンコード処理完了時刻以前である場合、前記マッチング部により前記マッチングが完了したタイミングで、前記音声認識データに含まれる前記音声時刻情報に基づいて、前記生字幕データに含まれる前記字幕時刻情報を補正し、補正後の前記生字幕データを前記新たな生字幕データとして出力し、
前記字幕遅延経過時刻が前記エンコード処理完了時刻以前であり、かつ、前記マッチング補正完了予定時刻が前記エンコード処理完了時刻以前でない場合、前記マッチング部により前記マッチングが完了したタイミングで、前記固定値または前記統計値に基づいて、前記生字幕データに含まれる前記字幕時刻情報を補正し、補正後の前記生字幕データを前記新たな生字幕データとして出力し、
前記字幕遅延経過時刻が前記エンコード処理完了時刻以前でない場合、前記エンコード処理完了時刻のタイミングで、前記音声認識データに基づいて前記新たな生字幕データを生成し、当該新たな生字幕データを出力する字幕補正部と、
を備えたことを特徴とするコンテンツ配信装置。
請求項２に記載のコンテンツ配信装置において、
前記字幕補正部は、
前記マッチング部により求めた前記字幕遅延経過時刻が前記エンコード処理完了時刻以前であり、かつ、前記マッチング補正完了予定時刻が前記エンコード処理完了時刻以前である場合、第１補正タイプを判断し、前記字幕遅延経過時刻が前記エンコード処理完了時刻以前であり、かつ、前記マッチング補正完了予定時刻が前記エンコード処理完了時刻以前でない場合、第２補正タイプを判断し、前記字幕遅延経過時刻が前記エンコード処理完了時刻以前でない場合、第３補正タイプを判断する補正タイプ判定部と、
前記補正タイプ判定部により前記第１補正タイプが判断された場合、前記生字幕データに含まれる前記字幕時刻情報を前記音声認識データに含まれる前記音声時刻情報に補正し、補正後の前記生字幕データを前記新たな生字幕データとして出力し、
前記第２補正タイプが判断された場合、前記生字幕データに含まれる前記字幕時刻情報の時刻から前記固定値または前記統計値を減算して減算結果を求め、前記生字幕データに含まれる前記字幕時刻情報を前記減算結果に補正し、補正後の前記生字幕データを前記新たな生字幕データとして出力し、
前記第３補正タイプが判断された場合、前記音声認識データに基づいて新たな生字幕データを生成し、当該新たな生字幕データを出力する字幕時刻補正部と、
を備えたことを特徴とするコンテンツ配信装置。
請求項３に記載のコンテンツ配信装置において、
前記字幕時刻補正部は、
前記第２補正タイプが判断された場合、前記放送番組の種類に対応したそれぞれの前記固定値または前記統計値が格納されたテーブルを用いて、前記放送用送出信号の前記放送番組に対応した前記固定値または前記統計値を前記テーブルから読み出し、前記生字幕データに含まれる前記字幕時刻情報の時刻から前記固定値または前記統計値を減算して減算結果を求め、前記生字幕データに含まれる前記字幕時刻情報を前記減算結果に補正し、補正後の前記生字幕データを前記新たな生字幕データとして出力する、ことを特徴とするコンテンツ配信装置。
コンピュータを、請求項１から４までのいずれか一項に記載のコンテンツ配信装置として機能させるためのプログラム。