JP2023105359A

JP2023105359A - コンテンツ配信装置、受信装置及びプログラム

Info

Publication number: JP2023105359A
Application number: JP2022006128A
Authority: JP
Inventors: 壮田中; So Tanaka; 岳史山田; Takeshi Yamada; 美帆小村; Miho Komura; 翔及川; Sho Oikawa; 修吉村; Osamu Yoshimura; 幸喜山下; Koki Yamashita
Original assignee: Nippon Hoso Kyokai NHK; Panasonic Intellectual Property Management Co Ltd; Japan Broadcasting Corp
Current assignee: Panasonic Intellectual Property Management Co Ltd; Japan Broadcasting Corp
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2023-07-31

Abstract

【課題】生放送番組の映像コンテンツをインターネット配信するシステムにおいて、番組内容に対する生字幕の表示遅延を高精度に抑制する。【解決手段】コンテンツ配信装置１の字幕処理部１２に備えた字幕抽出部２０は、放送用送出信号から生字幕データａを抽出し、音声認識部２１－１，・・・，２１－Ｎは、放送用送出信号に含まれる音声に対し、他の構成部とは異なる既知の音声認識処理を施し、音声認識データｂ１，・・・，ｂＮを生成する。マッチング部２２は、音声認識データｂ１，・・・，ｂＮのそれぞれについて、生字幕データａとの間でテキストマッチング率を求め、テキストマッチング率の最も高い音声認識データを判定し、当該音声認識データの時刻ｔbを用いて生字幕データａの時刻ｔaを補正することで、新たな生字幕データａ’を生成する。【選択図】図２

Description

本発明は、インターネットを介して、字幕データを含む映像のライブストリーミングを行うコンテンツ配信装置、受信装置及びプログラムに関する。

従来、テレビ放送では、聴覚障碍者向け放送サービスとして、放送番組の音声を文字で画面上に表示する字幕放送を提供している。生放送番組において送出される字幕（以下、「生字幕」という。）は、生放送番組の音声から、人手による書き起こしにて制作される。このため、生字幕は、書き起こしの時間だけ遅延することとなり、生放送番組の音声に対して遅れて画面表示される。

この生字幕の表示遅延を抑制するために、人手による書き起こしにて生字幕を制作する際には、音声認識技術または高速入力用キーボードの活用等の取り組みが行われている。一般に、字幕を制作する方式には、放送番組の音声から直接制作する方式、音声認識の精度を高めるために放送番組の音声を改めて雑音の少ない部屋で話し直す方式等がある。これらの方式の違いによって、字幕制作の遅延、放送番組の音声に対する字幕の再現性等が異なるのが現状である。

一方、近年のスマートフォン及び動画配信技術の普及により、放送番組を放送だけでなくインターネットでも同時に提供する需要が高まっている。

国外のいくつかの放送局においては、既に、番組を放送しながら同時に同じ番組をインターネットでも提供しており、このようなサービスは今後、日本国内でも展開されることが想定される。日本国内で同じサービスを提供するためには、放送と同等のサービスレベルをインターネットにおいても実現することが必要とされ、字幕サービスについても放送と同等のサービスレベルを実現することが必要とされる。

また、近年の動画配信において広く使われている技術として、アダプティブストリーミングがある。アダプティブストリーミングは、マルチビットレートのコンテンツを、受信装置の通信速度に応じて配信する動画品質を変化させることによって、途切れ難い動画配信を実現する技術である。

具体的には、配信側は、コンテンツを複数のビットレートでエンコードし、数秒単位に分割したファイルを生成する。ストリーミングを受信する受信側は、受信装置自体の通信速度に合わせたビットレートのファイルを配信側から順次取得し、ファイルを繋ぎ合わせて再生を行う。これにより、通信速度が変動する受信装置においても、コンテンツの再生を継続することができ、中断し難い動画配信を実現することができる（例えば、非特許文献１を参照）。

しかしながら、アダプティブストリーミングにおいては、配信側は、入力した映像音声データのコンテンツを一旦バッファに保持し、数秒毎にファイルを生成することから、少なくとも数秒の遅延が発生する。

一方、生放送番組において、放送と同じ信号を使用してそのままアダプティブストリーミング用のファイル生成処理（以下、「エンコード」という。）を行い、生成されたファイルを配信データとして、インターネットを介して配信する場合には、生字幕の表示が放送と同様に遅れることとなる。この場合、聴覚障碍者にとっては、番組内容に対する生字幕の表示遅延が小さい方が、番組内容への理解が容易となる。

この遅延を抑制するための技術として、生字幕の表示遅延の度合いに応じて、生字幕の時刻修正処理を変更するコンテンツ配信装置が提案されている（例えば、特許文献１を参照）。

特開２０２０－２７９８４号公報

A.Zambelli，"IIS Smooth Streaming Technical Overview"，Mar.2009

前述の特許文献１のコンテンツ配信装置は、生放送番組の映像コンテンツのライブ配信において、配信遅延部を設けることなく生字幕の同期を実現するものである。

具体的には、このコンテンツ配信装置は、放送用送出信号から抽出した生字幕データと、放送用送出信号に含まれる音声に対して音声認識処理を施すことで生成された音声認識データとの間の遅延時間から、字幕遅延経過時刻を求める。そして、コンテンツ配信装置は、字幕遅延経過時刻と、放送用送出信号のエンコードが完了するエンコード処理完了時刻とを比較し、その比較結果に応じて、生字幕データが画面表示される時刻に関する字幕時刻情報を補正する。

このように、特許文献１のコンテンツ配信装置では、音声認識処理を行うことを前提としているため、音声認識処理の認識性能が高い場合にのみ、番組内容に対する生字幕の表示遅延を抑制することができる。

しかしながら、音声認識処理の認識性能が低い場合には、生字幕データの字幕時刻情報に対して正しい時刻補正処理を行うことができず、結果として、番組内容に対する生字幕の表示遅延を高精度に抑制することができなくなる。

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、生放送番組の映像コンテンツをインターネット配信するシステムにおいて、番組内容に対する生字幕の表示遅延を高精度に抑制可能なコンテンツ配信装置、受信装置及びプログラムを提供することにある。

前記課題を解決するために、請求項１のコンテンツ配信装置は、生放送番組の映像コンテンツをインターネット配信する際に、前記映像コンテンツを含む放送用送出信号を入力し、前記放送用送出信号に基づいて配信データを生成すると共に、前記放送用送出信号に含まれる生字幕データの字幕時刻情報を補正するコンテンツ配信装置において、前記放送用送出信号をエンコードし、前記配信データを生成するエンコーダと、前記放送用送出信号から前記生字幕データを抽出し、前記生字幕データの字幕が画面表示される時刻を示す前記字幕時刻情報を補正することで、新たな生字幕データを生成する字幕処理部と、を備え、前記字幕処理部が、前記放送用送出信号から前記生字幕データを抽出する字幕抽出部と、前記放送用送出信号に含まれる音声に対し、所定の複数の異なる音声認識処理をそれぞれ施し、複数の異なる音声認識データを生成する音声認識部と、前記音声認識部により生成された前記複数の異なる音声認識データのそれぞれについて、前記字幕抽出部により抽出された前記生字幕データとの間でテキストマッチング率を算出し、前記テキストマッチング率の最も高い前記音声認識データを判定し、当該音声認識データの音声が出力される時刻を示す音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成するマッチング部と、を備えたことを特徴とする。

また、請求項２のコンテンツ配信装置は、請求項１に記載のコンテンツ配信装置において、前記マッチング部が、前記複数の異なる音声認識データのそれぞれについて、当該音声認識データを、前記生字幕データと同じ文字数を単位として分割し、複数の異なる分割音声認識データを生成し、前記生字幕データを正解データとして、前記正解データと前記複数の異なる分割音声認識データのそれぞれとの間の類似度を算出し、前記類似度が最も高い前記分割音声認識データをマッチング対象として判定し、前記複数の異なる音声認識データに対応する複数の異なるマッチング対象のそれぞれについて、前記生字幕データとの間で前記テキストマッチング率を算出し、前記テキストマッチング率の最も高い前記マッチング対象を判定し、当該マッチング対象の前記音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成する、ことを特徴とする。

さらに、請求項３の受信装置は、生放送番組の映像コンテンツを含むＩＰコンテンツを受信し、前記ＩＰコンテンツをデコードして放送信号を生成し、前記放送信号に含まれる映像音声及び字幕を再生する受信装置において、前記ＩＰコンテンツをデコードし、前記放送信号を生成するデコーダと、前記デコーダにより生成された前記放送信号を入力し、前記放送信号から生字幕データを抽出し、前記生字幕データの字幕が画面表示される時刻を示す字幕時刻情報を補正することで、新たな生字幕データを生成し、前記新たな生字幕データを出力する字幕処理部と、を備え、前記字幕処理部が、前記放送信号から前記生字幕データを抽出する字幕抽出部と、前記放送信号に含まれる音声に対し、所定の複数の異なる音声認識処理をそれぞれ施し、複数の異なる音声認識データを生成する音声認識部と、前記音声認識部により生成された前記複数の異なる音声認識データのそれぞれについて、前記字幕抽出部により抽出された前記生字幕データとの間でテキストマッチング率を算出し、前記テキストマッチング率の最も高い前記音声認識データを判定し、当該音声認識データの音声が出力される時刻を示す音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成するマッチング部と、を備えたことを特徴とする。

また、請求項４の受信装置は、請求項３に記載の受信装置において、前記マッチング部が、前記複数の異なる音声認識データのそれぞれについて、当該音声認識データを、前記生字幕データと同じ文字数を単位として分割し、複数の異なる分割音声認識データを生成し、前記生字幕データを正解データとして、前記正解データと前記複数の異なる分割音声認識データのそれぞれとの間の類似度を算出し、前記類似度が最も高い前記分割音声認識データをマッチング対象として判定し、前記複数の異なる音声認識データに対応する複数の異なるマッチング対象のそれぞれについて、前記生字幕データとの間で前記テキストマッチング率を算出し、前記テキストマッチング率の最も高い前記マッチング対象を判定し、当該マッチング対象の前記音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成する、ことを特徴とする。

また、請求項５の受信装置は、請求項３または４に記載の受信装置において、さらに、前記デコーダにより生成された前記放送信号を、前記字幕処理部が前記放送信号を入力してから前記新たな生字幕データを出力するまでの時間だけ遅延させる遅延部を備えたことを特徴とする。

さらに、請求項６のプログラムは、生放送番組の映像コンテンツをインターネット配信する際に、前記映像コンテンツを含む放送用送出信号を入力し、前記放送用送出信号に基づいて配信データを生成すると共に、前記放送用送出信号に含まれる生字幕データの字幕時刻情報を補正するコンテンツ配信装置を構成するコンピュータを、前記放送用送出信号をエンコードし、前記配信データを生成するエンコーダ、及び、前記放送用送出信号から前記生字幕データを抽出し、前記生字幕データの字幕が画面表示される時刻を示す前記字幕時刻情報を補正することで、新たな生字幕データを生成する字幕処理部として機能させるプログラムであって、前記字幕処理部が、前記放送用送出信号から前記生字幕データを抽出する字幕抽出部と、前記放送用送出信号に含まれる音声に対し、所定の複数の異なる音声認識処理をそれぞれ施し、複数の異なる音声認識データを生成する音声認識部と、前記音声認識部により生成された前記複数の異なる音声認識データのそれぞれについて、前記字幕抽出部により抽出された前記生字幕データとの間でテキストマッチング率を算出し、前記テキストマッチング率の最も高い前記音声認識データを判定し、当該音声認識データの音声が出力される時刻を示す音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成するマッチング部と、を備えたことを特徴とする。

また、請求項７のプログラムは、生放送番組の映像コンテンツを含むＩＰコンテンツを受信し、前記ＩＰコンテンツをデコードして放送信号を生成し、前記放送信号に含まれる映像音声及び字幕を再生する受信装置を構成するコンピュータを、前記ＩＰコンテンツをデコードし、前記放送信号を生成するデコーダ、及び、前記デコーダにより生成された前記放送信号を入力し、前記放送信号から生字幕データを抽出し、前記生字幕データの字幕が画面表示される時刻を示す字幕時刻情報を補正することで、新たな生字幕データを生成し、前記新たな生字幕データを出力する字幕処理部として機能させるプログラムであって、前記字幕処理部が、前記放送信号から前記生字幕データを抽出する字幕抽出部と、前記放送信号に含まれる音声に対し、所定の複数の異なる音声認識処理をそれぞれ施し、複数の異なる音声認識データを生成する音声認識部と、前記音声認識部により生成された前記複数の異なる音声認識データのそれぞれについて、前記字幕抽出部により抽出された前記生字幕データとの間でテキストマッチング率を算出し、前記テキストマッチング率の最も高い前記音声認識データを判定し、当該音声認識データの音声が出力される時刻を示す音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成するマッチング部と、を備えたことを特徴とする。

以上のように、本発明によれば、生放送番組の映像コンテンツをインターネット配信するシステムにおいて、番組内容に対する生字幕の表示遅延を高精度に抑制することができる。

本発明の実施形態によるコンテンツ配信装置を含むコンテンツ配信システムの全体構成例を示す概略図、及びコンテンツ配信装置の構成例を示すブロック図である。コンテンツ配信装置に備えた字幕処理部の構成例を示すブロック図である。マッチング部の構成例を示すブロック図である。音声認識判定部の処理例を示すフローチャートである。生字幕データａと音声認識データｂ１との間のテキストマッチング率の算出例を説明する図である。マッチング処理部の処理例を示すフローチャートである。マッチング処理部による処理の具体例を説明する図である。本発明の実施形態による受信装置を含むコンテンツ配信システムの全体構成例を示す概略図、及び受信装置の構成例を示すブロック図である。受信装置に備えた字幕処理部の構成例を示すブロック図である。遅延部の処理例を示すフローチャートである。

以下、本発明を実施するための形態について図面を用いて詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細な説明及び実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。尚、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の記載の主題を限定することは意図されていない。

本発明は、生放送番組の映像コンテンツをインターネット配信するコンテンツ配信システムにおいて、放送用送出信号に含まれる生字幕データと、放送用送出信号に含まれる音声に対する複数の異なる音声認識処理により得られたそれぞれの音声認識データとをマッチングし、マッチング率の高い音声認識データの時刻を用いて、生字幕データの時刻を補正することを特徴とする。

これにより、複数の異なる音声認識処理のうち高い認識性能を有する音声認識処理が選択されることとなる。そして、高い認識性能を有する音声認識処理により得られた音声認識データを用いることができるため、生字幕データに対して正しい時刻補正処理を行うことができる。このように、生字幕データに対して時刻補正処理を行うことで、映像上の発話のタイミングと、その発話に対応する生字幕データを対応付ける。したがって、番組内容に対する生字幕の表示遅延を高精度に抑制することができる。

〔コンテンツ配信システム〕
まず、本発明の実施形態によるコンテンツ配信装置を含むコンテンツ配信システムについて説明する。図１は、本発明の実施形態によるコンテンツ配信装置を含むコンテンツ配信システムの全体構成例を示す概略図、及びコンテンツ配信装置の構成例を示すブロック図である。

このコンテンツ配信システムは、ＩＰ網を介して、生放送番組の映像コンテンツをインターネット配信するシステム、すなわち映像のライブストリーミングを行うシステムであり、コンテンツ配信装置１、配信サーバ２及び受信装置１００を備えて構成される。

コンテンツ配信装置１は、外部から映像コンテンツを含む放送用送出信号を入力し、放送用送出信号をエンコードして複数のファイルに分割し、複数のファイルの配信データＤを生成する。放送用送出信号としては、例えばＳＤＩ（Serial Digital Interface：シリアルデジタルインターフェース）信号が用いられる。

コンテンツ配信装置１は、放送用送出信号に含まれる生字幕データと、放送用送出信号に含まれる音声に対する複数の異なる音声認識処理により得られたそれぞれの音声認識データとをマッチングし、生字幕データとそれぞれの音声認識データとの間で文字列のマッチング率を算出する。そして、コンテンツ配信装置１は、マッチング率の高い音声認識データに含まれる時刻を用いて生字幕データの時刻を補正し、生字幕データを、配信データＤにおける映像コンテンツの番組内容に同期させる。コンテンツ配信装置１は、配信データＤ及び同期後（補正後）の生字幕データａ’を配信サーバ２へ送信する。

コンテンツ配信装置１に入力される放送用送出信号は、映像、音声及び生字幕データ等から構成される。映像、音声及び生字幕データのそれぞれには、共通の時刻を基準とした時刻情報が含まれる。前述のとおり、生字幕データは、生放送番組の音声から人手による書き起こしにて制作されたデータであるため、映像及び音声の番組内容よりも遅延している。つまり、生字幕データに含まれる時刻は、音声認識処理により得られた音声認識データに含まれる時刻よりも遅れている。番組内容に対する生字幕データの遅延時間は、制作するオペレータ及び制作される生字幕データ自体に応じて変動する。

一例を用いて詳細を説明すると、放送用送出信号に含まれる映像に映っている人物が映像の時刻０：００～０：０２にて「おはようございます。」と発声した場合、同じ放送用送出信号に含まれる生字幕データにおける「おはようございます。」は、０：０７～０：０９のようにずれて保持されている。これは、一般的に生字幕データが人手による書き起こし等にて作成されているため、生字幕データの生成に要した時間分、映像は進んでおり、生字幕データを放送用送出信号に追加するときには、映像との時差が発生してしまうからである。したがって、放送用送出信号に含まれる映像と生字幕データはずれを持っていることが一般的であるといえる。

配信サーバ２は、コンテンツ配信装置１から映像コンテンツの配信データＤ及び生字幕データａ’を受信し、メモリに蓄積する。

受信装置１００は、例えばスマートフォン等の動画視聴プレーヤであり、従来の装置である。受信装置１００は、コンテンツ配信装置１から配信サーバ２及びＩＰ網を介して、図示しないプレイリストを取得し、プレイリストに基づいてファイル構造を把握する。そして、受信装置１００は、プレイリストに基づいて、配信データＤ及び生字幕データａ’を含むＩＰコンテンツを、ＩＰ網を介してＨＴＴＰ（Hypertext Transfer Protocol：ハイパーテキスト転送プロトコル）にて取得する。

受信装置１００は、プレイリストの時刻に従い、ＩＰコンテンツに含まれる配信データＤ及び生字幕データａ’を繋ぎ合わせ、映像及び字幕を画面表示すると共に、音声を出力することで、コンテンツを再生する。

これにより、受信装置１００は、映像及び音声に対する字幕の表示の遅延が小さい映像コンテンツを再生することができ、この字幕の表示遅延が小さいほど、ユーザは番組内容への理解が容易になる。特に聴覚障碍者にとっては、生字幕が番組内容への理解の材料として大きな役割を果たすため、その効果が大きい。

〔コンテンツ配信装置１〕
次に、本発明の実施形態によるコンテンツ配信装置１について説明する。図１において、コンテンツ配信装置１は、分配部１０、エンコーダ１１及び字幕処理部１２を備えている。分配部１０は、放送用送出信号を入力し、放送用送出信号を分配し、分配した放送用送出信号をエンコーダ１１及び字幕処理部１２に出力する。

エンコーダ１１は、分配部１０から放送用送出信号を入力し、放送用送出信号をエンコードすることで数秒単位のファイルに分割し、配信データＤを生成する。エンコーダ１１は、配信データＤを配信サーバ２へ送信する。

字幕処理部１２は、分配部１０から放送用送出信号を入力し、放送用送出信号から生字幕データを抽出すると共に、放送用送出信号に含まれる音声に対して複数の異なる音声認識処理を施し、複数の音声認識データを生成する。

字幕処理部１２は、生字幕データと、複数の音声認識データのそれぞれとの間で、テキストマッチングを行う。そして、字幕処理部１２は、複数の音声認識データのうち、テキストマッチング率の最も高い音声認識データを判定し、当該音声認識データの時刻を用いて、生字幕データの時刻を補正することで、新たな生字幕データａ’を生成する。字幕処理部１２は、生字幕データａ’を配信サーバ２へ送信する。

（字幕処理部１２）
次に、図１に示した字幕処理部１２について詳細に説明する。図２は、コンテンツ配信装置１に備えた字幕処理部１２の構成例を示すブロック図である。この字幕処理部１２は、字幕抽出部２０、音声認識部２１－１，・・・，２１－Ｎ及びマッチング部２２を備えている。Ｎは、２以上の整数である。

字幕抽出部２０は、分配部１０から放送用送出信号を入力し、放送用送出信号から生字幕データａを抽出し、生字幕データａをマッチング部２２に出力する。生字幕データａには、生字幕が画面表示される時刻ｔ_aに関する時刻情報（字幕時刻情報）が含まれる。

音声認識部２１－１，・・・，２１－Ｎは、互いに異なる音声認識処理を行う。例えば音声認識部２１－１，・・・，２１－Ｎは、異なる音声認識のライブラリを用いたり、異なる音声の波形処理等をしたりする。音声認識部２１－１は、分配部１０から放送用送出信号を入力し、放送用送出信号に含まれる音声に対して既知の音声認識処理を施し、音声認識データｂ１を生成し、音声認識データｂ１をマッチング部２２に出力する。音声認識データｂ１には、音声が出力される時刻ｔ_b1に関する時刻情報（音声時刻情報）が含まれる。

音声認識部２１－Ｎは、分配部１０から入力した放送用送出信号に含まれる音声に対して、他の音声認識部２１－１等とは異なる既知の音声認識処理を施し、音声認識データｂＮを生成し、音声認識データｂＮをマッチング部２２に出力する。音声認識データｂＮには、音声が出力される時刻ｔ_bNに関する時刻情報が含まれる。

マッチング部２２は、字幕抽出部２０から生字幕データａを入力すると共に、音声認識部２１－１，・・・，２１－Ｎから音声認識データｂ１，・・・，ｂＮを入力する。

マッチング部２２は、音声認識データｂ１について、生字幕データａと音声認識データｂ１とをマッチングし、マッチングにより同一であると判定した部分の生字幕データａを特定する。そして、マッチング部２２は、特定した生字幕データａと音声認識データｂ１との間でテキストマッチング率を求める。

マッチング部２２は、音声認識データｂ２，・・・，ｂＮについても、音声認識データｂ１と同様の処理を行い、テキストマッチング率を求める。

マッチング部２２は、音声認識データｂ１，・・・，ｂＮのうち、テキストマッチング率の最も高い音声認識データを判定し、当該音声認識データの時刻ｔ_bを用いて生字幕データの時刻ｔ_aを補正することで、新たな生字幕データａ’を生成して出力する。

図３は、マッチング部２２の構成例を示すブロック図である。このマッチング部２２は、入力部３０、音声認識判定部３１及びマッチング処理部３２を備えている。

入力部３０は、字幕抽出部２０から生字幕データａを入力すると共に、音声認識部２１－１，・・・，２１－Ｎから音声認識データｂ１，・・・，ｂＮを入力し、これらのデータを音声認識判定部３１に出力する。

入力部３０から音声認識判定部３１へ出力される生字幕データａ及び音声認識データｂ１，・・・，ｂＮの粒度は、文章単位とする。尚、その粒度は、文字単位、単語単位または複数文章単位としてもよい。

図４は、音声認識判定部３１の処理例を示すフローチャートである。音声認識判定部３１は、入力部３０から生字幕データａ及び音声認識データｂ１，・・・，ｂＮを入力する（ステップＳ４０１）。

具体的には、音声認識判定部３１は、まず、音声認識データｂ１，・・・，ｂＮのそれぞれを入力し、その後、音声認識データｂ１，・・・，ｂＮのそれぞれに対応する生字幕データａを入力する。そして、音声認識判定部３１は、音声認識データｂ１，・・・，ｂＮのそれぞれについて、生字幕データａとの間のマッチングを行い、マッチングにより同一であると判定した部分の生字幕データａを特定する。

音声認識判定部３１は、音声認識データｂ１，・・・，ｂＮのそれぞれについて、特定した生字幕データａを正解データとする。そして、音声認識判定部３１は、特定した生字幕データａと音声認識データｂ１，・・・，ｂＮのそれぞれとの間でテキストマッチングを行い、それぞれのテキストマッチング率を算出する（ステップＳ４０２）。

図５は、生字幕データａと音声認識データｂ１との間のテキストマッチング率の算出例を説明する図である。特定した生字幕データａを「本日の東京都は晴れる」とし、音声認識データｂ１を「ました本日の東京島は晴れるでしょう・・・」とする。生字幕データａは正解データとして扱われ、その文字数は１０文字である。

図５に示す例において、音声認識判定部３１は、音声認識データｂ１を、生字幕データａの文字数である１０文字を単位として分割し、１０文字の音声認識データ（分割音声認識データ）ｂ１－１，ｂ１－２，ｂ１－３，・・・をそれぞれ生成する。例えば、音声認識データｂ１－１として「た本日の東京島は晴れ」が生成され、音声認識データｂ１－２として「本日の東京島は晴れる」が生成され、音声認識データｂ１－３として「日の東京島は晴れるで」が生成される。

音声認識判定部３１は、正解データと音声認識データｂ１－１，ｂ１－２，ｂ１－３，・・・のそれぞれとの間で、例えばＮ－ｇｒａｍ検索により類似度を算出する。そして、音声認識判定部３１は、音声認識データｂ１－１，ｂ１－２，ｂ１－３，・・・のうち、類似度が最も高い音声認識データをマッチング対象として判定する。例えば、音声認識データｂ１－２「本日の東京島は晴れる」がマッチング対象として判定されたとする。尚、正解データと音声認識データとの間の類似度の算出処理は既知であるため、ここでは詳細な説明を省略する。

音声認識判定部３１は、１０文字の正解データ「本日の東京都は晴れる」と、マッチング対象である１０文字の音声認識データｂ１－２「本日の東京島は晴れる」との間でテキストマッチング率を算出する。例えば、音声認識判定部３１は、両データに対し、先頭文字の一致、各文字の一致、文字の連続一致、末尾文字の一致等をそれぞれスコア化し、スコアの合計点（正解データのスコア合計点、音声認識データｂ１－２のスコア合計点）を求める。そして、音声認識判定部３１は、音声認識データｂ１－２のスコア合計点を正解データのスコア合計点で除算することで、テキストマッチング率を求める。尚、テキストマッチング率の算出方法は既知であるため、ここでは詳細な説明を省略する。

また、音声認識判定部３１は、マッチング対象である１０文字の音声認識データｂ１－２を、音声認識データｂ１に設定する。これにより、音声認識データｂ１「ました本日の東京島は晴れるでしょう・・・」の代わりに、音声認識データｂ１－２「本日の東京島は晴れる」が音声認識データｂ１として、後述の処理に用いられる。

新たな音声認識データｂ１「本日の東京島は晴れる」の音声が出力される時刻ｔ_b1は、音声認識データｂ１「ました本日の東京島は晴れるでしょう・・・」の音声が出力される時刻ｔ_b1と異なることとなる。

このように、生字幕データａを正解データとして、音声認識データｂ１との間のテキストマッチング率が算出される。

尚、音声認識判定部３１は、ステップＳ４０２において、生字幕データａの代わりに、外部から入力した番組原稿を正解データとして、音声認識データｂ１，・・・，ｂＮのそれぞれとの間でテキストマッチングを行うようにしてもよい。

この場合、図３に示すように、マッチング部２２は、入力部３０、音声認識判定部３１及びマッチング処理部３２に加え、さらに通信部３３を備え、通信部３３は、番組原稿等を含む番組情報を受信し、番組原稿を音声認識判定部３１に出力する。通信部３３が番組情報を受信して番組原稿を出力する頻度は任意であり、数秒単位であってもよく、番組単位または１日単位であってもよい。

図３及び図４に戻って、音声認識判定部３１は、音声認識データｂ１，・・・，ｂＮのそれぞれのテキストマッチング率を用いて、音声認識データｂ１，・・・，ｂＮのうち、テキストマッチング率が最も高い音声認識データｂを判定する（ステップＳ４０３）。

音声認識判定部３１は、生字幕データａ、音声認識データｂ、及び当該音声認識データｂのテキストマッチング率をマッチング処理部３２に出力する（ステップＳ４０４）。

図６は、マッチング処理部３２の処理例を示すフローチャートである。マッチング処理部３２は、音声認識判定部３１から、生字幕データａ、音声認識データｂ、及び当該音声認識データｂのテキストマッチング率を入力する（ステップＳ６０１）。

マッチング処理部３２は、テキストマッチング率と、予め設定された閾値とを比較する（ステップＳ６０２）。

マッチング処理部３２は、ステップＳ６０２において、テキストマッチング率が閾値以上であると判定した場合（ステップＳ６０２：≧）、生字幕データａと音声認識データｂとの間のマッチングが成功したと判断する。

そして、マッチング処理部３２は、生字幕データａに含まれる時刻ｔ_a（生字幕データａが画面表示される時刻ｔ_a）に、音声認識データｂに含まれる時刻ｔ_b（音声認識データｂの音声が出力される時刻ｔ_b）を上書きし（ｔ_a←ｔ_b）、新たな生字幕データａ’を生成する（ステップＳ６０３）。生字幕データａ’には、生字幕データａが画面表示される時刻ｔ_bが、時刻ｔ_aとして含まれることとなる。

マッチング処理部３２は、ステップＳ６０２において、テキストマッチング率が閾値よりも小さいと判定した場合（ステップＳ６０２：＜）、生字幕データａと音声認識データｂとの間のマッチングが失敗したと判断する。

そして、マッチング処理部３２は、生字幕データａに含まれる時刻ｔ_aから所定の値Ｐを減算し、生字幕データａに含まれる時刻ｔ_aに、減算結果を上書きし（ｔ_a←ｔ_a－Ｐ）、新たな生字幕データａ’を生成する（ステップＳ６０４）。生字幕データａ’には、生字幕データａが画面表示される時刻ｔ_a－Ｐが、新たな時刻ｔ_aとして含まれることとなる。

所定の値Ｐは、予め設定された固定値であってもよいし、直近のマッチング成功時における実績値の移動平均値であってもよい。後者の場合、マッチング処理部３２は、マッチングが成功したときのステップＳ６０３の処理における直近の所定数の時刻ｔ_a，ｔ_bを保持しておき、時刻ｔ_aから時刻ｔ_bを減算した結果の平均値を算出し、当該平均値を所定の値Ｐに設定する。このようにして設定された値Ｐは、ステップＳ６０４の処理に用いられる。

マッチング処理部３２は、ステップＳ６０３，Ｓ６０４から移行して、生字幕データａ’を出力する（ステップＳ６０５）。

尚、マッチング処理部３２は、ステップＳ６０２（＜）の場合、すなわち生字幕データａと音声認識データｂとの間のマッチングが失敗したと判断した場合、前述のステップＳ６０４の処理の代わりに、ステップＳ６０３の処理と同様に、生字幕データａに含まれる時刻ｔ_aに、音声認識データｂに含まれる時刻ｔ_bを上書きし、新たな生字幕データａ’を生成するようにしてもよい。

また、マッチング処理部３２は、ステップＳ６０２（＜）の場合、前述のステップＳ６０４の処理を行わないようにしてもよい。この場合、マッチング処理部３２は、生字幕データａ’を出力しない。

図７は、マッチング処理部３２による処理の具体例を説明する図である。生字幕データａ「東京都は晴れ」の時刻ｔ_aが「１０：００：１０」、これに対応する音声認識データｂ「東京島は晴れ」の時刻ｔ_bが「１０：００：００」であるとする。また、図６のステップＳ６０２において、この場合のテキストマッチング率が閾値以上であり（ステップＳ６０２：≧）、生字幕データａと音声認識データｂとの間のマッチングが成功したものとする。

そうすると、図６のステップＳ６０３により、生字幕データａに含まれる時刻ｔ_a「１０：００：１０」に、音声認識データｂに含まれる時刻ｔ_b「１０：００：００」が上書きされ、放送内容に同期した生字幕データａ’が生成される。これにより、生字幕データａ「東京都は晴れ」の時刻ｔ_a「１０：００：１０」は「１０：００：００」に補正され、新たな生字幕データａ’が生成される。

また、生字幕データａ「神奈川県は雨」の時刻ｔ_aが「１０：００：１７」、これに対応する音声認識データｂ「神奈川県は飴」の時刻ｔ_bが「１０：００：０６」であり、マッチングが成功したものとする。この場合、生字幕データａの時刻ｔ_a「１０：００：１７」は「１０：００：０６」に補正され、放送内容に同期した生字幕データａ’が生成される。

また、生字幕データａ「埼玉県はくもり」の時刻ｔ_aが「１０：００：２６」、これに対応する音声認識データｂ「埼玉県はくすり」の時刻ｔ_bが「１０：００：１５」であり、マッチングが成功したものとする。この場合、生字幕データａの時刻ｔ_a「１０：００：２６」は「１０：００：１５」に補正され、放送内容に同期した生字幕データａ’が生成される。

このように、テキストマッチングが成功し、生字幕データａの内容と音声認識データｂの内容が同じであると判断された場合、対応する生字幕データａの時刻ｔ_aが音声認識データｂの時刻ｔ_bで上書きされる。これにより、放送内容に同期した生字幕データａ’が生成される。

尚、マッチング処理部３２は、図６のステップＳ６０３，Ｓ６０４にて生字幕データａ’を生成する際に、生字幕データａ’における字幕の表示時間を、生字幕データａ’を構成する文字数に応じて変更するようにしてもよい。字幕の表示時間は、字幕の表示を開始する時刻と字幕の表示を終了する時刻との間の時間期間である。

具体的には、マッチング処理部３２は、生字幕データａ’を構成する文字数に、予め設定された１文字あたりの表示時間を乗算し、生字幕データａ’における字幕の表示時間を求め、これを生字幕データａ’に含まれる当該字幕の表示時間に反映する。

以上のように、本発明の実施形態のコンテンツ配信装置１によれば、エンコーダ１１は、放送用送出信号をエンコードして配信データＤを生成する。字幕処理部１２の字幕抽出部２０は、放送用送出信号から生字幕データａを抽出する。また、音声認識部２１－１，・・・，２１－Ｎは、放送用送出信号に含まれる音声に対し、他の構成部とは異なる既知の音声認識処理を施し、音声認識データｂ１，・・・，ｂＮを生成する。

マッチング部２２は、音声認識データｂ１，・・・，ｂＮのそれぞれについて、生字幕データａとの間でテキストマッチング率を求める。そして、マッチング部２２は、音声認識データｂ１，・・・，ｂＮのうち、テキストマッチング率の最も高い音声認識データを判定し、当該音声認識データの時刻ｔ_bを用いて生字幕データａの時刻ｔ_aを補正することで、新たな生字幕データａ’を生成して出力する。

配信データＤ及び生字幕データａ’は配信サーバ２へ送信され、配信データＤ及び生字幕データａ’を含むＩＰコンテンツは、ＩＰ網を介して受信装置１００へ送信される。

このように、生字幕データａの時刻ｔ_aは、認識性能の最も高い音声認識処理により得られた音声認識データの時刻ｔ_bを用いて補正され、新たな生字幕データａ’が生成される。これにより、生放送番組の映像コンテンツをインターネット配信するコンテンツ配信システムにおいて、番組内容に対する生字幕の表示遅延を高精度に抑制することができ、より分かりやすい番組提供が可能となる。また、コンテンツ配信装置１は、字幕処理部１２の処理をエンコーダ１１の処理と並行して行うことで、エンコードに係る時間を活用して字幕の表示遅延を抑制することができる。

ここで、音声認識部２１－１，・・・，２１－Ｎによる音声認識処理の認識性能は、生放送番組の映像コンテンツの種類（ニュース、スポーツ、バラエティ等）に応じて異なるのが一般的である。前述のとおり、生字幕データａの時刻ｔ_aは、音声認識部２１－１，・・・，２１－Ｎによるそれぞれの音声認識処理のうち、認識性能の最も高い音声認識処理により得られた音声認識データの時刻ｔ_bを用いて補正される。このため、本発明の実施形態では、生放送番組の映像コンテンツの種類に応じて、音声認識処理の認識性能の違いを吸収することができる。つまり、生放送番組の映像コンテンツの種類に応じて、認識性能の最も高い音声認識処理が用いられるため、これにより得られた音声認識データの時刻ｔ_bは、生字幕データａの時刻ｔ_aとして用いる際に精度の高いものとなる。結果として、番組内容に対する生字幕の表示遅延を高精度に抑制することができる。

尚、図１に示したコンテンツ配信装置１において、字幕処理部１２は、インターネット配信用の字幕生成を想定して生字幕データａ’を生成し、生字幕データａ’を配信サーバ２へ送信するようにした。これに対し、コンテンツ配信装置１の字幕処理部１２は、生字幕データａ’を、放送システム用の信号（例えばＳＤＩ信号）に再度多重する等、別アプリケーション用の処理を行うようにしてもよい。

〔他のコンテンツ配信システム〕
次に、本発明の実施形態による受信装置を含むコンテンツ配信システムについて説明する。図８は、本発明の実施形態による受信装置を含むコンテンツ配信システムの全体構成例を示す概略図、及び受信装置の構成例を示すブロック図である。

このコンテンツ配信システムは、図１と同様に、ＩＰ網を介して、生放送番組の映像コンテンツをインターネット配信するシステム、すなわち映像のライブストリーミングを行うシステムであり、コンテンツ配信装置１０１、配信サーバ１０２及び受信装置３を備えて構成される。

図１に示したコンテンツ配信システムと、図８に示すコンテンツ配信システムとを比較すると、図１では、コンテンツ配信装置１が、生字幕データａと複数の音声認識データｂ１，・・・，ｂＮとの間のマッチング結果に従い、生字幕データａの時刻ｔ_aを補正し、生字幕データａ’を生成する。これに対し、図８では、受信装置３が、生字幕データａと複数の音声認識データｂ１，・・・，ｂＮとの間のマッチング結果に従い、生字幕データａの時刻ｔ_aを補正し、生字幕データａ’を生成する。

コンテンツ配信装置１０１は、従来のコンテンツ配信装置である。コンテンツ配信装置１０１は、外部から映像コンテンツの放送用送出信号を入力し、放送用送出信号をエンコードして複数のファイルに分割し、複数のファイルの配信データＤを生成する。コンテンツ配信装置１０１は、配信データＤを配信サーバ１０２へ送信する。

配信サーバ１０２は、従来の配信サーバである。配信サーバ１０２は、コンテンツ配信装置１０１から映像コンテンツの配信データＤを受信し、メモリに蓄積する。ここで、メモリに蓄積された配信データＤにおいて、配信データＤに含まれる生字幕データａの時刻ｔ_aは、これに対応する映像音声（配信データＤに含まれる映像音声）の時刻に対して遅れている。つまり、配信サーバ１０２に蓄積された配信データＤの視聴が行われると、映像の音声に対して字幕が遅れて表示されるということである。

受信装置３は、例えばスマートフォン、テレビ、レコーダ等の動画視聴プレーヤであり、コンテンツ配信装置１０１から配信サーバ１０２及びＩＰ網を介して、図示しないプレイリストを取得し、プレイリストに基づいてファイル構造を把握する。そして、受信装置３は、プレイリストに基づいて、配信データＤを含むＩＰコンテンツを、ＩＰ網を介してＨＴＴＰ（Hypertext Transfer Protocol：ハイパーテキスト転送プロトコル）にて取得する。尚、プレイリストという形式にとらわれるものではなく、受信装置３は、例えば番組または時間毎に必要となる、配信データＤを含むＩＰコンテンツに関する情報を用意しておき、当該情報に基づいて、対象となるＩＰコンテンツを取得してもよい。

受信装置３は、プレイリストの時刻に従い、ＩＰコンテンツに含まれる配信データＤをデコードし、デコードにより生成された生字幕データａと、音声に対する複数の異なる音声認識処理により得られた音声認識データｂ１，・・・，ｂＮのそれぞれとをマッチングする。そして、受信装置３は、マッチング率も最も高い音声認識データに含まれる時刻ｔ_bを用いて生字幕データａの時刻ｔ_aを補正する。また、受信装置３は、デコードにより生成された映像音声を、音声認識処理等の時間だけ遅延させる。これにより、生字幕データａ’を、配信データＤにおける映像コンテンツの番組内容に同期させることができる。

受信装置３は、映像及び生字幕データａ’の字幕を画面表示すると共に、音声を出力することで、コンテンツを再生する。

これにより、受信装置３は、映像及び音声に対する字幕の表示の遅延が小さい映像コンテンツを再生することができ、この字幕の表示遅延が小さいほど、ユーザは番組内容への理解が容易になる。特に聴覚障碍者にとっては、生字幕が番組内容への理解の材料として大きな役割を果たすため、その効果が大きい。

〔受信装置３〕
次に、本発明の実施形態による受信装置３について説明する。図８において、受信装置３は、受信部４０、デコーダ４１、字幕処理部４２、遅延部４３及び表示部４４を備えている。

受信部４０は、配信サーバ１０２からＩＰ網を介して、配信データＤを含むＩＰコンテンツを受信し、受信処理を行い、配信データＤをデコーダ４１に出力する。

デコーダ４１は、受信部４０から配信データＤを入力し、配信データＤをデコードすることで結合し、放送信号を生成する。そして、デコーダ４１は、放送信号から映像音声信号を抽出すると共に、音声字幕信号を抽出し、映像音声信号を遅延部４３に出力し、音声字幕信号を字幕処理部４２に出力する。ここで、音声字幕信号に含まれる生字幕データａは、これに対応する音声に対して遅延している。つまり、生字幕データａに含まれる時刻ｔ_aが、対応する音声の時刻ｔ_bに対して遅れている。したがって、このままの状態で視聴が行われると、映像の音声に対して字幕が遅れて表示される。

字幕処理部４２は、図１に示した字幕処理部１２に対応している。字幕処理部４２は、デコーダ４１から音声字幕信号を入力し、音声字幕信号から生字幕データａを抽出すると共に、音声字幕信号に含まれる音声に対して複数の異なる音声認識処理を施し、音声認識データｂ１，・・・，ｂＮを生成する。

字幕処理部４２は、生字幕データａと音声認識データｂ１，・・・，ｂＮのそれぞれとの間で、テキストマッチングを行う。そして、字幕処理部４２は、音声認識データｂ１，・・・，ｂＮのうち、テキストマッチング率の最も高い音声認識データを判定し、当該音声認識データの時刻ｔ_bを用いて生字幕データａの時刻ｔ_aを補正することで、新たな生字幕データａ’を生成する。字幕処理部４２は、生字幕データａ’を表示部４４に出力する。

字幕処理部４２は、生字幕データａ’の生成が完了したタイミングで、生成完了を遅延部４３に出力する。生成完了は、遅延部４３において、当該遅延部４３が入力する映像音声信号を、字幕処理部４２が音声字幕信号を入力してから生字幕データａ’を出力するまでの間の時間だけ遅延させるために用いられる。字幕処理部４２の詳細については後述する。

尚、字幕処理部４２は、音声字幕信号を入力してから、生字幕データａ’の生成が完了するまでの間の時間をカウントし、生字幕データａ’の生成が完了したタイミングで、カウントした時間を遅延時間として遅延部４３に出力するようにしてもよい。

遅延部４３は、デコーダ４１から映像音声信号を入力し、映像音声信号をバッファに保持する。そして、遅延部４３は、字幕処理部４２から生成完了を入力すると、バッファから、生成完了の生字幕データａ’に対応する映像音声信号を読み出し、映像音声信号を表示部４４に出力する。

また、遅延部４３は、生成完了に対応する映像音声信号をバッファに保持してから読み出すまでの間の時間を遅延時間として算出する。そして、遅延部４３は、字幕処理部４２から次の生成完了を入力するまでの間、バッファに映像音声信号を保持した後、当該遅延時間が経過したときに、バッファから当該映像音声信号を読み出して表示部４４に出力する。遅延部４３の詳細については後述する。

尚、遅延部４３は、字幕処理部４２から遅延時間を入力した場合、既にバッファに保持されている映像音声信号について、バッファに保持してから当該遅延時間経過後に、バッファから読み出して出力する。そして、遅延部４３は、バッファに保持される新たな映像音声信号についても、バッファに保持してから当該遅延時間経過後に、バッファから読み出して出力する。そして、遅延部４３は、字幕処理部４２から新たな遅延時間を入力すると、当該新たな遅延時間を用いて、前述と同様の処理を行う。

表示部４４は、字幕処理部４２から生字幕データａ’を入力すると共に、遅延部４３から映像音声信号を入力し、映像音声信号及び生字幕データａ’を再生して表示する。尚、表示部４４は、受信装置３とは別の装置（表示装置）であってもよい。この場合、受信装置３は、当該表示装置に対して、映像音声信号及び生字幕データａ’を出力することとなる。

（字幕処理部４２）
次に、図８に示した字幕処理部４２について詳細に説明する。図９は、受信装置３に備えた字幕処理部４２の構成例を示すブロック図である。この字幕処理部４２は、字幕抽出部５０、音声認識部５１－１，・・・，５１－Ｎ及びマッチング部５２を備えている。字幕処理部４２は、図２に示した字幕処理部１２と同様の処理を行い、さらに、生字幕データａ’の生成が完了したタイミングで、生成完了を遅延部４３に出力する。

字幕抽出部５０は、デコーダ４１から音声字幕信号を入力し、図２に示した字幕抽出部２０と同様の処理を行い、生字幕データａをマッチング部５２に出力する。字幕抽出部５０の処理の説明については省略する。

音声認識部５１－１，・・・，５１－Ｎは、デコーダ４１から音声字幕信号を行い、図２に示した音声認識部２１－１，・・・，２１－Ｎと同様の処理を行い、音声認識データｂ１，・・・，ｂＮをマッチング部５２に出力する。音声認識部５１－１，・・・，５１－Ｎの処理の説明については省略する。

マッチング部５２は、字幕抽出部５０から生字幕データａを入力すると共に、音声認識部５１－１，・・・，５１－Ｎから音声認識データｂ１，・・・，ｂＮを入力し、図２に示したマッチング部２２と同様の処理を行い、生字幕データａ’を表示部４４に出力する。マッチング部５２の処理の説明については省略する。

マッチング部５２は、さらに、生字幕データａ’の生成が完了したタイミングで、生成完了を遅延部４３に出力する。

尚、マッチング部５２は、図２及び図３に示したマッチング部２２と同様に、生字幕データａの代わりに、外部から入力した番組原稿を正解データとして、音声認識データｂ１，・・・，ｂＮのそれぞれとの間でテキストマッチングを行うようにしてもよい。

（遅延部４３）
次に、図８に示した遅延部４３について詳細に説明する。図１０は、遅延部４３の処理例を示すフローチャートである。

遅延部４３は、デコーダ４１から映像音声信号を入力し（ステップＳ１００１）、映像音声信号をバッファに保持する（ステップＳ１００２）。

遅延部４３は、字幕処理部４２から生成完了を入力したか否かを判定する（ステップＳ１００３）。遅延部４３は、ステップＳ１００３において、生成完了を入力していないと判定した場合（ステップＳ１００３：Ｎ）、ステップＳ１００１へ移行し、ステップＳ１００１，Ｓ１００２の処理を行う。

遅延部４３は、ステップＳ１００３において、生成完了を入力したと判定した場合（ステップＳ１００３：Ｙ）、バッファから、当該生成完了の生字幕データａ’に対応する映像音声信号を読み出し、表示部４４に出力する（ステップＳ１００４）。

以上のように、本発明の実施形態の受信装置３によれば、デコーダ４１は、配信データＤをデコードして放送信号を生成し、放送信号から映像音声信号及び音声字幕信号を抽出する。字幕処理部４２の字幕抽出部５０は、音声字幕信号から生字幕データａを抽出する。また、音声認識部５１－１，・・・，５１－Ｎは、音声字幕信号に含まれる音声に対し、他の構成部とは異なる既知の音声認識処理を施し、音声認識データｂ１，・・・，ｂＮを生成する。

マッチング部５２は、音声認識データｂ１，・・・，ｂＮのそれぞれについて、生字幕データａとの間でテキストマッチング率を求める。そして、マッチング部５２は、音声認識データｂ１，・・・，ｂＮのうち、テキストマッチング率の最も高い音声認識データを判定し、当該音声認識データの時刻ｔ_bを用いて生字幕データａの時刻ｔ_aを補正することで、新たな生字幕データａ’を生成して表示部４４に出力する。

また、マッチング部５２は、生字幕データａ’の生成が完了したタイミングで、生成完了を遅延部４３に出力する。

遅延部４３は、映像音声信号をバッファに保持し、字幕処理部４２から生成完了を入力すると、バッファから、生成完了の生字幕データａ’に対応する映像音声信号を読み出して表示部４４に出力する。

このように、生字幕データの時刻ｔ_aは、認識性能の最も高い音声認識処理により得られた音声認識データの時刻ｔ_bを用いて補正され、新たな生字幕データａ’が生成される。これにより、生放送番組の映像コンテンツをインターネット配信するコンテンツ配信システムにおいて、番組内容に対する生字幕の表示遅延を高精度に抑制することができ、より分かりやすい番組提供が可能となる。

また、図１に示したコンテンツ配信装置１の場合と同様に、生放送番組の映像コンテンツの種類に応じて、番組内容に対する生字幕の表示遅延を高精度に抑制することができる。

さらに、映像音声信号は、遅延部４３において、字幕処理部４２により生字幕データａ’が生成される処理の時間だけ遅延することとなる。このため、映像音声信号と生字幕データａ’とを同期させることができ、表示部４４は、同期した映像音声及び字幕を再生することができる。

尚、図８に示したコンテンツ配信システムは、ＩＰコンテンツを、ＩＰ網を介して配信するシステムであるが、ＩＰコンテンツを放送波にて伝送するシステムにも適用がある。この場合、受信装置３の受信部４０は、放送局から送信されたＩＰコンテンツを含む放送波を受信し、復号等の受信処理を行う。

以上、図面を参照しながら本発明の実施形態について説明したが、本開示はかかる例に限定されないことはいうまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例または均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、前述した本発明の実施形態における各構成要素を任意に組み合わせてもよい。

尚、本発明の実施形態によるコンテンツ配信装置１及び受信装置３のハードウェア構成としては、通常のコンピュータを使用することができる。コンテンツ配信装置１及び受信装置３は、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。

コンテンツ配信装置１に備えた分配部１０、エンコーダ１１及び字幕処理部１２の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。

また、受信装置３に備えた受信部４０、デコーダ４１、字幕処理部４２、遅延部４３及び表示部４４の各機能も、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。

これらのプログラムは、前記記憶媒体に格納されており、ＣＰＵに読み出されて実行される。また、これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。

１，１０１コンテンツ配信装置
２，１０２配信サーバ
３受信装置
１０分配部
１１エンコーダ
１２，４２字幕処理部
２０，５０字幕抽出部
２１－１，・・・，２１－Ｎ，５１－１，・・・，５１－Ｎ音声認識部
２２，５２マッチング部
３０入力部
３１音声認識判定部
３２マッチング処理部
３３通信部
４０受信部
４１デコーダ
４３遅延部
４４表示部
１００受信装置
ａ，ａ’ 生字幕データ
ｂ１，・・・，ｂＮ音声認識データ

Claims

生放送番組の映像コンテンツをインターネット配信する際に、前記映像コンテンツを含む放送用送出信号を入力し、前記放送用送出信号に基づいて配信データを生成すると共に、前記放送用送出信号に含まれる生字幕データの字幕時刻情報を補正するコンテンツ配信装置において、
前記放送用送出信号をエンコードし、前記配信データを生成するエンコーダと、
前記放送用送出信号から前記生字幕データを抽出し、前記生字幕データの字幕が画面表示される時刻を示す前記字幕時刻情報を補正することで、新たな生字幕データを生成する字幕処理部と、を備え、
前記字幕処理部は、
前記放送用送出信号から前記生字幕データを抽出する字幕抽出部と、
前記放送用送出信号に含まれる音声に対し、所定の複数の異なる音声認識処理をそれぞれ施し、複数の異なる音声認識データを生成する音声認識部と、
前記音声認識部により生成された前記複数の異なる音声認識データのそれぞれについて、前記字幕抽出部により抽出された前記生字幕データとの間でテキストマッチング率を算出し、前記テキストマッチング率の最も高い前記音声認識データを判定し、当該音声認識データの音声が出力される時刻を示す音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成するマッチング部と、
を備えたことを特徴とするコンテンツ配信装置。
請求項１に記載のコンテンツ配信装置において、
前記マッチング部は、
前記複数の異なる音声認識データのそれぞれについて、当該音声認識データを、前記生字幕データと同じ文字数を単位として分割し、複数の異なる分割音声認識データを生成し、前記生字幕データを正解データとして、前記正解データと前記複数の異なる分割音声認識データのそれぞれとの間の類似度を算出し、前記類似度が最も高い前記分割音声認識データをマッチング対象として判定し、
前記複数の異なる音声認識データに対応する複数の異なるマッチング対象のそれぞれについて、前記生字幕データとの間で前記テキストマッチング率を算出し、前記テキストマッチング率の最も高い前記マッチング対象を判定し、当該マッチング対象の前記音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成する、ことを特徴とするコンテンツ配信装置。
生放送番組の映像コンテンツを含むＩＰコンテンツを受信し、前記ＩＰコンテンツをデコードして放送信号を生成し、前記放送信号に含まれる映像音声及び字幕を再生する受信装置において、
前記ＩＰコンテンツをデコードし、前記放送信号を生成するデコーダと、
前記デコーダにより生成された前記放送信号を入力し、前記放送信号から生字幕データを抽出し、前記生字幕データの字幕が画面表示される時刻を示す字幕時刻情報を補正することで、新たな生字幕データを生成し、前記新たな生字幕データを出力する字幕処理部と、を備え、
前記字幕処理部は、
前記放送信号から前記生字幕データを抽出する字幕抽出部と、
前記放送信号に含まれる音声に対し、所定の複数の異なる音声認識処理をそれぞれ施し、複数の異なる音声認識データを生成する音声認識部と、
前記音声認識部により生成された前記複数の異なる音声認識データのそれぞれについて、前記字幕抽出部により抽出された前記生字幕データとの間でテキストマッチング率を算出し、前記テキストマッチング率の最も高い前記音声認識データを判定し、当該音声認識データの音声が出力される時刻を示す音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成するマッチング部と、
を備えたことを特徴とする受信装置。
請求項３に記載の受信装置において、
前記マッチング部は、
前記複数の異なる音声認識データのそれぞれについて、当該音声認識データを、前記生字幕データと同じ文字数を単位として分割し、複数の異なる分割音声認識データを生成し、前記生字幕データを正解データとして、前記正解データと前記複数の異なる分割音声認識データのそれぞれとの間の類似度を算出し、前記類似度が最も高い前記分割音声認識データをマッチング対象として判定し、
前記複数の異なる音声認識データに対応する複数の異なるマッチング対象のそれぞれについて、前記生字幕データとの間で前記テキストマッチング率を算出し、前記テキストマッチング率の最も高い前記マッチング対象を判定し、当該マッチング対象の前記音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成する、ことを特徴とする受信装置。
請求項３または４に記載の受信装置において、
さらに、前記デコーダにより生成された前記放送信号を、前記字幕処理部が前記放送信号を入力してから前記新たな生字幕データを出力するまでの時間だけ遅延させる遅延部を備えたことを特徴とする受信装置。
生放送番組の映像コンテンツをインターネット配信する際に、前記映像コンテンツを含む放送用送出信号を入力し、前記放送用送出信号に基づいて配信データを生成すると共に、前記放送用送出信号に含まれる生字幕データの字幕時刻情報を補正するコンテンツ配信装置を構成するコンピュータを、
前記放送用送出信号をエンコードし、前記配信データを生成するエンコーダ、及び、
前記放送用送出信号から前記生字幕データを抽出し、前記生字幕データの字幕が画面表示される時刻を示す前記字幕時刻情報を補正することで、新たな生字幕データを生成する字幕処理部として機能させるプログラムであって、
前記字幕処理部は、
前記放送用送出信号から前記生字幕データを抽出する字幕抽出部と、
前記放送用送出信号に含まれる音声に対し、所定の複数の異なる音声認識処理をそれぞれ施し、複数の異なる音声認識データを生成する音声認識部と、
前記音声認識部により生成された前記複数の異なる音声認識データのそれぞれについて、前記字幕抽出部により抽出された前記生字幕データとの間でテキストマッチング率を算出し、前記テキストマッチング率の最も高い前記音声認識データを判定し、当該音声認識データの音声が出力される時刻を示す音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成するマッチング部と、
を備えたことを特徴とするプログラム。
生放送番組の映像コンテンツを含むＩＰコンテンツを受信し、前記ＩＰコンテンツをデコードして放送信号を生成し、前記放送信号に含まれる映像音声及び字幕を再生する受信装置を構成するコンピュータを、
前記ＩＰコンテンツをデコードし、前記放送信号を生成するデコーダ、及び、
前記デコーダにより生成された前記放送信号を入力し、前記放送信号から生字幕データを抽出し、前記生字幕データの字幕が画面表示される時刻を示す字幕時刻情報を補正することで、新たな生字幕データを生成し、前記新たな生字幕データを出力する字幕処理部として機能させるプログラムであって、
前記字幕処理部は、
前記放送信号から前記生字幕データを抽出する字幕抽出部と、
前記放送信号に含まれる音声に対し、所定の複数の異なる音声認識処理をそれぞれ施し、複数の異なる音声認識データを生成する音声認識部と、
前記音声認識部により生成された前記複数の異なる音声認識データのそれぞれについて、前記字幕抽出部により抽出された前記生字幕データとの間でテキストマッチング率を算出し、前記テキストマッチング率の最も高い前記音声認識データを判定し、当該音声認識データの音声が出力される時刻を示す音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成するマッチング部と、
を備えたことを特徴とするプログラム。