JP6707422B2

JP6707422B2 - 対話型解説付き音声提示装置およびそのプログラム

Info

Publication number: JP6707422B2
Application number: JP2016160991A
Authority: JP
Inventors: 清水　俊宏; 俊宏清水; 今井　篤; 篤今井; 麻乃一木; 都木　徹; 徹都木
Original assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2016-08-19
Filing date: 2016-08-19
Publication date: 2020-06-10
Anticipated expiration: 2036-08-19
Also published as: JP2018028626A

Description

本発明は、ユーザの指示に応じて、放送等の番組音声にインタラクティブに解説音声を挿入して提示する対話型解説付き音声提示装置およびそのプログラムに関する。

従来、視覚障害者向けの放送サービスとして、番組音声だけでは視覚障害者が把握できない映像に関する内容を副音声で解説する解説放送が実施されている。
この解説放送は、ユーザ（特に視覚障害者）の聞き取りやすさのため、解説音声と番組音声とが同時に聞こえないように、番組音声の無音区間に解説音声を挿入している。
近年、このような解説放送を、短時間かつ低費用で実現するための技術が開発されている（例えば、特許文献１参照）。
特許文献１に記載の技術（以下、従来技術）は、番組音声において、無音区間を検出し、テキストデータの解説を音声合成した解説音声を無音区間の区間長に話速変換して付加する。これによって、従来技術は、番組音声と解説音声との出力の重複を防止している。

特開２００８−３９８４５号公報

前記した従来技術は、番組音声の無音区間を検出し、その無音区間に解説音声を付加しているため、解説音声の文字数が制限され、解説が不十分となってしまったり、解説音声の聞こえるタイミングが適切なタイミングからずれてしまったり、等の問題がある。
また、従来技術は、解説音声を付加する場合、すべての視覚障害者を対象として同じ解説音声を付加している。そのため、視覚障害者によっては、番組の内容の把握に必ずしも必要ではない冗長な解説音声が付加される場合がある。

本発明は、このような問題に鑑みてなされたものであり、番組音声と解説音声との出力の重複を防止するとともに、ユーザの指示に応じて、必要な情報を適切なタイミングで解説音声として提示することが可能な対話型解説付き音声提示装置およびそのプログラムを提供することを課題とする。

前記課題を解決するため、本発明に係る対話型解説付き音声提示装置は、番組を視聴するユーザの指示により、番組音声に解説音声を挿入して提示する対話型解説付き音声提示装置であって、時刻情報抽出手段と、指示入力手段と、テキスト取得手段と、音声合成手段と、遅延制御手段と、話速変換手段と、を備える構成とした。

かかる構成において、対話型解説付き音声提示装置は、時刻情報抽出手段によって、時刻情報（タイムコード）が付されている番組音声から時刻情報を抽出する。また、対話型解説付き音声提示装置は、指示入力手段によって、ユーザから任意のタイミングで指示を入力する。
そして、対話型解説付き音声提示装置は、テキスト取得手段によって、解説テキストを時刻情報に対応付けて記憶した外部サーバから、指示を入力した時刻に対応する解説テキストを取得する。

そして、対話型解説付き音声提示装置は、音声合成手段によって、解説テキストを解説音声に変換して出力する。このとき、対話型解説付き音声提示装置は、遅延制御手段によって、解説音声の出力が完了するまで番組音声を遅延させる。これによって、対話型解説付き音声提示装置は、番組音声を無音にした状態で解説音声を挿入することができ、番組音声と解説音声との出力の重複を防止することができる。

そして、対話型解説付き音声提示装置は、話速変換手段によって、解説音声の出力後、遅延させた番組音声に付されている時刻情報が、時刻情報抽出手段で抽出する時刻情報と一致するように、遅延させた番組音声を話速変換して出力する。これによって、対話型解説付き音声提示装置は、遅延した番組音声を、内容を省くことなくユーザに提示することができる。

また、前記課題を解決するため、本発明に係る対話型解説付き音声提示装置は、番組を視聴するユーザの指示により、番組音声に解説音声を挿入して提示する対話型解説付き音声提示装置であって、時刻情報抽出手段と、指示入力手段と、テキスト取得手段と、音声認識手段と、差分抽出手段と、音声合成手段と、遅延制御手段と、話速変換手段と、を備える構成とした。

かかる構成において、対話型解説付き音声提示装置は、時刻情報抽出手段によって、時刻情報（タイムコード）が付されている番組音声から時刻情報を抽出する。また、対話型解説付き音声提示装置は、指示入力手段によって、ユーザから任意のタイミングで指示を入力する。
そして、対話型解説付き音声提示装置は、テキスト取得手段によって、番組の内容を記述した番組内容テキストを時刻情報に対応付けて記憶した外部サーバから、指示を入力した時刻に対応する番組内容テキストを取得する。

また、対話型解説付き音声提示装置は、音声認識手段によって、番組音声を番組音声テキストに変換する。そして、対話型解説付き音声提示装置は、差分抽出手段によって、番組音声テキストと番組内容テキストとを比較して、番組内容テキストのみに含まれるテキストを解説テキストとして抽出する。
そして、対話型解説付き音声提示装置は、音声合成手段によって、解説テキストを解説音声に変換して出力する。このとき、対話型解説付き音声提示装置は、遅延制御手段によって、解説音声の出力が完了するまで番組音声を遅延させる。これによって、対話型解説付き音声提示装置は、番組音声を無音にした状態で解説音声を挿入することができ、番組音声と解説音声との出力の重複を防止することができる。

なお、対話型解説付き音声提示装置は、コンピュータを、前記した各手段として機能させるためのプログラム（対話型解説付き音声提示プログラム）で動作させることができる。

本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、ユーザが指示したタイミングで、解説音声を提示することができる。これによって、本発明は、ユーザが必要とするときだけ解説音声を提示することができる。
また、本発明によれば、解説音声の出力中に番組音声の出力を停止するため、解説音声と番組音声とが重ならず、ユーザに解説音声を聞き取りやすく提示することができる。
また、本発明によれば、番組音声の出力を停止した場合でも、その番組音声を遅延後、話速変換して提示するため、番組音声の内容を欠かすことなくユーザに提示することができる。

本発明の概要を説明するための図であって、（ａ）は通常の番組音声の提示例を示す図、（ｂ）は番組音声にインタラクティブに解説音声を付加する提示例を示す図である。本発明の概要を説明するための図であって、（ａ）は通常の番組音声の提示例を時系列に示す図、（ｂ）は番組音声にインタラクティブに解説音声を挿入する提示例を時系列に示す図である。本発明の第１実施形態に係る対話型解説付き音声提示装置の構成を示すブロック構成図である。図３の指示音声データベース記憶手段で記憶するデータの例を示す図である。図３の解説データサーバが記憶するデータの例を示す図である。本発明の第１実施形態に係る対話型解説付き音声提示装置の動作を示すフローチャートである。本発明の第２実施形態に係る対話型解説付き音声提示装置の構成を示すブロック構成図である。図７の解説データサーバが記憶するデータの例を示す図である。本発明の第２実施形態に係る対話型解説付き音声提示装置の処理概要を説明するための説明図である。本発明の第２実施形態に係る対話型解説付き音声提示装置の動作を示すフローチャートである。図３、図７の指示入力手段の変形例の構成を示すブロック構成図である。図３、図７の指示入力手段の他の変形例の構成を示すブロック構成図である。

以下、本発明の実施形態について図面を参照して説明する。
≪本発明の概要≫
まず、図１および図２を参照して、本発明の実施形態に係る対話型解説付き音声提示装置１の概要について説明する。

対話型解説付き音声提示装置１，１Ｂは、番組を視聴するユーザＵの指示により、番組音声に解説音声を挿入して提示するものである。
図１（ａ）は、対話型解説付き音声提示装置１，１Ｂが、スピーカＳｐを介して、ユーザＵに番組音声を提示している例を示している。ここで、番組音声は、スポーツ番組の音声の例であって、「○○選手タイムです。」、「痛そうです。」等、番組映像に対応したアナウンサ、解説者等の音声である。この場合、アナウンサ等は、番組映像を表示装置（ディスプレイ）Ｄを介してユーザＵが視認していることを前提として発話するため、番組映像の内容をすべて発話することがない。そのため、ユーザＵが視覚障害者の場合、ユーザＵは、番組の内容を把握することが困難になる。

そこで、対話型解説付き音声提示装置１，１Ｂは、図１（ｂ）に示すように、例えば、「何があったの？」のように、ユーザＵが発話した指示（質問）をマイクＭｃで集音し、番組音声に解説音声（ここでは、「足首をひねりました。」）を挿入して提示する。

この音声提示の例を、図２に時系列に示す。図２（ａ）は、対話型解説付き音声提示装置１，１Ｂが提示する番組音声を時系列に示している。
ここで、ユーザＵが、「痛そうです。」の音声の途中、あるいは、「痛そうです。」と「大丈夫でしょうか。」との間の非発話区間で、「何があったの？」という指示音声を発したとする。
その場合、対話型解説付き音声提示装置１，１Ｂは、図２（ｂ）に示すように、「痛そうです。」の後の番組音声の提示を停止し、無音状態とし、「足首をひねりました。」の解説音声を挿入する。その後、対話型解説付き音声提示装置１は、番組音声の提示を再開する。このとき、対話型解説付き音声提示装置１，１Ｂは、「大丈夫でしょうか。」以降の音声を実際の番組音声の時刻に合わせるように、逐次話速変換する。

これによって、対話型解説付き音声提示装置１，１Ｂは、番組音声と解説音声との出力の重複を防止するとともに、ユーザＵの指示に応じて、必要な情報を適切なタイミングで解説音声として提示することができる。
以下、対話型解説付き音声提示装置１，１Ｂの構成および動作について詳細に説明する。

≪第１実施形態≫
〔対話型解説付き音声提示装置の構成〕
まず、図３を参照して、本発明の第１実施形態に係る対話型解説付き音声提示装置１の構成について説明する。
図３に示すように、対話型解説付き音声提示装置１は、コンテンツ入力手段１０と、指示入力手段１１と、解説付き音声生成手段１２と、映像出力手段１３と、音声出力手段１４と、を備える。

コンテンツ入力手段１０は、外部から映像音声コンテンツ（以下、単にコンテンツという）を入力するものである。ここでは、コンテンツ入力手段１０は、アンテナＡを介して、放送波で配信されるコンテンツを入力する。このコンテンツ入力手段１０は、入力したコンテンツのうち、音声（番組音声）については、解説付き音声生成手段１２に出力し、映像（番組映像）については、映像出力手段１３に出力する。
なお、コンテンツ入力手段１０は、必ずしも放送波を介してコンテンツを入力する必要はなく、ＶＯＤ（ビデオオンデマンド）のように外部サーバ（不図示）から通信回線を介してコンテンツを入力することとしてもよい。

指示入力手段１１は、マイクＭｃを介して、ユーザＵが発話する音声を指示音声として入力するものである。ここで、マイクＭｃは、独立したマイクであってもよいし、リモコン装置（不図示）内に組み込んだものであってもよい。ただし、マイクＭｃは、周囲のノイズの入力を防止するため、指向性マイクが好ましい。
ここでは、指示入力手段１１は、音声認識手段１１０と、指示音声データベース記憶手段１１１と、指示内容解析手段１１２と、を備える。

音声認識手段（指示音声認識手段）１１０は、マイクＭｃを介して入力されるユーザＵの指示音声を音声認識するものである。この音声認識手段１１０は、一般的な音声認識手段であって、音響モデル、言語モデルおよび発音辞書を用いて、入力された指示音声を音声認識する。
この音声認識手段１１０は、認識結果となる文字列（テキストデータ）を、指示内容解析手段１１２に出力する。

指示音声データベース記憶手段（指示音声ＤＢ記憶手段）１１１は、対話型解説付き音声提示装置１に対する指示内容を示す定型文のテキストデータとメタデータとを対応付けたデータベース（指示音声データベース）を記憶するものである。この指示音声データベース記憶手段１１１は、半導体メモリ等の一般的な記憶媒体で構成することができる。
この指示音声データベース記憶手段１１１は、例えば、図４に示すように、「何があったの？」、「どうしたの？」等の同様の意味を表す複数の定型文に対して１つのメタデータ（ここでは、「内容」）を対応付けて記憶する。
また、図４の例では、「誰？」、「誰なの？」等に１つのメタデータ（人物）を対応付け、「どこ？」、「そこはどこ？」等の１つのメタデータ（場所）を対応付けている。
これによって、ユーザＵの指示にバリエーションを持たせることができる。
なお、図４中の「人物」、「場所」、「内容」等のメタデータは、後記するテキスト取得手段１２１で、指示音声に対応する解説テキストを、解説データサーバ２から検索するためのデータである。

指示内容解析手段１１２は、指示音声データベース記憶手段１１１を参照して、音声認識手段１１０で音声認識されたテキストデータの内容を解析するものである。
この指示内容解析手段１１２は、音声認識手段１１０から入力されるテキストデータに対応するメタデータを、図４に示したような指示音声データベースから探索する。そして、指示内容解析手段１１２は、探索結果となるメタデータを指示内容として、解説付き音声生成手段１２（テキスト取得手段１２１）に出力する。
このように、指示入力手段１１は、マイクＭｃを介して入力されたユーザＵの指示音声の意味内容を解析し、対応するメタデータを、解説付き音声生成手段１２に出力する。

解説付き音声生成手段１２は、指示入力手段１１から入力されるユーザＵの指示に基づいて、番組音声に解説音声を挿入して、解説付き音声を生成するものである。
ここでは、解説付き音声生成手段１２は、時刻情報抽出手段１２０と、テキスト取得手段１２１と、遅延制御手段１２２と、音声遅延手段１２３と、話速変換手段１２４と、音声合成手段１２５と、を備える。

時刻情報抽出手段１２０は、番組音声に付されている時刻情報（タイムコード）を抽出するものである。この時刻情報抽出手段１２０は、抽出したタイムコードを、テキスト取得手段１２１および話速変換手段１２４に出力する。なお、タイムコードは、例えば、ＳＭＰＴＥ（シンプティ）タイムコードを用いることができる。

テキスト取得手段１２１は、指示入力手段１１からユーザＵの指示を入力したタイミングで、その指示内容に対応する解説テキストを外部サーバである解説データサーバ２から取得するものである。
このテキスト取得手段１２１は、指示入力手段１１からメタデータを入力することで、ユーザＵから指示があった旨を検出する。そして、テキスト取得手段１２１は、指示の検出タイミングで、時刻情報抽出手段１２０から入力されたタイムコードの時刻のメタデータに対応する解説テキストを、ネットワーク（通信回線）Ｎを介して、解説データサーバ２から取得する。

なお、解説データサーバ２は、コンテンツごとに、時刻情報に対応付けた解説テキストをメタデータに対応付けて予め記憶したサーバである。例えば、解説データサーバ２は、図５に示すように、コンテンツごとに、番組映像のフレーム単位の時刻情報（開始時刻、終了時刻）と、メタデータと、解説テキストと、を予め対応付けて記憶する。
また、テキスト取得手段１２１は、選択した解説テキストを遅延制御手段１２２および音声合成手段１２５に出力する。

遅延制御手段１２２は、テキスト取得手段１２１で取得された解説テキストの読み上げ（解説音声出力）が完了するまで番組音声を遅延させる遅延制御を行うものである。
この遅延制御手段１２２は、テキスト取得手段１２１から解説テキストを入力したタイミングで、音声遅延手段１２３に番組音声の遅延開始を指示する。

また、遅延制御手段１２２は、解説テキストの読み上げ時間（出力時間）を算出し、その時間経過後に、音声遅延手段１２３に番組音声の遅延停止を指示する。具体的には、遅延制御手段１２２は、解説テキストの文字数に、予め定めた１文字あたりの時間（例えば、０．２秒／文字）を乗算することで、解説テキストの読み上げ時間（出力時間）を算出する。そして、遅延制御手段１２２は、読み上げ時間をタイマ（不図示）によって計測することで、番組音声の遅延停止のタイミングを特定する。

なお、遅延制御手段１２２は、解説テキストの読み上げ時間が予め定めた時間（例えば、２０秒）よりも長い場合、読み上げ時間を予め定めた時間で制限し、その予め定めた時間経過後に、番組音声の遅延を停止することとする。これによって、遅延制御手段１２２は、番組音声が番組映像に対して大きく遅れることを防止することができる。

音声遅延手段１２３は、番組音声をバッファリングするものである。この音声遅延手段１２３は、コンテンツ入力手段１０から入力した番組音声を、図示を省略した記憶手段に書き込み、入力した順に読み出して、話速変換手段１２４に出力する。

この音声遅延手段１２３は、遅延制御手段１２２から遅延開始を指示されたタイミングで、番組音声の出力を停止する。
なお、音声遅延手段１２３は、遅延開始を指示されたタイミングで、番組音声について無音の検出を行い、最初の無音を検出した後の番組音声の出力を停止し、以降の番組音声を記憶することとする。これによって、音声遅延手段１２３は、番組音声の発話途中での出力停止を防止することができる。
この無音の検出手法は、一般的な手法を用いればよい。例えば、音声遅延手段１２３は、番組音声から音響特徴量の１つであるパワー（音の強さ、大きさ）を抽出し、そのパワーが、予め定めた閾値よりも小さくなった時点を無音区間の始まりとして検出する。

また、音声遅延手段１２３は、遅延制御手段１２２から遅延停止を指示されたタイミングで、記憶手段（不図示）に記憶している番組音声の話速変換手段１２４への出力を再開する。

話速変換手段１２４は、音声遅延手段１２３から入力した番組音声に付されているタイムコード（時刻情報）が、時刻情報抽出手段１２０で抽出するタイムコードと一致するように、番組音声を話速変換するものである。
この話速変換手段１２４は、定倍速（例えば、２倍速）で話速変換を行うこととしてもよいし、可変速で話速変換を行うこととしてもよい。可変速で話速変換を行う場合、話速変換手段１２４は、例えば、遅延時間に応じて、２倍速から１倍速（等倍速）まで、可変に話速変換を行う。なお、可変速に話速変換を行う手法は一般的な手法を用いればよく、例えば、特開２００７−２９８６２１号公報に記載されている公知の手法を用いることができる。

この話速変換手段１２４は、話速変換後の番組音声を音声出力手段１４に出力する。なお、音声遅延手段１２３から入力した番組音声に付されているタイムコードが、時刻情報抽出手段１２０で抽出されるタイムコードと一致する場合、話速変換手段１２４は、入力された番組音声をそのまま音声出力手段１４に出力する。

音声合成手段１２５は、テキスト取得手段１２１で取得された解説テキストを音声合成して、音声信号（解説音声）に変換するものである。なお、音声合成の手法は一般的な公知の手法を用いればよい。
この音声合成手段１２５は、変換した解説音声を音声出力手段１４に出力する。

映像出力手段１３は、番組映像を表示装置（ディスプレイ）Ｄに出力するものである。なお、表示装置Ｄは、対話型解説付き音声提示装置１の内部に備えても、外部に備えても構わない。

音声出力手段１４は、解説付き音声生成手段１２で生成された解説付き音声（番組音声および解説音声）を混合（ミキシング）して、スピーカＳｐに出力するものである。なお、スピーカＳｐは、対話型解説付き音声提示装置１の内部に備えても、外部に備えても構わない。

以上説明したように、対話型解説付き音声提示装置１を構成することで、対話型解説付き音声提示装置１は、ユーザＵの指示に応じて、必要な情報を解説音声として提示することができる。また、このとき、対話型解説付き音声提示装置１は、番組音声を遅延させ、番組音声の無音区間に解説音声を挿入するため、ユーザＵに解説音声を聞きやすく提示することができる。
なお、対話型解説付き音声提示装置１は、コンピュータを、図３に示した各手段として機能させるためのプログラム（対話型解説付き音声提示プログラム）で動作させることができる。

〔対話型解説付き音声提示装置の動作〕
次に、図６を参照（構成については適宜図３参照）して、対話型解説付き音声提示装置１の動作について説明する。なお、ここでは、対話型解説付き音声提示装置１の主要動作であるユーザの指示に基づいて解説付き音声を提示する動作について説明する。

まず、対話型解説付き音声提示装置１は、指示入力手段１１によって、ユーザＵからの指示を待ち（ステップＳ１でＮｏ）、指示（指示音声）が入力されたタイミング（ステップＳ１でＹｅｓ）で以降の動作を行う。

このステップＳ１において、指示入力手段１１は、音声認識手段１１０によって、マイクＭｃから入力されるユーザＵの指示音声を音声認識する。そして、指示入力手段１１は、指示内容解析手段１１２によって、指示音声データベース記憶手段１１１を参照して、音声認識されたテキストデータの指示内容を解析する。そして、対話型解説付き音声提示装置１は、指示入力手段１１によって、認識可能な指示が入力された場合に、指示が入力されたと判断する。

そして、対話型解説付き音声提示装置１は、解説付き音声生成手段１２によって以下の動作を行う。
すなわち、対話型解説付き音声提示装置１は、テキスト取得手段１２１によって、指示（メタデータ）に対応する解説テキストを、解説データサーバ２から取得する（ステップＳ２）。

そして、対話型解説付き音声提示装置１は、音声遅延手段１２３によって、番組音声の遅延（バッファリング）を開始する（ステップＳ３）。ここでは、音声遅延手段１２３は、ステップＳ２で解説テキストを取得したタイミングで、遅延制御手段１２２から指示されることで遅延を開始する。これによって、番組音声における無音区間を生成することができる。
このとき、遅延制御手段１２２は、タイマにより、解説テキストの文字数に応じた読み上げ時間（出力時間）の計測を開始する（ステップＳ４）。

そして、対話型解説付き音声提示装置１は、音声合成手段１２５によって、解説テキストを音声合成して、音声信号（解説音声）に変換する（ステップＳ５）。
その後、対話型解説付き音声提示装置１は、音声出力手段１４によって、ステップＳ５で変換された解説音声を出力する（ステップＳ６）。

そして、対話型解説付き音声提示装置１は、遅延制御手段１２２によって、解説音声の出力が完了（読み上げ時間経過）するか、または、所定時間（例えば、２０秒）が経過するか、いずれか早い時間が経過するまで待機する（ステップＳ７でＮｏ）。
そして、解説音声の出力完了または所定時間の経過後（ステップＳ７でＹｅｓ）、対話型解説付き音声提示装置１は、音声遅延手段１２３によって、番組音声の遅延を停止し、バッファリングされている番組音声を順次読み出す（ステップＳ８）。

その後、対話型解説付き音声提示装置１は、話速変換手段１２４によって、遅延されていた番組音声のタイムコードが、時刻情報抽出手段１２０で抽出するタイムコードと一致するように、番組音声を話速変換する（ステップＳ９）。
そして、対話型解説付き音声提示装置１は、音声出力手段１４によって、ステップＳ９で話速変換された番組音声を出力する（ステップＳ１０）。

以上の動作によって、対話型解説付き音声提示装置１は、ユーザＵの指示したタイミングで、番組音声を中断し、番組音声と解説音声との出力が重ならないようにして、解説音声を提示することができる。また、対話型解説付き音声提示装置１は、遅延した番組音声を話速変換により再生するため、番組音声の内容をすべて提示することができる。

≪第２実施形態≫
〔対話型解説付き音声提示装置の構成〕
次に、図７を参照して、本発明の第２実施形態に係る対話型解説付き音声提示装置１Ｂの構成について説明する。なお、対話型解説付き音声提示装置１Ｂは、図３で説明した対話型解説付き音声提示装置１とは異なる解説データサーバ（外部サーバ）２Ｂを用いる。

ここで、図８を参照して、解説データサーバ２Ｂと解説データサーバ２（図５）との相違点について説明しておく。
解説データサーバ２Ｂは、コンテンツごとに、時刻情報（開始時刻、終了時刻）と、メタデータと、解説テキストを含んだ番組内容テキストと、を予め対応付けて記憶するものである。

解説データサーバ２では、番組音声に挿入するための解説（解説テキスト）のみを記憶していたが、解説データサーバ２Ｂでは、解説テキストを含んだ番組の内容を記述した番組内容テキスト（テキストデータ）を記憶することとする。
すなわち、解説データサーバ２Ｂでは、番組音声と重複する内容を含んでおり、番組内容テキストは、番組音声としてどのような内容が発話されるのかを意識することなく、番組全体の内容を予め解説したデータである。例えば、近年、スポーツやオリンピック開催期間中に競技に関する試合状況を配信するサービスがあり、解説データサーバ２Ｂは、この試合状況等から予め作成しておくこととする。これによって、解説データサーバ２Ｂを容易に構築することができる。

図８の例では、メタデータ「内容」に対応する番組内容テキストが、番組の時刻に対応した番組の内容を記述したテキストデータである。この場合、解説データサーバ２Ｂには、図５で説明した「足首をひねりました。」の解説テキスト以外に、「○○選手タイムです。」等の内容も含んでいる。なお、解説データサーバ２Ｂには、ユーザＵからの特定の質問にも対応するため、「人物」等のメタデータについては、特定のテキストデータ（○○選手等）を対応付けている。

このような解説データサーバ２Ｂを採用すると、番組音声と解説音声とで内容が重複してしまう。
そこで、対話型解説付き音声提示装置１Ｂは、図９に示すように、番組音声を音声認識し、番組音声テキストを生成する。そして、対話型解説付き音声提示装置１Ｂは、番組音声テキストには存在せず、解説データサーバ２Ｂの番組内容テキストのみに存在するテキストを解説テキストとして抽出する。図９の例では、対話型解説付き音声提示装置１Ｂは、「足首をひねりました。」を解説テキストとして抽出し、音声合成することで、解説音声を生成し提示する。

以下、このような機能を実現する対話型解説付き音声提示装置１Ｂの構成について説明する。
図７に示すように、対話型解説付き音声提示装置１Ｂは、コンテンツ入力手段１０と、指示入力手段１１と、解説付き音声生成手段１２Ｂと、映像出力手段１３と、音声出力手段１４と、を備える。解説付き音声生成手段１２Ｂ以外は、対話型解説付き音声提示装置１（図３）と同じものであるため、同一の符号を付して説明を省略する。

解説付き音声生成手段１２Ｂは、指示入力手段１１から入力されるユーザＵの指示に基づいて、番組音声に解説音声を挿入して、解説付き音声を生成するものである。
ここでは、解説付き音声生成手段１２Ｂは、時刻情報抽出手段１２０と、テキスト取得手段１２１Ｂと、遅延制御手段１２２と、音声遅延手段１２３と、話速変換手段１２４と、音声合成手段１２５と、音声認識手段１２６と、差分抽出手段１２７と、を備える。テキスト取得手段１２１Ｂ、音声認識手段１２６および差分抽出手段１２７以外は、対話型解説付き音声提示装置１（図３）と同じものであるため、同一の符号を付して説明を省略する。

テキスト取得手段１２１Ｂは、指示入力手段１１からユーザＵの指示を入力したタイミングで、その指示内容に対応する番組内容テキストを外部サーバである解説データサーバ２Ｂから取得するものである。
このテキスト取得手段１２１Ｂは、指示入力手段１１からメタデータが入力されたタイミングで、ユーザＵから指示があった旨を検出する。そして、テキスト取得手段１２１Ｂは、そのタイミングで、時刻情報抽出手段１２０から入力されたタイムコードの時刻のメタデータに対応する番組内容テキストを、ネットワークＮを介して、解説データサーバ２Ｂから取得する。なお、テキスト取得手段１２１Ｂは、タイムコードの時刻に対応する番組内容テキストのみならず、当該時刻よりも所定時間（例えば、２０秒）過去まで遡って番組内容テキストを取得することとしてもよい。これによって、解説テキストの取得漏れを防止することができる。

そして、テキスト取得手段１２１Ｂは、図８に示す「人物」、「場所」のような質問に対する回答が１つであるような予め定めた特定のメタデータについては、番組内容テキストを解説テキストとしてそのまま遅延制御手段１２２および音声合成手段１２５に出力する。
また、テキスト取得手段１２１Ｂは、図８に示す「内容」のように番組の内容を解説したメタデータについては、番組内容テキストを差分抽出手段１２７に出力する。

音声認識手段（番組音声認識手段）１２６は、番組音声を音声認識するものである。この音声認識手段１２６は、一般的な音声認識手段であって、音響モデル、言語モデルおよび発音辞書を用いて、入力された番組音声を音声認識する。
この音声認識手段１２６は、認識結果となるテキストデータ（番組音声テキスト）を、差分抽出手段１２７に出力する。

差分抽出手段１２７は、音声認識手段１２６で認識された番組音声テキストには存在せず、テキスト取得手段１２１Ｂで取得した番組内容テキストのみに存在するテキストを解説テキストとして抽出するものである。
すなわち、差分抽出手段１２７は、テキスト取得手段１２１Ｂで取得した番組内容テキストから、番組音声テキストと一致するテキストを省いて、解説テキストを生成する。なお、テキストが一致するか否かは、必ずしも完全一致である必要はなく、類似度の度合いによって判定してもよい。この類似度は、例えば、レーベンシュタイン距離等を用いることができる。
これによって、差分抽出手段１２７は、番組音声では説明されていない解説音声となるテキストのみを抽出することができる。
この差分抽出手段１２７は、抽出した解説テキストを、音声合成手段１２５に出力する。

以上説明したように、対話型解説付き音声提示装置１Ｂを構成することで、対話型解説付き音声提示装置１Ｂは、対話型解説付き音声提示装置１と同様の効果に加え、番組音声に対する解説専用の外部サーバを準備しなくても、番組の内容をテキスト化した外部サーバを用いて、番組音声に解説音声を挿入して提示することができる。
なお、対話型解説付き音声提示装置１Ｂは、コンピュータを、図７に示した各手段として機能させるためのプログラム（対話型解説付き音声提示プログラム）で動作させることができる。

〔対話型解説付き音声提示装置の動作〕
次に、図１０を参照（構成については適宜図７参照）して、対話型解説付き音声提示装置１Ｂの動作について説明する。なお、対話型解説付き音声提示装置１Ｂの基本的な動作は、図６に示した対話型解説付き音声提示装置１の動作と同じであるため、ここでは、相違点のみを説明する。

ユーザＵからの指示を入力した後（ステップＳ１でＹｅｓ）、対話型解説付き音声提示装置１Ｂは、テキスト取得手段１２１Ｂによって、指示に対応する番組内容テキストを、解説データサーバ２Ｂから取得する（ステップＳ２Ｂ）。
そして、対話型解説付き音声提示装置１Ｂは、ステップＳ３で、音声遅延手段１２３によって、番組音声の遅延（バッファリング）を開始した後、音声認識手段１２６によって、番組音声を音声認識し、番組音声テキストを生成する（ステップＳ３０）。

そして、対話型解説付き音声提示装置１Ｂは、差分抽出手段１２７によって、ステップＳ３０で音声認識された番組音声テキストには存在せず、ステップＳ２Ｂで取得した番組内容テキストのみに存在するテキストを解説テキストとして抽出する（ステップＳ３１）。
そして、対話型解説付き音声提示装置１Ｂは、ステップＳ４以降の動作を行うが、これ以降は、対話型解説付き音声提示装置１の動作と同じであるため、説明を省略する。

≪変形例≫
以上、本発明の実施形態について説明したが、本発明は、これらの実施形態に限定されるものではない。
例えば、ここでは、対話型解説付き音声提示装置１，１Ｂは、ユーザＵからの指示音声を解析することで、指示内容を特定した。

しかし、対話型解説付き音声提示装置１，１Ｂは、ユーザＵが操作するリモコン装置によって、指示を入力するものであってもよい。
その場合、指示入力手段１１を、図１１に示す指示入力手段１１Ｂとして構成すればよい。ここで、指示入力手段１１Ｂは、ボタン押下検出手段１１３と、特定指示出力手段１１４と、を備える。

ボタン押下検出手段１１３は、ユーザＵが、リモコン装置Ｒｃの特定のボタンを押下したことを、赤外線信号等によって検出するものである。このボタン押下検出手段１１３は、特定のボタンが押下された旨を特定指示出力手段１１４に出力する。

特定指示出力手段１１４は、ボタン押下検出手段１１３から特定のボタンが押下された旨を通知されたタイミングで、解説付き音声生成手段１２，１２Ｂに指示を出力するものである。この解説付き音声生成手段１２，１２Ｂへの指示は、図４で説明したメタデータのうちで特定のメタデータ（例えば、「内容」）とする。
もちろん、リモコン装置Ｒｃの複数のボタンのそれぞれに異なる指示を割り当てることで、押下されたボタンの種類によって、特定指示出力手段１１４は、異なるメタデータを解説付き音声生成手段１２，１２Ｂへの指示として出力することとしてもよい。

また、対話型解説付き音声提示装置１，１Ｂは、ユーザＵのジェスチャによって、指示を入力するものであってもよい。
その場合、指示入力手段１１を、図１２に示す指示入力手段１１Ｃとして構成すればよい。ここで、指示入力手段１１Ｃは、ジェスチャ認識手段１１５と、特定指示出力手段１１６と、を備える。

ジェスチャ認識手段１１５は、カメラＣが撮影したユーザＵの動作（ジェスチャ）を認識するものである。例えば、ジェスチャ認識手段１１５は、手を前に出す等の特定の動作を認識して、ユーザＵの指示を受け付ける。このジェスチャ認識手段１１５は、特定のジェスチャを認識した旨を特定指示出力手段１１６に出力する。
このジェスチャ認識手段１１５におけるジェスチャ認識手法は、一般的な手法を用いればよく、例えば、特開２０１２−８８８８１号公報に記載されている公知の手法を用いることができる。

特定指示出力手段１１６は、ジェスチャ認識手段１１５から特定のジェスチャを認識した旨を通知されたタイミングで、解説付き音声生成手段１２，１２Ｂに指示を出力するものである。この解説付き音声生成手段１２，１２Ｂへの指示は、図４で説明したメタデータのうちで特定のメタデータ（例えば、「内容」）とする。
もちろん、複数のジェスチャのそれぞれに異なる指示を割り当てることで、認識したジェスチャの種類によって、特定指示出力手段１１６は、異なるメタデータを解説付き音声生成手段１２，１２Ｂへの指示として出力することとしてもよい。
これによって、対話型解説付き音声提示装置１，１Ｂは、ユーザＵの音声以外に、リモコン装置やジェスチャによって、指示を受け付けることができる。

１対話型解説付き音声提示装置
１０コンテンツ入力手段
１１指示入力手段
１１０音声認識手段（指示音声認識手段）
１１１指示音声データベース記憶手段（指示音声ＤＢ記憶手段）
１１２指示内容解析手段
１２解説付き音声生成手段
１２０時刻抽出手段
１２１テキスト取得手段
１２２遅延制御手段
１２３音声遅延手段
１２４話速変換手段
１２５音声合成手段
１２６音声認識手段（番組音声認識手段）
１２７差分抽出手段
１３映像出力手段
１４音声出力手段
２解説データサーバ（外部サーバ）

Claims

番組を視聴するユーザの指示により、番組音声に解説音声を挿入して提示する対話型解説付き音声提示装置であって、
時刻情報が付されている前記番組音声から、前記時刻情報を抽出する時刻情報抽出手段と、
前記ユーザからの指示を入力する指示入力手段と、
解説テキストを時刻情報に対応付けて記憶した外部サーバから、前記指示を入力した時刻に対応する解説テキストを取得するテキスト取得手段と、
前記解説テキストを解説音声に変換して出力する音声合成手段と、
前記解説音声の出力が完了するまで前記番組音声を遅延させる遅延制御手段と、
前記解説音声の出力後、前記遅延させた番組音声に付されている時刻情報が、前記時刻情報抽出手段で抽出する時刻情報と一致するように、前記遅延させた番組音声を話速変換して出力する話速変換手段と、
を備えることを特徴とする対話型解説付き音声提示装置。
番組を視聴するユーザの指示により、番組音声に解説音声を挿入して提示する対話型解説付き音声提示装置であって、
時刻情報が付されている前記番組音声から、前記時刻情報を抽出する時刻情報抽出手段と、
前記ユーザからの指示を入力する指示入力手段と、
前記番組の内容を記述した番組内容テキストを時刻情報に対応付けて記憶した外部サーバから、前記指示を入力した時刻に対応する前記番組内容テキストを取得するテキスト取得手段と、
前記番組音声を番組音声テキストに変換する音声認識手段と、
前記番組音声テキストと前記番組内容テキストとを比較して、前記番組内容テキストのみに含まれるテキストを解説テキストとして抽出する差分抽出手段と、
前記解説テキストを解説音声に変換して出力する音声合成手段と、
前記解説音声の出力が完了するまで前記番組音声を遅延させる遅延制御手段と、
前記解説音声の出力後、前記遅延させた番組音声に付されている時刻情報が、前記時刻情報抽出手段で抽出する時刻情報と一致するように、前記遅延させた番組音声を話速変換して出力する話速変換手段と、
を備えることを特徴とする対話型解説付き音声提示装置。
前記遅延制御手段は、前記解説テキストの文字数に予め定めた１文字あたりの読み上げ時間を乗算して、前記解説音声の出力時間を算出し、当該出力時間だけ、前記番組音声を遅延させることを特徴とする請求項１または請求項２に記載の対話型解説付き音声提示装置。
前記遅延制御手段は、前記出力時間が予め定めた時間よりも長い場合、前記出力時間を前記予め定めた時間とすることを特徴とする請求項３に記載の対話型解説付き音声提示装置。
前記指示入力手段は、前記ユーザの音声を音声認識して前記指示を入力することを特徴とする請求項１から請求項４のいずれか一項に記載の対話型解説付き音声提示装置。
前記指示入力手段は、前記ユーザが操作するリモコン装置の予め定めたボタンの押下を検出して前記指示を入力することを特徴とする請求項１から請求項４のいずれか一項に記載の対話型解説付き音声提示装置。
前記指示入力手段は、前記ユーザの予め定めたジェスチャを認識して前記指示を入力することを特徴とする請求項１から請求項４のいずれか一項に記載の対話型解説付き音声提示装置。
コンピュータを、請求項１から請求項７のいずれか一項に記載の対話型解説付き音声提示装置の各手段として機能させるための対話型解説付き音声提示プログラム。