JP6707422B2 - 対話型解説付き音声提示装置およびそのプログラム - Google Patents

対話型解説付き音声提示装置およびそのプログラム Download PDF

Info

Publication number
JP6707422B2
JP6707422B2 JP2016160991A JP2016160991A JP6707422B2 JP 6707422 B2 JP6707422 B2 JP 6707422B2 JP 2016160991 A JP2016160991 A JP 2016160991A JP 2016160991 A JP2016160991 A JP 2016160991A JP 6707422 B2 JP6707422 B2 JP 6707422B2
Authority
JP
Japan
Prior art keywords
commentary
voice
program
instruction
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016160991A
Other languages
English (en)
Other versions
JP2018028626A (ja
Inventor
清水 俊宏
俊宏 清水
今井 篤
篤 今井
麻乃 一木
麻乃 一木
都木 徹
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Japan Broadcasting Corp
Priority to JP2016160991A priority Critical patent/JP6707422B2/ja
Publication of JP2018028626A publication Critical patent/JP2018028626A/ja
Application granted granted Critical
Publication of JP6707422B2 publication Critical patent/JP6707422B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

本発明は、ユーザの指示に応じて、放送等の番組音声にインタラクティブに解説音声を挿入して提示する対話型解説付き音声提示装置およびそのプログラムに関する。
従来、視覚障害者向けの放送サービスとして、番組音声だけでは視覚障害者が把握できない映像に関する内容を副音声で解説する解説放送が実施されている。
この解説放送は、ユーザ(特に視覚障害者)の聞き取りやすさのため、解説音声と番組音声とが同時に聞こえないように、番組音声の無音区間に解説音声を挿入している。
近年、このような解説放送を、短時間かつ低費用で実現するための技術が開発されている(例えば、特許文献1参照)。
特許文献1に記載の技術(以下、従来技術)は、番組音声において、無音区間を検出し、テキストデータの解説を音声合成した解説音声を無音区間の区間長に話速変換して付加する。これによって、従来技術は、番組音声と解説音声との出力の重複を防止している。
特開2008−39845号公報
前記した従来技術は、番組音声の無音区間を検出し、その無音区間に解説音声を付加しているため、解説音声の文字数が制限され、解説が不十分となってしまったり、解説音声の聞こえるタイミングが適切なタイミングからずれてしまったり、等の問題がある。
また、従来技術は、解説音声を付加する場合、すべての視覚障害者を対象として同じ解説音声を付加している。そのため、視覚障害者によっては、番組の内容の把握に必ずしも必要ではない冗長な解説音声が付加される場合がある。
本発明は、このような問題に鑑みてなされたものであり、番組音声と解説音声との出力の重複を防止するとともに、ユーザの指示に応じて、必要な情報を適切なタイミングで解説音声として提示することが可能な対話型解説付き音声提示装置およびそのプログラムを提供することを課題とする。
前記課題を解決するため、本発明に係る対話型解説付き音声提示装置は、番組を視聴するユーザの指示により、番組音声に解説音声を挿入して提示する対話型解説付き音声提示装置であって、時刻情報抽出手段と、指示入力手段と、テキスト取得手段と、音声合成手段と、遅延制御手段と、話速変換手段と、を備える構成とした。
かかる構成において、対話型解説付き音声提示装置は、時刻情報抽出手段によって、時刻情報(タイムコード)が付されている番組音声から時刻情報を抽出する。また、対話型解説付き音声提示装置は、指示入力手段によって、ユーザから任意のタイミングで指示を入力する。
そして、対話型解説付き音声提示装置は、テキスト取得手段によって、解説テキストを時刻情報に対応付けて記憶した外部サーバから、指示を入力した時刻に対応する解説テキストを取得する。
そして、対話型解説付き音声提示装置は、音声合成手段によって、解説テキストを解説音声に変換して出力する。このとき、対話型解説付き音声提示装置は、遅延制御手段によって、解説音声の出力が完了するまで番組音声を遅延させる。これによって、対話型解説付き音声提示装置は、番組音声を無音にした状態で解説音声を挿入することができ、番組音声と解説音声との出力の重複を防止することができる。
そして、対話型解説付き音声提示装置は、話速変換手段によって、解説音声の出力後、遅延させた番組音声に付されている時刻情報が、時刻情報抽出手段で抽出する時刻情報と一致するように、遅延させた番組音声を話速変換して出力する。これによって、対話型解説付き音声提示装置は、遅延した番組音声を、内容を省くことなくユーザに提示することができる。
また、前記課題を解決するため、本発明に係る対話型解説付き音声提示装置は、番組を視聴するユーザの指示により、番組音声に解説音声を挿入して提示する対話型解説付き音声提示装置であって、時刻情報抽出手段と、指示入力手段と、テキスト取得手段と、音声認識手段と、差分抽出手段と、音声合成手段と、遅延制御手段と、話速変換手段と、を備える構成とした。
かかる構成において、対話型解説付き音声提示装置は、時刻情報抽出手段によって、時刻情報(タイムコード)が付されている番組音声から時刻情報を抽出する。また、対話型解説付き音声提示装置は、指示入力手段によって、ユーザから任意のタイミングで指示を入力する。
そして、対話型解説付き音声提示装置は、テキスト取得手段によって、番組の内容を記述した番組内容テキストを時刻情報に対応付けて記憶した外部サーバから、指示を入力した時刻に対応する番組内容テキストを取得する。
また、対話型解説付き音声提示装置は、音声認識手段によって、番組音声を番組音声テキストに変換する。そして、対話型解説付き音声提示装置は、差分抽出手段によって、番組音声テキストと番組内容テキストとを比較して、番組内容テキストのみに含まれるテキストを解説テキストとして抽出する。
そして、対話型解説付き音声提示装置は、音声合成手段によって、解説テキストを解説音声に変換して出力する。このとき、対話型解説付き音声提示装置は、遅延制御手段によって、解説音声の出力が完了するまで番組音声を遅延させる。これによって、対話型解説付き音声提示装置は、番組音声を無音にした状態で解説音声を挿入することができ、番組音声と解説音声との出力の重複を防止することができる。
そして、対話型解説付き音声提示装置は、話速変換手段によって、解説音声の出力後、遅延させた番組音声に付されている時刻情報が、時刻情報抽出手段で抽出する時刻情報と一致するように、遅延させた番組音声を話速変換して出力する。これによって、対話型解説付き音声提示装置は、遅延した番組音声を、内容を省くことなくユーザに提示することができる。
なお、対話型解説付き音声提示装置は、コンピュータを、前記した各手段として機能させるためのプログラム(対話型解説付き音声提示プログラム)で動作させることができる。
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、ユーザが指示したタイミングで、解説音声を提示することができる。これによって、本発明は、ユーザが必要とするときだけ解説音声を提示することができる。
また、本発明によれば、解説音声の出力中に番組音声の出力を停止するため、解説音声と番組音声とが重ならず、ユーザに解説音声を聞き取りやすく提示することができる。
また、本発明によれば、番組音声の出力を停止した場合でも、その番組音声を遅延後、話速変換して提示するため、番組音声の内容を欠かすことなくユーザに提示することができる。
本発明の概要を説明するための図であって、(a)は通常の番組音声の提示例を示す図、(b)は番組音声にインタラクティブに解説音声を付加する提示例を示す図である。 本発明の概要を説明するための図であって、(a)は通常の番組音声の提示例を時系列に示す図、(b)は番組音声にインタラクティブに解説音声を挿入する提示例を時系列に示す図である。 本発明の第1実施形態に係る対話型解説付き音声提示装置の構成を示すブロック構成図である。 図3の指示音声データベース記憶手段で記憶するデータの例を示す図である。 図3の解説データサーバが記憶するデータの例を示す図である。 本発明の第1実施形態に係る対話型解説付き音声提示装置の動作を示すフローチャートである。 本発明の第2実施形態に係る対話型解説付き音声提示装置の構成を示すブロック構成図である。 図7の解説データサーバが記憶するデータの例を示す図である。 本発明の第2実施形態に係る対話型解説付き音声提示装置の処理概要を説明するための説明図である。 本発明の第2実施形態に係る対話型解説付き音声提示装置の動作を示すフローチャートである。 図3、図7の指示入力手段の変形例の構成を示すブロック構成図である。 図3、図7の指示入力手段の他の変形例の構成を示すブロック構成図である。
以下、本発明の実施形態について図面を参照して説明する。
≪本発明の概要≫
まず、図1および図2を参照して、本発明の実施形態に係る対話型解説付き音声提示装置1の概要について説明する。
対話型解説付き音声提示装置1,1Bは、番組を視聴するユーザUの指示により、番組音声に解説音声を挿入して提示するものである。
図1(a)は、対話型解説付き音声提示装置1,1Bが、スピーカSpを介して、ユーザUに番組音声を提示している例を示している。ここで、番組音声は、スポーツ番組の音声の例であって、「○○選手タイムです。」、「痛そうです。」等、番組映像に対応したアナウンサ、解説者等の音声である。この場合、アナウンサ等は、番組映像を表示装置(ディスプレイ)Dを介してユーザUが視認していることを前提として発話するため、番組映像の内容をすべて発話することがない。そのため、ユーザUが視覚障害者の場合、ユーザUは、番組の内容を把握することが困難になる。
そこで、対話型解説付き音声提示装置1,1Bは、図1(b)に示すように、例えば、「何があったの?」のように、ユーザUが発話した指示(質問)をマイクMcで集音し、番組音声に解説音声(ここでは、「足首をひねりました。」)を挿入して提示する。
この音声提示の例を、図2に時系列に示す。図2(a)は、対話型解説付き音声提示装置1,1Bが提示する番組音声を時系列に示している。
ここで、ユーザUが、「痛そうです。」の音声の途中、あるいは、「痛そうです。」と「大丈夫でしょうか。」との間の非発話区間で、「何があったの?」という指示音声を発したとする。
その場合、対話型解説付き音声提示装置1,1Bは、図2(b)に示すように、「痛そうです。」の後の番組音声の提示を停止し、無音状態とし、「足首をひねりました。」の解説音声を挿入する。その後、対話型解説付き音声提示装置1は、番組音声の提示を再開する。このとき、対話型解説付き音声提示装置1,1Bは、「大丈夫でしょうか。」以降の音声を実際の番組音声の時刻に合わせるように、逐次話速変換する。
これによって、対話型解説付き音声提示装置1,1Bは、番組音声と解説音声との出力の重複を防止するとともに、ユーザUの指示に応じて、必要な情報を適切なタイミングで解説音声として提示することができる。
以下、対話型解説付き音声提示装置1,1Bの構成および動作について詳細に説明する。
≪第1実施形態≫
〔対話型解説付き音声提示装置の構成〕
まず、図3を参照して、本発明の第1実施形態に係る対話型解説付き音声提示装置1の構成について説明する。
図3に示すように、対話型解説付き音声提示装置1は、コンテンツ入力手段10と、指示入力手段11と、解説付き音声生成手段12と、映像出力手段13と、音声出力手段14と、を備える。
コンテンツ入力手段10は、外部から映像音声コンテンツ(以下、単にコンテンツという)を入力するものである。ここでは、コンテンツ入力手段10は、アンテナAを介して、放送波で配信されるコンテンツを入力する。このコンテンツ入力手段10は、入力したコンテンツのうち、音声(番組音声)については、解説付き音声生成手段12に出力し、映像(番組映像)については、映像出力手段13に出力する。
なお、コンテンツ入力手段10は、必ずしも放送波を介してコンテンツを入力する必要はなく、VOD(ビデオオンデマンド)のように外部サーバ(不図示)から通信回線を介してコンテンツを入力することとしてもよい。
指示入力手段11は、マイクMcを介して、ユーザUが発話する音声を指示音声として入力するものである。ここで、マイクMcは、独立したマイクであってもよいし、リモコン装置(不図示)内に組み込んだものであってもよい。ただし、マイクMcは、周囲のノイズの入力を防止するため、指向性マイクが好ましい。
ここでは、指示入力手段11は、音声認識手段110と、指示音声データベース記憶手段111と、指示内容解析手段112と、を備える。
音声認識手段(指示音声認識手段)110は、マイクMcを介して入力されるユーザUの指示音声を音声認識するものである。この音声認識手段110は、一般的な音声認識手段であって、音響モデル、言語モデルおよび発音辞書を用いて、入力された指示音声を音声認識する。
この音声認識手段110は、認識結果となる文字列(テキストデータ)を、指示内容解析手段112に出力する。
指示音声データベース記憶手段(指示音声DB記憶手段)111は、対話型解説付き音声提示装置1に対する指示内容を示す定型文のテキストデータとメタデータとを対応付けたデータベース(指示音声データベース)を記憶するものである。この指示音声データベース記憶手段111は、半導体メモリ等の一般的な記憶媒体で構成することができる。
この指示音声データベース記憶手段111は、例えば、図4に示すように、「何があったの?」、「どうしたの?」等の同様の意味を表す複数の定型文に対して1つのメタデータ(ここでは、「内容」)を対応付けて記憶する。
また、図4の例では、「誰?」、「誰なの?」等に1つのメタデータ(人物)を対応付け、「どこ?」、「そこはどこ?」等の1つのメタデータ(場所)を対応付けている。
これによって、ユーザUの指示にバリエーションを持たせることができる。
なお、図4中の「人物」、「場所」、「内容」等のメタデータは、後記するテキスト取得手段121で、指示音声に対応する解説テキストを、解説データサーバ2から検索するためのデータである。
指示内容解析手段112は、指示音声データベース記憶手段111を参照して、音声認識手段110で音声認識されたテキストデータの内容を解析するものである。
この指示内容解析手段112は、音声認識手段110から入力されるテキストデータに対応するメタデータを、図4に示したような指示音声データベースから探索する。そして、指示内容解析手段112は、探索結果となるメタデータを指示内容として、解説付き音声生成手段12(テキスト取得手段121)に出力する。
このように、指示入力手段11は、マイクMcを介して入力されたユーザUの指示音声の意味内容を解析し、対応するメタデータを、解説付き音声生成手段12に出力する。
解説付き音声生成手段12は、指示入力手段11から入力されるユーザUの指示に基づいて、番組音声に解説音声を挿入して、解説付き音声を生成するものである。
ここでは、解説付き音声生成手段12は、時刻情報抽出手段120と、テキスト取得手段121と、遅延制御手段122と、音声遅延手段123と、話速変換手段124と、音声合成手段125と、を備える。
時刻情報抽出手段120は、番組音声に付されている時刻情報(タイムコード)を抽出するものである。この時刻情報抽出手段120は、抽出したタイムコードを、テキスト取得手段121および話速変換手段124に出力する。なお、タイムコードは、例えば、SMPTE(シンプティ)タイムコードを用いることができる。
テキスト取得手段121は、指示入力手段11からユーザUの指示を入力したタイミングで、その指示内容に対応する解説テキストを外部サーバである解説データサーバ2から取得するものである。
このテキスト取得手段121は、指示入力手段11からメタデータを入力することで、ユーザUから指示があった旨を検出する。そして、テキスト取得手段121は、指示の検出タイミングで、時刻情報抽出手段120から入力されたタイムコードの時刻のメタデータに対応する解説テキストを、ネットワーク(通信回線)Nを介して、解説データサーバ2から取得する。
なお、解説データサーバ2は、コンテンツごとに、時刻情報に対応付けた解説テキストをメタデータに対応付けて予め記憶したサーバである。例えば、解説データサーバ2は、図5に示すように、コンテンツごとに、番組映像のフレーム単位の時刻情報(開始時刻、終了時刻)と、メタデータと、解説テキストと、を予め対応付けて記憶する。
また、テキスト取得手段121は、選択した解説テキストを遅延制御手段122および音声合成手段125に出力する。
遅延制御手段122は、テキスト取得手段121で取得された解説テキストの読み上げ(解説音声出力)が完了するまで番組音声を遅延させる遅延制御を行うものである。
この遅延制御手段122は、テキスト取得手段121から解説テキストを入力したタイミングで、音声遅延手段123に番組音声の遅延開始を指示する。
また、遅延制御手段122は、解説テキストの読み上げ時間(出力時間)を算出し、その時間経過後に、音声遅延手段123に番組音声の遅延停止を指示する。具体的には、遅延制御手段122は、解説テキストの文字数に、予め定めた1文字あたりの時間(例えば、0.2秒/文字)を乗算することで、解説テキストの読み上げ時間(出力時間)を算出する。そして、遅延制御手段122は、読み上げ時間をタイマ(不図示)によって計測することで、番組音声の遅延停止のタイミングを特定する。
なお、遅延制御手段122は、解説テキストの読み上げ時間が予め定めた時間(例えば、20秒)よりも長い場合、読み上げ時間を予め定めた時間で制限し、その予め定めた時間経過後に、番組音声の遅延を停止することとする。これによって、遅延制御手段122は、番組音声が番組映像に対して大きく遅れることを防止することができる。
音声遅延手段123は、番組音声をバッファリングするものである。この音声遅延手段123は、コンテンツ入力手段10から入力した番組音声を、図示を省略した記憶手段に書き込み、入力した順に読み出して、話速変換手段124に出力する。
この音声遅延手段123は、遅延制御手段122から遅延開始を指示されたタイミングで、番組音声の出力を停止する。
なお、音声遅延手段123は、遅延開始を指示されたタイミングで、番組音声について無音の検出を行い、最初の無音を検出した後の番組音声の出力を停止し、以降の番組音声を記憶することとする。これによって、音声遅延手段123は、番組音声の発話途中での出力停止を防止することができる。
この無音の検出手法は、一般的な手法を用いればよい。例えば、音声遅延手段123は、番組音声から音響特徴量の1つであるパワー(音の強さ、大きさ)を抽出し、そのパワーが、予め定めた閾値よりも小さくなった時点を無音区間の始まりとして検出する。
また、音声遅延手段123は、遅延制御手段122から遅延停止を指示されたタイミングで、記憶手段(不図示)に記憶している番組音声の話速変換手段124への出力を再開する。
話速変換手段124は、音声遅延手段123から入力した番組音声に付されているタイムコード(時刻情報)が、時刻情報抽出手段120で抽出するタイムコードと一致するように、番組音声を話速変換するものである。
この話速変換手段124は、定倍速(例えば、2倍速)で話速変換を行うこととしてもよいし、可変速で話速変換を行うこととしてもよい。可変速で話速変換を行う場合、話速変換手段124は、例えば、遅延時間に応じて、2倍速から1倍速(等倍速)まで、可変に話速変換を行う。なお、可変速に話速変換を行う手法は一般的な手法を用いればよく、例えば、特開2007−298621号公報に記載されている公知の手法を用いることができる。
この話速変換手段124は、話速変換後の番組音声を音声出力手段14に出力する。なお、音声遅延手段123から入力した番組音声に付されているタイムコードが、時刻情報抽出手段120で抽出されるタイムコードと一致する場合、話速変換手段124は、入力された番組音声をそのまま音声出力手段14に出力する。
音声合成手段125は、テキスト取得手段121で取得された解説テキストを音声合成して、音声信号(解説音声)に変換するものである。なお、音声合成の手法は一般的な公知の手法を用いればよい。
この音声合成手段125は、変換した解説音声を音声出力手段14に出力する。
映像出力手段13は、番組映像を表示装置(ディスプレイ)Dに出力するものである。なお、表示装置Dは、対話型解説付き音声提示装置1の内部に備えても、外部に備えても構わない。
音声出力手段14は、解説付き音声生成手段12で生成された解説付き音声(番組音声および解説音声)を混合(ミキシング)して、スピーカSpに出力するものである。なお、スピーカSpは、対話型解説付き音声提示装置1の内部に備えても、外部に備えても構わない。
以上説明したように、対話型解説付き音声提示装置1を構成することで、対話型解説付き音声提示装置1は、ユーザUの指示に応じて、必要な情報を解説音声として提示することができる。また、このとき、対話型解説付き音声提示装置1は、番組音声を遅延させ、番組音声の無音区間に解説音声を挿入するため、ユーザUに解説音声を聞きやすく提示することができる。
なお、対話型解説付き音声提示装置1は、コンピュータを、図3に示した各手段として機能させるためのプログラム(対話型解説付き音声提示プログラム)で動作させることができる。
〔対話型解説付き音声提示装置の動作〕
次に、図6を参照(構成については適宜図3参照)して、対話型解説付き音声提示装置1の動作について説明する。なお、ここでは、対話型解説付き音声提示装置1の主要動作であるユーザの指示に基づいて解説付き音声を提示する動作について説明する。
まず、対話型解説付き音声提示装置1は、指示入力手段11によって、ユーザUからの指示を待ち(ステップS1でNo)、指示(指示音声)が入力されたタイミング(ステップS1でYes)で以降の動作を行う。
このステップS1において、指示入力手段11は、音声認識手段110によって、マイクMcから入力されるユーザUの指示音声を音声認識する。そして、指示入力手段11は、指示内容解析手段112によって、指示音声データベース記憶手段111を参照して、音声認識されたテキストデータの指示内容を解析する。そして、対話型解説付き音声提示装置1は、指示入力手段11によって、認識可能な指示が入力された場合に、指示が入力されたと判断する。
そして、対話型解説付き音声提示装置1は、解説付き音声生成手段12によって以下の動作を行う。
すなわち、対話型解説付き音声提示装置1は、テキスト取得手段121によって、指示(メタデータ)に対応する解説テキストを、解説データサーバ2から取得する(ステップS2)。
そして、対話型解説付き音声提示装置1は、音声遅延手段123によって、番組音声の遅延(バッファリング)を開始する(ステップS3)。ここでは、音声遅延手段123は、ステップS2で解説テキストを取得したタイミングで、遅延制御手段122から指示されることで遅延を開始する。これによって、番組音声における無音区間を生成することができる。
このとき、遅延制御手段122は、タイマにより、解説テキストの文字数に応じた読み上げ時間(出力時間)の計測を開始する(ステップS4)。
そして、対話型解説付き音声提示装置1は、音声合成手段125によって、解説テキストを音声合成して、音声信号(解説音声)に変換する(ステップS5)。
その後、対話型解説付き音声提示装置1は、音声出力手段14によって、ステップS5で変換された解説音声を出力する(ステップS6)。
そして、対話型解説付き音声提示装置1は、遅延制御手段122によって、解説音声の出力が完了(読み上げ時間経過)するか、または、所定時間(例えば、20秒)が経過するか、いずれか早い時間が経過するまで待機する(ステップS7でNo)。
そして、解説音声の出力完了または所定時間の経過後(ステップS7でYes)、対話型解説付き音声提示装置1は、音声遅延手段123によって、番組音声の遅延を停止し、バッファリングされている番組音声を順次読み出す(ステップS8)。
その後、対話型解説付き音声提示装置1は、話速変換手段124によって、遅延されていた番組音声のタイムコードが、時刻情報抽出手段120で抽出するタイムコードと一致するように、番組音声を話速変換する(ステップS9)。
そして、対話型解説付き音声提示装置1は、音声出力手段14によって、ステップS9で話速変換された番組音声を出力する(ステップS10)。
以上の動作によって、対話型解説付き音声提示装置1は、ユーザUの指示したタイミングで、番組音声を中断し、番組音声と解説音声との出力が重ならないようにして、解説音声を提示することができる。また、対話型解説付き音声提示装置1は、遅延した番組音声を話速変換により再生するため、番組音声の内容をすべて提示することができる。
≪第2実施形態≫
〔対話型解説付き音声提示装置の構成〕
次に、図7を参照して、本発明の第2実施形態に係る対話型解説付き音声提示装置1Bの構成について説明する。なお、対話型解説付き音声提示装置1Bは、図3で説明した対話型解説付き音声提示装置1とは異なる解説データサーバ(外部サーバ)2Bを用いる。
ここで、図8を参照して、解説データサーバ2Bと解説データサーバ2(図5)との相違点について説明しておく。
解説データサーバ2Bは、コンテンツごとに、時刻情報(開始時刻、終了時刻)と、メタデータと、解説テキストを含んだ番組内容テキストと、を予め対応付けて記憶するものである。
解説データサーバ2では、番組音声に挿入するための解説(解説テキスト)のみを記憶していたが、解説データサーバ2Bでは、解説テキストを含んだ番組の内容を記述した番組内容テキスト(テキストデータ)を記憶することとする。
すなわち、解説データサーバ2Bでは、番組音声と重複する内容を含んでおり、番組内容テキストは、番組音声としてどのような内容が発話されるのかを意識することなく、番組全体の内容を予め解説したデータである。例えば、近年、スポーツやオリンピック開催期間中に競技に関する試合状況を配信するサービスがあり、解説データサーバ2Bは、この試合状況等から予め作成しておくこととする。これによって、解説データサーバ2Bを容易に構築することができる。
図8の例では、メタデータ「内容」に対応する番組内容テキストが、番組の時刻に対応した番組の内容を記述したテキストデータである。この場合、解説データサーバ2Bには、図5で説明した「足首をひねりました。」の解説テキスト以外に、「○○選手タイムです。」等の内容も含んでいる。なお、解説データサーバ2Bには、ユーザUからの特定の質問にも対応するため、「人物」等のメタデータについては、特定のテキストデータ(○○選手等)を対応付けている。
このような解説データサーバ2Bを採用すると、番組音声と解説音声とで内容が重複してしまう。
そこで、対話型解説付き音声提示装置1Bは、図9に示すように、番組音声を音声認識し、番組音声テキストを生成する。そして、対話型解説付き音声提示装置1Bは、番組音声テキストには存在せず、解説データサーバ2Bの番組内容テキストのみに存在するテキストを解説テキストとして抽出する。図9の例では、対話型解説付き音声提示装置1Bは、「足首をひねりました。」を解説テキストとして抽出し、音声合成することで、解説音声を生成し提示する。
以下、このような機能を実現する対話型解説付き音声提示装置1Bの構成について説明する。
図7に示すように、対話型解説付き音声提示装置1Bは、コンテンツ入力手段10と、指示入力手段11と、解説付き音声生成手段12Bと、映像出力手段13と、音声出力手段14と、を備える。解説付き音声生成手段12B以外は、対話型解説付き音声提示装置1(図3)と同じものであるため、同一の符号を付して説明を省略する。
解説付き音声生成手段12Bは、指示入力手段11から入力されるユーザUの指示に基づいて、番組音声に解説音声を挿入して、解説付き音声を生成するものである。
ここでは、解説付き音声生成手段12Bは、時刻情報抽出手段120と、テキスト取得手段121Bと、遅延制御手段122と、音声遅延手段123と、話速変換手段124と、音声合成手段125と、音声認識手段126と、差分抽出手段127と、を備える。テキスト取得手段121B、音声認識手段126および差分抽出手段127以外は、対話型解説付き音声提示装置1(図3)と同じものであるため、同一の符号を付して説明を省略する。
テキスト取得手段121Bは、指示入力手段11からユーザUの指示を入力したタイミングで、その指示内容に対応する番組内容テキストを外部サーバである解説データサーバ2Bから取得するものである。
このテキスト取得手段121Bは、指示入力手段11からメタデータが入力されたタイミングで、ユーザUから指示があった旨を検出する。そして、テキスト取得手段121Bは、そのタイミングで、時刻情報抽出手段120から入力されたタイムコードの時刻のメタデータに対応する番組内容テキストを、ネットワークNを介して、解説データサーバ2Bから取得する。なお、テキスト取得手段121Bは、タイムコードの時刻に対応する番組内容テキストのみならず、当該時刻よりも所定時間(例えば、20秒)過去まで遡って番組内容テキストを取得することとしてもよい。これによって、解説テキストの取得漏れを防止することができる。
そして、テキスト取得手段121Bは、図8に示す「人物」、「場所」のような質問に対する回答が1つであるような予め定めた特定のメタデータについては、番組内容テキストを解説テキストとしてそのまま遅延制御手段122および音声合成手段125に出力する。
また、テキスト取得手段121Bは、図8に示す「内容」のように番組の内容を解説したメタデータについては、番組内容テキストを差分抽出手段127に出力する。
音声認識手段(番組音声認識手段)126は、番組音声を音声認識するものである。この音声認識手段126は、一般的な音声認識手段であって、音響モデル、言語モデルおよび発音辞書を用いて、入力された番組音声を音声認識する。
この音声認識手段126は、認識結果となるテキストデータ(番組音声テキスト)を、差分抽出手段127に出力する。
差分抽出手段127は、音声認識手段126で認識された番組音声テキストには存在せず、テキスト取得手段121Bで取得した番組内容テキストのみに存在するテキストを解説テキストとして抽出するものである。
すなわち、差分抽出手段127は、テキスト取得手段121Bで取得した番組内容テキストから、番組音声テキストと一致するテキストを省いて、解説テキストを生成する。なお、テキストが一致するか否かは、必ずしも完全一致である必要はなく、類似度の度合いによって判定してもよい。この類似度は、例えば、レーベンシュタイン距離等を用いることができる。
これによって、差分抽出手段127は、番組音声では説明されていない解説音声となるテキストのみを抽出することができる。
この差分抽出手段127は、抽出した解説テキストを、音声合成手段125に出力する。
以上説明したように、対話型解説付き音声提示装置1Bを構成することで、対話型解説付き音声提示装置1Bは、対話型解説付き音声提示装置1と同様の効果に加え、番組音声に対する解説専用の外部サーバを準備しなくても、番組の内容をテキスト化した外部サーバを用いて、番組音声に解説音声を挿入して提示することができる。
なお、対話型解説付き音声提示装置1Bは、コンピュータを、図7に示した各手段として機能させるためのプログラム(対話型解説付き音声提示プログラム)で動作させることができる。
〔対話型解説付き音声提示装置の動作〕
次に、図10を参照(構成については適宜図7参照)して、対話型解説付き音声提示装置1Bの動作について説明する。なお、対話型解説付き音声提示装置1Bの基本的な動作は、図6に示した対話型解説付き音声提示装置1の動作と同じであるため、ここでは、相違点のみを説明する。
ユーザUからの指示を入力した後(ステップS1でYes)、対話型解説付き音声提示装置1Bは、テキスト取得手段121Bによって、指示に対応する番組内容テキストを、解説データサーバ2Bから取得する(ステップS2B)。
そして、対話型解説付き音声提示装置1Bは、ステップS3で、音声遅延手段123によって、番組音声の遅延(バッファリング)を開始した後、音声認識手段126によって、番組音声を音声認識し、番組音声テキストを生成する(ステップS30)。
そして、対話型解説付き音声提示装置1Bは、差分抽出手段127によって、ステップS30で音声認識された番組音声テキストには存在せず、ステップS2Bで取得した番組内容テキストのみに存在するテキストを解説テキストとして抽出する(ステップS31)。
そして、対話型解説付き音声提示装置1Bは、ステップS4以降の動作を行うが、これ以降は、対話型解説付き音声提示装置1の動作と同じであるため、説明を省略する。
≪変形例≫
以上、本発明の実施形態について説明したが、本発明は、これらの実施形態に限定されるものではない。
例えば、ここでは、対話型解説付き音声提示装置1,1Bは、ユーザUからの指示音声を解析することで、指示内容を特定した。
しかし、対話型解説付き音声提示装置1,1Bは、ユーザUが操作するリモコン装置によって、指示を入力するものであってもよい。
その場合、指示入力手段11を、図11に示す指示入力手段11Bとして構成すればよい。ここで、指示入力手段11Bは、ボタン押下検出手段113と、特定指示出力手段114と、を備える。
ボタン押下検出手段113は、ユーザUが、リモコン装置Rcの特定のボタンを押下したことを、赤外線信号等によって検出するものである。このボタン押下検出手段113は、特定のボタンが押下された旨を特定指示出力手段114に出力する。
特定指示出力手段114は、ボタン押下検出手段113から特定のボタンが押下された旨を通知されたタイミングで、解説付き音声生成手段12,12Bに指示を出力するものである。この解説付き音声生成手段12,12Bへの指示は、図4で説明したメタデータのうちで特定のメタデータ(例えば、「内容」)とする。
もちろん、リモコン装置Rcの複数のボタンのそれぞれに異なる指示を割り当てることで、押下されたボタンの種類によって、特定指示出力手段114は、異なるメタデータを解説付き音声生成手段12,12Bへの指示として出力することとしてもよい。
また、対話型解説付き音声提示装置1,1Bは、ユーザUのジェスチャによって、指示を入力するものであってもよい。
その場合、指示入力手段11を、図12に示す指示入力手段11Cとして構成すればよい。ここで、指示入力手段11Cは、ジェスチャ認識手段115と、特定指示出力手段116と、を備える。
ジェスチャ認識手段115は、カメラCが撮影したユーザUの動作(ジェスチャ)を認識するものである。例えば、ジェスチャ認識手段115は、手を前に出す等の特定の動作を認識して、ユーザUの指示を受け付ける。このジェスチャ認識手段115は、特定のジェスチャを認識した旨を特定指示出力手段116に出力する。
このジェスチャ認識手段115におけるジェスチャ認識手法は、一般的な手法を用いればよく、例えば、特開2012−88881号公報に記載されている公知の手法を用いることができる。
特定指示出力手段116は、ジェスチャ認識手段115から特定のジェスチャを認識した旨を通知されたタイミングで、解説付き音声生成手段12,12Bに指示を出力するものである。この解説付き音声生成手段12,12Bへの指示は、図4で説明したメタデータのうちで特定のメタデータ(例えば、「内容」)とする。
もちろん、複数のジェスチャのそれぞれに異なる指示を割り当てることで、認識したジェスチャの種類によって、特定指示出力手段116は、異なるメタデータを解説付き音声生成手段12,12Bへの指示として出力することとしてもよい。
これによって、対話型解説付き音声提示装置1,1Bは、ユーザUの音声以外に、リモコン装置やジェスチャによって、指示を受け付けることができる。
1 対話型解説付き音声提示装置
10 コンテンツ入力手段
11 指示入力手段
110 音声認識手段(指示音声認識手段)
111 指示音声データベース記憶手段(指示音声DB記憶手段)
112 指示内容解析手段
12 解説付き音声生成手段
120 時刻抽出手段
121 テキスト取得手段
122 遅延制御手段
123 音声遅延手段
124 話速変換手段
125 音声合成手段
126 音声認識手段(番組音声認識手段)
127 差分抽出手段
13 映像出力手段
14 音声出力手段
2 解説データサーバ(外部サーバ)

Claims (8)

  1. 番組を視聴するユーザの指示により、番組音声に解説音声を挿入して提示する対話型解説付き音声提示装置であって、
    時刻情報が付されている前記番組音声から、前記時刻情報を抽出する時刻情報抽出手段と、
    前記ユーザからの指示を入力する指示入力手段と、
    解説テキストを時刻情報に対応付けて記憶した外部サーバから、前記指示を入力した時刻に対応する解説テキストを取得するテキスト取得手段と、
    前記解説テキストを解説音声に変換して出力する音声合成手段と、
    前記解説音声の出力が完了するまで前記番組音声を遅延させる遅延制御手段と、
    前記解説音声の出力後、前記遅延させた番組音声に付されている時刻情報が、前記時刻情報抽出手段で抽出する時刻情報と一致するように、前記遅延させた番組音声を話速変換して出力する話速変換手段と、
    を備えることを特徴とする対話型解説付き音声提示装置。
  2. 番組を視聴するユーザの指示により、番組音声に解説音声を挿入して提示する対話型解説付き音声提示装置であって、
    時刻情報が付されている前記番組音声から、前記時刻情報を抽出する時刻情報抽出手段と、
    前記ユーザからの指示を入力する指示入力手段と、
    前記番組の内容を記述した番組内容テキストを時刻情報に対応付けて記憶した外部サーバから、前記指示を入力した時刻に対応する前記番組内容テキストを取得するテキスト取得手段と、
    前記番組音声を番組音声テキストに変換する音声認識手段と、
    前記番組音声テキストと前記番組内容テキストとを比較して、前記番組内容テキストのみに含まれるテキストを解説テキストとして抽出する差分抽出手段と、
    前記解説テキストを解説音声に変換して出力する音声合成手段と、
    前記解説音声の出力が完了するまで前記番組音声を遅延させる遅延制御手段と、
    前記解説音声の出力後、前記遅延させた番組音声に付されている時刻情報が、前記時刻情報抽出手段で抽出する時刻情報と一致するように、前記遅延させた番組音声を話速変換して出力する話速変換手段と、
    を備えることを特徴とする対話型解説付き音声提示装置。
  3. 前記遅延制御手段は、前記解説テキストの文字数に予め定めた1文字あたりの読み上げ時間を乗算して、前記解説音声の出力時間を算出し、当該出力時間だけ、前記番組音声を遅延させることを特徴とする請求項1または請求項2に記載の対話型解説付き音声提示装置。
  4. 前記遅延制御手段は、前記出力時間が予め定めた時間よりも長い場合、前記出力時間を前記予め定めた時間とすることを特徴とする請求項3に記載の対話型解説付き音声提示装置。
  5. 前記指示入力手段は、前記ユーザの音声を音声認識して前記指示を入力することを特徴とする請求項1から請求項4のいずれか一項に記載の対話型解説付き音声提示装置。
  6. 前記指示入力手段は、前記ユーザが操作するリモコン装置の予め定めたボタンの押下を検出して前記指示を入力することを特徴とする請求項1から請求項4のいずれか一項に記載の対話型解説付き音声提示装置。
  7. 前記指示入力手段は、前記ユーザの予め定めたジェスチャを認識して前記指示を入力することを特徴とする請求項1から請求項4のいずれか一項に記載の対話型解説付き音声提示装置。
  8. コンピュータを、請求項1から請求項7のいずれか一項に記載の対話型解説付き音声提示装置の各手段として機能させるための対話型解説付き音声提示プログラム。
JP2016160991A 2016-08-19 2016-08-19 対話型解説付き音声提示装置およびそのプログラム Active JP6707422B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016160991A JP6707422B2 (ja) 2016-08-19 2016-08-19 対話型解説付き音声提示装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016160991A JP6707422B2 (ja) 2016-08-19 2016-08-19 対話型解説付き音声提示装置およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2018028626A JP2018028626A (ja) 2018-02-22
JP6707422B2 true JP6707422B2 (ja) 2020-06-10

Family

ID=61248871

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016160991A Active JP6707422B2 (ja) 2016-08-19 2016-08-19 対話型解説付き音声提示装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP6707422B2 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3998187B2 (ja) * 2002-10-09 2007-10-24 日本放送協会 コンテンツ解説データ生成装置、その方法及びそのプログラム、並びに、コンテンツ解説データ提示装置、その方法及びそのプログラム
JP4594908B2 (ja) * 2006-08-01 2010-12-08 日本放送協会 解説付加音声生成装置及び解説付加音声生成プログラム
JP5426133B2 (ja) * 2008-09-26 2014-02-26 株式会社東芝 音声出力装置、音声出力方法及びプログラム
JP2011221237A (ja) * 2010-04-08 2011-11-04 Nec Corp 音声出力装置、そのコンピュータプログラムおよびデータ処理方法
WO2012172610A1 (ja) * 2011-06-16 2012-12-20 三菱電機株式会社 情報提供システム、受信装置及び情報管理サーバ
US20140373082A1 (en) * 2012-02-03 2014-12-18 Sharp Kabushiki Kaisha Output system, control method of output system, control program, and recording medium

Also Published As

Publication number Publication date
JP2018028626A (ja) 2018-02-22

Similar Documents

Publication Publication Date Title
CN109643549B (zh) 基于说话者识别的语音识别方法和装置
US11056104B2 (en) Closed captioning through language detection
JP5104762B2 (ja) コンテンツ要約システムと方法とプログラム
JP6172417B1 (ja) 語学学習システム及び語学学習プログラム
WO2014141054A1 (en) Method, apparatus and system for regenerating voice intonation in automatically dubbed videos
CN110867177A (zh) 音色可选的人声播放系统、其播放方法及可读记录介质
US20210343270A1 (en) Speech translation method and translation apparatus
WO2020181133A1 (en) System and method for simultaneous multilingual dubbing of video-audio programs
JP6654691B2 (ja) 情報処理装置
WO2023276539A1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
JP2011504624A (ja) 自動同時通訳システム
KR100636386B1 (ko) 실시간 비디오 음성 더빙 장치 및 그 방법
JP2007328283A (ja) 対話装置、プログラム、及び対話方法
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
CN113160821A (zh) 一种基于语音识别的控制方法及装置
US20140129221A1 (en) Sound recognition device, non-transitory computer readable storage medium stored threreof sound recognition program, and sound recognition method
JP6707422B2 (ja) 対話型解説付き音声提示装置およびそのプログラム
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
JP2020140029A (ja) 音声認識装置、音声認識方法及びプログラム
CN113450783B (zh) 用于渐进式自然语言理解的系统和方法
CN112423000B (zh) 数据处理方法、装置、设备以及介质
CN114514576A (zh) 数据处理方法、装置和存储介质
Sridhar et al. A hybrid approach for Discourse Segment Detection in the automatic subtitle generation of computer science lecture videos

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190703

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200520

R150 Certificate of patent or registration of utility model

Ref document number: 6707422

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250