<第1実施形態>
図1は、本発明の第1実施形態に係る情報処理システム100の構成を例示するブロック図である。情報処理システム100は、放送により提供されるコンテンツCを視聴する視聴者に各種の情報を提供するためのコンピュータシステムである。例えば、放送波を利用した地上波放送および衛星放送によるテレビ番組がコンテンツCとして例示される。コンテンツCは、画像および音響により構成される。
図1に例示される通り、第1実施形態に係る情報処理システム100は、情報提供システム200と再生装置50と端末装置10とを具備する。情報提供システム200と端末装置10とは、例えば移動体通信網またはインターネット等を含む通信網70を介して相互に通信可能である。情報提供システム200から放送されたコンテンツCを再生装置50により視聴する視聴者の端末装置10に、当該コンテンツCに関連する情報(以下「関連情報」という)Rnが提供される。端末装置10は、例えば携帯電話機、スマートフォン、タブレット端末、またはパーソナルコンピュータ等の可搬型の情報端末である。図1に例示される通り、情報提供システム200は、放送システム20と音声認識装置30と配信装置40とを具備する。
<放送システム20>
図2は、第1実施形態における放送システム20の構成を例示するブロック図である。放送システム20は、コンテンツCを放送するためのコンピュータシステムである。具体的には、放送システム20は、コンテンツCを表すデータ(以下「放送データ」という)Xを送信する。第1実施形態では、放送波により放送データXが送信される。放送データXは、コンテンツCの画像を表す画像信号Vzと、コンテンツCの音響を表す音響信号Azとを含む。
第1実施形態の放送システム20は、特定のスタジオで収録されているコンテンツCを放送する。すなわち、コンテンツCは、事前に収録されたテレビ番組ではなく、収録と放送とが並行される生放送のテレビ番組である。具体的には、コンテンツCは、例えば複数(N人)の話者(典型的には出演者)が発言するテレビ番組である。例えば、ニュース番組、ワイドショー、討論番組等のテレビ番組がコンテンツCとして例示される。すなわち、コンテンツCの音響には、N人の話者P1〜PNの各々による発話音声Gnが含まれる。第1実施形態では、発話音声G1〜GNの発話内容をそれぞれ表すN個の関連情報R1〜RNが端末装置10に提供される。
図2に例示される通り、放送システム20は、収録装置201と処理部203と通信装置205と放送装置207とを具備する。処理部203の機能は、例えばCPU(Central Processing Unit)等の処理回路がプログラムを実行することで実現される。
収録装置201は、コンテンツCを収録する収録機器であり、N個の収音装置91_1〜91_Nと撮像装置93とを含む。例えば話者Pnが所在するスタジオに収録装置201が設置される。撮像装置93は、被写体を撮像することで画像信号Vを生成する撮像機器(例えばカメラ)である。例えばスタジオに所在するN人の話者P1〜PNが撮像される。収音装置91_n(n=1〜N)は、周囲の音を収音することで音響信号Anを生成する音響機器(例えばマイクロホン)である。コンテンツCに出演する話者Pn毎に収音装置91_nが設置される。各収音装置91_nは、当該収音装置91_nに対応する話者Pnの発話音声Gnを収録する。すなわち、収録装置201は、Nチャンネルの収音システムである。したがって、N人分の発話音声G1〜GNをそれぞれが表すN系統の音響信号A1〜ANが収録装置201により生成される。なお、N人の話者P1〜PNが同じ場所(例えばスタジオ)にいることは必須ではなく、N人の話者P1〜PNが相異なる場所にいてもよい。
処理部203は、コンテンツCの放送データXを生成する。具体的には、処理部203は、収録装置201が生成した画像信号VとN系統の音響信号A1〜ANとに対する編集処理により放送データXを生成する。処理部203が実行する編集処理は、画像信号Vから画像信号Vzを生成する画像処理と、N系統の音響信号A1〜ANから音響信号Azを生成する音響処理とを含む。画像処理は、画像信号Vが表す画像の特性を調整する各種の処理を含む。音響処理は、N系統の音響信号A1〜ANの周波数特性を調整する処理、および、N系統の音響信号A1〜ANを混合する処理等の各種の処理を含む。また、第1実施形態の音響処理は、N系統の音響信号A1〜ANを混合した後の信号(以下「混合信号」という)に対して識別情報Dを付加する処理(以下「付加処理」という)を含む。混合信号に対して所定の周期で反復的に識別情報Dが付加される。識別情報Dは、関連情報Rnを識別するための情報である。第1実施形態の識別情報Dは、コンテンツCを放送する放送局を示す情報である。
付加処理は、混合信号と、識別情報Dを音響成分として表す変調信号とを加算することで、音響信号Azを生成する信号処理である。すなわち、音響信号Azが表す音響には、N個の発話音声Gnと、識別情報Dを表す音響成分とが含まれる。変調信号は、例えば所定の周波数の搬送波を識別情報Dにより周波数変調することで生成される。なお、拡散符号を利用した識別情報Dの拡散変調と所定の周波数の搬送波を利用した周波数変換とを順次に実行することで変調信号を生成してもよい。変調信号の周波数帯域は、再生装置50による放音と端末装置10による収音とが可能な周波数帯域であり、かつ、端末装置10の利用者が通常の環境で聴取する音声の周波数帯域を上回る周波数帯域(例えば18kHz以上かつ20kHz以下)に設定される。したがって、端末装置10の利用者は、識別情報Dの音響成分を殆ど聴取できない。ただし、変調信号の周波数帯域は任意であり、例えば可聴帯域内の変調信号を生成することも可能である。以上に説明した編集処理により、画像信号Vzと音響信号Azとを含む放送データXが生成される。
放送装置207は、各種のコンテンツCを放送するための放送機器である。例えば、放送データXを電波塔に送信する送信機と、当該放送データXを放送波として送信する電波塔とにより放送装置207が構成される。コンテンツCを表す放送データXが再生装置50に送信される。
通信装置205は、有線または無線により音声認識装置30と通信する通信機器である。具体的には、通信装置205は、処理部203による制御のもとで、N個の送信データK1〜KNを音声認識装置30に送信する。各送信データKnは、音響信号Anと、当該音響信号Anに対応する話者Pnを示す情報(以下「話者情報」という)Qnと、識別情報Dとを含む。N個の送信データK1〜KNについて共通の識別情報Dが含まれる。相異なる話者Pnに対応するN個の送信データK1〜KNが音声認識装置30に送信される。実際には、N人の話者P1〜PNは同時に発話音声Gnを発音するわけではく、順番に発話音声Gnを発音することが想定される。したがって、発話音声Gnに対応する音響信号Anを含む送信データKnが発音の順番で時系列に音声認識装置30に送信される。話者情報Qnは、例えば関連情報Rnに対応する話者Pnの名前を示す情報である。例えば、コンテンツCの放送前に各話者情報Qnが放送システム20に記憶される。各送信データKnは、所定の周期で反復的に音声認識装置30に送信される。なお、音声認識装置30による音声認識が可能な信号であれば、音響信号Anとは異なる信号(例えば周波数特性を調整後の音響信号An)を音声認識装置30に送信してもよい。
図3は、放送システム20の処理部203が実行する処理を例示するフローチャートである。例えばコンテンツCの収録の開始を契機として、図3の処理が開始される。処理部203は、コンテンツCの放送データXを生成する(Sa1)。収録装置201が生成した画像信号VとN系統の音響信号A1〜ANとから放送データXが生成される。処理部203は、放送データXを送信することで、コンテンツCを放送する(Sa2)。処理部203は、N個の送信データK1〜KNを音声認識装置30に送信する動作を通信装置205に実行させる(Sa3)。なお、ステップSa3の処理は、ステップSa1の前に実行してもよいし、ステップSa1とステップSa2との間に実行してもよい。
<音声認識装置30>
図1の音声認識装置30は、放送システム20から順次に送信された送信データKnを受信する。第1実施形態の音声認識装置30は、送信データKnの音響信号Anに対して音声認識を実行する。したがって、当該音響信号Anに対応する発話音声Gnの発話内容を表す文字列(以下「発話文字列」という)Wnが特定される。すなわち、発話文字列Wnが音声認識の結果として特定される。音響信号Anに対する音声認識には、例えばHMM(Hidden Markov Model)等の音響モデルと、言語的な制約を示す言語モデルとを利用した認識処理等の公知の技術が任意に採用され得る。送信データKnの音響信号Anに対する音声認識の結果(すなわち発話文字列Wn)と、当該送信データKnの話者情報Qnおよび識別情報Dとを含む認識データLnが配信装置40に送信される。各話者Pnにそれぞれ対応するN個の認識データL1〜LNが配信装置40に送信される。第1実施形態では、コンテンツCの放送に並行して、音響信号Anに対する音声認識が実行される。
<配信装置40>
図4は、配信装置40の構成を例示するブロック図である。図4に例示される通り、第1実施形態の配信装置40は、通信装置401と記憶装置403と情報処理部405とを具備する。情報処理部405の機能は、例えばCPU(Central Processing Unit)等の処理回路がプログラムを実行することで実現される。通信装置401は、音声認識装置30および端末装置10の各々と通信する。音声認識装置30と配信装置40とは、例えば有線または無線により相互に通信する。第1実施形態の通信装置401は、音声認識装置30から送信された認識データLnを受信する。また、通信装置401は、通信網70を介して端末装置10から関連情報Rnの要求(以下「情報要求」という)を受信する。情報要求には、識別情報Dが含まれる。
記憶装置403は、端末装置10に関連情報Rnを提供するための各種のデータを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置403として任意に採用され得る。第1実施形態の記憶装置403は、情報テーブルTを記憶する。
情報テーブルTは、識別情報Dと話者情報Qnと関連情報Rnとが対応付けて登録されたデータテーブルである。関連情報Rnは、音声認識の結果である発話文字列Wnに応じて生成される。第1実施形態では、発話文字列Wnそのもの(すなわち字幕)を関連情報Rnとして例示する。具体的には、情報テーブルTは、音声認識装置30から送信された認識データLnの識別情報Dと話者情報Qnと関連情報Rnとを対応付けて登録する。話者情報Qnは、関連情報Rnに対応する話者Pnを示す情報とも換言される。コンテンツCに含まれるN個の発話音声G1〜GNについては共通の識別情報Dが対応付けられる。図4に例示される通り、共通の識別情報Dについて、N個の話者情報Q1〜QNのそれぞれに対応するN個の関連情報R1〜RNが登録される。関連情報Rnは、当該関連情報Rnに対応する発話音声Gnの発話の順番で時系列に情報テーブルTに登録される。
以上の説明から理解される通り、情報テーブルTは、識別情報Dが示す放送局のコンテンツCに出演しているN人の話者P1〜PNの各々について、当該話者Pnの発話音声Gnの字幕が登録されたテーブルである。なお、実際には、複数の放送局の各々から音声認識装置30に送信データKnが送信されるから、放送局毎に話者情報Qnと関連情報Rnとの組合せが情報テーブルTに登録される。なお、放送局毎に別のテーブルを利用してもよい。
情報処理部405は、端末装置10からの情報要求に応じて関連情報Rnを特定する。具体的には、情報処理部405は、情報テーブルTに登録された複数の識別情報Dのうち、端末装置10から送信された識別情報Dに対応する関連情報Rnを特定する。第1実施形態の情報処理部405は、情報要求を受信した時点で最新の関連情報Rnを特定する。通信装置401は、情報処理部405が特定した最新の関連情報Rnと当該関連情報Rnに対応付けられた話者情報Qnとを端末装置10に送信する。情報処理部405は、端末装置10から情報要求を受信するたびに、当該情報要求の送信元の端末装置10に対して関連情報Rnを送信する。
<再生装置50>
再生装置50(放送再生装置の例示)は、放送システム20から送信された放送データXが表すコンテンツCを再生する。例えばテレビジョン受像機が再生装置50の典型例である。具体的には、再生装置50は、放送データXを受信する受信機と、各種の画像を表示する表示装置(例えば液晶パネル)と、各種の音響を放音する放音装置(例えばスピーカ)とを含む。
表示装置は、受信機が受信した放送データXに含まれる画像信号Vzに応じた画像を表示する。放音装置は、受信機が受信した放送データXに含まれる音響信号Azに応じた音響を放音する。すなわち、放音装置による再生音には、N人の話者P1〜PNの各々による発話音声G1〜GNと、識別情報Dを表す音響とが含有される。第1実施形態の再生音は、放送局から送信された放送波の受信により再生装置50が再生した音である。
以上の説明から理解される通り、再生装置50の放音装置は、コンテンツCの音響を再生する音響機器として機能するほか、空気振動としての音波を伝送媒体として音響通信により識別情報Dを周囲に送信する送信機としても機能する。すなわち、第1実施形態では、コンテンツCに含まれる音響を放音する放音装置から識別情報Dの音響を放音する音響通信により、当該識別情報Dが周囲に送信される。識別情報Dは、音響の放音に並行して、所定の周期で反復的に送信される。
<端末装置10>
図5は、端末装置10の構成を例示するブロック図である。図5に例示される通り、端末装置10は、制御装置11と記憶装置12と通信装置13と収音装置14と再生装置15(端末再生装置の例示)とを具備する。収音装置14は、周囲の音響を収音する音響機器(マイクロホン)である。具体的には、収音装置14は、再生装置50が放音した音響を収音し、当該音響の波形を表す音響信号Yを生成する。すなわち、再生装置50による再生音の収音により音響信号Yが生成される。音響信号Yには、識別情報Dが含まれる。
以上の説明から理解される通り、収音装置14は、音声通話または動画撮影時の音声収録に利用されるほか、空気振動としての音波を伝送媒体とする音響通信により識別情報Dを受信する受信機としても機能する。なお、収音装置14が生成した音響信号Yをアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。また、端末装置10と一体に構成された収音装置14に代えて、別体の収音装置14を有線または無線により端末装置10に接続してもよい。
制御装置11(コンピュータの例示)は、例えばCPU(Central Processing Unit)等の処理回路で構成され、端末装置10の各要素を統括的に制御する。記憶装置12は、制御装置11が実行するプログラムと、制御装置11が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置12として任意に採用され得る。
制御装置11は、図5に例示される通り、記憶装置12に記憶されたプログラムを実行することで複数の機能(情報抽出部113、情報取得部115および再生制御部117)を実現する。なお、制御装置11の一部の機能を専用の電子回路で実現してもよい。また、制御装置11の機能を複数の装置に搭載してもよい。
情報抽出部113は、再生装置50による再生音の収音により収音装置14が生成した音響信号Yから識別情報Dを抽出する。具体的には、情報抽出部113は、例えば、音響信号Yのうち識別情報Dの音響成分を含む周波数帯域を強調するフィルタ処理と、識別情報Dに対する変調処理に対応した復調処理とにより、識別情報Dを抽出する。情報抽出部113が抽出した識別情報Dは、当該識別情報Dに対応するN個の発話音声G1〜GNにそれぞれ対応するN個の関連情報R1〜RNの取得に利用される。情報抽出部113による識別情報Dの抽出は、一定時間毎に繰り返される。以上の説明から理解される通り、情報抽出部113は、N人の話者P1〜PNの各々による発話音声G1〜GNを含む再生音の収音により収音装置14が生成する音響信号Yから、識別情報Dを抽出する。
情報取得部115は、情報抽出部113が抽出した識別情報Dを含む情報要求を配信装置40に送信することで、当該識別情報Dに対応付けられた関連情報Rnと当該関連情報Rnに対応付けられた話者情報Qnとを配信装置40から取得する。情報要求の送信は、識別情報Dの抽出のたびに実行される。前述の通り、配信装置40の情報処理部405は、情報要求を受信するたびに、端末装置10に対して関連情報Rnおよび話者情報Qnを送信する。したがって、情報取得部115は、関連情報Rnおよび話者情報Qnを、当該関連情報Rnに対応する発話音声Gnの発話の順番で時系列に取得する。
通信装置13は、制御装置11による制御のもとで通信網70を介して配信装置40と通信する。第1実施形態の通信装置13は、情報要求を配信装置40に送信する。また、通信装置13は、配信装置40から送信された関連情報Rnおよび話者情報Qnを受信する。以上の説明から理解される通り、情報取得部115は、識別情報Dを配信装置40に送信することで、当該識別情報Dに対応する複数の関連情報Rnを配信装置40から取得する。
再生装置15は、再生制御部117の制御のもとで、関連情報Rnを再生する出力機器である。具体的には、再生装置15は、関連情報Rnが表す画像を表示する表示装置を含む。再生装置50が再生するコンテンツCに関連する関連情報Rnが表示装置により表示される。
再生制御部117は、情報取得部115が取得した関連情報Rnを再生装置15に再生させる。第1実施形態の再生制御部117は、情報取得部115が取得した複数の関連情報Rnを、当該関連情報Rnに対応する話者Pnが識別可能な態様で再生装置15に再生させる。図6は、端末装置10による関連情報Rnの表示例である。図6では、話者Pnが発話音声Gn「こんにちは。」を発音した場合を想定する。図6に例示される通り、話者Pnの話者情報Qn(例えば話者Pnの名前)が、関連情報Rnに対応付けて再生装置15の表示装置に表示される。再生装置15は、配信装置40から取得した順番で時系列に関連情報Rnを表示する。すなわち、コンテンツCの進行に並行して、コンテンツC内における発話音声Gnの発音毎に、当該発話音声Gnの発話内容を表す関連情報Rn(すなわち字幕)が順次に表示される。再生装置15は、情報取得部115が最新の関連情報Rnを取得すると、表示済みの既存の関連情報Rnを消去したうえで、当該最新の関連情報Rnを表示する。
図7は、端末装置10が実行する処理を例示するフローチャートである。例えば収音装置14による音響信号Yの生成を契機として、図7の処理が開始される。図7の処理は、所定の期間毎に繰り返し実行される。図7の処理を開始すると、情報抽出部113は、収音装置14が生成した音響信号Yから識別情報Dを抽出する(Sb1)。情報取得部115は、情報抽出部113が抽出した識別情報Dに対応する関連情報Rnおよび話者情報Qnを取得する(Sb2)。具体的には、識別情報Dを配信装置40に送信することで、当該識別情報Dに対応する最新の関連情報Rnが取得される。再生制御部117は、情報取得部115が取得した関連情報Rnを再生装置15に再生させる(Sb3)。具体的には、話者Pnの話者情報Qn(例えば話者Pnの名前)を関連情報Rnに対応付けて再生装置15に表示させる。
以上に例示した通り、放送システム20は、N人の話者P1〜PNの各々による発話音声Gnと識別情報Dを表す音響成分とを含む音響信号Azを再生装置50に送信する。配信装置40は、N人の話者P1〜PNの各々による発話音声Gnの発話内容を表す複数の関連情報Rnを、音響信号Azを受信した再生装置50による再生音を収音した端末装置10から識別情報Dを受信した場合に、端末装置10に送信する。
以上の説明から理解される通り、第1実施形態では、N人の話者P1〜PNの各々による発話音声Gnを含む再生音の収音により音響信号Yが生成され、当該音響信号Yから抽出した識別情報Dに対応するN個の関連情報R1〜RNを取得できる。したがって、近距離無線通信用の通信機器を必要とすることなく、話者Pn毎に区別された関連情報Rnを端末装置10の利用者に提供できる。
また、第1実施形態では、放送波の受信により再生装置50が再生した再生音から抽出された識別情報Dが、当該放送局を示す情報であるから、共通の放送局から送信された放送波の受信による再生音に関する関連情報Rnであれば、識別情報Dを相違させる必要がないという利点がある。音声認識の結果に応じて関連情報Rnを生成する第1実施形態の構成によれば、発話音声Gnを表す文字列(すなわち字幕)を端末装置10に提供できる。
第1実施形態では、関連情報Rnに対応する話者Pnが識別可能な態様で再生されるから、端末装置10の利用者が話者Pn毎の関連情報Rnを容易に把握することができる。第1実施形態では特に、話者情報Qnが関連情報Rnに対応付けられるから、関連情報Rnと、当該関連情報Rnに対応する話者Pnを示す情報(例えば名前)とを対応付けて提供できるという利点がある。
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下の各例示において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
第2実施形態の端末装置10は、コンテンツCに出演するN人の話者P1〜PNのうち、端末装置10の利用者が選択した話者Pnに対応する関連情報Rnを再生する。端末装置10は、例えば、事前にコンテンツCに出演するN人の話者P1〜PNの一覧を配信装置40から事前に取得し、当該話者P1〜PNの一覧を表示する。利用者は、表示された話者P1〜PNの一覧から所望する話者Pnを選択する。例えば複数の操作子を含む操作装置(例えばタッチパネル)の操作により、話者Pnの選択が可能である。なお、選択する話者Pnの人数は任意である。また、配信装置40には、例えばコンテンツCの放送前に事前に話者P1〜PNの一覧が登録される。ただし、端末装置10が話者P1〜PNの一覧を取得する方法は任意である。
第2実施形態の情報抽出部113は、第1実施形態と同様に、収音装置14が生成した音響信号Yから識別情報Dを抽出する。第2実施形態の情報取得部115は、第1実施形態と同様に、情報抽出部113が抽出した識別情報Dを配信装置40に送信することで、当該識別情報Dに対応する複数の関連情報Rnを取得する。
第2実施形態の再生制御部117は、コンテンツCに出演するN人の話者P1〜PNのうち利用者が選択した話者Pnに対応する関連情報Rnを再生装置15に再生させる。具体的には、情報取得部115が取得した複数の関連情報Rnのうち、利用者が選択した話者Pnに対応する関連情報Rnが再生される。
第2実施形態においても第1実施形態と同様の効果が実現される。第2実施形態では、N人の話者P1〜PNのうち利用者が選択した話者Pnに対応する関連情報Rnが再生されるから、所望する話者Pnに対応する関連情報Rnを利用者が取得できるという利点がある。
<変形例>
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の各形態では、放送局から送信された放送波の受信により再生されるテレビ番組をコンテンツCとして例示したが、コンテンツCは以上の例示に限定されない。例えば、移動体通信網またはインターネット等の通信網を介して放送データXを送信するIP(Internet Protocol)放送による番組をコンテンツCとしてもよい。
また、本発明の適用範囲は、コンテンツCの放送に限定されない。例えば、商業施設等の各種の施設内において当該施設を案内する案内放送にも本発明は適用される。施設内の案内放送においては、施設を案内する音声を表すコンテンツCが放送システム20により放送される。また、N人の話者P1〜PNが参加するイベント(例えば会議、講演会、またはパネルセッション)において各話者Pnの発話内容を表す関連情報Rnを提供する場合にも本発明は適用される。例えば、収音装置(マイク)により収音された各話者Pnの発話音声Gnを再生装置(例えば会場に設置されたスピーカ)により再生する。再生装置からの再生音に識別情報Dが含められる。N人の話者P1〜PNの各々による発話内容をそれぞれ表すN個の関連情報R1〜RNがイベントの会場にいる利用者の端末装置10に提供される。
(2)前述の各形態では、生放送されるテレビ番組をコンテンツCとして例示したが、コンテンツCは以上の例示に限定されない。例えば事前に収録されたテレビ番組をコンテンツCとして利用してもよい。
(3)前述の各形態では、画像信号Vzと音響信号Azとを含むコンテンツCを例示したが、コンテンツCにおける画像信号Vzの有無は任意である。
(4)前述の各形態では、利用者の情報端末を端末装置10として利用したが、端末装置10は以上の例示に限定されない。例えば商業施設に設置される電子看板(例えばデジタルサイネージ)等の案内用の表示端末を端末装置10として利用してもよい。
(5)前述の各形態では、N人の話者P1〜PNのそれぞれに収音装置91を設置したNチャンネルの放送システム20を利用したが、放送システム20のチャンネル数は任意である。例えば1チャンネルの放送システム20により、N人分の発話音声G1〜GNを収音してもよい。以上の構成では、放送システム20が生成した1系統の音響信号を各話者Pnの成分毎に分離して、各成分に対して音声認識が実行される。音響信号の分離には、公知の音源分離の技術が任意に採用される。音響信号の分離は、例えば放送システム20または音声認識装置30で実行される。
(6)前述の各形態では、コンテンツCの音響は、N人の話者P1〜PNの各々による発話音声Gnを含んだが、発話音声Gn以外の音をコンテンツCの音響が含んでもよい。例えば、楽器音、楽曲、または、緊急事態を報知する報知音(例えばブザー音)等の各種の音がコンテンツCの音響に含まれる。以上の構成では、例えば音に関する関連情報Rnが生成される。例えば、楽器名、楽曲名、または、音の種類(例えばブザー音)を表す関連情報Rnが生成される。音に関する関連情報Rnは、例えば当該音を表す音響信号を公知の任意の技術により解析することで生成される。以上の説明から理解される通り、Nチャンネルのうちの一部または全部を、発話音声Gn以外の音に利用してもよい。
(7)前述の各形態では、音声認識の結果(すなわち発話文字列Wn)そのものを関連情報Rnとして生成したが、音声認識の結果に応じて生成された関連情報Rnであれば、関連情報Rnは以上の例示に限定されない。例えば発話文字列Wnを他言語に翻訳した文字列を関連情報Rnとして生成してもよい。配信装置40は、相異なる複数の言語にそれぞれ対応する複数の関連情報Rnを生成する。端末装置10は、当該端末装置10で利用される言語を示す言語情報を情報要求に含めて送信する。例えば端末装置10のOS(Operating System)に設定されている言語を言語情報として自動で送信してもよいし、利用者が所望する言語を選択して当該言語を言語情報として送信してもよい。配信装置40は、識別情報Dと、言語情報が示す言語とに対応する関連情報Rnを要求元の端末装置10に送信する。
また、関連情報Rnを音声認識の結果に応じて生成することは、本発明において必須ではない。例えば、発話音声Gnの発話内容を表す文字列を作業者が手動で入力し、当該文字列を関連情報Rnとしてもよい。また、例えば発話音声Gnの発話内容を表す文字列の所在を示す情報(URL)を関連情報Rnとしてもよい。以上の説明から理解される通り、話者Pnの発話音声Gnの発話内容を表す関連情報Rnであれば、当該関連情報Rnの内容および生成方法は任意である。
(8)前述の各形態では、関連情報Rnに話者情報Qnを対応付けて配信装置40に記憶されたが、関連情報Rnを話者Pn毎に区別することが可能であれば、関連情報Rnに話者情報Qnを対応付けて記憶することは必須ではない。すなわち、放送システム20が話者情報Qnを音声認識装置30に送信することは必須ではない。
(9)前述の各形態では、放送局を示す情報を識別情報Dとして利用したが、識別情報Dは以上の例示に限定されない。例えば、発話文字列Wnを示す情報、コンテンツCを示す情報(すなわち放送局が放送するテレビ番組)、または、コンテンツCの各シーンを示す情報を識別情報Dとしてもよい。また、コンテンツCの途中で放送されるコマーシャルを示す情報を識別情報Dとしてもよい。コンテンツCに出演する各話者Pnを示す情報を識別情報Dとしてもよい。
(10)前述の各形態では、話者情報Qnが示す話者Pnを対応付けて関連情報Rnを再生したが、関連情報Rnの表示態様は以上の例示に限定されない。話者Pnが識別可能な態様で関連情報Rnが再生されれば、当該関連情報Rnの表示態様は任意である。例えば、話者Pn毎に色彩を相違させて関連情報Rnを表示してもよい。
(11)前述の各形態では、関連情報Rnに対応する話者Pnの名前を示す情報を話者情報Qnとして例示したが、関連情報Rnに対応する話者Pnを示す情報であれば話者情報Qnは任意である。例えば、話者Pnの特徴を示す情報を話者情報Qnとして利用してもよい。
(12)前述の各形態では、コンテンツCの放送に並行して音響信号Anに対する音声認識を実行したが、例えば収録済みのコンテンツCを放送する場合には、事前に音響信号Anに対する音声認識を実行し、発話文字列Wnと識別情報Dとを配信装置40に記憶しておいてもよい。
(13)前述の各形態では、再生装置15による表示により関連情報Rnを提示したが、例えば関連情報Rnを表す音響を再生装置15により放音することで関連情報Rnを提示してもよい。すなわち、再生装置15は、画像の表示により関連情報Rnを提示する表示装置と、音響の放音により関連情報Rnを提示する放音装置との何れか一方または双方を含む。
(14)前述の各形態では、配信装置40は、情報要求を端末装置10から受信するたびに関連情報Rnを送信したが、端末装置10からの識別情報Dの受信を契機として、関連情報Rnの登録毎に当該端末装置10に対して関連情報Rnを送信(プッシュ配信)してもよい。関連情報Rnの送信先となる端末装置10については、当該端末装置10を識別するための端末情報が配信装置40に事前に登録される。
(15)各話者Pnによる発話内容が事前に予想できる場合には、各話者Pnによる発話が予想される複数の文字列(以下「登録文字列」という)の何れかを表す識別情報Dを端末装置10に送信してもよい。情報提供システム200に事前に登録された複数の登録文字列のうち、音声認識の結果に類似する登録文字列の識別情報Dが、端末装置10に送信される。端末装置10の記憶装置12には複数の登録文字列が事前に関連情報Rとして記憶され、複数の登録文字列のうち音響信号Yから抽出された識別情報Dに対応する登録文字列が関連情報Rとして再生装置15に表示される。すなわち、話者Pnによる発話内容に厳密には一致しないが内容的に類似する登録文字列が表示される。以上の構成によれば、通信網70を介した通信は関連情報Rnの再生に必須ではない。すなわち、通信網70を介した通信を端末装置10が実行できない状況でも、話者Pnによる発話内容を表す関連情報Rを端末装置10の利用者に提示できる。
(16)前述の各形態では、音声認識装置30と配信装置40とを別個の装置として例示したが、音声認識装置30と配信装置40とを単一の装置により実現してもよい。また、音声認識装置30および配信装置40の何れか一方または双方の機能を放送システム20が実現してもよい。
(17)第2実施形態では、情報抽出部113が抽出した識別情報Dに対応する複数の関連情報Rnを配信装置40が取得し、当該複数の関連情報Rnのうち利用者が選択した関連情報Rnを再生したが、利用者が選択した関連情報Rnを再生する方法は以上の例示に限定されない。例えば、端末装置10は、話者P1〜PNの一覧から利用者が選択した話者Pnの関連情報Rnを配信装置40から取得して、当該関連情報Rnを再生してもよい。
(18)前述の各形態に係る放送システム20または端末装置10の機能は、各形態での例示の通り、CPU等の処理回路とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。
<付記>
以上に例示した形態から、例えば以下の構成が把握される。
本発明の好適な態様(第1態様)に係る端末装置は、複数の話者の各々による発話音声を含む再生音の収音により収音装置が生成する音響信号から識別情報を抽出する情報抽出部と、前記識別情報を配信装置に送信することで、当該識別情報に対応する情報であって、前記複数の話者の各々による発話音声の発話内容をそれぞれ表す複数の関連情報を、前記配信装置から取得する情報取得部とを具備する。以上の態様では、複数の話者の各々による発話音声を含む再生音の収音により収音装置が生成する音響信号から抽出した識別情報に対応する情報であって、複数の話者の各々による発話音声の発話内容をそれぞれ表す複数の関連情報が取得できる。したがって、近距離無線通信用の通信機器を必要とすることなく、話者毎に区別された関連情報を提供できる。
第1態様に係る好適例(第2態様)では、前記再生音は、放送局から送信された放送波の受信により放送再生装置が再生した音であり、前記識別情報は、前記放送局を示す情報である。以上の態様では、放送局から送信された放送波の受信により放送再生装置が再生した再生音の収音により抽出された識別情報が、当該放送局を示す情報であるから、共通の放送局から送信された放送波の受信による再生音に関する関連情報であれば、識別情報を相違させる必要がないという利点がある。
第1態様または第2態様の好適例(第3態様)では、前記関連情報は、音声認識の結果に応じて生成される。以上の態様では、音声認識の結果に応じて関連情報が生成されるから、例えば発話音声を表す文字列(すなわち字幕)を提供できる。
第1態様から第3態様の何れかの好適例(第4態様)では、前記情報取得部が取得した前記複数の関連情報を、当該関連情報に対応する話者が識別可能な態様で端末再生装置に再生させる再生制御部を具備する。以上の態様では、関連情報に対応する話者が識別可能な態様で再生されるから、端末装置の利用者が話者毎の関連情報を容易に把握することができる。
第4態様に係る好適例(第5態様)では、前記再生制御部は、前記複数の話者のうち利用者が選択した話者に対応する関連情報を前記端末再生装置に再生させる。以上の態様では、複数の話者のうち利用者が選択した話者に対応する関連情報が再生されるから、所望する話者に対応する関連情報を利用者が取得できる。
第1態様から第5態様の何れかの好適例(第6態様)では、前記複数の関連情報の各々に、当該関連情報に対応する話者を示す情報が対応付けられる。以上の態様では、話者を示す情報が関連情報に対応付けられるから、関連情報と、当該関連情報に対応する話者を示す情報(例えば名前)とを対応付けて提供することができる。
本発明の好適な態様(第7態様)に係る情報提供システムは、複数の話者の各々による発話音声と、識別情報を表す音響成分とを含む音響信号を放送再生装置に送信する放送システムと、当該識別情報に対応する情報であって、前記複数の話者の各々による発話音声の発話内容をそれぞれ表す複数の関連情報を、前記音響信号を受信した前記放送再生装置による再生音を収音した端末装置から前記識別情報を受信した場合に、前記端末装置に送信する配信装置とを具備する。数の話者の各々による発話音声と、識別情報を表す音響成分とを含む音響信号が放送再生装置に送信される。また、当該識別情報に対応する情報であって、複数の話者の各々による発話音声の発話内容をそれぞれ表す複数の関連情報が、音響信号を受信した放送再生装置による再生音を収音した端末装置から識別情報を受信した場合に端末装置に送信される。したがって、近距離無線通信用の通信機器を必要とすることなく、話者毎に区別された関連情報を端末装置に提供できる。
第7態様の好適例(第8態様)では、前記識別情報は、前記音響信号を送信する放送局を示す情報である。以上の態様では、放送局から送信された放送波の受信により放送再生装置が再生した再生音の収音により抽出された識別情報が、当該放送局を示す情報であるから、共通の放送局から送信された放送波の受信による再生音に関する関連情報であれば識別情報を相違させる必要がないという利点がある。
第7態様または第8態様の好適例(第9態様)では、前記関連情報は、音声認識の結果に応じて生成される。以上の態様では、音声認識の結果に応じて関連情報が生成されるから、発話音声を表す文字列(すなわち字幕)を提供できる。
以上に例示した各態様の端末装置の動作方法、または、以上に例示した各態様の症状提供システムの情報提供方法としても、本発明の好適な態様は実現される。
例えば、本発明の好適な態様に係る端末装置の動作方法は、複数の話者の各々による発話音声を含む再生音の収音により収音装置が生成する音響信号から識別情報を抽出し、前記識別情報を配信装置に送信することで、当該識別情報に対応する情報であって、前記複数の話者の各々による発話音声の発話内容をそれぞれ表す複数の関連情報を、前記配信装置から取得する。
また、本発明の好適な態様に係る情報提供方法は、複数の話者の各々による発話音声と、識別情報を表す音響成分とを含む音響信号を放送再生装置に送信し、当該識別情報に対応する情報であって、前記複数の話者の各々による発話音声の発話内容をそれぞれ表す複数の関連情報を、前記音響信号を受信した前記放送再生装置による再生音を収音した端末装置から前記識別情報を受信した場合に、前記端末装置に送信する。