JP7087745B2

JP7087745B2 - 端末装置、情報提供システム、端末装置の動作方法および情報提供方法

Info

Publication number: JP7087745B2
Application number: JP2018130842A
Authority: JP
Inventors: 翔太森口; 優樹瀬戸
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2022-06-21
Anticipated expiration: 2038-07-10
Also published as: JP2020010224A

Description

本発明は、各種の情報を放送する技術に関する。

放送の内容に関連した情報を端末装置に提供する技術が従来から提案されている。例えば特許文献１には、放送通信網を介してデジタル放送に対応した文字データを送信する構成が開示されている。デジタル放送を受信したデジタル放送受信装置は、Bluetooth（登録商標）等の近距離無線通信により文字データを端末装置に送信する。

特開２００９－３８７７４号公報

特許文献１の技術では、文字データの取得のために近距離無線通信用の通信機器が必要である。以上の事情を考慮して、本発明は、近距離無線通信用の通信機器を必要とすることなく、端末装置の利用者に多様な情報を提供することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る端末装置は、複数の話者の各々による発話音声を含む再生音の収音により収音装置が生成する音響信号から識別情報を抽出する情報抽出部と、前記識別情報を配信装置に送信することで、当該識別情報に対応する情報であって、前記複数の話者の各々による発話音声の発話内容をそれぞれ表す複数の関連情報を、前記配信装置から取得する情報取得部とを具備する。
本発明の好適な態様に係る情報提供システムは、複数の話者の各々による発話音声と、識別情報を表す音響成分とを含む音響信号を放送再生装置に送信する放送システムと、当該識別情報に対応する情報であって、前記複数の話者の各々による発話音声の発話内容をそれぞれ表す複数の関連情報を、前記音響信号を受信した前記放送再生装置による再生音を収音した端末装置から前記識別情報を受信した場合に、前記端末装置に送信する配信装置とを具備する。
本発明の好適な態様に係る端末装置の動作方法は、複数の話者の各々による発話音声を含む再生音の収音により収音装置が生成する音響信号から識別情報を抽出し、前記識別情報を配信装置に送信することで、当該識別情報に対応する情報であって、前記複数の話者の各々による発話音声の発話内容をそれぞれ表す複数の関連情報を、前記配信装置から取得する。
本発明の好適な態様に係る情報提供方法は、複数の話者の各々による発話音声と、識別情報を表す音響成分とを含む音響信号を放送再生装置に送信し、当該識別情報に対応する情報であって、前記複数の話者の各々による発話音声の発話内容をそれぞれ表す複数の関連情報を、前記音響信号を受信した前記放送再生装置による再生音を収音した端末装置から前記識別情報を受信した場合に、前記端末装置に送信する。

第１実施形態における情報提供システムの構成を例示するブロック図である。放送システムの構成を例示するブロック図である。放送システムが実行する処理を例示するフローチャートである。配信装置の構成を例示するブロック図である。端末装置の構成を例示するブロック図である。関連情報の表示例である。端末装置が実行する処理を例示するフローチャートである。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る情報処理システム１００の構成を例示するブロック図である。情報処理システム１００は、放送により提供されるコンテンツＣを視聴する視聴者に各種の情報を提供するためのコンピュータシステムである。例えば、放送波を利用した地上波放送および衛星放送によるテレビ番組がコンテンツＣとして例示される。コンテンツＣは、画像および音響により構成される。

図１に例示される通り、第１実施形態に係る情報処理システム１００は、情報提供システム２００と再生装置５０と端末装置１０とを具備する。情報提供システム２００と端末装置１０とは、例えば移動体通信網またはインターネット等を含む通信網７０を介して相互に通信可能である。情報提供システム２００から放送されたコンテンツＣを再生装置５０により視聴する視聴者の端末装置１０に、当該コンテンツＣに関連する情報（以下「関連情報」という）Ｒnが提供される。端末装置１０は、例えば携帯電話機、スマートフォン、タブレット端末、またはパーソナルコンピュータ等の可搬型の情報端末である。図１に例示される通り、情報提供システム２００は、放送システム２０と音声認識装置３０と配信装置４０とを具備する。

＜放送システム２０＞
図２は、第１実施形態における放送システム２０の構成を例示するブロック図である。放送システム２０は、コンテンツＣを放送するためのコンピュータシステムである。具体的には、放送システム２０は、コンテンツＣを表すデータ（以下「放送データ」という）Ｘを送信する。第１実施形態では、放送波により放送データＸが送信される。放送データＸは、コンテンツＣの画像を表す画像信号Ｖzと、コンテンツＣの音響を表す音響信号Ａzとを含む。

第１実施形態の放送システム２０は、特定のスタジオで収録されているコンテンツＣを放送する。すなわち、コンテンツＣは、事前に収録されたテレビ番組ではなく、収録と放送とが並行される生放送のテレビ番組である。具体的には、コンテンツＣは、例えば複数（Ｎ人）の話者（典型的には出演者）が発言するテレビ番組である。例えば、ニュース番組、ワイドショー、討論番組等のテレビ番組がコンテンツＣとして例示される。すなわち、コンテンツＣの音響には、Ｎ人の話者Ｐ1～ＰNの各々による発話音声Ｇnが含まれる。第１実施形態では、発話音声Ｇ1～ＧNの発話内容をそれぞれ表すＮ個の関連情報Ｒ1～ＲNが端末装置１０に提供される。

図２に例示される通り、放送システム２０は、収録装置２０１と処理部２０３と通信装置２０５と放送装置２０７とを具備する。処理部２０３の機能は、例えばＣＰＵ（Central Processing Unit）等の処理回路がプログラムを実行することで実現される。

収録装置２０１は、コンテンツＣを収録する収録機器であり、Ｎ個の収音装置９１_1～９１_Nと撮像装置９３とを含む。例えば話者Ｐnが所在するスタジオに収録装置２０１が設置される。撮像装置９３は、被写体を撮像することで画像信号Ｖを生成する撮像機器（例えばカメラ）である。例えばスタジオに所在するＮ人の話者Ｐ1～ＰNが撮像される。収音装置９１_n（n＝１～Ｎ）は、周囲の音を収音することで音響信号Ａnを生成する音響機器（例えばマイクロホン）である。コンテンツＣに出演する話者Ｐn毎に収音装置９１_nが設置される。各収音装置９１_nは、当該収音装置９１_nに対応する話者Ｐnの発話音声Ｇnを収録する。すなわち、収録装置２０１は、Ｎチャンネルの収音システムである。したがって、Ｎ人分の発話音声Ｇ1～ＧNをそれぞれが表すＮ系統の音響信号Ａ1～ＡNが収録装置２０１により生成される。なお、Ｎ人の話者Ｐ1～ＰNが同じ場所（例えばスタジオ）にいることは必須ではなく、Ｎ人の話者Ｐ1～ＰNが相異なる場所にいてもよい。

処理部２０３は、コンテンツＣの放送データＸを生成する。具体的には、処理部２０３は、収録装置２０１が生成した画像信号ＶとＮ系統の音響信号Ａ1～ＡNとに対する編集処理により放送データＸを生成する。処理部２０３が実行する編集処理は、画像信号Ｖから画像信号Ｖzを生成する画像処理と、Ｎ系統の音響信号Ａ1～ＡNから音響信号Ａzを生成する音響処理とを含む。画像処理は、画像信号Ｖが表す画像の特性を調整する各種の処理を含む。音響処理は、Ｎ系統の音響信号Ａ1～ＡNの周波数特性を調整する処理、および、Ｎ系統の音響信号Ａ1～ＡNを混合する処理等の各種の処理を含む。また、第１実施形態の音響処理は、Ｎ系統の音響信号Ａ1～ＡNを混合した後の信号（以下「混合信号」という）に対して識別情報Ｄを付加する処理（以下「付加処理」という）を含む。混合信号に対して所定の周期で反復的に識別情報Ｄが付加される。識別情報Ｄは、関連情報Ｒnを識別するための情報である。第１実施形態の識別情報Ｄは、コンテンツＣを放送する放送局を示す情報である。

付加処理は、混合信号と、識別情報Ｄを音響成分として表す変調信号とを加算することで、音響信号Ａzを生成する信号処理である。すなわち、音響信号Ａzが表す音響には、Ｎ個の発話音声Ｇnと、識別情報Ｄを表す音響成分とが含まれる。変調信号は、例えば所定の周波数の搬送波を識別情報Ｄにより周波数変調することで生成される。なお、拡散符号を利用した識別情報Ｄの拡散変調と所定の周波数の搬送波を利用した周波数変換とを順次に実行することで変調信号を生成してもよい。変調信号の周波数帯域は、再生装置５０による放音と端末装置１０による収音とが可能な周波数帯域であり、かつ、端末装置１０の利用者が通常の環境で聴取する音声の周波数帯域を上回る周波数帯域（例えば１８ｋＨｚ以上かつ２０ｋＨｚ以下）に設定される。したがって、端末装置１０の利用者は、識別情報Ｄの音響成分を殆ど聴取できない。ただし、変調信号の周波数帯域は任意であり、例えば可聴帯域内の変調信号を生成することも可能である。以上に説明した編集処理により、画像信号Ｖzと音響信号Ａzとを含む放送データＸが生成される。

放送装置２０７は、各種のコンテンツＣを放送するための放送機器である。例えば、放送データＸを電波塔に送信する送信機と、当該放送データＸを放送波として送信する電波塔とにより放送装置２０７が構成される。コンテンツＣを表す放送データＸが再生装置５０に送信される。

通信装置２０５は、有線または無線により音声認識装置３０と通信する通信機器である。具体的には、通信装置２０５は、処理部２０３による制御のもとで、Ｎ個の送信データＫ1～ＫNを音声認識装置３０に送信する。各送信データＫnは、音響信号Ａnと、当該音響信号Ａnに対応する話者Ｐnを示す情報（以下「話者情報」という）Ｑnと、識別情報Ｄとを含む。Ｎ個の送信データＫ1～ＫNについて共通の識別情報Ｄが含まれる。相異なる話者Ｐnに対応するＮ個の送信データＫ1～ＫNが音声認識装置３０に送信される。実際には、Ｎ人の話者Ｐ1～ＰNは同時に発話音声Ｇnを発音するわけではく、順番に発話音声Ｇnを発音することが想定される。したがって、発話音声Ｇnに対応する音響信号Ａnを含む送信データＫnが発音の順番で時系列に音声認識装置３０に送信される。話者情報Ｑnは、例えば関連情報Ｒnに対応する話者Ｐnの名前を示す情報である。例えば、コンテンツＣの放送前に各話者情報Ｑnが放送システム２０に記憶される。各送信データＫnは、所定の周期で反復的に音声認識装置３０に送信される。なお、音声認識装置３０による音声認識が可能な信号であれば、音響信号Ａnとは異なる信号（例えば周波数特性を調整後の音響信号Ａn）を音声認識装置３０に送信してもよい。

図３は、放送システム２０の処理部２０３が実行する処理を例示するフローチャートである。例えばコンテンツＣの収録の開始を契機として、図３の処理が開始される。処理部２０３は、コンテンツＣの放送データＸを生成する（Ｓa1）。収録装置２０１が生成した画像信号ＶとＮ系統の音響信号Ａ1～ＡNとから放送データＸが生成される。処理部２０３は、放送データＸを送信することで、コンテンツＣを放送する（Ｓa2）。処理部２０３は、Ｎ個の送信データＫ1～ＫNを音声認識装置３０に送信する動作を通信装置２０５に実行させる（Ｓa3）。なお、ステップＳa3の処理は、ステップＳa1の前に実行してもよいし、ステップＳa1とステップＳa2との間に実行してもよい。

＜音声認識装置３０＞
図１の音声認識装置３０は、放送システム２０から順次に送信された送信データＫnを受信する。第１実施形態の音声認識装置３０は、送信データＫnの音響信号Ａnに対して音声認識を実行する。したがって、当該音響信号Ａnに対応する発話音声Ｇnの発話内容を表す文字列（以下「発話文字列」という）Ｗnが特定される。すなわち、発話文字列Ｗnが音声認識の結果として特定される。音響信号Ａnに対する音声認識には、例えばＨＭＭ（Hidden Markov Model）等の音響モデルと、言語的な制約を示す言語モデルとを利用した認識処理等の公知の技術が任意に採用され得る。送信データＫnの音響信号Ａnに対する音声認識の結果（すなわち発話文字列Ｗn）と、当該送信データＫnの話者情報Ｑnおよび識別情報Ｄとを含む認識データＬnが配信装置４０に送信される。各話者Ｐnにそれぞれ対応するＮ個の認識データＬ1～ＬNが配信装置４０に送信される。第１実施形態では、コンテンツＣの放送に並行して、音響信号Ａnに対する音声認識が実行される。

＜配信装置４０＞
図４は、配信装置４０の構成を例示するブロック図である。図４に例示される通り、第１実施形態の配信装置４０は、通信装置４０１と記憶装置４０３と情報処理部４０５とを具備する。情報処理部４０５の機能は、例えばＣＰＵ（Central Processing Unit）等の処理回路がプログラムを実行することで実現される。通信装置４０１は、音声認識装置３０および端末装置１０の各々と通信する。音声認識装置３０と配信装置４０とは、例えば有線または無線により相互に通信する。第１実施形態の通信装置４０１は、音声認識装置３０から送信された認識データＬnを受信する。また、通信装置４０１は、通信網７０を介して端末装置１０から関連情報Ｒnの要求（以下「情報要求」という）を受信する。情報要求には、識別情報Ｄが含まれる。

記憶装置４０３は、端末装置１０に関連情報Ｒnを提供するための各種のデータを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置４０３として任意に採用され得る。第１実施形態の記憶装置４０３は、情報テーブルＴを記憶する。

情報テーブルＴは、識別情報Ｄと話者情報Ｑnと関連情報Ｒnとが対応付けて登録されたデータテーブルである。関連情報Ｒnは、音声認識の結果である発話文字列Ｗnに応じて生成される。第１実施形態では、発話文字列Ｗnそのもの（すなわち字幕）を関連情報Ｒnとして例示する。具体的には、情報テーブルＴは、音声認識装置３０から送信された認識データＬnの識別情報Ｄと話者情報Ｑnと関連情報Ｒnとを対応付けて登録する。話者情報Ｑnは、関連情報Ｒnに対応する話者Ｐnを示す情報とも換言される。コンテンツＣに含まれるＮ個の発話音声Ｇ1～ＧNについては共通の識別情報Ｄが対応付けられる。図４に例示される通り、共通の識別情報Ｄについて、Ｎ個の話者情報Ｑ1～ＱNのそれぞれに対応するＮ個の関連情報Ｒ1～ＲNが登録される。関連情報Ｒnは、当該関連情報Ｒnに対応する発話音声Ｇnの発話の順番で時系列に情報テーブルＴに登録される。

以上の説明から理解される通り、情報テーブルＴは、識別情報Ｄが示す放送局のコンテンツＣに出演しているＮ人の話者Ｐ1～ＰNの各々について、当該話者Ｐnの発話音声Ｇnの字幕が登録されたテーブルである。なお、実際には、複数の放送局の各々から音声認識装置３０に送信データＫnが送信されるから、放送局毎に話者情報Ｑnと関連情報Ｒnとの組合せが情報テーブルＴに登録される。なお、放送局毎に別のテーブルを利用してもよい。

情報処理部４０５は、端末装置１０からの情報要求に応じて関連情報Ｒnを特定する。具体的には、情報処理部４０５は、情報テーブルＴに登録された複数の識別情報Ｄのうち、端末装置１０から送信された識別情報Ｄに対応する関連情報Ｒnを特定する。第１実施形態の情報処理部４０５は、情報要求を受信した時点で最新の関連情報Ｒnを特定する。通信装置４０１は、情報処理部４０５が特定した最新の関連情報Ｒnと当該関連情報Ｒnに対応付けられた話者情報Ｑnとを端末装置１０に送信する。情報処理部４０５は、端末装置１０から情報要求を受信するたびに、当該情報要求の送信元の端末装置１０に対して関連情報Ｒnを送信する。

＜再生装置５０＞
再生装置５０（放送再生装置の例示）は、放送システム２０から送信された放送データＸが表すコンテンツＣを再生する。例えばテレビジョン受像機が再生装置５０の典型例である。具体的には、再生装置５０は、放送データＸを受信する受信機と、各種の画像を表示する表示装置（例えば液晶パネル）と、各種の音響を放音する放音装置（例えばスピーカ）とを含む。

表示装置は、受信機が受信した放送データＸに含まれる画像信号Ｖzに応じた画像を表示する。放音装置は、受信機が受信した放送データＸに含まれる音響信号Ａzに応じた音響を放音する。すなわち、放音装置による再生音には、Ｎ人の話者Ｐ1～ＰNの各々による発話音声Ｇ1～ＧNと、識別情報Ｄを表す音響とが含有される。第１実施形態の再生音は、放送局から送信された放送波の受信により再生装置５０が再生した音である。

以上の説明から理解される通り、再生装置５０の放音装置は、コンテンツＣの音響を再生する音響機器として機能するほか、空気振動としての音波を伝送媒体として音響通信により識別情報Ｄを周囲に送信する送信機としても機能する。すなわち、第１実施形態では、コンテンツＣに含まれる音響を放音する放音装置から識別情報Ｄの音響を放音する音響通信により、当該識別情報Ｄが周囲に送信される。識別情報Ｄは、音響の放音に並行して、所定の周期で反復的に送信される。

＜端末装置１０＞
図５は、端末装置１０の構成を例示するブロック図である。図５に例示される通り、端末装置１０は、制御装置１１と記憶装置１２と通信装置１３と収音装置１４と再生装置１５（端末再生装置の例示）とを具備する。収音装置１４は、周囲の音響を収音する音響機器（マイクロホン）である。具体的には、収音装置１４は、再生装置５０が放音した音響を収音し、当該音響の波形を表す音響信号Ｙを生成する。すなわち、再生装置５０による再生音の収音により音響信号Ｙが生成される。音響信号Ｙには、識別情報Ｄが含まれる。

以上の説明から理解される通り、収音装置１４は、音声通話または動画撮影時の音声収録に利用されるほか、空気振動としての音波を伝送媒体とする音響通信により識別情報Ｄを受信する受信機としても機能する。なお、収音装置１４が生成した音響信号Ｙをアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略した。また、端末装置１０と一体に構成された収音装置１４に代えて、別体の収音装置１４を有線または無線により端末装置１０に接続してもよい。

制御装置１１（コンピュータの例示）は、例えばＣＰＵ（Central Processing Unit）等の処理回路で構成され、端末装置１０の各要素を統括的に制御する。記憶装置１２は、制御装置１１が実行するプログラムと、制御装置１１が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置１２として任意に採用され得る。

制御装置１１は、図５に例示される通り、記憶装置１２に記憶されたプログラムを実行することで複数の機能（情報抽出部１１３、情報取得部１１５および再生制御部１１７）を実現する。なお、制御装置１１の一部の機能を専用の電子回路で実現してもよい。また、制御装置１１の機能を複数の装置に搭載してもよい。

情報抽出部１１３は、再生装置５０による再生音の収音により収音装置１４が生成した音響信号Ｙから識別情報Ｄを抽出する。具体的には、情報抽出部１１３は、例えば、音響信号Ｙのうち識別情報Ｄの音響成分を含む周波数帯域を強調するフィルタ処理と、識別情報Ｄに対する変調処理に対応した復調処理とにより、識別情報Ｄを抽出する。情報抽出部１１３が抽出した識別情報Ｄは、当該識別情報Ｄに対応するＮ個の発話音声Ｇ1～ＧNにそれぞれ対応するＮ個の関連情報Ｒ1～ＲNの取得に利用される。情報抽出部１１３による識別情報Ｄの抽出は、一定時間毎に繰り返される。以上の説明から理解される通り、情報抽出部１１３は、Ｎ人の話者Ｐ1～ＰNの各々による発話音声Ｇ1～ＧNを含む再生音の収音により収音装置１４が生成する音響信号Ｙから、識別情報Ｄを抽出する。

情報取得部１１５は、情報抽出部１１３が抽出した識別情報Ｄを含む情報要求を配信装置４０に送信することで、当該識別情報Ｄに対応付けられた関連情報Ｒnと当該関連情報Ｒnに対応付けられた話者情報Ｑnとを配信装置４０から取得する。情報要求の送信は、識別情報Ｄの抽出のたびに実行される。前述の通り、配信装置４０の情報処理部４０５は、情報要求を受信するたびに、端末装置１０に対して関連情報Ｒnおよび話者情報Ｑnを送信する。したがって、情報取得部１１５は、関連情報Ｒnおよび話者情報Ｑnを、当該関連情報Ｒnに対応する発話音声Ｇnの発話の順番で時系列に取得する。

通信装置１３は、制御装置１１による制御のもとで通信網７０を介して配信装置４０と通信する。第１実施形態の通信装置１３は、情報要求を配信装置４０に送信する。また、通信装置１３は、配信装置４０から送信された関連情報Ｒnおよび話者情報Ｑnを受信する。以上の説明から理解される通り、情報取得部１１５は、識別情報Ｄを配信装置４０に送信することで、当該識別情報Ｄに対応する複数の関連情報Ｒnを配信装置４０から取得する。

再生装置１５は、再生制御部１１７の制御のもとで、関連情報Ｒnを再生する出力機器である。具体的には、再生装置１５は、関連情報Ｒnが表す画像を表示する表示装置を含む。再生装置５０が再生するコンテンツＣに関連する関連情報Ｒnが表示装置により表示される。

再生制御部１１７は、情報取得部１１５が取得した関連情報Ｒnを再生装置１５に再生させる。第１実施形態の再生制御部１１７は、情報取得部１１５が取得した複数の関連情報Ｒnを、当該関連情報Ｒnに対応する話者Ｐnが識別可能な態様で再生装置１５に再生させる。図６は、端末装置１０による関連情報Ｒnの表示例である。図６では、話者Ｐnが発話音声Ｇn「こんにちは。」を発音した場合を想定する。図６に例示される通り、話者Ｐnの話者情報Ｑn（例えば話者Ｐnの名前）が、関連情報Ｒnに対応付けて再生装置１５の表示装置に表示される。再生装置１５は、配信装置４０から取得した順番で時系列に関連情報Ｒnを表示する。すなわち、コンテンツＣの進行に並行して、コンテンツＣ内における発話音声Ｇnの発音毎に、当該発話音声Ｇnの発話内容を表す関連情報Ｒn（すなわち字幕）が順次に表示される。再生装置１５は、情報取得部１１５が最新の関連情報Ｒnを取得すると、表示済みの既存の関連情報Ｒnを消去したうえで、当該最新の関連情報Ｒnを表示する。

図７は、端末装置１０が実行する処理を例示するフローチャートである。例えば収音装置１４による音響信号Ｙの生成を契機として、図７の処理が開始される。図７の処理は、所定の期間毎に繰り返し実行される。図７の処理を開始すると、情報抽出部１１３は、収音装置１４が生成した音響信号Ｙから識別情報Ｄを抽出する（Ｓb1）。情報取得部１１５は、情報抽出部１１３が抽出した識別情報Ｄに対応する関連情報Ｒnおよび話者情報Ｑnを取得する（Ｓb2）。具体的には、識別情報Ｄを配信装置４０に送信することで、当該識別情報Ｄに対応する最新の関連情報Ｒnが取得される。再生制御部１１７は、情報取得部１１５が取得した関連情報Ｒnを再生装置１５に再生させる（Ｓb3）。具体的には、話者Ｐnの話者情報Ｑn（例えば話者Ｐnの名前）を関連情報Ｒnに対応付けて再生装置１５に表示させる。

以上に例示した通り、放送システム２０は、Ｎ人の話者Ｐ1～ＰNの各々による発話音声Ｇnと識別情報Ｄを表す音響成分とを含む音響信号Ａzを再生装置５０に送信する。配信装置４０は、Ｎ人の話者Ｐ1～ＰNの各々による発話音声Ｇnの発話内容を表す複数の関連情報Ｒnを、音響信号Ａzを受信した再生装置５０による再生音を収音した端末装置１０から識別情報Ｄを受信した場合に、端末装置１０に送信する。

以上の説明から理解される通り、第１実施形態では、Ｎ人の話者Ｐ1～ＰNの各々による発話音声Ｇnを含む再生音の収音により音響信号Ｙが生成され、当該音響信号Ｙから抽出した識別情報Ｄに対応するＮ個の関連情報Ｒ1～ＲNを取得できる。したがって、近距離無線通信用の通信機器を必要とすることなく、話者Ｐn毎に区別された関連情報Ｒnを端末装置１０の利用者に提供できる。

また、第１実施形態では、放送波の受信により再生装置５０が再生した再生音から抽出された識別情報Ｄが、当該放送局を示す情報であるから、共通の放送局から送信された放送波の受信による再生音に関する関連情報Ｒnであれば、識別情報Ｄを相違させる必要がないという利点がある。音声認識の結果に応じて関連情報Ｒnを生成する第１実施形態の構成によれば、発話音声Ｇnを表す文字列（すなわち字幕）を端末装置１０に提供できる。

第１実施形態では、関連情報Ｒnに対応する話者Ｐnが識別可能な態様で再生されるから、端末装置１０の利用者が話者Ｐn毎の関連情報Ｒnを容易に把握することができる。第１実施形態では特に、話者情報Ｑnが関連情報Ｒnに対応付けられるから、関連情報Ｒnと、当該関連情報Ｒnに対応する話者Ｐnを示す情報（例えば名前）とを対応付けて提供できるという利点がある。

＜第２実施形態＞
本発明の第２実施形態を説明する。なお、以下の各例示において機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

第２実施形態の端末装置１０は、コンテンツＣに出演するＮ人の話者Ｐ1～ＰNのうち、端末装置１０の利用者が選択した話者Ｐnに対応する関連情報Ｒnを再生する。端末装置１０は、例えば、事前にコンテンツＣに出演するＮ人の話者Ｐ1～ＰNの一覧を配信装置４０から事前に取得し、当該話者Ｐ1～ＰNの一覧を表示する。利用者は、表示された話者Ｐ1～ＰNの一覧から所望する話者Ｐnを選択する。例えば複数の操作子を含む操作装置（例えばタッチパネル）の操作により、話者Ｐnの選択が可能である。なお、選択する話者Ｐnの人数は任意である。また、配信装置４０には、例えばコンテンツＣの放送前に事前に話者Ｐ1～ＰNの一覧が登録される。ただし、端末装置１０が話者Ｐ1～ＰNの一覧を取得する方法は任意である。

第２実施形態の情報抽出部１１３は、第１実施形態と同様に、収音装置１４が生成した音響信号Ｙから識別情報Ｄを抽出する。第２実施形態の情報取得部１１５は、第１実施形態と同様に、情報抽出部１１３が抽出した識別情報Ｄを配信装置４０に送信することで、当該識別情報Ｄに対応する複数の関連情報Ｒnを取得する。

第２実施形態の再生制御部１１７は、コンテンツＣに出演するＮ人の話者Ｐ1～ＰNのうち利用者が選択した話者Ｐnに対応する関連情報Ｒnを再生装置１５に再生させる。具体的には、情報取得部１１５が取得した複数の関連情報Ｒnのうち、利用者が選択した話者Ｐnに対応する関連情報Ｒnが再生される。

第２実施形態においても第１実施形態と同様の効果が実現される。第２実施形態では、Ｎ人の話者Ｐ1～ＰNのうち利用者が選択した話者Ｐnに対応する関連情報Ｒnが再生されるから、所望する話者Ｐnに対応する関連情報Ｒnを利用者が取得できるという利点がある。

＜変形例＞
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態では、放送局から送信された放送波の受信により再生されるテレビ番組をコンテンツＣとして例示したが、コンテンツＣは以上の例示に限定されない。例えば、移動体通信網またはインターネット等の通信網を介して放送データＸを送信するＩＰ（Internet Protocol）放送による番組をコンテンツＣとしてもよい。

また、本発明の適用範囲は、コンテンツＣの放送に限定されない。例えば、商業施設等の各種の施設内において当該施設を案内する案内放送にも本発明は適用される。施設内の案内放送においては、施設を案内する音声を表すコンテンツＣが放送システム２０により放送される。また、Ｎ人の話者Ｐ1～ＰNが参加するイベント（例えば会議、講演会、またはパネルセッション）において各話者Ｐnの発話内容を表す関連情報Ｒnを提供する場合にも本発明は適用される。例えば、収音装置（マイク）により収音された各話者Ｐnの発話音声Ｇnを再生装置（例えば会場に設置されたスピーカ）により再生する。再生装置からの再生音に識別情報Ｄが含められる。Ｎ人の話者Ｐ1～ＰNの各々による発話内容をそれぞれ表すＮ個の関連情報Ｒ1～ＲNがイベントの会場にいる利用者の端末装置１０に提供される。

（２）前述の各形態では、生放送されるテレビ番組をコンテンツＣとして例示したが、コンテンツＣは以上の例示に限定されない。例えば事前に収録されたテレビ番組をコンテンツＣとして利用してもよい。

（３）前述の各形態では、画像信号Ｖzと音響信号Ａzとを含むコンテンツＣを例示したが、コンテンツＣにおける画像信号Ｖzの有無は任意である。

（４）前述の各形態では、利用者の情報端末を端末装置１０として利用したが、端末装置１０は以上の例示に限定されない。例えば商業施設に設置される電子看板（例えばデジタルサイネージ）等の案内用の表示端末を端末装置１０として利用してもよい。

（５）前述の各形態では、Ｎ人の話者Ｐ1～ＰNのそれぞれに収音装置９１を設置したＮチャンネルの放送システム２０を利用したが、放送システム２０のチャンネル数は任意である。例えば１チャンネルの放送システム２０により、Ｎ人分の発話音声Ｇ1～ＧNを収音してもよい。以上の構成では、放送システム２０が生成した１系統の音響信号を各話者Ｐnの成分毎に分離して、各成分に対して音声認識が実行される。音響信号の分離には、公知の音源分離の技術が任意に採用される。音響信号の分離は、例えば放送システム２０または音声認識装置３０で実行される。

（６）前述の各形態では、コンテンツＣの音響は、Ｎ人の話者Ｐ1～ＰNの各々による発話音声Ｇnを含んだが、発話音声Ｇn以外の音をコンテンツＣの音響が含んでもよい。例えば、楽器音、楽曲、または、緊急事態を報知する報知音（例えばブザー音）等の各種の音がコンテンツＣの音響に含まれる。以上の構成では、例えば音に関する関連情報Ｒnが生成される。例えば、楽器名、楽曲名、または、音の種類（例えばブザー音）を表す関連情報Ｒnが生成される。音に関する関連情報Ｒnは、例えば当該音を表す音響信号を公知の任意の技術により解析することで生成される。以上の説明から理解される通り、Ｎチャンネルのうちの一部または全部を、発話音声Ｇn以外の音に利用してもよい。

（７）前述の各形態では、音声認識の結果（すなわち発話文字列Ｗn）そのものを関連情報Ｒnとして生成したが、音声認識の結果に応じて生成された関連情報Ｒnであれば、関連情報Ｒnは以上の例示に限定されない。例えば発話文字列Ｗnを他言語に翻訳した文字列を関連情報Ｒnとして生成してもよい。配信装置４０は、相異なる複数の言語にそれぞれ対応する複数の関連情報Ｒnを生成する。端末装置１０は、当該端末装置１０で利用される言語を示す言語情報を情報要求に含めて送信する。例えば端末装置１０のＯＳ（Operating System）に設定されている言語を言語情報として自動で送信してもよいし、利用者が所望する言語を選択して当該言語を言語情報として送信してもよい。配信装置４０は、識別情報Ｄと、言語情報が示す言語とに対応する関連情報Ｒnを要求元の端末装置１０に送信する。

また、関連情報Ｒnを音声認識の結果に応じて生成することは、本発明において必須ではない。例えば、発話音声Ｇnの発話内容を表す文字列を作業者が手動で入力し、当該文字列を関連情報Ｒnとしてもよい。また、例えば発話音声Ｇnの発話内容を表す文字列の所在を示す情報（ＵＲＬ）を関連情報Ｒnとしてもよい。以上の説明から理解される通り、話者Ｐnの発話音声Ｇnの発話内容を表す関連情報Ｒnであれば、当該関連情報Ｒnの内容および生成方法は任意である。

（８）前述の各形態では、関連情報Ｒnに話者情報Ｑnを対応付けて配信装置４０に記憶されたが、関連情報Ｒnを話者Ｐn毎に区別することが可能であれば、関連情報Ｒnに話者情報Ｑnを対応付けて記憶することは必須ではない。すなわち、放送システム２０が話者情報Ｑnを音声認識装置３０に送信することは必須ではない。

（９）前述の各形態では、放送局を示す情報を識別情報Ｄとして利用したが、識別情報Ｄは以上の例示に限定されない。例えば、発話文字列Ｗnを示す情報、コンテンツＣを示す情報（すなわち放送局が放送するテレビ番組）、または、コンテンツＣの各シーンを示す情報を識別情報Ｄとしてもよい。また、コンテンツＣの途中で放送されるコマーシャルを示す情報を識別情報Ｄとしてもよい。コンテンツＣに出演する各話者Ｐnを示す情報を識別情報Ｄとしてもよい。

（１０）前述の各形態では、話者情報Ｑnが示す話者Ｐnを対応付けて関連情報Ｒnを再生したが、関連情報Ｒnの表示態様は以上の例示に限定されない。話者Ｐnが識別可能な態様で関連情報Ｒnが再生されれば、当該関連情報Ｒnの表示態様は任意である。例えば、話者Ｐn毎に色彩を相違させて関連情報Ｒnを表示してもよい。

（１１）前述の各形態では、関連情報Ｒnに対応する話者Ｐnの名前を示す情報を話者情報Ｑnとして例示したが、関連情報Ｒnに対応する話者Ｐnを示す情報であれば話者情報Ｑnは任意である。例えば、話者Ｐnの特徴を示す情報を話者情報Ｑnとして利用してもよい。

（１２）前述の各形態では、コンテンツＣの放送に並行して音響信号Ａnに対する音声認識を実行したが、例えば収録済みのコンテンツＣを放送する場合には、事前に音響信号Ａnに対する音声認識を実行し、発話文字列Ｗnと識別情報Ｄとを配信装置４０に記憶しておいてもよい。

（１３）前述の各形態では、再生装置１５による表示により関連情報Ｒnを提示したが、例えば関連情報Ｒnを表す音響を再生装置１５により放音することで関連情報Ｒnを提示してもよい。すなわち、再生装置１５は、画像の表示により関連情報Ｒnを提示する表示装置と、音響の放音により関連情報Ｒnを提示する放音装置との何れか一方または双方を含む。

（１４）前述の各形態では、配信装置４０は、情報要求を端末装置１０から受信するたびに関連情報Ｒnを送信したが、端末装置１０からの識別情報Ｄの受信を契機として、関連情報Ｒnの登録毎に当該端末装置１０に対して関連情報Ｒnを送信（プッシュ配信）してもよい。関連情報Ｒnの送信先となる端末装置１０については、当該端末装置１０を識別するための端末情報が配信装置４０に事前に登録される。

（１５）各話者Ｐnによる発話内容が事前に予想できる場合には、各話者Ｐnによる発話が予想される複数の文字列（以下「登録文字列」という）の何れかを表す識別情報Ｄを端末装置１０に送信してもよい。情報提供システム２００に事前に登録された複数の登録文字列のうち、音声認識の結果に類似する登録文字列の識別情報Ｄが、端末装置１０に送信される。端末装置１０の記憶装置１２には複数の登録文字列が事前に関連情報Ｒとして記憶され、複数の登録文字列のうち音響信号Ｙから抽出された識別情報Ｄに対応する登録文字列が関連情報Ｒとして再生装置１５に表示される。すなわち、話者Ｐnによる発話内容に厳密には一致しないが内容的に類似する登録文字列が表示される。以上の構成によれば、通信網７０を介した通信は関連情報Ｒnの再生に必須ではない。すなわち、通信網７０を介した通信を端末装置１０が実行できない状況でも、話者Ｐnによる発話内容を表す関連情報Ｒを端末装置１０の利用者に提示できる。

（１６）前述の各形態では、音声認識装置３０と配信装置４０とを別個の装置として例示したが、音声認識装置３０と配信装置４０とを単一の装置により実現してもよい。また、音声認識装置３０および配信装置４０の何れか一方または双方の機能を放送システム２０が実現してもよい。

（１７）第２実施形態では、情報抽出部１１３が抽出した識別情報Ｄに対応する複数の関連情報Ｒnを配信装置４０が取得し、当該複数の関連情報Ｒnのうち利用者が選択した関連情報Ｒnを再生したが、利用者が選択した関連情報Ｒnを再生する方法は以上の例示に限定されない。例えば、端末装置１０は、話者Ｐ1～ＰNの一覧から利用者が選択した話者Ｐnの関連情報Ｒnを配信装置４０から取得して、当該関連情報Ｒnを再生してもよい。

（１８）前述の各形態に係る放送システム２０または端末装置１０の機能は、各形態での例示の通り、ＣＰＵ等の処理回路とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。

＜付記＞
以上に例示した形態から、例えば以下の構成が把握される。

本発明の好適な態様（第１態様）に係る端末装置は、複数の話者の各々による発話音声を含む再生音の収音により収音装置が生成する音響信号から識別情報を抽出する情報抽出部と、前記識別情報を配信装置に送信することで、当該識別情報に対応する情報であって、前記複数の話者の各々による発話音声の発話内容をそれぞれ表す複数の関連情報を、前記配信装置から取得する情報取得部とを具備する。以上の態様では、複数の話者の各々による発話音声を含む再生音の収音により収音装置が生成する音響信号から抽出した識別情報に対応する情報であって、複数の話者の各々による発話音声の発話内容をそれぞれ表す複数の関連情報が取得できる。したがって、近距離無線通信用の通信機器を必要とすることなく、話者毎に区別された関連情報を提供できる。

第１態様に係る好適例（第２態様）では、前記再生音は、放送局から送信された放送波の受信により放送再生装置が再生した音であり、前記識別情報は、前記放送局を示す情報である。以上の態様では、放送局から送信された放送波の受信により放送再生装置が再生した再生音の収音により抽出された識別情報が、当該放送局を示す情報であるから、共通の放送局から送信された放送波の受信による再生音に関する関連情報であれば、識別情報を相違させる必要がないという利点がある。

第１態様または第２態様の好適例（第３態様）では、前記関連情報は、音声認識の結果に応じて生成される。以上の態様では、音声認識の結果に応じて関連情報が生成されるから、例えば発話音声を表す文字列（すなわち字幕）を提供できる。

第１態様から第３態様の何れかの好適例（第４態様）では、前記情報取得部が取得した前記複数の関連情報を、当該関連情報に対応する話者が識別可能な態様で端末再生装置に再生させる再生制御部を具備する。以上の態様では、関連情報に対応する話者が識別可能な態様で再生されるから、端末装置の利用者が話者毎の関連情報を容易に把握することができる。

第４態様に係る好適例（第５態様）では、前記再生制御部は、前記複数の話者のうち利用者が選択した話者に対応する関連情報を前記端末再生装置に再生させる。以上の態様では、複数の話者のうち利用者が選択した話者に対応する関連情報が再生されるから、所望する話者に対応する関連情報を利用者が取得できる。

第１態様から第５態様の何れかの好適例（第６態様）では、前記複数の関連情報の各々に、当該関連情報に対応する話者を示す情報が対応付けられる。以上の態様では、話者を示す情報が関連情報に対応付けられるから、関連情報と、当該関連情報に対応する話者を示す情報（例えば名前）とを対応付けて提供することができる。

本発明の好適な態様（第７態様）に係る情報提供システムは、複数の話者の各々による発話音声と、識別情報を表す音響成分とを含む音響信号を放送再生装置に送信する放送システムと、当該識別情報に対応する情報であって、前記複数の話者の各々による発話音声の発話内容をそれぞれ表す複数の関連情報を、前記音響信号を受信した前記放送再生装置による再生音を収音した端末装置から前記識別情報を受信した場合に、前記端末装置に送信する配信装置とを具備する。数の話者の各々による発話音声と、識別情報を表す音響成分とを含む音響信号が放送再生装置に送信される。また、当該識別情報に対応する情報であって、複数の話者の各々による発話音声の発話内容をそれぞれ表す複数の関連情報が、音響信号を受信した放送再生装置による再生音を収音した端末装置から識別情報を受信した場合に端末装置に送信される。したがって、近距離無線通信用の通信機器を必要とすることなく、話者毎に区別された関連情報を端末装置に提供できる。

第７態様の好適例（第８態様）では、前記識別情報は、前記音響信号を送信する放送局を示す情報である。以上の態様では、放送局から送信された放送波の受信により放送再生装置が再生した再生音の収音により抽出された識別情報が、当該放送局を示す情報であるから、共通の放送局から送信された放送波の受信による再生音に関する関連情報であれば識別情報を相違させる必要がないという利点がある。

第７態様または第８態様の好適例（第９態様）では、前記関連情報は、音声認識の結果に応じて生成される。以上の態様では、音声認識の結果に応じて関連情報が生成されるから、発話音声を表す文字列（すなわち字幕）を提供できる。

以上に例示した各態様の端末装置の動作方法、または、以上に例示した各態様の症状提供システムの情報提供方法としても、本発明の好適な態様は実現される。

例えば、本発明の好適な態様に係る端末装置の動作方法は、複数の話者の各々による発話音声を含む再生音の収音により収音装置が生成する音響信号から識別情報を抽出し、前記識別情報を配信装置に送信することで、当該識別情報に対応する情報であって、前記複数の話者の各々による発話音声の発話内容をそれぞれ表す複数の関連情報を、前記配信装置から取得する。

また、本発明の好適な態様に係る情報提供方法は、複数の話者の各々による発話音声と、識別情報を表す音響成分とを含む音響信号を放送再生装置に送信し、当該識別情報に対応する情報であって、前記複数の話者の各々による発話音声の発話内容をそれぞれ表す複数の関連情報を、前記音響信号を受信した前記放送再生装置による再生音を収音した端末装置から前記識別情報を受信した場合に、前記端末装置に送信する。

１００…情報処理システム、１０…端末装置、１１…制御装置、１１３…情報抽出部、１１５…情報取得部、１１７…再生制御部、１２…記憶装置、１３…通信装置、１４…収音装置、１５…再生装置、２０…放送システム、２０１…収録装置、２０３…処理部、２０５…通信装置、２０７…放送装置、３０…音声認識装置、４０…配信装置、４０１…通信装置、４０３…記憶装置、４０５…情報処理部、５０…再生装置、７０…通信網、９１…収音装置、９３…撮像装置。

Claims

複数の話者の各々による発話音声を含む再生音の収音により収音装置が生成する音響信号から識別情報を抽出する情報抽出部と、
前記識別情報を配信装置に送信することで、当該識別情報に対応する情報であって、前記複数の話者の各々による発話音声の発話内容をそれぞれ表す複数の関連情報を、前記配信装置から取得する情報取得部と
を具備する端末装置。
前記再生音は、放送局から送信された放送波の受信により放送再生装置が再生した音であり、
前記識別情報は、前記放送局を示す情報である
請求項１の端末装置。
前記関連情報は、音声認識の結果に応じて生成される
請求項１または請求項２の端末装置。
前記情報取得部が取得した前記複数の関連情報を、当該関連情報に対応する話者が識別可能な態様で端末再生装置に再生させる再生制御部
を具備する請求項１から請求項３の何れかの端末装置。
前記再生制御部は、前記複数の話者のうち利用者が選択した話者に対応する関連情報を前記端末再生装置に再生させる
請求項４の端末装置。
前記複数の関連情報の各々に、当該関連情報に対応する話者を示す情報が対応付けられる
請求項１から請求項５の何れかの端末装置。
複数の話者の各々による発話音声と、識別情報を表す音響成分とを含む音響信号を放送再生装置に送信する放送システムと、
当該識別情報に対応する情報であって、前記複数の話者の各々による発話音声の発話内容をそれぞれ表す複数の関連情報を、前記音響信号を受信した前記放送再生装置による再生音を収音した端末装置から前記識別情報を受信した場合に、前記端末装置に送信する配信装置と
を具備する情報提供システム。
前記識別情報は、前記音響信号を送信する放送局を示す情報である
請求項７の情報提供システム。
前記関連情報は、音声認識の結果に応じて生成される
請求項７または請求項８の情報提供システム。
複数の話者の各々による発話音声を含む再生音の収音により収音装置が生成する音響信号から識別情報を抽出し、
前記識別情報を配信装置に送信することで、当該識別情報に対応する情報であって、前記複数の話者の各々による発話音声の発話内容をそれぞれ表す複数の関連情報を、前記配信装置から取得する
端末装置の動作方法。
複数の話者の各々による発話音声と、識別情報を表す音響成分とを含む音響信号を放送再生装置に送信し、
当該識別情報に対応する情報であって、前記複数の話者の各々による発話音声の発話内容をそれぞれ表す複数の関連情報を、前記音響信号を受信した前記放送再生装置による再生音を収音した端末装置から前記識別情報を受信した場合に、前記端末装置に送信する
情報提供方法。