<第1実施形態>
図1は、本発明の第1実施形態に係る情報提供システム100の構成図である。情報提供システム100は、各種の興行(例えば演劇,演奏または映画等)に関する情報をその進行に並行して利用者に提供するためのコンピュータシステムである。図1に例示される通り、第1実施形態の情報提供システム100は、情報配信システム10と情報処理システム20とを具備する。情報配信システム10は、各種の興行が開催される劇場またはホール等の施設に設置される。施設に来場した利用者は端末装置30を携帯する。端末装置30は、例えば携帯電話機またはスマートフォン等の可搬型の情報端末である。なお、実際には複数の端末装置30が施設内に存在するが、以下の説明では便宜的に任意の1個の端末装置30に着目する。
第1実施形態では、事前に決定された複数の文字列(以下「発音文字列」という)が所定の順番で時系列に発音されるショー(例えばキャラクターショー)が施設内で開催される場合を想定する。すなわち、第1実施形態の発音文字列は、例えばショーの進行に並行して随時に発音される台詞,歌詞または解説(ナレーション)である。利用者は、端末装置30を携帯した状態でショーを鑑賞する。端末装置30は、時系列に発音される複数の発音文字列の各々に関連する情報(以下「関連情報」という)をショーの進行に並行して順次に表示する。第1実施形態では、発音文字列の翻訳文を関連情報として端末装置30に表示する場合を例示する。例えば、各発音文字列が日本語で発音される一方、発音文字列に対応する英語の翻訳文が関連情報として表示される。以上の構成によれば、端末装置30が順次に表示する関連情報をショーの鑑賞に並行して随時に確認することで、例えば発音文字列の言語の理解が困難である外国人がショーの内容を把握できるという利点がある。
<情報配信システム10>
図2は、情報配信システム10の構成図である。図2に例示される通り、情報配信システム10は、制御装置12と記憶装置14と放音装置16とを具備するコンピュータシステムで実現される。制御装置12は、例えばCPU(Central Processing Unit)を含む処理回路であり、情報配信システム10の全体を統括的に制御する。記憶装置14は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せで構成され、制御装置12が実行するプログラムと制御装置12が使用する各種のデータとを記憶する。第1実施形態の記憶装置14は、音響信号Xと参照テーブルQaとを記憶する。
音響信号Xは、複数の発音文字列を順次に発音した音声を表す時間領域の信号である。図3は、音響信号Xの説明図である。図3に例示される通り、第1実施形態の音響信号Xは、相異なる複数の発音文字列Ln(L1,L2,L3,…)の各々について発音期間An(A1,A2,A3,…)を包含する(nは自然数)。任意の1個の発音文字列Lnに対応する発音期間Anは、当該発音文字列Lnが発音された時間軸上の期間である。各発音期間Anの時間長は、発音文字列Lnの長短に応じた可変長である。音響信号Xは、声優等の発声者が発音した音声の収録または公知の音声合成処理で事前に生成される。アニメキャラクター等の出演者が演技するショーに並行して音響信号Xが表す音声を再生することで、各出演者が恰も実際に発音しているような演出が実現される。
図4は、参照テーブルQaの説明図である。図4に例示される通り、参照テーブルQaは、複数の発音文字列Lnの各々について、当該発音文字列Lnの関連情報Cnを示す配信情報Dn(D1,D2,D3,…)と、音響信号Xにおいて当該発音文字列Lnが発音される時間軸上の時点を示す時間情報Tn(T1,T2,T3,…)とを対応させたデータテーブルである。第1実施形態において任意の1個の関連情報Cnに対応する配信情報Dnは、当該関連情報Cnを識別するための識別情報である。発音文字列Lnと関連情報Cnとは相互に対応するから、第1実施形態の配信情報Dnは、発音文字列Lnを識別するための情報とも換言され得る。また、任意の1個の発音文字列Lnに対応する時間情報Tnは、音響信号Xにおいて当該発音文字列Lnが発音される時点(例えば発音期間Anの始点)を指定する。例えば、所定の時点(以下「基準時点」という)を基準として発音文字列Lnの発音が開始される時点までの経過時間が時間情報Tnにより指定される。音響信号Xが表す音声の再生をショーの開始と同時に開始する場合を想定すると、基準時点は、音響信号Xの始点(すなわちショーの開始の時点)である。なお、発音文字列Lnが発音される時間軸上の各時点の時間間隔を時間情報Tnが表す構成も採用され得る。
図2の制御装置12は、記憶装置14に記憶されたプログラムを実行することで、複数の関連情報Cnを端末装置30に順次に表示させるための複数の機能(情報管理部42および信号処理部44)を実現する。なお、制御装置12の機能を複数の装置に分散した構成、または、制御装置12の機能の一部を専用の電子回路が実現する構成も採用され得る。
情報管理部42は、相異なる発音文字列Lnに対応する複数の配信情報Dnの各々をショーの進行に並行して順次に選択する。各配信情報Dnの選択には参照テーブルQaが使用される。具体的には、情報管理部42は、参照テーブルQa内の任意の1個の時間情報Tnが指定する時点が到来すると、参照テーブルQa内で当該時間情報Tnに対応する配信情報Dnを選択する。例えば図4の例示を想定すると、時間情報T1が示す時点が到来すると配信情報D1が選択され、時間情報T2が示す時点が到来すると配信情報D2が選択される。すなわち、時間情報Tnが指定する時点(例えば音響信号Xにおける発音期間Anの始点)の到来毎に、当該時間情報Tnに対応する配信情報Dnが選択される。
信号処理部44は、情報管理部42が選択した配信情報Dnを音響成分として含む音響信号Zを生成する。具体的には、第1実施形態の信号処理部44は、変調処理部441と信号合成部442とを含んで構成される。変調処理部441は、情報管理部42が選択した配信情報Dnを示す音響成分を表す変調信号Yを生成する。具体的には、変調処理部441は、例えば所定の周波数の正弦波等の搬送波を配信情報Dnにより変調する周波数変調、または、拡散符号を利用した配信情報Dnの拡散変調等の変調処理により変調信号Yを生成する。配信情報Dnは、所定の周波数帯域の音響成分として変調信号Yに含有される。具体的には、配信情報Dnの音響成分の周波数帯域は、利用者が通常の環境で聴取する音声または楽音等の音の周波数帯域を上回る範囲(例えば18kHz以上かつ20kHz以下)に包含される。
図3に例示される通り、任意の1個の配信情報Dnの音響成分は、変調信号Yのうち当該配信情報Dnに対応する時間情報Tnが指定する時点に応じた単位期間Un内に含有される。図3では、時間情報Tnが指定する時点を起点とする所定長の期間を単位期間Unとして例示した。前述の通り、時間情報Tnは、音響信号Xにおいて発音文字列Lnが発音される時点を指定する。したがって、音響信号Xのうち任意の1個の発音文字列Lnが発音される発音期間Anと、変調信号Yのうち当該発音文字列Lnに対応する配信情報Dnの音響成分を含む単位期間Unとは時間軸上で相互に重複する。なお、1個の単位期間Un内に複数回にわたり配信情報Dnの音響成分を含めることも可能である。また、時間情報Tnが示す時点(発音期間Anの始点)の手前の時点から配信情報Dnを音響成分を発生することも可能である。
図2の信号合成部442は、記憶装置14に記憶された音響信号Xと変調処理部441が生成した変調信号Yとを合成することで音響信号Zを生成する。具体的には、信号合成部442は、音響信号Xと変調信号Yとを時間領域で加算することで音響信号Zを生成する。信号合成部442が生成した音響信号Zは放音装置16に供給される。なお、音響信号Zをデジタルからアナログに変換するD/A変換器、および、音響信号Zを増幅する増幅器の図示は便宜的に省略した。
図2の放音装置16は、例えば施設内に設置されたスピーカ装置であり、信号処理部44(信号合成部442)が生成した音響信号Zが表す音を施設内に再生する。したがって、音響信号Xの各発音期間Anでは発音文字列Lnの発声音が再生され、変調信号Yの各単位期間Unでは配信情報Dnの音響成分が再生される。すなわち、音響信号Xが表す発音文字列Lnの発声音とともに配信情報Dnの音響成分が再生される。以上の説明から理解される通り、第1実施形態の放音装置16は、発音文字列Lnの発声音を再生する音響機器として機能するほか、空気振動としての音波を伝送媒体とする音響通信で配信情報Dnを周囲に送信する送信機としても機能する。すなわち、複数の発音文字列Lnの各々の発声音を各出演者の演技に並行して放音装置16から順次に再生することでショーが構成される一方、各発音文字列Lnを発音した音声の再生毎に、当該発音文字列Lnに対応する配信情報Dnが音響通信により端末装置30に送信される。
図5は、情報配信システム10の動作を例示するフローチャートである。例えばショーの運営者からの指示を契機としてショーの開始とともに図5の処理が開始される。記憶装置14に記憶された音響信号Xを先頭から順次に取得して信号処理部44に供給する動作に並行して、図5の処理が実行される。
情報管理部42は、参照テーブルQa内の複数の時間情報Tnのうち未選択の最先の時間情報Tnで指定される時点が到来するまで待機する(Sa1:NO)。時間情報Tnで指定される時点が到来すると(Sa1:YES)、情報管理部42は、参照テーブルQa内で当該時間情報Tnに対応する配信情報Dnを選択する(Sa2)。
変調処理部441は、情報管理部42が選択した配信情報Dnの音響成分を表す変調信号Yを生成する(Sa3)。信号合成部442は、変調処理部441が生成した変調信号Yを音響信号Xに合成することで音響信号Zを生成して放音装置16に供給する(Sa4)。すなわち、発音文字列Lnの発声音の再生とともに配信情報Dnが音響通信により放音装置16から送信される。参照テーブルQaに登録された全部の配信情報Dnの送信が完了するまで(Sa5:NO)、情報管理部42による配信情報Dnの選択(Sa1,Sa2)と、発音文字列Lnの再生および当該配信情報Dnの送信(Sa3,Sa4)とが、発音文字列Ln毎に順次に反復される。全部の配信情報Dnの送信が完了すると(Sa5:YES)、図5の処理が終了する。
<端末装置30>
図6は、端末装置30の構成図である。図6に例示される通り、端末装置30は、制御装置32と記憶装置34と収音装置36と表示装置38とを具備する。制御装置32は、例えばCPUを含む処理回路であり、端末装置30の全体を統括的に制御する。記憶装置34は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体、あるいは複数種の記録媒体の組合せで構成され、制御装置32が実行するプログラムと制御装置32が使用する各種のデータとを記憶する。
第1実施形態の記憶装置34は、図7に例示される参照テーブルQbを記憶する。例えば、移動体通信網またはインターネット等の通信網を介して端末装置30が情報配信サーバ(図示略)から受信した参照テーブルQbが記憶装置34に記憶される。図7に例示される通り、参照テーブルQbは、ショーで発音される複数の発音文字列Lnの各々について配信情報Dn(D1,D2,D3,…)と関連情報Cn(C1,C2,C3,…)とを対応させたデータテーブルである。第1実施形態における関連情報Cnは、前述の通り、発音文字列Lnの翻訳文を表すテキストデータである。
図6の収音装置36(マイクロホン)は、周囲の音を収音して音響信号Vを生成する音響機器である。具体的には、収音装置36は、情報配信システム10の放音装置16による再生音(すなわち発音文字列Lnの発声音と配信情報Dnの音響成分との混合音)を表す音響信号Vを生成する。なお、収音装置36が生成した音響信号Vをアナログからデジタルに変換するA/D変換器、および、音響信号Vを増幅する増幅器(マイクアンプ)の図示は便宜的に省略した。表示装置38(例えば液晶表示パネル)は、制御装置32による制御のもとで関連情報Cnを表示する。なお、収音装置36および表示装置38の一方または双方を、端末装置30とは別体で構成して端末装置30に接続することも可能である。
制御装置32は、記憶装置34に記憶されたプログラムを実行することで、図6に例示される通り、関連情報Cnを利用者に提供するための複数の機能(情報抽出部52および再生制御部54)を実現する。なお、制御装置32の機能を複数の装置に分散した構成、または、制御装置32の機能の一部を専用の電子回路が実現する構成も採用され得る。
情報抽出部52は、収音装置36が生成した音響信号Vから配信情報Dnを順次に抽出する。具体的には、情報抽出部52は、音響信号Vのうち配信情報Dnの音響成分を含む周波数帯域を例えば帯域通過フィルタで強調し、変調信号Yの生成時の変調処理に対応する復調処理を強調後の音響信号Vに対して実行することで配信情報Dnを抽出する。各発音文字列Lnの発声音を放音装置16が再生するたびに、当該発音文字列Lnに対応する配信情報Dnが抽出される。以上の説明から理解される通り、第1実施形態の収音装置36は、端末装置30の相互間の音声通話や動画撮影時の音声収録に利用されるほか、音響通信による配信情報Dnの受信に利用される。すなわち、収音装置36および情報抽出部52は、図6に例示される通り、各発音文字列Lnの発声音の再生に並行して順次に送信される配信情報Dnを音響通信により受信する音響通信部56として機能する。
再生制御部54は、複数の発音文字列Lnの各々の関連情報Cn(すなわち発音文字列Lnの翻訳文)を表示装置38に順次に表示させる。具体的には、再生制御部54は、情報抽出部52が配信情報Dnを抽出するたびに、参照テーブルQbに登録された複数の関連情報Cnのうち当該配信情報Dnに対応する関連情報Cnを選択して表示装置38に表示させる。したがって、複数の発音文字列Lnの各々の発声音を放音装置16が再生するたびに、当該発音文字列Lnに対応する関連情報Cnが表示装置38に順次に表示される。すなわち、各出演者の演技に同期した各発音文字列Lnの再生に並行して当該発音文字列Lnの関連情報Cnが順次に表示される。
図8は、端末装置30の動作を例示するフローチャートである。例えば利用者からの指示を契機として図8の処理が開始される。図8の処理を開始すると、情報抽出部52は、収音装置36が生成した音響信号Vから配信情報Dnを抽出できたか否かを判定する(Sb1)。情報抽出部52が配信情報Dnを抽出した場合(Sb1:YES)、再生制御部54は、配信情報Dnに対応する関連情報Cnを参照テーブルQbから検索し(Sb2)、当該関連情報Cnを表示装置38に表示させる(Sb3)。利用者から終了が指示されるまで(Sb4:NO)、情報抽出部52による配信情報Dnの抽出毎に、関連情報Cnの検索(Sb2)および表示(Sb3)が実行される。利用者から終了が指示されると(Sb4:YES)、図8の処理が終了する。
<情報処理システム20>
図1の情報処理システム20は、情報配信システム10が配信情報Dnの送信のために参照する前述の参照テーブルQa(図4)を生成するコンピュータシステムである。図9は、情報処理システム20の構成図である。図9に例示される通り、第1実施形態の情報処理システム20は、制御装置22と記憶装置24とを具備するコンピュータシステムで実現される。制御装置22は、例えばCPUを含む処理回路であり、情報処理システム20の全体を統括的に制御する。記憶装置24は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せで構成され、制御装置22が実行するプログラムと制御装置22が使用する各種のデータとを記憶する。第1実施形態の記憶装置24は、音響信号Xと文字列情報Bとを記憶する。音響信号Xは、前述の通り、複数の発音文字列Lnを順次に発音した音声を表す時間領域の信号である。
文字列情報Bは、ショーで発音される複数の発音文字列Lnを表すデータである。例えば、図10に例示される通り、単数または複数の出演者が順次に発音する複数の発音文字列Lnの時系列が文字列情報Bで指定される。例えば、各出演者の台詞またはショーの解説(ナレーション)を時系列に配列した台本を表すテキストデータ(台本データ)が文字列情報Bとして好適に利用される。
情報処理システム20は、記憶装置24に記憶された音響信号Xと文字列情報Bとを利用して参照テーブルQaを生成する。情報処理システム20が生成した参照テーブルQaが情報配信システム10の記憶装置14に転送されて、前述の通り、端末装置30に対する配信情報Dnの配信に利用される。参照テーブルQaは、例えばインターネット等の通信網を介して情報配信システム10に転送される。なお、半導体記録媒体等の可搬型の記録媒体を利用して参照テーブルQaを情報処理システム20から情報配信システム10に転送することも可能である。
制御装置22は、記憶装置24に記憶されたプログラムを実行することで、音響信号Xおよび文字列情報Bから参照テーブルQaを生成するための複数の機能(時間解析部62および情報対応部64)を実現する。なお、制御装置22の機能を複数の装置に分散した構成、または、制御装置22の機能の一部を専用の電子回路が実現する構成も採用され得る。
時間解析部62は、記憶装置24に記憶された文字列情報Bと音響信号Xとを解析することで、複数の発音文字列Lnの各々について、当該発音文字列Lnが発音される時間軸上の時点を示す時間情報Tnを生成する。図9に例示される通り、第1実施形態の時間解析部62は、文字列特定部621と照合処理部622とを含んで構成される。
文字列特定部621は、音響信号Xが表す音声の発音内容を表す文字列(以下「認識文字列」という)Rを取得する。第1実施形態の文字列特定部621は、音響信号Xに対する音声認識で認識文字列Rを特定する。音響信号Xの音声認識には、例えば隠れマルコフモデル(HMM:Hidden Markov Model)等の音響モデルと、言語的な制約を示す言語モデルとを利用した認識処理等の公知の技術が任意に採用され得る。なお、情報処理システム20が通信可能な音声認識サーバに音響信号Xの音声認識を実行させることも可能である。例えば、文字列特定部621は、音響信号Xを音声認識サーバに送信し、音声認識サーバによる音声認識で特定された認識文字列Rを音声認識サーバから取得する。すなわち、文字列特定部621は、それ自身が認識文字列Rを生成する要素のほか、音声認識サーバ等の他装置により生成された認識文字列Rを取得する要素も包含する。
照合処理部622は、記憶装置24に記憶された文字列情報Bが表す複数の発音文字列Lnと文字列特定部621が特定した認識文字列Rとを相互に照合することで、複数の発音文字列Lnの各々について、当該発音文字列Lnが発音される時間軸上の時点を示す時間情報Tnを生成する。音響信号Xは、複数の発音文字列Lnを順次に発音した音声を表す信号であるから、音響信号Xから特定された認識文字列Rは、文字列情報Bが表す各発音文字列Lnに類似(理想的には一致)する部分を包含する。照合処理部622は、認識文字列Rのうち各発音文字列Lnに類似する文字列を探索し、音響信号Xのうち当該文字列に対応する時間軸上の期間(すなわち当該文字列が発音された期間)の始点の時刻を示す時間情報Tnを生成する。時間情報Tnは、前述の通り、例えば音響信号Xの始点を基準時点とした経過時間を指定する。
認識文字列Rと各発音文字列Lnとの照合には、例えば2種類の文字列間の類似性を評価するための編集距離(レーベンシュタイン距離)が好適に利用される。すなわち、照合処理部622は、認識文字列Rの全体に対する発音文字列Lnの相対的な位置を変化させた複数の場合の各々について両者間の編集距離を算定する。認識文字列Rに対する発音文字列Lnの位置は、例えば所定の文字数(例えば1以上の文字数)ずつ順次に変更される。編集距離が最小となるときの認識文字列Rと発音文字列Lnとの重複部分が、認識文字列Rのうち各発音文字列Lnに類似する文字列として探索される。以上の説明から理解される通り、文字列情報Bが示す複数の発音文字列Lnの各々について、音響信号Xにおいて当該発音文字列Lnが発音される時点を示す時間情報Tnが生成される。
図9の情報対応部64は、複数の発音文字列Lnの各々について、当該発音文字列Lnに関連する関連情報Cnを示す配信情報Dnと、当該発音文字列Lnについて時間解析部62(照合処理部622)が生成した時間情報Tnとを対応させた参照テーブルQaを生成する。配信情報Dnは、参照テーブルQa内で相互に重複しないように適宜に設定される。情報対応部64が生成した参照テーブルQaは、記憶装置24に格納されてから、情報配信システム10の記憶装置14に転送される。
図11は、情報処理システム20の動作を例示するフローチャートである。例えば情報処理システム20の管理者からの指示を契機として図11の処理が開始される。図11の処理を開始すると、時間解析部62は、以下に例示される通り、文字列情報Bと音響信号Xとを解析することで各発音文字列Lnの時間情報Tnを生成する(Sc1〜Sc3)。まず、文字列特定部621は、音響信号Xに対する音声認識で認識文字列Rを特定する(Sc1)。照合処理部622は、文字列情報Bが示す複数の発音文字列Lnの時系列から1個の発音文字列Ln(例えば未選択の最先の発音文字列Ln)を選択する(Sc2)。照合処理部622は、音響信号Xの認識文字列Rと選択した発音文字列Lnとを相互に照合することで、音響信号Xにおいて当該発音文字列Lnが発音される時点を示す時間情報Tnを生成する(Sc3)。
文字列情報Bに含まれる全部の発音文字列Lnの各々について、発音文字列Lnの選択(Sc2)と時間情報Tnの生成(Sc3)とが反復される(Sc4:NO)。全部の発音文字列Lnについて時間情報Tnを生成すると(Sc4:YES)、情報対応部64は、複数の発音文字列Lnの各々について、配信情報Dnと時間情報Tnとを対応させた参照テーブルQaを生成して記憶装置24に格納する(Sc5)。
以上に説明した通り、第1実施形態では、文字列情報Bと音響信号Xとを解析することで各発音文字列Lnの時間情報Tnが生成され、発音文字列Ln毎に配信情報Dnと時間情報Tnとを対応させた参照テーブルQaが生成される。したがって、時系列に発音される発音文字列Lnの関連情報Cnを端末装置30の利用者に提供するための作業の負荷を軽減することが可能である。
<第2実施形態>
本発明の第2実施形態について説明する。なお、以下に例示する各形態において作用または機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
図12は、第2実施形態における情報処理システム20の構成図である。第2実施形態では、情報処理システム20の時間解析部62の構成が第1実施形態とは相違する。情報配信システム10および端末装置30の構成と、情報処理システム20のうち時間解析部62以外の要素の構成とは、第1実施形態と同様である。
時間解析部62は、第1実施形態と同様に、記憶装置24に記憶された文字列情報Bと音響信号Xとを解析することで、複数の発音文字列Lnの各々について、当該発音文字列Lnが発音される時間軸上の時点を示す時間情報Tnを生成する。図12に例示される通り、第2実施形態の時間解析部62は、推定処理部624と特徴抽出部625と照合処理部626とを含んで構成される。
推定処理部624は、文字列情報Bが示す複数の発音文字列Lnの各々を発音した場合に観測される音声の音響的な特徴量Faの時系列を推定する。複数の発音文字列Lnの各々について特徴量Faの時系列が推定される。特徴量Faは、音韻(すなわち発音内容)の差異が明確に反映される傾向がある音響的な特性値である。例えばMFCC(Mel-Frequency Cepstrum Coefficients)が特徴量Faの好適例として想定される。推定処理部624による特徴量Faの時系列の推定には、発音文字列Lnと特徴量Faの時系列と関係の統計的な傾向を表現した統計的な数理モデル(以下「特徴量生成モデル」という)が利用される。特徴量生成モデルは、例えば隠れマルコフモデル(HMM)により表現され、任意の文字列と当該文字列を発音した音声の特徴量とを含む多数の学習データを利用した機械学習により事前に生成される。したがって、特徴量生成モデルに発音文字列Lnを付与した場合、多数の学習データにおける文字列に対する特徴量の傾向のもとで、発音文字列Lnに対して尤度(具体的には発音文字列Lnが観測されたという条件のもとでの事後確率)が最大となるように特徴量Faの時系列が推定される。
なお、特徴量生成モデルをショーの出演者毎に事前に用意し、複数の特徴量生成モデルの何れかを出演者毎に選択的に利用して特徴量Faの時系列を推定することも可能である。例えば、各発音文字列Lnを発音する出演者が文字列情報Bにより指定される構成を想定すると、任意の1個の発音文字列Lnについて、推定処理部624は、当該発音文字列Lnの発音者として文字列情報Bで指定された出演者の特徴量生成モデルを利用して、特徴量Faの時系列を生成する。また、出演者の属性毎(例えば大人/子供,男性/女性)に用意された複数の特徴量生成モデルを選択的に利用することも可能である。
特徴抽出部625は、音響信号Xの特徴量Fbの時系列を抽出する。特徴量Fbは、特徴量Faと同種の音響的な特性値(例えばMFCC)である。音響信号Xの特徴量Fbの抽出には公知の解析技術が任意に採用される。なお、特徴量Faおよび特徴量Fbの種類は任意である。例えば、相異なる音階音(例えば平均律の12半音の各々)に対応する複数の要素を含むクロマベクトル(PCP:Pitch Class Profile)をMFCCとともに特徴量Faおよび特徴量Fbとして利用することも可能である。クロマベクトルのうち任意の1個の音階音に対応する要素は、当該音階音に対応する帯域成分の強度を複数のオクターブにわたり加算または平均した数値に設定される。
照合処理部626は、推定処理部624が各発音文字列Lnについて推定した特徴量Faの時系列と、特徴抽出部625が音響信号Xから抽出した特徴量Fbの時系列とを相互に照合することで、文字列情報Bが指定する複数の発音文字列Lnの各々について、当該発音文字列Lnが発音される時間軸上の時点を示す時間情報Tnを生成する。前述の通り、音響信号Xは、複数の発音文字列Lnを順次に発音した音声を表す信号である。したがって、任意の1個の発音文字列Lnについて推定された特徴量Faの時系列は、音響信号Xのうち当該発音文字列Lnが発音された部分の特徴量Fbの時系列に類似(理想的には一致)するという傾向がある。以上の傾向を考慮して、第2実施形態の照合処理部626は、音響信号Xの特徴量Fbの時系列のうち発音文字列Lnの特徴量Faの時系列に類似する部分を探索し、音響信号Xのうち当該部分の始点の時刻を示す時間情報Tnを当該発音文字列Lnについて生成する。
<変形例>
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
(1)前述の通り、例えばショーの台本を著す台本データが文字列情報Bとして好適に利用され得る。しかし、台本データには、複数の発音文字列Lnの時系列だけでなく、実際にはショー内で発音されない情報(以下「非発音情報」という)も包含され得る。例えば、ショーの場面または登場人物の解説、もしくは演技上の注意点等が非発音情報として想定される。時間解析部62による文字列情報Bと音響信号Xとの照合では非発音情報は不要であるから、台本データから非発音情報を除外したデータを文字列情報Bとして照合処理部(622または626)が音響信号Xと対比する構成が好適である。
(2)前述の各形態では、発音文字列Lnの翻訳文を関連情報Cnとして例示したが、関連情報Cnの内容は以上の例示に限定されない。例えば、発音文字列Ln自体を関連情報Cnとして端末装置30の表示装置38に表示させることも可能である。以上の構成によれば、例えばショー内で発音される発音文字列Lnの聴取が困難な聴覚障碍者がショーの内容を把握できるという利点がある。
また、発音文字列Lnの内容(台詞または歌詞)を直接的に表す情報のほか、ショーを解説する情報(例えば台本のト書きの情報またはショーを補足的に解説する情報)を関連情報Cnとして端末装置30の表示装置38に表示させることも可能である。例えば、発音文字列Ln自体またはその翻訳文を示す情報と、その発音文字列Lnを発音する登場人物を表す情報(例えば登場人物の名前またはアイコン等)とを含む関連情報Cnが表示され得る。また、発音文字列Lnが楽曲の歌詞である場合(発音文字列を歌詞とする楽曲がショー内で歌唱される場合)、当該楽曲に関する音楽情報(例えば楽譜またはコード)を関連情報Cnとして利用者に提示する構成も好適である。関連情報Cnは、文字列を表すテキストデータに限定されない。例えば、各種の情報を表す音声または画像を関連情報Cnとして使用することも可能である。
音楽情報またはショーの解説等の補足的な関連情報Cnについては、発音文字列Lnと認識文字列Rとの照合(第1実施形態)、または、特徴量Faの時系列と特徴量Fbの時系列との照合(第2実施形態)では、時間情報Tnを特定することが困難である。そこで、参照テーブルQaにおいては、以上に例示した補足的な関連情報Cnについては、直前の関連情報Cn-1に対応する時間情報Tn-1が示す時点と、直後の関連情報Cn+1に対応する時間情報Tn+1が示す時点との間の時点を示す時間情報Tnが生成される。例えば、時間情報Tn-1が示す時点と時間情報Tn+1が示す時点との中点を示す時間情報Tnが関連情報Cnの配信情報Dnに対応付けられる。時間情報Tn-1が示す時点と時間情報Tn+1が示す時点との間について情報処理システム20の管理者が指示した時点を時間情報Tnが示す構成も好適である。
(3)前述の通り、発音文字列Lnは台詞だけでなく歌詞も含み得る。すなわち、楽曲の伴奏音に並行して発音された歌唱音声を音響信号Xが表す場合が想定される。音響信号Xが歌唱音声を表す場合を想定すると、第1実施形態の文字列特定部621による認識文字列Rの特定においては、音響信号Xを伴奏音と歌唱音声とに分離する構成が好適である。分離後の歌唱音声に対する音声認識により認識文字列Rが特定される。伴奏音と歌唱音声との分離には、例えば音源が定位する位置の相違を利用した公知の音源分離が好適に利用される。以上の構成によれば、音響信号Xから伴奏音を除外した歌唱音声について音声認識が実行されるから、認識文字列Rを高精度に特定できるという利点がある。
(4)関連情報Cnを端末装置30の表示装置38に表示させる場合に、表示装置38の1画面内に関連情報Cnが収まるように関連情報Cnを調整することも可能である。例えば、関連情報Cnが表す文字数が多い場合に、文字列のサイズを縮小することで関連情報Cnを表示装置38の1画面内に表示する構成が好適である。また、例えば発音文字列Lnが歌詞である場合を想定すると、当該発音文字列Lnに対応する関連情報Cnを、楽曲のフレーズ(例えば音楽的な意味に応じて楽曲を区分した各区間)毎に表示させることも可能である。
(5)前述の各形態では、関連情報Cnを端末装置30の表示装置38に表示したが、関連情報Cnを利用者に提示する方法は表示に限定されない。例えば、関連情報Cnを表す音声をスピーカまたはイヤホン等の放音装置16から放射することで利用者に関連情報Cnを提示することも可能である。また、前述の各形態では、携帯電話機またはスマートフォン等の可搬型の情報端末を端末装置30として例示したが、端末装置30の具体的な形態は以上の例示に限定されない。例えば、鉄道事業者の施設内(例えば駅構内)に設置される電光掲示板または商業施設に設置される電子看板(例えばデジタルサイネージ)等の案内用の表示機器も端末装置30として好適に利用され得る。
(6)情報提供システム100(特に情報配信システム10)が利用される場面は、前述の各形態で例示したショーには限定されない。例えば、交通機関(例えば電車,バス),展示施設(例えば博物館,美術館),または観光施設等の各種の施設を案内する音声を時系列で発音する場面でも、前述の各形態で例示した情報提供システム100が利用され得る。
(7)前述の各形態では、音響信号Xの再生に並行して実時間的に配信情報Dnを含ませる(すなわち変調信号Yを合成する)構成を例示したが、配信情報Dnを含む音響信号Zを事前に生成して記憶装置14に保持することも可能である。音響信号Zの生成には、前述の各形態で例示した通り、情報処理システム20が生成した参照テーブルQaが利用される。すなわち、音響信号Xのうち参照テーブルQaの各時間情報Tnが示す時点に、当該時間情報Tnに対応する配信情報Dnの変調信号Yを合成することで、音響信号Zが生成される。音響信号Zを事前に生成する構成では、情報配信システム10から情報管理部42および信号処理部44が省略され、制御装置12は、記憶装置14に記憶された音響信号Zを放音装置16に供給する。
(8)前述の各形態では、関連情報Cnを識別するための識別情報を配信情報Dnとして例示したが、関連情報Cn自体を配信情報Dnとして情報配信システム10から端末装置30に送信することも可能である。関連情報Cnを配信情報Dnとして配信する構成では、端末装置30に参照テーブルQbを保持する必要はない。以上の例示から理解される通り、配信情報Dnは、関連情報Cnを示す情報として包括的に表現され、関連情報Cnを識別するための識別情報のほか関連情報Cn自体を包含する。
(9)前述の各形態では、音波を伝送媒体とする音響通信で配信情報Dnを端末装置30に送信したが、端末装置30に配信情報Dnを送信するための通信方式は音響通信に限定されない。例えば、放音装置16による発音文字列Lnの放音に同期して、電波や赤外線等の電磁波を伝送媒体とした無線通信で端末装置30に配信情報Dnを送信することも可能である。配信情報Dnの送信には、移動体通信網等の通信網が介在しない近距離無線通信が好適であり、音波を伝送媒体とする音響通信や電磁波を伝送媒体とする無線通信は近距離無線通信の例示である。なお、前述の各形態で例示した音響通信によれば、発音文字列Lnの音声を放音するための放音装置16を配信情報Dnの送信に流用できるという利点、および、例えば遮音壁の設置により通信範囲を容易に制御できるという利点がある。
(10)前述の各形態では、関連情報Cnを含む参照テーブルQbが端末装置30の記憶装置34に記憶された場合を例示したが、移動体通信網またはインターネット等の通信網を介して端末装置30と通信可能な情報配信サーバに参照テーブルQbを保持することも可能である。具体的には、端末装置30の再生制御部54は、情報抽出部52が抽出した配信情報Dnを指定した情報要求を情報配信サーバに送信する。情報配信サーバは、情報要求で指定された配信情報Dnに対応する関連情報Cnを参照テーブルQbから検索して要求元の端末装置30に送信する。端末装置30の再生制御部54は、情報配信サーバから受信した関連情報Cnを表示装置38に表示させる。ただし、前述の各形態のように端末装置30の記憶装置34に参照テーブルQbを保持する構成によれば、通信網を介した通信を必要とせずに関連情報Cnを表示できるという利点がある。
(11)第1実施形態では、各発音文字列Lnと認識文字列Rとを照合処理部622が照合する構成を例示し、第2実施形態では、特徴量Faの時系列と特徴量Fbの時系列とを照合処理部626が照合したが、照合処理部(622または626)による照合処理には、例えば以下に例示される通り種々の工夫が適用され得る。
例えば、ショーの場面毎(例えば第1幕,第2幕,発話の場面,歌唱の場面等の複数の場面の各々)に分割して照合処理を実行することも可能である。任意の1個の発音文字列Lnについて、それ以前の発音文字列Lnに関する照合処理の結果を踏まえて時間情報Tnを生成する構成も採用され得る。ショーを撮影した動画像を照合処理において参照して、各発音文字列Lnの時間情報Tnを生成することも可能である。また、発音文字列Lnが楽曲の歌詞である場合、当該楽曲の楽譜情報で指定される各音符の音高や発音期間(あるいはリズム)を参照して、各発音文字列Lnの時間情報Tnを生成する構成も好適である。
また、時間情報Tnの条件を制約したうえで照合処理を実行することも可能である。例えば、照合処理部による照合処理で発音文字列Ln毎の暫定的な時間情報Tnを生成すると、情報処理システム20の管理者は、自身がショーについて把握している情報(例えば台本から把握できる情報)から適正であると判断できる1個以上の時間情報Tnを指定する。例えば複数の時間情報Tnの各々には、当該時間情報Tnの適否が不明であることを意味する初期値に設定されたフラグが付加され、管理者が指定した時間情報Tnのフラグが、適正であることを意味する数値に変更される。具体的には、ショー内の場面毎の先頭の発音文字列Lnが発音される時刻が事前に判明している場合、管理者はその知識により適正な時間情報Tnを指定することが可能である。
例えば時間情報Tn1と時間情報Tn2(n1≠n2)が適正であることを利用者が指定すると、照合処理部は、数値n1から数値n2までの範囲内の各時間情報Tm(n1<m<n2)について、時間情報Tmが示す時点が、時間情報Tn1の時点と時間情報Tn2との間に位置するという制約条件のもとで照合処理を実行する。以上の構成によれば、管理者の手動による指示(ショーに関する事前知識)を反映して時間情報Tnの解析の精度を向上させることが可能である。
また、発音文字列Lnから特徴量Faの時系列を推定するための特徴量生成モデルに、発音文字列Lnの発話または歌唱の速度(例えば歌唱のテンポまたは発話の速度)に関する制約を付加することも可能である。例えば、楽曲に指定された歌唱の速度(テンポ)または台本で指定された発話の速度(例えば「早目に発音」等のト書き)を反映させたセミ隠れマルコフモデル(semi-HMM)を特徴量生成モデルとして利用することで、歌唱または発話の速度に関する制約のもとで特徴量Faの時系列を推定することが可能である。なお、以上の例示ではセミ隠れマルコフモデルを例示したが、各状態間の遷移確率を適宜に設定すれば、隠れマルコフモデルでも同様の作用を実現することが可能である。
(12)前述の通り、ショーの場面毎に照合処理を実行する構成が想定され得る。場面の切替は、例えば、舞台の撮影により生成された動画像を解析することで検出可能である。具体的には、動画像から算定される明度(例えば1画面内の明度の累積値)の変化を参照することで暗転の有無が判定される。例えば、明度の低下量が所定の閾値を上回る場合に、舞台の暗転が発生したと判定する。舞台の暗転が発生した時点を場面の切替の時点として照合処理を実行することが可能である。ただし、舞台が暗転しても場面の切替が発生しない場合(例えばひとつの場面内で舞台が暗転する場合)、または、舞台が暗転せずに場面の切替が発生する場合(例えば略同等の明度を維持したまま場面が切替わる場合)も想定され得る。以上の事情を考慮すると、例えば、場面の切替の時点で暗転が発生する確率を表現する確率モデルと、場面の切替以外の時点で暗転が発生する確率を表現する確率モデルとを公知の機械学習により生成し、双方の確率モデルを利用して場面の切替の有無を判定する構成が好適である。
(13)前述の各形態で例示した通り、情報処理システム20は、制御装置22とプログラムとの協働で実現される。本発明の好適な態様に係るプログラムは、複数の発音文字列Lnを表す文字列情報Bと、複数の発音文字列Lnを順次に発音した音を表す音響信号Xとを解析することで、複数の発音文字列Lnの各々について、当該発音文字列Lnが発音される時間軸上の時点を示す時間情報Tnを生成する時間解析部62、および、複数の発音文字列Lnの各々について、当該発音文字列Lnに関連する関連情報Cnを示す配信情報Dnと、当該発音文字列Lnについて時間解析部62が生成した時間情報Tnとを対応させる情報対応部64としてコンピュータを機能させる。
以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供することも可能である。
(14)以上に例示した形態から、例えば以下の態様が把握される。
<態様1>
本発明の好適な態様(態様1)に係る情報処理システムは、複数の文字列を表す文字列情報と、前記複数の文字列を順次に発音した音を表す音響信号とを解析することで、前記複数の文字列の各々について、当該文字列が発音される時間軸上の時点を示す時間情報を生成する時間解析部と、前記複数の文字列の各々について、当該文字列に関連する関連情報を示す配信情報と、当該文字列について前記時間解析部が生成した時間情報とを対応させる情報対応部とを具備する。以上の態様では、文字列情報と音響信号とを解析することで各文字列の時間情報が生成され、配信情報と時間情報とが文字列毎に対応付けられる。したがって、時系列に発音される複数の文字列の各々の関連情報を提供するための作業の負荷を軽減することが可能である。
<態様2>
態様1の好適例(態様2)において、前記時間解析部は、前記音響信号が表す音の発音内容を表す認識文字列を取得する文字列特定部と、前記文字列情報が表す前記複数の文字列と前記文字列特定部が取得した前記認識文字列とを照合することで、前記複数の文字列の各々について、当該文字列が発音される時間軸上の時点を示す時間情報を生成する照合処理部とを含む。
<態様3>
態様1の好適例(態様3)において、前記時間解析部は、前記複数の文字列を発音した音の特徴量を推定する推定処理部と、前記音響信号の特徴量を抽出する特徴抽出部と、前記推定処理部が推定した特徴量と前記特徴抽出部が抽出した特徴量とを照合することで、前記複数の文字列の各々について、当該文字列が発音される時間軸上の時点を示す時間情報を生成する照合処理部とを含む。
<態様4>
本発明の好適な態様(態様4)に係る情報処理方法は、コンピュータシステムが、複数の文字列を表す文字列情報と、前記複数の文字列を順次に発音した音を表す音響信号とを解析することで、前記複数の文字列の各々について、当該文字列が発音される時間軸上の時点を示す時間情報を生成し、前記複数の文字列の各々について、当該文字列に関連する関連情報を示す配信情報と、当該文字列について生成した時間情報とを対応させる。