<第1実施形態>
図1は、本発明の第1実施形態に係る情報提供システム100の構成を例示するブロック図である。情報提供システム100は、実演者Pによる実演を観覧する利用者(すなわち観客)Aに当該実演に関する情報(以下「関連情報」という)Cを提供するためのコンピュータシステムである。実演者Pは、例えば舞台等の施設において演劇または狂言等の演芸を実演する。具体的には、実演者Pは、事前に作成された台本に記載された複数の台詞の各々を順次に発音する。利用者Aは、端末装置30を携帯した状態で実演を観覧する。端末装置30は、例えば携帯電話機、スマートフォン、タブレット端末、またはパーソナルコンピュータ等の可搬型の情報端末である。施設に設置された案内用の表示端末を端末装置30として利用してもよい。なお、実際には複数の利用者Aが実演者Pによる実演を観覧するが、以下の説明では、1人の利用者Aの端末装置30に便宜的に着目する。
図1に例示される通り、情報提供システム100は、情報処理システム10と情報配信システム20とを具備する。情報処理システム10は、実演者Pによる実演に並行して識別情報Dを順次に送信するコンピュータシステムである。識別情報Dは、関連情報Cを識別するための符号である。第1実施形態の関連情報Cは、実演者Pが発音する台詞の内容を表す文字列(すなわち字幕)である。実演者Pによる実演に並行して、実演者Pが発音する台詞に対応する関連情報Cの識別情報Dが情報処理システム10から端末装置30に順次に送信される。識別情報Dは、実演者Pが発音する台詞を識別するための情報とも換言される。
情報配信システム20は、移動体通信網またはインターネット等を含む通信網40を介して端末装置30と通信可能である。情報配信システム20は、端末装置30が情報処理システム10から受信した識別情報Dに対応する関連情報Cを当該端末装置30に送信する。以上の説明から理解される通り、実演者Pによる実演に並行して、実演者Pが発音する台詞の内容を表す関連情報Cが端末装置30に順次に提供される。
<情報処理システム10>
図2は、情報処理システム10の構成を例示するブロック図である。図2に例示される通り、第1実施形態の情報処理システム10は、収音装置13と制御装置11と記憶装置12と放音装置14とを具備する。なお、情報処理システム10は、単体の装置で実現されてもよいし、相互に別体で構成された複数の装置で実現されてもよい。
収音装置13は、例えば舞台上の音響を収音するマイクロホンである。第1実施形態の収音装置13は、実演者Pが舞台上で発音した音声(以下「観測音」という)を収音し、当該観測音の波形を表す音響信号Xを生成する。すなわち、観測音は、収音装置13により実演を収音した音響である。なお、収音装置13が生成した音響信号Xをアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。放音装置14は、制御装置11が生成した音響信号Yに応じた音響を再生するスピーカである。なお、音響信号Yをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。
制御装置11は、例えばCPU(Central Processing Unit)等の処理回路で構成され、情報処理システム10の各要素を統括的に制御する。記憶装置12は、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置12として任意に採用される。なお、情報処理システム10に対して着脱可能な可搬型の記録媒体、または情報処理システム10が通信可能な外部記録媒体(例えばオンラインストレージ)を、記憶装置12として利用してもよい。すなわち、記憶装置12は情報処理システム10から省略され得る。
図3は、情報処理システム10の機能的な構成を例示するブロック図である。図3に例示される通り、第1実施形態の記憶装置12は、実演者Pによる発音が予定された音声(以下「参照音」という)の特徴量Frefの時系列を記憶する。参照音は、例えば台本に記載された各台詞を発音した音声である。特徴量Frefは、参照音の音響的な特徴を表す物理量である。例えば参照音から抽出されたMFCC(Mel-Frequency Cepstrum Coefficients)等の情報が特徴量Frefとして記憶装置12に記憶される。
図3に例示される通り、参照音を表す音響信号Vに対する解析処理により特徴量Frefが事前に抽出されて記憶装置12に記憶される。具体的には、音響信号Vを時間軸上で区分した複数の解析期間の各々について特徴量Frefが抽出される。参照音の音響信号Vは、実演者Pによる実演で発音される予定の文字列(例えば台本に記載された台詞等の後述の登録文字列W)に対する音声合成により生成される。音響信号Vの音声合成には公知の技術が任意に採用される。例えば、複数の音声素片の接続により音響信号Vを生成する素片接続型の音声合成、または、HMM(Hidden Markov Model)等の統計モデルを利用して音響信号Vを生成する統計モデル型の音声合成が、音響信号Vの生成に利用される。以上の構成によれば、実演での発音が予定される文字列から参照音(音響信号V)を簡便に用意できるという利点がある。
第1実施形態の記憶装置12は登録データQを記憶する。登録データQは、参照音と複数の識別情報Dとの時間的な対応を表すデータである。図3に例示される通り、登録データQは、参照音を時間軸上で区分した複数の単位期間U(U1,U2,…)の各々について識別情報D(D1,D2,…)を指定する。各単位期間Uは、例えば参照音における各台詞の発話期間である。登録データQには、各単位期間Uの始点および終点の時刻(例えば参照音の先頭を基準とした時刻)が登録されている。各台詞が発音される単位期間Uには、当該台詞に対応する関連情報Cの識別情報Dが対応付けられる。前述の特徴量Frefが抽出される解析期間は、単位期間Uと比較して充分に短い時間長に設定される。
図3に例示される通り、第1実施形態の制御装置11は、記憶装置12に記憶されたプログラムを実行することで複数の機能(位置推定部51,情報特定部52および信号処理部53)を実現する。なお、制御装置11の一部の機能を専用の電子回路で実現してもよい。また、制御装置11の機能を複数の装置に搭載してもよい。
位置推定部51は、収音装置13により実演を収音した観測音と当該実演での発音が予定される参照音との照合により、参照音に対する観測音の時間軸上の位置(以下「実演位置」という)Tを推定する。実演位置Tは、実演者Pが現時点で実演している時間軸上の時点であり、例えば参照音の始点(すなわち実演の開始の時点)からの経過時間で表現される。
第1実施形態の位置推定部51は、観測音から抽出される特徴量Fxの時系列と記憶装置12に記憶された参照音の特徴量Frefの時系列とを照合することで実演位置Tを推定する。観測音の特徴量Fxは、参照音の特徴量Frefと同種の物理量である。第1実施形態ではMFCCを特徴量Fxとして例示する。
図4は、位置推定部51が実演位置Tを特定する処理の具体的な手順を例示するフローチャートである。所定の周期で図4の処理が実行される。図4の処理を開始すると、位置推定部51は、収音装置13から供給される音響信号Xを解析することで、音響信号Xのうち現時点を含む所定の期間について特徴量Fxの時系列を抽出する(Sa1)。特徴量Fxの抽出には、短時間フーリエ変換等の公知の解析技術が任意に利用される。
位置推定部51は、音響信号Xから抽出した特徴量Fxの時系列と記憶装置12に記憶された参照音の特徴量Frefの時系列とを相互に照合することで実演位置Tを推定する(Sa2)。実演位置Tの推定には公知の技術が任意に採用される。例えば、位置推定部51は、特徴量Fxと特徴量Frefとの類似度(例えば距離または相関)を算定する演算処理と、観測音と参照音との間の時間的な対応を解析する動的時間伸縮(DTW:Dynamic Time Warping)とにより、参照音のうち観測音の特徴量Fxの時系列に対応する期間を探索することで実演位置Tを推定する。観測音の所定の期間毎に実演位置Tが推定される。
図3の情報特定部52は、記憶装置12に記憶された登録データQを参照することで、複数の識別情報Dのうち実演位置Tに時間的に対応する識別情報Dを特定する。具体的には、登録データQに登録された複数の単位期間Uのうち実演位置Tを含む単位期間U(すなわち、始点の時刻と終点の時刻との間に実演位置Tが位置する単位期間U)を探索し、当該単位期間Uに対応する識別情報Dを登録データQから取得する。情報特定部52による識別情報Dの特定は、位置推定部51による実演位置Tの推定毎に反復される。以上の説明から理解される通り、情報特定部52は、実演者Pが発話する台詞に対応する識別情報Dを順次に特定する。
信号処理部53は、情報特定部52が特定した識別情報Dを含む音響信号Yを生成する。図3に例示される通り、第1実施形態の信号処理部53は、変調処理部531と合成処理部532とを具備する。
変調処理部531は、情報特定部52が特定した識別情報Dを音響成分として含む変調信号Mを所定の変調処理により生成する。変調信号Mは、例えば所定の周波数の搬送波を識別情報Dにより周波数変調することで生成される。なお、拡散符号を利用した識別情報Dの拡散変調と所定の周波数の搬送波を利用した周波数変換とを順次に実行することで変調信号Mを生成してもよい。変調信号Mが表す音響の周波数帯域は、放音装置14による放音と端末装置30による収音とが可能な周波数帯域であり、かつ、利用者Aが通常の環境で聴取する音声の周波数帯域を上回る周波数帯域(例えば18kHz以上かつ20kHz以下)に設定される。ただし、変調信号Mが表す音響の周波数帯域は任意である。
合成処理部532は、収音装置13が生成した音響信号Xと変調処理部531が生成した変調信号Mとを合成することで音響信号Yを生成する。合成処理部532は、例えば音響信号Xと変調信号Mとを加算(例えば加重加算)することで音響信号Yを生成する。なお、変調信号Mを放音装置14に供給してもよい。すなわち、合成処理部532は省略され得る。
以上の構成および手順により信号処理部53(合成処理部532)が生成した音響信号Yが放音装置14に供給されることで、音響信号Yが表す音響が利用者Aに対して再生される。具体的には、音響信号Xが表す観測音と変調信号Mが表す識別情報Dの音響成分とが放音装置14から再生される。以上の説明から理解される通り、放音装置14は、利用者Aが所在する観客席に対して実演者Pによる実演の観測音を放音する音響機器として機能するほか、空気振動としての音波を伝送媒体とする音響通信により識別情報Dを送信する送信機としても機能する。すなわち、情報処理システム10は、前述の通り、実演者Pによる実演に並行して、当該実演者Pが発音する台詞に対応する関連情報Cの識別情報Dを端末装置30に対して順次に送信する。実演者Pによる実演の進行に連動して、端末装置30に送信される識別情報Dは順次に更新される。
<端末装置30>
図5は、端末装置30の構成を例示するブロック図である。図5に例示される通り、端末装置30は、制御装置31と記憶装置32と通信装置33と収音装置34と再生装置35とを具備する。
収音装置34は、周囲の音響を収音するマイクロホンである。具体的には、収音装置34は、情報処理システム10の放音装置14が再生した音響を収音し、当該音響の波形を表す音響信号Zを生成する。音響信号Zには、識別情報Dを表す音響成分が含まれる。したがって、収音装置34は、音声通話または動画撮影時の音声収録に利用されるほか、空気振動としての音波を伝送媒体とする音響通信により識別情報Dを受信する受信機としても機能する。なお、収音装置34が生成した音響信号Zをアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。また、端末装置30と一体に構成された収音装置34に代えて、別体の収音装置34を有線または無線により端末装置30に接続してもよい。
記憶装置32は、制御装置31が実行するプログラムと制御装置31が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置32として任意に採用され得る。通信装置33は、制御装置31による制御のもとで情報配信システム20と通信する。
再生装置35は、関連情報Cを再生する出力機器である。第1実施形態の再生装置35は、関連情報Cを表示する表示装置(例えば液晶表示パネル)を含む。すなわち、実演者Pが発音する台詞の文字列が関連情報Cとして再生装置35に表示される。したがって、実演者Pが発音した音声の聴取が困難である聴覚障碍者が、実演者Pによる実演の内容を把握できる。なお、関連情報Cの内容を表す音声を放音する放音装置を再生装置35として利用してもよい。
制御装置31は、例えばCPU等の処理回路で構成され、端末装置30の各要素を統括的に制御する。第1実施形態の制御装置31は、図5に例示される通り、記憶装置32に記憶されたプログラムを実行することで複数の機能(情報抽出部311および動作制御部312)を実現する。なお、制御装置31の一部の機能を専用の電子回路で実現してもよい。また、制御装置31の機能を複数の装置に搭載してもよい。
情報抽出部311は、収音装置34が生成した音響信号Zから識別情報Dを抽出する。具体的には、情報抽出部311は、例えば、音響信号Zのうち識別情報Dの音響成分を含む周波数帯域を強調するフィルタ処理と、変調処理部531による変調処理に対応した復調処理とにより、音響信号Zから識別情報Dを抽出する。
動作制御部312は、情報配信システム20から関連情報Cを取得し、当該関連情報Cを再生装置35に再生させる。具体的には、動作制御部312は、情報抽出部311が抽出した識別情報Dを含む情報要求Rを生成して通信装置33から情報配信システム20に送信する。情報要求Rの送信は、音響信号Zから抽出される識別情報Dが変化するたびに(すなわち実演者Pが発音する台詞毎に)実行される。また、動作制御部312は、情報要求Rに応じて情報配信システム20から送信された関連情報Cを通信装置33により受信し、当該関連情報Cを再生装置35に再生させる。以上の説明から理解される通り、端末装置30は、情報処理システム10から受信した識別情報Dに対応する関連情報Cを再生する。
<情報配信システム20>
図1の情報配信システム20は、複数の関連情報Cを記憶するサーバ装置(例えばウェブサーバ)である。複数の関連情報C(C1,C2,…)の各々には当該関連情報Cの識別情報D(D1,D2,…)が対応付けて記憶される。情報配信システム20は、端末装置30からの情報要求Rに含まれる識別情報Dに対応する関連情報Cを端末装置30に送信する。
<動作>
図6は、情報処理システム10および端末装置30の動作の手順を例示するフローチャートである。実演者Pによる実演に並行して図6の処理が例えば所定の周期で反復される。
情報処理システム10の位置推定部51は、収音装置13により実演を収音した観測音と事前に用意された参照音との照合により実演位置Tを推定する(Sb1)。具体的には、図4を参照して前述した通り、位置推定部51は、観測音の特徴量Fxと参照音の特徴量Frefとを照合することで実演位置Tを推定する。
情報特定部52は、参照音と複数の識別情報Dとの時間的な対応を表す登録データQを参照することで、位置推定部51が推定した実演位置Tに時間的に対応した識別情報Dを特定する(Sb2)。信号処理部53は、情報特定部52が特定した識別情報Dを含む音響信号Yを生成する(Sb3)。信号処理部53は、音響信号Yを放音装置14に供給することで、識別情報Dを音響通信により送信する(Sb4)。
端末装置30の情報抽出部311は、放音装置14による再生音の収音により収音装置34が生成した音響信号Zを取得する(Sb5)。情報抽出部311は、音響信号Zから識別情報Dを抽出する(Sb6)。動作制御部312は、情報抽出部311が抽出した識別情報Dを含む情報要求Rを通信装置33から情報配信システム20に送信する(Sb7)。情報配信システム20は、端末装置30から受信した情報要求Rに含まれる識別情報Dに対応する関連情報Cを要求元の端末装置30に送信する。
端末装置30の動作制御部312は、情報配信システム20から送信された関連情報Cを通信装置33により受信し(Sb8)、当該関連情報Cを再生装置35に再生させる(Sb9)。すなわち、実演者Pによる実演に並行した適切な時点で、当該実演において発音される各台詞の字幕が順次に表示される。
以上に説明した通り、第1実施形態においては、観測音と参照音との照合により参照音に対する観測音の実演位置Tが推定されるから、参照音との時間的な対応が登録された複数の識別情報Dのうち、実演位置Tに対応する識別情報Dを特定できる。したがって、実演に並行した適切な時点で識別情報Dを逐次的に指示する作業を必要とせずに、実演中の適切な時点で識別情報Dを特定することが可能である。第1実施形態によれば、観測音の特徴量Fxと参照音の特徴量Frefとの照合により実演位置Tを適切に推定できるという利点もある。
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下の各例示において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
図7は、第2実施形態における情報処理システム10の機能的な構成を例示するブロック図である。第2実施形態の記憶装置12は、第1実施形態と同様の登録データQを記憶する。また、記憶装置12は、第1実施形態で例示した参照音の特徴量Frefに代えて、参照音の内容を表す文字列(以下「参照文字列」という)Srefを記憶する。参照音を表す音響信号Vに対する音声認識により参照文字列Srefが事前に推定されて記憶装置12に記憶される。第1実施形態と同様に、音響信号Vは、実演者Pによる実演で発音される予定の文字列(すなわち台本に記載された台詞)に対する音声合成により生成される。
音響信号Vの音声認識には公知の技術が任意に採用される。第2実施形態の参照文字列Srefは、認識モデルを利用した音声認識により推定される。認識モデルは、例えばHMM等の音響モデルと、言語的な制約を示す言語モデルとを含んで構成される。
位置推定部51は、第1実施形態と同様に、収音装置13が収音した観測音と事前に用意された参照音との照合により実演位置Tを推定する。第2実施形態の位置推定部51は、観測音に対する音声認識で推定される文字列(以下「観測文字列」という)Sxと、記憶装置12に記憶された参照文字列Srefとを照合することで、実演者Pによる実演位置Tを推定する。
図8は、第2実施形態の位置推定部51が実演位置Tを特定する処理の具体的な手順を例示するフローチャートである。所定の周期で図8の処理が反復される。図8の処理を開始すると、位置推定部51は、収音装置13から供給される音響信号Xに対する音声認識で観測文字列Sxを推定する(Sc1)。音響信号Xに対する音声認識は、参照音の音響信号Vに対する音声認識と同様の方法で実行される。具体的には、観測音の音響信号Xに対する音声認識と参照音の音響信号Vに対する音声認識とにおいては、共通の認識モデル(音響モデルおよび言語モデル)が利用される。
位置推定部51は、音響信号Xから推定した観測文字列Sxと記憶装置12に記憶された参照文字列Srefとを相互に照合することで実演位置Tを推定する(Sc2)。実演位置Tの推定には公知の技術が任意に採用される。具体的には、位置推定部51は、参照文字列Srefを時間軸上で区分した複数の区間の各々と観測文字列Sxとの間で類似度を算定し、観測文字列Sxとの類似度が最大となる区間に応じて実演位置Tを推定する。参照文字列Srefと観測文字列Sxとの間の類似度の指標としては、例えば編集距離が好適に利用される。以上に例示した処理により観測音の所定の期間毎に実演位置Tが推定される。
実演位置Tに応じた識別情報Dの特定および識別情報Dの送信は、第1実施形態と同様である。また、端末装置30および情報配信システム20の動作も第1実施形態と同様である。したがって、第2実施形態においても第1実施形態と同様の効果が実現される。
ところで、例えば狂言または歌舞伎等の伝統的な演芸の実演では、実演者Pは古語等の特殊な言葉を発話する。また、特定の地域で実施される演芸では、当該地域に特有の言い回しを含む特殊な言葉を実演者Pが発話する。観測音が、以上の例示のような特殊な言葉を発話した音声である場合、現代語等の通常の言葉の認識モデルを利用した音声認識では正確な認識が困難である。したがって、観測音に対する音声認識で推定される観測文字列Sxと台本に記載された台詞とを照合する構成では双方の文字列が乖離し、結果的に実演位置Tを高精度に推定することができない。以上の構成とは対照的に、第2実施形態では、共通の認識モデル(例えば現代語等の通常の言葉の認識モデル)を利用した音声認識で推定された観測文字列Sxと、参照文字列Srefとが照合される。したがって、音声認識の結果の正誤はともかく、音声認識の傾向自体は、観測文字列Sxと参照文字列Srefとで同様である。したがって、第2実施形態によれば、観測音が古語等の特殊な言葉を発音した音声である場合でも、実演位置Tを高精度に推定できるという利点がある。なお、音声認識の精度が特段の問題とならない場合には、観測音に対する音声認識で推定される観測文字列Sxと台本に記載された台詞とを照合してもよい。
なお、第1実施形態では、実演者Pが発音する予定の文字列(例えば台本に記載された台詞)に対する音声合成で参照音の音響信号Vが生成され、当該参照音の音響信号Vから抽出された特徴量Frefと観測音の特徴量Fxとが照合される。以上の構成でも、観測音が古語等の特殊な言葉を発音した音声である場合でも実演位置Tを高精度に推定できる、という第2実施形態と同様の効果は実現される。
第1実施形態における特徴量Fxと特徴量Frefとの照合と、第2実施形態における観測文字列Sxと参照文字列Srefとの照合とは、観測音と参照音とを照合する処理の具体例に相当する。なお、観測音と参照音との照合は以上の例示に限定されない。例えば、観測音の音響信号Xと参照音の音響信号Vとを相互に照合することで実演位置Tを推定してもよい。
<第3実施形態>
図9は、第3実施形態に係る管理システム200の構成を例示するブロック図である。第3実施形態の管理システム200は、実演者Pによる実演に関する演出を制御するためのコンピュータシステムであり、情報処理システム10と舞台システム60とを具備する。舞台システム60は、実演者Pによる実演に並行して各種の演出を実行する。
情報処理システム10は、第1実施形態と同様の構成であり、実演者Pによる実演に並行して音響通信により識別情報Dを順次に送信する。具体的には、情報処理システム10は、観測音と参照音との照合により実演位置Tを推定し、実演位置Tに対応する識別情報Dを特定および送信する。なお、第2実施形態の構成を第3実施形態の情報処理システム10に適用してもよい。
第1実施形態の識別情報Dが関連情報Cを識別する符号であるのに対し、第3実施形態の識別情報Dは、舞台システム60による演出の内容を識別するための符号である。すなわち、第3実施形態の情報処理システム10は、実演者Pによる実演に並行して舞台システム60に演出の内容を順次に指示する。
図9に例示される通り、舞台システム60は、管理装置61と演出装置62とを具備する。演出装置62は、舞台上の演出を実行する装置であり、音響装置621と照明装置622とを具備する。音響装置621は、例えば音楽または効果音等の各種の音響を再生する設備である。照明装置622は、舞台上を照明する設備である。照明装置622による照明の特性(点灯/消灯,光量,発光色)は可変に制御される。
管理装置61は、情報処理システム10から音響通信により受信した識別情報Dに応じて演出装置62を制御する。例えば携帯電話機、スマートフォン、タブレット端末、またはパーソナルコンピュータ等の可搬型の情報端末が管理装置61として利用される。管理装置61は、複数の識別情報Dの各々について演出動作を記憶する。演出動作は、例えば音響装置621による各種の音響の再生、または照明装置622による照明の制御である。管理装置61は、情報処理システム10が再生した音響から識別情報Dを抽出し、識別情報Dに対応する演出動作を演出装置62に指示する。したがって、実演者Pによる実演に並行して、舞台システム60による舞台上の演出が順次に制御される。以上の説明から理解される通り、舞台システム60は、情報処理システム10から受信した識別情報Dに対応する演出動作を実行する。
第3実施形態においても第1実施形態と同様に、観測音と参照音との照合により参照音に対する観測音の実演位置Tが推定されるから、参照音との時間的な対応が登録された複数の識別情報Dのうち、実演位置Tに対応する識別情報Dを特定できる。したがって、実演に並行した適切な時点で識別情報Dを逐次的に指示する作業を必要とせずに、実演中の適切な時点で識別情報Dを特定することが可能である。また、第3実施形態によれば、実演者Pによる実演に関する演出を、当該実演に並行した適切な時点で実行することが可能である。
<第4実施形態>
第4実施形態の情報処理システム10は、登録データQを生成する機能を具備する。図10は、第4実施形態における制御装置11が登録データQを生成するための機能的な構成を例示するブロック図である。図10に例示される通り、第4実施形態の記憶装置12は登録文字列Wを記憶する。登録文字列Wは、実演者Pによる発音が予定される文字列である。例えば実演者Pによる実演の台本に記載された各台詞の時系列が登録文字列Wとして記憶装置12に事前に記憶される。登録文字列Wは、相異なる台詞に対応する複数の区間(以下「登録区間」という)σに区画される。任意の1個の登録区間σは、例えば発話の単位となる一連の台詞の文字列(例えば単数または複数の文)で構成される。以上の説明の通り、登録文字列Wは、複数の登録区間σを含んで構成される。
実演者Pは、例えば正式な実演のための準備(例えばリハーサル)の段階で実演する。準備の段階で、実演者Pは登録文字列Wを発音する。第4実施形態の収音装置13は、実演者Pが発音した参照音を収音し、当該参照音の波形を表す音響信号Vを生成する。
図10に例示される通り、第4実施形態の制御装置11は、記憶装置12に記憶されたプログラムを実行することで解析処理部55として機能する。解析処理部55は、記憶装置12に記憶された登録文字列Wと収音装置13が収音した参照音とを照合することで登録データQを生成する。登録データQは、前述の通り、参照音を時間軸上で区分した複数の単位期間U(U1,U2,…)の各々について識別情報D(D1,D2,…)を指定する。各単位期間Uは、参照音のうち登録文字列Wの各登録区間σが発音される期間である。すなわち、解析処理部55は、登録文字列Wと参照音とを照合することで、当該参照音を、相異なる登録区間σに対応する複数の単位期間Uに時間軸上で区画する。
図11は、第4実施形態における解析処理部55が登録データQを生成する動作の具体的な手順を例示するフローチャートである。登録データQの生成の指示を契機として図11の処理が開始される。図11の処理を開始すると、解析処理部55は、収音装置13から供給される音響信号Vを解析することで参照音の特徴量Frefの時系列を抽出する(Sd1)。
解析処理部55は、記憶装置12に記憶された登録文字列Wに対する音声合成により、登録文字列Wを発話した合成音の波形を表す音響信号(以下「合成信号」という)を生成する(Sd2)。合成信号の生成には、例えば前述の素片接続型または統計モデル型の音声合成が好適に利用される。解析処理部55は、音声合成により生成した合成信号を解析することで合成音の特徴量Fsynの時系列を抽出する(Sd3)。例えば、登録文字列Wの登録区間σ毎に特徴量Fsynの時系列が抽出される。合成音の特徴量Fsynは、参照音の特徴量Frefと同種の物理量(例えばMFCC)である。なお、参照音の特徴量Frefの抽出(Sd1)と合成音の特徴量Fsynの抽出(Sd2,Sd3)との順序を逆転してもよい。以上の説明から理解される通り、第4実施形態の制御装置11は、登録文字列Wに対する音声合成で生成される合成音の特徴量Fsynを抽出する要素(特徴抽出部)として機能する。なお、相異なる時期または場所で収録された複数の参照音の特徴量の代表値(例えば平均値)を特徴量Fsynとして登録データQの生成に利用してもよい。また、登録区間σについて合成音から抽出された複数の特徴量の代表値(例えば平均値)を特徴量Fsynとして利用してもよい。
解析処理部55は、参照音の特徴量Frefの時系列と合成音の特徴量Fsynの時系列とを相互に照合することで参照音を複数の単位期間Uに区画する(Sd4)。例えば、登録文字列Wの複数の登録区間σの各々について、当該登録区間σにおける特徴量Fsynの時系列に類似する特徴量Frefが抽出された参照音の期間が、当該登録区間σに対応する単位期間Uとして画定される。すなわち、登録区間σ毎(例えば台詞毎)の単位期間Uに参照音が時間軸上で区画される。具体的には、解析処理部55は、各単位期間Uの始点および終点の時刻を特定する。以上の説明から理解される通り、第4実施形態の制御装置11は、参照音の特徴量Frefと合成音の特徴量Fsynとを照合することで、参照音のうち各登録区間σに対応する単位期間Uを画定する要素(期間画定部)として機能する。
以上の手順で参照音を複数の単位期間Uに区画すると、解析処理部55は、複数の単位期間Uの各々について識別情報Dを対応付けた登録データQを生成する(Sd5)。具体的には、解析処理部55は、参照音の複数の単位期間Uの各々に対して相互に重複しない識別情報Dを割当て、単位期間Uの始点および終点の時刻と識別情報Dとを対応させた登録データQを生成する。
解析処理部55は、以上の手順で生成した登録データQと、参照音から抽出(Sd1)された特徴量Frefの時系列とを、記憶装置12に記憶する(Sd6)。第1実施形態において例示した通り、特徴量Frefの時系列は、位置推定部51による実演位置Tの推定に利用され、登録データQは、情報特定部52による識別情報Dの特定に利用される。
第4実施形態によれば、実演者Pによる実演に並行して端末装置30に複数の識別情報Dの各々を順次に送信するために利用される登録データQを、登録文字列Wから簡便に生成できるという利点がある。なお、第4実施形態は、第1実施形態で使用される登録データQのほか、第2実施形態または第3実施形態で使用される登録データQの生成にも同様に適用される。図11の例示では、登録データQとともに参照音の特徴量Frefを記憶装置12に記憶したが(Sd6)、第2実施形態では、例えば、登録データQの生成に利用された登録文字列Wが参照文字列Srefとして記憶装置12に記憶される。
<第5実施形態>
第5実施形態は、第4実施形態と同様に、登録データQを生成するための形態である。第5実施形態における情報処理システム10の制御装置11は、記憶装置12に記憶されたプログラムを実行することで、図10の例示と同様に、登録文字列Wと参照音との照合により登録データQを生成する解析処理部55として機能する。
図12は、第5実施形態の解析処理部55が登録データQを生成する動作の具体的な手順を例示するフローチャートである。登録データQの生成の指示を契機として図12の処理が開始される。図12の処理を開始すると、解析処理部55は、収音装置13から供給される参照音の音響信号Vに対する音声認識で参照文字列Srefを推定する(Se1)。参照文字列Srefは、音響モデルと言語モデルとを含む認識モデルを利用した公知の音声認識により推定される。
解析処理部55は、記憶装置12に記憶された登録文字列Wに対する音声合成により、登録文字列Wを発話した合成音の波形を表す合成信号を生成する(Se2)。合成信号の生成には、例えば前述の素片接続型または統計モデル型の音声合成が好適に利用される。
解析処理部55は、音声合成後の合成信号に対する音声認識により、合成音の発話内容を表す文字列(以下「合成文字列」という)Wsynを生成する(Se3)。登録文字列Wの登録区間σ毎に合成文字列Wsynが推定される。合成音の音声認識(Se3)と参照音の音声認識(Se1)とにおいては共通の認識モデルが利用される。以上の説明から理解される通り、第5実施形態の制御装置11は、登録文字列Wに対する音声合成で生成される合成音に対する音声認識で合成文字列Wsynを推定する要素(音声認識部)として機能する。合成文字列Wsynは、登録文字列Wから生成された合成音に対する音声認識の結果であるから、理想的には登録文字列Wに一致または類似する。ただし、音声認識における誤認識等の要因により、合成文字列Wsynと登録文字列Wとは完全には一致しない。実演者Pが古語等の特殊な言葉を発話した場合には、合成文字列Wsynと登録文字列Wとの差異が特に顕著となる。なお、参照文字列Srefの生成(Se1)と合成文字列Wsynの生成(Se2,Se3)との順序を逆転してもよい。
解析処理部55は、参照文字列Srefと合成文字列Wsynとを相互に照合することで参照音を複数の単位期間Uに区画する(Se4)。例えば、登録文字列Wの複数の登録区間σの各々について、当該登録区間σにおける合成文字列Wsynに類似する参照文字列Srefが推定された参照音の期間が、当該登録区間σに対応する単位期間Uとして画定される。すなわち、第4実施形態と同様に、登録区間σ毎(例えば台詞毎)の単位期間Uに参照音が時間軸上で区画される。以上の説明から理解される通り、第5実施形態の制御装置11は、参照文字列Srefと合成文字列Wsynとを照合することで、参照音のうち各登録区間σに対応する単位期間Uを画定する要素(期間画定部)として機能する。
以上の手順で参照音を複数の単位期間Uに区画すると、解析処理部55は、第4実施形態と同様の手順により、複数の単位期間Uの各々について識別情報Dを対応付けた登録データQを生成する(Se5)。そして、解析処理部55は、以上の手順で生成した登録データQと、参照音から別途の処理で抽出された特徴量Frefの時系列とを、記憶装置12に記憶する(Se6)。
参照音が古語等の特殊な言葉の発話音声である場合、現代語等の通常の言葉の認識モデルを利用した音声認識では正確な認識が困難である。実演者Pは登録文字列Wを発音するが、以上の事情により、参照音に対する音声認識で推定される参照文字列Srefと、実演での発音が予定される登録文字列Wとは乖離する可能性がある。したがって、参照文字列Srefと登録文字列Wとの照合により各単位期間Uを区画する構成では、参照音を登録区間σ毎の単位期間Uに高精度に区画することが困難である。以上の構成とは対照的に、第5実施形態では、共通の認識モデル(例えば現代語等の通常の言葉の認識モデル)を利用した音声認識により推定された参照文字列Srefと合成文字列Wsynとが照合される。したがって、参照音が古語等の特殊な言葉の発話音声である場合でも、参照音を、登録区間σ毎の単位期間Uに高精度に区画することが可能である。
なお、第5実施形態は、第1実施形態で使用される登録データQのほか、第2実施形態または第3実施形態で使用される登録データQの生成にも同様に適用される。図12の例示では、登録データQとともに参照音の特徴量Frefを記憶装置12に記憶したが(Se6)、第2実施形態では、参照音から推定(Se1)された参照文字列Srefが記憶装置12に記憶される。
第4実施形態および第5実施形態では、端末装置30に識別情報Dを送信する情報処理システム10が登録データQを生成する構成を想定したが、識別情報Dを送信する情報処理システム10とは別個の情報処理システムにより登録データQを生成してもよい。
<変形例>
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の各形態では参照音の音響信号Vを音声合成により生成したが、音響信号Vを生成する方法は以上の例示に限定されない。例えば、過去の実演において収録された複数の収録音から参照音の音響信号Vを生成してもよい。例えば、共通の演目を相異なる実演にて収録した収録音を表す複数の音響信号を合成することで参照音の音響信号Vが生成される。以上の手順で生成された参照音の音響信号Vから抽出された特徴量Frefの時系列(第2実施形態では参照文字列Sref)と、当該音響信号Vから生成された登録データQとが、情報処理システム10の記憶装置12に記憶される。
また、複数の収録音から抽出された特徴量の代表値(例えば平均)を参照音の特徴量Frefとして算定してもよい。以上の例示のように過去の実演において収録された複数の収録音から参照音(例えば音響信号Vまたは特徴量Fref)を生成する構成によれば、過去の実演における収録音の傾向を反映した参照音を生成することが可能である。なお、「過去の実演」には、舞台上での正式な実演のほか、正式な実演のための準備的な実演(例えばリハーサルでの実演)も含まれる。
(2)第1実施形態では、情報配信システム20から受信した関連情報Cを端末装置30が再生したが、端末装置30の記憶装置32に記憶された関連情報Cを再生してもよい。例えば、端末装置30の記憶装置32は、複数の関連情報Cの各々を識別情報Dと対応付けて記憶する。動作制御部312は、情報抽出部311が抽出した識別情報Dに対応する関連情報Cを記憶装置32から取得して再生装置35に再生させる。以上の構成によれば、通信網40を介した通信を必要とせずに端末装置30が関連情報Cを取得できるという利点がある。他方、第1実施形態のように端末装置30が情報配信システム20から関連情報Cを受信する構成によれば、複数の関連情報Cを端末装置30の記憶装置32に保持する必要がないという利点がある。なお、前述の各形態では、端末装置30から送信された情報要求Rの受信毎に情報処理システム10から端末装置30に関連情報Cを送信したが、事前に登録された端末装置30に対して、情報要求Rの受信を必要とせずに情報処理システム10から関連情報Cを送信(プッシュ配信)してもよい。
(3)第1実施形態および第2実施形態では、実演者Pが発音する台詞の文字列を関連情報Cとして端末装置30に提供したが、関連情報Cの内容は以上の例示に限定されない。例えば、実演者Pが発音する台詞を特定の言語に翻訳した文字列を関連情報Cとして端末装置30に提供してもよい。以上の構成によれば、例えば実演者Pが発音する台詞の言語を理解できない外国人でも、端末装置30が再生する関連情報Cを視認することで台詞の内容を把握できる。なお、実演者Pが発音する古語または独特の言い回しを標準的な表現(例えば現代語または標準語)に変換した文字列を関連情報Cとして端末装置30に提供してもよい。また、実演者Pによる実演に関する解説、または当該実演を解説するサイトの所在を表す情報(例えばURL)を、関連情報Cとして端末装置30に提供してもよい。
(4)位置推定部51による観測音と参照音との照合の結果(以下「照合結果」という)を情報処理システム10が具備する表示装置に表示してもよい。照合結果は、例えば実演位置Tの時間的な変化である。照合結果は、例えば観測音と参照音との照合に並行して実時間的に表示される。情報処理システム10の管理者は、表示装置の表示を確認することで照合結果の適否を判断し、照合結果が不適切である場合(例えば実演位置Tが誤推定された場合)には、照合結果(例えば実演位置T)を手動で修正する。
(5)前述の各形態では、特徴量Fxおよび特徴量FrefとしてMFCCを例示したが、特徴量Fxおよび特徴量Frefの種類は以上の例示に限定されない。例えば周波数スペクトルやスペクトログラム等の周波数特性を特徴量Fxおよび特徴量Frefとして実演位置Tの推定に利用してもよい。
(6)前述の各形態では、識別情報Dを音響通信により端末装置30に送信したが、識別情報Dを送信するための通信方式は音響通信に限定されない。例えば、電波または赤外線等の電磁波を伝送媒体とした無線通信で識別情報Dを端末装置30に送信してもよい。電磁波を伝送媒体とした通信と前述の各形態で例示した音響通信とは、移動体通信網等の通信網40が介在しない近距離無線通信として包括的に表現される。
(7)前述の各形態に係る情報処理システム10の機能は、各形態での例示の通り、制御装置11等の処理回路とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。
<付記>
以上に例示した形態から、例えば以下の構成が把握される。
本発明の好適な態様(第1態様)に係る情報処理方法は、収音装置により実演を収音した観測音と前記実演での発音が予定される参照音との照合により、前記参照音に対する前記観測音の時間軸上の位置である実演位置を推定し、前記参照音と複数の識別情報との時間的な対応を表す登録データを参照することで、前記複数の識別情報のうち前記実演位置に時間的に対応する識別情報を特定する。以上の態様によれば、収音装置により実演を収音した観測音と事前に用意された参照音との照合により参照音に対する観測音の実演位置が推定されるから、参照音との時間的な対応が登録された複数の識別情報のうち、実演位置に時間的に対応する識別情報を特定できる。したがって、実演に並行した適切な時点で識別情報を逐次的に指示する作業を必要とせずに、実演中の適切な時点で識別情報を特定することが可能である。なお、「観測音」は、典型的には発話音声(台詞を発音した音声等の言語音)であるが、楽器の演奏音等も含まれる。
第1態様の好適例(第2態様)において、前記参照音は、前記実演での発音が予定される文字列に対する音声合成で生成される。以上の態様によれば、観測音との照合に利用される参照音を、実演での発音が予定される文字列(例えば台本)から簡便に用意できるという利点がある。
第1態様の好適例(第3態様)において、前記参照音は、過去の実演において収録された複数の収録音から生成される。以上の態様によれば、実際の実演で発音された収録音の傾向を反映した参照音を生成することが可能である。
第1態様から第3態様の何れかの好適例(第4態様)において、前記実演位置の推定では、前記観測音に対する音声認識で推定される観測文字列と、前記参照音に対する音声認識で推定される参照文字列とを照合することで、前記実演位置を推定し、前記観測音に対する音声認識と前記参照音に対する音声認識とにおいては共通の認識モデルが利用される。例えば観測音が古語等の特殊な言葉の発話音声である場合、現代語等の通常の言葉の認識モデル(例えば音響モデルおよび言語モデル)を利用した音声認識では正確な認識が困難である。したがって、観測音に対する音声認識で推定される観測文字列と、実演での発音が予定される文字列とを照合する構成では双方が乖離し、結果的に実演位置を高精度に推定することができない。共通の認識モデル(例えば現代語等の通常の言葉の認識モデル)を利用した音声認識により推定された観測文字列と参照文字列とを照合する前述の態様によれば、観測音が古語等の特殊な言葉の発話音声である場合でも、実演位置を高精度に推定することが可能である。
第1態様から第3態様の何れかの好適例(第5態様)において、前記実演位置の推定では、前記観測音から抽出される特徴量と前記参照音の特徴量とを照合することで前記実演位置を推定する。以上の態様によれば、観測音の特徴量と参照音の特徴量との照合により実演位置を適切に推定することが可能である。実演位置の推定に好適な特徴量は、例えばMFCCである。
第1態様から第5態様の何れかの好適例(第6態様)において、前記実演に関する複数の関連情報のうち受信した識別情報に対応する関連情報を再生する端末装置に対して、前記特定した識別情報を送信する。以上の態様によれば、実演に関する複数の関連情報の各々を、当該実演に並行した適切な時点で端末装置において再生することが可能である。
第1態様から第5態様の何れかの好適例(第7態様)において、受信した識別情報に対応する演出動作を実行する舞台システムに対して、前記特定した識別情報を送信する。以上の態様によれば、実演に関する演出を、当該実演に並行した適切な時点で実行することが可能である。演出は、例えば、音響の再生または照明の制御等である。
第1態様から第7態様の何れかに係る情報処理方法を実行する情報提供システム、または、第1態様から第7態様の何れかに係る情報処理方法をコンピュータに実行させるプログラムとしても、本発明の好適な態様は実現される。
<他の態様>
本発明は、態様Aおよび態様Bとして以下に例示する通り、複数の登録区間を含む登録文字列と参照音とを照合することで、前記参照音のうち前記各登録区間に対応する単位期間を画定する方法としても特定される。
本発明の態様Aは、登録文字列に対する音声合成で生成される合成音の特徴量を抽出し、参照音の特徴量と合成音の特徴量とを照合することで、参照音のうち各登録区間に対応する単位期間を画定する、コンピュータにより実現される情報処理方法である。
本発明の態様Bは、登録文字列に対する音声合成で生成される合成音に対する音声認識で合成文字列を推定し、参照音に対する音声認識で推定された参照文字列と合成文字列とを照合することで、参照音のうち各登録区間に対応する単位期間を画定する、コンピュータにより実現される情報処理方法であり、前記参照音に対する音声認識と前記合成音に対する音声認識とにおいては共通の認識モデルが利用される。