JP2020064262A

JP2020064262A - 情報処理方法および情報処理システム

Info

Publication number: JP2020064262A
Application number: JP2018197793A
Authority: JP
Inventors: 優樹瀬戸; Yuki Seto; 翔太森口; Shota MORIGUCHI; 貴裕岩田; Takahiro Iwata; 陽前澤; Akira Maezawa
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2020-04-23
Anticipated expiration: 2038-10-19
Also published as: JP7200597B2

Abstract

【課題】実演の進行に並行して識別情報を逐次的に指示する作業の負荷を軽減する。【解決手段】情報処理システムは、収音装置により実演を収音した観測音と実演での発音が予定される参照音との照合により、参照音に対する観測音の時間軸上の位置である実演位置Ｔを推定する位置推定部５１と、参照音と複数の識別情報Ｄとの時間的な対応を表す登録データＱを参照することで、複数の識別情報Ｄのうち実演位置Ｔに時間的に対応する識別情報Ｄを特定する情報特定部５２とを具備する。【選択図】図３

Description

本発明は、各種の情報を処理する技術に関する。

例えば交通機関や商業施設等の各種の施設において、当該施設の案内音声の内容を表す情報を端末装置に提供する技術が従来から提案されている。例えば特許文献１には、交通機関の管理者による操作に応じた識別情報を音響通信により端末装置に送信する構成が開示されている。端末装置は、音響通信により受信した識別情報に対応する案内情報を表示する。

特開２０１６−１５７４１２号公報

演劇または能楽等の実演に並行して当該実演に関する情報を観客に提供する場面に前述の技術を適用することが想定される。しかし、例えば実演の運営者が、実演の進行に並行して識別情報を手動で逐次的に指示する作業の負荷が過大であるという問題がある。なお、以上の説明では、実演の進行に並行して観客に情報を提供する場面を想定したが、例えば実演の進行に並行して、識別情報に対応する各種の動作を実行する場面でも同様の問題が想定される。以上の事情を考慮して、実演の進行に並行して識別情報を逐次的に指示する作業の負荷を軽減することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る情報提供方法は、収音装置により実演を収音した観測音と前記実演での発音が予定される参照音との照合により、前記参照音に対する前記観測音の時間軸上の位置である実演位置を推定し、前記参照音と複数の識別情報との時間的な対応を表す登録データを参照することで、前記複数の識別情報のうち前記実演位置に時間的に対応する識別情報を特定する。

本発明の好適な態様に係る情報処理システムは、収音装置により実演を収音した観測音と前記実演での発音が予定される参照音との照合により、前記参照音に対する前記観測音の時間軸上の位置である実演位置を推定する位置推定部と、前記参照音と複数の識別情報との時間的な対応を表す登録データを参照することで、前記複数の識別情報のうち前記実演位置に時間的に対応する識別情報を特定する情報特定部とを具備する。

第１実施形態における情報提供システムの構成を例示するブロック図である。情報処理システムの構成を例示するブロック図である。情報処理システムの機能的な構成を例示するブロック図である。位置推定部が実演位置を推定する処理の具体的な手順を例示するフローチャートである。端末装置の構成を例示するブロック図である。情報処理システムおよび端末装置の動作の具体的な手順を例示するフローチャートである。第２実施形態における情報処理システムの機能的な構成を例示するブロック図である。第２実施形態における位置推定部が実演位置を推定する処理の具体的な手順を例示するフローチャートである。第３実施形態に係る管理システムの構成を例示するブロック図である。第４実施形態における情報処理システムの機能的な構成を例示するブロック図である。第４実施形態において登録データを生成する処理の具体的な手順を例示するフローチャートである。第５実施形態において登録データを生成する処理の具体的な手順を例示するフローチャートである。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る情報提供システム１００の構成を例示するブロック図である。情報提供システム１００は、実演者Ｐによる実演を観覧する利用者（すなわち観客）Ａに当該実演に関する情報（以下「関連情報」という）Ｃを提供するためのコンピュータシステムである。実演者Ｐは、例えば舞台等の施設において演劇または狂言等の演芸を実演する。具体的には、実演者Ｐは、事前に作成された台本に記載された複数の台詞の各々を順次に発音する。利用者Ａは、端末装置３０を携帯した状態で実演を観覧する。端末装置３０は、例えば携帯電話機、スマートフォン、タブレット端末、またはパーソナルコンピュータ等の可搬型の情報端末である。施設に設置された案内用の表示端末を端末装置３０として利用してもよい。なお、実際には複数の利用者Ａが実演者Ｐによる実演を観覧するが、以下の説明では、１人の利用者Ａの端末装置３０に便宜的に着目する。

図１に例示される通り、情報提供システム１００は、情報処理システム１０と情報配信システム２０とを具備する。情報処理システム１０は、実演者Ｐによる実演に並行して識別情報Ｄを順次に送信するコンピュータシステムである。識別情報Ｄは、関連情報Ｃを識別するための符号である。第１実施形態の関連情報Ｃは、実演者Ｐが発音する台詞の内容を表す文字列（すなわち字幕）である。実演者Ｐによる実演に並行して、実演者Ｐが発音する台詞に対応する関連情報Ｃの識別情報Ｄが情報処理システム１０から端末装置３０に順次に送信される。識別情報Ｄは、実演者Ｐが発音する台詞を識別するための情報とも換言される。

情報配信システム２０は、移動体通信網またはインターネット等を含む通信網４０を介して端末装置３０と通信可能である。情報配信システム２０は、端末装置３０が情報処理システム１０から受信した識別情報Ｄに対応する関連情報Ｃを当該端末装置３０に送信する。以上の説明から理解される通り、実演者Ｐによる実演に並行して、実演者Ｐが発音する台詞の内容を表す関連情報Ｃが端末装置３０に順次に提供される。

＜情報処理システム１０＞
図２は、情報処理システム１０の構成を例示するブロック図である。図２に例示される通り、第１実施形態の情報処理システム１０は、収音装置１３と制御装置１１と記憶装置１２と放音装置１４とを具備する。なお、情報処理システム１０は、単体の装置で実現されてもよいし、相互に別体で構成された複数の装置で実現されてもよい。

収音装置１３は、例えば舞台上の音響を収音するマイクロホンである。第１実施形態の収音装置１３は、実演者Ｐが舞台上で発音した音声（以下「観測音」という）を収音し、当該観測音の波形を表す音響信号Ｘを生成する。すなわち、観測音は、収音装置１３により実演を収音した音響である。なお、収音装置１３が生成した音響信号Ｘをアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略した。放音装置１４は、制御装置１１が生成した音響信号Ｙに応じた音響を再生するスピーカである。なお、音響信号Ｙをデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略した。

制御装置１１は、例えばCPU（Central Processing Unit）等の処理回路で構成され、情報処理システム１０の各要素を統括的に制御する。記憶装置１２は、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置１２として任意に採用される。なお、情報処理システム１０に対して着脱可能な可搬型の記録媒体、または情報処理システム１０が通信可能な外部記録媒体（例えばオンラインストレージ）を、記憶装置１２として利用してもよい。すなわち、記憶装置１２は情報処理システム１０から省略され得る。

図３は、情報処理システム１０の機能的な構成を例示するブロック図である。図３に例示される通り、第１実施形態の記憶装置１２は、実演者Ｐによる発音が予定された音声（以下「参照音」という）の特徴量Ｆrefの時系列を記憶する。参照音は、例えば台本に記載された各台詞を発音した音声である。特徴量Ｆrefは、参照音の音響的な特徴を表す物理量である。例えば参照音から抽出されたMFCC（Mel-Frequency Cepstrum Coefficients）等の情報が特徴量Ｆrefとして記憶装置１２に記憶される。

図３に例示される通り、参照音を表す音響信号Ｖに対する解析処理により特徴量Ｆrefが事前に抽出されて記憶装置１２に記憶される。具体的には、音響信号Ｖを時間軸上で区分した複数の解析期間の各々について特徴量Ｆrefが抽出される。参照音の音響信号Ｖは、実演者Ｐによる実演で発音される予定の文字列（例えば台本に記載された台詞等の後述の登録文字列Ｗ）に対する音声合成により生成される。音響信号Ｖの音声合成には公知の技術が任意に採用される。例えば、複数の音声素片の接続により音響信号Ｖを生成する素片接続型の音声合成、または、HMM（Hidden Markov Model）等の統計モデルを利用して音響信号Ｖを生成する統計モデル型の音声合成が、音響信号Ｖの生成に利用される。以上の構成によれば、実演での発音が予定される文字列から参照音（音響信号Ｖ）を簡便に用意できるという利点がある。

第１実施形態の記憶装置１２は登録データＱを記憶する。登録データＱは、参照音と複数の識別情報Ｄとの時間的な対応を表すデータである。図３に例示される通り、登録データＱは、参照音を時間軸上で区分した複数の単位期間Ｕ（Ｕ1，Ｕ2，…）の各々について識別情報Ｄ（Ｄ1，Ｄ2，…）を指定する。各単位期間Ｕは、例えば参照音における各台詞の発話期間である。登録データＱには、各単位期間Ｕの始点および終点の時刻（例えば参照音の先頭を基準とした時刻）が登録されている。各台詞が発音される単位期間Ｕには、当該台詞に対応する関連情報Ｃの識別情報Ｄが対応付けられる。前述の特徴量Ｆrefが抽出される解析期間は、単位期間Ｕと比較して充分に短い時間長に設定される。

図３に例示される通り、第１実施形態の制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで複数の機能（位置推定部５１，情報特定部５２および信号処理部５３）を実現する。なお、制御装置１１の一部の機能を専用の電子回路で実現してもよい。また、制御装置１１の機能を複数の装置に搭載してもよい。

位置推定部５１は、収音装置１３により実演を収音した観測音と当該実演での発音が予定される参照音との照合により、参照音に対する観測音の時間軸上の位置（以下「実演位置」という）Ｔを推定する。実演位置Ｔは、実演者Ｐが現時点で実演している時間軸上の時点であり、例えば参照音の始点（すなわち実演の開始の時点）からの経過時間で表現される。

第１実施形態の位置推定部５１は、観測音から抽出される特徴量Ｆxの時系列と記憶装置１２に記憶された参照音の特徴量Ｆrefの時系列とを照合することで実演位置Ｔを推定する。観測音の特徴量Ｆxは、参照音の特徴量Ｆrefと同種の物理量である。第１実施形態ではMFCCを特徴量Ｆxとして例示する。

図４は、位置推定部５１が実演位置Ｔを特定する処理の具体的な手順を例示するフローチャートである。所定の周期で図４の処理が実行される。図４の処理を開始すると、位置推定部５１は、収音装置１３から供給される音響信号Ｘを解析することで、音響信号Ｘのうち現時点を含む所定の期間について特徴量Ｆxの時系列を抽出する（Ｓa1）。特徴量Ｆxの抽出には、短時間フーリエ変換等の公知の解析技術が任意に利用される。

位置推定部５１は、音響信号Ｘから抽出した特徴量Ｆxの時系列と記憶装置１２に記憶された参照音の特徴量Ｆrefの時系列とを相互に照合することで実演位置Ｔを推定する（Ｓa2）。実演位置Ｔの推定には公知の技術が任意に採用される。例えば、位置推定部５１は、特徴量Ｆxと特徴量Ｆrefとの類似度（例えば距離または相関）を算定する演算処理と、観測音と参照音との間の時間的な対応を解析する動的時間伸縮（DTW：Dynamic Time Warping）とにより、参照音のうち観測音の特徴量Ｆxの時系列に対応する期間を探索することで実演位置Ｔを推定する。観測音の所定の期間毎に実演位置Ｔが推定される。

図３の情報特定部５２は、記憶装置１２に記憶された登録データＱを参照することで、複数の識別情報Ｄのうち実演位置Ｔに時間的に対応する識別情報Ｄを特定する。具体的には、登録データＱに登録された複数の単位期間Ｕのうち実演位置Ｔを含む単位期間Ｕ（すなわち、始点の時刻と終点の時刻との間に実演位置Ｔが位置する単位期間Ｕ）を探索し、当該単位期間Ｕに対応する識別情報Ｄを登録データＱから取得する。情報特定部５２による識別情報Ｄの特定は、位置推定部５１による実演位置Ｔの推定毎に反復される。以上の説明から理解される通り、情報特定部５２は、実演者Ｐが発話する台詞に対応する識別情報Ｄを順次に特定する。

信号処理部５３は、情報特定部５２が特定した識別情報Ｄを含む音響信号Ｙを生成する。図３に例示される通り、第１実施形態の信号処理部５３は、変調処理部５３１と合成処理部５３２とを具備する。

変調処理部５３１は、情報特定部５２が特定した識別情報Ｄを音響成分として含む変調信号Ｍを所定の変調処理により生成する。変調信号Ｍは、例えば所定の周波数の搬送波を識別情報Ｄにより周波数変調することで生成される。なお、拡散符号を利用した識別情報Ｄの拡散変調と所定の周波数の搬送波を利用した周波数変換とを順次に実行することで変調信号Ｍを生成してもよい。変調信号Ｍが表す音響の周波数帯域は、放音装置１４による放音と端末装置３０による収音とが可能な周波数帯域であり、かつ、利用者Ａが通常の環境で聴取する音声の周波数帯域を上回る周波数帯域（例えば１８ｋＨｚ以上かつ２０ｋＨｚ以下）に設定される。ただし、変調信号Ｍが表す音響の周波数帯域は任意である。

合成処理部５３２は、収音装置１３が生成した音響信号Ｘと変調処理部５３１が生成した変調信号Ｍとを合成することで音響信号Ｙを生成する。合成処理部５３２は、例えば音響信号Ｘと変調信号Ｍとを加算（例えば加重加算）することで音響信号Ｙを生成する。なお、変調信号Ｍを放音装置１４に供給してもよい。すなわち、合成処理部５３２は省略され得る。

以上の構成および手順により信号処理部５３（合成処理部５３２）が生成した音響信号Ｙが放音装置１４に供給されることで、音響信号Ｙが表す音響が利用者Ａに対して再生される。具体的には、音響信号Ｘが表す観測音と変調信号Ｍが表す識別情報Ｄの音響成分とが放音装置１４から再生される。以上の説明から理解される通り、放音装置１４は、利用者Ａが所在する観客席に対して実演者Ｐによる実演の観測音を放音する音響機器として機能するほか、空気振動としての音波を伝送媒体とする音響通信により識別情報Ｄを送信する送信機としても機能する。すなわち、情報処理システム１０は、前述の通り、実演者Ｐによる実演に並行して、当該実演者Ｐが発音する台詞に対応する関連情報Ｃの識別情報Ｄを端末装置３０に対して順次に送信する。実演者Ｐによる実演の進行に連動して、端末装置３０に送信される識別情報Ｄは順次に更新される。

＜端末装置３０＞
図５は、端末装置３０の構成を例示するブロック図である。図５に例示される通り、端末装置３０は、制御装置３１と記憶装置３２と通信装置３３と収音装置３４と再生装置３５とを具備する。

収音装置３４は、周囲の音響を収音するマイクロホンである。具体的には、収音装置３４は、情報処理システム１０の放音装置１４が再生した音響を収音し、当該音響の波形を表す音響信号Ｚを生成する。音響信号Ｚには、識別情報Ｄを表す音響成分が含まれる。したがって、収音装置３４は、音声通話または動画撮影時の音声収録に利用されるほか、空気振動としての音波を伝送媒体とする音響通信により識別情報Ｄを受信する受信機としても機能する。なお、収音装置３４が生成した音響信号Ｚをアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略した。また、端末装置３０と一体に構成された収音装置３４に代えて、別体の収音装置３４を有線または無線により端末装置３０に接続してもよい。

記憶装置３２は、制御装置３１が実行するプログラムと制御装置３１が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置３２として任意に採用され得る。通信装置３３は、制御装置３１による制御のもとで情報配信システム２０と通信する。

再生装置３５は、関連情報Ｃを再生する出力機器である。第１実施形態の再生装置３５は、関連情報Ｃを表示する表示装置（例えば液晶表示パネル）を含む。すなわち、実演者Ｐが発音する台詞の文字列が関連情報Ｃとして再生装置３５に表示される。したがって、実演者Ｐが発音した音声の聴取が困難である聴覚障碍者が、実演者Ｐによる実演の内容を把握できる。なお、関連情報Ｃの内容を表す音声を放音する放音装置を再生装置３５として利用してもよい。

制御装置３１は、例えばCPU等の処理回路で構成され、端末装置３０の各要素を統括的に制御する。第１実施形態の制御装置３１は、図５に例示される通り、記憶装置３２に記憶されたプログラムを実行することで複数の機能（情報抽出部３１１および動作制御部３１２）を実現する。なお、制御装置３１の一部の機能を専用の電子回路で実現してもよい。また、制御装置３１の機能を複数の装置に搭載してもよい。

情報抽出部３１１は、収音装置３４が生成した音響信号Ｚから識別情報Ｄを抽出する。具体的には、情報抽出部３１１は、例えば、音響信号Ｚのうち識別情報Ｄの音響成分を含む周波数帯域を強調するフィルタ処理と、変調処理部５３１による変調処理に対応した復調処理とにより、音響信号Ｚから識別情報Ｄを抽出する。

動作制御部３１２は、情報配信システム２０から関連情報Ｃを取得し、当該関連情報Ｃを再生装置３５に再生させる。具体的には、動作制御部３１２は、情報抽出部３１１が抽出した識別情報Ｄを含む情報要求Ｒを生成して通信装置３３から情報配信システム２０に送信する。情報要求Ｒの送信は、音響信号Ｚから抽出される識別情報Ｄが変化するたびに（すなわち実演者Ｐが発音する台詞毎に）実行される。また、動作制御部３１２は、情報要求Ｒに応じて情報配信システム２０から送信された関連情報Ｃを通信装置３３により受信し、当該関連情報Ｃを再生装置３５に再生させる。以上の説明から理解される通り、端末装置３０は、情報処理システム１０から受信した識別情報Ｄに対応する関連情報Ｃを再生する。

＜情報配信システム２０＞
図１の情報配信システム２０は、複数の関連情報Ｃを記憶するサーバ装置（例えばウェブサーバ）である。複数の関連情報Ｃ（Ｃ1，Ｃ2，…）の各々には当該関連情報Ｃの識別情報Ｄ（Ｄ1，Ｄ2，…）が対応付けて記憶される。情報配信システム２０は、端末装置３０からの情報要求Ｒに含まれる識別情報Ｄに対応する関連情報Ｃを端末装置３０に送信する。

＜動作＞
図６は、情報処理システム１０および端末装置３０の動作の手順を例示するフローチャートである。実演者Ｐによる実演に並行して図６の処理が例えば所定の周期で反復される。

情報処理システム１０の位置推定部５１は、収音装置１３により実演を収音した観測音と事前に用意された参照音との照合により実演位置Ｔを推定する（Ｓb1）。具体的には、図４を参照して前述した通り、位置推定部５１は、観測音の特徴量Ｆxと参照音の特徴量Ｆrefとを照合することで実演位置Ｔを推定する。

情報特定部５２は、参照音と複数の識別情報Ｄとの時間的な対応を表す登録データＱを参照することで、位置推定部５１が推定した実演位置Ｔに時間的に対応した識別情報Ｄを特定する（Ｓb2）。信号処理部５３は、情報特定部５２が特定した識別情報Ｄを含む音響信号Ｙを生成する（Ｓb3）。信号処理部５３は、音響信号Ｙを放音装置１４に供給することで、識別情報Ｄを音響通信により送信する（Ｓb4）。

端末装置３０の情報抽出部３１１は、放音装置１４による再生音の収音により収音装置３４が生成した音響信号Ｚを取得する（Ｓb5）。情報抽出部３１１は、音響信号Ｚから識別情報Ｄを抽出する（Ｓb6）。動作制御部３１２は、情報抽出部３１１が抽出した識別情報Ｄを含む情報要求Ｒを通信装置３３から情報配信システム２０に送信する（Ｓb7）。情報配信システム２０は、端末装置３０から受信した情報要求Ｒに含まれる識別情報Ｄに対応する関連情報Ｃを要求元の端末装置３０に送信する。

端末装置３０の動作制御部３１２は、情報配信システム２０から送信された関連情報Ｃを通信装置３３により受信し（Ｓb8）、当該関連情報Ｃを再生装置３５に再生させる（Ｓb9）。すなわち、実演者Ｐによる実演に並行した適切な時点で、当該実演において発音される各台詞の字幕が順次に表示される。

以上に説明した通り、第１実施形態においては、観測音と参照音との照合により参照音に対する観測音の実演位置Ｔが推定されるから、参照音との時間的な対応が登録された複数の識別情報Ｄのうち、実演位置Ｔに対応する識別情報Ｄを特定できる。したがって、実演に並行した適切な時点で識別情報Ｄを逐次的に指示する作業を必要とせずに、実演中の適切な時点で識別情報Ｄを特定することが可能である。第１実施形態によれば、観測音の特徴量Ｆxと参照音の特徴量Ｆrefとの照合により実演位置Ｔを適切に推定できるという利点もある。

＜第２実施形態＞
本発明の第２実施形態を説明する。なお、以下の各例示において機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

図７は、第２実施形態における情報処理システム１０の機能的な構成を例示するブロック図である。第２実施形態の記憶装置１２は、第１実施形態と同様の登録データＱを記憶する。また、記憶装置１２は、第１実施形態で例示した参照音の特徴量Ｆrefに代えて、参照音の内容を表す文字列（以下「参照文字列」という）Ｓrefを記憶する。参照音を表す音響信号Ｖに対する音声認識により参照文字列Ｓrefが事前に推定されて記憶装置１２に記憶される。第１実施形態と同様に、音響信号Ｖは、実演者Ｐによる実演で発音される予定の文字列（すなわち台本に記載された台詞）に対する音声合成により生成される。

音響信号Ｖの音声認識には公知の技術が任意に採用される。第２実施形態の参照文字列Ｓrefは、認識モデルを利用した音声認識により推定される。認識モデルは、例えばHMM等の音響モデルと、言語的な制約を示す言語モデルとを含んで構成される。

位置推定部５１は、第１実施形態と同様に、収音装置１３が収音した観測音と事前に用意された参照音との照合により実演位置Ｔを推定する。第２実施形態の位置推定部５１は、観測音に対する音声認識で推定される文字列（以下「観測文字列」という）Ｓxと、記憶装置１２に記憶された参照文字列Ｓrefとを照合することで、実演者Ｐによる実演位置Ｔを推定する。

図８は、第２実施形態の位置推定部５１が実演位置Ｔを特定する処理の具体的な手順を例示するフローチャートである。所定の周期で図８の処理が反復される。図８の処理を開始すると、位置推定部５１は、収音装置１３から供給される音響信号Ｘに対する音声認識で観測文字列Ｓxを推定する（Ｓc1）。音響信号Ｘに対する音声認識は、参照音の音響信号Ｖに対する音声認識と同様の方法で実行される。具体的には、観測音の音響信号Ｘに対する音声認識と参照音の音響信号Ｖに対する音声認識とにおいては、共通の認識モデル（音響モデルおよび言語モデル）が利用される。

位置推定部５１は、音響信号Ｘから推定した観測文字列Ｓxと記憶装置１２に記憶された参照文字列Ｓrefとを相互に照合することで実演位置Ｔを推定する（Ｓc2）。実演位置Ｔの推定には公知の技術が任意に採用される。具体的には、位置推定部５１は、参照文字列Ｓrefを時間軸上で区分した複数の区間の各々と観測文字列Ｓxとの間で類似度を算定し、観測文字列Ｓxとの類似度が最大となる区間に応じて実演位置Ｔを推定する。参照文字列Ｓrefと観測文字列Ｓxとの間の類似度の指標としては、例えば編集距離が好適に利用される。以上に例示した処理により観測音の所定の期間毎に実演位置Ｔが推定される。

実演位置Ｔに応じた識別情報Ｄの特定および識別情報Ｄの送信は、第１実施形態と同様である。また、端末装置３０および情報配信システム２０の動作も第１実施形態と同様である。したがって、第２実施形態においても第１実施形態と同様の効果が実現される。

ところで、例えば狂言または歌舞伎等の伝統的な演芸の実演では、実演者Ｐは古語等の特殊な言葉を発話する。また、特定の地域で実施される演芸では、当該地域に特有の言い回しを含む特殊な言葉を実演者Ｐが発話する。観測音が、以上の例示のような特殊な言葉を発話した音声である場合、現代語等の通常の言葉の認識モデルを利用した音声認識では正確な認識が困難である。したがって、観測音に対する音声認識で推定される観測文字列Ｓxと台本に記載された台詞とを照合する構成では双方の文字列が乖離し、結果的に実演位置Ｔを高精度に推定することができない。以上の構成とは対照的に、第２実施形態では、共通の認識モデル（例えば現代語等の通常の言葉の認識モデル）を利用した音声認識で推定された観測文字列Ｓxと、参照文字列Ｓrefとが照合される。したがって、音声認識の結果の正誤はともかく、音声認識の傾向自体は、観測文字列Ｓxと参照文字列Ｓrefとで同様である。したがって、第２実施形態によれば、観測音が古語等の特殊な言葉を発音した音声である場合でも、実演位置Ｔを高精度に推定できるという利点がある。なお、音声認識の精度が特段の問題とならない場合には、観測音に対する音声認識で推定される観測文字列Ｓxと台本に記載された台詞とを照合してもよい。

なお、第１実施形態では、実演者Ｐが発音する予定の文字列（例えば台本に記載された台詞）に対する音声合成で参照音の音響信号Ｖが生成され、当該参照音の音響信号Ｖから抽出された特徴量Ｆrefと観測音の特徴量Ｆxとが照合される。以上の構成でも、観測音が古語等の特殊な言葉を発音した音声である場合でも実演位置Ｔを高精度に推定できる、という第２実施形態と同様の効果は実現される。

第１実施形態における特徴量Ｆxと特徴量Ｆrefとの照合と、第２実施形態における観測文字列Ｓxと参照文字列Ｓrefとの照合とは、観測音と参照音とを照合する処理の具体例に相当する。なお、観測音と参照音との照合は以上の例示に限定されない。例えば、観測音の音響信号Ｘと参照音の音響信号Ｖとを相互に照合することで実演位置Ｔを推定してもよい。

＜第３実施形態＞
図９は、第３実施形態に係る管理システム２００の構成を例示するブロック図である。第３実施形態の管理システム２００は、実演者Ｐによる実演に関する演出を制御するためのコンピュータシステムであり、情報処理システム１０と舞台システム６０とを具備する。舞台システム６０は、実演者Ｐによる実演に並行して各種の演出を実行する。

情報処理システム１０は、第１実施形態と同様の構成であり、実演者Ｐによる実演に並行して音響通信により識別情報Ｄを順次に送信する。具体的には、情報処理システム１０は、観測音と参照音との照合により実演位置Ｔを推定し、実演位置Ｔに対応する識別情報Ｄを特定および送信する。なお、第２実施形態の構成を第３実施形態の情報処理システム１０に適用してもよい。

第１実施形態の識別情報Ｄが関連情報Ｃを識別する符号であるのに対し、第３実施形態の識別情報Ｄは、舞台システム６０による演出の内容を識別するための符号である。すなわち、第３実施形態の情報処理システム１０は、実演者Ｐによる実演に並行して舞台システム６０に演出の内容を順次に指示する。

図９に例示される通り、舞台システム６０は、管理装置６１と演出装置６２とを具備する。演出装置６２は、舞台上の演出を実行する装置であり、音響装置６２１と照明装置６２２とを具備する。音響装置６２１は、例えば音楽または効果音等の各種の音響を再生する設備である。照明装置６２２は、舞台上を照明する設備である。照明装置６２２による照明の特性（点灯／消灯，光量，発光色）は可変に制御される。

管理装置６１は、情報処理システム１０から音響通信により受信した識別情報Ｄに応じて演出装置６２を制御する。例えば携帯電話機、スマートフォン、タブレット端末、またはパーソナルコンピュータ等の可搬型の情報端末が管理装置６１として利用される。管理装置６１は、複数の識別情報Ｄの各々について演出動作を記憶する。演出動作は、例えば音響装置６２１による各種の音響の再生、または照明装置６２２による照明の制御である。管理装置６１は、情報処理システム１０が再生した音響から識別情報Ｄを抽出し、識別情報Ｄに対応する演出動作を演出装置６２に指示する。したがって、実演者Ｐによる実演に並行して、舞台システム６０による舞台上の演出が順次に制御される。以上の説明から理解される通り、舞台システム６０は、情報処理システム１０から受信した識別情報Ｄに対応する演出動作を実行する。

第３実施形態においても第１実施形態と同様に、観測音と参照音との照合により参照音に対する観測音の実演位置Ｔが推定されるから、参照音との時間的な対応が登録された複数の識別情報Ｄのうち、実演位置Ｔに対応する識別情報Ｄを特定できる。したがって、実演に並行した適切な時点で識別情報Ｄを逐次的に指示する作業を必要とせずに、実演中の適切な時点で識別情報Ｄを特定することが可能である。また、第３実施形態によれば、実演者Ｐによる実演に関する演出を、当該実演に並行した適切な時点で実行することが可能である。

＜第４実施形態＞
第４実施形態の情報処理システム１０は、登録データＱを生成する機能を具備する。図１０は、第４実施形態における制御装置１１が登録データＱを生成するための機能的な構成を例示するブロック図である。図１０に例示される通り、第４実施形態の記憶装置１２は登録文字列Ｗを記憶する。登録文字列Ｗは、実演者Ｐによる発音が予定される文字列である。例えば実演者Ｐによる実演の台本に記載された各台詞の時系列が登録文字列Ｗとして記憶装置１２に事前に記憶される。登録文字列Ｗは、相異なる台詞に対応する複数の区間（以下「登録区間」という）σに区画される。任意の１個の登録区間σは、例えば発話の単位となる一連の台詞の文字列（例えば単数または複数の文）で構成される。以上の説明の通り、登録文字列Ｗは、複数の登録区間σを含んで構成される。

実演者Ｐは、例えば正式な実演のための準備（例えばリハーサル）の段階で実演する。準備の段階で、実演者Ｐは登録文字列Ｗを発音する。第４実施形態の収音装置１３は、実演者Ｐが発音した参照音を収音し、当該参照音の波形を表す音響信号Ｖを生成する。

図１０に例示される通り、第４実施形態の制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで解析処理部５５として機能する。解析処理部５５は、記憶装置１２に記憶された登録文字列Ｗと収音装置１３が収音した参照音とを照合することで登録データＱを生成する。登録データＱは、前述の通り、参照音を時間軸上で区分した複数の単位期間Ｕ（Ｕ1，Ｕ2，…）の各々について識別情報Ｄ（Ｄ1，Ｄ2，…）を指定する。各単位期間Ｕは、参照音のうち登録文字列Ｗの各登録区間σが発音される期間である。すなわち、解析処理部５５は、登録文字列Ｗと参照音とを照合することで、当該参照音を、相異なる登録区間σに対応する複数の単位期間Ｕに時間軸上で区画する。

図１１は、第４実施形態における解析処理部５５が登録データＱを生成する動作の具体的な手順を例示するフローチャートである。登録データＱの生成の指示を契機として図１１の処理が開始される。図１１の処理を開始すると、解析処理部５５は、収音装置１３から供給される音響信号Ｖを解析することで参照音の特徴量Ｆrefの時系列を抽出する（Ｓd1）。

解析処理部５５は、記憶装置１２に記憶された登録文字列Ｗに対する音声合成により、登録文字列Ｗを発話した合成音の波形を表す音響信号（以下「合成信号」という）を生成する（Ｓd2）。合成信号の生成には、例えば前述の素片接続型または統計モデル型の音声合成が好適に利用される。解析処理部５５は、音声合成により生成した合成信号を解析することで合成音の特徴量Ｆsynの時系列を抽出する（Ｓd3）。例えば、登録文字列Ｗの登録区間σ毎に特徴量Ｆsynの時系列が抽出される。合成音の特徴量Ｆsynは、参照音の特徴量Ｆrefと同種の物理量（例えばMFCC）である。なお、参照音の特徴量Ｆrefの抽出（Ｓd1）と合成音の特徴量Ｆsynの抽出（Ｓd2，Ｓd3）との順序を逆転してもよい。以上の説明から理解される通り、第４実施形態の制御装置１１は、登録文字列Ｗに対する音声合成で生成される合成音の特徴量Ｆsynを抽出する要素（特徴抽出部）として機能する。なお、相異なる時期または場所で収録された複数の参照音の特徴量の代表値（例えば平均値）を特徴量Ｆsynとして登録データＱの生成に利用してもよい。また、登録区間σについて合成音から抽出された複数の特徴量の代表値（例えば平均値）を特徴量Ｆsynとして利用してもよい。

解析処理部５５は、参照音の特徴量Ｆrefの時系列と合成音の特徴量Ｆsynの時系列とを相互に照合することで参照音を複数の単位期間Ｕに区画する（Ｓd4）。例えば、登録文字列Ｗの複数の登録区間σの各々について、当該登録区間σにおける特徴量Ｆsynの時系列に類似する特徴量Ｆrefが抽出された参照音の期間が、当該登録区間σに対応する単位期間Ｕとして画定される。すなわち、登録区間σ毎（例えば台詞毎）の単位期間Ｕに参照音が時間軸上で区画される。具体的には、解析処理部５５は、各単位期間Ｕの始点および終点の時刻を特定する。以上の説明から理解される通り、第４実施形態の制御装置１１は、参照音の特徴量Ｆrefと合成音の特徴量Ｆsynとを照合することで、参照音のうち各登録区間σに対応する単位期間Ｕを画定する要素（期間画定部）として機能する。

以上の手順で参照音を複数の単位期間Ｕに区画すると、解析処理部５５は、複数の単位期間Ｕの各々について識別情報Ｄを対応付けた登録データＱを生成する（Ｓd5）。具体的には、解析処理部５５は、参照音の複数の単位期間Ｕの各々に対して相互に重複しない識別情報Ｄを割当て、単位期間Ｕの始点および終点の時刻と識別情報Ｄとを対応させた登録データＱを生成する。

解析処理部５５は、以上の手順で生成した登録データＱと、参照音から抽出（Ｓd1）された特徴量Ｆrefの時系列とを、記憶装置１２に記憶する（Ｓd6）。第１実施形態において例示した通り、特徴量Ｆrefの時系列は、位置推定部５１による実演位置Ｔの推定に利用され、登録データＱは、情報特定部５２による識別情報Ｄの特定に利用される。

第４実施形態によれば、実演者Ｐによる実演に並行して端末装置３０に複数の識別情報Ｄの各々を順次に送信するために利用される登録データＱを、登録文字列Ｗから簡便に生成できるという利点がある。なお、第４実施形態は、第１実施形態で使用される登録データＱのほか、第２実施形態または第３実施形態で使用される登録データＱの生成にも同様に適用される。図１１の例示では、登録データＱとともに参照音の特徴量Ｆrefを記憶装置１２に記憶したが（Ｓd6）、第２実施形態では、例えば、登録データＱの生成に利用された登録文字列Ｗが参照文字列Ｓrefとして記憶装置１２に記憶される。

＜第５実施形態＞
第５実施形態は、第４実施形態と同様に、登録データＱを生成するための形態である。第５実施形態における情報処理システム１０の制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、図１０の例示と同様に、登録文字列Ｗと参照音との照合により登録データＱを生成する解析処理部５５として機能する。

図１２は、第５実施形態の解析処理部５５が登録データＱを生成する動作の具体的な手順を例示するフローチャートである。登録データＱの生成の指示を契機として図１２の処理が開始される。図１２の処理を開始すると、解析処理部５５は、収音装置１３から供給される参照音の音響信号Ｖに対する音声認識で参照文字列Ｓrefを推定する（Ｓe1）。参照文字列Ｓrefは、音響モデルと言語モデルとを含む認識モデルを利用した公知の音声認識により推定される。

解析処理部５５は、記憶装置１２に記憶された登録文字列Ｗに対する音声合成により、登録文字列Ｗを発話した合成音の波形を表す合成信号を生成する（Ｓe2）。合成信号の生成には、例えば前述の素片接続型または統計モデル型の音声合成が好適に利用される。

解析処理部５５は、音声合成後の合成信号に対する音声認識により、合成音の発話内容を表す文字列（以下「合成文字列」という）Ｗsynを生成する（Ｓe3）。登録文字列Ｗの登録区間σ毎に合成文字列Ｗsynが推定される。合成音の音声認識（Ｓe3）と参照音の音声認識（Ｓe1）とにおいては共通の認識モデルが利用される。以上の説明から理解される通り、第５実施形態の制御装置１１は、登録文字列Ｗに対する音声合成で生成される合成音に対する音声認識で合成文字列Ｗsynを推定する要素（音声認識部）として機能する。合成文字列Ｗsynは、登録文字列Ｗから生成された合成音に対する音声認識の結果であるから、理想的には登録文字列Ｗに一致または類似する。ただし、音声認識における誤認識等の要因により、合成文字列Ｗsynと登録文字列Ｗとは完全には一致しない。実演者Ｐが古語等の特殊な言葉を発話した場合には、合成文字列Ｗsynと登録文字列Ｗとの差異が特に顕著となる。なお、参照文字列Ｓrefの生成（Ｓe1）と合成文字列Ｗsynの生成（Ｓe2，Ｓe3）との順序を逆転してもよい。

解析処理部５５は、参照文字列Ｓrefと合成文字列Ｗsynとを相互に照合することで参照音を複数の単位期間Ｕに区画する（Ｓe4）。例えば、登録文字列Ｗの複数の登録区間σの各々について、当該登録区間σにおける合成文字列Ｗsynに類似する参照文字列Ｓrefが推定された参照音の期間が、当該登録区間σに対応する単位期間Ｕとして画定される。すなわち、第４実施形態と同様に、登録区間σ毎（例えば台詞毎）の単位期間Ｕに参照音が時間軸上で区画される。以上の説明から理解される通り、第５実施形態の制御装置１１は、参照文字列Ｓrefと合成文字列Ｗsynとを照合することで、参照音のうち各登録区間σに対応する単位期間Ｕを画定する要素（期間画定部）として機能する。

以上の手順で参照音を複数の単位期間Ｕに区画すると、解析処理部５５は、第４実施形態と同様の手順により、複数の単位期間Ｕの各々について識別情報Ｄを対応付けた登録データＱを生成する（Ｓe5）。そして、解析処理部５５は、以上の手順で生成した登録データＱと、参照音から別途の処理で抽出された特徴量Ｆrefの時系列とを、記憶装置１２に記憶する（Ｓe6）。

参照音が古語等の特殊な言葉の発話音声である場合、現代語等の通常の言葉の認識モデルを利用した音声認識では正確な認識が困難である。実演者Ｐは登録文字列Ｗを発音するが、以上の事情により、参照音に対する音声認識で推定される参照文字列Ｓrefと、実演での発音が予定される登録文字列Ｗとは乖離する可能性がある。したがって、参照文字列Ｓrefと登録文字列Ｗとの照合により各単位期間Ｕを区画する構成では、参照音を登録区間σ毎の単位期間Ｕに高精度に区画することが困難である。以上の構成とは対照的に、第５実施形態では、共通の認識モデル（例えば現代語等の通常の言葉の認識モデル）を利用した音声認識により推定された参照文字列Ｓrefと合成文字列Ｗsynとが照合される。したがって、参照音が古語等の特殊な言葉の発話音声である場合でも、参照音を、登録区間σ毎の単位期間Ｕに高精度に区画することが可能である。

なお、第５実施形態は、第１実施形態で使用される登録データＱのほか、第２実施形態または第３実施形態で使用される登録データＱの生成にも同様に適用される。図１２の例示では、登録データＱとともに参照音の特徴量Ｆrefを記憶装置１２に記憶したが（Ｓe6）、第２実施形態では、参照音から推定（Ｓe1）された参照文字列Ｓrefが記憶装置１２に記憶される。

第４実施形態および第５実施形態では、端末装置３０に識別情報Ｄを送信する情報処理システム１０が登録データＱを生成する構成を想定したが、識別情報Ｄを送信する情報処理システム１０とは別個の情報処理システムにより登録データＱを生成してもよい。

＜変形例＞
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態では参照音の音響信号Ｖを音声合成により生成したが、音響信号Ｖを生成する方法は以上の例示に限定されない。例えば、過去の実演において収録された複数の収録音から参照音の音響信号Ｖを生成してもよい。例えば、共通の演目を相異なる実演にて収録した収録音を表す複数の音響信号を合成することで参照音の音響信号Ｖが生成される。以上の手順で生成された参照音の音響信号Ｖから抽出された特徴量Ｆrefの時系列（第２実施形態では参照文字列Ｓref）と、当該音響信号Ｖから生成された登録データＱとが、情報処理システム１０の記憶装置１２に記憶される。

また、複数の収録音から抽出された特徴量の代表値（例えば平均）を参照音の特徴量Ｆrefとして算定してもよい。以上の例示のように過去の実演において収録された複数の収録音から参照音（例えば音響信号Ｖまたは特徴量Ｆref）を生成する構成によれば、過去の実演における収録音の傾向を反映した参照音を生成することが可能である。なお、「過去の実演」には、舞台上での正式な実演のほか、正式な実演のための準備的な実演（例えばリハーサルでの実演）も含まれる。

（２）第１実施形態では、情報配信システム２０から受信した関連情報Ｃを端末装置３０が再生したが、端末装置３０の記憶装置３２に記憶された関連情報Ｃを再生してもよい。例えば、端末装置３０の記憶装置３２は、複数の関連情報Ｃの各々を識別情報Ｄと対応付けて記憶する。動作制御部３１２は、情報抽出部３１１が抽出した識別情報Ｄに対応する関連情報Ｃを記憶装置３２から取得して再生装置３５に再生させる。以上の構成によれば、通信網４０を介した通信を必要とせずに端末装置３０が関連情報Ｃを取得できるという利点がある。他方、第１実施形態のように端末装置３０が情報配信システム２０から関連情報Ｃを受信する構成によれば、複数の関連情報Ｃを端末装置３０の記憶装置３２に保持する必要がないという利点がある。なお、前述の各形態では、端末装置３０から送信された情報要求Ｒの受信毎に情報処理システム１０から端末装置３０に関連情報Ｃを送信したが、事前に登録された端末装置３０に対して、情報要求Ｒの受信を必要とせずに情報処理システム１０から関連情報Ｃを送信（プッシュ配信）してもよい。

（３）第１実施形態および第２実施形態では、実演者Ｐが発音する台詞の文字列を関連情報Ｃとして端末装置３０に提供したが、関連情報Ｃの内容は以上の例示に限定されない。例えば、実演者Ｐが発音する台詞を特定の言語に翻訳した文字列を関連情報Ｃとして端末装置３０に提供してもよい。以上の構成によれば、例えば実演者Ｐが発音する台詞の言語を理解できない外国人でも、端末装置３０が再生する関連情報Ｃを視認することで台詞の内容を把握できる。なお、実演者Ｐが発音する古語または独特の言い回しを標準的な表現（例えば現代語または標準語）に変換した文字列を関連情報Ｃとして端末装置３０に提供してもよい。また、実演者Ｐによる実演に関する解説、または当該実演を解説するサイトの所在を表す情報（例えばＵＲＬ）を、関連情報Ｃとして端末装置３０に提供してもよい。

（４）位置推定部５１による観測音と参照音との照合の結果（以下「照合結果」という）を情報処理システム１０が具備する表示装置に表示してもよい。照合結果は、例えば実演位置Ｔの時間的な変化である。照合結果は、例えば観測音と参照音との照合に並行して実時間的に表示される。情報処理システム１０の管理者は、表示装置の表示を確認することで照合結果の適否を判断し、照合結果が不適切である場合（例えば実演位置Ｔが誤推定された場合）には、照合結果（例えば実演位置Ｔ）を手動で修正する。

（５）前述の各形態では、特徴量Ｆxおよび特徴量ＦrefとしてMFCCを例示したが、特徴量Ｆxおよび特徴量Ｆrefの種類は以上の例示に限定されない。例えば周波数スペクトルやスペクトログラム等の周波数特性を特徴量Ｆxおよび特徴量Ｆrefとして実演位置Ｔの推定に利用してもよい。

（６）前述の各形態では、識別情報Ｄを音響通信により端末装置３０に送信したが、識別情報Ｄを送信するための通信方式は音響通信に限定されない。例えば、電波または赤外線等の電磁波を伝送媒体とした無線通信で識別情報Ｄを端末装置３０に送信してもよい。電磁波を伝送媒体とした通信と前述の各形態で例示した音響通信とは、移動体通信網等の通信網４０が介在しない近距離無線通信として包括的に表現される。

（７）前述の各形態に係る情報処理システム１０の機能は、各形態での例示の通り、制御装置１１等の処理回路とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。

＜付記＞
以上に例示した形態から、例えば以下の構成が把握される。

本発明の好適な態様（第１態様）に係る情報処理方法は、収音装置により実演を収音した観測音と前記実演での発音が予定される参照音との照合により、前記参照音に対する前記観測音の時間軸上の位置である実演位置を推定し、前記参照音と複数の識別情報との時間的な対応を表す登録データを参照することで、前記複数の識別情報のうち前記実演位置に時間的に対応する識別情報を特定する。以上の態様によれば、収音装置により実演を収音した観測音と事前に用意された参照音との照合により参照音に対する観測音の実演位置が推定されるから、参照音との時間的な対応が登録された複数の識別情報のうち、実演位置に時間的に対応する識別情報を特定できる。したがって、実演に並行した適切な時点で識別情報を逐次的に指示する作業を必要とせずに、実演中の適切な時点で識別情報を特定することが可能である。なお、「観測音」は、典型的には発話音声（台詞を発音した音声等の言語音）であるが、楽器の演奏音等も含まれる。

第１態様の好適例（第２態様）において、前記参照音は、前記実演での発音が予定される文字列に対する音声合成で生成される。以上の態様によれば、観測音との照合に利用される参照音を、実演での発音が予定される文字列（例えば台本）から簡便に用意できるという利点がある。

第１態様の好適例（第３態様）において、前記参照音は、過去の実演において収録された複数の収録音から生成される。以上の態様によれば、実際の実演で発音された収録音の傾向を反映した参照音を生成することが可能である。

第１態様から第３態様の何れかの好適例（第４態様）において、前記実演位置の推定では、前記観測音に対する音声認識で推定される観測文字列と、前記参照音に対する音声認識で推定される参照文字列とを照合することで、前記実演位置を推定し、前記観測音に対する音声認識と前記参照音に対する音声認識とにおいては共通の認識モデルが利用される。例えば観測音が古語等の特殊な言葉の発話音声である場合、現代語等の通常の言葉の認識モデル（例えば音響モデルおよび言語モデル）を利用した音声認識では正確な認識が困難である。したがって、観測音に対する音声認識で推定される観測文字列と、実演での発音が予定される文字列とを照合する構成では双方が乖離し、結果的に実演位置を高精度に推定することができない。共通の認識モデル（例えば現代語等の通常の言葉の認識モデル）を利用した音声認識により推定された観測文字列と参照文字列とを照合する前述の態様によれば、観測音が古語等の特殊な言葉の発話音声である場合でも、実演位置を高精度に推定することが可能である。

第１態様から第３態様の何れかの好適例（第５態様）において、前記実演位置の推定では、前記観測音から抽出される特徴量と前記参照音の特徴量とを照合することで前記実演位置を推定する。以上の態様によれば、観測音の特徴量と参照音の特徴量との照合により実演位置を適切に推定することが可能である。実演位置の推定に好適な特徴量は、例えばMFCCである。

第１態様から第５態様の何れかの好適例（第６態様）において、前記実演に関する複数の関連情報のうち受信した識別情報に対応する関連情報を再生する端末装置に対して、前記特定した識別情報を送信する。以上の態様によれば、実演に関する複数の関連情報の各々を、当該実演に並行した適切な時点で端末装置において再生することが可能である。

第１態様から第５態様の何れかの好適例（第７態様）において、受信した識別情報に対応する演出動作を実行する舞台システムに対して、前記特定した識別情報を送信する。以上の態様によれば、実演に関する演出を、当該実演に並行した適切な時点で実行することが可能である。演出は、例えば、音響の再生または照明の制御等である。

第１態様から第７態様の何れかに係る情報処理方法を実行する情報提供システム、または、第１態様から第７態様の何れかに係る情報処理方法をコンピュータに実行させるプログラムとしても、本発明の好適な態様は実現される。

＜他の態様＞
本発明は、態様Ａおよび態様Ｂとして以下に例示する通り、複数の登録区間を含む登録文字列と参照音とを照合することで、前記参照音のうち前記各登録区間に対応する単位期間を画定する方法としても特定される。

本発明の態様Ａは、登録文字列に対する音声合成で生成される合成音の特徴量を抽出し、参照音の特徴量と合成音の特徴量とを照合することで、参照音のうち各登録区間に対応する単位期間を画定する、コンピュータにより実現される情報処理方法である。

本発明の態様Ｂは、登録文字列に対する音声合成で生成される合成音に対する音声認識で合成文字列を推定し、参照音に対する音声認識で推定された参照文字列と合成文字列とを照合することで、参照音のうち各登録区間に対応する単位期間を画定する、コンピュータにより実現される情報処理方法であり、前記参照音に対する音声認識と前記合成音に対する音声認識とにおいては共通の認識モデルが利用される。

１００…情報提供システム、２００…管理システム、１０…情報処理システム、１１…制御装置、１２…記憶装置、１３…収音装置、１４…放音装置、２０…情報配信システム、３０…端末装置、３１…制御装置、３１１…情報抽出部、３１２…動作制御部、３２…記憶装置、３３…通信装置、３４…収音装置、３５…再生装置、４０…通信網、５１…位置推定部、５２…情報特定部、５３…信号処理部、５３１…変調処理部、５３２…合成処理部、５５…解析処理部、６０…舞台システム、６１…管理装置、６２…演出装置、６２１…音響装置、６２２…照明装置。

Claims

収音装置により実演を収音した観測音と前記実演での発音が予定される参照音との照合により、前記参照音に対する前記観測音の時間軸上の位置である実演位置を推定し、
前記参照音と複数の識別情報との時間的な対応を表す登録データを参照することで、前記複数の識別情報のうち前記実演位置に時間的に対応する識別情報を特定する
コンピュータにより実現される情報処理方法。
前記参照音は、前記実演での発音が予定される文字列に対する音声合成で生成される
請求項１の情報処理方法。
前記参照音は、過去の実演において収録された複数の収録音から生成される
請求項１の情報処理方法。
前記実演位置の推定においては、前記観測音に対する音声認識で推定される観測文字列と、前記参照音に対する音声認識で推定される参照文字列とを照合することで、前記実演位置を推定し、
前記観測音に対する音声認識と前記参照音に対する音声認識とにおいては共通の認識モデルが利用される
請求項１から請求項３の何れかの情報処理方法。
前記実演位置の推定においては、前記観測音から抽出される特徴量と前記参照音の特徴量とを照合することで前記実演位置を推定する
請求項１から請求項３の何れかの情報処理方法。
前記実演に関する複数の関連情報のうち受信した識別情報に対応する関連情報を再生する端末装置に対して、前記特定した識別情報を送信する
請求項１から請求項５の何れかの情報処理方法。
受信した識別情報に対応する演出動作を実行する舞台システムに対して、前記特定した識別情報を送信する
請求項１から請求項５の何れかの情報処理方法。
収音装置により実演を収音した観測音と前記実演での発音が予定される参照音との照合により、前記参照音に対する前記観測音の時間軸上の位置である実演位置を推定する位置推定部と、
前記参照音と複数の識別情報との時間的な対応を表す登録データを参照することで、前記複数の識別情報のうち前記実演位置に時間的に対応する識別情報を特定する情報特定部と
を具備する情報処理システム。