JP6809177B2

JP6809177B2 - 情報処理システムおよび情報処理方法

Info

Publication number: JP6809177B2
Application number: JP2016235267A
Authority: JP
Inventors: 優樹瀬戸; 陽前澤; 貴裕岩田
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2016-12-02
Filing date: 2016-12-02
Publication date: 2021-01-06
Anticipated expiration: 2036-12-02
Also published as: JP2018091998A

Description

本発明は、端末装置に情報を提供する技術に関する。

演劇や演奏等の各種の興行の実演に関する情報を、興行の進行に並行して利用者の端末装置に提供する技術が従来から提案されている。例えば特許文献１には、興行の進行に並行して利用者の携帯デバイスに順次に時間コードを送信し、時間コードから特定される時点で字幕等の解説用の情報を携帯デバイスに表示させる構成が開示されている。

特開２００９−２１３１８０号公報

しかし、特許文献１の技術のもとで字幕等の解説用の情報を携帯デバイスに表示させるためには、解説用の情報と時間コードとの対応関係を事前に決定する必要があり、この対応関係を決定する作業の負荷が大きいという問題がある。以上の事情を考慮して、本発明は、時系列に発音される複数の文字列に関する情報を利用者に提供するための作業の負荷を軽減することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る情報処理システムは、複数の文字列を表す文字列情報と、前記複数の文字列を順次に発音した音を表す音響信号とを解析することで、前記複数の文字列の各々について、当該文字列が発音される時間軸上の時点を示す時間情報を生成する時間解析部と、前記複数の文字列の各々について、当該文字列に関連する関連情報を示す配信情報と、当該文字列について前記時間解析部が生成した時間情報とを対応させる情報対応部とを具備する。
また、本発明の好適な態様に係る情報処理方法は、コンピュータシステムが、複数の文字列を表す文字列情報と、前記複数の文字列を順次に発音した音を表す音響信号とを解析することで、前記複数の文字列の各々について、当該文字列が発音される時間軸上の時点を示す時間情報を生成し、前記複数の文字列の各々について、当該文字列に関連する関連情報を示す配信情報と、当該文字列について生成した時間情報とを対応させる。

本発明の第１実施形態に係る情報提供システムの構成図である。情報配信システムの構成図である。音響信号および変調信号の説明図である。参照テーブルの模式図である。情報配信システムの動作のフローチャートである。端末装置の構成図である。参照テーブルの模式図である。端末装置の動作のフローチャートである。情報処理システムの構成図である。文字列情報の模式図である。情報処理システムの動作のフローチャートである。第２実施形態における情報処理システムの構成図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る情報提供システム１００の構成図である。情報提供システム１００は、各種の興行（例えば演劇，演奏または映画等）に関する情報をその進行に並行して利用者に提供するためのコンピュータシステムである。図１に例示される通り、第１実施形態の情報提供システム１００は、情報配信システム１０と情報処理システム２０とを具備する。情報配信システム１０は、各種の興行が開催される劇場またはホール等の施設に設置される。施設に来場した利用者は端末装置３０を携帯する。端末装置３０は、例えば携帯電話機またはスマートフォン等の可搬型の情報端末である。なお、実際には複数の端末装置３０が施設内に存在するが、以下の説明では便宜的に任意の１個の端末装置３０に着目する。

第１実施形態では、事前に決定された複数の文字列（以下「発音文字列」という）が所定の順番で時系列に発音されるショー（例えばキャラクターショー）が施設内で開催される場合を想定する。すなわち、第１実施形態の発音文字列は、例えばショーの進行に並行して随時に発音される台詞，歌詞または解説（ナレーション）である。利用者は、端末装置３０を携帯した状態でショーを鑑賞する。端末装置３０は、時系列に発音される複数の発音文字列の各々に関連する情報（以下「関連情報」という）をショーの進行に並行して順次に表示する。第１実施形態では、発音文字列の翻訳文を関連情報として端末装置３０に表示する場合を例示する。例えば、各発音文字列が日本語で発音される一方、発音文字列に対応する英語の翻訳文が関連情報として表示される。以上の構成によれば、端末装置３０が順次に表示する関連情報をショーの鑑賞に並行して随時に確認することで、例えば発音文字列の言語の理解が困難である外国人がショーの内容を把握できるという利点がある。

＜情報配信システム１０＞
図２は、情報配信システム１０の構成図である。図２に例示される通り、情報配信システム１０は、制御装置１２と記憶装置１４と放音装置１６とを具備するコンピュータシステムで実現される。制御装置１２は、例えばＣＰＵ（Central Processing Unit）を含む処理回路であり、情報配信システム１０の全体を統括的に制御する。記憶装置１４は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せで構成され、制御装置１２が実行するプログラムと制御装置１２が使用する各種のデータとを記憶する。第１実施形態の記憶装置１４は、音響信号Ｘと参照テーブルＱaとを記憶する。

音響信号Ｘは、複数の発音文字列を順次に発音した音声を表す時間領域の信号である。図３は、音響信号Ｘの説明図である。図３に例示される通り、第１実施形態の音響信号Ｘは、相異なる複数の発音文字列Ｌn（Ｌ1，Ｌ2，Ｌ3，…）の各々について発音期間Ａn（Ａ1，Ａ2，Ａ3，…）を包含する（ｎは自然数）。任意の１個の発音文字列Ｌnに対応する発音期間Ａnは、当該発音文字列Ｌnが発音された時間軸上の期間である。各発音期間Ａnの時間長は、発音文字列Ｌnの長短に応じた可変長である。音響信号Ｘは、声優等の発声者が発音した音声の収録または公知の音声合成処理で事前に生成される。アニメキャラクター等の出演者が演技するショーに並行して音響信号Ｘが表す音声を再生することで、各出演者が恰も実際に発音しているような演出が実現される。

図４は、参照テーブルＱaの説明図である。図４に例示される通り、参照テーブルＱaは、複数の発音文字列Ｌnの各々について、当該発音文字列Ｌnの関連情報Ｃnを示す配信情報Ｄn（Ｄ1，Ｄ2，Ｄ3，…）と、音響信号Ｘにおいて当該発音文字列Ｌnが発音される時間軸上の時点を示す時間情報Ｔn（Ｔ1，Ｔ2，Ｔ3，…）とを対応させたデータテーブルである。第１実施形態において任意の１個の関連情報Ｃnに対応する配信情報Ｄnは、当該関連情報Ｃnを識別するための識別情報である。発音文字列Ｌnと関連情報Ｃnとは相互に対応するから、第１実施形態の配信情報Ｄnは、発音文字列Ｌnを識別するための情報とも換言され得る。また、任意の１個の発音文字列Ｌnに対応する時間情報Ｔnは、音響信号Ｘにおいて当該発音文字列Ｌnが発音される時点（例えば発音期間Ａnの始点）を指定する。例えば、所定の時点（以下「基準時点」という）を基準として発音文字列Ｌnの発音が開始される時点までの経過時間が時間情報Ｔnにより指定される。音響信号Ｘが表す音声の再生をショーの開始と同時に開始する場合を想定すると、基準時点は、音響信号Ｘの始点（すなわちショーの開始の時点）である。なお、発音文字列Ｌnが発音される時間軸上の各時点の時間間隔を時間情報Ｔnが表す構成も採用され得る。

図２の制御装置１２は、記憶装置１４に記憶されたプログラムを実行することで、複数の関連情報Ｃnを端末装置３０に順次に表示させるための複数の機能（情報管理部４２および信号処理部４４）を実現する。なお、制御装置１２の機能を複数の装置に分散した構成、または、制御装置１２の機能の一部を専用の電子回路が実現する構成も採用され得る。

情報管理部４２は、相異なる発音文字列Ｌnに対応する複数の配信情報Ｄnの各々をショーの進行に並行して順次に選択する。各配信情報Ｄnの選択には参照テーブルＱaが使用される。具体的には、情報管理部４２は、参照テーブルＱa内の任意の１個の時間情報Ｔnが指定する時点が到来すると、参照テーブルＱa内で当該時間情報Ｔnに対応する配信情報Ｄnを選択する。例えば図４の例示を想定すると、時間情報Ｔ1が示す時点が到来すると配信情報Ｄ1が選択され、時間情報Ｔ2が示す時点が到来すると配信情報Ｄ2が選択される。すなわち、時間情報Ｔnが指定する時点（例えば音響信号Ｘにおける発音期間Ａnの始点）の到来毎に、当該時間情報Ｔnに対応する配信情報Ｄnが選択される。

信号処理部４４は、情報管理部４２が選択した配信情報Ｄnを音響成分として含む音響信号Ｚを生成する。具体的には、第１実施形態の信号処理部４４は、変調処理部４４１と信号合成部４４２とを含んで構成される。変調処理部４４１は、情報管理部４２が選択した配信情報Ｄnを示す音響成分を表す変調信号Ｙを生成する。具体的には、変調処理部４４１は、例えば所定の周波数の正弦波等の搬送波を配信情報Ｄnにより変調する周波数変調、または、拡散符号を利用した配信情報Ｄnの拡散変調等の変調処理により変調信号Ｙを生成する。配信情報Ｄnは、所定の周波数帯域の音響成分として変調信号Ｙに含有される。具体的には、配信情報Ｄnの音響成分の周波数帯域は、利用者が通常の環境で聴取する音声または楽音等の音の周波数帯域を上回る範囲（例えば１８ｋＨｚ以上かつ２０ｋＨｚ以下）に包含される。

図３に例示される通り、任意の１個の配信情報Ｄnの音響成分は、変調信号Ｙのうち当該配信情報Ｄnに対応する時間情報Ｔnが指定する時点に応じた単位期間Ｕn内に含有される。図３では、時間情報Ｔnが指定する時点を起点とする所定長の期間を単位期間Ｕnとして例示した。前述の通り、時間情報Ｔnは、音響信号Ｘにおいて発音文字列Ｌnが発音される時点を指定する。したがって、音響信号Ｘのうち任意の１個の発音文字列Ｌnが発音される発音期間Ａnと、変調信号Ｙのうち当該発音文字列Ｌnに対応する配信情報Ｄnの音響成分を含む単位期間Ｕnとは時間軸上で相互に重複する。なお、１個の単位期間Ｕn内に複数回にわたり配信情報Ｄnの音響成分を含めることも可能である。また、時間情報Ｔnが示す時点（発音期間Ａnの始点）の手前の時点から配信情報Ｄnを音響成分を発生することも可能である。

図２の信号合成部４４２は、記憶装置１４に記憶された音響信号Ｘと変調処理部４４１が生成した変調信号Ｙとを合成することで音響信号Ｚを生成する。具体的には、信号合成部４４２は、音響信号Ｘと変調信号Ｙとを時間領域で加算することで音響信号Ｚを生成する。信号合成部４４２が生成した音響信号Ｚは放音装置１６に供給される。なお、音響信号Ｚをデジタルからアナログに変換するＤ/Ａ変換器、および、音響信号Ｚを増幅する増幅器の図示は便宜的に省略した。

図２の放音装置１６は、例えば施設内に設置されたスピーカ装置であり、信号処理部４４（信号合成部４４２）が生成した音響信号Ｚが表す音を施設内に再生する。したがって、音響信号Ｘの各発音期間Ａnでは発音文字列Ｌnの発声音が再生され、変調信号Ｙの各単位期間Ｕnでは配信情報Ｄnの音響成分が再生される。すなわち、音響信号Ｘが表す発音文字列Ｌnの発声音とともに配信情報Ｄnの音響成分が再生される。以上の説明から理解される通り、第１実施形態の放音装置１６は、発音文字列Ｌnの発声音を再生する音響機器として機能するほか、空気振動としての音波を伝送媒体とする音響通信で配信情報Ｄnを周囲に送信する送信機としても機能する。すなわち、複数の発音文字列Ｌnの各々の発声音を各出演者の演技に並行して放音装置１６から順次に再生することでショーが構成される一方、各発音文字列Ｌnを発音した音声の再生毎に、当該発音文字列Ｌnに対応する配信情報Ｄnが音響通信により端末装置３０に送信される。

図５は、情報配信システム１０の動作を例示するフローチャートである。例えばショーの運営者からの指示を契機としてショーの開始とともに図５の処理が開始される。記憶装置１４に記憶された音響信号Ｘを先頭から順次に取得して信号処理部４４に供給する動作に並行して、図５の処理が実行される。

情報管理部４２は、参照テーブルＱa内の複数の時間情報Ｔnのうち未選択の最先の時間情報Ｔnで指定される時点が到来するまで待機する（Ｓa1：NO）。時間情報Ｔnで指定される時点が到来すると（Ｓa1：YES）、情報管理部４２は、参照テーブルＱa内で当該時間情報Ｔnに対応する配信情報Ｄnを選択する（Ｓa2）。

変調処理部４４１は、情報管理部４２が選択した配信情報Ｄnの音響成分を表す変調信号Ｙを生成する（Ｓa3）。信号合成部４４２は、変調処理部４４１が生成した変調信号Ｙを音響信号Ｘに合成することで音響信号Ｚを生成して放音装置１６に供給する（Ｓa4）。すなわち、発音文字列Ｌnの発声音の再生とともに配信情報Ｄnが音響通信により放音装置１６から送信される。参照テーブルＱaに登録された全部の配信情報Ｄnの送信が完了するまで（Ｓa5：NO）、情報管理部４２による配信情報Ｄnの選択（Ｓa1，Ｓa2）と、発音文字列Ｌnの再生および当該配信情報Ｄnの送信（Ｓa3，Ｓa4）とが、発音文字列Ｌn毎に順次に反復される。全部の配信情報Ｄnの送信が完了すると（Ｓa5：YES）、図５の処理が終了する。

＜端末装置３０＞
図６は、端末装置３０の構成図である。図６に例示される通り、端末装置３０は、制御装置３２と記憶装置３４と収音装置３６と表示装置３８とを具備する。制御装置３２は、例えばＣＰＵを含む処理回路であり、端末装置３０の全体を統括的に制御する。記憶装置３４は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体、あるいは複数種の記録媒体の組合せで構成され、制御装置３２が実行するプログラムと制御装置３２が使用する各種のデータとを記憶する。

第１実施形態の記憶装置３４は、図７に例示される参照テーブルＱbを記憶する。例えば、移動体通信網またはインターネット等の通信網を介して端末装置３０が情報配信サーバ（図示略）から受信した参照テーブルＱbが記憶装置３４に記憶される。図７に例示される通り、参照テーブルＱbは、ショーで発音される複数の発音文字列Ｌnの各々について配信情報Ｄn（Ｄ1，Ｄ2，Ｄ3，…）と関連情報Ｃn（Ｃ1，Ｃ2，Ｃ3，…）とを対応させたデータテーブルである。第１実施形態における関連情報Ｃnは、前述の通り、発音文字列Ｌnの翻訳文を表すテキストデータである。

図６の収音装置３６（マイクロホン）は、周囲の音を収音して音響信号Ｖを生成する音響機器である。具体的には、収音装置３６は、情報配信システム１０の放音装置１６による再生音（すなわち発音文字列Ｌnの発声音と配信情報Ｄnの音響成分との混合音）を表す音響信号Ｖを生成する。なお、収音装置３６が生成した音響信号Ｖをアナログからデジタルに変換するＡ/Ｄ変換器、および、音響信号Ｖを増幅する増幅器（マイクアンプ）の図示は便宜的に省略した。表示装置３８（例えば液晶表示パネル）は、制御装置３２による制御のもとで関連情報Ｃnを表示する。なお、収音装置３６および表示装置３８の一方または双方を、端末装置３０とは別体で構成して端末装置３０に接続することも可能である。

制御装置３２は、記憶装置３４に記憶されたプログラムを実行することで、図６に例示される通り、関連情報Ｃnを利用者に提供するための複数の機能（情報抽出部５２および再生制御部５４）を実現する。なお、制御装置３２の機能を複数の装置に分散した構成、または、制御装置３２の機能の一部を専用の電子回路が実現する構成も採用され得る。

情報抽出部５２は、収音装置３６が生成した音響信号Ｖから配信情報Ｄnを順次に抽出する。具体的には、情報抽出部５２は、音響信号Ｖのうち配信情報Ｄnの音響成分を含む周波数帯域を例えば帯域通過フィルタで強調し、変調信号Ｙの生成時の変調処理に対応する復調処理を強調後の音響信号Ｖに対して実行することで配信情報Ｄnを抽出する。各発音文字列Ｌnの発声音を放音装置１６が再生するたびに、当該発音文字列Ｌnに対応する配信情報Ｄnが抽出される。以上の説明から理解される通り、第１実施形態の収音装置３６は、端末装置３０の相互間の音声通話や動画撮影時の音声収録に利用されるほか、音響通信による配信情報Ｄnの受信に利用される。すなわち、収音装置３６および情報抽出部５２は、図６に例示される通り、各発音文字列Ｌnの発声音の再生に並行して順次に送信される配信情報Ｄnを音響通信により受信する音響通信部５６として機能する。

再生制御部５４は、複数の発音文字列Ｌnの各々の関連情報Ｃn（すなわち発音文字列Ｌnの翻訳文）を表示装置３８に順次に表示させる。具体的には、再生制御部５４は、情報抽出部５２が配信情報Ｄnを抽出するたびに、参照テーブルＱbに登録された複数の関連情報Ｃnのうち当該配信情報Ｄnに対応する関連情報Ｃnを選択して表示装置３８に表示させる。したがって、複数の発音文字列Ｌnの各々の発声音を放音装置１６が再生するたびに、当該発音文字列Ｌnに対応する関連情報Ｃnが表示装置３８に順次に表示される。すなわち、各出演者の演技に同期した各発音文字列Ｌnの再生に並行して当該発音文字列Ｌnの関連情報Ｃnが順次に表示される。

図８は、端末装置３０の動作を例示するフローチャートである。例えば利用者からの指示を契機として図８の処理が開始される。図８の処理を開始すると、情報抽出部５２は、収音装置３６が生成した音響信号Ｖから配信情報Ｄnを抽出できたか否かを判定する（Ｓb1）。情報抽出部５２が配信情報Ｄnを抽出した場合（Ｓb1：YES）、再生制御部５４は、配信情報Ｄnに対応する関連情報Ｃnを参照テーブルＱbから検索し（Ｓb2）、当該関連情報Ｃnを表示装置３８に表示させる（Ｓb3）。利用者から終了が指示されるまで（Ｓb4：NO）、情報抽出部５２による配信情報Ｄnの抽出毎に、関連情報Ｃnの検索（Ｓb2）および表示（Ｓb3）が実行される。利用者から終了が指示されると（Ｓb4：YES）、図８の処理が終了する。

＜情報処理システム２０＞
図１の情報処理システム２０は、情報配信システム１０が配信情報Ｄnの送信のために参照する前述の参照テーブルＱa（図４）を生成するコンピュータシステムである。図９は、情報処理システム２０の構成図である。図９に例示される通り、第１実施形態の情報処理システム２０は、制御装置２２と記憶装置２４とを具備するコンピュータシステムで実現される。制御装置２２は、例えばＣＰＵを含む処理回路であり、情報処理システム２０の全体を統括的に制御する。記憶装置２４は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せで構成され、制御装置２２が実行するプログラムと制御装置２２が使用する各種のデータとを記憶する。第１実施形態の記憶装置２４は、音響信号Ｘと文字列情報Ｂとを記憶する。音響信号Ｘは、前述の通り、複数の発音文字列Ｌnを順次に発音した音声を表す時間領域の信号である。

文字列情報Ｂは、ショーで発音される複数の発音文字列Ｌnを表すデータである。例えば、図１０に例示される通り、単数または複数の出演者が順次に発音する複数の発音文字列Ｌnの時系列が文字列情報Ｂで指定される。例えば、各出演者の台詞またはショーの解説（ナレーション）を時系列に配列した台本を表すテキストデータ（台本データ）が文字列情報Ｂとして好適に利用される。

情報処理システム２０は、記憶装置２４に記憶された音響信号Ｘと文字列情報Ｂとを利用して参照テーブルＱaを生成する。情報処理システム２０が生成した参照テーブルＱaが情報配信システム１０の記憶装置１４に転送されて、前述の通り、端末装置３０に対する配信情報Ｄnの配信に利用される。参照テーブルＱaは、例えばインターネット等の通信網を介して情報配信システム１０に転送される。なお、半導体記録媒体等の可搬型の記録媒体を利用して参照テーブルＱaを情報処理システム２０から情報配信システム１０に転送することも可能である。

制御装置２２は、記憶装置２４に記憶されたプログラムを実行することで、音響信号Ｘおよび文字列情報Ｂから参照テーブルＱaを生成するための複数の機能（時間解析部６２および情報対応部６４）を実現する。なお、制御装置２２の機能を複数の装置に分散した構成、または、制御装置２２の機能の一部を専用の電子回路が実現する構成も採用され得る。

時間解析部６２は、記憶装置２４に記憶された文字列情報Ｂと音響信号Ｘとを解析することで、複数の発音文字列Ｌnの各々について、当該発音文字列Ｌnが発音される時間軸上の時点を示す時間情報Ｔnを生成する。図９に例示される通り、第１実施形態の時間解析部６２は、文字列特定部６２１と照合処理部６２２とを含んで構成される。

文字列特定部６２１は、音響信号Ｘが表す音声の発音内容を表す文字列（以下「認識文字列」という）Ｒを取得する。第１実施形態の文字列特定部６２１は、音響信号Ｘに対する音声認識で認識文字列Ｒを特定する。音響信号Ｘの音声認識には、例えば隠れマルコフモデル（HMM：Hidden Markov Model）等の音響モデルと、言語的な制約を示す言語モデルとを利用した認識処理等の公知の技術が任意に採用され得る。なお、情報処理システム２０が通信可能な音声認識サーバに音響信号Ｘの音声認識を実行させることも可能である。例えば、文字列特定部６２１は、音響信号Ｘを音声認識サーバに送信し、音声認識サーバによる音声認識で特定された認識文字列Ｒを音声認識サーバから取得する。すなわち、文字列特定部６２１は、それ自身が認識文字列Ｒを生成する要素のほか、音声認識サーバ等の他装置により生成された認識文字列Ｒを取得する要素も包含する。

照合処理部６２２は、記憶装置２４に記憶された文字列情報Ｂが表す複数の発音文字列Ｌnと文字列特定部６２１が特定した認識文字列Ｒとを相互に照合することで、複数の発音文字列Ｌnの各々について、当該発音文字列Ｌnが発音される時間軸上の時点を示す時間情報Ｔnを生成する。音響信号Ｘは、複数の発音文字列Ｌnを順次に発音した音声を表す信号であるから、音響信号Ｘから特定された認識文字列Ｒは、文字列情報Ｂが表す各発音文字列Ｌnに類似（理想的には一致）する部分を包含する。照合処理部６２２は、認識文字列Ｒのうち各発音文字列Ｌnに類似する文字列を探索し、音響信号Ｘのうち当該文字列に対応する時間軸上の期間（すなわち当該文字列が発音された期間）の始点の時刻を示す時間情報Ｔnを生成する。時間情報Ｔnは、前述の通り、例えば音響信号Ｘの始点を基準時点とした経過時間を指定する。

認識文字列Ｒと各発音文字列Ｌnとの照合には、例えば２種類の文字列間の類似性を評価するための編集距離（レーベンシュタイン距離）が好適に利用される。すなわち、照合処理部６２２は、認識文字列Ｒの全体に対する発音文字列Ｌnの相対的な位置を変化させた複数の場合の各々について両者間の編集距離を算定する。認識文字列Ｒに対する発音文字列Ｌnの位置は、例えば所定の文字数（例えば１以上の文字数）ずつ順次に変更される。編集距離が最小となるときの認識文字列Ｒと発音文字列Ｌnとの重複部分が、認識文字列Ｒのうち各発音文字列Ｌnに類似する文字列として探索される。以上の説明から理解される通り、文字列情報Ｂが示す複数の発音文字列Ｌnの各々について、音響信号Ｘにおいて当該発音文字列Ｌnが発音される時点を示す時間情報Ｔnが生成される。

図９の情報対応部６４は、複数の発音文字列Ｌnの各々について、当該発音文字列Ｌnに関連する関連情報Ｃnを示す配信情報Ｄnと、当該発音文字列Ｌnについて時間解析部６２（照合処理部６２２）が生成した時間情報Ｔnとを対応させた参照テーブルＱaを生成する。配信情報Ｄnは、参照テーブルＱa内で相互に重複しないように適宜に設定される。情報対応部６４が生成した参照テーブルＱaは、記憶装置２４に格納されてから、情報配信システム１０の記憶装置１４に転送される。

図１１は、情報処理システム２０の動作を例示するフローチャートである。例えば情報処理システム２０の管理者からの指示を契機として図１１の処理が開始される。図１１の処理を開始すると、時間解析部６２は、以下に例示される通り、文字列情報Ｂと音響信号Ｘとを解析することで各発音文字列Ｌnの時間情報Ｔnを生成する（Ｓc1〜Ｓc3）。まず、文字列特定部６２１は、音響信号Ｘに対する音声認識で認識文字列Ｒを特定する（Ｓc1）。照合処理部６２２は、文字列情報Ｂが示す複数の発音文字列Ｌnの時系列から１個の発音文字列Ｌn（例えば未選択の最先の発音文字列Ｌn）を選択する（Ｓc2）。照合処理部６２２は、音響信号Ｘの認識文字列Ｒと選択した発音文字列Ｌnとを相互に照合することで、音響信号Ｘにおいて当該発音文字列Ｌnが発音される時点を示す時間情報Ｔnを生成する（Ｓc3）。

文字列情報Ｂに含まれる全部の発音文字列Ｌnの各々について、発音文字列Ｌnの選択（Ｓc2）と時間情報Ｔnの生成（Ｓc3）とが反復される（Ｓc4：NO）。全部の発音文字列Ｌnについて時間情報Ｔnを生成すると（Ｓc4：YES）、情報対応部６４は、複数の発音文字列Ｌnの各々について、配信情報Ｄnと時間情報Ｔnとを対応させた参照テーブルＱaを生成して記憶装置２４に格納する（Ｓc5）。

以上に説明した通り、第１実施形態では、文字列情報Ｂと音響信号Ｘとを解析することで各発音文字列Ｌnの時間情報Ｔnが生成され、発音文字列Ｌn毎に配信情報Ｄnと時間情報Ｔnとを対応させた参照テーブルＱaが生成される。したがって、時系列に発音される発音文字列Ｌnの関連情報Ｃnを端末装置３０の利用者に提供するための作業の負荷を軽減することが可能である。

＜第２実施形態＞
本発明の第２実施形態について説明する。なお、以下に例示する各形態において作用または機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

図１２は、第２実施形態における情報処理システム２０の構成図である。第２実施形態では、情報処理システム２０の時間解析部６２の構成が第１実施形態とは相違する。情報配信システム１０および端末装置３０の構成と、情報処理システム２０のうち時間解析部６２以外の要素の構成とは、第１実施形態と同様である。

時間解析部６２は、第１実施形態と同様に、記憶装置２４に記憶された文字列情報Ｂと音響信号Ｘとを解析することで、複数の発音文字列Ｌnの各々について、当該発音文字列Ｌnが発音される時間軸上の時点を示す時間情報Ｔnを生成する。図１２に例示される通り、第２実施形態の時間解析部６２は、推定処理部６２４と特徴抽出部６２５と照合処理部６２６とを含んで構成される。

推定処理部６２４は、文字列情報Ｂが示す複数の発音文字列Ｌnの各々を発音した場合に観測される音声の音響的な特徴量Ｆaの時系列を推定する。複数の発音文字列Ｌnの各々について特徴量Ｆaの時系列が推定される。特徴量Ｆaは、音韻（すなわち発音内容）の差異が明確に反映される傾向がある音響的な特性値である。例えばＭＦＣＣ（Mel-Frequency Cepstrum Coefficients）が特徴量Ｆaの好適例として想定される。推定処理部６２４による特徴量Ｆaの時系列の推定には、発音文字列Ｌnと特徴量Ｆaの時系列と関係の統計的な傾向を表現した統計的な数理モデル（以下「特徴量生成モデル」という）が利用される。特徴量生成モデルは、例えば隠れマルコフモデル（HMM）により表現され、任意の文字列と当該文字列を発音した音声の特徴量とを含む多数の学習データを利用した機械学習により事前に生成される。したがって、特徴量生成モデルに発音文字列Ｌnを付与した場合、多数の学習データにおける文字列に対する特徴量の傾向のもとで、発音文字列Ｌnに対して尤度（具体的には発音文字列Ｌnが観測されたという条件のもとでの事後確率）が最大となるように特徴量Ｆaの時系列が推定される。

なお、特徴量生成モデルをショーの出演者毎に事前に用意し、複数の特徴量生成モデルの何れかを出演者毎に選択的に利用して特徴量Ｆaの時系列を推定することも可能である。例えば、各発音文字列Ｌnを発音する出演者が文字列情報Ｂにより指定される構成を想定すると、任意の１個の発音文字列Ｌnについて、推定処理部６２４は、当該発音文字列Ｌnの発音者として文字列情報Ｂで指定された出演者の特徴量生成モデルを利用して、特徴量Ｆaの時系列を生成する。また、出演者の属性毎（例えば大人／子供，男性／女性）に用意された複数の特徴量生成モデルを選択的に利用することも可能である。

特徴抽出部６２５は、音響信号Ｘの特徴量Ｆbの時系列を抽出する。特徴量Ｆbは、特徴量Ｆaと同種の音響的な特性値（例えばＭＦＣＣ）である。音響信号Ｘの特徴量Ｆbの抽出には公知の解析技術が任意に採用される。なお、特徴量Ｆaおよび特徴量Ｆbの種類は任意である。例えば、相異なる音階音（例えば平均律の１２半音の各々）に対応する複数の要素を含むクロマベクトル（PCP：Pitch Class Profile）をＭＦＣＣとともに特徴量Ｆaおよび特徴量Ｆbとして利用することも可能である。クロマベクトルのうち任意の１個の音階音に対応する要素は、当該音階音に対応する帯域成分の強度を複数のオクターブにわたり加算または平均した数値に設定される。

照合処理部６２６は、推定処理部６２４が各発音文字列Ｌnについて推定した特徴量Ｆaの時系列と、特徴抽出部６２５が音響信号Ｘから抽出した特徴量Ｆbの時系列とを相互に照合することで、文字列情報Ｂが指定する複数の発音文字列Ｌnの各々について、当該発音文字列Ｌnが発音される時間軸上の時点を示す時間情報Ｔnを生成する。前述の通り、音響信号Ｘは、複数の発音文字列Ｌnを順次に発音した音声を表す信号である。したがって、任意の１個の発音文字列Ｌnについて推定された特徴量Ｆaの時系列は、音響信号Ｘのうち当該発音文字列Ｌnが発音された部分の特徴量Ｆbの時系列に類似（理想的には一致）するという傾向がある。以上の傾向を考慮して、第２実施形態の照合処理部６２６は、音響信号Ｘの特徴量Ｆbの時系列のうち発音文字列Ｌnの特徴量Ｆaの時系列に類似する部分を探索し、音響信号Ｘのうち当該部分の始点の時刻を示す時間情報Ｔnを当該発音文字列Ｌnについて生成する。

＜変形例＞
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。

（１）前述の通り、例えばショーの台本を著す台本データが文字列情報Ｂとして好適に利用され得る。しかし、台本データには、複数の発音文字列Ｌnの時系列だけでなく、実際にはショー内で発音されない情報（以下「非発音情報」という）も包含され得る。例えば、ショーの場面または登場人物の解説、もしくは演技上の注意点等が非発音情報として想定される。時間解析部６２による文字列情報Ｂと音響信号Ｘとの照合では非発音情報は不要であるから、台本データから非発音情報を除外したデータを文字列情報Ｂとして照合処理部（６２２または６２６）が音響信号Ｘと対比する構成が好適である。

（２）前述の各形態では、発音文字列Ｌnの翻訳文を関連情報Ｃnとして例示したが、関連情報Ｃnの内容は以上の例示に限定されない。例えば、発音文字列Ｌn自体を関連情報Ｃnとして端末装置３０の表示装置３８に表示させることも可能である。以上の構成によれば、例えばショー内で発音される発音文字列Ｌnの聴取が困難な聴覚障碍者がショーの内容を把握できるという利点がある。

また、発音文字列Ｌnの内容（台詞または歌詞）を直接的に表す情報のほか、ショーを解説する情報（例えば台本のト書きの情報またはショーを補足的に解説する情報）を関連情報Ｃnとして端末装置３０の表示装置３８に表示させることも可能である。例えば、発音文字列Ｌn自体またはその翻訳文を示す情報と、その発音文字列Ｌnを発音する登場人物を表す情報（例えば登場人物の名前またはアイコン等）とを含む関連情報Ｃnが表示され得る。また、発音文字列Ｌnが楽曲の歌詞である場合（発音文字列を歌詞とする楽曲がショー内で歌唱される場合）、当該楽曲に関する音楽情報（例えば楽譜またはコード）を関連情報Ｃnとして利用者に提示する構成も好適である。関連情報Ｃnは、文字列を表すテキストデータに限定されない。例えば、各種の情報を表す音声または画像を関連情報Ｃnとして使用することも可能である。

音楽情報またはショーの解説等の補足的な関連情報Ｃnについては、発音文字列Ｌnと認識文字列Ｒとの照合（第１実施形態）、または、特徴量Ｆaの時系列と特徴量Ｆbの時系列との照合（第２実施形態）では、時間情報Ｔnを特定することが困難である。そこで、参照テーブルＱaにおいては、以上に例示した補足的な関連情報Ｃnについては、直前の関連情報Ｃn-1に対応する時間情報Ｔn-1が示す時点と、直後の関連情報Ｃn+1に対応する時間情報Ｔn+1が示す時点との間の時点を示す時間情報Ｔnが生成される。例えば、時間情報Ｔn-1が示す時点と時間情報Ｔn+1が示す時点との中点を示す時間情報Ｔnが関連情報Ｃnの配信情報Ｄnに対応付けられる。時間情報Ｔn-1が示す時点と時間情報Ｔn+1が示す時点との間について情報処理システム２０の管理者が指示した時点を時間情報Ｔnが示す構成も好適である。

（３）前述の通り、発音文字列Ｌnは台詞だけでなく歌詞も含み得る。すなわち、楽曲の伴奏音に並行して発音された歌唱音声を音響信号Ｘが表す場合が想定される。音響信号Ｘが歌唱音声を表す場合を想定すると、第１実施形態の文字列特定部６２１による認識文字列Ｒの特定においては、音響信号Ｘを伴奏音と歌唱音声とに分離する構成が好適である。分離後の歌唱音声に対する音声認識により認識文字列Ｒが特定される。伴奏音と歌唱音声との分離には、例えば音源が定位する位置の相違を利用した公知の音源分離が好適に利用される。以上の構成によれば、音響信号Ｘから伴奏音を除外した歌唱音声について音声認識が実行されるから、認識文字列Ｒを高精度に特定できるという利点がある。

（４）関連情報Ｃnを端末装置３０の表示装置３８に表示させる場合に、表示装置３８の１画面内に関連情報Ｃnが収まるように関連情報Ｃnを調整することも可能である。例えば、関連情報Ｃnが表す文字数が多い場合に、文字列のサイズを縮小することで関連情報Ｃnを表示装置３８の１画面内に表示する構成が好適である。また、例えば発音文字列Ｌnが歌詞である場合を想定すると、当該発音文字列Ｌnに対応する関連情報Ｃnを、楽曲のフレーズ（例えば音楽的な意味に応じて楽曲を区分した各区間）毎に表示させることも可能である。

（５）前述の各形態では、関連情報Ｃnを端末装置３０の表示装置３８に表示したが、関連情報Ｃnを利用者に提示する方法は表示に限定されない。例えば、関連情報Ｃnを表す音声をスピーカまたはイヤホン等の放音装置１６から放射することで利用者に関連情報Ｃnを提示することも可能である。また、前述の各形態では、携帯電話機またはスマートフォン等の可搬型の情報端末を端末装置３０として例示したが、端末装置３０の具体的な形態は以上の例示に限定されない。例えば、鉄道事業者の施設内（例えば駅構内）に設置される電光掲示板または商業施設に設置される電子看板（例えばデジタルサイネージ）等の案内用の表示機器も端末装置３０として好適に利用され得る。

（６）情報提供システム１００（特に情報配信システム１０）が利用される場面は、前述の各形態で例示したショーには限定されない。例えば、交通機関（例えば電車，バス），展示施設（例えば博物館，美術館），または観光施設等の各種の施設を案内する音声を時系列で発音する場面でも、前述の各形態で例示した情報提供システム１００が利用され得る。

（７）前述の各形態では、音響信号Ｘの再生に並行して実時間的に配信情報Ｄnを含ませる（すなわち変調信号Ｙを合成する）構成を例示したが、配信情報Ｄnを含む音響信号Ｚを事前に生成して記憶装置１４に保持することも可能である。音響信号Ｚの生成には、前述の各形態で例示した通り、情報処理システム２０が生成した参照テーブルＱaが利用される。すなわち、音響信号Ｘのうち参照テーブルＱaの各時間情報Ｔnが示す時点に、当該時間情報Ｔnに対応する配信情報Ｄnの変調信号Ｙを合成することで、音響信号Ｚが生成される。音響信号Ｚを事前に生成する構成では、情報配信システム１０から情報管理部４２および信号処理部４４が省略され、制御装置１２は、記憶装置１４に記憶された音響信号Ｚを放音装置１６に供給する。

（８）前述の各形態では、関連情報Ｃnを識別するための識別情報を配信情報Ｄnとして例示したが、関連情報Ｃn自体を配信情報Ｄnとして情報配信システム１０から端末装置３０に送信することも可能である。関連情報Ｃnを配信情報Ｄnとして配信する構成では、端末装置３０に参照テーブルＱbを保持する必要はない。以上の例示から理解される通り、配信情報Ｄnは、関連情報Ｃnを示す情報として包括的に表現され、関連情報Ｃnを識別するための識別情報のほか関連情報Ｃn自体を包含する。

（９）前述の各形態では、音波を伝送媒体とする音響通信で配信情報Ｄnを端末装置３０に送信したが、端末装置３０に配信情報Ｄnを送信するための通信方式は音響通信に限定されない。例えば、放音装置１６による発音文字列Ｌnの放音に同期して、電波や赤外線等の電磁波を伝送媒体とした無線通信で端末装置３０に配信情報Ｄnを送信することも可能である。配信情報Ｄnの送信には、移動体通信網等の通信網が介在しない近距離無線通信が好適であり、音波を伝送媒体とする音響通信や電磁波を伝送媒体とする無線通信は近距離無線通信の例示である。なお、前述の各形態で例示した音響通信によれば、発音文字列Ｌnの音声を放音するための放音装置１６を配信情報Ｄnの送信に流用できるという利点、および、例えば遮音壁の設置により通信範囲を容易に制御できるという利点がある。

（１０）前述の各形態では、関連情報Ｃnを含む参照テーブルＱbが端末装置３０の記憶装置３４に記憶された場合を例示したが、移動体通信網またはインターネット等の通信網を介して端末装置３０と通信可能な情報配信サーバに参照テーブルＱbを保持することも可能である。具体的には、端末装置３０の再生制御部５４は、情報抽出部５２が抽出した配信情報Ｄnを指定した情報要求を情報配信サーバに送信する。情報配信サーバは、情報要求で指定された配信情報Ｄnに対応する関連情報Ｃnを参照テーブルＱbから検索して要求元の端末装置３０に送信する。端末装置３０の再生制御部５４は、情報配信サーバから受信した関連情報Ｃnを表示装置３８に表示させる。ただし、前述の各形態のように端末装置３０の記憶装置３４に参照テーブルＱbを保持する構成によれば、通信網を介した通信を必要とせずに関連情報Ｃnを表示できるという利点がある。

（１１）第１実施形態では、各発音文字列Ｌnと認識文字列Ｒとを照合処理部６２２が照合する構成を例示し、第２実施形態では、特徴量Ｆaの時系列と特徴量Ｆbの時系列とを照合処理部６２６が照合したが、照合処理部（６２２または６２６）による照合処理には、例えば以下に例示される通り種々の工夫が適用され得る。

例えば、ショーの場面毎（例えば第１幕，第２幕，発話の場面，歌唱の場面等の複数の場面の各々）に分割して照合処理を実行することも可能である。任意の１個の発音文字列Ｌnについて、それ以前の発音文字列Ｌnに関する照合処理の結果を踏まえて時間情報Ｔnを生成する構成も採用され得る。ショーを撮影した動画像を照合処理において参照して、各発音文字列Ｌnの時間情報Ｔnを生成することも可能である。また、発音文字列Ｌnが楽曲の歌詞である場合、当該楽曲の楽譜情報で指定される各音符の音高や発音期間（あるいはリズム）を参照して、各発音文字列Ｌnの時間情報Ｔnを生成する構成も好適である。

また、時間情報Ｔnの条件を制約したうえで照合処理を実行することも可能である。例えば、照合処理部による照合処理で発音文字列Ｌn毎の暫定的な時間情報Ｔnを生成すると、情報処理システム２０の管理者は、自身がショーについて把握している情報（例えば台本から把握できる情報）から適正であると判断できる１個以上の時間情報Ｔnを指定する。例えば複数の時間情報Ｔnの各々には、当該時間情報Ｔnの適否が不明であることを意味する初期値に設定されたフラグが付加され、管理者が指定した時間情報Ｔnのフラグが、適正であることを意味する数値に変更される。具体的には、ショー内の場面毎の先頭の発音文字列Ｌnが発音される時刻が事前に判明している場合、管理者はその知識により適正な時間情報Ｔnを指定することが可能である。

例えば時間情報Ｔn1と時間情報Ｔn2（ｎ1≠ｎ2）が適正であることを利用者が指定すると、照合処理部は、数値ｎ1から数値ｎ2までの範囲内の各時間情報Ｔm（ｎ1＜ｍ＜ｎ2）について、時間情報Ｔmが示す時点が、時間情報Ｔn1の時点と時間情報Ｔn2との間に位置するという制約条件のもとで照合処理を実行する。以上の構成によれば、管理者の手動による指示（ショーに関する事前知識）を反映して時間情報Ｔnの解析の精度を向上させることが可能である。

また、発音文字列Ｌnから特徴量Ｆaの時系列を推定するための特徴量生成モデルに、発音文字列Ｌnの発話または歌唱の速度（例えば歌唱のテンポまたは発話の速度）に関する制約を付加することも可能である。例えば、楽曲に指定された歌唱の速度（テンポ）または台本で指定された発話の速度（例えば「早目に発音」等のト書き）を反映させたセミ隠れマルコフモデル（semi-HMM）を特徴量生成モデルとして利用することで、歌唱または発話の速度に関する制約のもとで特徴量Ｆaの時系列を推定することが可能である。なお、以上の例示ではセミ隠れマルコフモデルを例示したが、各状態間の遷移確率を適宜に設定すれば、隠れマルコフモデルでも同様の作用を実現することが可能である。

（１２）前述の通り、ショーの場面毎に照合処理を実行する構成が想定され得る。場面の切替は、例えば、舞台の撮影により生成された動画像を解析することで検出可能である。具体的には、動画像から算定される明度（例えば１画面内の明度の累積値）の変化を参照することで暗転の有無が判定される。例えば、明度の低下量が所定の閾値を上回る場合に、舞台の暗転が発生したと判定する。舞台の暗転が発生した時点を場面の切替の時点として照合処理を実行することが可能である。ただし、舞台が暗転しても場面の切替が発生しない場合（例えばひとつの場面内で舞台が暗転する場合）、または、舞台が暗転せずに場面の切替が発生する場合（例えば略同等の明度を維持したまま場面が切替わる場合）も想定され得る。以上の事情を考慮すると、例えば、場面の切替の時点で暗転が発生する確率を表現する確率モデルと、場面の切替以外の時点で暗転が発生する確率を表現する確率モデルとを公知の機械学習により生成し、双方の確率モデルを利用して場面の切替の有無を判定する構成が好適である。

（１３）前述の各形態で例示した通り、情報処理システム２０は、制御装置２２とプログラムとの協働で実現される。本発明の好適な態様に係るプログラムは、複数の発音文字列Ｌnを表す文字列情報Ｂと、複数の発音文字列Ｌnを順次に発音した音を表す音響信号Ｘとを解析することで、複数の発音文字列Ｌnの各々について、当該発音文字列Ｌnが発音される時間軸上の時点を示す時間情報Ｔnを生成する時間解析部６２、および、複数の発音文字列Ｌnの各々について、当該発音文字列Ｌnに関連する関連情報Ｃnを示す配信情報Ｄnと、当該発音文字列Ｌnについて時間解析部６２が生成した時間情報Ｔnとを対応させる情報対応部６４としてコンピュータを機能させる。

以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供することも可能である。

（１４）以上に例示した形態から、例えば以下の態様が把握される。
＜態様１＞
本発明の好適な態様（態様１）に係る情報処理システムは、複数の文字列を表す文字列情報と、前記複数の文字列を順次に発音した音を表す音響信号とを解析することで、前記複数の文字列の各々について、当該文字列が発音される時間軸上の時点を示す時間情報を生成する時間解析部と、前記複数の文字列の各々について、当該文字列に関連する関連情報を示す配信情報と、当該文字列について前記時間解析部が生成した時間情報とを対応させる情報対応部とを具備する。以上の態様では、文字列情報と音響信号とを解析することで各文字列の時間情報が生成され、配信情報と時間情報とが文字列毎に対応付けられる。したがって、時系列に発音される複数の文字列の各々の関連情報を提供するための作業の負荷を軽減することが可能である。
＜態様２＞
態様１の好適例（態様２）において、前記時間解析部は、前記音響信号が表す音の発音内容を表す認識文字列を取得する文字列特定部と、前記文字列情報が表す前記複数の文字列と前記文字列特定部が取得した前記認識文字列とを照合することで、前記複数の文字列の各々について、当該文字列が発音される時間軸上の時点を示す時間情報を生成する照合処理部とを含む。
＜態様３＞
態様１の好適例（態様３）において、前記時間解析部は、前記複数の文字列を発音した音の特徴量を推定する推定処理部と、前記音響信号の特徴量を抽出する特徴抽出部と、前記推定処理部が推定した特徴量と前記特徴抽出部が抽出した特徴量とを照合することで、前記複数の文字列の各々について、当該文字列が発音される時間軸上の時点を示す時間情報を生成する照合処理部とを含む。
＜態様４＞
本発明の好適な態様（態様４）に係る情報処理方法は、コンピュータシステムが、複数の文字列を表す文字列情報と、前記複数の文字列を順次に発音した音を表す音響信号とを解析することで、前記複数の文字列の各々について、当該文字列が発音される時間軸上の時点を示す時間情報を生成し、前記複数の文字列の各々について、当該文字列に関連する関連情報を示す配信情報と、当該文字列について生成した時間情報とを対応させる。

１００…情報提供システム、１０…情報配信システム、１２，２２，３２…制御装置、１４，２４，３４…記憶装置、１６…放音装置、２０…情報処理システム、３０…端末装置、３６…収音装置、３８…表示装置、４２…情報管理部、４４…信号処理部、４４１…変調処理部、４４２…信号合成部、５２…情報抽出部、５４…再生制御部、５６…音響通信部、６２…時間解析部、６２１…文字列特定部、６２２…照合処理部、６２４…推定処理部、６２５…特徴抽出部、６２６…照合処理部、６４…情報対応部。

Claims

複数の文字列を表す文字列情報と、前記複数の文字列を順次に発音した音を表す音響信号とを解析することで、前記複数の文字列の各々について、当該文字列が発音される時間軸上の時点を示す時間情報を生成する時間解析部と、
前記複数の文字列の各々について、当該文字列に関連する関連情報を示す配信情報と、当該文字列について前記時間解析部が生成した時間情報とを対応させた参照テーブルを生成する情報対応部と
を具備する情報処理システム。
前記時間解析部は、
前記音響信号が表す音の発音内容を表す認識文字列を取得する文字列特定部と、
前記文字列情報が表す前記複数の文字列と前記文字列特定部が取得した前記認識文字列とを照合することで、前記複数の文字列の各々について、当該文字列が発音される時間軸上の時点を示す時間情報を生成する照合処理部とを含む
請求項１の情報処理システム。
前記時間解析部は、
前記複数の文字列を発音した音の特徴量を推定する推定処理部と、
前記音響信号の特徴量を抽出する特徴抽出部と、
前記推定処理部が推定した特徴量と前記特徴抽出部が抽出した特徴量とを照合することで、前記複数の文字列の各々について、当該文字列が発音される時間軸上の時点を示す時間情報を生成する照合処理部とを含む
請求項１の情報処理システム。
コンピュータシステムが、
複数の文字列を表す文字列情報と、前記複数の文字列を順次に発音した音を表す音響信号とを解析することで、前記複数の文字列の各々について、当該文字列が発音される時間軸上の時点を示す時間情報を生成し、
前記複数の文字列の各々について、当該文字列に関連する関連情報を示す配信情報と、当該文字列について生成した時間情報とを対応させた参照テーブルを生成する
情報処理方法。