<第1実施形態>
第1実施形態の音声案内システム1の概要について説明する。以下の説明では、第1実施形態の音声案内システム1を公共交通機関の音声案内に利用した構成を例示する。
図1は、本発明の第1実施形態に係る音声案内システム1の構成図である。図1に例示される通り、第1実施形態の音声案内システム1は、情報提供システム100と端末装置30とを包含する。情報提供システム100は、端末装置30に各種の情報を提供するコンピュータシステムである。端末装置30は、例えば携帯電話機やスマートフォン等の可搬型の情報処理装置である。以下の説明では、空港施設Cに端末装置30の利用者が所在し、利用者を案内する音声(以下「案内音声」という)に関連するコンテンツQが端末装置30に提供される。なお、図1では1個の端末装置30のみを便宜的に図示したが、実際には複数の端末装置30の各々に対して情報提供システム100から情報が提供され得る。
図1に例示される通り、第1実施形態の情報提供システム100は、情報管理システム10と放音システム20とを具備する。放音システム20は、空港施設Cに設置されて、空港施設C内の音声案内に利用される。具体的には、第1実施形態の放音システム20は、特定の言語(以下「第1言語」という)の案内音声(対象音)を放音する。案内音声は、例えば、空港施設Cに乗入れする航空会社が運行する航空便に関する案内(例えば、搭乗案内、乗継案内、運行情報、遅延情報等)を表す音響である。また、放音システム20は、案内音声を放音するとともに、当該案内音声に関連するコンテンツQの提供を端末装置30に事前に通知するための予告情報を端末装置30に通知する。予告情報は、無線による情報通信で端末装置30に通知される。第1実施形態では、案内音声の放音に並行して、空気振動としての音響(音波)を伝送媒体とする音響通信で放音システム20から端末装置30に予告情報を通知する場合を例示する。すなわち、予告情報は案内音声とともに音響として放音システム20から放射される。第1実施形態では、案内音声に関連するコンテンツQの識別情報Dを予告情報として生成する。
他方、情報管理システム10は、端末装置30に提供される情報を管理するコンピュータシステムである。端末装置30は、移動体通信網やインターネット等を含む通信網200を介して情報管理システム10と通信可能である。情報管理システム10は、案内音声の放音が開始されると当該案内音声に関連するコンテンツQを取得する。端末装置30は、放音システム20から事前に通知された識別情報Dを含むコンテンツQの配信要求Rを情報管理システム10に送信する。情報管理システム10は、通信網200を介して受信した配信要求Rで指定された識別情報Dに対応するコンテンツQを要求元の端末装置30に送信する。コンテンツQは、案内音声に関連する情報である。第1実施形態では、案内音声で発音される第1言語の案内を他言語(以下「第2言語」という)に変換した翻訳を示すコンテンツQが端末装置30に提供される。したがって、第1言語を理解可能な利用者は、案内音声の聴取により案内を把握し、第2言語を理解可能な利用者は、コンテンツQを参照することで案内を把握する。以上に概説した情報提供システム100の各要素の具体的な構成や機能を以下に詳述する。
<放音システム20>
図2は、放音システム20の構成図である。図2に例示される通り、第1実施形態の放音システム20は、収音部22と記憶部21と通信部24と設定部26と放音部28とを具備する。収音部22は、周囲の音響を収音する音響機器(マイクロホン)であり、空港施設Cの案内を担当する案内者が発音した案内音声を収音し、当該案内音声の時間波形を表す音響信号SGを生成する。なお、収音部22が生成した音響信号SGをアナログからデジタルに変換するA/D変換器の図示は便宜的に省略されている。記憶部21は、放音システム20の各要素を制御するCPU(図示省略)が実行するプログラム等を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶部21として任意に採用される。記憶部21に記憶されたプログラムをCPUが実行することで、放音システム20の各機能(設定部26、放音部28)を実現する。
設定部26は、コンテンツQを識別するための識別情報Dを予告情報として生成する。識別情報Dは、複数のコンテンツQの各々を一意に識別可能な符号である。設定部26は、案内音声の発生毎に当該案内音声のコンテンツQの識別情報Dを生成する。通信部24は、設定部26が生成した識別情報Dと収音部22が生成した音響信号SGとを、通信網200を介して情報管理システム10に送信する通信機器である。
放音部28は、案内音声の音響成分(音響信号SG)と識別情報Dの音響成分とを含む音響を放音する手段であり、図2に例示される通り、信号処理部280とスピーカー286とを具備する。信号処理部280は、設定部26が設定した識別情報Dを音響信号SGに合成することで音響信号S1を生成する。音響信号SGに対する識別情報Dの合成(音響透かし)には公知の方法が任意に採用され得るが、例えば国際公開第2010/016589号に開示された方法が好適である。具体的には、信号処理部280は、図3に例示される通り、変調処理部282と混合処理部284とを包含する。変調処理部282は、拡散符号を利用した識別情報Dの拡散変調と所定の周波数の搬送波を利用した周波数変換とを順次に実行することで、識別情報Dを所定の周波数帯域の音響成分として含有する音響信号(以下「変調信号」という)SDを生成する。変調信号SDの周波数帯域は、放音システム20による放音と端末装置30による収音とが可能な周波数帯域であり、かつ、利用者が通常の環境で聴取する音声(例えば案内音声)や楽音等の音響の周波数帯域(例えば可聴域内の約16kHz以下)を上回る周波数帯域(例えば18kHz以上かつ20kHz以下)の範囲内に包含される。図3の混合処理部284は、収音部22が生成した音響信号SGと変調処理部282が生成した変調信号SDとを重畳(典型的には加算)することで音響信号S1を生成する。以上の説明から理解される通り、音響信号S1は、案内音声の音響成分(音響信号SG)と当該案内音声のコンテンツQの識別情報Dを含む音響成分(変調信号SD)とを含有する。スピーカー286は、信号処理部280から供給される音響信号S1に応じた音響を放音する音響機器である。なお、音響信号S1をデジタルからアナログに変換するD/A変換器の図示は便宜的に省略されている。第1実施形態では、案内者による案内音声の発音に並行して実時間的に、音響信号S1に応じた音響が放音部28(スピーカー286)から放音される。
<情報管理システム10>
図4は、情報管理システム10の構成図である。図4に例示される通り、第1実施形態の情報管理システム10は、取得部110と配信部120と記憶部130とを具備する。記憶部130は、情報管理システム10の各要素を制御するCPUが実行するプログラム等を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶部130として任意に採用される。記憶部130に記憶されたプログラムをCPUが実行することで、情報管理システム10の各機能(取得部110、配信部120)を実現する。取得部110は、通信部24から供給された案内音声の音響信号SGを用いて、案内音声に関連するコンテンツQを取得する手段であり、図4に例示される通り、認識処理部112と翻訳処理部114とを含んで構成される。第1実施形態の取得部110は、案内音声の音響信号SGを用いてコンテンツQを生成することで、案内音声に関連するコンテンツQを取得する。
認識処理部112は、放音システム20の通信部24から供給される案内音声の音響信号SGに対する音声認識で、案内音声の発音内容を表現する文字列Lを特定する。音響信号SGの音声認識には、例えばHMM等の音響モデルと言語的な制約を示す言語モデルとを利用した認識技術等の公知の技術が任意に採用され得る。翻訳処理部114は、認識処理部112が特定した文字列Lを機械翻訳により他言語に変換した文字列をコンテンツQとして生成する。具体的には、翻訳処理部114は、第1言語で発音された案内音声の発音内容を表現する文字列Lを第2言語に変換した文字列をコンテンツQとして生成する。翻訳処理部114による機械翻訳には公知の技術が任意に採用され得る。例えば、文字列Lの構文解析の結果と言語的な規則とを参照して語順や単語を変換するルールベースの機械翻訳や、言語の統計的な傾向を表現する統計モデル(翻訳モデルおよび言語モデル)を利用して文字列Lを第2言語に翻訳する統計的な機械翻訳を、文字列Lの翻訳に利用することが可能である。以上の説明から理解される通り、第1実施形態の取得部110(認識処理部112,翻訳処理部114)は、第1言語で発音された案内音声の発音内容を表現する文字列を第2言語に変換した文字列をコンテンツQとして取得する。取得部110は、生成したコンテンツQと放音システム20から受信した識別情報Dとを対応付けて記憶部130に格納する。
配信部120は、取得部110が取得したコンテンツQを端末装置30に配信する。具体的には、配信部120は、識別情報Dを含むコンテンツQの配信要求Rを端末装置30から受信した場合に、当該識別情報Dに対応するコンテンツQを、要求元の端末装置30に配信する。
以上の説明から理解される通り、収音部22に対する案内音声の発音を契機として、当該案内音声と識別情報Dの音響成分とが放音部28から放音される一方、当該案内音声の音響信号SGが情報管理システム10に送信されてコンテンツQが生成される。すなわち、案内音声に関連するコンテンツQを、案内音声の放音に連動して端末装置30の利用者に配信することが可能である。ただし、案内音声は、収音部22による収音後に識別情報Dの音響成分と混合されて直ちに放音されるのに対し、コンテンツQは、放音システム20と情報管理システム10との間で通信網200を介した音響信号SGの授受と取得部110による処理(音声認識,機械翻訳)とを経て生成されて端末装置30に送信可能な状態となる。したがって、案内音声の放音が開始される時点では、当該案内音声のコンテンツQの生成は未だ完了しておらず、端末装置30にコンテンツQを送信することはできない。すなわち、第1実施形態では、コンテンツQの生成の完了前に、放音部28によって案内音声の音響成分と識別情報Dの音響成分とを含む音響が放音される。
<端末装置30>
図5は、端末装置30の構成図である。図5に例示される通り、端末装置30は、収音部310と情報抽出部320と送信部330と受信部340と表示処理部350と出力部360と記憶部370とを含んで構成される。記憶部370は、端末装置30の各要素を制御するCPUが実行するプログラム等を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶部370として任意に採用される。記憶部370に記憶されたプログラムをCPUが実行することで情報抽出部320および表示処理部350が実現される。収音部310は、周囲の音響を収音する音響機器(マイクロホン)であり、放音システム20のスピーカー286から放音される音響を収音して音響信号S2を生成する。音響信号S2は、識別情報Dの音響成分を含有する。なお、収音部310が生成した音響信号S2をアナログからデジタルに変換するA/D変換器の図示は便宜的に省略されている。
情報抽出部320は、収音部310が生成した音響信号S2の復調で識別情報Dを抽出する。具体的には、情報抽出部320は、音響信号S2のうち識別情報Dを含む周波数帯域の帯域成分を例えば帯域通過フィルタで強調し、識別情報Dの拡散変調に利用された拡散符号を係数とする整合フィルタを通過させることで識別情報Dを抽出する。送信部330および受信部340は、通信網200を介して情報管理システム10と通信する通信機器である。送信部330は、情報抽出部320が抽出した識別情報Dを含むコンテンツQの配信要求Rを情報管理システム10に送信する。受信部340は、配信要求Rに応じて情報管理システム10(配信部120)から配信されたコンテンツQを受信する。
出力部360は、各種の情報を出力する。第1実施形態の出力部360は、画像を表示する表示装置(例えば液晶表示パネル等)である。表示処理部350は、出力部360に画像を表示させる。例えば、表示処理部350は、受信部340が情報管理システム10から受信したコンテンツQを出力部360に表示させる。すなわち、案内音声を他言語に翻訳した文字列がコンテンツQとして表示される。また、第1実施形態の表示処理部350は、案内音声に対応するコンテンツQの配信を、当該コンテンツQの実際の配信に先行して端末装置30の利用者に事前に報知(すなわち予告)する。具体的には、表示処理部350は、情報抽出部320による識別情報Dの抽出を契機として、案内音声に関連するコンテンツQが直後に配信される旨のメッセージを出力部360に表示させる。出力部360は、例えば、図6に例示される通り、コンテンツQと同様の第2言語で生成されたメッセージ”A message of voice guidance will soon be provided.”を識別情報D[#101]とともに出力することで、利用者が聴取した案内音声に関連するコンテンツQが配信されることを利用者に事前に報知する。すなわち、端末装置30に対するコンテンツQの配信に先立ち、利用者は、当該案内音声に関連するコンテンツQの配信を、案内音声の聴取とともに事前に把握することが可能である。
図7は、音声案内システム1の全体的な動作の説明図である。放音システム20の収音部22は、案内者が第1言語で発音した案内音声を収音して音響信号SGを生成する(SA1)。通信部24は、収音部22が生成した音響信号SGと識別情報Dとを情報管理システム10に送信する(SA2)。情報管理システム10の取得部110は、音響信号SGと識別情報Dとの受信を契機として、案内音声に関連するコンテンツQの生成を開始する。図7に斜線で便宜的に図示される通り、案内音声のコンテンツQの生成には相応の時間が必要である。
他方、放音部28の信号処理部280は、収音部22が生成した音響信号SGに識別情報Dを合成することで音響信号S1を生成し(SA3)、スピーカー286は音響信号S1に応じた音響を放音する(SA4)。端末装置30の収音部310は、スピーカー286が放音した案内音声を収音して音響信号S2を生成する。情報抽出部320は、収音部310が生成した音響信号S2の復調で案内音声の識別情報Dを抽出する(SA5)。図7に例示される通り、情報抽出部320による識別情報Dの抽出の時点ではコンテンツQの生成は完了していない可能性がある。表示処理部350は、情報抽出部320による識別情報Dの抽出を契機として(すなわちコンテンツQの生成の完了/未完に関わらず)、例えば、図6で例示したように、案内音声に関連するコンテンツQが配信されることを利用者に報知するメッセージを出力部360に表示させる(SA6)。これにより、端末装置30に対するコンテンツQの実際の配信に先立ち、利用者は、当該案内音声に関連するコンテンツQが近く配信されることを、案内音声の聴取とともに事前に把握することが可能である。
情報抽出部320による識別情報Dの抽出と表示処理部350による報知とが実行されると、送信部330は、情報抽出部320が抽出した識別情報Dを含むコンテンツQの配信要求Rを、当該コンテンツQが実際に端末装置30に配信されるまで複数回にわたり情報管理システム10に送信する(SA7,SA9)。
配信部120は、端末装置30から複数回にわたって送信される配信要求Rを順次に受信し、配信要求Rで指定される識別情報DのコンテンツQの生成が完了しているか否かを配信要求Rの受信毎に判定する。図7のステップSA7の配信要求Rの受信時点ではコンテンツQの生成が未だ完了していないから、配信部120は、配信不可の応答を端末装置30に送信する(SA8)。すなわち、コンテンツQは配信されない。他方、図7のステップSA9の配信要求RはコンテンツQの生成の完了の直後に配信部120により受信される。配信要求Rの受信時点でコンテンツQの生成が完了している場合、配信部120は、取得部110が生成したコンテンツQを要求元の端末装置30に配信する(SA10)。端末装置30の受信部340は、情報管理システム10から配信されたコンテンツQを受信し(SA11)、表示処理部350は、受信部340が受信したコンテンツQを出力部360に表示させる(SA12)。
図8は、コンテンツQの再生の一例である。図8では、航空機の搭乗開始を案内する第1言語(日本語)の案内音声が放音された場合に生成されるコンテンツQが例示されている。図8に例示される通り、「ABC航空パリ行き78便のお客様はただ今から81番ゲートよりご搭乗頂きます」という第1言語の案内音声が放音システム20から放音された場合、当該案内音声を第2言語(英語)に翻訳した「Passengers on ABC Airlines flight 78 to Paris are now on boarding at gate 81」という文字列がコンテンツQとして出力部360に表示される。
以上に説明した通り、第1実施形態では、収音部22が収音した案内音声が放音部28から放音されて端末装置30の利用者に聴取される一方、案内音声に関連するコンテンツQが生成されて配信部120から端末装置30に配信される。したがって、案内音声に関連するコンテンツQを端末装置30の利用に提供することが可能である。第1実施形態では、第1言語で発音された案内音声を第2言語に変換したコンテンツQが生成されるから、第1言語を理解可能な利用者は案内音声の聴取により空港施設Cの案内を把握し、第2言語を理解可能な利用者はコンテンツQの参照で当該案内を把握することが可能である。
ところで、案内音声に関連するコンテンツQの生成に相応の時間が必要である場合には、収音部22による案内音声の放音から大きく遅延した時点で当該案内音声のコンテンツQが端末装置30に配信および出力される。したがって、案内音声のコンテンツQの配信が利用者に事前に報知されない構成(前述の表示処理部350を省略した構成である。以下「対比例」という)では、放音部28から放音される案内音声と放音後に端末装置30の出力部360から出力されるコンテンツQとの対応を把握し難いという問題が発生し得る。第1実施形態では、案内音声に関連するコンテンツQの配信を端末装置30に通知する予告情報(識別情報D)の音響成分が当該案内音声の音響成分とともに放音部28から放音されて直後のコンテンツQの配信が利用者に事前に報知されるから、案内音声とコンテンツQとの対応(案内音声の放音後にコンテンツQが配信されること)を端末装置30の利用者が把握できるという利点もある。
第1実施形態では、放音部28が放音した音響から抽出される識別情報Dを指定した配信要求Rを配信部120が端末装置30から受信した場合に、識別情報Dに対応するコンテンツQが配信部120から端末装置30に配信される。すなわち、端末装置30からの配信要求Rに対してコンテンツQが配信されるから、コンテンツQの配信対象として端末装置30を事前に登録する必要がない。また、識別情報Dが配信要求Rで指定されるから、例えば複数のコンテンツQが端末装置30に対する配信候補として記憶部130に格納された場合でも、利用者が聴取した案内音声に対応するコンテンツQを容易に特定できるという利点がある。
第1実施形態では、配信部120は、端末装置30から複数回にわたり送信される配信要求Rを順次に受信し、配信要求Rの受信時に取得部110によるコンテンツQの生成が完了している場合には当該コンテンツQを端末装置30に配信する一方、コンテンツQの生成が完了していなければコンテンツQの配信を実行しない。したがって、例えば識別情報Dの受信から所定の時間(例えばコンテンツQの生成に想定される所要時間の最大値)にわたる待機時間の経過後に端末装置30から配信要求Rを送信する構成と比較して、取得部110によるコンテンツQの生成が完了してから実際に当該コンテンツQが端末装置30に配信されるまでの遅延が短縮されるという利点がある。
第1実施形態では、案内音声に対する音声認識で発音内容の文字列Lを特定し、文字列Lを他言語に翻訳した結果をコンテンツQとして生成する。すなわち、第1言語の案内音声の発音内容の文字列を第2言語に翻訳した結果を表すコンテンツQが端末装置30に配信される。したがって、端末装置30の利用者が案内音声の言語を理解できない場合でも、端末装置30に配信されたコンテンツQを確認することで案内音声の発音内容を理解できるという利点がある。
<第2実施形態>
本発明の第2実施形態を説明する。以下に例示する各態様において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。放音部28による案内音声の放音に連動して予告情報(識別情報D)を端末装置30に通知する動作、および、情報抽出部320による識別情報Dの抽出を契機として表示処理部350がコンテンツQの配信を利用者に予告する動作は、第1実施形態と同様である。
図9は、第2実施形態の情報管理システム10の構成図である。図9に例示される通り、第2実施形態の情報管理システム10は、第1実施形態の翻訳処理部114を選択処理部118に置換した構成である。また、第2実施形態の記憶部130は、第1実施形態と同様の情報に加えて案内テーブルTB1を記憶する。認識処理部112および配信部120の機能および動作は、第1実施形態と同様であるので、詳細な説明を省略する。
図10は、案内テーブルTB1の模式図である。図10に例示される通り、案内テーブルTB1には、空港施設Cの案内者による発音が予定される案内音声の発音内容を表現する第1言語の複数の文字列(第1文字列)X(X1,X2,X3,…)と、当該文字列Xを第2言語に翻訳した文字列(第2文字列)Y(Y1,Y2,Y3,…)とが相互に対応付けられる。案内テーブルTB1の各文字列Xは、例えば、案内者が案内音声の発音時に参照するアナウンスブックに収録された文章である。図10では、各種の挨拶文の文字列Xとその翻訳文の文字列Yとが例示されている。
選択処理部118は、認識処理部112が案内音声の音響信号SGから特定した文字列Lに対応する文字列Yを案内テーブルTB1から選択する。具体的には、選択処理部118は、案内テーブルTB1の複数の文字列X(X1,X2,X3,…)のうち、認識処理部112が特定した文字列Lに最も類似する1個の文字列Xを特定し、当該文字列Xに対応付けられた文字列Yを選択する。文字列Lと文字列Xとの類否の判定には、編集距離(レーベンシュタイン距離)等の公知の指標が任意に採用され得る。選択処理部118が選択した文字列YはコンテンツQとして識別情報Dとともに記憶部130に記憶される。以降の処理は第1実施形態と同様である。
図10の例で、文字列L「おはようございます。」が特定された場合、選択処理部118は、案内テーブルTB1の複数の文字列Xのうち、文字列Lと編集距離が近似する文字列X1「おはようございます。」を選択し、文字列X1に対応付けられる文字列Y1“Good morning”をコンテンツQとして識別情報Dとともに記憶部130に格納する。
第2実施形態によっても、第1実施形態と同様の効果を奏することが可能である。また、第2実施形態では、第1言語の文字列Xと第2言語の文字列Yとが複数組にわたり事前に用意され、音声認識で特定される文字列Lに類似する文字列Xに対応付けられた文字列YがコンテンツQとして生成される。すなわち、利用者に提供されるコンテンツQは、事前に用意された文字列に限定される。したがって、認識処理部112に誤認識が発生した場合でも適正な文字列Yを利用者に提供することが可能である。また、音声認識で特定した文字列Lを機械翻訳する第1実施形態の構成と比較して誤訳の可能性を低減できるという利点もある。すなわち、第2実施形態によれば、確実に利用者が理解できる適正な文字列YのコンテンツQを利用者に提供することが可能である。また、以上の構成によれば、文字列Lを機械翻訳する第1実施形態と比較してコンテンツQを容易に生成できるという利点がある。また、以上の構成によれば、情報管理システム10に翻訳処理部114を搭載する必要がないので、情報管理システム10の構成や処理を簡略化することが可能である。
<第3実施形態>
認識処理部112による認識精度には現実的には限界があり、誤認識が発生する可能性もある。案内音声が誤認識された場合、実際の案内音声の内容を正確に反映したコンテンツQを端末装置30の利用者に提供できない問題が生じ得る。そこで、第3実施形態では、案内者が発音した案内音声に対する音声認識で特定された文字列Lを案内者が必要に応じて編集することで誤認識を是正する。
図11は、第3実施形態の音声案内システム1の構成図である。第3実施形態の放音システム20では、第1実施形態の放音システム20の構成に対して、表示部23と操作部25と編集処理部27と制御部29とが付加されている。収音部22および設定部26の機能は第1実施形態と同様である。第3実施形態では、記憶部21に記憶されたプログラムをCPUが実行することで、放音システム20の各機能(編集処理部27、制御部29)を実現する。
表示部23は、各種の情報を表示する表示装置(例えば液晶表示パネル等)である。操作部25は、放音システム20に対する指示のために、案内音声を発音する案内者が操作する入力機器である。第3実施形態の操作部25は、案内者から音響信号SGを再生する指示等を受付ける。制御部29は、案内者からの指示に応じて、記憶部21に対する音響信号SGの書込および読出を制御する。第3実施形態の制御部29は、案内者が案内音声を発音する毎に収音部22が生成した音響信号SGを記憶部21に格納する一方、案内者による操作に応じて、音響信号SGを記憶部21から読み出して通信部24および放音部28に供給する。通信部24は、制御部29から供給された音響信号SGを、通信網200を介して情報管理システム10に送信する。
第3実施形態の情報管理システム10は、第1実施形態と同様に、取得部110と配信部120と記憶部130とを具備する。配信部120の機能および動作は第1実施形態と同様である。取得部110のうち認識処理部112は、放音システム20の通信部24から受信した音響信号SGに対する音声認識で案内音声の文字列Lを特定するとともに、当該文字列Lを通信網200を介して放音システム20に送信する。
放音システム20の編集処理部27は、認識処理部112が特定した文字列Lを操作部25に対する案内者(指示者)からの指示に応じて編集する。第1実施形態の編集処理部27は、文字列Lを表示部23に表示させる。案内者は、表示部23に表示された文字列Lを確認しながら操作部25を適宜に操作することで文字列Lの変更を指示することが可能である。具体的には、案内者は、表示部23に表示された文字列Lと自身が直前に発音した案内音声の発音内容との間に齟齬があれば、自身が直前に発音した案内音声の発音内容に一致するように文字列Lの変更を指示する。編集処理部27は、操作部25に対する利用者からの指示に応じて文字列Lを編集することで文字列Wを生成する。文字列Lと発音内容とに齟齬がない場合には文字列Lが編集後の文字列Wとして確定する。
編集処理部27による処理が終了すると、案内者は、編集の完了を操作部25に対する操作で指示(以下「編集完了指示」という)する。編集完了指示を契機として、通信部24は、編集処理部27による編集後の文字列Wを、当該案内音声のコンテンツQの識別情報Dとともに情報管理システム10に送信する。他方、制御部29は、編集完了指示を契機として、記憶部21に記憶された音響信号SGを読み出して放音部28に供給する。すなわち、編集完了指示は実質的には音響信号SGの再生指示と表現され得る。
放音部28の信号処理部280は、第1実施形態と同様の手法により、制御部29から供給された音響信号SGに識別情報Dを合成して音響信号S1を生成する。放音部28のスピーカー286は、第1実施形態と同様に、信号処理部280から供給される音響信号S1に応じた音響を放音する。放音部28から放音された音響から情報抽出部320が識別情報Dを抽出する動作や識別情報Dの抽出を契機として表示処理部350がコンテンツQの配信を利用者に予告する動作は第1実施形態と同様である。
情報管理システム10の翻訳処理部114は、編集処理部27による編集後の文字列Wを受信し、文字列Wを他言語に翻訳することでコンテンツQを生成する。翻訳処理部114が生成したコンテンツQは、放音システム20から送信された識別情報Dとともに記憶部130に格納される。端末装置30からの配信要求Rに応じて配信部120がコンテンツQを配信する動作は第1実施形態と同様である。
以上の説明から理解される通り、第3実施形態では、編集完了指示を契機として、収録済の案内音声(音響信号S1)の放音と、当該案内音声に関連するコンテンツQの生成とが実行される。すなわち、文字列Lの編集が完了してから案内音声が放音されるから、案内音声の放音からコンテンツQの配信までの遅延を低減することが可能である。
以上に説明したように、第3実施形態では、認識処理部112が特定した文字列Lを、案内者の指示に応じて編集し、編集後の文字列Wを他言語に翻訳することでコンテンツQを生成する。したがって、認識処理部112による認識結果(文字列L)が誤認識を含む場合でも、編集後の文字列Wに対応するコンテンツQを配信することにより、案内音声の発音内容を正確に利用者に通知できるという効果が実現される。
<変形例>
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
(1)前述の各形態では、音声案内システム1が利用される場面として、航空会社が運行する航空便に関する音声案内を例示したが、音声案内システム1が利用される場面は以上の例示に限定されない。例えば、電車やバス等の交通機関の音声案内や、美術館や博物館等の展示施設、宿泊施設、商業施設等の各種の施設の音声案内に、前述の各形態と同様の音声案内システム1が利用される。また、各種の施設にて火災や地震等の災害が発生した場合の情報提供(例えば避難の案内や状況の通知)に音声案内システム1を利用することも可能である。また、収音部22による収音および放音部28による放音の対象となる音声は案内音声に限定されない。例えば、音楽等の各種の音響を収音部22により収音して放音部28から放音する場合にも前述の各形態は採用され得る。以上の説明から理解される通り、前述の各形態の案内音声は、再生対象となる音響(対象音)の一例である。
(2)前述の各形態では、取得部110が認識処理部112と翻訳処理部114とを含む構成を例示したが、認識処理部112や翻訳処理部114が設置される位置(音声認識や機械翻訳が実行される段階)は以上の例示に限定されない。例えば、認識処理部112と翻訳処理部114とを端末装置30に設置し、放音システム20から送信された音響信号SGをコンテンツQとして情報管理システム10から端末装置30に配信することも可能である。以上の構成では、取得部110は、放音システム20の通信部24から送信される音響信号SGをコンテンツQとして取得して、当該コンテンツQと識別情報Dとを対応付け、配信部120は、識別情報Dを含むコンテンツQの配信要求Rを端末装置30から受信した場合に、識別情報Dに対応するコンテンツQ(音響信号SG)を配信する。端末装置30の認識処理部112は、受信したコンテンツQに対して音声認識を実行することで案内音声の文字列Lを特定し、端末装置30の翻訳処理部114は、認識処理部112が特定した文字列Lを第2言語に翻訳してコンテンツQを再生する。
また、認識処理部112と翻訳処理部114とを放音システム20に設置することも可能である。放音システム20の通信部24は、認識処理部112による音響信号SGの認識と翻訳処理部114による機械翻訳とで生成された文字列Lを情報管理システム10に送信する。情報管理システム10の取得部110は、放音システム20で生成された文字列LをコンテンツQとして取得する。認識処理部112を放音システム20に設置して翻訳処理部114を情報管理システム10に設置することも可能である。なお、放音システム20の認識処理部112と翻訳処理部114とが生成した文字列LをコンテンツQとして、放音システム20から直接的に(すなわち情報管理システム10を介在することなく)端末装置30に送信することも可能である。放音システム20から端末装置30に対するコンテンツQの送信には、前述の各形態で例示した音響通信のほか、電波や赤外線を利用した近距離無線通信(アドホック通信)が好適に利用される。以上の構成によれば、通信網200を利用した通信を端末装置30が実行する必要がないから、例えば通信網200を利用した通信サービスに非加入の利用者(例えば、外国人旅行者)でもコンテンツQを利用できるという利点がある。
以上の説明から理解される通り、前述の各形態における取得部110は、対象音に関連するコンテンツQを取得する要素として包括的に表現され、それ自身の動作(例えば認識処理部112による音声認識や翻訳処理部114による機械翻訳)によりコンテンツQを生成する要素のほか、放音システム20等の外部装置で生成されたコンテンツQ(例えば音響信号SGや翻訳後の文字列)を取得する要素も包含する。
(3)コンテンツQの内容は前述の各形態での例示に限定されない。例えば、前述の各形態では、案内音声の発音内容を翻訳した文字列をコンテンツQとして生成したが、例えば、翻訳後の文字列を適用した音声合成で生成された合成音声を表すコンテンツQを生成してもよい。コンテンツQが音響を表す場合、当該音響を放音するスピーカーやイヤホン等の放音装置が出力部360として利用される。翻訳処理部114による翻訳後の文字列を表すコンテンツQと、翻訳後の文字列を発音した合成音声を表すコンテンツQとは、翻訳処理部114による処理結果(翻訳結果)を表すコンテンツとして包括される。なお、以上の説明では翻訳処理部114を含む構成(例えば第1実施形態)を想定したが、第2実施形態においても同様に、選択処理部118が選択した文字列Yを発音した合成音声を表すコンテンツQを生成することが可能である。選択処理部118が選択した文字列Yを表すコンテンツQと、文字列Yの合成音声を表すコンテンツQとは、選択処理部118が選択した文字列Yを表すコンテンツQとして包括的に表現される。
また、案内音声の音響信号SGに対する音声認識で特定した文字列L自体をコンテンツQとして生成してもよい。また、例えば、案内音声の発音内容に対する補足事項や関連情報(例えば案内音声による案内対象となる施設や場所等の事象に関連する情報のように意味や内容自体は案内音声と必ずしも一致しない情報)を表すコンテンツQを配信する構成や、案内音声に関連する情報(例えば前述の各形態で例示したコンテンツQ)の所在を示すリンク情報(例えばURL)をコンテンツQとして情報提供システム100から端末装置30に配信する構成も採用され得る。以上に例示した種々のコンテンツQは、対象音に関連する情報として包括的に表現される。案内音声の発音内容やその翻訳文の文字列または音声等を表すコンテンツQのように案内音声と意味または内容が相関するという関係は、「対象音に関連する」関係の典型例であるが、対象音に関連する情報のリンク情報を表すコンテンツQのように当該情報の所在を表すという関係も「対象音に関連する」関係には包含され得る。
(4)前述の各形態では、識別情報Dを指定した配信要求Rを送信した端末装置30にコンテンツQを配信(すなわちプル型配信)する構成を例示したが、端末装置30による配信要求Rの送信は必須ではない。例えば、配信対象として情報管理システム10に事前に登録された端末装置30に対し、コンテンツQの生成を契機として当該コンテンツQを配信(すなわちプッシュ型配信)することも可能である。配信対象となる端末装置30の登録方法は任意であるが、例えば、空港施設C内に位置する端末装置30を登録する構成が好適である。具体的には、空港施設Cに設置されたQRコード(登録商標)の読取や空港施設C内の近距離無線機からの無線信号の受信を契機として端末装置30が登録要求を送信し、登録要求の送信元の端末装置30を情報管理システム10が配信対象として登録すれば、コンテンツQの配信対象を空港施設C内の端末装置30に制限することが可能である。
(5)前述の各形態では、コンテンツQの提供を端末装置30に通知されるための予告情報として、案内音声のコンテンツQの識別情報Dを例示したが、予告情報は以上の例示に限定されない。例えば、案内音声を放音するスピーカー286を識別するための識別情報Dを予告情報としてもよい。スピーカー286の識別情報Dを予告情報とした構成では、スピーカー286が放音した案内音声を収音した端末装置30が当該識別情報Dを含むコンテンツQの配信要求Rを送信した場合に、当該スピーカー286で放音した最新の案内音声を表すコンテンツQを配信してもよい。また、予告情報としては、識別情報D以外でもよい。例えば、図6で例示したように、コンテンツQの配信を利用者に通知するメッセージを予告情報としてもよい。予告情報としては、端末装置30がコンテンツQの配信を利用者に報知する動作の契機として当該端末装置30に認識され得る情報であれば足りる。すなわち、予告情報は、案内音声に関連するコンテンツQの提供を端末装置30に通知するための情報として包括的に表現される。
(6)第3実施形態では、収音部22が収音した音響信号SGを記憶部21に記憶し、案内者からの指示に応じた文字列Lの編集後に音響信号SGを記憶部21から放音部28に供給したが、文字列Lの編集を待たず、第1実施形態と同様に案内者による発音に並行して実時間的に案内音声を放音することも可能である。
(7)複数のコンテンツQを各々の識別情報Dに対応させて端末装置30の記憶部370に事前に格納した構成も採用され得る。各コンテンツQは、案内者による発音が予定される案内音声の文字列の翻訳文(第2実施形態の文字列Y)を表す。端末装置30の情報抽出部320は、放音システム20の放音部28が放音した音響(案内音声と識別情報Dの音響成分との混合音)を収音した音響信号S2から識別情報Dを抽出し、表示処理部350は、記憶部370に記憶された複数のコンテンツQのうち、情報抽出部320が抽出した識別情報Dに対応するコンテンツQを出力部360に再生させる。以上の構成によれば、通信網200を利用した通信を端末装置30が実行する必要がないから、例えば通信網200を利用した通信サービスに非加入の利用者(例えば外国人旅行者)でもコンテンツQを利用できるという利点がある。
(8)前述の各形態における情報管理システム10は、単体の装置として実現されるほか、相互に別体で構成された複数の装置(サーバ)としても実現され得る。例えば、前述の各形態の情報管理システム10を、認識処理部112を含む第1サーバと、翻訳処理部114を含む第2サーバと、配信部120を含む第3サーバとに分散し、第1サーバと第2サーバと第3サーバとが例えば通信網200を介して相互に通信する構成も採用され得る。
(9)前述の各形態では、端末装置30に対する識別情報Dの通知に音響通信を利用したが、識別情報Dを端末装置30に通知する通信の方式は以上の例示に限定されない。例えば、赤外線や電磁波を利用した無線通信(例えば近距離無線通信)で端末装置30に識別情報Dを通知することも可能である。
(10)翻訳処理部114による翻訳後の文字列L(第2言語)をコンテンツQとして端末装置30に配信する構成に加えて、当該文字列Lを発音した音声(すなわち第2言語の案内音声)を放音システム20の放音部28から放音することも可能である。例えば、図12に例示される通り、情報管理システム10に音声合成部140が設置される。音声合成部140は、翻訳処理部114による翻訳後の文字列を適用した音声合成により、当該文字列Lを発音した合成音声の音響信号SLを生成する。すなわち、認識処理部112および翻訳処理部114は、コンテンツQの生成と音響信号SLの生成とに流用される。なお、以上の説明では、翻訳処理部114を具備する構成(例えば第1実施形態)を例示したが、第2実施形態の選択処理部118が案内テーブルTB1から選択した文字列Yを発音した合成音声の音響信号SLを音声合成部140が生成することも可能である。
音声合成部140が生成した音響信号SLは、放音システム20に送信される。放音システム20の放音部28は、音響信号SGが示す第1言語の案内音声の放音後に、通信部24が情報管理システム10から受信した音響信号SLが示す第2言語の案内音声を放音する。以上の構成では、第1言語を理解可能な利用者は第1言語の案内音声の聴取により案内を把握し、第2言語を理解可能な利用者は第2言語の案内音声の聴取により案内を把握することが可能である。端末装置30の利用者は、端末装置30に配信されるコンテンツQで案内を確認するとともに、放音システム20から放音される第2言語の案内音声の聴取によっても案内を把握することが可能である。
情報管理システム10に音声合成部140を設置した構成では、認識処理部112が特定した文字列Lを翻訳処理部114が複数の言語(例えば、第2言語に加えて第3言語や第4言語等)に翻訳し、音声合成部140が複数の言語の各々の案内音声を表す音響信号SLを生成して放音システム20に送信してもよい。放音システム20の放音部28は、音響信号SGが示す第1言語の案内音声の放音後に、通信部24が情報管理システム10から受信した複数の音響信号SLが示す相異なる言語の案内音声を順次に放音する。なお、翻訳処理部114が翻訳する言語の種類数や、各言語の案内音声(例えば第2言語〜第4言語)を放音する順序は任意である。
(11)予告情報(識別情報D)を利用してコンテンツQの配信を利用者に予告する構成は省略され得る。例えば、案内音声の音響成分と予告情報(識別情報D)の音響成分との混合音の放音や、案内音声の音響信号SGに識別情報Dの変調信号SDを混合する信号処理部280を省略し、収音部22が収音した案内音声をそのままスピーカー286から放音することも可能である。