JP6569252B2

JP6569252B2 - 情報提供システム、情報提供方法およびプログラム

Info

Publication number: JP6569252B2
Application number: JP2015052461A
Authority: JP
Inventors: 貴裕岩田; 真史権瓶; 優樹瀬戸
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2015-03-16
Filing date: 2015-03-16
Publication date: 2019-09-04
Anticipated expiration: 2035-03-16
Also published as: JP2016173413A

Description

本発明は、端末装置の利用者に情報を提供する技術に関する。

画像や音声等のコンテンツを移動端末にて再生するための各種の技術が従来から提案されている。例えば特許文献１には、配信対象として事前に登録された移動端末に対して、当該移動端末の位置に応じたコンテンツを配信する技術が開示されている。

特開２００２−３５１９０５号公報

例えば電車やバス等の交通機関では、乗降や乗換等に関する情報を利用者に案内する案内音声が随時に再生される。案内音声の発音内容の文字列や翻訳文等のコンテンツを案内音声の放音毎に利用者の移動端末に提供できれば、例えば案内音声の聴取が困難な難聴者や案内音声の言語の理解が困難な外国人等の利用者も案内音声の内容を把握できて便利である。以上の事情を考慮して、本発明は、案内音声に関連するコンテンツを当該案内音声の放音に連動して利用者に提供することを目的とする。

以上の課題を解決するために、本発明に係る情報提供システムは、収音部が収音した対象音に関連するコンテンツを取得する取得部と、前記取得部によるコンテンツの取得前に、前記対象音の音響成分と当該コンテンツの提供を前記端末装置に通知するための予告情報の音響成分とを含む音響を放音する放音部と、前記放音部が放音した音響を収音するとともに当該音響から抽出される前記予告情報に応じて利用者に前記コンテンツの提供を報知する端末装置に、前記取得部が取得したコンテンツを配信する配信部とを具備する。以上の構成では、収音部が収音した対象音が放音部から放音されて端末装置の利用者に聴取される一方、当該対象音に関連するコンテンツが取得部により取得されて配信部から端末装置に配信される。すなわち、対象音に関連するコンテンツを当該対象音の放音に連動して利用者に提供することが可能である。なお、対象音に関連するコンテンツの取得に相応の時間が必要である場合には、放音部による対象音の放音から遅延した時点でコンテンツが端末装置に提供されるから、端末装置の利用者が対象音とコンテンツとの対応を把握し難いという問題が発生し得る。本発明では、対象音に関連するコンテンツの提供を端末装置に通知する予告情報の音響成分が当該対象音の音響成分とともにコンテンツの生成完了前に放音部から放音されるから、対象音とコンテンツとの対応（対象音の放音後にコンテンツが配信されること）を端末装置の利用者が把握できるという利点もある。

本発明の好適な態様において、前記予告情報は、前記コンテンツの識別情報を含み、前記配信部は、前記放音部が放音した音響から抽出される前記識別情報を指定した配信要求を前記端末装置から受信した場合に、当該識別情報に対応するコンテンツを当該端末装置に配信する。以上の構成では、端末装置からの配信要求に対して当該識別情報に対応するコンテンツが配信されるから、配信対象の端末装置を事前に配信部に登録する必要がないという利点がある。また、予告情報に含まれる識別情報が配信要求で指定されるから、例えば複数のコンテンツが端末装置に対する配信候補として存在する場合でも、対象音に対応するコンテンツを容易に特定できるという利点がある。

本発明の好適な態様において、前記配信部は、前記端末装置から複数回にわたり送信される前記配信要求を順次に受信し、前記配信要求の受信時に前記取得部によるコンテンツの取得が完了している場合に当該コンテンツを前記端末装置に配信する一方、当該コンテンツの取得が完了していなければコンテンツの配信を実行しない。以上の構成では、端末装置から複数回にわたり送信される配信要求を配信部が順次に受信し、受信時にコンテンツの取得が完了している場合に当該コンテンツが端末装置に配信される。したがって、例えば予告情報の受信から所定の時間にわたる待機時間の経過後に端末装置から配信要求を送信する構成と比較して、取得部によるコンテンツの取得が完了してから実際に当該コンテンツが端末装置に配信されるまでの遅延が短縮されるという利点がある。

本発明の好適な態様において、前記取得部は、前記対象音に対する音声認識で発音内容の文字列を特定する認識処理部と、複数の第１文字列の各々について当該第１文字列を他言語に翻訳した第２文字列を対応付けたテーブルから、前記認識処理部が特定した文字列に類似する第１文字列に対応する第２文字列を選択する選択処理部とを含み、前記選択処理部が選択した第２文字列を表すコンテンツを生成する。したがって、音声認識での誤認識や機械翻訳での誤訳を含まない適正な第２文字列を表すコンテンツを利用者に提供することができるという利点がある。

本発明の好適な態様において、前記取得部は、前記対象音に対する音声認識で発音内容の文字列を特定する認識処理部と、前記認識処理部が特定した文字列を他言語に翻訳する翻訳処理部とを含み、前記翻訳処理部による処理結果を表すコンテンツを生成する。以上の構成では、対象音の発音内容の文字列を他言語に翻訳した結果を表すコンテンツが端末装置に配信される。したがって、端末装置の利用者が対象音の言語を理解できない場合でも、端末装置に配信されたコンテンツにより対象音の発音内容を理解できるという利点がある。なお、翻訳処理部による処理結果を表すコンテンツとしては、例えば、翻訳処理部による翻訳後の文字列を表すコンテンツや、翻訳後の文字列を適用した音声合成で生成された合成音声を表すコンテンツが例示される。

本発明の好適な態様において、前記認識処理部が特定した文字列を指示者からの指示に応じて編集する編集処理部を具備し、前記翻訳処理部は、前記編集処理部による編集後の文字列を他言語に翻訳する。以上の構成では、認識処理部が特定した文字列を指示者からの指示に応じて編集した文字列が他言語に翻訳される。したがって、例えば認識処理部による認識結果が誤認識を含む場合でも、編集により訂正することで翻訳処理部による正確な翻訳が実現され、対象音の発音内容を正確に利用者に通知できるという利点がある。

以上の各態様に係る情報提供システムは、専用の電子回路で実現されるほか、ＣＰＵ（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、以上の各態様に係る情報提供システムの動作方法（情報提供方法）としても本発明は特定される。

本発明の第１実施形態に係る音声案内システム１の構成図である。放音システム２０の構成図である。信号処理部２８０の構成図である。情報管理システム１０の構成図である。端末装置３０の構成図である。端末装置３０の構成図である。音声案内システム１の動作の説明図である。コンテンツＱの再生の一例を示す図である。第２実施形態の情報管理システム１０の構成図である。第２実施形態の案内テーブルＴB1の模式図である。本発明の第３実施形態に係る音声案内システム１の構成図である。本発明の変形例に係る情報提供システム１００の構成図である。

＜第１実施形態＞
第１実施形態の音声案内システム１の概要について説明する。以下の説明では、第１実施形態の音声案内システム１を公共交通機関の音声案内に利用した構成を例示する。

図１は、本発明の第１実施形態に係る音声案内システム１の構成図である。図１に例示される通り、第１実施形態の音声案内システム１は、情報提供システム１００と端末装置３０とを包含する。情報提供システム１００は、端末装置３０に各種の情報を提供するコンピュータシステムである。端末装置３０は、例えば携帯電話機やスマートフォン等の可搬型の情報処理装置である。以下の説明では、空港施設Ｃに端末装置３０の利用者が所在し、利用者を案内する音声（以下「案内音声」という）に関連するコンテンツＱが端末装置３０に提供される。なお、図１では１個の端末装置３０のみを便宜的に図示したが、実際には複数の端末装置３０の各々に対して情報提供システム１００から情報が提供され得る。

図１に例示される通り、第１実施形態の情報提供システム１００は、情報管理システム１０と放音システム２０とを具備する。放音システム２０は、空港施設Ｃに設置されて、空港施設Ｃ内の音声案内に利用される。具体的には、第１実施形態の放音システム２０は、特定の言語（以下「第１言語」という）の案内音声（対象音）を放音する。案内音声は、例えば、空港施設Ｃに乗入れする航空会社が運行する航空便に関する案内（例えば、搭乗案内、乗継案内、運行情報、遅延情報等）を表す音響である。また、放音システム２０は、案内音声を放音するとともに、当該案内音声に関連するコンテンツＱの提供を端末装置３０に事前に通知するための予告情報を端末装置３０に通知する。予告情報は、無線による情報通信で端末装置３０に通知される。第１実施形態では、案内音声の放音に並行して、空気振動としての音響（音波）を伝送媒体とする音響通信で放音システム２０から端末装置３０に予告情報を通知する場合を例示する。すなわち、予告情報は案内音声とともに音響として放音システム２０から放射される。第１実施形態では、案内音声に関連するコンテンツＱの識別情報Ｄを予告情報として生成する。

他方、情報管理システム１０は、端末装置３０に提供される情報を管理するコンピュータシステムである。端末装置３０は、移動体通信網やインターネット等を含む通信網２００を介して情報管理システム１０と通信可能である。情報管理システム１０は、案内音声の放音が開始されると当該案内音声に関連するコンテンツＱを取得する。端末装置３０は、放音システム２０から事前に通知された識別情報Ｄを含むコンテンツＱの配信要求Ｒを情報管理システム１０に送信する。情報管理システム１０は、通信網２００を介して受信した配信要求Ｒで指定された識別情報Ｄに対応するコンテンツＱを要求元の端末装置３０に送信する。コンテンツＱは、案内音声に関連する情報である。第１実施形態では、案内音声で発音される第１言語の案内を他言語（以下「第２言語」という）に変換した翻訳を示すコンテンツＱが端末装置３０に提供される。したがって、第１言語を理解可能な利用者は、案内音声の聴取により案内を把握し、第２言語を理解可能な利用者は、コンテンツＱを参照することで案内を把握する。以上に概説した情報提供システム１００の各要素の具体的な構成や機能を以下に詳述する。

＜放音システム２０＞
図２は、放音システム２０の構成図である。図２に例示される通り、第１実施形態の放音システム２０は、収音部２２と記憶部２１と通信部２４と設定部２６と放音部２８とを具備する。収音部２２は、周囲の音響を収音する音響機器（マイクロホン）であり、空港施設Ｃの案内を担当する案内者が発音した案内音声を収音し、当該案内音声の時間波形を表す音響信号ＳGを生成する。なお、収音部２２が生成した音響信号ＳGをアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略されている。記憶部２１は、放音システム２０の各要素を制御するＣＰＵ（図示省略）が実行するプログラム等を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶部２１として任意に採用される。記憶部２１に記憶されたプログラムをＣＰＵが実行することで、放音システム２０の各機能（設定部２６、放音部２８）を実現する。

設定部２６は、コンテンツＱを識別するための識別情報Ｄを予告情報として生成する。識別情報Ｄは、複数のコンテンツＱの各々を一意に識別可能な符号である。設定部２６は、案内音声の発生毎に当該案内音声のコンテンツＱの識別情報Ｄを生成する。通信部２４は、設定部２６が生成した識別情報Ｄと収音部２２が生成した音響信号ＳGとを、通信網２００を介して情報管理システム１０に送信する通信機器である。

放音部２８は、案内音声の音響成分（音響信号ＳG）と識別情報Ｄの音響成分とを含む音響を放音する手段であり、図２に例示される通り、信号処理部２８０とスピーカー２８６とを具備する。信号処理部２８０は、設定部２６が設定した識別情報Ｄを音響信号ＳGに合成することで音響信号Ｓ1を生成する。音響信号ＳGに対する識別情報Ｄの合成（音響透かし）には公知の方法が任意に採用され得るが、例えば国際公開第２０１０／０１６５８９号に開示された方法が好適である。具体的には、信号処理部２８０は、図３に例示される通り、変調処理部２８２と混合処理部２８４とを包含する。変調処理部２８２は、拡散符号を利用した識別情報Ｄの拡散変調と所定の周波数の搬送波を利用した周波数変換とを順次に実行することで、識別情報Ｄを所定の周波数帯域の音響成分として含有する音響信号（以下「変調信号」という）ＳDを生成する。変調信号ＳDの周波数帯域は、放音システム２０による放音と端末装置３０による収音とが可能な周波数帯域であり、かつ、利用者が通常の環境で聴取する音声（例えば案内音声）や楽音等の音響の周波数帯域（例えば可聴域内の約１６ｋＨｚ以下）を上回る周波数帯域（例えば１８ｋＨｚ以上かつ２０ｋＨｚ以下）の範囲内に包含される。図３の混合処理部２８４は、収音部２２が生成した音響信号ＳGと変調処理部２８２が生成した変調信号ＳDとを重畳（典型的には加算）することで音響信号Ｓ1を生成する。以上の説明から理解される通り、音響信号Ｓ1は、案内音声の音響成分（音響信号ＳG）と当該案内音声のコンテンツＱの識別情報Ｄを含む音響成分（変調信号ＳD）とを含有する。スピーカー２８６は、信号処理部２８０から供給される音響信号Ｓ1に応じた音響を放音する音響機器である。なお、音響信号Ｓ1をデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略されている。第１実施形態では、案内者による案内音声の発音に並行して実時間的に、音響信号Ｓ1に応じた音響が放音部２８（スピーカー２８６）から放音される。

＜情報管理システム１０＞
図４は、情報管理システム１０の構成図である。図４に例示される通り、第１実施形態の情報管理システム１０は、取得部１１０と配信部１２０と記憶部１３０とを具備する。記憶部１３０は、情報管理システム１０の各要素を制御するＣＰＵが実行するプログラム等を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶部１３０として任意に採用される。記憶部１３０に記憶されたプログラムをＣＰＵが実行することで、情報管理システム１０の各機能（取得部１１０、配信部１２０）を実現する。取得部１１０は、通信部２４から供給された案内音声の音響信号ＳGを用いて、案内音声に関連するコンテンツＱを取得する手段であり、図４に例示される通り、認識処理部１１２と翻訳処理部１１４とを含んで構成される。第１実施形態の取得部１１０は、案内音声の音響信号ＳGを用いてコンテンツＱを生成することで、案内音声に関連するコンテンツＱを取得する。

認識処理部１１２は、放音システム２０の通信部２４から供給される案内音声の音響信号ＳGに対する音声認識で、案内音声の発音内容を表現する文字列Ｌを特定する。音響信号ＳGの音声認識には、例えばＨＭＭ等の音響モデルと言語的な制約を示す言語モデルとを利用した認識技術等の公知の技術が任意に採用され得る。翻訳処理部１１４は、認識処理部１１２が特定した文字列Ｌを機械翻訳により他言語に変換した文字列をコンテンツＱとして生成する。具体的には、翻訳処理部１１４は、第１言語で発音された案内音声の発音内容を表現する文字列Ｌを第２言語に変換した文字列をコンテンツＱとして生成する。翻訳処理部１１４による機械翻訳には公知の技術が任意に採用され得る。例えば、文字列Ｌの構文解析の結果と言語的な規則とを参照して語順や単語を変換するルールベースの機械翻訳や、言語の統計的な傾向を表現する統計モデル（翻訳モデルおよび言語モデル）を利用して文字列Ｌを第２言語に翻訳する統計的な機械翻訳を、文字列Ｌの翻訳に利用することが可能である。以上の説明から理解される通り、第１実施形態の取得部１１０（認識処理部１１２，翻訳処理部１１４）は、第１言語で発音された案内音声の発音内容を表現する文字列を第２言語に変換した文字列をコンテンツＱとして取得する。取得部１１０は、生成したコンテンツＱと放音システム２０から受信した識別情報Ｄとを対応付けて記憶部１３０に格納する。

配信部１２０は、取得部１１０が取得したコンテンツＱを端末装置３０に配信する。具体的には、配信部１２０は、識別情報Ｄを含むコンテンツＱの配信要求Ｒを端末装置３０から受信した場合に、当該識別情報Ｄに対応するコンテンツＱを、要求元の端末装置３０に配信する。

以上の説明から理解される通り、収音部２２に対する案内音声の発音を契機として、当該案内音声と識別情報Ｄの音響成分とが放音部２８から放音される一方、当該案内音声の音響信号ＳGが情報管理システム１０に送信されてコンテンツＱが生成される。すなわち、案内音声に関連するコンテンツＱを、案内音声の放音に連動して端末装置３０の利用者に配信することが可能である。ただし、案内音声は、収音部２２による収音後に識別情報Ｄの音響成分と混合されて直ちに放音されるのに対し、コンテンツＱは、放音システム２０と情報管理システム１０との間で通信網２００を介した音響信号ＳGの授受と取得部１１０による処理（音声認識，機械翻訳）とを経て生成されて端末装置３０に送信可能な状態となる。したがって、案内音声の放音が開始される時点では、当該案内音声のコンテンツＱの生成は未だ完了しておらず、端末装置３０にコンテンツＱを送信することはできない。すなわち、第１実施形態では、コンテンツＱの生成の完了前に、放音部２８によって案内音声の音響成分と識別情報Ｄの音響成分とを含む音響が放音される。

＜端末装置３０＞
図５は、端末装置３０の構成図である。図５に例示される通り、端末装置３０は、収音部３１０と情報抽出部３２０と送信部３３０と受信部３４０と表示処理部３５０と出力部３６０と記憶部３７０とを含んで構成される。記憶部３７０は、端末装置３０の各要素を制御するＣＰＵが実行するプログラム等を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶部３７０として任意に採用される。記憶部３７０に記憶されたプログラムをＣＰＵが実行することで情報抽出部３２０および表示処理部３５０が実現される。収音部３１０は、周囲の音響を収音する音響機器（マイクロホン）であり、放音システム２０のスピーカー２８６から放音される音響を収音して音響信号Ｓ2を生成する。音響信号Ｓ2は、識別情報Ｄの音響成分を含有する。なお、収音部３１０が生成した音響信号Ｓ2をアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略されている。

情報抽出部３２０は、収音部３１０が生成した音響信号Ｓ2の復調で識別情報Ｄを抽出する。具体的には、情報抽出部３２０は、音響信号Ｓ2のうち識別情報Ｄを含む周波数帯域の帯域成分を例えば帯域通過フィルタで強調し、識別情報Ｄの拡散変調に利用された拡散符号を係数とする整合フィルタを通過させることで識別情報Ｄを抽出する。送信部３３０および受信部３４０は、通信網２００を介して情報管理システム１０と通信する通信機器である。送信部３３０は、情報抽出部３２０が抽出した識別情報Ｄを含むコンテンツＱの配信要求Ｒを情報管理システム１０に送信する。受信部３４０は、配信要求Ｒに応じて情報管理システム１０（配信部１２０）から配信されたコンテンツＱを受信する。

出力部３６０は、各種の情報を出力する。第１実施形態の出力部３６０は、画像を表示する表示装置（例えば液晶表示パネル等）である。表示処理部３５０は、出力部３６０に画像を表示させる。例えば、表示処理部３５０は、受信部３４０が情報管理システム１０から受信したコンテンツＱを出力部３６０に表示させる。すなわち、案内音声を他言語に翻訳した文字列がコンテンツＱとして表示される。また、第１実施形態の表示処理部３５０は、案内音声に対応するコンテンツＱの配信を、当該コンテンツＱの実際の配信に先行して端末装置３０の利用者に事前に報知（すなわち予告）する。具体的には、表示処理部３５０は、情報抽出部３２０による識別情報Ｄの抽出を契機として、案内音声に関連するコンテンツＱが直後に配信される旨のメッセージを出力部３６０に表示させる。出力部３６０は、例えば、図６に例示される通り、コンテンツＱと同様の第２言語で生成されたメッセージ”A message of voice guidance will soon be provided.”を識別情報Ｄ[#101]とともに出力することで、利用者が聴取した案内音声に関連するコンテンツＱが配信されることを利用者に事前に報知する。すなわち、端末装置３０に対するコンテンツＱの配信に先立ち、利用者は、当該案内音声に関連するコンテンツＱの配信を、案内音声の聴取とともに事前に把握することが可能である。

図７は、音声案内システム１の全体的な動作の説明図である。放音システム２０の収音部２２は、案内者が第１言語で発音した案内音声を収音して音響信号ＳGを生成する（ＳA1）。通信部２４は、収音部２２が生成した音響信号ＳGと識別情報Ｄとを情報管理システム１０に送信する（ＳA2）。情報管理システム１０の取得部１１０は、音響信号ＳGと識別情報Ｄとの受信を契機として、案内音声に関連するコンテンツＱの生成を開始する。図７に斜線で便宜的に図示される通り、案内音声のコンテンツＱの生成には相応の時間が必要である。

他方、放音部２８の信号処理部２８０は、収音部２２が生成した音響信号ＳGに識別情報Ｄを合成することで音響信号Ｓ1を生成し（ＳA3）、スピーカー２８６は音響信号Ｓ1に応じた音響を放音する（ＳA4）。端末装置３０の収音部３１０は、スピーカー２８６が放音した案内音声を収音して音響信号Ｓ2を生成する。情報抽出部３２０は、収音部３１０が生成した音響信号Ｓ2の復調で案内音声の識別情報Ｄを抽出する（ＳA5）。図７に例示される通り、情報抽出部３２０による識別情報Ｄの抽出の時点ではコンテンツＱの生成は完了していない可能性がある。表示処理部３５０は、情報抽出部３２０による識別情報Ｄの抽出を契機として（すなわちコンテンツＱの生成の完了／未完に関わらず）、例えば、図６で例示したように、案内音声に関連するコンテンツＱが配信されることを利用者に報知するメッセージを出力部３６０に表示させる（ＳA6）。これにより、端末装置３０に対するコンテンツＱの実際の配信に先立ち、利用者は、当該案内音声に関連するコンテンツＱが近く配信されることを、案内音声の聴取とともに事前に把握することが可能である。

情報抽出部３２０による識別情報Ｄの抽出と表示処理部３５０による報知とが実行されると、送信部３３０は、情報抽出部３２０が抽出した識別情報Ｄを含むコンテンツＱの配信要求Ｒを、当該コンテンツＱが実際に端末装置３０に配信されるまで複数回にわたり情報管理システム１０に送信する（ＳA7，ＳA9）。

配信部１２０は、端末装置３０から複数回にわたって送信される配信要求Ｒを順次に受信し、配信要求Ｒで指定される識別情報ＤのコンテンツＱの生成が完了しているか否かを配信要求Ｒの受信毎に判定する。図７のステップＳA7の配信要求Ｒの受信時点ではコンテンツＱの生成が未だ完了していないから、配信部１２０は、配信不可の応答を端末装置３０に送信する（ＳA8）。すなわち、コンテンツＱは配信されない。他方、図７のステップＳA9の配信要求ＲはコンテンツＱの生成の完了の直後に配信部１２０により受信される。配信要求Ｒの受信時点でコンテンツＱの生成が完了している場合、配信部１２０は、取得部１１０が生成したコンテンツＱを要求元の端末装置３０に配信する（ＳA10）。端末装置３０の受信部３４０は、情報管理システム１０から配信されたコンテンツＱを受信し（ＳA11）、表示処理部３５０は、受信部３４０が受信したコンテンツＱを出力部３６０に表示させる（ＳA12）。

図８は、コンテンツＱの再生の一例である。図８では、航空機の搭乗開始を案内する第１言語（日本語）の案内音声が放音された場合に生成されるコンテンツＱが例示されている。図８に例示される通り、「ABC航空パリ行き78便のお客様はただ今から81番ゲートよりご搭乗頂きます」という第１言語の案内音声が放音システム２０から放音された場合、当該案内音声を第２言語（英語）に翻訳した「Passengers on ABC Airlines flight 78 to Paris are now on boarding at gate 81」という文字列がコンテンツＱとして出力部３６０に表示される。

以上に説明した通り、第１実施形態では、収音部２２が収音した案内音声が放音部２８から放音されて端末装置３０の利用者に聴取される一方、案内音声に関連するコンテンツＱが生成されて配信部１２０から端末装置３０に配信される。したがって、案内音声に関連するコンテンツＱを端末装置３０の利用に提供することが可能である。第１実施形態では、第１言語で発音された案内音声を第２言語に変換したコンテンツＱが生成されるから、第１言語を理解可能な利用者は案内音声の聴取により空港施設Ｃの案内を把握し、第２言語を理解可能な利用者はコンテンツＱの参照で当該案内を把握することが可能である。

ところで、案内音声に関連するコンテンツＱの生成に相応の時間が必要である場合には、収音部２２による案内音声の放音から大きく遅延した時点で当該案内音声のコンテンツＱが端末装置３０に配信および出力される。したがって、案内音声のコンテンツＱの配信が利用者に事前に報知されない構成（前述の表示処理部３５０を省略した構成である。以下「対比例」という）では、放音部２８から放音される案内音声と放音後に端末装置３０の出力部３６０から出力されるコンテンツＱとの対応を把握し難いという問題が発生し得る。第１実施形態では、案内音声に関連するコンテンツＱの配信を端末装置３０に通知する予告情報（識別情報Ｄ）の音響成分が当該案内音声の音響成分とともに放音部２８から放音されて直後のコンテンツＱの配信が利用者に事前に報知されるから、案内音声とコンテンツＱとの対応（案内音声の放音後にコンテンツＱが配信されること）を端末装置３０の利用者が把握できるという利点もある。

第１実施形態では、放音部２８が放音した音響から抽出される識別情報Ｄを指定した配信要求Ｒを配信部１２０が端末装置３０から受信した場合に、識別情報Ｄに対応するコンテンツＱが配信部１２０から端末装置３０に配信される。すなわち、端末装置３０からの配信要求Ｒに対してコンテンツＱが配信されるから、コンテンツＱの配信対象として端末装置３０を事前に登録する必要がない。また、識別情報Ｄが配信要求Ｒで指定されるから、例えば複数のコンテンツＱが端末装置３０に対する配信候補として記憶部１３０に格納された場合でも、利用者が聴取した案内音声に対応するコンテンツＱを容易に特定できるという利点がある。

第１実施形態では、配信部１２０は、端末装置３０から複数回にわたり送信される配信要求Ｒを順次に受信し、配信要求Ｒの受信時に取得部１１０によるコンテンツＱの生成が完了している場合には当該コンテンツＱを端末装置３０に配信する一方、コンテンツＱの生成が完了していなければコンテンツＱの配信を実行しない。したがって、例えば識別情報Ｄの受信から所定の時間（例えばコンテンツＱの生成に想定される所要時間の最大値）にわたる待機時間の経過後に端末装置３０から配信要求Ｒを送信する構成と比較して、取得部１１０によるコンテンツＱの生成が完了してから実際に当該コンテンツＱが端末装置３０に配信されるまでの遅延が短縮されるという利点がある。

第１実施形態では、案内音声に対する音声認識で発音内容の文字列Ｌを特定し、文字列Ｌを他言語に翻訳した結果をコンテンツＱとして生成する。すなわち、第１言語の案内音声の発音内容の文字列を第２言語に翻訳した結果を表すコンテンツＱが端末装置３０に配信される。したがって、端末装置３０の利用者が案内音声の言語を理解できない場合でも、端末装置３０に配信されたコンテンツＱを確認することで案内音声の発音内容を理解できるという利点がある。

＜第２実施形態＞
本発明の第２実施形態を説明する。以下に例示する各態様において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。放音部２８による案内音声の放音に連動して予告情報（識別情報Ｄ）を端末装置３０に通知する動作、および、情報抽出部３２０による識別情報Ｄの抽出を契機として表示処理部３５０がコンテンツＱの配信を利用者に予告する動作は、第１実施形態と同様である。

図９は、第２実施形態の情報管理システム１０の構成図である。図９に例示される通り、第２実施形態の情報管理システム１０は、第１実施形態の翻訳処理部１１４を選択処理部１１８に置換した構成である。また、第２実施形態の記憶部１３０は、第１実施形態と同様の情報に加えて案内テーブルＴB1を記憶する。認識処理部１１２および配信部１２０の機能および動作は、第１実施形態と同様であるので、詳細な説明を省略する。

図１０は、案内テーブルＴB1の模式図である。図１０に例示される通り、案内テーブルＴB1には、空港施設Ｃの案内者による発音が予定される案内音声の発音内容を表現する第１言語の複数の文字列（第１文字列）Ｘ（Ｘ1，Ｘ2，Ｘ3，…）と、当該文字列Ｘを第２言語に翻訳した文字列（第２文字列）Ｙ（Ｙ1，Ｙ2，Ｙ3，…）とが相互に対応付けられる。案内テーブルＴB1の各文字列Ｘは、例えば、案内者が案内音声の発音時に参照するアナウンスブックに収録された文章である。図１０では、各種の挨拶文の文字列Ｘとその翻訳文の文字列Ｙとが例示されている。

選択処理部１１８は、認識処理部１１２が案内音声の音響信号ＳGから特定した文字列Ｌに対応する文字列Ｙを案内テーブルＴB1から選択する。具体的には、選択処理部１１８は、案内テーブルＴB1の複数の文字列Ｘ（Ｘ1，Ｘ2，Ｘ3，…）のうち、認識処理部１１２が特定した文字列Ｌに最も類似する１個の文字列Ｘを特定し、当該文字列Ｘに対応付けられた文字列Ｙを選択する。文字列Ｌと文字列Ｘとの類否の判定には、編集距離（レーベンシュタイン距離）等の公知の指標が任意に採用され得る。選択処理部１１８が選択した文字列ＹはコンテンツＱとして識別情報Ｄとともに記憶部１３０に記憶される。以降の処理は第１実施形態と同様である。

図１０の例で、文字列Ｌ「おはようございます。」が特定された場合、選択処理部１１８は、案内テーブルＴB1の複数の文字列Ｘのうち、文字列Ｌと編集距離が近似する文字列Ｘ1「おはようございます。」を選択し、文字列Ｘ1に対応付けられる文字列Ｙ1“Good morning”をコンテンツＱとして識別情報Ｄとともに記憶部１３０に格納する。

第２実施形態によっても、第１実施形態と同様の効果を奏することが可能である。また、第２実施形態では、第１言語の文字列Ｘと第２言語の文字列Ｙとが複数組にわたり事前に用意され、音声認識で特定される文字列Ｌに類似する文字列Ｘに対応付けられた文字列ＹがコンテンツＱとして生成される。すなわち、利用者に提供されるコンテンツＱは、事前に用意された文字列に限定される。したがって、認識処理部１１２に誤認識が発生した場合でも適正な文字列Ｙを利用者に提供することが可能である。また、音声認識で特定した文字列Ｌを機械翻訳する第１実施形態の構成と比較して誤訳の可能性を低減できるという利点もある。すなわち、第２実施形態によれば、確実に利用者が理解できる適正な文字列ＹのコンテンツＱを利用者に提供することが可能である。また、以上の構成によれば、文字列Ｌを機械翻訳する第１実施形態と比較してコンテンツＱを容易に生成できるという利点がある。また、以上の構成によれば、情報管理システム１０に翻訳処理部１１４を搭載する必要がないので、情報管理システム１０の構成や処理を簡略化することが可能である。

＜第３実施形態＞
認識処理部１１２による認識精度には現実的には限界があり、誤認識が発生する可能性もある。案内音声が誤認識された場合、実際の案内音声の内容を正確に反映したコンテンツＱを端末装置３０の利用者に提供できない問題が生じ得る。そこで、第３実施形態では、案内者が発音した案内音声に対する音声認識で特定された文字列Ｌを案内者が必要に応じて編集することで誤認識を是正する。

図１１は、第３実施形態の音声案内システム１の構成図である。第３実施形態の放音システム２０では、第１実施形態の放音システム２０の構成に対して、表示部２３と操作部２５と編集処理部２７と制御部２９とが付加されている。収音部２２および設定部２６の機能は第１実施形態と同様である。第３実施形態では、記憶部２１に記憶されたプログラムをＣＰＵが実行することで、放音システム２０の各機能（編集処理部２７、制御部２９）を実現する。

表示部２３は、各種の情報を表示する表示装置（例えば液晶表示パネル等）である。操作部２５は、放音システム２０に対する指示のために、案内音声を発音する案内者が操作する入力機器である。第３実施形態の操作部２５は、案内者から音響信号ＳGを再生する指示等を受付ける。制御部２９は、案内者からの指示に応じて、記憶部２１に対する音響信号ＳGの書込および読出を制御する。第３実施形態の制御部２９は、案内者が案内音声を発音する毎に収音部２２が生成した音響信号ＳGを記憶部２１に格納する一方、案内者による操作に応じて、音響信号ＳGを記憶部２１から読み出して通信部２４および放音部２８に供給する。通信部２４は、制御部２９から供給された音響信号ＳGを、通信網２００を介して情報管理システム１０に送信する。

第３実施形態の情報管理システム１０は、第１実施形態と同様に、取得部１１０と配信部１２０と記憶部１３０とを具備する。配信部１２０の機能および動作は第１実施形態と同様である。取得部１１０のうち認識処理部１１２は、放音システム２０の通信部２４から受信した音響信号ＳGに対する音声認識で案内音声の文字列Ｌを特定するとともに、当該文字列Ｌを通信網２００を介して放音システム２０に送信する。

放音システム２０の編集処理部２７は、認識処理部１１２が特定した文字列Ｌを操作部２５に対する案内者（指示者）からの指示に応じて編集する。第１実施形態の編集処理部２７は、文字列Ｌを表示部２３に表示させる。案内者は、表示部２３に表示された文字列Ｌを確認しながら操作部２５を適宜に操作することで文字列Ｌの変更を指示することが可能である。具体的には、案内者は、表示部２３に表示された文字列Ｌと自身が直前に発音した案内音声の発音内容との間に齟齬があれば、自身が直前に発音した案内音声の発音内容に一致するように文字列Ｌの変更を指示する。編集処理部２７は、操作部２５に対する利用者からの指示に応じて文字列Ｌを編集することで文字列Ｗを生成する。文字列Ｌと発音内容とに齟齬がない場合には文字列Ｌが編集後の文字列Ｗとして確定する。

編集処理部２７による処理が終了すると、案内者は、編集の完了を操作部２５に対する操作で指示（以下「編集完了指示」という）する。編集完了指示を契機として、通信部２４は、編集処理部２７による編集後の文字列Ｗを、当該案内音声のコンテンツＱの識別情報Ｄとともに情報管理システム１０に送信する。他方、制御部２９は、編集完了指示を契機として、記憶部２１に記憶された音響信号ＳGを読み出して放音部２８に供給する。すなわち、編集完了指示は実質的には音響信号ＳGの再生指示と表現され得る。

放音部２８の信号処理部２８０は、第１実施形態と同様の手法により、制御部２９から供給された音響信号ＳGに識別情報Ｄを合成して音響信号Ｓ1を生成する。放音部２８のスピーカー２８６は、第１実施形態と同様に、信号処理部２８０から供給される音響信号Ｓ1に応じた音響を放音する。放音部２８から放音された音響から情報抽出部３２０が識別情報Ｄを抽出する動作や識別情報Ｄの抽出を契機として表示処理部３５０がコンテンツＱの配信を利用者に予告する動作は第１実施形態と同様である。

情報管理システム１０の翻訳処理部１１４は、編集処理部２７による編集後の文字列Ｗを受信し、文字列Ｗを他言語に翻訳することでコンテンツＱを生成する。翻訳処理部１１４が生成したコンテンツＱは、放音システム２０から送信された識別情報Ｄとともに記憶部１３０に格納される。端末装置３０からの配信要求Ｒに応じて配信部１２０がコンテンツＱを配信する動作は第１実施形態と同様である。

以上の説明から理解される通り、第３実施形態では、編集完了指示を契機として、収録済の案内音声（音響信号Ｓ1）の放音と、当該案内音声に関連するコンテンツＱの生成とが実行される。すなわち、文字列Ｌの編集が完了してから案内音声が放音されるから、案内音声の放音からコンテンツＱの配信までの遅延を低減することが可能である。

以上に説明したように、第３実施形態では、認識処理部１１２が特定した文字列Ｌを、案内者の指示に応じて編集し、編集後の文字列Ｗを他言語に翻訳することでコンテンツＱを生成する。したがって、認識処理部１１２による認識結果（文字列Ｌ）が誤認識を含む場合でも、編集後の文字列Ｗに対応するコンテンツＱを配信することにより、案内音声の発音内容を正確に利用者に通知できるという効果が実現される。

＜変形例＞
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。

（１）前述の各形態では、音声案内システム１が利用される場面として、航空会社が運行する航空便に関する音声案内を例示したが、音声案内システム１が利用される場面は以上の例示に限定されない。例えば、電車やバス等の交通機関の音声案内や、美術館や博物館等の展示施設、宿泊施設、商業施設等の各種の施設の音声案内に、前述の各形態と同様の音声案内システム１が利用される。また、各種の施設にて火災や地震等の災害が発生した場合の情報提供（例えば避難の案内や状況の通知）に音声案内システム１を利用することも可能である。また、収音部２２による収音および放音部２８による放音の対象となる音声は案内音声に限定されない。例えば、音楽等の各種の音響を収音部２２により収音して放音部２８から放音する場合にも前述の各形態は採用され得る。以上の説明から理解される通り、前述の各形態の案内音声は、再生対象となる音響（対象音）の一例である。

（２）前述の各形態では、取得部１１０が認識処理部１１２と翻訳処理部１１４とを含む構成を例示したが、認識処理部１１２や翻訳処理部１１４が設置される位置（音声認識や機械翻訳が実行される段階）は以上の例示に限定されない。例えば、認識処理部１１２と翻訳処理部１１４とを端末装置３０に設置し、放音システム２０から送信された音響信号ＳGをコンテンツＱとして情報管理システム１０から端末装置３０に配信することも可能である。以上の構成では、取得部１１０は、放音システム２０の通信部２４から送信される音響信号ＳGをコンテンツＱとして取得して、当該コンテンツＱと識別情報Ｄとを対応付け、配信部１２０は、識別情報Ｄを含むコンテンツＱの配信要求Ｒを端末装置３０から受信した場合に、識別情報Ｄに対応するコンテンツＱ（音響信号ＳG）を配信する。端末装置３０の認識処理部１１２は、受信したコンテンツＱに対して音声認識を実行することで案内音声の文字列Ｌを特定し、端末装置３０の翻訳処理部１１４は、認識処理部１１２が特定した文字列Ｌを第２言語に翻訳してコンテンツＱを再生する。

また、認識処理部１１２と翻訳処理部１１４とを放音システム２０に設置することも可能である。放音システム２０の通信部２４は、認識処理部１１２による音響信号ＳGの認識と翻訳処理部１１４による機械翻訳とで生成された文字列Ｌを情報管理システム１０に送信する。情報管理システム１０の取得部１１０は、放音システム２０で生成された文字列ＬをコンテンツＱとして取得する。認識処理部１１２を放音システム２０に設置して翻訳処理部１１４を情報管理システム１０に設置することも可能である。なお、放音システム２０の認識処理部１１２と翻訳処理部１１４とが生成した文字列ＬをコンテンツＱとして、放音システム２０から直接的に（すなわち情報管理システム１０を介在することなく）端末装置３０に送信することも可能である。放音システム２０から端末装置３０に対するコンテンツＱの送信には、前述の各形態で例示した音響通信のほか、電波や赤外線を利用した近距離無線通信（アドホック通信）が好適に利用される。以上の構成によれば、通信網２００を利用した通信を端末装置３０が実行する必要がないから、例えば通信網２００を利用した通信サービスに非加入の利用者（例えば、外国人旅行者）でもコンテンツＱを利用できるという利点がある。

以上の説明から理解される通り、前述の各形態における取得部１１０は、対象音に関連するコンテンツＱを取得する要素として包括的に表現され、それ自身の動作（例えば認識処理部１１２による音声認識や翻訳処理部１１４による機械翻訳）によりコンテンツＱを生成する要素のほか、放音システム２０等の外部装置で生成されたコンテンツＱ（例えば音響信号ＳGや翻訳後の文字列）を取得する要素も包含する。

（３）コンテンツＱの内容は前述の各形態での例示に限定されない。例えば、前述の各形態では、案内音声の発音内容を翻訳した文字列をコンテンツＱとして生成したが、例えば、翻訳後の文字列を適用した音声合成で生成された合成音声を表すコンテンツＱを生成してもよい。コンテンツＱが音響を表す場合、当該音響を放音するスピーカーやイヤホン等の放音装置が出力部３６０として利用される。翻訳処理部１１４による翻訳後の文字列を表すコンテンツＱと、翻訳後の文字列を発音した合成音声を表すコンテンツＱとは、翻訳処理部１１４による処理結果（翻訳結果）を表すコンテンツとして包括される。なお、以上の説明では翻訳処理部１１４を含む構成（例えば第１実施形態）を想定したが、第２実施形態においても同様に、選択処理部１１８が選択した文字列Ｙを発音した合成音声を表すコンテンツＱを生成することが可能である。選択処理部１１８が選択した文字列Ｙを表すコンテンツＱと、文字列Ｙの合成音声を表すコンテンツＱとは、選択処理部１１８が選択した文字列Ｙを表すコンテンツＱとして包括的に表現される。

また、案内音声の音響信号ＳGに対する音声認識で特定した文字列Ｌ自体をコンテンツＱとして生成してもよい。また、例えば、案内音声の発音内容に対する補足事項や関連情報（例えば案内音声による案内対象となる施設や場所等の事象に関連する情報のように意味や内容自体は案内音声と必ずしも一致しない情報）を表すコンテンツＱを配信する構成や、案内音声に関連する情報（例えば前述の各形態で例示したコンテンツＱ）の所在を示すリンク情報（例えばＵＲＬ）をコンテンツＱとして情報提供システム１００から端末装置３０に配信する構成も採用され得る。以上に例示した種々のコンテンツＱは、対象音に関連する情報として包括的に表現される。案内音声の発音内容やその翻訳文の文字列または音声等を表すコンテンツＱのように案内音声と意味または内容が相関するという関係は、「対象音に関連する」関係の典型例であるが、対象音に関連する情報のリンク情報を表すコンテンツＱのように当該情報の所在を表すという関係も「対象音に関連する」関係には包含され得る。

（４）前述の各形態では、識別情報Ｄを指定した配信要求Ｒを送信した端末装置３０にコンテンツＱを配信（すなわちプル型配信）する構成を例示したが、端末装置３０による配信要求Ｒの送信は必須ではない。例えば、配信対象として情報管理システム１０に事前に登録された端末装置３０に対し、コンテンツＱの生成を契機として当該コンテンツＱを配信（すなわちプッシュ型配信）することも可能である。配信対象となる端末装置３０の登録方法は任意であるが、例えば、空港施設Ｃ内に位置する端末装置３０を登録する構成が好適である。具体的には、空港施設Ｃに設置されたＱＲコード（登録商標）の読取や空港施設Ｃ内の近距離無線機からの無線信号の受信を契機として端末装置３０が登録要求を送信し、登録要求の送信元の端末装置３０を情報管理システム１０が配信対象として登録すれば、コンテンツＱの配信対象を空港施設Ｃ内の端末装置３０に制限することが可能である。

（５）前述の各形態では、コンテンツＱの提供を端末装置３０に通知されるための予告情報として、案内音声のコンテンツＱの識別情報Ｄを例示したが、予告情報は以上の例示に限定されない。例えば、案内音声を放音するスピーカー２８６を識別するための識別情報Ｄを予告情報としてもよい。スピーカー２８６の識別情報Ｄを予告情報とした構成では、スピーカー２８６が放音した案内音声を収音した端末装置３０が当該識別情報Ｄを含むコンテンツＱの配信要求Ｒを送信した場合に、当該スピーカー２８６で放音した最新の案内音声を表すコンテンツＱを配信してもよい。また、予告情報としては、識別情報Ｄ以外でもよい。例えば、図６で例示したように、コンテンツＱの配信を利用者に通知するメッセージを予告情報としてもよい。予告情報としては、端末装置３０がコンテンツＱの配信を利用者に報知する動作の契機として当該端末装置３０に認識され得る情報であれば足りる。すなわち、予告情報は、案内音声に関連するコンテンツＱの提供を端末装置３０に通知するための情報として包括的に表現される。

（６）第３実施形態では、収音部２２が収音した音響信号ＳGを記憶部２１に記憶し、案内者からの指示に応じた文字列Ｌの編集後に音響信号ＳGを記憶部２１から放音部２８に供給したが、文字列Ｌの編集を待たず、第１実施形態と同様に案内者による発音に並行して実時間的に案内音声を放音することも可能である。

（７）複数のコンテンツＱを各々の識別情報Ｄに対応させて端末装置３０の記憶部３７０に事前に格納した構成も採用され得る。各コンテンツＱは、案内者による発音が予定される案内音声の文字列の翻訳文（第２実施形態の文字列Ｙ）を表す。端末装置３０の情報抽出部３２０は、放音システム２０の放音部２８が放音した音響（案内音声と識別情報Ｄの音響成分との混合音）を収音した音響信号Ｓ2から識別情報Ｄを抽出し、表示処理部３５０は、記憶部３７０に記憶された複数のコンテンツＱのうち、情報抽出部３２０が抽出した識別情報Ｄに対応するコンテンツＱを出力部３６０に再生させる。以上の構成によれば、通信網２００を利用した通信を端末装置３０が実行する必要がないから、例えば通信網２００を利用した通信サービスに非加入の利用者（例えば外国人旅行者）でもコンテンツＱを利用できるという利点がある。

（８）前述の各形態における情報管理システム１０は、単体の装置として実現されるほか、相互に別体で構成された複数の装置（サーバ）としても実現され得る。例えば、前述の各形態の情報管理システム１０を、認識処理部１１２を含む第１サーバと、翻訳処理部１１４を含む第２サーバと、配信部１２０を含む第３サーバとに分散し、第１サーバと第２サーバと第３サーバとが例えば通信網２００を介して相互に通信する構成も採用され得る。

（９）前述の各形態では、端末装置３０に対する識別情報Ｄの通知に音響通信を利用したが、識別情報Ｄを端末装置３０に通知する通信の方式は以上の例示に限定されない。例えば、赤外線や電磁波を利用した無線通信（例えば近距離無線通信）で端末装置３０に識別情報Ｄを通知することも可能である。

（１０）翻訳処理部１１４による翻訳後の文字列Ｌ（第２言語）をコンテンツＱとして端末装置３０に配信する構成に加えて、当該文字列Ｌを発音した音声（すなわち第２言語の案内音声）を放音システム２０の放音部２８から放音することも可能である。例えば、図１２に例示される通り、情報管理システム１０に音声合成部１４０が設置される。音声合成部１４０は、翻訳処理部１１４による翻訳後の文字列を適用した音声合成により、当該文字列Ｌを発音した合成音声の音響信号ＳLを生成する。すなわち、認識処理部１１２および翻訳処理部１１４は、コンテンツＱの生成と音響信号ＳLの生成とに流用される。なお、以上の説明では、翻訳処理部１１４を具備する構成（例えば第１実施形態）を例示したが、第２実施形態の選択処理部１１８が案内テーブルＴB1から選択した文字列Ｙを発音した合成音声の音響信号ＳLを音声合成部１４０が生成することも可能である。

音声合成部１４０が生成した音響信号ＳLは、放音システム２０に送信される。放音システム２０の放音部２８は、音響信号ＳGが示す第１言語の案内音声の放音後に、通信部２４が情報管理システム１０から受信した音響信号ＳLが示す第２言語の案内音声を放音する。以上の構成では、第１言語を理解可能な利用者は第１言語の案内音声の聴取により案内を把握し、第２言語を理解可能な利用者は第２言語の案内音声の聴取により案内を把握することが可能である。端末装置３０の利用者は、端末装置３０に配信されるコンテンツＱで案内を確認するとともに、放音システム２０から放音される第２言語の案内音声の聴取によっても案内を把握することが可能である。

情報管理システム１０に音声合成部１４０を設置した構成では、認識処理部１１２が特定した文字列Ｌを翻訳処理部１１４が複数の言語（例えば、第２言語に加えて第３言語や第４言語等）に翻訳し、音声合成部１４０が複数の言語の各々の案内音声を表す音響信号ＳLを生成して放音システム２０に送信してもよい。放音システム２０の放音部２８は、音響信号ＳGが示す第１言語の案内音声の放音後に、通信部２４が情報管理システム１０から受信した複数の音響信号ＳLが示す相異なる言語の案内音声を順次に放音する。なお、翻訳処理部１１４が翻訳する言語の種類数や、各言語の案内音声（例えば第２言語〜第４言語）を放音する順序は任意である。

（１１）予告情報（識別情報Ｄ）を利用してコンテンツＱの配信を利用者に予告する構成は省略され得る。例えば、案内音声の音響成分と予告情報（識別情報Ｄ）の音響成分との混合音の放音や、案内音声の音響信号ＳGに識別情報Ｄの変調信号ＳDを混合する信号処理部２８０を省略し、収音部２２が収音した案内音声をそのままスピーカー２８６から放音することも可能である。

１……音声案内システム、１００……情報提供システム、１０……情報管理システム、１１０……取得部、１１２……認識処理部、１１４……翻訳処理部、１１８……選択処理部、１２０……配信部、１３０……記憶部、１４０……音声合成部、２０……放音システム、２１……記憶部、２２……収音部、２３……表示部、２４……通信部、２５……操作部、２６……設定部、２７……編集処理部、２８……放音部、２９……制御部、２８０……信号処理部、２８２……変調処理部、２８４……混合処理部、２８６……スピーカー、３０……端末装置、３１０……収音部、３２０……情報抽出部、３３０……送信部、３４０……受信部、３５０……表示処理部、３６０……出力部、３７０……記憶部。

Claims

収音部が収音した対象音の音響成分と、前記対象音に関連するコンテンツの配信の予告を端末装置が出力するための予告情報の音響成分と、を含む音響を放音する放音部と、
前記対象音の音響成分の放音の開始後に前記コンテンツを取得する取得部と、
前記取得部が取得したコンテンツを前記端末装置に配信する配信部と、
を具備する情報提供システム。
前記予告情報は、前記コンテンツの識別情報を含み、
前記配信部は、前記放音部が放音した音響から抽出される前記識別情報を指定した配信要求を前記端末装置から受信した場合に、当該識別情報に対応するコンテンツを当該端末装置に配信する
請求項１の情報提供システム。
前記配信部は、前記端末装置から複数回にわたり送信される前記配信要求を順次に受信し、前記配信要求の受信時に前記取得部によるコンテンツの取得が完了している場合に当該コンテンツを前記端末装置に配信する一方、当該コンテンツの取得が完了していなければコンテンツの配信を実行しない
請求項２の情報提供システム。
前記取得部は、
前記対象音に対する音声認識で発音内容の文字列を特定する認識処理部と、
複数の第１文字列の各々について当該第１文字列を他言語に翻訳した第２文字列を対応付けたテーブルから、前記認識処理部が特定した文字列に類似する第１文字列に対応する第２文字列を選択する選択処理部とを含み、
前記選択処理部が選択した第２文字列を表すコンテンツを生成する
請求項１から請求項３の何れかの情報提供システム。
前記取得部は、
前記対象音に対する音声認識で発音内容の文字列を特定する認識処理部と、
前記認識処理部が特定した文字列を他言語に翻訳する翻訳処理部とを含み、
前記翻訳処理部による処理結果を表すコンテンツを生成する
請求項１から請求項３の何れかの情報提供システム。
前記認識処理部が特定した文字列を指示者からの指示に応じて編集する編集処理部を具備し、
前記翻訳処理部は、前記編集処理部による編集後の文字列を他言語に翻訳する
請求項５の情報提供システム。
収音部が収音した対象音の音響成分と、前記対象音に関連するコンテンツの配信の予告を端末装置が出力するための予告情報の音響成分と、を含む音響を放音し、
前記対象音の音響成分の放音の開始後に前記コンテンツを取得し、
前記取得したコンテンツを前記端末装置に配信する
コンピュータシステムにより実現される情報提供方法。
収音部が収音した対象音の音響成分と、前記対象音に関連するコンテンツの配信の予告を端末装置が出力するための予告情報の音響成分と、を含む音響を放音する放音部、
前記対象音の音響成分の放音の開始後に前記コンテンツを取得する取得部、および、
前記取得部が取得したコンテンツを前記端末装置に配信する配信部
としてコンピュータを機能させるプログラム。