JP6596903B2

JP6596903B2 - 情報提供システムおよび情報提供方法

Info

Publication number: JP6596903B2
Application number: JP2015087477A
Authority: JP
Inventors: 愼一佐藤
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2015-04-22
Filing date: 2015-04-22
Publication date: 2019-10-30
Anticipated expiration: 2035-04-22
Also published as: JP2016206394A

Description

本発明は、端末装置の利用者に情報を提供する技術に関する。

画像や音声等のコンテンツを移動端末にて再生するための各種の技術が従来から提案されている。例えば特許文献１には、配信対象として事前に登録された移動端末に対して、当該移動端末の位置に応じたコンテンツを配信する技術が開示されている。

特開２００２−３５１９０５号公報

例えば電車やバス等の交通機関では、乗降や乗換等に関する情報を利用者に案内する案内音声が随時に放音される。案内音声の放音毎に、案内音声の発音内容の文字列や翻訳文等のコンテンツを利用者の移動端末に提供できれば、例えば案内音声の聴取が困難な難聴者や案内音声の言語の理解が困難な外国人等の利用者も案内音声の内容を把握できて便利である。しかし、複数種類の案内音声が時間的に近接して放音された場合、端末装置に提供される複数のコンテンツの各々が、複数種類の案内音声のいずれに対応するかを利用者が把握しづらい問題がある。以上の事情を考慮して、本発明は、案内音声と端末装置で再生されるコンテンツとの相互の対応を利用者が容易に把握できるようにすることを目的とする。

以上の課題を解決するために、本発明に係る情報提供システムは、利用者が聴取すべき第１目的音と前記第１目的音に関連するコンテンツの識別情報の音響成分とを含む第１対象音を放音する放音部と、前記放音部が放音した第１対象音から抽出した識別情報を含む配信要求を端末装置から受信した場合に、当該識別情報が示すコンテンツを前記端末装置に送信して当該コンテンツに含まれる第２対象音を再生させる配信処理部とを具備し、前記第１対象音と前記第２対象音とは、音響の特性が所定の対応関係を有する。以上の構成では、第１目的音を含む第１対象音が放音部から放音される一方、第１対象音との間で音響の特性が所定の対応関係を有する第２対象音を含むコンテンツが端末装置で再生される。したがって、端末装置の利用者は、第１対象音とコンテンツに包含される第２対象音とが相互に対応することを把握することが可能になる。

本発明の好適な態様において、前記第２対象音は、前記第１目的音に関連する第２目的音を含む。以上の構成では、第１目的音を含む第１対象音が放音部から放音される一方、第１目的音に関連する第２目的音を含む第２対象音が端末装置で再生される。したがって、端末装置の利用者は、第１対象音に含まれる第１目的音と、第２対象音に含まれる第２目的音とを聴取することで第１対象音とコンテンツに包含される第２対象音とが相互に対応することを把握することが可能である。

本発明の好適な態様において、前記所定の対応関係は、前記放音部による第１対象音の放音で前記第１目的音の発音が開始される時点と前記端末装置による再生で前記第２目的音の発音が開始される時点とが時間軸上で相互に一致する関係である。以上の構成では、第１目的音の発音が開始される時点と、第２目的音の発音が開始される時点とが時間軸上で相互に一致する。したがって、放音部により放音される第１対象音と端末装置により再生される第２対象音とを聴取する利用者は、第１目的音の発音が開始される時点と、第２目的音の発音が開始される時点の一致を認識することで、第１対象音と第２対象音とが相互に対応することを容易に知覚することが可能になる。
なお、時点ａと時点ｂとが「時間軸上で相互に一致する」とは、時点ａと時点ｂとが完全に同時である場合のほか、時点ａと時点ｂとが実質的に一致する場合（時点ａと時点ｂとが一致するに等しい場合）も含意する。例えば、第１目的音の発音が開始される時点ａと第２目的音の発音が開始される時点ｂとが形式的には相違する場合でも、第１目的音の発音と第２目的音の発音とが略同時に開始されたと受聴者に知覚される程度に相互に近似する場合には、時点ａと時点ｂとの相違は「実質的な一致」の範囲に包含される。

本発明の好適な態様において、前記第１目的音は、当該第１目的音の発音内容の言語的な区分単位である複数の第１分節区間を含み、前記第２目的音は、当該第２目的音の発音内容の言語的な区分単位である複数の第２分節区間を含み、前記所定の対応関係は、前記複数の第１分節区間のうち少なくとも一部の第１分節区間の始点と、前記複数の第２分節区間のうち少なくとも一部の第２分節区間の始点とが時間軸上で相互に一致する関係である。以上の構成では、第１目的音の複数の第１分節区間のうち少なくとも一部の第１分節区間の始点と、第２目的音の複数の第２分節区間のうち少なくとも一部の第２分節区間の始点とが時間軸上で相互に一致する。したがって、放音部により放音される第１対象音と端末装置により再生される第２対象音とを聴取する利用者は、複数の第１分節区間のうち一部の第１分節区間の始点と、複数の第２分節区間のうち一部の第２分節区間の始点との一致を認識することで、第１対象音と第２対象音とが相互に対応することを容易に知覚することが可能になる。

本発明の好適な態様において、前記所定の対応関係は、前記第１目的音の時間長と、前記第２目的音の時間長とが一致する関係である。以上の構成では、第１目的音の時間長と、第２目的音の時間長とが一致する。したがって、放音部により放音される第１対象音と端末装置により再生される第２対象音とを聴取する利用者は、第１目的音と第２目的音とで時間長が一致する旨を認識することで、第１対象音と第２対象音とが相互に対応することを容易に知覚することができる。複数の時点の一致について前述したのと同様に、第１目的音と第２目的音との時間長が「一致する」とは、第１目的音と第２目的音とで時間長が完全に一致する場合のほか、第１目的音と第２目的音とで時間長が実質的に一致する場合も含意する。例えば、第１目的音と第２目的音とで時間長が形式的には相違する場合でも、第１目的音の時間長と第２目的音の時間長とが同等であると受聴者に知覚される程度に相互に近似する場合には、実質的な一致の範囲に包含される。

本発明の好適な態様において、前記第１対象音は、前記第１目的音と前記識別情報の音響成分と第１背景音とを含み、前記第２対象音は、前記第２目的音と第２背景音とを含み、前記所定の対応関係は、前記第１背景音と前記第２背景音とが共通の音楽を表す関係である。以上の構成では、第１対象音が包含する第１背景音と第２対象音が包含する第２背景音とが共通の音楽を表すことから、放音部により放音される第１対象音と端末装置により再生される第２対象音とを聴取する利用者は、第１対象音が包含する第１背景音と、第２対象音が包含する第２背景音とが共通する旨を認識することで、第１対象音と第２対象音とが相互に対応することを容易に知覚することができる。「共通の音楽を表す」とは、第１対象音Ｍ1に包含される第１背景音ＳB1と第２対象音Ｍ2に包含される第２背景音ＳB2とが共通の楽曲を表すことを意味する。第１背景音ＳB1と第２背景音ＳB2とは、共通の楽曲を構成する複数のパートのうち一部の共通のパートの音響であってもよいし、共通の楽曲を構成する複数のパートのうち、第１背景音ＳB1と第２背景音ＳB2とでパートが相違してもよい。後者の構成では、第１背景音ＳB1と第２背景音ＳB2とが異なる楽器音を表す態様が例示される。

本発明の好適な態様において、前記所定の対応関係は、前記第１背景音が、前記音楽における第１周波数帯域内の音響であり、前記第２背景音が、前記音楽における前記第１周波数帯域とは異なる第２周波数帯域内の音響である関係である。以上の構成では、第１背景音と第２背景音とは共通の音楽を表す一方で、周波数帯域が相違する。すなわち、第１背景音は第１周波数帯域内の音響であり、第２背景音は第１周波数帯域とは異なる第２周波数帯域内の音響である。以上の構成によれば、放音部により放音される第１対象音と端末装置により再生される第２対象音とを聴取する利用者は、周波数帯域が相異なる第１背景音と第２背景音とが共通の音楽を表すことを認識することで、第１対象音と第２対象音とが相互に対応することを容易に知覚することが可能である。

以上の各態様に係る情報提供システムで端末装置に送信されるコンテンツの生成方法は任意であるが、例えば以下に例示する各態様のコンテンツ作成支援装置によって生成することが可能である。

第１態様に係るコンテンツ作成支援装置は、第１目的音の発音内容に関連する文字列を発音した音声を含むコンテンツの作成を支援する装置であって、前記第１目的音の時間長と前記文字列の文字数とに応じて、前記第１目的音の時間長にわたり前記文字列を発音するための話速を特定する話速特定部と、前記文字列のうち作成者が発音すべき目標部分を表示部に表示させ、前記話速特定部が特定した話速に応じて前記目標部分を進行させる表示処理部とを具備する。以上の構成では、文字列とともに作成者が発音すべき目標部分を表示部に表示させ、第１目的音の時間長にわたって文字列を発音するための話速に応じて目標部分を進行させる。以上の構成によれば、作成者は目標部分を視覚的に確認しながら文字列を発音することで、作成者が発音した音声（第２目的音）の時間長が第１目的音の時間長と一致するように、第２目的音を含むコンテンツを作成することが可能である。なお、第１目的音の時間長と第２目的音の時間長とが「一致する」とは、第１目的音と第２目的音とで時間長が完全に一致する場合のほか、時間長が実質的に一致する場合も含意する。例えば、第１目的音の時間長と第２目的音の時間長とが形式的には相違する場合でも、第１目的音の時間長と第２目的音の時間長とが同等であると受聴者に知覚される程度に相互に近似する場合には、実質的な一致の範囲に包含される。

第１態様の好適例に係るコンテンツ作成支援装置は、前記話速特定部が特定した話速で前記文字列を発音した音声の音響信号を生成する音声合成部と、前記音声合成部が生成した音響信号に応じた音響を放音する放音部とを具備する。以上の構成では、第１目的音の時間長にわたり文字列が発音されるように特定された話速で文字列を発音した模範的な音声が放音部から放音される。以上の構成によれば、作成者は放音部から放音される音声を聴取しながら、話速にあわせて文字列を発音することで、作成者が発音した音声（第２目的音）の時間長が第１目的音の時間長と一致するように、第２目的音を含むコンテンツを作成することが可能である。

第２態様に係るコンテンツ作成支援装置は、第１目的音の発音内容に関連する文字列を発音した音声を含むコンテンツの作成を支援する装置であって、前記第１目的音を時間軸上で区分した複数の第１分節区間の各々について発音の抑揚を特定する抑揚特定部と、前記文字列を表示部に表示させる要素であって、当該文字列を区分した複数の第２分節区間の各々を、当該第２分節区間に意味が対応する前記第１分節区間について前記抑揚特定部が特定した抑揚に応じた表示態様で表示させる表示処理部とを具備する。以上の構成では、文字列を区分した第２分節区間を、当該第２分節区間に意味が対応する第１分節区間について特定された抑揚に応じた表示態様で表示部に表示させる。以上の構成によれば、作成者は文字列の表示態様を視覚的に確認しながら、表示態様から把握される抑揚に応じて文字列を発音することで、第１目的音の第１分節区間に意味が対応する第２分節区間を、第１分節区間と同様の抑揚で発音した第２目的音を含むコンテンツを作成することが可能である。

上記第２態様の好適例に係るコンテンツ作成支援装置は、複数の第２分節区間の各々を、当該第２分節区間に対応する第１分節区間について特定された抑揚で発音した音声の音響信号を生成する音声合成部と、前記音声合成部が生成した音響信号に応じた音響を放音する放音部とを具備する。以上の構成では、第１目的音の各第１分節区間について特定された抑揚で文字列を発音した模範的な音声が放音部から放音される。以上の構成によれば、作成者は、放音部から放音される音声を聴取して、放音される音声から把握される抑揚に応じて文字列を発音することで、第１目的音の第１分節区間に意味が対応する第２分節区間を、第１分節区間と同様の抑揚で発音した第２目的音を含むコンテンツを作成することが可能である。

以上の各態様に係る情報提供システムは、専用の電子回路で実現されるほか、ＣＰＵ（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、以上の各態様に係る情報提供システムの動作方法（情報提供方法）としても本発明は特定される。

本発明の第１実施形態に係る音声案内システム１の構成図である。案内装置１０の構成図である。信号合成部１８の構成図である。端末装置３０の構成図である。第１実施形態の配信装置２０の構成図である。第１目的音Ｘ1と第２目的音Ｘ2との説明図である。音声案内システム１の全体的な動作の説明図である。第１対象音Ｍ1と第２対象音Ｍ2との対応関係１の説明図である。第１対象音Ｍ1と第２対象音Ｍ2との対応関係１の説明図である。第１対象音Ｍ1と第２対象音Ｍ2との対応関係２の説明図である。第１対象音Ｍ1と第２対象音Ｍ2との対応関係３の説明図である。第１対象音Ｍ1と第２対象音Ｍ2との対応関係３の説明図である。第１対象音Ｍ1と第２対象音Ｍ2との対応関係４の説明図である。第１周波数帯域Ｂ1および第２周波数帯域Ｂ2の説明図である。第１対象音Ｍ1と第２対象音Ｍ2との対応関係５の説明図である。第２実施形態の配信装置２０の構成図である。第２実施形態のコンテンツテーブルＴB1の模式図である。第３実施形態の第１態様のコンテンツ作成支援装置４０の構成図である。第３実施形態の認識処理部４１，翻訳処理部４３，および，話速特定部４４の処理の説明図である。表示処理部４５が表示部４６に表示させる指示画像Ｐの遷移の説明図である。第３実施形態の第２態様のコンテンツ作成支援装置４０の構成図である。第３実施形態の抑揚特定部５３，翻訳処理部４３，および，対応特定部５５の処理の説明図である。抑揚Ｗに応じた表示態様で表示される文字列Ｎの一例を示す図である。変形例のコンテンツ作成支援装置４０の構成図である。変形例のコンテンツ作成支援装置４０の構成図である。抑揚Ｗに応じた表示態様で表示される文字列Ｎの一例を示す図である。

＜第１実施形態＞
第１実施形態の音声案内システム１の概要について説明する。以下の説明では、第１実施形態の音声案内システム１を公共交通機関の音声案内に利用した構成を例示する。

図１は、本発明の第１実施形態に係る音声案内システム１の構成図である。図１に例示される通り、第１実施形態の音声案内システム１は、情報提供システム１００と端末装置３０とを包含する。情報提供システム１００は、端末装置３０に各種の情報を提供するコンピュータシステムである。端末装置３０は、例えば携帯電話機やスマートフォン等の可搬型の情報処理装置である。以下の説明では、電車やバス等の交通機関の車輌Ｃ内に端末装置３０の利用者Ｕが所在し、利用者Ｕを案内する音声の放音に連動して、当該音声に関連するコンテンツＱが端末装置３０に提供される。なお、図１では１個の端末装置３０のみを便宜的に図示したが、実際には複数の端末装置３０の各々に対して情報提供システム１００からコンテンツＱが提供され得る。

図１に例示される通り、第１実施形態の情報提供システム１００は、案内装置１０と配信装置２０とを具備する。端末装置３０は、移動体通信網やインターネット等を含む通信網２００を介して配信装置２０と通信可能である。

案内装置１０は、交通機関の車輌Ｃ内に設置され、車輌Ｃ内の利用者Ｕに対して第１対象音Ｍ1を放音する放送システムである。第１対象音Ｍ1は、第１目的音Ｘ1と音響成分ＶDとを包含する。第１目的音Ｘ1は、利用者Ｕが聴取すべき音響である。第１実施形態では、交通機関に関する案内用の音声（案内音声）を第１目的音Ｘ1として例示する。例えば、交通機関の乗降（電車の駅やバスの停留所等の停車地点の名称）や乗車（降車）位置，乗換，運賃，運行状況（例えば停止信号，運行間隔，遅延状況等），周辺の観光地等を案内する案内音声が第１目的音Ｘ1として案内装置１０から車輌Ｃ内の利用者Ｕに放音される。他方、音響成分ＶDは、第１目的音Ｘ1に関連するコンテンツＱに対して一意に付与された識別情報Ｄを含有する音響である。すなわち、第１実施形態では、第１目的音Ｘ1の放音に並行して、空気振動としての音響（音波）を伝送媒体とする音響通信で案内装置１０から端末装置３０に識別情報Ｄが通知される。

他方、配信装置２０は、案内装置１０が放音する第１目的音Ｘ1に関連するコンテンツＱを端末装置３０に配信する。具体的には、第１目的音Ｘ1の放音とともに通知された識別情報Ｄを指定した配信要求Ｒが端末装置３０から配信装置２０に送信され、配信装置２０は、当該配信要求Ｒで指定された識別情報Ｄに対応するコンテンツＱを要求元の端末装置３０に配信する。第１実施形態のコンテンツＱは、第２対象音Ｍ2を包含する。第１目的音Ｘ1に関連するコンテンツＱの第２対象音Ｍ2は、当該第１目的音Ｘ1に関連する第２目的音Ｘ2を含有する。第１実施形態の第２目的音Ｘ2は、第１言語の第１目的音Ｘ1を他言語（第２言語）に翻訳した翻訳音声である。すなわち、第１目的音Ｘ1と第２目的音Ｘ2とは意味ないし内容が相互に関連する。以上の説明から理解される通り、端末装置３０の利用者Ｕは、案内装置１０から放音される第１目的音Ｘ1と、配信装置２０から配信されたコンテンツＱの第２目的音Ｘ2とを聴取可能である。

＜案内装置１０＞
図２は、案内装置１０の構成図である。図２に例示される通り、第１実施形態の案内装置１０は、操作部１２と制御部１４と記憶部１６と信号合成部１８と放音部１９とを具備する。記憶部１６は、プログラムや各種のデータを記憶する。例えば半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組み合わせが記憶部１６として任意に採用される。第１実施形態では、相異なる発音内容の第１目的音Ｘ1を表す複数の音響信号（以下「対象信号」という）ＳGが記憶部１６に記憶される。任意の第１目的音Ｘ1を表す対象信号ＳGには、当該第１目的音Ｘ1に関連するコンテンツＱの識別情報Ｄが対応づけて記憶される。記憶部１６に記憶されたプログラムをＣＰＵが実行することで、案内装置１０の各機能（制御部１４、信号合成部１８）が実現される。

操作部１２は、案内装置１０を管理する案内者が操作する入力機器である。第１実施形態の操作部１２は、複数の第１目的音Ｘ1の何れかを選択する指示を案内者から受付ける。制御部１４は、操作部１２に対する操作で案内者が選択した第１目的音Ｘ1の対象信号ＳGと当該対象信号ＳGに対応する識別情報Ｄとを記憶部１６から読み出して信号合成部１８に供給する。

信号合成部１８は、識別情報Ｄを対象信号ＳGに重畳することで第１対象音Ｍ1の音響信号Ｓ1を生成する。対象信号ＳGに対する識別情報Ｄの重畳（音響透かし）には公知の方法が任意に採用され得るが、例えば国際公開第２０１０／０１６５８９号に開示された方法が好適である。具体的には、信号合成部１８は、図３に例示される通り、変調処理部１８２と混合処理部１８４とを包含する。変調処理部１８２は、拡散符号を利用した識別情報Ｄの拡散変調と所定の周波数の搬送波を利用した周波数変換とを順次に実行することで、識別情報Ｄを所定の周波数帯域の音響成分ＶDとして含有する音響信号（以下「変調信号」という）ＳDを生成する。変調信号ＳDの周波数帯域は、例えば、放音部１９による放音と端末装置３０による収音とが可能な周波数帯域であり、かつ、利用者Ｕが通常の環境で聴取する音声（例えば第１目的音Ｘ1）や楽音等の音響の周波数帯域（例えば可聴域内の約１６ｋＨｚ以下）を上回る周波数帯域（例えば１８ｋＨｚ以上かつ２０ｋＨｚ以下）の範囲内に設定され得る。もっとも、変調信号ＳDの周波数帯域は、以上の例示に限定されない。例えば、可聴域内の約１６ｋＨｚ以下に設定されてもよい。例えば、変調信号ＳDを表す音響成分ＶDは、第１目的音Ｘ1とは区別される音響であり、例えば、車輌Ｃ内の各利用者Ｕの注意を喚起する「ピンポーン」等の案内用の通知音等である。

図３の混合処理部１８４は、制御部１４から供給された第１目的音Ｘ1の対象信号ＳGと変調処理部１８２が生成した変調信号ＳDとを重畳（典型的には加算）することで音響信号Ｓ1を生成する。以上の説明から理解される通り、音響信号Ｓ1は、第１目的音Ｘ1を表す対象信号ＳGと、当該第１目的音Ｘ1に関連するコンテンツＱの識別情報Ｄの音響成分ＶDを表す変調信号ＳDとを含有する。

図２の放音部１９は、信号合成部１８から供給される音響信号Ｓ1に応じた第１対象音Ｍ1を放音する音響機器である。すなわち、前述の通り、利用者Ｕが聴取すべき第１目的音Ｘ1（対象信号ＳG）と、当該第１目的音Ｘ1に関連するコンテンツＱの識別情報Ｄの音響成分ＶD（変調信号ＳD）とを含む第１対象音Ｍ1が放音部１９から放音される。なお、音響信号Ｓ1をデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略されている。

＜端末装置３０＞
図４は、端末装置３０の構成図である。図４に例示される通り、端末装置３０は、収音部３１と記憶部３２と情報抽出部３３と送信部３４と受信部３５と放音部３６とを含んで構成される。記憶部３２は、端末装置３０の各要素を制御するＣＰＵが実行するプログラム等を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶部３２として任意に採用される。記憶部３２に記憶されたプログラムをＣＰＵが実行することで情報抽出部３３が実現される。収音部３１は、周囲の音響を収音する音響機器（マイクロホン）であり、案内装置１０の放音部１９から放音される第１対象音Ｍ1を収音して音響信号ＳXを生成する。音響信号ＳXは、識別情報Ｄの音響成分ＶDを含有する。なお、収音部３１が生成した音響信号ＳXをアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略されている。

情報抽出部３３は、収音部３１が生成した音響信号ＳXの復調で識別情報Ｄを抽出する。具体的には、情報抽出部３３は、音響信号ＳXのうち識別情報Ｄを含む周波数帯域の帯域成分を例えば帯域通過フィルタで強調し、識別情報Ｄの拡散変調に利用された拡散符号を係数とする整合フィルタを通過させることで識別情報Ｄを抽出する。以上の説明から理解される通り、案内装置１０の放音部１９は識別情報Ｄを送信する送信機として機能し、端末装置３０の収音部３１は識別情報Ｄを受信する受信機として機能する。

送信部３４および受信部３５は、通信網２００を介して配信装置２０と通信する通信機器で実現される。送信部３４は、放音部１９が放音した第１対象音Ｍ1から抽出された識別情報Ｄを含むコンテンツＱの配信要求Ｒを配信装置２０に送信する。受信部３５は、配信要求Ｒに応じて配信装置２０から配信されたコンテンツＱを受信する。

放音部３６は、配信装置２０から配信されたコンテンツＱを放音する機器である。第１実施形態のコンテンツＱは、第２対象音Ｍ2を表す音響信号Ｓ2を包含する。放音部３６は、配信装置２０から配信されたコンテンツＱの音響信号Ｓ2に応じた第２対象音Ｍ2を放音する。なお、音響信号Ｓ2をデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略されている。

＜配信装置２０＞
図５は、配信装置２０の構成図である。図５に例示される通り、第１実施形態の配信装置２０は、受信部２２と選択処理部２４と記憶部２６と配信部２８とを具備する。記憶部２６は、相異なる第１目的音Ｘ1に関連する複数のコンテンツＱを記憶する。各コンテンツＱには識別情報Ｄが対応付けられる。また、記憶部２６は、配信装置２０の各要素を制御するＣＰＵが実行するプログラム等を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶部２６として任意に採用される。記憶部２６に記憶されたプログラムをＣＰＵが実行することで、配信装置２０の選択処理部２４が実現される。

受信部２２および配信部２８は、通信網２００を介して端末装置３０と通信する通信機器である。受信部２２は、端末装置３０から識別情報Ｄを含むコンテンツＱの配信要求Ｒを受信する。選択処理部２４は、記憶部２６に記憶された複数のコンテンツＱのうち配信要求Ｒで指定された識別情報Ｄに対応するコンテンツＱを選択する。配信部２８は、選択処理部２４が選択したコンテンツＱを、配信要求Ｒを送信した端末装置３０に配信する。具体的には、配信部２８は、識別情報Ｄを含むコンテンツＱの配信要求Ｒを端末装置３０から受信した場合に、当該識別情報Ｄに対応するコンテンツＱを端末装置３０に配信するとともに当該コンテンツＱを端末装置３０で再生させる。

以上の説明から理解される通り、案内音声の第１目的音Ｘ1とともに案内装置１０の放音部１９から放音された音響成分ＶDにより端末装置３０に識別情報Ｄが通知され、識別情報Ｄを指定した配信要求Ｒを契機としたコンテンツＱの配信により第２対象音Ｍ2が放音部３６から放音される。すなわち、第１目的音Ｘ1を含む第１対象音Ｍ1の放音に連動して、当該第１目的音Ｘ1に関連する第２目的音Ｘ2を含む第２対象音Ｍ2が放音される。例えば、図６に例示されるように、「次は、渋谷です。」という第１目的音Ｘ1を含む第１対象音Ｍ1が放音部１９から放音された場合、放音部３６は、第１目的音Ｘ1を第２言語（図６では英語）に変換した第２目的音Ｘ2「The next station is Shibuya.」を包含する第２対象音Ｍ2を放音する。以上の説明から把握される通り、選択処理部２４と配信部２８とは、識別情報Ｄを含む配信要求Ｒを端末装置３０から受信した場合に、識別情報Ｄが示すコンテンツＱを要求元の端末装置３０に送信して当該コンテンツＱに含まれる第２対象音Ｍ2を再生（放音）させる配信処理部として機能する。

図７は、音声案内システム１の全体的な動作の説明図である。案内装置１０の放音部１９は、第１目的音Ｘ1と音響成分ＶDとを包含する第１対象音Ｍ1を放音する（ＳA1）。端末装置３０の収音部３１は、放音部１９が放音した第１対象音Ｍ1を収音して音響信号ＳXを生成する（ＳA2）。情報抽出部３３は、収音部３１が生成した音響信号ＳXの復調で識別情報Ｄを抽出する（ＳA3）。送信部３４は、情報抽出部３３が抽出した識別情報Ｄを含む配信要求Ｒを配信装置２０に送信する（ＳA4）。配信装置２０の選択処理部２４は、記憶部２６に記憶された複数のコンテンツＱのうち配信要求Ｒで指定された識別情報Ｄに対応するコンテンツＱを選択する（ＳA5）。配信部２８は、選択処理部２４によって選択されたコンテンツＱを端末装置３０に配信し（ＳA6）、端末装置３０で再生させる。端末装置３０の受信部３５は、配信装置２０（配信部２８）から配信されたコンテンツＱを受信し（ＳA7）、端末装置３０の放音部３６はコンテンツＱが包含する第２対象音Ｍ2を放音する（ＳA8）。

ところで、交通機関では、発音内容が相違する複数種の第１目的音Ｘ1（案内音声）が順次に放音されるから、各第１目的音Ｘ1に対応するコンテンツＱが端末装置３０に対して配信装置２０から順次に配信される。すなわち、相異なる第１目的音Ｘ1を含む第１対象音Ｍ1が放音部１９から順次に放音されるのに並行して、相異なる第２目的音Ｘ2を含む第２対象音Ｍ2が放音部３６から順次に放音される。したがって、第１言語の理解が困難な外国人等の利用者Ｕは、案内装置１０から放音される第１対象音Ｍ1と、自身の端末装置３０から放音される第２対象音Ｍ2との対応関係を把握しづらいという問題が生じ得る。以上の事情を考慮して、第１実施形態では、第１対象音Ｍ1と第２対象音Ｍ2とが所定の対応関係を有するように構成される。第１対象音Ｍ1と第２対象音Ｍ2との所定の対応関係とは、音響の特性における対応関係を意味する。すなわち、第１対象音Ｍ1と第２対象音Ｍ2との対応関係は、第１目的音Ｘ1と第２目的音Ｘ2との間における意味内容が相互に関連する関係とは相違する。音響の特性における対応関係には種々の態様（対応関係１〜対応関係５）が包含される。以下、各対応関係について図面を参照しながら説明する。

＜対応関係１＞
図８は、第１対象音Ｍ1と第２対象音Ｍ2との間の対応関係１の説明図である。対応関係１は、第１目的音Ｘ1の発音が開始する時点ｔ1と、第２目的音Ｘ2の発音が開始する時点ｔ2とが時間軸上で一致する関係である。

図８に例示されるように、第１対象音Ｍ1は第１目的音Ｘ1と識別情報Ｄの音響成分ＶDとを含み、第２対象音Ｍ2は第２目的音Ｘ2を含む。音響成分ＶDは時点ｔ0で放音が開始されて時間長ＴDに亘り放音される。第１目的音Ｘ1の放音は、音響成分ＶDの放音が終了する時点ｔ1で開始され、第２目的音Ｘ2の放音は、時点ｔ1と時間軸上で一致する時点ｔ2で開始される。第１実施形態では、以上に例示した対応関係１が成立する（第１目的音Ｘ1の開始の時点ｔ1と第２目的音Ｘ2の開始の時点ｔ2とが時間軸上で一致する）ように、第２目的音Ｘ2の始点を調整した音響信号Ｓ2が事前に生成されてコンテンツＱに含められ、かつ、配信装置２０の配信部２８が端末装置３０に対するコンテンツＱの配信を開始する。対応関係１では、端末装置３０の利用者Ｕは、第１対象音Ｍ1（第１目的音Ｘ1）と第２対象音Ｍ2（第２目的音Ｘ2）との対応を把握することが可能である。

第１目的音Ｘ1の発音が開始する時点ｔ1と第２目的音Ｘ2の発音が開始する時点ｔ2とが時間軸上で相互に一致する場合とは、図８で例示されるように時点ｔ1と時点ｔ2とが時間軸上で完全に一致する場合に加えて、時間軸上で実質的に一致する場合を含意する。例えば、図９に例示されるように、第１目的音Ｘ1の開始の時点ｔ1に対して、第２目的音Ｘ2の開始の時点ｔ2が遅延時間Δｔ分遅れた場合でも、第１目的音Ｘ1の発音と第２目的音Ｘ2の発音とが略同時に開始されたと利用者Ｕが知覚する程度に時点ｔ1と時点ｔ2とが時間軸上で相互に近接する場合には、第１目的音Ｘ1の開始時点ｔ1と第２目的音Ｘ2の開始時点ｔ2とは時間軸上で実質的に一致すると表現され得る。

＜対応関係２＞
図１０は、第１対象音Ｍ1と第２対象音Ｍ2との間の対応関係２の説明図である。対応関係２は、第１目的音Ｘ1を発音内容の言語的な区分単位で区分した複数の第１分節区間ＨA（ＨA1，ＨA2，……）の各々の始点と、第２目的音Ｘ2を発音内容の言語的な区分単位に区分した複数の第２分節区間ＨB（ＨB1，ＨB2，……）の各々の始点とが時間軸上で相互に一致する関係である。「言語的な区分単位」としては、例えば、「文」、「単語」、「文節」、「音節」、「モーラ」等の分節単位が例示され得る。図１０では、「単語」を区分単位とした場合が例示されている。

図１０に例示されるように、第１目的音Ｘ1「次は、渋谷です。」の複数の第１分節区間ＨAの各々と、第２目的音Ｘ2「The next station is Shibuya.」の複数の第２分節区間ＨBの各々とを時系列順に組み合わせた各対では、発音が開始される始点が時間軸上で一致する。例えば、第１分節区間ＨA1の始点ｔ1と第２分節区間ＨB1の始点ｔ2とは一致し、第１分節区間ＨA2の始点ｔ3と第２分節区間ＨB2の始点ｔ4とは一致する。第１実施形態では、以上に説明した対応関係２が成立するように、各第２分節区間ＨBの始点（ｔ2,ｔ4,ｔ6,ｔ8）を調整した音響信号Ｓ2が事前に生成されてコンテンツＱに含められ、かつ、配信装置２０の配信部２８が端末装置３０に対するコンテンツＱの配信を開始する。対応関係２では、第１目的音Ｘ1の各第１分節区間ＨAと第２目的音Ｘ2の各第２分節区間ＨBとの間で始点が一致するから、端末装置３０の利用者Ｕは、第１対象音Ｍ1（第１目的音Ｘ1）と第２対象音Ｍ2（第２目的音Ｘ2）との対応を容易に把握することが可能である。

なお、図１０では、第１目的音Ｘ1の全部の第１分節区間ＨAの各々の始点が第２目的音Ｘ2の各第２分節区間ＨBの始点に一致する場合を例示したが、第１目的音Ｘ1の一部の第１分節区間ＨAと第２目的音Ｘ2の一部の第２分節区間ＨBとで始点を一致させる（他の第１分節区間ＨAと第２分節区間ＨBとは始点が相違する）ことも可能である。また、第１目的音Ｘ1と第２目的音Ｘ2とでは言語が相違するから、第１分節区間ＨAの総数と第２分節区間ＨBの総数とは必ずしも一致しない。例えば、図１０の例示では、第１分節区間ＨAの総数は４個であり、第２分節区間ＨBの総数は５個である。以上の説明から把握される通り、対応関係２は、第１目的音Ｘ1の複数の第１分節区間ＨAのうち少なくとも一部の第１分節区間ＨAの始点と、第２目的音Ｘ2の複数の第２分節区間ＨBのうち少なくとも一部の第２分節区間ＨBの始点とが時間軸上で相互に一致する関係として包括的に表現される。すなわち、第１目的音Ｘ1の各第１分節区間ＨAと第２目的音Ｘ2の各第２分節区間ＨBとを時系列順に組み合わせた対の全部について始点が時間軸上で一致することは要しない。

＜対応関係３＞
図１１は、第１対象音Ｍ1と第２対象音Ｍ2との間の対応関係３の説明図である。対応関係３は、図１１に例示される通り、第１目的音Ｘ1の時間長Ｔ1と第２目的音Ｘ2の時間長Ｔ2とが相互に一致する関係である。図１１に例示されるように、第１目的音Ｘ1の時間長Ｔ1は、第１目的音Ｘ1の発音が開始される時点ｔ1から発音が終了する時点ｔ3までの時間長であり、第２目的音Ｘ2の時間長Ｔ2は、第２目的音Ｘ2の発音が開始される時点ｔ2から発音が終了する時点ｔ4までの時間長である。第１実施形態では、第１目的音Ｘ1の時間長Ｔ1と第２目的音Ｘ2の時間長Ｔ2とが一致する（対応関係３が成立する）ように、第２目的音Ｘ2の時間長Ｔ2を調整した音響信号Ｓ2が事前に生成されてコンテンツＱに含められ、かつ、配信装置２０の配信部２８が端末装置３０に対するコンテンツＱの配信を開始する。対応関係３では、第１目的音Ｘ1の時間長Ｔ1と第２目的音Ｘ2の時間長Ｔ2とが一致するから、端末装置３０の利用者Ｕは、第１対象音Ｍ1（第１目的音Ｘ1）と第２対象音Ｍ2（第２目的音Ｘ2）との対応を容易に把握することが可能である。

なお、時間長が「一致する」とは、第１目的音Ｘ1の時間長Ｔ1と第２目的音Ｘ2の時間長Ｔ2とが完全に一致する場合のほか、実質的に一致する場合も含意する。例えば、図１２に例示されるように、第１目的音Ｘ1の時間長Ｔ1と第２目的音Ｘ2の時間長Ｔ2とが形式的には相違する場合（時間長Ｔ2＜時間長Ｔ1）でも、第１目的音Ｘ1の時間長Ｔ1と第２目的音Ｘ2の時間長Ｔ2とが同等であると受聴者に知覚される程度に時間長Ｔ1および時間長Ｔ2とが相互に近似する場合には、実質的な一致の範囲に包含される。

＜対応関係４＞
図１３は、第１対象音Ｍ1と第２対象音Ｍ2との間の対応関係４の説明図である。第１対象音Ｍ1は、第１目的音Ｘ1と音響成分ＶDとに加えて、楽曲の演奏音（音楽）を表す第１背景音（ＢＧＭ）ＳB1を含み、第２対象音Ｍ2は、第２目的音Ｘ2に加えて、楽曲の演奏音を表す第２背景音ＳB2を含む。対応関係４は、第１対象音Ｍ1に包含される第１背景音ＳB1と第２対象音Ｍ2に包含される第２背景音ＳB2とが共通の楽曲を表す関係である。

図１３に例示されるように、案内装置１０の放音部１９からは、音響成分ＶDが時点ｔ0から時点ｔ1までの時間長ＴDに亘り放音され、時点ｔ1を起点として、第１対象音Ｍ1のうち第１目的音Ｘ1と第１背景音ＳB1との混合音が放音される。他方、端末装置３０の放音部３６からは、時点ｔ2を起点として、第２目的音Ｘ2と第２背景音ＳB2との混合音が放音される。第１実施形態では、第２対象音Ｍ2が包含する第２背景音ＳB2と、第１対象音Ｍ1が包含する第１背景音ＳB1とが、共通の楽曲の演奏音（楽器の演奏音や歌唱音）である（対応関係４が成立する）ように、音響信号Ｓ2が事前に生成されてコンテンツＱに含められ、かつ、配信装置２０の配信部２８が端末装置３０に対するコンテンツＱの配信を開始する。対応関係４では、第１背景音ＳB1と第２背景音ＳB2とが共通の楽曲の演奏音であるから、端末装置３０の利用者Ｕは、第１対象音Ｍ1（第１背景音ＳB1）と第２対象音Ｍ2（第２背景音ＳB2）との対応を容易に把握することが可能である。

第１背景音ＳB1と第２背景音ＳB2との対応関係４は以上の例示（演奏音が共通する関係）に限定されない。例えば、図１４に例示される通り、第１背景音ＳB1が楽曲の演奏音のうち特定の周波数帯域Ｂ1（第１周波数帯域）の音響成分であり、第２背景音ＳB2が、楽曲の演奏音のうち周波数帯域Ｂ1とは異なる周波数帯域Ｂ2（第２周波数帯域）の音響成分である関係も、対応関係４には包含される。また、楽曲を構成する複数のパートのうち第１パート（単数または２以上のパート）の演奏音を第１背景音ＳB1とし、第１パートとは異なる第２パートの演奏音を第２背景音ＳB2とすることも可能である。第１背景音ＳB1および第２背景音ＳB2の一方を楽曲の演奏音とし、第１背景音ＳB1および第２背景音ＳB2の他方を、当該楽曲の一部のパートを他の楽器（例えば利用者Ｕの出身地の伝統楽器）の演奏音とした構成も好適である。

＜対応関係５＞
図１５は、第１対象音Ｍ1と第２対象音Ｍ2との間の対応関係５の説明図である。対応関係５は、第１目的音Ｘ1を区分した複数の第１分節区間ＨA（ＨA1，ＨA2，……）と第２目的音Ｘ2を区分した複数の第２分節区間ＨB（ＨB1，ＨB2，……）との間で相互に対応するもの同士が同様の抑揚で発音される関係である。抑揚は、発音の強弱や音高の高低等で特徴付けられる音声の調子を意味する。第１分節区間ＨAおよび第２分節区間ＨBは、典型的には図１５に例示されるように単語であるが、単語以外の分節単位（例えば文節，音節，モーラ，文）で第１分節区間ＨAおよび第２分節区間ＨBを画定することも可能である。

図１５では、言語的に相互に対応する（すなわち意味内容が共通する）第１分節区間ＨAと第２分節区間ＨBとで抑揚が同様である場合が例示されている。具体的には、第１目的音Ｘ1のうち「つぎ」という第１分節区間ＨA1と、第２目的音Ｘ2のうちその翻訳に相当する「next」という第２分節区間ＨB2とは双方とも中程度の抑揚で発音される。また、第１目的音Ｘ1のうち「しぶや」という第１分節区間ＨA3と第２目的音Ｘ2のうちその翻訳に相当する「Shibuya」という第２分節区間ＨB5とは双方とも強い抑揚で発音される。第１実施形態では、以上の例示の通り、第１目的音Ｘ1の第１分節区間ＨAと第２目的音Ｘ2の第２分節区間ＨBとで抑揚が近似する（すなわち対応関係５が成立する）ように発音された第２目的音Ｘ2が事前に収録されてコンテンツＱに含められる。対応関係５では、第１目的音Ｘ1と第２目的音Ｘ2との間で相互に対応する分節区間（ＨA，ＨB）が同様の抑揚で発音されるから、端末装置３０の利用者Ｕは、第１対象音Ｍ1（第１目的音Ｘ1）と第２対象音Ｍ2（第２目的音Ｘ2）との対応を容易に把握することが可能である。

第１対象音Ｍ1と第２対象音Ｍ2との対応関係１〜５について以上に例示したが、第１対象音Ｍ1と第２対象音Ｍ2との対応関係は以上の例示に限定されない。例えば、前述の対応関係１では第１目的音Ｘ1の開始の時点ｔ1と第２目的音Ｘ2の開始の時点ｔ2とが時間軸上で一致する関係を例示したが、時点ｔ1および時点ｔ2の一方が他方に対して所定の時間だけ遅延した関係としてもよい。また、前述の対応関係２では、複数の第１分節区間ＨAの各々の始点と、複数の第２分節区間ＨBの各々の始点とが時間軸上で相互に一致する関係を例示したが、第１分節区間ＨAの時間長と、当該第１分節区間ＨAと時系列順で対応する第２分節区間ＨBの時間長とが一致する関係としてもよい。また、対応関係４の変形として、第１分節区間ＨAの始点に対応する第１背景音ＳB1の時間軸上の位置（例えば、楽曲の始点からの位置）と、第２分節区間ＨBの始点に対応する第２背景音ＳB2の時間軸上の位置（例えば、楽曲の時点からの位置）とが一致する関係としてもよい。以上の例示以外にも、第１目的音Ｘ1の話速と第２目的音Ｘ2の話速とが同一である関係等も好適である。

＜第２実施形態＞
本発明の第２実施形態を説明する。第１実施形態では、第１言語の１個の第１目的音Ｘ1に対して、当該第１目的音Ｘ1を第２言語に翻訳した第２目的音Ｘ2を包含する１個のコンテンツＱを用意した。第２実施形態では、第１言語の１個の第１目的音Ｘ1に対して、当該第１目的音Ｘ1を複数の他言語に翻訳した複数の第２目的音Ｘ2を各々含む複数のコンテンツＱが事前に用意される。第１目的音Ｘ1と第２目的音Ｘ2とで意味内容が相互に関連する点や、第１対象音Ｍ1と第２対象音Ｍ2とが所定の対応関係を有する点は第１実施形態と同様である。以下に例示する各態様において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

図１６は、第２実施形態の配信装置２０の構成図である。図１６に例示される通り、端末装置３０は、音響信号ＳXから抽出した識別情報Ｄとともに言語情報Ｆを含む配信要求Ｒを配信装置２０に送信する。言語情報Ｆは、利用者Ｕが使用する言語を指定する情報であり、例えば利用者Ｕにより選択される。

図１６に例示される通り、第２実施形態の配信装置２０は、受信部２２と選択処理部２４と記憶部２６と配信部２８とを具備する。第２実施形態の記憶部２６は、識別情報Ｄを対応付けた複数のコンテンツＱに代えてコンテンツテーブルＴB1を記憶する。受信部２２は、識別情報Ｄを含むコンテンツＱの配信要求Ｒと言語情報Ｆとを受信する。選択処理部２４は、受信部２２が受信した識別情報Ｄと言語情報Ｆとに対応するコンテンツＱをコンテンツテーブルＴB1から選択する。配信部２８は、第１実施形態と同様に、選択処理部２４が選択したコンテンツＱを端末装置３０に配信する。

図１７は、コンテンツテーブルＴB1の模式図である。図１７に例示される通り、コンテンツテーブルＴB1には、識別情報Ｄと複数の言語情報Ｆと、言語情報Ｆ毎に事前に用意された複数のコンテンツＱ（Ｑ1，Ｑ2，Ｑ3，……）とが対応付けられる。第２実施形態では、第１言語の第１目的音Ｘ1を複数の他言語にそれぞれ翻訳した第２目的音Ｘ2を含む複数のコンテンツＱが事前に用意されて１個の識別情報Ｄに対応付けられる。例えば、図１７の例では、１個の第１目的音Ｘ1を３種類の言語情報Ｆ（例えば、英語、スペイン語、ドイツ語）に翻訳した３種類の第２目的音Ｘ2をそれぞれ包含する３種類のコンテンツＱ（Ｑ1，Ｑ2，Ｑ3，……）が事前に用意されて１個の識別情報Ｄに対応付けられる。

選択処理部２４は、識別情報Ｄと言語情報Ｆとに対応付けられた複数のコンテンツＱのうち、配信要求Ｒで指定された識別情報Ｄと言語情報Ｆとに対応するコンテンツＱをコンテンツテーブルＴB1から選択する。第１実施形態と同様に、選択処理部２４と配信部２８とは、識別情報Ｄを含む配信要求Ｒを端末装置３０から受信した場合に、識別情報Ｄが示すコンテンツＱを要求元の端末装置３０に送信して当該コンテンツＱに含まれる第２対象音Ｍ2を再生（放音）させる配信処理部として機能する。以降の処理は第１実施形態と同様であるので詳細な説明を省略する。

第２実施形態によっても、第１実施形態と同様の効果が実現される。また、第２実施形態では、第１言語の１個の第１目的音Ｘ1に対して、当該第１目的音Ｘ1を複数の他言語に翻訳した複数の第２目的音Ｘ2の各々を含む複数のコンテンツＱが用意されるから、第１言語の１個の第１目的音Ｘ1を第２言語に翻訳した第２目的音Ｘ2を含む１個のコンテンツＱが用意される第１実施形態の構成と比較して、利用者Ｕの利便性を向上させることができるという利点もある。

＜第３実施形態＞
第３実施形態では、第１実施形態で例示した対応関係が第１対象音Ｍ1と第２対象音Ｍ2との間で成立するように生成された第２対象音Ｍ2を含むコンテンツＱの作成方法について説明する。第３実施形態では、第１目的音Ｘ1の発音内容に関連する文字列を作成者が発音した音声（第２目的音Ｘ2）を含むコンテンツＱを作成する。以下の説明では、第１実施形態で例示した対応関係のうち第１目的音Ｘ1の時間長Ｔ1と第２目的音Ｘ2の時間長Ｔ2とが同一である対応関係３（第１態様）と、第１目的音Ｘ1の抑揚と第２目的音Ｘ2の抑揚とが共通する対応関係５（第２態様）とがそれぞれ成立するようにコンテンツＱを生成する方法を例示する。

＜第１態様＞
図１８は、第１目的音Ｘ1に対して対応関係３が成立するように作成者が第２目的音Ｘ2を収録する作業を支援する第１態様に係るコンテンツ作成支援装置４０の構成図である。図１８に例示される通り、第３実施形態のコンテンツ作成支援装置４０は、認識処理部４１と翻訳処理部４３と記憶部４２と話速特定部４４と表示処理部４５と表示部４６と収音部４７と処理部４８とを具備する。記憶部４２は、プログラムや各種のデータを記憶する。第３実施形態の記憶部４２は、相異なる発音内容の第１目的音Ｘ1を表す複数の対象信号ＳGを記憶する。記憶部４２に記憶されたプログラムをＣＰＵが実行することで、コンテンツ作成支援装置４０の各機能（認識処理部４１、翻訳処理部４３、話速特定部４４、表示処理部４５、処理部４８）を実現する。

認識処理部４１は、図１９に例示されるように、第１目的音Ｘ1を表す対象信号ＳGに対する音声認識で第１目的音Ｘ1の発音内容を表現する文字列Ｌ「つぎは、しぶやです。」を特定する。対象信号ＳGの音声認識には、例えばＨＭＭ等の音響モデルと言語的な制約を示す言語モデルとを利用した認識技術等の公知の技術が任意に採用され得る。翻訳処理部４３は、図１９に例示されるように、認識処理部４１が特定した第１言語の文字列Ｌを第２言語に翻訳した文字列Ｎ「The next station is Shibuya.」を生成する。

図１８の話速特定部４４は、作成者が文字列Ｎを発音する話速Ｋを特定する。具体的には、話速特定部４４は、対象信号ＳGが示す第１目的音Ｘ1の時間長Ｔ1と文字列Ｎの文字数Ｍとに応じて、作成者が時間長Ｔ1にわたって文字列Ｎを発音するための話速Ｋを特定する。時間長Ｔ1は、図１９に例示されるように、対象信号ＳGのうち第１目的音Ｘ1の始点ｔSから終点ｔEまでの時間長である。また、文字数Ｍは、翻訳処理部４３が生成した文字列Ｎを構成する文字の総数である。話速特定部４４は、文字数Ｍを時間長Ｔ1で除算することにより話速Ｋを算定する。すなわち、話速Ｋは、第１目的音Ｘ1の時間長Ｔ1をかけて文字列Ｎを発音するために作成者が単位時間あたりに発音すべき文字数に相当する。

表示処理部４５は、翻訳処理部４３が生成した文字列Ｎの発音を作成者に指示するための画像を表示部４６に表示させる。図２０は、表示処理部４５が表示部４６に表示させる画像の遷移の説明図である。図２０に例示される通り、表示処理部４５は、文字列Ｎと指示画像Ｐとを表示部４６に表示させる。文字列Ｎは作成者が第２目的音Ｘ2として発音すべき文章である。指示画像Ｐは文字列Ｎのうち作成者が発音すべき目標部分を表象する矩形状の画像であり、文字列Ｎに重畳して表示部４６に表示される。表示部４６は、各種の情報を表示する表示装置（例えば液晶表示パネル等）である。

表示処理部４５は、話速特定部４４が特定した話速Ｋに応じて指示画像Ｐを文字列Ｎに沿って経時的に移動させる。具体的には、表示処理部４５は、図２０に例示される通り、「つぎは、しぶやです。」という第１目的音Ｘ1の時間長Ｔ1と同一の時間長Ｔ2にわたって作成者が文字列Ｎ「The next station is Shibuya.」を発音するように、話速Ｋに応じた速度で指示画像Ｐを移動させる。すなわち、指示画像Ｐは、時間軸上の時点ｔSで移動を開始し、第１目的音Ｘ1の時間長Ｔ1と同等の時間長Ｔ2だけ経過した時点ｔEにて文字列Ｎの末尾に到達するように、文字列Ｎに沿って話速Ｋに相当する速度で移動する。図２０には、時点ｔSから時点ｔEまでの途中の時点ｔPにおける指示画像Ｐの位置が図示されている。作成者は、指示画像Ｐを視覚的に確認しながら、文字列Ｎのうち指示画像Ｐで指示される目標部分を順次に発音する。したがって、作成者は、時間長Ｔ2をかけて文字列Ｎを発音することになる。

図１８の収音部４７は、周囲の音響を収音する音響機器（マイクロホン）である。第３実施形態の収音部４７は、作成者が発音した第２目的音Ｘ2を収音し、当該第２目的音Ｘ2を表す音響信号Ｓ2を生成する。処理部４８は、収音部４７が生成した音響信号Ｓ2を含むコンテンツＱを生成し、当該コンテンツＱに固有の識別情報Ｄを対応させて記憶部４２に格納する。

以上の構成では、第１目的音Ｘ1の時間長Ｔ1にわたり文字列Ｎが発音されるように特定された話速Ｋで、作成者が発音すべき目標部分（例えば指示画像Ｐ）が移動する。作成者は、指示画像Ｐの移動する速度（話速Ｋ）に合わせて、指示画像Ｐが指示する目標単位の文字列を順次に発音することで、第１目的音Ｘ1の時間長Ｔ1と同一の時間長Ｔ2で第２目的音Ｘ2を発音する。以上の構成によれば、第１目的音Ｘ1と第２目的音Ｘ2とで時間長が同一である対応関係３が成立するように、コンテンツＱを生成することが可能である。

＜第２態様＞
図２１は、第１目的音Ｘ1に対して対応関係５が成立するように作成者が第２目的音Ｘ2を収録する作業を支援する第２態様のコンテンツ作成支援装置４０の構成図である。図２１に例示される通り、第３実施形態のコンテンツ作成支援装置４０は、認識処理部４１と翻訳処理部４３と記憶部４２と抑揚特定部５３と対応特定部５５と表示処理部５６と表示部５７と収音部４７と処理部４８とを具備する。記憶部４２が記憶する情報は、第１態様と同様である。記憶部４２に記憶されたプログラムをＣＰＵが実行することで、コンテンツ作成支援装置４０の各機能（認識処理部４１、翻訳処理部４３、抑揚特定部５３、対応特定部５５、表示処理部５６、処理部４８）が実現される。

認識処理部４１は、第１態様と同様の方法で、第１目的音Ｘ1の発音内容を表現する図２２の文字列Ｌ「つぎは、しぶやです。」を特定する。翻訳処理部４３は、図２２に例示されるように、認識処理部４１が特定した第１言語の文字列Ｌを第２言語に翻訳して文字列Ｎ「The next station is Shibuya.」を生成する。翻訳処理部４３は、生成した文字列Ｎを複数の第２分節区間ＨB（ＨB1，ＨB2，……）に区分する。

抑揚特定部５３は、第１目的音Ｘ1を区分した複数の第１分節区間ＨAの各々について抑揚Ｗを特定する。具体的には、抑揚特定部５３は、図２２に例示されるように、認識処理部４１が特定した文字列Ｌを複数の第１分節区間ＨA（ＨA1，ＨA2，……）に区分し、対象信号ＳGの特徴量（例えば音量や音高）を第１分節区間ＨA毎に解析することで、各第１分節区間ＨAの抑揚Ｗ（Ｗ1，Ｗ2，……）を特定する。抑揚Ｗの特定には公知の方法が任意に採用され得る。例えば、特開２００２−９１４８２号公報に開示された方法が好適である。

図２１の対応特定部５５は、抑揚特定部５３が文字列Ｌについて画定した各第１分節区間ＨAと翻訳処理部４３が生成した文字列Ｎの各第２分節区間ＨBとの意味的な対応を特定する。具体的には、対応特定部５５は、第１言語の単語と第２言語の単語とを相互に対応させた辞書データを参照して、文字列Ｌと文字列Ｎとの間で意味が相互に対応する第１分節区間ＨAと第２分節区間ＨBとの対を特定する。例えば図２２の例示では、「つぎ」の第１分節区間ＨA1と「next」の第２分節区間ＨB2との対応や、「しぶや」の第１分節区間ＨA3と「Shibuya」の第２分節区間ＨB5との対応が特定される。

表示処理部５６は、翻訳処理部４３が特定した第２言語の文字列Ｎを表示部５７に表示させる。表示処理部５６は、文字列Ｎが包含する複数の第２分節区間ＨBの各々を、当該第２分節区間ＨBに対応する第１分節区間（すなわち、対応特定部５５が意味的な対応を特定した第１文節区間）ＨAについて抑揚特定部５３が特定した抑揚Ｗに応じた表示態様で表示部５７に表示させる。例えば、第１分節区間ＨAで特定された抑揚が大きいほど、当該第１分節区間ＨAに対応する第２分節区間ＨBが強調示されるように、文字列Ｎを表示させる。例えば、図２２に例示されるように、第１分節区間ＨA3「しぶや」の抑揚Ｗ3と第１分節区間ＨA1「つぎ」の抑揚Ｗ1と第１分節区間ＨA4「です」の抑揚Ｗ4とがこの順に高い場合を想定する（Ｗ3＞Ｗ1＞Ｗ4）。表示処理部５６は、図２３に例示されるように、文字列Ｎのうち、第１分節区間ＨA1「つぎ」に対応する第２分節区間ＨB2「next」と比較して、第１分節区間ＨA3「しぶや」に対応する第２分節区間ＨB5「Shibuya」が大きいサイズとなり、第１分節区間ＨA4「です」に対応する第２分節区間ＨB4「is」が小さいサイズとなるように、文字列Ｎを表示部５７に表示させる。すなわち、文字列Ｎのうち、抑揚Ｗが強い第１分節区間ＨAに対応する第２分節区間ＨBほど視覚的に強調して表示される。

作成者は、文字列Ｎの各第２分節区間ＨBの表示態様を視覚的に確認しながら、各第２分節区間ＨBを表示態様に応じた抑揚で発音する。例えば、作成者は、文字列Ｎのうち強調表示された第２分節区間ＨBについては抑揚を強調して発音する。作成者が発音した第２目的音Ｘ2が収音部４７により収音されて処理部４８がコンテンツＱを生成する動作は第１態様と同様である。

以上の構成では、第２分節区間ＨBの各々を、当該第２分節区間ＨBと意味が対応する第１分節区間ＨAについて特定した抑揚Ｗに応じた表示態様で表示させる。例えば、作成者は、各第２分節区間ＨBの表示態様を視覚的に確認しながら、文字列Ｎの各第２分節区間ＨBを表示態様に応じた抑揚で発音する。以上の構成によれば、第１目的音Ｘ1における発音の抑揚Ｗと第２目的音Ｘ2における発音の抑揚Ｗとが共通する対応関係５が成立するように、第２目的音Ｘ2を含むコンテンツＱを生成することが可能である。また、以上の構成では、第２分節区間ＨBが抑揚Ｗに応じた表示態様で表示されるから、作成者が文字列Ｎの各第２分節区間ＨBの抑揚Ｗを直感的に把握しやすいという利点がある。

＜変形例＞
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。

（１）前述の各形態では、音声案内システム１が利用される場面として、公共交通機関の音声案内を例示したが、音声案内システム１が利用される場面は以上の例示に限定されない。例えば、航空会社が運行する航空便に関する音声案内や、美術館や博物館等の展示施設、競技場や体育館等の運動施設、宿泊施設、商業施設等の各種の施設の音声案内に、前述の各形態と同様の音声案内システム１が利用される。また、各種の施設にて火災や地震等の災害が発生した場合の情報提供（例えば避難の案内や状況の通知）に音声案内システム１を利用することも可能である。

（２）第１実施形態および第２実施形態では、案内装置１０および配信装置２０の各々を単体の装置として構成したが、案内装置１０および配信装置２０の各々は複数の装置で構成されるシステムであり得る。例えば、第１実施形態や第２実施形態の案内装置１０を、制御部１４および記憶部１６を含む第１サーバと、信号合成部１８および放音部１９を含む第２サーバとに分散し、第１サーバと第２サーバとが例えば通信網を介して相互に通信する構成も採用され得る。

（３）前述の各形態では、対象信号ＳGと識別情報Ｄとを記憶する記憶部１６を案内装置１０に設置したが、対象信号ＳGと識別情報Ｄとを記憶する記憶部１６を案内装置１０以外の外部装置（例えばサーバ）に設置してもよい。例えば第１実施形態の案内装置１０に通信部を設置し、通信部と外部装置（サーバ装置）との間で通信網２００を介した通信を実行することにより外部装置から対象信号ＳGと識別情報Ｄとを受信する構成としてもよい。

（４）第２実施形態では、相異なる言語（言語情報Ｆ）に対応する複数のコンテンツＱを記憶部２６に事前に記憶した構成を例示したが、以下の例示の通り、端末装置３０から送信される配信要求Ｒで指定される言語情報Ｆの言語のコンテンツＱを配信要求Ｒ毎に実時間的に生成することも可能である。

具体的には、相異なる案内音声の第１目的音Ｘ1を表す複数の対象信号ＳGが識別情報Ｄとともに配信装置２０の記憶部２６に事前に格納される。配信装置２０の選択処理部２４は、配信要求Ｒで指定される識別情報Ｄに対応する対象信号ＳGを記憶部２６から取得し、当該対象信号ＳGに対する音声認識，機械翻訳および音声合成により、配信要求Ｒで指定された言語情報Ｆの言語で第１目的音Ｘ1を発音した第２目的音Ｘ2の音響信号Ｓ2を生成する。第２目的音Ｘ2は、前述の第１実施形態で例示した何れかの対応関係が第１目的音Ｘ1との間で成立するように生成される。配信部２８は、選択処理部２４が生成した音響信号Ｓ2を含むコンテンツＱを要求元の端末装置３０に送信する。

端末装置３０の放音部３６は、受信部３５が配信装置２０から受信したコンテンツＱの第２音響信号Ｓ2に応じた音響を放音する。すなわち、案内装置１０による第１目的音Ｘ1の放音に連動して、当該第１目的音Ｘ1を利用者Ｕの使用言語に翻訳した第２目的音Ｘ2が端末装置３０から放音される。なお、以上の例示では、第２目的音Ｘ2を表す音響信号Ｓ2を生成したが、対象信号ＳGに対する音声認識および機械翻訳で生成された文字列（すなわち第１目的音Ｘ1の発音内容を言語情報Ｆの言語に翻訳した文字列）を含むコンテンツＱを選択処理部２４が生成して配信部２８から端末装置３０に送信することも可能である。端末装置３０では、配信装置２０から受信したコンテンツＱ内の文字列に対する音声合成で第２目的音Ｘ2の音響信号Ｓ2を生成して放音部３６から第２目的音Ｘ2を放音する。第２目的音Ｘ2の放音とともにコンテンツＱの文字列を表示することも可能である。以上の構成によれば、相異なる案内音声に対応する多数の言語のコンテンツＱを事前に記憶部２６に格納しておく必要がないから、記憶部２６に必要な記憶容量が削減されるという利点がある。

（５）第１実施形態および第２実施形態では、任意の第１目的音Ｘ1を表す複数の対象信号ＳGと当該第１目的音Ｘ1に関連するコンテンツＱの識別情報Ｄとを予め対応付けて記憶部１６に記憶したが、複数の対象信号ＳGの各々に識別情報Ｄを重畳することで第１対象音Ｍ1の音響信号Ｓ1を事前に生成して記憶部１６に記憶させてもよい。以上の構成では、制御部１４は、操作部１２に対する操作で案内者が選択した音響信号Ｓ1を記憶部１６から読み出して放音部１９に供給する。放音部１９は、制御部１４から供給される音響信号Ｓ1に応じた第１対象音Ｍ1を放音する。以上の説明から把握される通り、第１実施形態の案内装置１０の各要素から信号合成部１８が省略される。

（６）第１実施形態の対応関係２では、複数の第１分節区間ＨAのうち少なくとも一部の第１分節区間ＨAの始点と、複数の第２分節区間ＨBのうち少なくとも一部の第２分節区間ＨBの始点とが時間軸上で相互に一致する関係を説明したが、対応関係２は以上の例示に限定されない。例えば、第１目的音Ｘ1の最初の第１分節区間ＨA1と第２目的音Ｘ2の最初の第２分節区間ＨB1とで始点が一致し、且つ、第１目的音Ｘ1の最後の第１分節区間ＨAnと第２目的音Ｘ2の最後の第２分節区間ＨBnとで終点が一致する関係も好適である。第１目的音Ｘ1の途中の第１分節区間ＨA2〜ＨAn-1と第２目的音Ｘ2の途中の第２分節区間ＨB2〜ＨBn-1との間における始点または終点の異同は不問である。以上の関係は、第１分節区間ＨA1と第２分節区間ＨB1とで始点が一致する点で対応関係２に包含され、かつ、第１目的音Ｘ1の時間長Ｔ1と第２目的音Ｘ2の時間長Ｔ2とが一致するから対応関係３にも包含される。

（７）第３実施形態の第１態様では、文字列Ｎとともに指示画像Ｐを表示部４６に表示させる構成を例示したが、話速特定部４４が特定した話速Ｋで文字列Ｎを発音した音声を放音することも可能である。具体的には、図２４に例示されるように、表示処理部４５および表示部４６に代えて音声合成部６５と放音部６６とが設置される。音声合成部６５は、公知の音声合成処理により、話速特定部４４が特定した話速Ｋで文字列Ｎを発音した音声信号ＳKを生成する。放音部６６は、音声合成部６５が生成した音声信号ＳKに応じた音響ＭKを放音する。作成者は、放音部６６から放音される音響ＭKを聴取しながら、音響ＭKと同様の話速となるように文字列Ｎを発音する。以上の構成では、放音部６６が放音する音響ＭKに応じて作成者が文字列Ｎを順次に発音することで、第１目的音Ｘ1の時間長Ｔ1と同一の時間長Ｔ2の第２目的音Ｘ2が発音される。以上の構成によっても、第１目的音Ｘ1と第２目的音Ｘ2とで時間長が同一である対応関係３が成立するように、コンテンツＱを生成することが可能である。

（８）第３実施形態の第１態様では、文字列Ｎに重なる指示画像Ｐで目標部分を作成者に指示したが、指示画像Ｐ以外の画像で目標部分を指示することも可能である。例えば、話速Ｋに応じて伸長する下線を文字列Ｎの下方に表示し、下線の端点で目標部分を指示する構成や、文字列Ｎのうち目標部分の前方と後方とで表示色を相違させ、表示色の境界（すなわち目標部分）を話速Ｋで移動させることで目標部分を指示する構成も採用され得る。また、文字列Ｎのうち目標部分を強調表示することも可能である。目標部分を強調表示する態様は任意であって、例えば、目標部分を着色ないし拡大する態様、および、書体を変更する態様等が好適である。また、第３実施形態の第１態様では、文字列Ｎの全体とともに表示部５７に表示させたが、文字列Ｎのうち目標部分のみを順次に表示部５７に表示させてもよい。

（９）第３実施形態の第１態様では、指示画像Ｐにより発音を指示する目標部分として単語を例示したが、以上の例示以外に、「文」、「文節」、「音節」、「モーラ」等の分節単位を目標部分として指示する構成も採用され得る。

（１０）第３実施形態の第２態様では、複数の第２分節区間ＨBの各々を、当該第２分節区間ＨBに対応する第１分節区間ＨAの抑揚Ｗに応じた文字のサイズで表示させたが、第１分節区間ＨAの抑揚Ｗに応じた第２分節区間ＨBの表示態様は以上の例示に限定されない。例えば、抑揚Ｗが高いほど文字列が太くなるように第２分節区間ＨBを表示してもよい。例えば、第１分節区間ＨA3「しぶや」の抑揚Ｗ3と第１分節区間ＨA1「つぎ」の抑揚Ｗ1と第１分節区間ＨA4「です」の抑揚Ｗ4とがこの順に高い場合（Ｗ3＞Ｗ1＞Ｗ4）、表示処理部５６は、図２６に例示されるように、文字列Ｎのうち、第１分節区間ＨA1「つぎ」に対応する第２分節区間ＨB2「next」の文字列と比較して、第１分節区間ＨA3「しぶや」に対応する第２分節区間ＨB5「Shibuya」の文字列が太くなるように、第１分節区間ＨA4「です」に対応する第２分節区間ＨB4「is」の文字列が細くなるように、文字列Ｎを表示部５７に表示させてもよい。また、抑揚Ｗに応じた階調（濃淡）や彩度で第２分節区間ＨBの文字列を表示することも可能である。

（１１）第３実施形態の第２態様では、第２分節区間ＨBを、当該第２分節区間ＨBと意味内容が対応する第１分節区間ＨAで特定された抑揚Ｗに応じた表示態様で表示させる構成を例示したが、図２５に例示されるように、表示処理部４５および表示部４６に代えて音声合成部７５と放音部７６とを設置して、第２分節区間ＨBに対応する第１分節区間ＨAの抑揚Ｗで各第２分節区間ＨBを発音した音響ＭWを放音してもよい。以上の構成では、音声合成部７５は、第２分節区間ＨBについて、当該第２分節区間ＨBと対応する第１分節区間ＨAで特定された抑揚Ｗに応じて、第２分節区間ＨBの抑揚を調整した音声信号ＳWを生成する。音声合成部７５は、第１分節区間ＨAの抑揚Ｗが大きいほど、第２分節区間ＨBの発音の強度が大きくなるように、複数の第２分節区間ＨB全体を含む文字列Ｎを発音した音声信号ＳWを生成する。放音部７６は、音声合成部７５が生成した音声信号ＳWに応じた音響ＭWを放音する。作成者は、放音部７６から放音される音響ＭWを聴取しながら、音響ＭWに並行して文字列Ｎを発音する。以上の構成では、放音部７６が放音する音響ＭWに応じて作成者が文字列Ｎを順次に発音することで、第１目的音Ｘ1の発音の抑揚Ｗと第２目的音Ｘ2における発音の抑揚Ｗとが共通する対応関係５が成立するように、コンテンツＱを生成することが可能である。

（１２）第３実施形態の第２態様では、文字列Ｎを単語毎に第２分節区間ＨBに区分したが、文字列Ｎを区分する分節単位は任意である。例えば、「文」を第２分節区間ＨBとした構成や、単語以外の分節単位である「文節」、「音節」、「モーラ」等を第２分節区間ＨBとした構成も好適に採用され得る。文字列Ｌを区分した第１分節区間ＨAについても、第２分節区間ＨBと同様である。また、前述の各形態では、発音の強度を抑揚Ｗとして例示したが、例えば音高やアクセントを抑揚Ｗとして特定することも可能である。

１……音声案内システム、１００……情報提供システム、１０……案内装置、１２……操作部、１４……制御部、１６……記憶部、１８……信号合成部、１９……放音部、２０……配信装置、２２……受信部、２４……選択処理部、２６……記憶部、２８……配信部、１８２……変調処理部、１８４……混合処理部、３０……端末装置、３１……収音部、３２……記憶部、３３……情報抽出部、３４……送信部、３５……受信部、３６……放音部、４０……コンテンツ作成支援装置、４１……認識処理部、４２……記憶部、４３……翻訳処理部、４４……話速特定部、４５……表示処理部、４６……表示部、４７……処理部、４８……収音部、５３……抑揚特定部、５５……対応特定部、５６……表示処理部、５７……表示部、６５……音声合成部、６６……放音部、７５……音声合成部、７６……放音部、Ｃ……車輌、Ｘ1……第１目的音、Ｘ2……第２目的音、Ｄ……識別情報、Ｒ……配信要求、Ｑ……コンテンツ、Ｌ……文字列、Ｎ……文字列、Ｆ……言語情報、Ｋ……話速、Ｍ……文字数、ＨA……第１分節区間、ＨB……第２分節区間。

Claims

利用者が聴取すべき第１目的音と前記第１目的音に関連するコンテンツの識別情報の音響成分とを含む第１対象音を放音する放音部と、
前記放音部が放音した第１対象音から抽出した識別情報を含む配信要求を端末装置から受信した場合に、当該識別情報が示すコンテンツを前記端末装置に送信して当該コンテンツに含まれる第２対象音を再生させる配信処理部とを具備し、
前記第２対象音は、前記第１目的音に関連する第２目的音を含み、
前記第１目的音の発音内容の言語的な区分単位である複数の第１分節区間のうち少なくとも一部の第１分節区間の始点と、前記第２目的音の発音内容の言語的な区分単位である複数の第２分節区間のうち少なくとも一部の第２分節区間の始点とは、時間軸上で相互に一致する
情報提供システム。
利用者が聴取すべき第１目的音と前記第１目的音に関連するコンテンツの識別情報の音響成分とを含む第１対象音を放音する放音部と、
前記放音部が放音した第１対象音から抽出した識別情報を含む配信要求を端末装置から受信した場合に、当該識別情報が示すコンテンツを前記端末装置に送信して当該コンテンツに含まれる第２対象音を再生させる配信処理部とを具備し、
前記第２対象音は、前記第１目的音に関連する第２目的音を含み、
前記第１目的音の時間長と、前記第２目的音の時間長とは一致する
情報提供システム。
利用者が聴取すべき第１目的音と前記第１目的音に関連するコンテンツの識別情報の音響成分と第１背景音とを含む第１対象音を放音する放音部と、
前記放音部が放音した第１対象音から抽出した識別情報を含む配信要求を端末装置から受信した場合に、当該識別情報が示すコンテンツを前記端末装置に送信して当該コンテンツに含まれる第２対象音を再生させる配信処理部とを具備し、
前記第２対象音は、前記第１目的音に関連する第２目的音と第２背景音とを含み、
前記第１背景音と前記第２背景音とは共通の音楽を表す
情報提供システム。
利用者が聴取すべき第１目的音と前記第１目的音に関連するコンテンツの識別情報の音響成分とを含む第１対象音を放音部から放音し、
前記放音部が放音した第１対象音から抽出した識別情報を含む配信要求を端末装置から受信した場合に、当該識別情報が示すコンテンツを前記端末装置に送信して当該コンテンツに含まれる第２対象音を再生させる、
コンピュータにより実現される情報提供方法であって、
前記第２対象音は、前記第１目的音に関連する第２目的音を含み、
前記第１目的音の発音内容の言語的な区分単位である複数の第１分節区間のうち少なくとも一部の第１分節区間の始点と、前記第２目的音の発音内容の言語的な区分単位である複数の第２分節区間のうち少なくとも一部の第２分節区間の始点とは、時間軸上で相互に一致する
情報提供方法。
利用者が聴取すべき第１目的音と前記第１目的音に関連するコンテンツの識別情報の音響成分とを含む第１対象音を放音部から放音し、
前記放音部が放音した第１対象音から抽出した識別情報を含む配信要求を端末装置から受信した場合に、当該識別情報が示すコンテンツを前記端末装置に送信して当該コンテンツに含まれる第２対象音を再生させる、
コンピュータにより実現される情報提供方法であって、
前記第２対象音は、前記第１目的音に関連する第２目的音を含み、
前記第１目的音の時間長と、前記第２目的音の時間長とは一致する
情報提供方法。
利用者が聴取すべき第１目的音と前記第１目的音に関連するコンテンツの識別情報の音響成分と第１背景音とを含む第１対象音を放音部から放音し、
前記放音部が放音した第１対象音から抽出した識別情報を含む配信要求を端末装置から受信した場合に、当該識別情報が示すコンテンツを前記端末装置に送信して当該コンテンツに含まれる第２対象音を再生させる、
コンピュータにより実現される情報提供方法であって、
前記第２対象音は、前記第１目的音に関連する第２目的音と第２背景音とを含み、
前記第１背景音と前記第２背景音とは共通の音楽を表す
情報提供方法。