<第1実施形態>
第1実施形態の音声案内システム1の概要について説明する。以下の説明では、第1実施形態の音声案内システム1を公共交通機関の音声案内に利用した構成を例示する。
図1は、本発明の第1実施形態に係る音声案内システム1の構成図である。図1に例示される通り、第1実施形態の音声案内システム1は、情報提供システム100と端末装置30とを包含する。情報提供システム100は、端末装置30に各種の情報を提供するコンピュータシステムである。端末装置30は、例えば携帯電話機やスマートフォン等の可搬型の情報処理装置である。以下の説明では、電車やバス等の交通機関の車輌C内に端末装置30の利用者Uが所在し、利用者Uを案内する音声の放音に連動して、当該音声に関連するコンテンツQが端末装置30に提供される。なお、図1では1個の端末装置30のみを便宜的に図示したが、実際には複数の端末装置30の各々に対して情報提供システム100からコンテンツQが提供され得る。
図1に例示される通り、第1実施形態の情報提供システム100は、案内装置10と配信装置20とを具備する。端末装置30は、移動体通信網やインターネット等を含む通信網200を介して配信装置20と通信可能である。
案内装置10は、交通機関の車輌C内に設置され、車輌C内の利用者Uに対して第1対象音M1を放音する放送システムである。第1対象音M1は、第1目的音X1と音響成分VDとを包含する。第1目的音X1は、利用者Uが聴取すべき音響である。第1実施形態では、交通機関に関する案内用の音声(案内音声)を第1目的音X1として例示する。例えば、交通機関の乗降(電車の駅やバスの停留所等の停車地点の名称)や乗車(降車)位置,乗換,運賃,運行状況(例えば停止信号,運行間隔,遅延状況等),周辺の観光地等を案内する案内音声が第1目的音X1として案内装置10から車輌C内の利用者Uに放音される。他方、音響成分VDは、第1目的音X1に関連するコンテンツQに対して一意に付与された識別情報Dを含有する音響である。すなわち、第1実施形態では、第1目的音X1の放音に並行して、空気振動としての音響(音波)を伝送媒体とする音響通信で案内装置10から端末装置30に識別情報Dが通知される。
他方、配信装置20は、案内装置10が放音する第1目的音X1に関連するコンテンツQを端末装置30に配信する。具体的には、第1目的音X1の放音とともに通知された識別情報Dを指定した配信要求Rが端末装置30から配信装置20に送信され、配信装置20は、当該配信要求Rで指定された識別情報Dに対応するコンテンツQを要求元の端末装置30に配信する。第1実施形態のコンテンツQは、第2対象音M2を包含する。第1目的音X1に関連するコンテンツQの第2対象音M2は、当該第1目的音X1に関連する第2目的音X2を含有する。第1実施形態の第2目的音X2は、第1言語の第1目的音X1を他言語(第2言語)に翻訳した翻訳音声である。すなわち、第1目的音X1と第2目的音X2とは意味ないし内容が相互に関連する。以上の説明から理解される通り、端末装置30の利用者Uは、案内装置10から放音される第1目的音X1と、配信装置20から配信されたコンテンツQの第2目的音X2とを聴取可能である。
<案内装置10>
図2は、案内装置10の構成図である。図2に例示される通り、第1実施形態の案内装置10は、操作部12と制御部14と記憶部16と信号合成部18と放音部19とを具備する。記憶部16は、プログラムや各種のデータを記憶する。例えば半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組み合わせが記憶部16として任意に採用される。第1実施形態では、相異なる発音内容の第1目的音X1を表す複数の音響信号(以下「対象信号」という)SGが記憶部16に記憶される。任意の第1目的音X1を表す対象信号SGには、当該第1目的音X1に関連するコンテンツQの識別情報Dが対応づけて記憶される。記憶部16に記憶されたプログラムをCPUが実行することで、案内装置10の各機能(制御部14、信号合成部18)が実現される。
操作部12は、案内装置10を管理する案内者が操作する入力機器である。第1実施形態の操作部12は、複数の第1目的音X1の何れかを選択する指示を案内者から受付ける。制御部14は、操作部12に対する操作で案内者が選択した第1目的音X1の対象信号SGと当該対象信号SGに対応する識別情報Dとを記憶部16から読み出して信号合成部18に供給する。
信号合成部18は、識別情報Dを対象信号SGに重畳することで第1対象音M1の音響信号S1を生成する。対象信号SGに対する識別情報Dの重畳(音響透かし)には公知の方法が任意に採用され得るが、例えば国際公開第2010/016589号に開示された方法が好適である。具体的には、信号合成部18は、図3に例示される通り、変調処理部182と混合処理部184とを包含する。変調処理部182は、拡散符号を利用した識別情報Dの拡散変調と所定の周波数の搬送波を利用した周波数変換とを順次に実行することで、識別情報Dを所定の周波数帯域の音響成分VDとして含有する音響信号(以下「変調信号」という)SDを生成する。変調信号SDの周波数帯域は、例えば、放音部19による放音と端末装置30による収音とが可能な周波数帯域であり、かつ、利用者Uが通常の環境で聴取する音声(例えば第1目的音X1)や楽音等の音響の周波数帯域(例えば可聴域内の約16kHz以下)を上回る周波数帯域(例えば18kHz以上かつ20kHz以下)の範囲内に設定され得る。もっとも、変調信号SDの周波数帯域は、以上の例示に限定されない。例えば、可聴域内の約16kHz以下に設定されてもよい。例えば、変調信号SDを表す音響成分VDは、第1目的音X1とは区別される音響であり、例えば、車輌C内の各利用者Uの注意を喚起する「ピンポーン」等の案内用の通知音等である。
図3の混合処理部184は、制御部14から供給された第1目的音X1の対象信号SGと変調処理部182が生成した変調信号SDとを重畳(典型的には加算)することで音響信号S1を生成する。以上の説明から理解される通り、音響信号S1は、第1目的音X1を表す対象信号SGと、当該第1目的音X1に関連するコンテンツQの識別情報Dの音響成分VDを表す変調信号SDとを含有する。
図2の放音部19は、信号合成部18から供給される音響信号S1に応じた第1対象音M1を放音する音響機器である。すなわち、前述の通り、利用者Uが聴取すべき第1目的音X1(対象信号SG)と、当該第1目的音X1に関連するコンテンツQの識別情報Dの音響成分VD(変調信号SD)とを含む第1対象音M1が放音部19から放音される。なお、音響信号S1をデジタルからアナログに変換するD/A変換器の図示は便宜的に省略されている。
<端末装置30>
図4は、端末装置30の構成図である。図4に例示される通り、端末装置30は、収音部31と記憶部32と情報抽出部33と送信部34と受信部35と放音部36とを含んで構成される。記憶部32は、端末装置30の各要素を制御するCPUが実行するプログラム等を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶部32として任意に採用される。記憶部32に記憶されたプログラムをCPUが実行することで情報抽出部33が実現される。収音部31は、周囲の音響を収音する音響機器(マイクロホン)であり、案内装置10の放音部19から放音される第1対象音M1を収音して音響信号SXを生成する。音響信号SXは、識別情報Dの音響成分VDを含有する。なお、収音部31が生成した音響信号SXをアナログからデジタルに変換するA/D変換器の図示は便宜的に省略されている。
情報抽出部33は、収音部31が生成した音響信号SXの復調で識別情報Dを抽出する。具体的には、情報抽出部33は、音響信号SXのうち識別情報Dを含む周波数帯域の帯域成分を例えば帯域通過フィルタで強調し、識別情報Dの拡散変調に利用された拡散符号を係数とする整合フィルタを通過させることで識別情報Dを抽出する。以上の説明から理解される通り、案内装置10の放音部19は識別情報Dを送信する送信機として機能し、端末装置30の収音部31は識別情報Dを受信する受信機として機能する。
送信部34および受信部35は、通信網200を介して配信装置20と通信する通信機器で実現される。送信部34は、放音部19が放音した第1対象音M1から抽出された識別情報Dを含むコンテンツQの配信要求Rを配信装置20に送信する。受信部35は、配信要求Rに応じて配信装置20から配信されたコンテンツQを受信する。
放音部36は、配信装置20から配信されたコンテンツQを放音する機器である。第1実施形態のコンテンツQは、第2対象音M2を表す音響信号S2を包含する。放音部36は、配信装置20から配信されたコンテンツQの音響信号S2に応じた第2対象音M2を放音する。なお、音響信号S2をデジタルからアナログに変換するD/A変換器の図示は便宜的に省略されている。
<配信装置20>
図5は、配信装置20の構成図である。図5に例示される通り、第1実施形態の配信装置20は、受信部22と選択処理部24と記憶部26と配信部28とを具備する。記憶部26は、相異なる第1目的音X1に関連する複数のコンテンツQを記憶する。各コンテンツQには識別情報Dが対応付けられる。また、記憶部26は、配信装置20の各要素を制御するCPUが実行するプログラム等を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶部26として任意に採用される。記憶部26に記憶されたプログラムをCPUが実行することで、配信装置20の選択処理部24が実現される。
受信部22および配信部28は、通信網200を介して端末装置30と通信する通信機器である。受信部22は、端末装置30から識別情報Dを含むコンテンツQの配信要求Rを受信する。選択処理部24は、記憶部26に記憶された複数のコンテンツQのうち配信要求Rで指定された識別情報Dに対応するコンテンツQを選択する。配信部28は、選択処理部24が選択したコンテンツQを、配信要求Rを送信した端末装置30に配信する。具体的には、配信部28は、識別情報Dを含むコンテンツQの配信要求Rを端末装置30から受信した場合に、当該識別情報Dに対応するコンテンツQを端末装置30に配信するとともに当該コンテンツQを端末装置30で再生させる。
以上の説明から理解される通り、案内音声の第1目的音X1とともに案内装置10の放音部19から放音された音響成分VDにより端末装置30に識別情報Dが通知され、識別情報Dを指定した配信要求Rを契機としたコンテンツQの配信により第2対象音M2が放音部36から放音される。すなわち、第1目的音X1を含む第1対象音M1の放音に連動して、当該第1目的音X1に関連する第2目的音X2を含む第2対象音M2が放音される。例えば、図6に例示されるように、「次は、渋谷です。」という第1目的音X1を含む第1対象音M1が放音部19から放音された場合、放音部36は、第1目的音X1を第2言語(図6では英語)に変換した第2目的音X2「The next station is Shibuya.」を包含する第2対象音M2を放音する。以上の説明から把握される通り、選択処理部24と配信部28とは、識別情報Dを含む配信要求Rを端末装置30から受信した場合に、識別情報Dが示すコンテンツQを要求元の端末装置30に送信して当該コンテンツQに含まれる第2対象音M2を再生(放音)させる配信処理部として機能する。
図7は、音声案内システム1の全体的な動作の説明図である。案内装置10の放音部19は、第1目的音X1と音響成分VDとを包含する第1対象音M1を放音する(SA1)。端末装置30の収音部31は、放音部19が放音した第1対象音M1を収音して音響信号SXを生成する(SA2)。情報抽出部33は、収音部31が生成した音響信号SXの復調で識別情報Dを抽出する(SA3)。送信部34は、情報抽出部33が抽出した識別情報Dを含む配信要求Rを配信装置20に送信する(SA4)。配信装置20の選択処理部24は、記憶部26に記憶された複数のコンテンツQのうち配信要求Rで指定された識別情報Dに対応するコンテンツQを選択する(SA5)。配信部28は、選択処理部24によって選択されたコンテンツQを端末装置30に配信し(SA6)、端末装置30で再生させる。端末装置30の受信部35は、配信装置20(配信部28)から配信されたコンテンツQを受信し(SA7)、端末装置30の放音部36はコンテンツQが包含する第2対象音M2を放音する(SA8)。
ところで、交通機関では、発音内容が相違する複数種の第1目的音X1(案内音声)が順次に放音されるから、各第1目的音X1に対応するコンテンツQが端末装置30に対して配信装置20から順次に配信される。すなわち、相異なる第1目的音X1を含む第1対象音M1が放音部19から順次に放音されるのに並行して、相異なる第2目的音X2を含む第2対象音M2が放音部36から順次に放音される。したがって、第1言語の理解が困難な外国人等の利用者Uは、案内装置10から放音される第1対象音M1と、自身の端末装置30から放音される第2対象音M2との対応関係を把握しづらいという問題が生じ得る。以上の事情を考慮して、第1実施形態では、第1対象音M1と第2対象音M2とが所定の対応関係を有するように構成される。第1対象音M1と第2対象音M2との所定の対応関係とは、音響の特性における対応関係を意味する。すなわち、第1対象音M1と第2対象音M2との対応関係は、第1目的音X1と第2目的音X2との間における意味内容が相互に関連する関係とは相違する。音響の特性における対応関係には種々の態様(対応関係1〜対応関係5)が包含される。以下、各対応関係について図面を参照しながら説明する。
<対応関係1>
図8は、第1対象音M1と第2対象音M2との間の対応関係1の説明図である。対応関係1は、第1目的音X1の発音が開始する時点t1と、第2目的音X2の発音が開始する時点t2とが時間軸上で一致する関係である。
図8に例示されるように、第1対象音M1は第1目的音X1と識別情報Dの音響成分VDとを含み、第2対象音M2は第2目的音X2を含む。音響成分VDは時点t0で放音が開始されて時間長TDに亘り放音される。第1目的音X1の放音は、音響成分VDの放音が終了する時点t1で開始され、第2目的音X2の放音は、時点t1と時間軸上で一致する時点t2で開始される。第1実施形態では、以上に例示した対応関係1が成立する(第1目的音X1の開始の時点t1と第2目的音X2の開始の時点t2とが時間軸上で一致する)ように、第2目的音X2の始点を調整した音響信号S2が事前に生成されてコンテンツQに含められ、かつ、配信装置20の配信部28が端末装置30に対するコンテンツQの配信を開始する。対応関係1では、端末装置30の利用者Uは、第1対象音M1(第1目的音X1)と第2対象音M2(第2目的音X2)との対応を把握することが可能である。
第1目的音X1の発音が開始する時点t1と第2目的音X2の発音が開始する時点t2とが時間軸上で相互に一致する場合とは、図8で例示されるように時点t1と時点t2とが時間軸上で完全に一致する場合に加えて、時間軸上で実質的に一致する場合を含意する。例えば、図9に例示されるように、第1目的音X1の開始の時点t1に対して、第2目的音X2の開始の時点t2が遅延時間Δt分遅れた場合でも、第1目的音X1の発音と第2目的音X2の発音とが略同時に開始されたと利用者Uが知覚する程度に時点t1と時点t2とが時間軸上で相互に近接する場合には、第1目的音X1の開始時点t1と第2目的音X2の開始時点t2とは時間軸上で実質的に一致すると表現され得る。
<対応関係2>
図10は、第1対象音M1と第2対象音M2との間の対応関係2の説明図である。対応関係2は、第1目的音X1を発音内容の言語的な区分単位で区分した複数の第1分節区間HA(HA1,HA2,……)の各々の始点と、第2目的音X2を発音内容の言語的な区分単位に区分した複数の第2分節区間HB(HB1,HB2,……)の各々の始点とが時間軸上で相互に一致する関係である。「言語的な区分単位」としては、例えば、「文」、「単語」、「文節」、「音節」、「モーラ」等の分節単位が例示され得る。図10では、「単語」を区分単位とした場合が例示されている。
図10に例示されるように、第1目的音X1「次は、渋谷です。」の複数の第1分節区間HAの各々と、第2目的音X2「The next station is Shibuya.」の複数の第2分節区間HBの各々とを時系列順に組み合わせた各対では、発音が開始される始点が時間軸上で一致する。例えば、第1分節区間HA1の始点t1と第2分節区間HB1の始点t2とは一致し、第1分節区間HA2の始点t3と第2分節区間HB2の始点t4とは一致する。第1実施形態では、以上に説明した対応関係2が成立するように、各第2分節区間HBの始点(t2,t4,t6,t8)を調整した音響信号S2が事前に生成されてコンテンツQに含められ、かつ、配信装置20の配信部28が端末装置30に対するコンテンツQの配信を開始する。対応関係2では、第1目的音X1の各第1分節区間HAと第2目的音X2の各第2分節区間HBとの間で始点が一致するから、端末装置30の利用者Uは、第1対象音M1(第1目的音X1)と第2対象音M2(第2目的音X2)との対応を容易に把握することが可能である。
なお、図10では、第1目的音X1の全部の第1分節区間HAの各々の始点が第2目的音X2の各第2分節区間HBの始点に一致する場合を例示したが、第1目的音X1の一部の第1分節区間HAと第2目的音X2の一部の第2分節区間HBとで始点を一致させる(他の第1分節区間HAと第2分節区間HBとは始点が相違する)ことも可能である。また、第1目的音X1と第2目的音X2とでは言語が相違するから、第1分節区間HAの総数と第2分節区間HBの総数とは必ずしも一致しない。例えば、図10の例示では、第1分節区間HAの総数は4個であり、第2分節区間HBの総数は5個である。以上の説明から把握される通り、対応関係2は、第1目的音X1の複数の第1分節区間HAのうち少なくとも一部の第1分節区間HAの始点と、第2目的音X2の複数の第2分節区間HBのうち少なくとも一部の第2分節区間HBの始点とが時間軸上で相互に一致する関係として包括的に表現される。すなわち、第1目的音X1の各第1分節区間HAと第2目的音X2の各第2分節区間HBとを時系列順に組み合わせた対の全部について始点が時間軸上で一致することは要しない。
<対応関係3>
図11は、第1対象音M1と第2対象音M2との間の対応関係3の説明図である。対応関係3は、図11に例示される通り、第1目的音X1の時間長T1と第2目的音X2の時間長T2とが相互に一致する関係である。図11に例示されるように、第1目的音X1の時間長T1は、第1目的音X1の発音が開始される時点t1から発音が終了する時点t3までの時間長であり、第2目的音X2の時間長T2は、第2目的音X2の発音が開始される時点t2から発音が終了する時点t4までの時間長である。第1実施形態では、第1目的音X1の時間長T1と第2目的音X2の時間長T2とが一致する(対応関係3が成立する)ように、第2目的音X2の時間長T2を調整した音響信号S2が事前に生成されてコンテンツQに含められ、かつ、配信装置20の配信部28が端末装置30に対するコンテンツQの配信を開始する。対応関係3では、第1目的音X1の時間長T1と第2目的音X2の時間長T2とが一致するから、端末装置30の利用者Uは、第1対象音M1(第1目的音X1)と第2対象音M2(第2目的音X2)との対応を容易に把握することが可能である。
なお、時間長が「一致する」とは、第1目的音X1の時間長T1と第2目的音X2の時間長T2とが完全に一致する場合のほか、実質的に一致する場合も含意する。例えば、図12に例示されるように、第1目的音X1の時間長T1と第2目的音X2の時間長T2とが形式的には相違する場合(時間長T2<時間長T1)でも、第1目的音X1の時間長T1と第2目的音X2の時間長T2とが同等であると受聴者に知覚される程度に時間長T1および時間長T2とが相互に近似する場合には、実質的な一致の範囲に包含される。
<対応関係4>
図13は、第1対象音M1と第2対象音M2との間の対応関係4の説明図である。第1対象音M1は、第1目的音X1と音響成分VDとに加えて、楽曲の演奏音(音楽)を表す第1背景音(BGM)SB1を含み、第2対象音M2は、第2目的音X2に加えて、楽曲の演奏音を表す第2背景音SB2を含む。対応関係4は、第1対象音M1に包含される第1背景音SB1と第2対象音M2に包含される第2背景音SB2とが共通の楽曲を表す関係である。
図13に例示されるように、案内装置10の放音部19からは、音響成分VDが時点t0から時点t1までの時間長TDに亘り放音され、時点t1を起点として、第1対象音M1のうち第1目的音X1と第1背景音SB1との混合音が放音される。他方、端末装置30の放音部36からは、時点t2を起点として、第2目的音X2と第2背景音SB2との混合音が放音される。第1実施形態では、第2対象音M2が包含する第2背景音SB2と、第1対象音M1が包含する第1背景音SB1とが、共通の楽曲の演奏音(楽器の演奏音や歌唱音)である(対応関係4が成立する)ように、音響信号S2が事前に生成されてコンテンツQに含められ、かつ、配信装置20の配信部28が端末装置30に対するコンテンツQの配信を開始する。対応関係4では、第1背景音SB1と第2背景音SB2とが共通の楽曲の演奏音であるから、端末装置30の利用者Uは、第1対象音M1(第1背景音SB1)と第2対象音M2(第2背景音SB2)との対応を容易に把握することが可能である。
第1背景音SB1と第2背景音SB2との対応関係4は以上の例示(演奏音が共通する関係)に限定されない。例えば、図14に例示される通り、第1背景音SB1が楽曲の演奏音のうち特定の周波数帯域B1(第1周波数帯域)の音響成分であり、第2背景音SB2が、楽曲の演奏音のうち周波数帯域B1とは異なる周波数帯域B2(第2周波数帯域)の音響成分である関係も、対応関係4には包含される。また、楽曲を構成する複数のパートのうち第1パート(単数または2以上のパート)の演奏音を第1背景音SB1とし、第1パートとは異なる第2パートの演奏音を第2背景音SB2とすることも可能である。第1背景音SB1および第2背景音SB2の一方を楽曲の演奏音とし、第1背景音SB1および第2背景音SB2の他方を、当該楽曲の一部のパートを他の楽器(例えば利用者Uの出身地の伝統楽器)の演奏音とした構成も好適である。
<対応関係5>
図15は、第1対象音M1と第2対象音M2との間の対応関係5の説明図である。対応関係5は、第1目的音X1を区分した複数の第1分節区間HA(HA1,HA2,……)と第2目的音X2を区分した複数の第2分節区間HB(HB1,HB2,……)との間で相互に対応するもの同士が同様の抑揚で発音される関係である。抑揚は、発音の強弱や音高の高低等で特徴付けられる音声の調子を意味する。第1分節区間HAおよび第2分節区間HBは、典型的には図15に例示されるように単語であるが、単語以外の分節単位(例えば文節,音節,モーラ,文)で第1分節区間HAおよび第2分節区間HBを画定することも可能である。
図15では、言語的に相互に対応する(すなわち意味内容が共通する)第1分節区間HAと第2分節区間HBとで抑揚が同様である場合が例示されている。具体的には、第1目的音X1のうち「つぎ」という第1分節区間HA1と、第2目的音X2のうちその翻訳に相当する「next」という第2分節区間HB2とは双方とも中程度の抑揚で発音される。また、第1目的音X1のうち「しぶや」という第1分節区間HA3と第2目的音X2のうちその翻訳に相当する「Shibuya」という第2分節区間HB5とは双方とも強い抑揚で発音される。第1実施形態では、以上の例示の通り、第1目的音X1の第1分節区間HAと第2目的音X2の第2分節区間HBとで抑揚が近似する(すなわち対応関係5が成立する)ように発音された第2目的音X2が事前に収録されてコンテンツQに含められる。対応関係5では、第1目的音X1と第2目的音X2との間で相互に対応する分節区間(HA,HB)が同様の抑揚で発音されるから、端末装置30の利用者Uは、第1対象音M1(第1目的音X1)と第2対象音M2(第2目的音X2)との対応を容易に把握することが可能である。
第1対象音M1と第2対象音M2との対応関係1〜5について以上に例示したが、第1対象音M1と第2対象音M2との対応関係は以上の例示に限定されない。例えば、前述の対応関係1では第1目的音X1の開始の時点t1と第2目的音X2の開始の時点t2とが時間軸上で一致する関係を例示したが、時点t1および時点t2の一方が他方に対して所定の時間だけ遅延した関係としてもよい。また、前述の対応関係2では、複数の第1分節区間HAの各々の始点と、複数の第2分節区間HBの各々の始点とが時間軸上で相互に一致する関係を例示したが、第1分節区間HAの時間長と、当該第1分節区間HAと時系列順で対応する第2分節区間HBの時間長とが一致する関係としてもよい。また、対応関係4の変形として、第1分節区間HAの始点に対応する第1背景音SB1の時間軸上の位置(例えば、楽曲の始点からの位置)と、第2分節区間HBの始点に対応する第2背景音SB2の時間軸上の位置(例えば、楽曲の時点からの位置)とが一致する関係としてもよい。以上の例示以外にも、第1目的音X1の話速と第2目的音X2の話速とが同一である関係等も好適である。
<第2実施形態>
本発明の第2実施形態を説明する。第1実施形態では、第1言語の1個の第1目的音X1に対して、当該第1目的音X1を第2言語に翻訳した第2目的音X2を包含する1個のコンテンツQを用意した。第2実施形態では、第1言語の1個の第1目的音X1に対して、当該第1目的音X1を複数の他言語に翻訳した複数の第2目的音X2を各々含む複数のコンテンツQが事前に用意される。第1目的音X1と第2目的音X2とで意味内容が相互に関連する点や、第1対象音M1と第2対象音M2とが所定の対応関係を有する点は第1実施形態と同様である。以下に例示する各態様において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
図16は、第2実施形態の配信装置20の構成図である。図16に例示される通り、端末装置30は、音響信号SXから抽出した識別情報Dとともに言語情報Fを含む配信要求Rを配信装置20に送信する。言語情報Fは、利用者Uが使用する言語を指定する情報であり、例えば利用者Uにより選択される。
図16に例示される通り、第2実施形態の配信装置20は、受信部22と選択処理部24と記憶部26と配信部28とを具備する。第2実施形態の記憶部26は、識別情報Dを対応付けた複数のコンテンツQに代えてコンテンツテーブルTB1を記憶する。受信部22は、識別情報Dを含むコンテンツQの配信要求Rと言語情報Fとを受信する。選択処理部24は、受信部22が受信した識別情報Dと言語情報Fとに対応するコンテンツQをコンテンツテーブルTB1から選択する。配信部28は、第1実施形態と同様に、選択処理部24が選択したコンテンツQを端末装置30に配信する。
図17は、コンテンツテーブルTB1の模式図である。図17に例示される通り、コンテンツテーブルTB1には、識別情報Dと複数の言語情報Fと、言語情報F毎に事前に用意された複数のコンテンツQ(Q1,Q2,Q3,……)とが対応付けられる。第2実施形態では、第1言語の第1目的音X1を複数の他言語にそれぞれ翻訳した第2目的音X2を含む複数のコンテンツQが事前に用意されて1個の識別情報Dに対応付けられる。例えば、図17の例では、1個の第1目的音X1を3種類の言語情報F(例えば、英語、スペイン語、ドイツ語)に翻訳した3種類の第2目的音X2をそれぞれ包含する3種類のコンテンツQ(Q1,Q2,Q3,……)が事前に用意されて1個の識別情報Dに対応付けられる。
選択処理部24は、識別情報Dと言語情報Fとに対応付けられた複数のコンテンツQのうち、配信要求Rで指定された識別情報Dと言語情報Fとに対応するコンテンツQをコンテンツテーブルTB1から選択する。第1実施形態と同様に、選択処理部24と配信部28とは、識別情報Dを含む配信要求Rを端末装置30から受信した場合に、識別情報Dが示すコンテンツQを要求元の端末装置30に送信して当該コンテンツQに含まれる第2対象音M2を再生(放音)させる配信処理部として機能する。以降の処理は第1実施形態と同様であるので詳細な説明を省略する。
第2実施形態によっても、第1実施形態と同様の効果が実現される。また、第2実施形態では、第1言語の1個の第1目的音X1に対して、当該第1目的音X1を複数の他言語に翻訳した複数の第2目的音X2の各々を含む複数のコンテンツQが用意されるから、第1言語の1個の第1目的音X1を第2言語に翻訳した第2目的音X2を含む1個のコンテンツQが用意される第1実施形態の構成と比較して、利用者Uの利便性を向上させることができるという利点もある。
<第3実施形態>
第3実施形態では、第1実施形態で例示した対応関係が第1対象音M1と第2対象音M2との間で成立するように生成された第2対象音M2を含むコンテンツQの作成方法について説明する。第3実施形態では、第1目的音X1の発音内容に関連する文字列を作成者が発音した音声(第2目的音X2)を含むコンテンツQを作成する。以下の説明では、第1実施形態で例示した対応関係のうち第1目的音X1の時間長T1と第2目的音X2の時間長T2とが同一である対応関係3(第1態様)と、第1目的音X1の抑揚と第2目的音X2の抑揚とが共通する対応関係5(第2態様)とがそれぞれ成立するようにコンテンツQを生成する方法を例示する。
<第1態様>
図18は、第1目的音X1に対して対応関係3が成立するように作成者が第2目的音X2を収録する作業を支援する第1態様に係るコンテンツ作成支援装置40の構成図である。図18に例示される通り、第3実施形態のコンテンツ作成支援装置40は、認識処理部41と翻訳処理部43と記憶部42と話速特定部44と表示処理部45と表示部46と収音部47と処理部48とを具備する。記憶部42は、プログラムや各種のデータを記憶する。第3実施形態の記憶部42は、相異なる発音内容の第1目的音X1を表す複数の対象信号SGを記憶する。記憶部42に記憶されたプログラムをCPUが実行することで、コンテンツ作成支援装置40の各機能(認識処理部41、翻訳処理部43、話速特定部44、表示処理部45、処理部48)を実現する。
認識処理部41は、図19に例示されるように、第1目的音X1を表す対象信号SGに対する音声認識で第1目的音X1の発音内容を表現する文字列L「つぎは、しぶやです。」を特定する。対象信号SGの音声認識には、例えばHMM等の音響モデルと言語的な制約を示す言語モデルとを利用した認識技術等の公知の技術が任意に採用され得る。翻訳処理部43は、図19に例示されるように、認識処理部41が特定した第1言語の文字列Lを第2言語に翻訳した文字列N「The next station is Shibuya.」を生成する。
図18の話速特定部44は、作成者が文字列Nを発音する話速Kを特定する。具体的には、話速特定部44は、対象信号SGが示す第1目的音X1の時間長T1と文字列Nの文字数Mとに応じて、作成者が時間長T1にわたって文字列Nを発音するための話速Kを特定する。時間長T1は、図19に例示されるように、対象信号SGのうち第1目的音X1の始点tSから終点tEまでの時間長である。また、文字数Mは、翻訳処理部43が生成した文字列Nを構成する文字の総数である。話速特定部44は、文字数Mを時間長T1で除算することにより話速Kを算定する。すなわち、話速Kは、第1目的音X1の時間長T1をかけて文字列Nを発音するために作成者が単位時間あたりに発音すべき文字数に相当する。
表示処理部45は、翻訳処理部43が生成した文字列Nの発音を作成者に指示するための画像を表示部46に表示させる。図20は、表示処理部45が表示部46に表示させる画像の遷移の説明図である。図20に例示される通り、表示処理部45は、文字列Nと指示画像Pとを表示部46に表示させる。文字列Nは作成者が第2目的音X2として発音すべき文章である。指示画像Pは文字列Nのうち作成者が発音すべき目標部分を表象する矩形状の画像であり、文字列Nに重畳して表示部46に表示される。表示部46は、各種の情報を表示する表示装置(例えば液晶表示パネル等)である。
表示処理部45は、話速特定部44が特定した話速Kに応じて指示画像Pを文字列Nに沿って経時的に移動させる。具体的には、表示処理部45は、図20に例示される通り、「つぎは、しぶやです。」という第1目的音X1の時間長T1と同一の時間長T2にわたって作成者が文字列N「The next station is Shibuya.」を発音するように、話速Kに応じた速度で指示画像Pを移動させる。すなわち、指示画像Pは、時間軸上の時点tSで移動を開始し、第1目的音X1の時間長T1と同等の時間長T2だけ経過した時点tEにて文字列Nの末尾に到達するように、文字列Nに沿って話速Kに相当する速度で移動する。図20には、時点tSから時点tEまでの途中の時点tPにおける指示画像Pの位置が図示されている。作成者は、指示画像Pを視覚的に確認しながら、文字列Nのうち指示画像Pで指示される目標部分を順次に発音する。したがって、作成者は、時間長T2をかけて文字列Nを発音することになる。
図18の収音部47は、周囲の音響を収音する音響機器(マイクロホン)である。第3実施形態の収音部47は、作成者が発音した第2目的音X2を収音し、当該第2目的音X2を表す音響信号S2を生成する。処理部48は、収音部47が生成した音響信号S2を含むコンテンツQを生成し、当該コンテンツQに固有の識別情報Dを対応させて記憶部42に格納する。
以上の構成では、第1目的音X1の時間長T1にわたり文字列Nが発音されるように特定された話速Kで、作成者が発音すべき目標部分(例えば指示画像P)が移動する。作成者は、指示画像Pの移動する速度(話速K)に合わせて、指示画像Pが指示する目標単位の文字列を順次に発音することで、第1目的音X1の時間長T1と同一の時間長T2で第2目的音X2を発音する。以上の構成によれば、第1目的音X1と第2目的音X2とで時間長が同一である対応関係3が成立するように、コンテンツQを生成することが可能である。
<第2態様>
図21は、第1目的音X1に対して対応関係5が成立するように作成者が第2目的音X2を収録する作業を支援する第2態様のコンテンツ作成支援装置40の構成図である。図21に例示される通り、第3実施形態のコンテンツ作成支援装置40は、認識処理部41と翻訳処理部43と記憶部42と抑揚特定部53と対応特定部55と表示処理部56と表示部57と収音部47と処理部48とを具備する。記憶部42が記憶する情報は、第1態様と同様である。記憶部42に記憶されたプログラムをCPUが実行することで、コンテンツ作成支援装置40の各機能(認識処理部41、翻訳処理部43、抑揚特定部53、対応特定部55、表示処理部56、処理部48)が実現される。
認識処理部41は、第1態様と同様の方法で、第1目的音X1の発音内容を表現する図22の文字列L「つぎは、しぶやです。」を特定する。翻訳処理部43は、図22に例示されるように、認識処理部41が特定した第1言語の文字列Lを第2言語に翻訳して文字列N「The next station is Shibuya.」を生成する。翻訳処理部43は、生成した文字列Nを複数の第2分節区間HB(HB1,HB2,……)に区分する。
抑揚特定部53は、第1目的音X1を区分した複数の第1分節区間HAの各々について抑揚Wを特定する。具体的には、抑揚特定部53は、図22に例示されるように、認識処理部41が特定した文字列Lを複数の第1分節区間HA(HA1,HA2,……)に区分し、対象信号SGの特徴量(例えば音量や音高)を第1分節区間HA毎に解析することで、各第1分節区間HAの抑揚W(W1,W2,……)を特定する。抑揚Wの特定には公知の方法が任意に採用され得る。例えば、特開2002−91482号公報に開示された方法が好適である。
図21の対応特定部55は、抑揚特定部53が文字列Lについて画定した各第1分節区間HAと翻訳処理部43が生成した文字列Nの各第2分節区間HBとの意味的な対応を特定する。具体的には、対応特定部55は、第1言語の単語と第2言語の単語とを相互に対応させた辞書データを参照して、文字列Lと文字列Nとの間で意味が相互に対応する第1分節区間HAと第2分節区間HBとの対を特定する。例えば図22の例示では、「つぎ」の第1分節区間HA1と「next」の第2分節区間HB2との対応や、「しぶや」の第1分節区間HA3と「Shibuya」の第2分節区間HB5との対応が特定される。
表示処理部56は、翻訳処理部43が特定した第2言語の文字列Nを表示部57に表示させる。表示処理部56は、文字列Nが包含する複数の第2分節区間HBの各々を、当該第2分節区間HBに対応する第1分節区間(すなわち、対応特定部55が意味的な対応を特定した第1文節区間)HAについて抑揚特定部53が特定した抑揚Wに応じた表示態様で表示部57に表示させる。例えば、第1分節区間HAで特定された抑揚が大きいほど、当該第1分節区間HAに対応する第2分節区間HBが強調示されるように、文字列Nを表示させる。例えば、図22に例示されるように、第1分節区間HA3「しぶや」の抑揚W3と第1分節区間HA1「つぎ」の抑揚W1と第1分節区間HA4「です」の抑揚W4とがこの順に高い場合を想定する(W3>W1>W4)。表示処理部56は、図23に例示されるように、文字列Nのうち、第1分節区間HA1「つぎ」に対応する第2分節区間HB2「next」と比較して、第1分節区間HA3「しぶや」に対応する第2分節区間HB5「Shibuya」が大きいサイズとなり、第1分節区間HA4「です」に対応する第2分節区間HB4「is」が小さいサイズとなるように、文字列Nを表示部57に表示させる。すなわち、文字列Nのうち、抑揚Wが強い第1分節区間HAに対応する第2分節区間HBほど視覚的に強調して表示される。
作成者は、文字列Nの各第2分節区間HBの表示態様を視覚的に確認しながら、各第2分節区間HBを表示態様に応じた抑揚で発音する。例えば、作成者は、文字列Nのうち強調表示された第2分節区間HBについては抑揚を強調して発音する。作成者が発音した第2目的音X2が収音部47により収音されて処理部48がコンテンツQを生成する動作は第1態様と同様である。
以上の構成では、第2分節区間HBの各々を、当該第2分節区間HBと意味が対応する第1分節区間HAについて特定した抑揚Wに応じた表示態様で表示させる。例えば、作成者は、各第2分節区間HBの表示態様を視覚的に確認しながら、文字列Nの各第2分節区間HBを表示態様に応じた抑揚で発音する。以上の構成によれば、第1目的音X1における発音の抑揚Wと第2目的音X2における発音の抑揚Wとが共通する対応関係5が成立するように、第2目的音X2を含むコンテンツQを生成することが可能である。また、以上の構成では、第2分節区間HBが抑揚Wに応じた表示態様で表示されるから、作成者が文字列Nの各第2分節区間HBの抑揚Wを直感的に把握しやすいという利点がある。
<変形例>
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
(1)前述の各形態では、音声案内システム1が利用される場面として、公共交通機関の音声案内を例示したが、音声案内システム1が利用される場面は以上の例示に限定されない。例えば、航空会社が運行する航空便に関する音声案内や、美術館や博物館等の展示施設、競技場や体育館等の運動施設、宿泊施設、商業施設等の各種の施設の音声案内に、前述の各形態と同様の音声案内システム1が利用される。また、各種の施設にて火災や地震等の災害が発生した場合の情報提供(例えば避難の案内や状況の通知)に音声案内システム1を利用することも可能である。
(2)第1実施形態および第2実施形態では、案内装置10および配信装置20の各々を単体の装置として構成したが、案内装置10および配信装置20の各々は複数の装置で構成されるシステムであり得る。例えば、第1実施形態や第2実施形態の案内装置10を、制御部14および記憶部16を含む第1サーバと、信号合成部18および放音部19を含む第2サーバとに分散し、第1サーバと第2サーバとが例えば通信網を介して相互に通信する構成も採用され得る。
(3)前述の各形態では、対象信号SGと識別情報Dとを記憶する記憶部16を案内装置10に設置したが、対象信号SGと識別情報Dとを記憶する記憶部16を案内装置10以外の外部装置(例えばサーバ)に設置してもよい。例えば第1実施形態の案内装置10に通信部を設置し、通信部と外部装置(サーバ装置)との間で通信網200を介した通信を実行することにより外部装置から対象信号SGと識別情報Dとを受信する構成としてもよい。
(4)第2実施形態では、相異なる言語(言語情報F)に対応する複数のコンテンツQを記憶部26に事前に記憶した構成を例示したが、以下の例示の通り、端末装置30から送信される配信要求Rで指定される言語情報Fの言語のコンテンツQを配信要求R毎に実時間的に生成することも可能である。
具体的には、相異なる案内音声の第1目的音X1を表す複数の対象信号SGが識別情報Dとともに配信装置20の記憶部26に事前に格納される。配信装置20の選択処理部24は、配信要求Rで指定される識別情報Dに対応する対象信号SGを記憶部26から取得し、当該対象信号SGに対する音声認識,機械翻訳および音声合成により、配信要求Rで指定された言語情報Fの言語で第1目的音X1を発音した第2目的音X2の音響信号S2を生成する。第2目的音X2は、前述の第1実施形態で例示した何れかの対応関係が第1目的音X1との間で成立するように生成される。配信部28は、選択処理部24が生成した音響信号S2を含むコンテンツQを要求元の端末装置30に送信する。
端末装置30の放音部36は、受信部35が配信装置20から受信したコンテンツQの第2音響信号S2に応じた音響を放音する。すなわち、案内装置10による第1目的音X1の放音に連動して、当該第1目的音X1を利用者Uの使用言語に翻訳した第2目的音X2が端末装置30から放音される。なお、以上の例示では、第2目的音X2を表す音響信号S2を生成したが、対象信号SGに対する音声認識および機械翻訳で生成された文字列(すなわち第1目的音X1の発音内容を言語情報Fの言語に翻訳した文字列)を含むコンテンツQを選択処理部24が生成して配信部28から端末装置30に送信することも可能である。端末装置30では、配信装置20から受信したコンテンツQ内の文字列に対する音声合成で第2目的音X2の音響信号S2を生成して放音部36から第2目的音X2を放音する。第2目的音X2の放音とともにコンテンツQの文字列を表示することも可能である。以上の構成によれば、相異なる案内音声に対応する多数の言語のコンテンツQを事前に記憶部26に格納しておく必要がないから、記憶部26に必要な記憶容量が削減されるという利点がある。
(5)第1実施形態および第2実施形態では、任意の第1目的音X1を表す複数の対象信号SGと当該第1目的音X1に関連するコンテンツQの識別情報Dとを予め対応付けて記憶部16に記憶したが、複数の対象信号SGの各々に識別情報Dを重畳することで第1対象音M1の音響信号S1を事前に生成して記憶部16に記憶させてもよい。以上の構成では、制御部14は、操作部12に対する操作で案内者が選択した音響信号S1を記憶部16から読み出して放音部19に供給する。放音部19は、制御部14から供給される音響信号S1に応じた第1対象音M1を放音する。以上の説明から把握される通り、第1実施形態の案内装置10の各要素から信号合成部18が省略される。
(6)第1実施形態の対応関係2では、複数の第1分節区間HAのうち少なくとも一部の第1分節区間HAの始点と、複数の第2分節区間HBのうち少なくとも一部の第2分節区間HBの始点とが時間軸上で相互に一致する関係を説明したが、対応関係2は以上の例示に限定されない。例えば、第1目的音X1の最初の第1分節区間HA1と第2目的音X2の最初の第2分節区間HB1とで始点が一致し、且つ、第1目的音X1の最後の第1分節区間HAnと第2目的音X2の最後の第2分節区間HBnとで終点が一致する関係も好適である。第1目的音X1の途中の第1分節区間HA2〜HAn-1と第2目的音X2の途中の第2分節区間HB2〜HBn-1との間における始点または終点の異同は不問である。以上の関係は、第1分節区間HA1と第2分節区間HB1とで始点が一致する点で対応関係2に包含され、かつ、第1目的音X1の時間長T1と第2目的音X2の時間長T2とが一致するから対応関係3にも包含される。
(7)第3実施形態の第1態様では、文字列Nとともに指示画像Pを表示部46に表示させる構成を例示したが、話速特定部44が特定した話速Kで文字列Nを発音した音声を放音することも可能である。具体的には、図24に例示されるように、表示処理部45および表示部46に代えて音声合成部65と放音部66とが設置される。音声合成部65は、公知の音声合成処理により、話速特定部44が特定した話速Kで文字列Nを発音した音声信号SKを生成する。放音部66は、音声合成部65が生成した音声信号SKに応じた音響MKを放音する。作成者は、放音部66から放音される音響MKを聴取しながら、音響MKと同様の話速となるように文字列Nを発音する。以上の構成では、放音部66が放音する音響MKに応じて作成者が文字列Nを順次に発音することで、第1目的音X1の時間長T1と同一の時間長T2の第2目的音X2が発音される。以上の構成によっても、第1目的音X1と第2目的音X2とで時間長が同一である対応関係3が成立するように、コンテンツQを生成することが可能である。
(8)第3実施形態の第1態様では、文字列Nに重なる指示画像Pで目標部分を作成者に指示したが、指示画像P以外の画像で目標部分を指示することも可能である。例えば、話速Kに応じて伸長する下線を文字列Nの下方に表示し、下線の端点で目標部分を指示する構成や、文字列Nのうち目標部分の前方と後方とで表示色を相違させ、表示色の境界(すなわち目標部分)を話速Kで移動させることで目標部分を指示する構成も採用され得る。また、文字列Nのうち目標部分を強調表示することも可能である。目標部分を強調表示する態様は任意であって、例えば、目標部分を着色ないし拡大する態様、および、書体を変更する態様等が好適である。また、第3実施形態の第1態様では、文字列Nの全体とともに表示部57に表示させたが、文字列Nのうち目標部分のみを順次に表示部57に表示させてもよい。
(9)第3実施形態の第1態様では、指示画像Pにより発音を指示する目標部分として単語を例示したが、以上の例示以外に、「文」、「文節」、「音節」、「モーラ」等の分節単位を目標部分として指示する構成も採用され得る。
(10)第3実施形態の第2態様では、複数の第2分節区間HBの各々を、当該第2分節区間HBに対応する第1分節区間HAの抑揚Wに応じた文字のサイズで表示させたが、第1分節区間HAの抑揚Wに応じた第2分節区間HBの表示態様は以上の例示に限定されない。例えば、抑揚Wが高いほど文字列が太くなるように第2分節区間HBを表示してもよい。例えば、第1分節区間HA3「しぶや」の抑揚W3と第1分節区間HA1「つぎ」の抑揚W1と第1分節区間HA4「です」の抑揚W4とがこの順に高い場合(W3>W1>W4)、表示処理部56は、図26に例示されるように、文字列Nのうち、第1分節区間HA1「つぎ」に対応する第2分節区間HB2「next」の文字列と比較して、第1分節区間HA3「しぶや」に対応する第2分節区間HB5「Shibuya」の文字列が太くなるように、第1分節区間HA4「です」に対応する第2分節区間HB4「is」の文字列が細くなるように、文字列Nを表示部57に表示させてもよい。また、抑揚Wに応じた階調(濃淡)や彩度で第2分節区間HBの文字列を表示することも可能である。
(11)第3実施形態の第2態様では、第2分節区間HBを、当該第2分節区間HBと意味内容が対応する第1分節区間HAで特定された抑揚Wに応じた表示態様で表示させる構成を例示したが、図25に例示されるように、表示処理部45および表示部46に代えて音声合成部75と放音部76とを設置して、第2分節区間HBに対応する第1分節区間HAの抑揚Wで各第2分節区間HBを発音した音響MWを放音してもよい。以上の構成では、音声合成部75は、第2分節区間HBについて、当該第2分節区間HBと対応する第1分節区間HAで特定された抑揚Wに応じて、第2分節区間HBの抑揚を調整した音声信号SWを生成する。音声合成部75は、第1分節区間HAの抑揚Wが大きいほど、第2分節区間HBの発音の強度が大きくなるように、複数の第2分節区間HB全体を含む文字列Nを発音した音声信号SWを生成する。放音部76は、音声合成部75が生成した音声信号SWに応じた音響MWを放音する。作成者は、放音部76から放音される音響MWを聴取しながら、音響MWに並行して文字列Nを発音する。以上の構成では、放音部76が放音する音響MWに応じて作成者が文字列Nを順次に発音することで、第1目的音X1の発音の抑揚Wと第2目的音X2における発音の抑揚Wとが共通する対応関係5が成立するように、コンテンツQを生成することが可能である。
(12)第3実施形態の第2態様では、文字列Nを単語毎に第2分節区間HBに区分したが、文字列Nを区分する分節単位は任意である。例えば、「文」を第2分節区間HBとした構成や、単語以外の分節単位である「文節」、「音節」、「モーラ」等を第2分節区間HBとした構成も好適に採用され得る。文字列Lを区分した第1分節区間HAについても、第2分節区間HBと同様である。また、前述の各形態では、発音の強度を抑揚Wとして例示したが、例えば音高やアクセントを抑揚Wとして特定することも可能である。