JP2020016901A

JP2020016901A - 情報処理方法およびデータ構造

Info

Publication number: JP2020016901A
Application number: JP2019182585A
Authority: JP
Inventors: 優樹瀬戸; Yuki Seto
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2019-10-03
Filing date: 2019-10-03
Publication date: 2020-01-30
Anticipated expiration: 2038-03-01
Also published as: JP7074116B2

Abstract

【課題】複数の端末装置がそれぞれ収音した音声に関する情報を様々な用途に活用する。【解決手段】情報処理装置は、放音装置２０から放音されて端末装置１０Aが収音した音声を示す音声情報Ｄ1を当該端末装置１０Aから通信装置３３に受信させる通信制御部５１と、複数の端末装置１０Aからそれぞれ受信した複数の音声情報Ｄ1を記憶装置３２に記憶させる記憶制御部５２とを具備する。【選択図】図４

Description

本発明は、情報を処理する技術に関する。

端末装置が収集した情報を処理する各種の技術が従来から提案されている。例えば特許文献１には、識別情報が音響通信により端末装置に送信され、端末装置は当該識別情報に対応する関連情報を出力する構成が開示されている。

特開２０１６−１５３９０６号公報

しかし、特許文献１の技術では、個々の端末装置が識別情報に対応する関連情報を取得するにとどまり、各端末装置が取得した識別情報を収集して全体として活用するという発想はなかった。本発明では、複数の端末装置がそれぞれ収音した音声に関する情報を様々な用途に活用することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る情報処理方法は、放音装置から放音されて端末装置が収音した音声を示す音声情報を当該端末装置から受信し、複数の端末装置からそれぞれ受信した複数の音声情報を記憶装置に記憶する。
本発明の好適な態様に係るデータ構造は、放音装置から放音されて端末装置が収音した音声をそれぞれが示す複数の音声情報を含むデータ構造であって、情報処理装置が前記データ構造に含まれる前記複数の音声情報を利用して提供情報を生成する処理に利用される。

第１実施形態における情報提供システムの構成を例示するブロック図である。端末装置の構成を例示するブロック図である。端末装置の制御装置が実行する処理を例示するフローチャートである。配信装置の構成を例示するブロック図である。関連テーブルの模式図である。音声テーブルの模式図である。関連情報を生成する処理を例示するフローチャートである。提供情報を生成する処理を例示するフローチャートである。第２実施形態に係る音声テーブルの模式図である。第３実施形態に係る音声テーブルの模式図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る情報提供システム１００の構成を例示するブロック図である。図１に例示される通り、第１実施形態の情報提供システム１００は、複数の端末装置１０Aと放音装置２０と配信装置３０（情報処理装置の一例）と端末装置１０Bとを具備する。情報提供システム１００の各要素は、例えば移動体通信網またはインターネット等を含む通信網７０を介して相互に通信可能である。情報提供システム１００は、端末装置１０Aの利用者と端末装置１０Bの利用者とに各種の情報を提供するためのコンピュータシステムである。端末装置１０Aおよび端末装置１０Bは、例えば携帯電話機、スマートフォン、タブレット端末、またはパーソナルコンピュータ等の可搬型の情報端末である。

＜放音装置２０＞
放音装置２０は、特定の施設Ｐに設置される。具体的には、放音装置２０は、施設Ｐの利用者に各種の情報を案内する音声（以下「案内音声」という）Ｖを放音する出力装置である。例えば、駅またはバス停等の交通施設、鉄道またはバス等の交通機関、販売店または飲食店等の商業施設、旅館またはホテル等の宿泊施設、博物館または美術館等の展示施設、史跡または名所等の観光施設、競技場または体育館等の運動施設、等が施設Ｐとして例示される。例えば施設Ｐの営業時間、施設内での販売商品、または、施設Ｐ内における非常事態（例えば火災等）の発生を案内する案内音声Ｖが放音される。または、電車またはバスの車輌（施設Ｐ）内において、電車の遅延等の運行状況、電車の到着、または、乗降時の注意事項等を通知する車内放送が案内音声Ｖとして例示される。なお、実際には複数の施設の各々に放音装置２０が設置され当該施設内で案内音声Ｖ（音声の一例）が放音されるが、以下の説明では便宜的に１つの施設Ｐに着目する。なお、放音装置２０が放音する案内音声Ｖは、施設Ｐの従業者が発音した音声でもよいし、例えば音声合成または録音により用意する音声でもよい。例えば従業者による文字列の指示に並行して、当該文字列が表す案内音声Ｖを音声合成によりリアルタイムで生成してもよい。

第１実施形態の放音装置２０は、案内音声Ｖのほかに、音声情報Ｄ1を表す音響と位置情報Ｄ2を表す音響とを放音する。音声情報Ｄ1は、案内音声Ｖの内容（例えば案内音声Ｖの発音内容を表す文字列）を示す情報である。第１実施形態では、案内音声Ｖの内容を識別する識別子が音声情報Ｄ1として利用される。案内音声Ｖ毎に相異なる音声情報Ｄ1が事前に設定される。音声情報Ｄ1は、案内音声Ｖに対応する関連情報Ｒを特定するための情報である。

位置情報Ｄ2は、放音装置２０により音響が放音される位置（以下「放音位置」）を示す情報である。放音位置毎に相異なる位置情報Ｄ2が事前に設定される。例えば、放音装置２０が設置されている施設Ｐの名称、当該施設Ｐが所在する地域（例えば関東地方および近畿地方等の区分）、または当該施設Ｐの緯度および経度等の地理的な地点が、放音位置として例示される。なお、放音位置は、地理的な特定の地点を示す情報に限定されず、例えば施設Ｐ内での階数や施設Ｐ内の特定の場所でもよい。また、位置情報Ｄ2は、各放音装置２０を識別するための情報でもよい。第１実施形態では、放音位置を識別する識別子が位置情報Ｄ2として利用される。

音響信号Ｘを放音装置２０に供給することで、案内音声Ｖと音声情報Ｄ1を含む音響と位置情報Ｄ2を表す音響とが放音装置２０から放音される。音響信号Ｘは、案内音声Ｖと音声情報Ｄ1を表す音響と位置情報Ｄ2を表す音響とを含む音を表す信号である。第１実施形態の放音装置２０は、案内音声Ｖを再生する音響機器として機能するほか、空気振動としての音波を伝送媒体とした音響通信により音声情報Ｄ1および位置情報Ｄ2を周囲に送信する送信機としても機能する。すなわち、第１実施形態では、案内音声Ｖを放音する放音装置２０から音声情報Ｄ1および位置情報Ｄ2の音響を放音する音響通信により、当該音声情報Ｄ1および位置情報Ｄ2が周囲に送信される。音声情報Ｄ1は、案内音声Ｖの放音毎に送信される。例えば、案内音声Ｖの放音とともに（例えば案内音声Ｖの放音に並行または前後して）音声情報Ｄ1が送信される。他方、位置情報Ｄ2は、案内音声Ｖの放音とは別に所定の周期で反復的に送信される。なお、位置情報Ｄ2を案内音声Ｖの放音とともに送信してもよい。ただし、音声情報Ｄ1の送信と位置情報Ｄ2の送信とは時間的に重複しない。

音響信号Ｘは、案内音声Ｖを表す音声信号と、音声情報Ｄ1を音響成分として表す変調信号と、位置情報Ｄ2を音響成分として表す変調信号とを加算することで生成される。各変調信号は、例えば所定の周波数の搬送波を各情報（音声情報Ｄ1または位置情報Ｄ2）により周波数変調することで生成される。なお、拡散符号を利用した各情報の拡散変調と所定の周波数の搬送波を利用した周波数変換とを順次に実行することで変調信号を生成してもよい。変調信号の周波数帯域は、放音装置２０による放音と端末装置１０Aによる収音とが可能な周波数帯域であり、かつ、端末装置１０Aの利用者が通常の環境で聴取する音声の周波数帯域を上回る周波数帯域（例えば１８ｋＨｚ以上かつ２０ｋＨｚ以下）に設定される。したがって、利用者は、音声情報Ｄ1および位置情報Ｄ2の音響成分を殆ど聴取できない。ただし、変調信号の周波数帯域は任意であり、例えば可聴帯域内の変調信号を生成することも可能である。

＜端末装置１０A＞
図１の複数の端末装置１０Aは、放音装置２０が設置される施設Ｐに所在する。第１実施形態の端末装置１０Aは、案内音声Ｖに関連する情報（以下「関連情報」という）Ｒを配信装置３０から取得する。関連情報Ｒは、例えば、案内音声Ｖの発話内容を表す文字列、当該文字列を他言語に翻訳した翻訳文、または、案内音声Ｖに関連するコンテンツの所在を表す情報（例えばＵＲＬ）等である。関連情報Ｒは、音声または画像で表現されてもよい。なお、他の施設にも同様に複数の端末装置１０Aが所在する。

図２は、端末装置１０Aの構成を例示するブロック図である。図２に例示される通り、端末装置１０Aは、制御装置１１と記憶装置１２と通信装置１３と収音装置１４と再生装置１５とを具備する。端末装置１０Aは、典型的には前述の通り、利用者が所有する情報端末である。ただし、交通機関に設置された電光掲示板、または商業施設に設置される電子看板（デジタルサイネージ）等の案内用の表示端末を端末装置１０Aとして利用してもよい。

収音装置１４は、周囲の音響を収音する音響機器（マイクロホン）である。具体的には、収音装置１４は、放音装置２０が施設Ｐ内に放音した音響を収音し、当該音響の波形を表す音響信号Ｙを生成する。したがって、施設Ｐでの収音により生成された音響信号Ｙには、音声情報Ｄ1の音響成分と位置情報Ｄ2の音響成分とが含まれ得る。位置情報Ｄ2は、案内音声Ｖを収音したときの端末装置１０Aの位置を示す情報とも換言される。

以上の説明から理解される通り、収音装置１４は、端末装置１０Aの相互間の音声通話または動画撮影時の音声収録に利用されるほか、空気振動としての音波を伝送媒体とする音響通信により音声情報Ｄ1および位置情報Ｄ2を受信する受信機としても機能する。なお、収音装置１４が生成した音響信号Ｙをアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略した。また、端末装置１０Aと一体に構成された収音装置１４に代えて、別体の収音装置１４を有線または無線により端末装置１０Aに接続してもよい。

制御装置１１（コンピュータの例示）は、例えばＣＰＵ（Central Processing Unit）等の処理回路で構成され、端末装置１０Aの各要素を統括的に制御する。記憶装置１２は、制御装置１１が実行するプログラムと、制御装置１１が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置１２として任意に採用され得る。

制御装置１１は、図２に例示される通り、記憶装置１２に記憶されたプログラムを実行することで複数の機能（情報抽出部４１および再生制御部４２）を実現する。なお、制御装置１１の一部の機能を専用の電子回路で実現してもよい。また、制御装置１１の機能を複数の装置に搭載してもよい。

情報抽出部４１は、収音装置１４が生成した音響信号Ｙから音声情報Ｄ1および位置情報Ｄ2を抽出する。具体的には、情報抽出部４１は、例えば、音響信号Ｙのうち各情報（音声情報Ｄ1および位置情報Ｄ2）の音響成分を含む周波数帯域を強調するフィルタ処理と、各情報に対する変調処理に対応した復調処理とにより、音声情報Ｄ1および位置情報Ｄ2を抽出する。情報抽出部４１が抽出した音声情報Ｄ1は、当該音声情報Ｄ1に対応する案内音声Ｖ（すなわち放音装置２０により放音された案内音声Ｖ）の関連情報Ｒの取得に利用される。

通信装置１３は、制御装置１１による制御のもとで通信網７０を介して配信装置３０と通信する。第１実施形態の通信装置１３は、情報抽出部４１が抽出した音声情報Ｄ1と位置情報Ｄ2とを配信装置３０に送信する。配信装置３０は、端末装置１０Aから送信された音声情報Ｄ1に対応した関連情報Ｒを取得して端末装置１０Aに送信する。通信装置１３は、配信装置３０から送信された関連情報Ｒを受信する。配信装置３０が関連情報Ｒを取得する処理については後述する。なお、実際には複数の端末装置１０Aのそれぞれから音声情報Ｄ1および位置情報Ｄ2が配信装置３０に送信される。

再生制御部４２は、通信装置１３が受信した関連情報Ｒを再生装置１５に再生させる。再生装置１５は、関連情報Ｒを再生する出力機器である。具体的には、再生装置１５は、関連情報Ｒが表す画像を表示する表示装置と、当該関連情報Ｒが表す音響を放音する放音装置とを具備する。すなわち、再生装置１５による再生は、画像の表示と音響の放音とを包含する。なお、端末装置１０Aと一体に構成された再生装置１５に代えて、別体の再生装置１５を有線または無線により端末装置１０Aに接続してもよい。また、再生装置１５が表示装置および放音装置の一方のみを含む構成としてもよい。

図３は、端末装置１０Aの制御装置１１が実行する処理を例示するフローチャートである。例えば所定の周期で図３の処理が反復的に実行される。図３の処理を開始すると、情報抽出部４１は、収音装置１４が生成した音響信号Ｙから音声情報Ｄ1と位置情報Ｄ2とを抽出する（Ｓa1）。情報抽出部４１は、抽出した音声情報Ｄ1と位置情報Ｄ2とを、通信装置１３から配信装置３０に対して送信させる（Ｓa2）。なお、位置情報Ｄ2が所定の周期で反復的に放音装置２０から送信される場合、制御装置１１は、直近に受信した位置情報Ｄ2を記憶装置１２に記憶しておいて、当該位置情報Ｄ2を配信装置３０に対して送信する。再生制御部４２は、配信装置３０から送信された関連情報Ｒを再生装置１５に再生させる（Ｓa3）。以上の処理により、放音装置２０から放音された案内音声Ｖの関連情報Ｒが端末装置１０Aの利用者に提供される。

＜配信装置３０＞
図４は、配信装置３０の構成を例示するブロック図である。配信装置３０は、端末装置１０Aおよび端末装置１０Bに通信網７０を介して各種の情報を送信するサーバ装置（例えばウェブサーバ）である。各端末装置１０Aに対しては、当該端末装置１０Aから送信された音声情報Ｄ1に対応する関連情報Ｒが送信される。他方、端末装置１０Bに対しては、当該端末装置１０Bの利用者に提供するための情報（以下「提供情報」という）Ｑが送信される。図４に例示される通り、第１実施形態の配信装置３０は、制御装置３１と記憶装置３２と通信装置３３とを具備する。なお、配信装置３０は、単体の装置で実現されるほか、相互に別体で構成された複数の装置の集合（すなわちサーバシステム）でも実現される。

通信装置３３は、制御装置３１（通信制御部５１）による制御のもとで通信網７０を介して端末装置１０Aおよび端末装置１０Bと通信する。第１実施形態の通信装置３３は、複数の端末装置１０Aのそれぞれから音声情報Ｄ1および位置情報Ｄ2を受信し、当該端末装置１０Aに関連情報Ｒを送信する。また、通信装置３３は、端末装置１０Bに提供情報Ｑを送信する。

制御装置３１（コンピュータの例示）は、例えばＣＰＵ（Central Processing Unit）等の処理回路で構成され、配信装置３０の各要素を統括的に制御する。記憶装置３２は、制御装置１１が実行するプログラムと、制御装置３１が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置３２として任意に採用され得る。第１実施形態の記憶装置３２は、関連テーブルＴaと音声テーブルＴbと端末テーブルＴcとを記憶する。

図５は、関連テーブルＴaの模式図である。図５に例示される通り、関連テーブルＴaは、複数の関連情報Ｒが登録されたテーブルである。具体的には、複数の音声情報Ｄ1の各々について、当該音声情報Ｄ1に対応する関連情報Ｒが登録される。特定の案内音声Ｖの音声情報Ｄ1には、例えば当該案内音声Ｖの発話内容を表す文字列、または、当該文字列を他言語に翻訳した翻訳文等を表す関連情報Ｒが対応付けられる。

図６は、音声テーブルＴbの模式図である。図６に例示される通り、音声テーブルＴbは、複数の端末装置１０Aからそれぞれ送信された複数の音声情報Ｄ1が登録されたデータテーブルである。具体的には、各端末装置１０Aから受信した音声情報Ｄ1と位置情報Ｄ2とが対応付けて音声テーブルＴbに登録される。複数の放音位置（Ａ，Ｂ，Ｃ，…）の付近に所在する端末装置１０Aから音声情報Ｄ1が配信装置３０に送信されるから、多様な案内音声Ｖに対応する音声情報Ｄ1が音声テーブルＴbに登録される。すなわち、音声テーブルＴbは、複数の音声情報Ｄ1の集合（ビッグデータ）である。端末テーブルＴcは、提供情報Ｑを送信する対象となる複数の端末装置１０B（具体的には端末装置１０Bを識別するための情報）が登録されたテーブルである。例えば、特定の放音位置に対応する提供情報Ｑを端末装置１０Bの利用者が取得したい場合に、当該端末装置１０Bに対する利用者からの操作に応じて端末装置１０Bが端末テーブルＴcに登録される。また、例えば音声情報Ｄ1の受信を契機として、端末テーブルＴcへの登録要求を配信装置３０に対して端末装置１０Bが自動的に（すなわち利用者からの指示を必要とせずに）送信してもよい。

制御装置３１は、図４に例示される通り、記憶装置１２に記憶されたプログラムを実行することで複数の機能（通信制御部５１，記憶制御部５２，関連情報取得部５３，提供情報生成部５４）を実現する。なお、制御装置１１の一部の機能を専用の電子回路で実現してもよい。また、制御装置３１の機能を複数の装置に搭載してもよい。

通信制御部５１は、各種の情報の受信および送信を通信装置３３に実行させる。記憶制御部５２は、通信装置３３が受信した音声情報Ｄ1および位置情報Ｄ2を記憶装置３２（具体的には音声テーブルＴb）に記憶させる。関連情報取得部５３は、通信装置３３が受信した音声情報Ｄ1に対応する関連情報Ｒを取得する。提供情報生成部５４は、記憶装置３２に記憶された複数の音声情報Ｄ1を利用して提供情報Ｑを生成する。

図７は、制御装置３１が関連情報Ｒを取得する処理のフローチャートである。図５の処理を開始すると、通信制御部５１は、端末装置１０Aから送信された音声情報Ｄ1と位置情報Ｄ2とを通信装置３３に受信させる（Ｓb1）。なお、実際は複数の放音位置の付近に所在する複数の端末装置１０Aのそれぞれから音声情報Ｄ1と位置情報Ｄ2とが送信される。記憶制御部５２は、複数の端末装置１０Aからそれぞれ受信した複数の音声情報Ｄ1を記憶装置３２に記憶させる（Ｓb2）。具体的には、記憶制御部５２は、各端末装置１０Aから受信した音声情報Ｄ1と位置情報Ｄ2とを対応付けて音声テーブルＴbに登録する。関連情報取得部５３は、通信装置３３が受信した音声情報Ｄ1に対応する関連情報Ｒを取得する（Ｓb3）。関連情報Ｒの取得には、図５の関連テーブルＴaが利用される。具体的には、関連情報取得部５３は、関連テーブルＴaに登録された複数の関連情報Ｒのうち、通信装置３３が受信した音声情報Ｄ1に対応付けられた関連情報Ｒを特定する。通信制御部５１は、関連情報取得部５３が特定した関連情報Ｒを端末装置１０Aに対して通信装置３３から送信させる（Ｓb4）。以上の処理により、放音装置２０から放音された案内音声Ｖを収音した端末装置１０Aに当該案内音声Ｖの関連情報Ｒが送信される。

図８は、制御装置３１が提供情報Ｑを生成する処理のフローチャートである。例えば所定の時間毎に図８の処理が実行される。提供情報生成部５４は、図６の音声テーブルＴbに登録された複数の音声情報Ｄ1を利用して提供情報Ｑを生成する（Ｓc1）。通信制御部５１は、提供情報生成部５４が生成した提供情報Ｑを、端末テーブルＴcに登録された複数の端末装置１０Bに対して通信装置３３から送信させる（Ｓc2）。

以下、配信装置３０が生成する提供情報Ｑについて説明する。以下の説明では、非常事態または緊急事態等の異常事態が発生した場合に生成される提供情報Ｑを例示する。特定の施設（例えば交通施設）で非常事態の発生による混雑が発生している場合を想定する。例えば、交通施設（例えば駅）における人身事故の発生により電車の遅延が発生し、それにより混雑が発生している場合が例示される。非常事態が発生した施設内の放音装置２０の付近に所在する多数の端末装置１０Aは、非常事態の発生を知らせる案内音声Ｖをそれぞれが収音して、当該案内音声Ｖに対応する音声情報Ｄ1と当該放音位置を示す位置情報Ｄ2とを配信装置３０に送信する。非常事態が発生している施設を表す放音位置を示す位置情報Ｄ2と、非常事態の発生を知らせる案内音声Ｖの音声情報Ｄ1とのレコード（組合せ）が、短時間に集中して音声テーブルＴbに登録される。したがって、そのレコードの数に応じて混雑の発生を推定し、音声情報Ｄ1に応じて混雑の原因を推定することができる。

以上の事情を前提として、提供情報生成部５４は、音声テーブルＴbを利用して提供情報Ｑを生成する。具体的には、提供情報生成部５４は、非常事態の発生を知らせる案内音声Ｖの音声情報Ｄ1と、当該非常事態が発生している施設を表す放音位置を示す位置情報Ｄ2とのレコードの数（以下「登録数」という）Ｎを音声テーブルＴbから特定し、当該登録数Ｎが閾値を上回る場合（すなわち施設が非常事態により混雑している場合）に、非常事態の発生を示す提供情報Ｑを生成する。登録数Ｎが閾値を上回るレコードの音声情報Ｄ1が示す案内音声Ｖの内容に応じた提供情報Ｑが生成される。例えば人身事故により駅が混雑していることを示す提供情報Ｑが生成される。また、登録数Ｎが閾値を上回るレコードの音声情報Ｄ1が示す案内音声Ｖが火災等の非常事態を知らせる内容である場合には、例えば当該レコードの位置情報Ｄ2が示す放音位置が表す施設（つまり火災が発生している施設）を示す提供情報Ｑを生成してもよい。また、位置情報Ｄ2が示す放音位置からの避難経路を示す提供情報Ｑを生成してもよい。例えば、複数の放音位置の各々に対応付けられた避難経路が予め記憶装置３２に記憶され、提供情報Ｑの生成に利用される。以上の説明から理解される通り、端末装置１０Aから音声情報Ｄ1とともに送信された位置情報Ｄ2は、提供情報Ｑの生成に利用されるための情報である。

なお、登録数Ｎは、例えば所定の期間（以下「参照期間」という）内に端末装置１０Aから受信したレコード（音声情報Ｄ1，位置情報Ｄ2）の総数である。例えば、現時点から過去にわたる所定長の参照期間内において配信装置３０が端末装置１０Aから受信したレコードが記憶装置３２に保持される構成では、記憶装置３２に記録されたレコードの総数が登録数Ｎとして計数される。また、配信装置３０が音声情報Ｄ1および位置情報Ｄ2を端末装置１０Aから受信した時刻が記憶装置３２に記憶される構成では、記憶装置３２に記憶された全部のレコードのうち受信時刻が参照期間内に属するレコードの総数が登録数Ｎとして計数される。

以上の説明から理解される通り、第１実施形態の提供情報生成部５４は、音声テーブルＴbに登録された複数の音声情報Ｄ1のうち、特定の放音位置（例えば混雑している施設）を示す位置情報Ｄ2に対応付けられた２以上の音声情報Ｄ1を利用して、提供情報Ｑを生成する。具体的には、音声テーブルＴbに登録された複数の音声情報Ｄ1が示す案内音声Ｖの内容に応じた提供情報Ｑが生成される。以上の手順で生成された提供情報Ｑが前述の通り、端末テーブルＴcに登録された複数の端末装置１０Bに対して送信される。

端末装置１０Bは、配信装置３０から送信された提供情報Ｑを再生する。具体的には、端末装置１０Bは、例えば提供情報Ｑを表す文字列の表示、または、提供情報Ｑが表す音響の放音により、当該提供情報Ｑを再生する。

以上の説明から理解される通り、第１実施形態では、複数の端末装置１０Aからそれぞれ受信した複数の音声情報Ｄ1が記憶装置３２（音声テーブルＴb）に記憶されるから、複数の音声情報Ｄ1を様々な用途に活用するが可能である。第１実施形態では特に、記憶装置３２に記憶された複数の音声情報Ｄ1を利用することで生成された提供情報Ｑが端末装置１０Bに送信されるから、複数の端末装置１０Aから送信された音声情報Ｄ1を提供情報Ｑの生成に活用することができる。また、第１実施形態では、記憶装置３２に記憶された複数の音声情報Ｄ1のうち、特定の位置を示す位置情報Ｄ2に対応付けられた２以上の音声情報Ｄ1から提供情報Ｑが生成されるから、特定の位置で収音されたと推定される案内音声Ｖをそれぞれが示す２以上の音声情報Ｄ1から提供情報Ｑを生成することができるという利点がある。

＜第２実施形態＞
本発明の第２実施形態を説明する。なお、以下の各例示において機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

第２実施形態の端末装置１０Aは、音声情報Ｄ1と位置情報Ｄ2とに加えて、時刻情報Ｄ3を配信装置３０に送信する。時刻情報Ｄ3は、端末装置１０Aが案内音声Ｖを収音した時刻（典型的には日時）を示す情報である。例えば案内音声Ｖを収音したときに端末装置１０Aに設定されている時刻が時刻情報Ｄ3として端末装置１０Aにより生成される。なお、情報抽出部４１が案内音声Ｖの音声情報Ｄ1を抽出した時刻を時刻情報Ｄ3として生成してもよい。音声情報Ｄ1と位置情報Ｄ2とは、第１実施形態と同様に、放音装置２０から送信される。

配信装置３０の通信制御部５１は、音声情報Ｄ1と位置情報Ｄ2と時刻情報Ｄ3とを通信装置３３に受信させる。記憶制御部５２は、端末装置１０Aが送信した音声情報Ｄ1と位置情報Ｄ2と時刻情報Ｄ3とを音声テーブルＴbに登録する。図９は、第２実施形態に係る音声テーブルＴbの模式図である。図９に例示される通り、各端末装置１０Aから受信した音声情報Ｄ1と位置情報Ｄ2と時刻情報Ｄ3とを対応付けて、１つのレコードとして登録する。

第２実施形態の関連情報取得部５３は、第１実施形態と同様に、端末装置１０Aから送信された音声情報Ｄ1から関連情報Ｒを取得し、当該端末装置１０Aに送信する。第２実施形態の提供情報生成部５４は、第１実施形態と同様に、記憶装置３２に記憶された複数の音声情報Ｄ1を利用して提供情報Ｑを生成する。

以下、第２実施形態の配信装置３０が生成する提供情報Ｑについて説明する。第２実施形態では、特定の施設の混雑の状況（例えば混雑の原因および混雑の度合）を知らせる提供情報Ｑを生成する場合を例示する。前述の通り、特定の放音位置の付近に所在する複数の端末装置１０Aが各種の案内音声Ｖをそれぞれが収音して、音声情報Ｄ1と位置情報Ｄ2と時刻情報Ｄ3とが配信装置３０に送信される。音声テーブルＴbにおいて放音位置（例えば商業施設を表す放音位置）を示す位置情報Ｄ2が共通に対応付けられた時刻情報Ｄ3のうち、当該商業施設に混雑が発生している時間帯（例えば朝／昼／夜）を表す時刻情報Ｄ3は、短時間に集中して登録される。したがって、各時間帯について、特定の商業施設を表す放音位置を示す位置情報Ｄ2と時刻情報Ｄ3と含むレコードの登録数Ｎを算定することで、当該商業施設が混雑している時間帯を推定することができる。

以上の事情を前提として、第２実施形態の提供情報生成部５４は、音声テーブルＴbに登録された複数の音声情報Ｄ1を利用して、商業施設の混雑の状況を知らせる提供情報Ｑを生成する。例えば、提供情報生成部５４は、特定の商業施設を表す放音位置を示す位置情報Ｄ2を含むレコードを音声テーブルＴbから特定する。つぎに、提供情報生成部５４は、特定した複数のレコードを当該レコードの時刻情報Ｄ3が示す時刻を利用して時間帯（朝／昼／夜）毎に分類する。分類されたレコードの登録数Ｎに応じて各時間帯の混雑の度合（例えば高／普通／低）を推定し、推定した各時間帯の混雑の度合を提供情報Ｑとして生成する。時刻情報Ｄ3は、提供情報Ｑの生成に利用されるための情報である。

また、時間帯毎に分類された音声情報Ｄ1が示す案内音声Ｖの内容から、時間帯毎の混雑の原因を示す提供情報Ｑが生成される。例えば各種のイベント（例えばタイムセール等）の発生を報知する案内音声Ｖを示す音声情報Ｄ1を含むレコードの登録数Ｎが多い場合には、当該イベントが混雑の原因であることを示す提供情報Ｑが生成される。すなわち、複数の案内音声Ｖの内容に応じた提供情報Ｑが生成される。なお、混雑の度合は、時間帯毎の混雑の度合に限定されず、例えば曜日毎や月毎の混雑の度合でもよい。また、音声情報Ｄ1を利用せずに、位置情報Ｄ2および時刻情報Ｄ3から混雑の状況を知らせる提供情報Ｑを生成してもよい。以上の手順で生成された提供情報Ｑが前述の通り、端末テーブルＴcに登録された複数の端末装置１０Bに対して送信される。

以上の説明から理解される通り、第２実施形態の提供情報生成部５４は、音声テーブルＴbに登録された複数の音声情報Ｄ1のうち、特定の時刻（例えば時間帯）を示す時刻情報Ｄ3に対応付けられた２以上の音声情報Ｄ1を利用して、提供情報Ｑを生成する。第２実施形態でも第１実施形態と同様に、記憶装置３２に記憶された複数の音声情報Ｄ1を様々な用途（例えば提供情報Ｑの生成）に活用することが可能である。第２実施形態では特に、記憶装置３２に記憶された複数の音声情報Ｄ1のうち、特定の時刻を示す時刻情報Ｄ3に対応付けられた２以上の音声情報Ｄ1から提供情報Ｑが生成されるから、特定の時刻に収音されたと推定される案内音声Ｖをそれぞれが示す２以上の音声情報Ｄ1から提供情報Ｑを生成できるという利点がある。

なお、第２実施形態では、端末装置１０Aが時刻情報Ｄ3を生成したが、配信装置３０が時刻情報Ｄ3を生成してもよい。例えば端末装置１０Aから音声情報Ｄ1と位置情報Ｄ2とを受信した時刻を示す時刻情報Ｄ3が生成され、当該時刻情報Ｄ3が端末装置１０Aから送信された音声情報Ｄ1と位置情報Ｄ2とに対応付けて、１つのレコードとして音声テーブルＴbに登録する。

＜第３実施形態＞
第３実施形態の端末装置１０Aは、音声情報Ｄ1と位置情報Ｄ2とに加えて、言語情報Ｄ4を配信装置３０に送信する。言語情報Ｄ4は、端末装置１０Aに設定された言語を示す情報である。言語情報Ｄ4を取得する方法は任意であるが、例えば、端末装置１０AのＯＳ（Operating System）の言語設定を参照して言語情報Ｄ4を生成する構成、または端末装置１０Aの利用者が任意に指定した言語を示す言語情報Ｄ4を生成する構成が採用される。音声情報Ｄ1と位置情報Ｄ2とは、第１実施形態と同様に、放音装置２０から送信される。

配信装置３０の通信制御部５１は、端末装置１０Aが送信した音声情報Ｄ1と位置情報Ｄ2と言語情報Ｄ4とを通信装置３３に受信させる。記憶制御部５２は、通信装置３３が受信した音声情報Ｄ1と位置情報Ｄ2と言語情報Ｄ4とを音声テーブルＴbに登録する。図１０は、第３実施形態に係る音声テーブルＴbの模式図である。図１０に例示される通り、各端末装置１０Aから受信した音声情報Ｄ1と位置情報Ｄ2と言語情報Ｄ4とを対応付けて１つのレコードとして登録する。

第３実施形態の関連情報取得部５３は、第１実施形態と同様に、端末装置１０Aから送信された音声情報Ｄ1から関連情報Ｒを取得し、当該端末装置１０Aに送信する。第３実施形態の提供情報生成部５４は、音声テーブルＴbを利用して提供情報Ｑを生成する。

以下、第３実施形態の配信装置３０が生成する提供情報Ｑについて説明する。第３実施形態では、特定の放音位置の付近に所在する利用者が使用する言語を示す提供情報Ｑを生成する場合を例示する。放音位置の付近に特定の言語を使用する利用者（つまり特定の言語が設定された端末装置１０A）が多く所在する場合、当該放音位置を示す位置情報Ｄ2が共通に対応付けられた言語情報Ｄ4が、短時間に集中して音声テーブルＴbに登録される。したがって、各言語について、特定の放音位置を示す位置情報Ｄ2と言語情報Ｄ4とを含むレコードの登録数Ｎを算定することで、当該放音位置において使用する人数が多い言語を推定することができる。

以上の事情を前提として、第３実施形態の提供情報生成部５４は、音声テーブルＴbに登録された複数の音声情報Ｄ1を利用して、特定の放音位置において使用する人数が多い言語を示す提供情報Ｑを生成する。例えば、提供情報生成部５４は、特定の放音位置を示す位置情報Ｄ2を含むレコードを音声テーブルＴbから特定する。次に、提供情報生成部５４は、特定した複数のレコードを当該レコードの言語情報Ｄ4が示す言語を利用して言語毎に分類することで、提供情報Ｑを生成する。例えば、分類されたレコードの登録数Ｎに応じて、当該レコードの位置情報Ｄ2が示す放音位置において各言語を使用する人数を推定し、推定した人数が最も多い言語を示す提供情報Ｑが生成される。すなわち、特定の放音位置で最も使用されていると推定される言語を示す提供情報Ｑが生成される。言語情報Ｄ4は、提供情報Ｑの生成に利用される情報である。なお、分類されたレコードの数が降順で上位に位置する複数の言語を示す提供情報Ｑを生成してもよい。

第３実施形態では、交通機関に設置された電光掲示板、または商業施設に設置される電子看板（デジタルサイネージ）等の案内用の表示端末を端末装置１０Bとして例示する。配信装置３０は、端末テーブルＴcに登録された複数の端末装置１０Bのうち、提供情報Ｑの生成に利用された言語情報Ｄ4に対応する位置情報Ｄ2が示す放音位置（すなわち提供情報Ｑが示す言語を使用する利用者が多く所在する放音位置）の付近に位置する端末装置１０Bに、当該提供情報Ｑを送信する。端末装置１０Bは、例えば配信装置３０から送信された提供情報Ｑが示す言語により、各種の情報を表示する。すなわち、放音位置の付近において使用する人数が多い言語により情報が表示される。

なお、第３実施形態では、端末装置１０Aが言語情報Ｄ4を生成したが、放音装置２０が音声情報Ｄ1と位置情報Ｄ2とともに言語情報Ｄ4を端末装置１０Aに送信してもよい。例えば、案内音声Ｖの言語を示す情報が言語情報Ｄ4として端末装置１０Aに送信される。端末装置１０Aは、放音装置２０から送信された言語情報Ｄ4を配信装置３０に送信する。また、以上の構成では、放音装置２０からどの言語の案内音声Ｖが放音されているのかという情報収集が可能になる。

以上の説明から理解される通り、第３実施形態の提供情報生成部５４は、音声テーブルＴbに登録された複数の音声情報Ｄ1のうち、特定の言語を示す言語情報Ｄ4に対応付けられた２以上の音声情報Ｄ1を利用して、提供情報Ｑを生成する。第３実施形態でも第１実施形態と同様に、記憶装置３２に記憶された複数の音声情報Ｄ1を様々な用途（例えば提供情報Ｑの生成）に活用するが可能である。第３実施形態では特に、各端末装置１０Aから受信した音声情報Ｄ1と言語情報Ｄ4と対応付けて記憶装置３２に記憶されるから、言語情報Ｄ4を様々な用途に活用することができる。

＜変形例＞
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態では、記憶装置３２（音声テーブルＴb）に記憶された複数の音声情報Ｄ1を利用して提供情報Ｑを生成したが、記憶装置３２に記憶された複数の音声情報Ｄ1は、提供情報Ｑの生成以外の様々な用途に活用される。例えば、記憶装置３２に記憶された複数の音声情報Ｄ1またはその内容を統計的に分析することで、各種の事業（例えばマーケティング）に活用してもよい。なお、記憶装置３２に記憶された音声情報Ｄ1以外の情報（例えば位置情報Ｄ2，時刻情報Ｄ3，言語情報Ｄ4）を分析に利用してもよい。また、音声テーブルＴbを検索可能なデータベースとして提供してもよい。以上の説明から理解される通り、提供情報Ｑの生成は省略される。

（２）前述の各形態では、放音装置２０が案内音声Ｖを放音したが、放音装置２０が放音する音声は案内音声Ｖに限定されない。すなわち、端末装置１０Aが収音する音声は案内音声Ｖ以外の音声でもよい。例えば、楽音（楽曲の演奏音）または警報音等の音声を端末装置１０Aが収音し、当該音声を示す音声情報Ｄ1を生成してもよい。案内音声Ｖは、音声の一例である。

（３）前述の各形態では、案内音声Ｖを識別する識別子を音声情報Ｄ1として例示したが、音声情報Ｄ1は以上の例示に限定されない。例えば案内音声Ｖの発話内容を表す文字列を音声情報Ｄ1としてもよい。端末装置１０Aの情報抽出部４１は、収音装置１４が生成した音響信号Ｙに対する音声認識により、案内音声Ｖの発話内容を表す文字列を音声情報Ｄ1として特定する。音響信号Ｙに対する音声認識には、例えばＨＭＭ（Hidden Markov Model）等の音響モデルと、言語的な制約を示す言語モデルとを利用した認識処理等の公知の技術が任意に採用され得る。端末装置１０Aが音声認識により音声情報Ｄ1を生成する構成では、放音装置２０による音声情報Ｄ1の送信は省略される。端末装置１０Aは、案内音声Ｖの発話内容を表す文字列（音声情報Ｄ1）に対応する関連情報Ｒを配信装置３０から受信する。また、音声情報Ｄ1は、情報の所在を表す情報（例えばＵＲＬ）でもよい。以上の例示から理解される通り、音声情報Ｄ1は、端末装置１０Aが収音した音声を示す情報として包括的に表現される。同様に、位置情報Ｄ2も放音位置を識別する識別子に限定されない。例えば、放音位置を示す文字列（例えば施設の名称）、または、放音位置を示すコンテンツの所在を表す情報（例えばＵＲＬ）を位置情報Ｄ2として放音装置２０が端末装置１０Aに送信してもよい。

（４）前述の各形態で例示した位置情報Ｄ2と時刻情報Ｄ3とは、端末装置１０Aによる収音の状況を示す状況情報として包括的に表現される。つまり、案内音声Ｖが収音された位置と、案内音声Ｖが収音された時刻とが収音の状況として例示される。なお、状況情報は、位置情報Ｄ2および時刻情報Ｄ3に限定されない。例えば、端末装置１０Aにより撮像された画像、測位用の衛星（例えばＧＰＳ衛星）を利用して取得した位置、移動速度、アプリケーションの使用状況、ウェブブラウザによる閲覧履歴、プッシュ通知された情報、等の案内音声Ｖの収音時に端末装置１０Aにより生成または取得される情報であれば、状況情報は任意である。

（５）第１実施形態と第２実施形態では、端末装置１０Aが音声情報Ｄ1と状況情報とを配信装置３０に送信し、第３実施形態では、端末装置１０Aが音声情報Ｄ1と状況情報と言語情報Ｄ4とを配信装置３０に送信したが、端末装置１０Aが音声情報Ｄ1以外の情報を送信することは省略してもよい。

また、端末装置１０Aが音声情報Ｄ1に付加して送信する情報は、状況情報および言語情報Ｄ4に限定されない。例えば、非常事態（例えば火災）の発生を知らせる案内音声Ｖを収音する端末装置１０Aは、案内音声Ｖ以外の音（例えばサイレン等）も案内音声Ｖとともに収音し得る。以上の状況では、端末装置１０Aが案内音声Ｖとともに収音した音の分類を示す情報（以下「分類情報」という）を音声情報Ｄ1に付加して配信装置３０に送信してもよい。例えば、非常事態を知らせるサイレンを示す分類情報、または、爆発音および衝撃音等の異常音を示す分類情報が例示される。分類情報の生成には、公知の技術が任意に採用され得る。例えば音響信号Ｙの解析により分類情報が生成される。端末装置１０Aは、音声情報Ｄ1と分類情報とを配信装置３０に送信し、配信装置３０（記憶制御部５２）は、受信した音声情報Ｄ1と分類情報とを対応付けて記憶装置３２に記憶させる。なお、案内音声Ｖ以外の音が含まれる音響信号Ｙを端末装置１０Aが音声情報Ｄ1に付加して配信装置３０に送信し、配信装置３０が当該音響信号Ｙの解析により分類情報を生成してもよい。また、端末装置１０Aが収音した案内音声Ｖの放音元である放音装置２０に関する情報（例えば識別情報）を音声情報Ｄ1に付加して端末装置１０Aから送信してもよい。

（６）第１実施形態および第２実施形態では、提供情報Ｑの生成に複数の音声情報Ｄ1を利用したが、複数の音声情報Ｄ1を利用せずに提供情報Ｑを生成してもよい。例えば状況情報のみを利用して提供情報Ｑを生成してもよい。例えば、音声テーブルＴbに登録されている各放音位置を示す位置情報Ｄ2の数に応じて、当該放音位置毎に混雑の度合を示す提供情報Ｑを生成してもよい。

（７）音声情報Ｄ1を受信できるのはその案内音声Ｖを収音可能な特定の放音位置に制限されるから、音声情報Ｄ1は放音位置を示す情報とも表現できる。したがって、前述の各形態で例示した提供情報Ｑの生成において、複数の端末装置１０Aから送信された位置情報Ｄ2を利用することは必須ではない。つまり、放音装置２０による位置情報Ｄ2の送信は省略さ得る。

また、端末装置１０Aは、測位用の衛星（例えばＧＰＳ衛星）からの電波を受信することで端末装置１０Aの正確な位置情報Ｄ2を取得し、当該位置情報Ｄ2を音声情報Ｄ1に付加して送信してもよい。なお、衛星電波から特定される位置情報Ｄ2と、放音装置２０から音響通信で受信した位置情報Ｄ2との双方を、音声テーブルＴbに登録してもよい。衛星電波から特定される位置情報Ｄ2は、端末装置１０Aの絶対的な位置を示すのに対し、音響通信で受信した位置情報Ｄ2は放音位置を示すという意味的な相違がある。例えば、端末装置１０Aが電車等の移動体の内部に所在する場合を想定すると、衛星電波から特定される位置情報Ｄ2が示す絶対位置は移動体の移動に連動して変化するが、音響通信で受信した位置情報Ｄ2が示す放音位置は変化しない。

また、端末装置１０Aが接続する通信網７０を管理する電気通信事業者が生成する高精度な位置情報Ｄ2（以下「高精度位置情報」という）を提供情報Ｑの生成に利用してもよい。例えば音声情報Ｄ1に付加された時刻情報Ｄ3が示す時刻に端末装置１０Aが所在する位置に対応した高精度位置情報が、当該音声情報Ｄ1に対応付けて音声テーブルＴbに登録される。以上の構成では、電気通信事業者が生成する高精度位置情報を複数の音声情報Ｄ1の活用に利用することができる。以上の説明から理解される通り、前述の各形態において、配信装置３０に対する位置情報Ｄ2の送信は省略される。なお、高精度位置情報と音声テーブルＴbとの対応関係に応じて提供情報Ｑを生成してもよい。例えば、高精度位置情報が示す多数の端末装置１０Aの移動傾向を加味して、音声テーブルＴbから提供情報Ｑを生成してもよい。

（８）前述の各形態では、複数の音声情報Ｄ1を利用して提供情報Ｑを生成したが、提供情報Ｑの生成において複数の音声情報Ｄ1を利用することは必須ではない。すなわち、１個の音声情報Ｄ1を利用して提供情報Ｑを生成してもよい。例えば非常事態を知らせる案内音声Ｖの音声情報Ｄ1が端末装置１０Aから配信装置３０に送信された場合、当該音声情報Ｄ1を利用して非常事態を知らせる提供情報Ｑを生成してもよい。以上の構成では、配信装置３０は、当該音声情報Ｄ1を利用して生成した提供情報Ｑを端末装置１０Bに送信する要素として機能する。端末装置１０Aと端末装置１０Bとの異同は不問である。

（９）前述の各形態では、配信装置３０は端末装置１０Aに関連情報Ｒを送信したが、関連情報Ｒを端末装置１０Aに送信することは省略してもよい。すなわち、端末装置１０Aは音声情報Ｄ1を収集して配信装置３０に送信するための情報端末として利用される。

（１０）前述の各形態では、端末テーブルＴcに登録される端末装置１０Bに対して提供情報Ｑを送信したが、端末装置１０Aに対して提供情報Ｑを送信してもよい。また、放音装置２０が設置された施設Ｐの事業者に情報提供Ｑを提供してもよい。例えば、提供情報生成部５４は、特定の案内音声Ｖ（例えば施設Ｐで放音されている案内音声Ｖ）を示す音声情報Ｄ1の増加傾向を知らせる提供情報Ｑを生成する。例えば、音声テーブルＴbに登録された複数の音声情報Ｄ1のうち、施設Ｐを示す位置情報Ｄ2に対応する音声情報Ｄ1が短時間で増加傾向にある場合（例えば登録数が所定の閾値を上回る場合）に、提供情報Ｑが生成される。例えば、特定の案内音声Ｖを示す音声情報Ｄ1の登録数が増加したことを知らせる提供情報Ｑ、または、当該音声情報Ｄ1の登録数を知らせる提供情報Ｑが生成される。生成された提供情報Ｑが施設Ｐの利用者の情報端末に送信される。利用者の情報端末は、例えば放音装置２０を制御するための制御装置である。情報端末は、配信装置３０から受信した提供情報Ｑが示す音声情報Ｄ1の増加傾向から、施設Ｐの混雑の状況（例えば混雑の度合）を推定する。次に、情報端末は、推定した混雑の状況から、施設Ｐの利用者を混雑の度合が低い場所に誘導するための案内音声Ｖを、所定のタイミングで放音装置２０に放音させる。

（１１）前述の各形態では、各端末装置１０Aが関連情報Ｒの取得のために送信した音声情報Ｄ1を記憶装置３２（音声テーブルＴb）に記憶したが、端末装置１０Aは関連情報Ｒの取得のために送信した音声情報Ｄ1とは異なるタイミングで送信された当該音声情報Ｄ1を記憶装置３２に記憶してもよい。端末装置１０Aは、案内音声Ｖを収音すると関連情報Ｒの取得のために音声情報Ｄ1を配信装置３０に送信する。その後、端末装置１０Aは、記憶装置３２（音声テーブルＴb）に記憶するための音声情報Ｄ1（および他の情報）を配信装置３０に送信する。例えば、予め設定された時刻に複数の音声情報Ｄ1をまとめて送信してもよい。

（１２）前述の各形態では、各端末装置１０Aから送信された音声情報Ｄ1を配信装置３０（音声テーブルＴb）に記憶したが、配信装置３０とは別体の情報処理装置に音声テーブルＴb（音声情報Ｄ1）を記憶してもよい。各端末装置１０Aは、配信装置３０と情報処理装置とのそれぞれに音声情報Ｄ1を送信する。配信装置３０は、関連テーブルＴaを記憶し、音声情報Ｄ1に対応した関連情報Ｒを端末装置１０Aに送信する。他方、情報処理装置の記憶装置は、各端末装置１０Aから受信した複数の音声情報Ｄ1を含む音声テーブルＴbを記憶する。提供情報Ｑは、情報処理装置から端末装置１０Bに送信される。以上の構成では、音声情報Ｄ1を情報処理装置に送信するタイミングは任意である。例えば、配信装置３０に対する音声情報Ｄ1の送信と同時でもよいし、予め設定された時刻に複数の音声情報Ｄ1をまとめて送信してもよい。なお、音声情報Ｄ1と、音声情報Ｄ1以外の情報（例えば状況情報または言語情報Ｄ4）とを情報処理装置に送信してもよい。

（１３）前述の各形態では、関連情報取得部５３は、関連テーブルＴaから音声情報Ｄ1に対応する関連情報Ｒを取得したが、関連情報取得部５３が関連情報Ｒを生成してもよい。例えば、案内音声Ｖの発話内容を表す文字列を示す音声情報Ｄ1から、当該文字列に応じた関連情報Ｒが生成される。すなわち、関連テーブルＴaを記憶装置３２に記憶しておくことは必須ではない。

（１４）前述の各形態で例示した音声テーブルＴbは、データ構造としても特定される。すなわち、音声テーブルＴbは、放音装置２０から放音されて端末装置１０Aが収音した音声の内容をそれぞれが示す複数の音声情報Ｄ1を含むデータ構造であって、配信装置３０（情報処理装置の一例）がデータ構造に含まれる複数の音声情報Ｄ1を利用して提供情報Ｑを生成する処理に利用される。

（１５）端末装置１０Aの制御装置１１を情報抽出部４１および再生制御部４２として機能させるプログラムは、単体のアプリケーションソフトウェアのほか、例えば端末装置１０Aにおいて使用される各種のアプリケーションソフトウェア（例えばブラウザ）に対するプラグインソフトウェアとして提供してもよい。

（１６）前述の各形態に係る配信装置３０または端末装置１０（１０A，１０B）の機能は、各形態での例示の通り、制御装置３１とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。

＜付記＞
以上に例示した形態から、例えば以下の構成が把握される。

本発明の好適な態様（第１態様）に係る情報処理方法は、放音装置から放音されて端末装置が収音した音声を示す音声情報を当該端末装置から受信し、複数の端末装置からそれぞれ受信した複数の音声情報を記憶装置に記憶する。以上の態様では、複数の端末装置からそれぞれ受信した複数の音声情報が記憶装置に記憶されるから、複数の音声情報を様々な用途に活用することができる。

第１態様の好適例（第２態様）では、前記記憶装置に記憶された前記複数の音声情報を利用して提供情報を生成し、前記提供情報を端末装置に送信する。以上の態様では、記憶装置に記憶された複数の音声情報を利用することで生成された提供情報が端末装置に送信されるから、複数の端末装置から送信された音声情報を提供情報の生成に活用することができる。

第２態様の好適例（第３態様）では、前記提供情報は、前記複数の音声情報が示す音声の内容に応じた情報である。以上の態様では、複数の端末装置が収音した音声の内容に応じた提供情報を生成することができる。

第２態様または第３態様の好適例（第４態様）では、前記端末装置による前記収音の状況を示す状況情報を当該端末装置から受信し、各端末装置から受信した前記音声情報と前記状況情報とを対応付けて前記記憶装置に記憶し、前記記憶装置に記憶された前記複数の音声情報のうち、特定の状況を示す前記状況情報に対応付けられた２以上の音声情報を利用して、前記提供情報を生成する。以上の態様では、記憶装置に記憶された複数の音声情報のうち、特定の状況を示す状況情報に対応付けられた２以上の音声情報から提供情報が生成されるから、特定の状況下で収音されたと推定される音声をそれぞれが示す２以上の音声情報から提供情報を生成することが可能である。

第４態様の好適例（第５態様）では、前記状況情報は、前記音声を収音したときの端末装置の位置を前記状況として示す位置情報を含み、前記記憶装置に記憶された複数の音声情報のうち、特定の位置を示す位置情報に対応付けられた２以上の音声情報を利用して、前記提供情報を生成する。以上の態様では、記憶装置に記憶された複数の音声情報のうち、特定の位置を示す位置情報に対応付けられた２以上の音声情報から提供情報が生成されるから、特定の位置で収音されたと推定される音声をそれぞれが示す２以上の音声情報から提供情報を生成することが可能である。

第４態様または第５態様の好適例（第６態様）では、前記状況情報は、前記音声を収音した時刻を前記状況として示す時刻情報を含み、前記記憶装置に記憶された複数の音声情報のうち、特定の時刻を示す時刻情報に対応付けられた２以上の音声情報を利用して、前記提供情報を生成する。以上の態様では、記憶装置に記憶された複数の音声情報のうち、特定の時刻を示す時刻情報に対応付けられた２以上の音声情報から提供情報が生成されるから、特定の時刻に収音されたと推定される音声をそれぞれが示す２以上の音声情報から提供情報を生成することが可能である。

第１態様から第６態様の何れかの好適例（第７態様）では、前記端末装置に設定された言語を示す言語情報を当該端末装置から受信し、各端末装置から受信した前記音声情報と前記言語情報とを対応付けて前記記憶装置に記憶する。以上の態様では、各端末装置から受信した言語情報と音声情報と対応付けて記憶装置に記憶されるから、案内音声を収音した端末装置に設定されている言語を示す言語情報を様々な用途に活用することができる。

本発明の好適な態様（第８態様）に係るデータ構造は、放音装置から放音されて端末装置が収音した音声の内容をそれぞれが示す複数の音声情報を含むデータ構造であって、情報処理装置が前記複数の音声情報を利用して提供情報を生成する処理に利用される。以上の態様では、データ構造に含まれる複数の音声情報が提供情報の生成に利用されるから、複数の端末装置から送信された音声情報を提供情報の生成に活用することができる。

１００…情報提供システム、１０…端末装置、２０…放音装置、３０…配信装置、１１…制御装置、１２…記憶装置、１３…通信装置、１４…収音装置、１５…再生装置、３１…制御装置、３２…記憶装置、３３…通信装置、４１…情報抽出部、４２…再生制御部、５１…通信制御部、５２…記憶制御部、５３…関連情報取得部、５４…提供情報生成部、７０…通信網。

Claims

放音装置から放音されて端末装置が収音した音声を示す音声情報を当該端末装置から受信し、
複数の端末装置からそれぞれ受信した複数の音声情報を記憶装置に記憶する
コンピュータにより実現される情報処理方法。
前記記憶装置に記憶された前記複数の音声情報を利用して提供情報を生成し、
前記提供情報を端末装置に送信する
請求項１の情報処理方法。
前記提供情報は、前記複数の音声情報が示す音声の内容に応じた情報である
請求項２の情報処理方法。
前記端末装置による前記音声の収音の状況を示す状況情報を当該端末装置から受信し、
前記各端末装置から受信した前記音声情報と前記状況情報とを対応付けて前記記憶装置に記憶し、
前記記憶装置に記憶された前記複数の音声情報のうち、特定の状況を示す前記状況情報に対応付けられた２以上の音声情報を利用して、前記提供情報を生成する
請求項２または請求項３の情報処理方法。
前記状況情報は、前記音声を収音したときの端末装置の位置を前記状況として示す位置情報を含み、
前記記憶装置に記憶された複数の音声情報のうち、特定の位置を示す位置情報に対応付けられた２以上の音声情報を利用して、前記提供情報を生成する
請求項４の情報処理方法。
前記状況情報は、前記音声を収音した時刻を前記状況として示す時刻情報を含み、
前記記憶装置に記憶された複数の音声情報のうち、特定の時刻を示す時刻情報に対応付けられた２以上の音声情報を利用して、前記提供情報を生成する
請求項４または請求項５の情報処理方法。
前記端末装置に設定された言語を示す言語情報を当該端末装置から受信し、
前記各端末装置から受信した前記音声情報と前記言語情報とを対応付けて前記記憶装置に記憶する
請求項１から請求項６の何れかの情報処理方法。
放音装置から放音されて端末装置が収音した音声をそれぞれが示す複数の音声情報を含むデータ構造であって、
情報処理装置が前記複数の音声情報を利用して提供情報を生成する処理に利用される
データ構造。