<第1実施形態>
図1は、本発明の第1実施形態に係る情報提供システム10が使用される状況の説明図である。第1実施形態の情報提供システム10は、店舗またはショッピングモール等の商業施設内の利用者Ubに情報を提供するコンピュータシステムである。利用者Ubは、端末装置20を携帯する。端末装置20は、例えば携帯電話機またはスマートフォン等の可搬型の情報端末である。例えば、商業施設内に設置される電光掲示板または電子看板(例えばデジタルサイネージ)等の案内用の表示端末を端末装置20として利用することも可能である。なお、実際には多数の利用者Ubが情報提供システム10のサービスを利用し得るが、以下の説明では便宜的に1個の端末装置20に着目する。
商業施設の従業者等の案内者Uaは、商業施設内の利用者Ubを案内するための音声(以下「案内音声」という)Gを発声する。図2に例示される通り、案内音声Gは、複数の区間S(S1,S2,…)を含んで構成される。複数の区間Sは、例えば案内者Uaが一連の案内として順次に発声する複数の文にそれぞれ対応する。図2に例示された案内音声Gは、「お客様にご案内申し上げます」という区間S1と、「当店は間もなく閉店いたします」という区間S2と、「ご来店ありがとうございました」という区間S3とで構成される。第1実施形態では、案内者Uaは、事前に用意された複数の文字列(以下「登録文字列」という)の何れかを選択的に発声する。各登録文字列は、案内音声Gの1個の区間Sに対応する。案内者Uaは、複数の登録文字列から選択された2個以上の登録文字列の時系列を案内音声Gとして発声する。
図3は、情報提供システム10の機能に着目した構成図である。図3に例示される通り、第1実施形態の情報提供システム10は、制御装置11と記憶装置12と収音装置13と操作装置14と信号処理回路15と放音装置16とを具備する。例えばタブレット端末またはパーソナルコンピュータ等の情報端末が情報提供システム10として利用され得る。なお、例えば商業施設内に設置される電光掲示板または電子看板(例えばデジタルサイネージ)等の案内用の表示端末を情報提供システム10として利用することも可能である。また、情報提供システム10は、単体の装置で実現されるほか、相互に別体で構成された複数の装置でも実現され得る。
収音装置13は、周囲の音響を収音する音響機器(マイクロホン)である。案内者Uaは、収音装置13に対して案内音声Gを発声する。収音装置13は、案内者Uaが発声した案内音声Gを収音し、当該案内音声Gを表す音声信号Vを生成する。なお、収音装置13が生成した音声信号Vをアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。操作装置14は、利用者Ubからの操作を受付ける入力機器である。放音装置16は、制御装置11から指示された音を再生する。
制御装置11は、例えばCPU(Central Processing Unit)等の処理回路で構成され、情報提供システム10の各要素を統括的に制御する。記憶装置12は、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置12として任意に採用され得る。なお、情報提供システム10とは別体で記憶装置12(例えばクラウドストレージ)を用意し、移動体通信網またはインターネット等の通信網を介して制御装置11が記憶装置12に対する読出および書込を実行することも可能である。
第1実施形態の記憶装置12は参照テーブルTaを記憶する。図3に例示される通り、参照テーブルTaは、複数の登録文字列X(X1,X2,…)の各々について配信情報D(D1,D2,…)を対応させたデータテーブルである。各配信情報Dは、登録文字列Xを識別するための識別情報である。
第1実施形態の制御装置11は、記憶装置12に記憶されたプログラムを実行することで、商業施設の利用者Ubに情報を提供するための複数の機能(区切特定部112,音声認識部114および情報生成部116)を実現する。なお、制御装置11の一部の機能を専用の電子回路で実現した構成、または、制御装置11の機能を複数の装置に分散した構成も採用され得る。
区切特定部112は、収音装置13が生成した音声信号Vが表す案内音声Gについて時間軸上の区切Bを特定する。区切Bは、図2に例示される通り、案内音声Gを構成する各区間Sの終点(すなわち案内音声Gが表す各文の境界点)であり、相前後する2個の区間Sの境界点とも換言され得る。区切特定部112による区切Bの特定は、収音装置13による案内音声Gの収音に並行して(すなわち案内音声Gの終了前に)順次に実行される。
一般的な発話においては、相前後する2個の文の間に、低音量または無音の区間が存在するという傾向がある。以上の傾向を考慮して、第1実施形態の区切特定部112は、音声信号Vが表す案内音声Gの音量が低下した時点を区切Bとして特定する。例えば、区切特定部112は、各区間Sに想定される時間長と比較して充分に短い周期で音声信号Vの音量を順次に算定する。そして、区切特定部112は、音量が閾値を下回る期間が所定の時間にわたり継続した場合に、当該期間内の時点(例えば始点または終点)を区切Bとして特定する。
また、第1実施形態の区切特定部112は、区切Bの特定毎に区切情報Qを生成する。任意の1個の区切Bに対応する区切情報Qは、当該区切Bが案内音声Gの途中の時点であるか案内音声Gの末尾の時点であるかを示す情報(例えばフラグ)である。具体的には、区切特定部112は、1個の区切Bから所定の時間内に音声信号Vの音量が増加した場合には、当該区切Bが案内音声Gの途中の時点であることを示す区切情報Qを生成する。他方、特定済の1個の区切Bから所定の時間内に音声信号Vの音量が増加しない場合には、当該区切Bが案内音声Gの末尾の時点であることを示す区切情報Qを生成する。
例えば図2に例示される通り、区切特定部112は、区間S1と区間S2との間の区切B1を特定した段階では、当該区切B1が案内音声Gの途中の時点であることを示す区切情報Q1を生成する。同様に、区間S2と区間S3との間の区切B2を特定した段階では、当該区切B2が案内音声Gの途中の時点であることを示す区切情報Q2が生成される。他方、区間S3の区切B3を特定した段階では、区切特定部112は、当該区切B3が案内音声Gの末尾の時点であることを示す区切情報Q3を生成する。
図3の音声認識部114は、音声信号Vに対する音声認識により認識文字列Yを特定する。認識文字列Yは、案内者Uaが発声した内容を表す文字列(すなわち音声認識の結果)である。第1実施形態の音声認識部114は、収音装置13による案内音声Gの収音に並行して認識文字列Yを順次に特定する。具体的には、音声認識部114は、区切特定部112による区切Bの特定毎に、音声信号Vのうち当該区切Bの直前の区間Sに対する音声認識で認識文字列Yを特定する。すなわち、案内音声Gの1個の区間Sを案内者Uaが発声するたびに、当該区間Sの発声の内容を表す認識文字列Yが特定される。なお、音声信号Vの音声認識には、例えばHMM(Hidden Markov Model)等の音響モデルと言語的な制約を示す言語モデルとを利用した公知の認識処理が任意に採用され得る。
なお、案内者Uaは、事前に用意された複数の登録文字列Xの何れかを発声するから、理想的には、音声認識部114が特定する認識文字列Yは何れかの登録文字列Xと一致する。しかし、実際には、案内者Ua毎の発話の特徴または施設内の背景雑音等の種々の事情に起因して、音声認識部114による解析には誤認識が発生し得る。したがって、認識文字列Yと登録文字列Xとは、相互に類似するけれども一致しない場合がある。
図3の情報生成部116は、音声認識部114による音声認識の結果(すなわち認識文字列Y)に応じた配信情報Dを生成する。情報生成部116による配信情報Dの生成は、区切特定部112による区切Bの特定毎(音声認識部114による認識文字列Yの認識毎)に順次に実行される。すなわち、収音装置13による案内音声Gの収音に並行して区間Sの発声毎に配信情報Dが順次に生成される。配信情報Dの生成には、記憶装置12に記憶された参照テーブルTaが利用される。
図4は、情報生成部116が配信情報Dを生成する処理のフローチャートである。音声認識部114が1個の区間Sについて認識文字列Yを特定するたびに図4の処理が開始される。図4の処理を開始すると、情報生成部116は、参照テーブルTaに登録された複数の登録文字列Xのうち認識文字列Yに類似する登録文字列Xを検索する(Sa51)。具体的には、情報生成部116は、複数の登録文字列Xの各々について認識文字列Yとの類似度を算定し、複数の登録文字列Xのうち類似度が最大となる1個の登録文字列X(すなわち認識文字列Yに最も類似する登録文字列X)を特定する。以上の説明から理解される通り、第1実施形態では、認識文字列Yに類似する登録文字列Xが特定されるから、音声認識における誤認識の影響を含まない登録文字列Xが特定される。
以上の手順で登録文字列Xを特定すると、情報生成部116は、当該登録文字列Xに対応する配信情報Dを参照テーブルTaから検索する(Sa52)。すなわち、案内音声Gを構成する複数の区間Sの各々について、案内者Uaが当該区間Sについて発声した登録文字列Xに対応する配信情報Dが生成される。
図3の信号処理回路15は、区切特定部112が生成した区切情報Qと情報生成部116が生成した配信情報Dとを表す通知信号Zaを生成する。図5は、信号処理回路15の構成図である。図5に例示される通り、第1実施形態の信号処理回路15は、変調処理部152と混合処理部154とを含んで構成される。なお、信号処理回路15の少なくとも一部の機能を制御装置11が実現することも可能である。
変調処理部152は、情報生成部116が生成した配信情報Dと区切特定部112が生成した区切情報Qとを示す音響成分を表す変調信号Mを生成する。具体的には、変調処理部152は、例えば所定の周波数の搬送波を配信情報Dおよび区切情報Qにより変調する周波数変調、または、拡散符号を利用した配信情報Dおよび区切情報Qの拡散変調等の変調処理により変調信号Mを生成する。配信情報Dおよび区切情報Qを表す音響成分の周波数帯域は、例えば、放音装置16による再生が可能な周波数帯域であり、かつ、利用者Ubが通常の環境で聴取する音の周波数帯域を上回る範囲(例えば18kHz以上かつ20kHz以下)である。
図5の混合処理部154は、収音装置13から供給される音声信号Vと変調処理部152が生成した変調信号Mとを混合(例えば加算)することで通知信号Zaを生成する。混合処理部154が生成した通知信号Zaが放音装置16に供給される。放音装置16は、通知信号Zaが表す音を放音する。したがって、音声信号Vが表す案内音声Gと変調信号Mが表す配信情報Dおよび区切情報Qの音響成分とが放音装置16から再生される。すなわち、第1実施形態の放音装置16は、案内者Uaが発声した案内音声Gを再生する音響機器として機能するほか、空気振動としての音波を伝送媒体とした音響通信で配信情報Dおよび区切情報Qを送信する送信機としても機能する。なお、通知信号Zaをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。
前述の通り、配信情報Dおよび区切情報Qは、区切特定部112による区切Bの特定毎に生成される。したがって、配信情報Dと区切情報Qとは、収音装置13による案内音声Gの収音に並行して区切Bの特定毎に送信される。以上の説明から理解される通り、信号処理回路15および放音装置16は、配信情報Dの生成毎(すなわち区切Bの特定毎)に配信情報Dと区切情報Qとを送信する情報送信部17として機能する。
図6は、情報提供システム10が実行する動作(以下「情報提供処理」という)を例示するフローチャートである。情報提供処理(情報提供方法の例示)は、例えば操作装置14に対する案内者Uaからの指示を契機として開始され、案内者Uaによる案内音声Gの発声に並行して実行される。
区切特定部112は、案内音声Gの区切Bを特定するための処理(以下「区切特定処理」という)を実行する(Sa1)。区切特定部112が実際に区切Bを特定するまで区切特定処理Sa1は反復される(Sa2:NO)。区切特定処理Sa1により区切Bを特定すると(Sa2:YES)、区切特定部112は、当該区切Bについて区切情報Qを生成する(Sa3)。
音声認識部114は、音声信号Vのうち区切特定部112が特定した区切Bの直前の区間Sに対する音声認識で認識文字列Yを特定する(Sa4)。情報生成部116は、図4を参照して説明した通り、音声認識部114が特定した認識文字列Yに応じた配信情報Dを生成する(Sa5)。すなわち、情報生成部116は、認識文字列Yに類似する登録文字列Xを参照テーブルTaから検索し(Sa51)、当該登録文字列Xに対応する配信情報Dを参照テーブルTaから特定する(Sa52)。そして、情報送信部17は、情報生成部116が生成した配信情報Dと区切特定部112が生成した区切情報Qとを送信する(Sa6)。具体的には、配信情報Dおよび区切情報Qを音響成分として含む通知信号Zaを信号処理回路15が生成し、通知信号Zaが表す音を放音装置16が放音する。
制御装置11は、情報提供処理を終了すべきか否かを判定する(Sa7)。例えば案内音声Gが終了した場合、または、操作装置14に対する操作で案内者Uaが終了を指示した場合、制御装置11は情報提供処理を終了する(Sa7:YES)。他方、情報提供処理を継続すべき場合(Sa7:NO)、制御装置11は処理をステップSa1に移行して、同様の処理(Sa1−Sa7)を反復する。すなわち、収音装置13による案内音声Gの収音に並行して、区切情報Qの生成(Sa3)と区間Sの音声認識(Sa4)と配信情報Dの生成(Sa5)と配信情報Dおよび区切情報Qの送信(Sa6)とが、区切Bの特定毎に順次に反復される。以上の手順で情報提供システム10から送信された配信情報Dおよび区切情報Qは、商業施設内の利用者Ubが携帯する端末装置20により受信される。
図7は、端末装置20の構成図である。図7に例示される通り、端末装置20は、制御装置21と記憶装置22と収音装置23と表示装置24とを具備する。収音装置23は、周囲の音を収音する音響機器(マイクロホン)である。具体的には、収音装置23は、情報提供システム10の放音装置16による再生音を収音して通知信号Zbを生成する。通知信号Zbは、配信情報Dおよび区切情報Qの音響成分を含み得る。以上の説明から理解される通り、収音装置23は、端末装置20の相互間の音声通話または動画撮影時の音声収録に利用されるほか、空気振動としての音波を伝送媒体とする音響通信で配信情報Dおよび区切情報Qを受信する受信機としても機能する。表示装置24(例えば液晶表示パネル)は、制御装置21による制御のもとで各種の画像を表示する。
制御装置21は、例えばCPU等の処理回路で構成され、端末装置20の各要素を統括的に制御する。記憶装置22は、制御装置21が実行するプログラムと制御装置21が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置22として任意に採用され得る。なお、端末装置20とは別体で記憶装置22(例えばクラウドストレージ)を用意し、制御装置21が通信網を介して記憶装置22に対する読出および書込を実行することも可能である。
第1実施形態の記憶装置22は、図7に例示された参照テーブルTbを記憶する。参照テーブルTbは、情報提供システム10から送信され得る複数の配信情報D(D1,D2,…)の各々について関連情報C(C1,C2,…)を対応させたデータテーブルである。任意の1個の配信情報Dに対応する関連情報Cは、当該配信情報Dが示す登録文字列Xに関連する情報である。例えば登録文字列X自体、または登録文字列Xを他言語に翻訳した文字列が、関連情報Cの好適例である。登録文字列Xと関連情報Cとは1対1に対応するから、配信情報Dは、関連情報Cを示す情報(例えば関連情報Cの識別情報)とも換言され得る。
制御装置21は、記憶装置22に記憶されたプログラムを実行することで、情報提供システム10が送信した配信情報Dおよび区切情報Qに関する処理を実行するための複数の機能(情報抽出部212および提示制御部214)を実現する。なお、制御装置21の一部の機能を専用の電子回路で実現した構成、または、制御装置21の機能を複数の装置に分散した構成も採用され得る。
情報抽出部212は、収音装置23が生成した通知信号Zbから配信情報Dおよび区切情報Qを抽出する。具体的には、情報抽出部212が通知信号Zbから配信情報Dを抽出するための処理(以下「抽出処理」という)は、例えば、通知信号Zbのうち配信情報Dおよび区切情報Qの音響成分を含む周波数帯域を強調するフィルタ処理と、前述の変調処理部152が実行する変調処理に対応した復調処理とを包含する。各区間Sに想定される時間長と比較して充分に短い周期で抽出処理が反復される。したがって、案内者Uaによる案内音声Gの発声(または放音装置16による案内音声Gの再生)に並行して、当該案内音声Gの区間S毎に、配信情報Dと区切情報Qとが順次に抽出される。
提示制御部214は、表示装置24による情報の表示を制御する。第1実施形態の提示制御部214は、情報抽出部212が抽出した配信情報Dに対応する関連情報Cを表示装置24に表示させる。具体的には、提示制御部214は、参照テーブルTbに登録された複数の関連情報Cのうち情報抽出部212が抽出した配信情報Dに対応する関連情報Cを検索し、当該関連情報Cを表示装置24に表示させる。したがって、放音装置16による案内音声Gの再生に並行して、当該案内音声Gの各区間Sに対応する関連情報Cが表示装置24に表示される。
第1実施形態の提示制御部214は、情報抽出部212が抽出した区切情報Qに応じて関連情報Cの表示を制御する。具体的には、区切Bが案内音声Gの末尾の時点であることを示す区切情報Qの抽出までは、提示制御部214は、複数の関連情報Cを一連の情報として表示装置24の1画面内に並列に表示させる。例えば、図2の例示を想定すると、区切B(B1,B2)が案内音声Gの途中の時点であることを区切情報Q1および区切情報Q2の各々が示し、区切B3が案内音声Gの末尾の時点であることを区切情報Q3が示す。したがって、提示制御部214は、配信情報D1に対応する関連情報C1と配信情報D2に対応する関連情報C2と配信情報D3に対応する関連情報C3とを、案内音声Gに対応する一連の情報として表示装置24の1画面内に表示させる。他方、区切Bが案内音声Gの末尾の時点であることを区切情報Qが示す場合、以後に抽出される配信情報Dに対応する関連情報Cは、表示済の関連情報Cとは別個の情報として、表示済の関連情報Cとは別画面に表示される。
図8は、端末装置20が実行する動作(以下「情報取得処理」という)を例示するフローチャートである。記憶装置22に記憶されたプログラムの起動を契機として情報取得処理が開始される。
端末装置20の情報抽出部212は、収音装置23が生成した通知信号Zbに対する抽出処理を実行する(Sb1)。情報抽出部212が実際に配信情報Dおよび区切情報Qを抽出するまで抽出処理は反復される(Sb2:NO)。抽出処理Sb1により配信情報Dおよび区切情報Qが抽出されると(Sb2:YES)、提示制御部214は、配信情報Dに対応する関連情報Cを表示装置24に表示させる(Sb3)。前述の通り、提示制御部214は、抽出処理で抽出された区切情報Qに応じて、配信情報Dに対応する関連情報Cを、表示済の関連情報Cと同画面で表示するか別画面で表示するかを制御する。
制御装置21は、情報取得処理を終了すべきか否かを判定する(Sb4)。例えば端末装置20の利用者Ubが終了を指示した場合(Sb4:YES)には、情報取得処理は終了する。他方、情報取得処理を継続すべき場合(Sb4:NO)、制御装置21は処理をステップSb1に移行して同様の処理(Sb1−Sb4)を反復する。以上の説明から理解される通り、案内者Uaによる案内音声Gの発声に並行して、配信情報Dおよび区切情報Qの抽出処理(Sb1,Sb2)と関連情報Cの表示(Sb3)とが順次に反復される。したがって、図2に例示される通り、案内音声Gの区間S毎に関連情報Cが表示装置24に順次に表示される。
以上に説明した通り、第1実施形態では、案内音声Gの収音に並行した区切Bの特定毎に、当該区切Bの直前の区間Sに対する音声認識の結果に応じた配信情報Dが順次に生成および送信される。すなわち、案内音声Gの終了前に配信情報Dの送信が開始される。したがって、例えば案内音声Gの終了を契機として音声信号Vに対する音声認識と配信情報Dの生成および送信とを開始する構成と比較して、案内音声Gに対する配信情報Dの送信(さらには関連情報Cの提示)の遅延を低減することが可能である。災害等の緊急事態の発生時には案内音声Gにより利用者Ubに迅速に通知する必要がある。配信情報Dの送信の遅延を低減できる第1実施形態は、緊急事態の発生を案内音声Gにより利用者Ubに通知する場合に特に好適である。
また、第1実施形態では、区切Bが案内音声Gの途中の時点であるか末尾の時点であるかを示す区切情報Qが配信情報Dとともに情報提供システム10から送信される。したがって、情報提供システム10から順次に送信される複数の配信情報Dが相互に関連しているのか否かを端末装置20において把握する(さらには関連情報Cの表示を制御する)ことが可能である。
<第2実施形態>
本発明の第2実施形態について説明する。なお、以下に例示する各構成において作用または機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
第1実施形態(図2)では、情報生成部116による配信情報Dの生成毎に当該配信情報Dを端末装置20に送信する構成を例示した。第2実施形態では、情報生成部116による配信情報Dの生成毎に、当該配信情報Dと、案内音声Gについて過去に特定された配信情報Dとを、情報提供システム10から端末装置20に送信する。
図9は、第2実施形態における情報提供システム10の動作の説明図である。案内音声Gの最初の区間S1について区切特定部112が区切B1を特定すると、情報生成部116は、第1実施形態と同様に、区間S1の認識文字列Yに応じた配信情報D1を生成する。情報送信部17は、配信情報D1と区切B1の区切情報Q1とを送信する。配信情報D1は記憶装置12に格納される。
案内音声Gの区間S2について区切特定部112が区切B2を特定すると、情報生成部116は、第1実施形態と同様に、区間S2の認識文字列Yに応じた配信情報D2を生成する。第2実施形態の情報送信部17は、情報生成部116が新規に生成した配信情報D2と、直前の区間S1について生成済の配信情報D1とを、区間S2の区切情報Q2とともに端末装置20に送信する。配信情報D2は配信情報D1とともに記憶装置12に格納される。
案内音声Gの区間S3について区切特定部112が区切B3を特定すると、情報生成部116は、区間S3の認識文字列Yに応じた配信情報D3を生成する。第2実施形態の情報送信部17は、情報生成部116が新規に生成した配信情報D3と、案内音声Gについて過去に生成した配信情報D1および配信情報D2とを、区間S3の区切情報Q3とともに端末装置20に送信する。以上の説明から理解される通り、第2実施形態では、配信情報Dの生成毎に、当該配信情報Dと過去の配信情報Dとが端末装置20に送信される。
他方、端末装置20の情報抽出部212は、収音装置23が生成した通知信号Zbから1個以上の配信情報Dと区切情報Qとを抽出する。情報抽出部212が1個の配信情報Dを抽出した場合、提示制御部214は、当該配信情報Dに対応する関連情報Cを参照テーブルTbから特定して表示装置24に表示させる。また、情報抽出部212が複数の配信情報Dを抽出した場合、提示制御部214は、複数の配信情報Dの各々について関連情報Cを参照テーブルTbから特定し、複数の関連情報Cを表示装置24に表示させる。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、情報生成部116が新規に生成した配信情報Dとともに過去の配信情報Dが送信される。したがって、案内音声Gの1個の区間Sについて受信に失敗した配信情報Dを、当該案内音声Gにおける以降の区間Sに対応する配信情報Dとともに受信し直すことが可能である。すなわち、案内音声Gに関する特定の関連情報Cを端末装置20において表示できない可能性が低減されるという利点がある。また、案内音声Gの発声の開始前から商業施設内にいる利用者Ubの端末装置20だけでなく、案内音声Gの発声の途中で商業施設に到着した利用者Ubの端末装置20にも、配信情報Dを配信して関連情報Cを表示させることが可能である。
<第3実施形態>
図10は、第3実施形態において端末装置20の記憶装置22に記憶される参照テーブルTbの模式図である。図10に例示される通り、第3実施形態の参照テーブルTbは、案内者Uaが発声し得る複数の案内音声Gの各々について配信情報E(E1,E2,…)と関連情報R(R1,R2,…)とを相互に対応させたデータテーブルである。任意の1個の案内音声Gに対応する関連情報Rは、例えば当該案内音声Gを任意の言語(案内音声Gと同言語または他言語)で表現した文字列であり、時系列に配列された複数の部分r(r1,r2,…)で構成される。複数の部分rは、案内音声Gの複数の区間Sにそれぞれ対応する。例えば、案内音声Gの任意の1個の区間Sに対応する部分rは、当該区間Sを表す文字列、自体または当該文字列を他言語に翻訳した文字列である。また、任意の1個の案内音声Gに対応する配信情報Eは、案内音声G(または当該案内音声Gに対応する関連情報R)を識別するための識別情報である。配信情報Eは、関連情報Rを構成する複数の部分rの組合せを識別するための情報とも換言され得る。
情報提供システム10の情報生成部116は、図11に例示される通り、区切特定部112による区切Bの特定毎(音声認識部114による認識文字列Yの認識毎)に配信情報Eと区間情報Fとを生成する。具体的には、情報生成部116は、複数の関連情報Rのうち認識文字列Yに類似する登録文字列Xを含む関連情報Rの配信情報Eを生成する。例えば、登録文字列Xが図2の区間S1の「お客様にご案内申し上げます」である場合、当該登録文字列Xを含む図2の案内音声Gの関連情報Rに対応した配信情報Eが生成される。
区間情報Fは、図11に例示される通り、関連情報Rを構成する複数の部分r(または案内音声Gを構成する複数の区間S)にそれぞれ対応する複数の単位データf(f1,f2,f3)を含んで構成される。区間情報Fの複数の単位データfのうち関連情報Rの1個の部分rに対応する単位データfは、関連情報Rの当該部分rを端末装置20の利用者Ubに提示するか否かを示す情報(例えばフラグ)である。例えば、区間情報Fの複数の単位データfのうち、登録文字列Xが特定された区間Sに対応する単位データfは数値a1(許可)に設定され、登録文字列Xの未特定の区間Sに対応する単位データfは数値a0(禁止)に設定される。すなわち、区間情報Fは、案内音声Gの複数の区間Sの各々について登録文字列Xが特定されたか否か(案内者Uaが当該区間Sを発音したか否か、または、音声認識部114が当該区間の認識文字列Yを特定したか否か)を示す情報である。図11に例示される通り、情報送信部17は、配信情報Eの生成毎(すなわち区切Bの特定毎)に、配信情報Eと区間情報Fとを周囲に送信する。配信情報Eおよび区間情報Fの送信には、第1実施形態における配信情報Dおよび区切情報Qの送信と同様に、音響通信が好適に利用される。
図2の例示と同様に、「お客様にご案内申し上げます」という区間S1と「当店は間もなく閉店いたします」という区間S2と「ご来店ありがとうございました」という区間S3とで構成される案内音声Gを、案内者Uaが発声する場合を想定する。
図12に例示される通り、案内音声Gの最初の区間S1の登録文字列Xが特定された段階t1において、情報生成部116は、当該登録文字列Xを含む案内音声Gに対応した配信情報Eと、複数の単位データfのうち区間S1に対応する単位データf1が数値a1(許可)に設定された区間情報Fとを生成する。区間情報Fのうち区間S1以外の各区間S(S2,S3)に対応する単位データfは数値a0(禁止)に設定される。他方、配信情報Eと区間情報Fとを情報送信部17から受信した端末装置20の提示制御部214は、配信情報Eが示す関連情報Rを参照テーブルTbから検索し、当該関連情報Rを構成する複数の部分rのうち数値a1の単位データfに対応する部分rを表示装置24に表示させる。すなわち、関連情報Rのうち「お客様にご案内申し上げます」という区間S1に対応する部分r1が表示装置24に表示される。関連情報Rのうち数値a0の単位データfに対応する部分r2および部分r3は表示されない。
案内音声Gの第2番目の区間S2の登録文字列Xが特定された段階t2では、情報生成部116は、区間S1および区間S2について特定された登録文字列Xを含む案内音声Gの配信情報Eと、区間情報Fとを生成する。区間情報Fの複数の単位データfのうち、区間S1に対応する単位データf1と区間S2に対応する単位データf2とは数値a1(許可)に設定され、区間S3に対応する単位データf3は数値a0(禁止)に設定される。他方、配信情報Eと区間情報Fとを情報送信部17から受信した端末装置20の提示制御部214は、配信情報Eが示す関連情報Rの複数の部分rのうち、数値a1の単位データfに対応する部分rを表示装置24に表示させる。すなわち、関連情報Rのうち、「お客様にご案内申し上げます」という区間S1に対応する部分r1と、「当店は間もなく閉店いたします」という区間S2に対応する部分r2とが、表示装置24に表示される。関連情報Rのうち数値a0の単位データf3に対応する部分r3は表示されない。
案内音声Gの最後の区間S3の登録文字列Xが特定された段階t3では、情報生成部116は、区間S1から区間S3について特定された登録文字列Xを含む案内音声Gの配信情報Eと、区間情報Fとを生成する。区間情報Fにおいては、区間S1から区間S3にそれぞれ対応する全部の単位データf(f1〜f3)が数値a1(許可)に設定される。他方、配信情報Eと区間情報Fとを情報送信部17から受信した端末装置20の提示制御部214は、配信情報Eが示す関連情報Rのうち数値a1の単位データfに対応する部分rを表示装置24に表示させる。すなわち、関連情報Rのうち「お客様にご案内申し上げます」という区間S1に対応する部分r1と、「当店は間もなく閉店いたします」という区間S2に対応する部分r2と、「ご来店ありがとうございました」という区間S3に対応する部分r3と(すなわち関連情報Rの全部)が、表示装置24に表示される。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、関連情報Rを構成する複数の部分rの各々について利用者Ubに対する提示の許否を示す区間情報Fが端末装置20に送信される。したがって、案内音声Gの発声の開始から商業施設内にいる利用者Ubだけでなく、案内音声Gの発声の途中で商業施設に到着した利用者Ubにも、案内音声Gのうち利用者Ubの到着前に発音された区間Sに対応する部分rを含む関連情報Rを提示することが可能である。
なお、複数の部分rの組合せが相違する複数の関連情報Rのなかには、例えば最初の部分r1が共通するものがある。最初の部分r1が複数の関連情報Rにわたり共通する場合、例えば案内音声Gの最初の区間S1の登録文字列Xが特定された段階t1では、関連情報Rを一意に特定できない可能性がある。情報生成部116は、登録文字列Xを含む複数の案内音声Gのうちの何れかに対応する配信情報Eを端末装置20に送信する。以上の説明から理解される通り、端末装置20に送信される配信情報Eが示す案内音声Gは、案内者Uaが実際に発声する案内音声Gとは相違する可能性がある。しかし、第3実施形態では、区切Bの特定毎に端末装置20に送信される区間情報Fにより、関連情報Rの各部分rの提示の可否が指定されるから、関連情報Rのうち案内者Uaが実際には発声しない区間Sに対応する部分rは端末装置20において表示されない。配信情報Eは、区切Bの特定毎に更新される。したがって、最初の区間Sが発声された段階では、案内者Uaが実際に発声する予定の内容とは相違する案内音声Gを示す配信情報Eが生成されたとしても、案内音声Gの全部の区間Sが発声された段階では、当該案内音声Gに対応した適正な配信情報Eが生成される。
<変形例>
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
(1)前述の各形態では、案内音声Gの音量が低下した時点を区切Bとして特定したが、区切特定部112が案内音声Gの区切Bを特定する方法は以上の例示に限定されない。例えば、操作装置14に対する操作で案内者Uaが指示した時点を区切特定部112が案内音声Gの区切Bとして特定することも可能である。例えば操作装置14に所定の操作が付与された時点が区切Bとして特定される。以上の構成によれば、案内者Uaが意図した時点を区切Bとして設定できるという利点がある。
(2)前述の各形態では、認識文字列Yの認識毎に配信情報Dを生成および送信したが、配信情報Dの送信の契機は以上の例示に限定されない。例えば、認識文字列Yが特定の語句(以下「登録語句」という)を含むことを契機として、情報送信部17が配信情報Dを送信することも可能である。例えば、記憶装置12には登録語句が事前に記憶される。音声認識部114は、認識結果である認識文字列Yに登録語句が含まれるか否かを判定する。認識文字列Yに登録語句が含まれると音声認識部114が判定した場合に、情報送信部17は、情報生成部116が生成した配信情報Dを端末装置20に送信する。以上の構成によれば、案内者Uaによる登録語句の発声を契機として配信情報Dが端末装置20に送信されるから、配信情報Dの送信のタイミングまたは頻度を案内者Uaが適宜に調整できるという利点がある。
(3)前述の各形態では、区切Bが案内音声Gの途中の時点であるか末尾の時点であるかを示す区切情報Qを端末装置20に送信したが、区切Bが案内音声Gの途中の時点である場合に限定して区切情報Qを端末装置20に送信することも可能である。すなわち、区切Bが案内音声Gの末尾の時点である場合には区切情報Qは送信されない。端末装置20の提示制御部214は、区切情報Qを受信できた場合には区切Bが案内音声Gの途中の時点であると判定し、区切情報Qを受信できない場合には区切Bが案内音声の末尾の時点であると判定する。
同様に、区切Bが案内音声Gの末尾の時点である場合に限定して区切情報Qを端末装置20に送信することも可能である。すなわち、区切Bが案内音声Gの途中の時点である場合には区切情報Qは送信されない。端末装置20の提示制御部214は、区切情報Qを受信できた場合には区切Bが案内音声Gの末尾の時点であると判定し、区切情報Qを受信できない場合には区切Bが案内音声の途中の時点であると判定する。
(4)前述の各形態では、配信情報Dと区切情報Qとを情報提供システム10から端末装置20に送信したが、区切情報Qの送信は省略され得る。端末装置20の提示制御部214は、配信情報Dに対応した区切Bが案内音声Gの途中の時点であるか末尾の時点であるかを認識することなく、配信情報Dが示す関連情報Cを表示装置24に表示させる。例えば、図13に例示される通り、配信情報Dの受信毎に、当該配信情報Dが示す関連情報C(C1,C2,C3)を順次に別画面で表示装置24に表示させることも可能である。
(5)前述の各形態では、情報提供システム10が音声認識部114を具備する構成を例示したが、情報提供システム10が通信可能な音声認識装置(例えばウェブサーバ)に、音声信号Vの各区間Sに対する音声認識を実行させることも可能である。例えば、区切特定部112が区切Bを特定すると、音声信号Vのうち当該区切Bの直前の区間Sが音声認識装置に送信され、音声認識の結果である認識文字列Yが音声認識装置から情報提供システム10に送信される。以上の説明から理解される通り、音声認識部114は情報提供システム10から省略され得る。
(6)前述の各形態では、登録文字列Xの識別情報(または関連情報Cの識別情報)を配信情報Dとして例示したが、配信情報Dの内容は以上の例示に限定されない。例えば、関連情報C自体を配信情報Dとして情報提供システム10から端末装置20に送信することも可能である。以上の構成において、端末装置20の提示制御部214は、情報抽出部212が抽出した配信情報D(すなわち関連情報C)を表示装置24に表示させる。したがって、参照テーブルTbを端末装置20に保持する必要はない。
音声認識部114が特定した認識文字列Yを示す配信情報Dを情報生成部116が生成することも可能である。例えば、認識文字列Y自体が配信情報Dとして端末装置20に送信される。また、認識文字列Yを識別するための識別情報を配信情報Dとして端末装置20に送信する構成も想定される。
(7)前述の各形態では、登録文字列Xが参照テーブルTaに事前に登録された構成を例示したが、定型句と1個以上の挿入句とから構成される文字列を登録文字列Xとすることも可能である。定型句は、複数の登録文字列Xについて共用される定型的な文字列であり、挿入句は、定型句に挿入され得る文字列である。相異なる複数の挿入句の何れかが定型句に挿入されることで複数の登録文字列Xが構成される。情報生成部116は、音声認識部114による認識結果(認識文字列Y)から定型句と挿入句とを特定し、定型句および挿入句の組合せを示す配信情報Dを生成する。
(8)前述の各形態では、関連情報Cを表示装置24に表示したが、関連情報Cを端末装置20の利用者Ubに提示する方法は以上の例示に限定されない。例えば、関連情報Cが示す音声を再生することで関連情報Cを利用者Ubに提示することも可能である。例えば、関連情報Cが音声を表す構成、または、関連情報Cが表す文字列に対する音声合成により音声を生成する構成が想定される。
(9)前述の各形態では、端末装置20の記憶装置22に参照テーブルTbを保持したが、例えば移動体通信網またはインターネット等の通信網を介して端末装置20と通信する配信装置に参照テーブルTbを保持することも可能である。端末装置20は、配信情報Dを含む情報要求を配信装置に送信する。配信装置は、情報要求内の配信情報Dに対応する関連情報Cを参照テーブルTbから検索して要求元の端末装置20に送信する。端末装置20の提示制御部214は、配信装置から受信した関連情報Cを表示装置24に表示させる。以上の説明から理解される通り、参照テーブルTbを端末装置20の記憶装置22に記憶することは必須ではない。
(10)前述の各形態では、情報提供システム10を商業施設で利用する場面を例示したが、情報提供システム10が利用される場面は以上の例示に限定されない。情報提供システム10が設置される施設としては、例えば、電車またはバス等の交通施設、旅館またはホテル等の宿泊施設、博物館または美術館等の展示施設、史跡または名所等の観光施設、および、競技場または体育館等の運動施設が例示され得る。また、前述の各形態では、利用者Ubに施設を案内するための案内音声Gを例示したが、区切Bが検出される音声は案内音声Gに限定されず、任意の音声について情報提供システム10を利用することが可能である。
(11)前述の各形態では、音響を伝送媒体とする音響通信で配信情報Dおよび区切情報Qを端末装置20に送信したが、端末装置20に配信情報Dを送信するための通信方式は音響通信に限定されない。例えば、電波または赤外線等の電磁波を伝送媒体とした無線通信で情報提供システム10から端末装置20に配信情報Dおよび区切情報Qを送信することも可能である。すなわち、無線通信用の通信機器が情報送信部17として利用される。具体的には、Bluetooth(登録商標)またはWiFi(登録商標)等の無線通信が配信情報Dの送信に好適である。
(12)前述の各形態に係る情報提供システム10は、各形態での例示の通り、制御装置11とプログラムとの協働により実現される。前述の各形態に係るプログラムは、制御装置11(コンピュータの例示)に、案内音声Gの収音に並行して当該案内音声Gの時間軸上の区切Bを順次に特定する区切特定処理(Sa1)と、区切特定処理による区切Bの特定毎に、当該区切Bの直前の区間Sに対する音声認識の結果(認識文字列Y)に応じた配信情報Dを順次に生成する情報生成処理(Sa5)とを実行させる。
以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供することも可能である。
(13)以上に例示した形態から、例えば以下の構成が把握される。
<態様1>
本発明の好適な態様(態様1)に係る情報提供方法は、コンピュータシステムが、音声の収音に並行して当該音声の時間軸上の区切を順次に特定し、前記区切の特定毎に、当該区切の直前の区間に対する音声認識の結果に応じた配信情報を順次に生成し、前記配信情報を順次に送信する。以上の態様では、音声の収音に並行した区切の特定毎に、当該区間に対する音声認識の結果に応じた配信情報が生成される。したがって、音声の全区間の終了を契機として音声認識と配信情報の生成とを開始する構成と比較して、音声に対する配信情報の送信の遅延を低減することが可能である。
<態様2>
態様1の好適例(態様2)において、前記区切の特定では、前記音声の音量が低下した時点を前記区切として特定する。以上の態様では、音声の音量が低下した時点が区切として特定されるから、例えば利用者が手動で音声の区切を指示する手間を必要とせずに、音声の適切な時点を区切として特定できるという利点がある。
<態様3>
態様1の好適例(態様3)において、前記区切の特定では、操作装置に対する操作で指示された時点を前記区切として特定する。以上の態様によれば、利用者(例えば案内者)が意図した任意の時点を区切として設定できるという利点がある。
<態様4>
態様1から態様3の何れかの好適例(態様4)において、前記配信情報の送信では、前記配信情報の生成毎に当該配信情報を送信する。以上の態様では、配信情報の生成毎に当該配信情報が送信されるから、音声に対する配信情報の送信の遅延を低減することが可能である。
<態様5>
態様1から態様3の何れかの好適例(態様5)において、前記配信情報の送信では、前記音声認識により特定された文字列が特定の語句を含む場合に、前記配信情報を送信する。以上の態様では、特定の語句の発声を契機として配信情報が送信されるから、配信情報の送信のタイミングを発声者が適宜に調整できるという利点がある。
<態様6>
態様1から態様5の何れかの好適例(態様6)において、前記配信情報の送信では、前記特定した区切が前記音声の途中の時点である場合に、当該途中の時点であることを示す区切情報と前記配信情報とを送信する。以上の態様では、区切が音声の途中の時点であることを示す区切情報が配信情報とともに送信される。したがって、順次に送信される複数の配信情報が、相互に関連しているのか否かを受信側において把握することが可能である。
<態様7>
態様1から態様6の何れかの好適例(態様7)において、前記配信情報の送信では、前記特定した区切が前記音声の末尾の時点である場合に、当該末尾の時点であることを示す区切情報と前記配信情報とを送信する。以上の態様では、区切が音声の末尾の時点であることを示す区切情報が配信情報とともに送信される。したがって、順次に送信される複数の配信情報が、相互に関連しているのか否かを受信側において把握することが可能である。
<態様8>
態様1から態様7の何れかの好適例(態様8)において、前記配信情報の送信では、前記配信情報の生成毎に、当該配信情報と、前記音声について過去に生成した配信情報とを送信する。以上の態様では、新規に生成された配信情報とともに過去の配信情報が送信される。したがって、配信情報の受信側では、音声の1個の区間について受信に失敗した配信情報を、後続の区間に対応する配信情報とともに受信し直すことが可能である。
<態様9>
態様1から態様4の何れかの好適例(態様9)において、前記配信情報の生成では、前記区切の特定毎に、当該区切の直前の区間を含む複数の区間に対応する関連情報を示す配信情報を生成し、前記配信情報の送信においては、前記配信情報の生成毎に、当該配信情報と、前記関連情報の複数の部分の各々について利用者に対する提示の可否を示す区間情報とを送信する。以上の態様では、関連情報の複数の部分の各々について提示の可否を示す区間情報が送信される。したがって、音声の発声の開始から配信情報を取得できた利用者だけでなく、音声の発声の途中で配信情報を取得可能になった利用者にも、音声の最初の区間に対応する部分を含む関連情報を提示することが可能である。
<態様10>
本発明の好適な態様(態様10)に係る情報提供システムは、音声の収音に並行して当該音声の時間軸上の区切を順次に特定する区切特定部と、前記区切特定部による区切の特定毎に、当該区切の直前の区間に対する音声認識の結果に応じた配信情報を順次に生成する情報生成部と、前記配信情報を順次に送信する情報送信部とを具備する。以上の態様では、音声の収音に並行した区切の特定毎に、当該区間に対する音声認識の結果に応じた配信情報が生成される。したがって、音声の全区間の終了を契機として音声認識と配信情報の生成とを開始する構成と比較して、音声に対する配信情報の送信の遅延を低減することが可能である。