JP6834634B2

JP6834634B2 - 情報提供方法および情報提供システム

Info

Publication number: JP6834634B2
Application number: JP2017049927A
Authority: JP
Inventors: 貴裕岩田; 優樹瀬戸; 康法大野; 翔太森口; 石田　哲朗; 哲朗石田
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2017-03-15
Filing date: 2017-03-15
Publication date: 2021-02-24
Anticipated expiration: 2037-03-15
Also published as: JP2018155779A

Description

本発明は、情報を提供する技術に関する。

音声が表す文字列を特定する音声認識技術が従来から提案されている。例えば特許文献１には、音節または単語等の認識単位の境界点を音声の特徴パラメータから検出する音声認識装置が開示されている。また、特許文献２には、音声から抽出された特徴ベクトルの時系列から単語列を特定する連続音声認識装置が開示されている。

特開平９−２７４４９６号公報特開２００４−１２６１５号公報

ところで、例えば交通機関または商業施設等の各種の施設で再生される音声について音声認識を実行し、認識結果に応じた情報を利用者の端末装置に提供するサービスが想定される。しかし、音声の終了により認識範囲が確定した段階で音声認識を開始し、認識結果に応じた情報を提供する構成では、情報の提供が音声の再生に対して遅延するという問題がある。以上の事情を考慮して、本発明の好適な態様は、音声に対する情報提供の遅延を低減することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る情報提供方法は、コンピュータシステムが、音声の収音に並行して当該音声の時間軸上の区切を順次に特定し、前記区切の特定毎に、当該区切の直前の区間に対する音声認識の結果に応じた配信情報を順次に生成し、前記配信情報を順次に送信する。
本発明の好適な態様に係る情報提供システムは、音声の収音に並行して当該音声の時間軸上の区切を順次に特定する区切特定部と、前記区切特定部による区切の特定毎に、当該区切の直前の区間に対する音声認識の結果に応じた配信情報を順次に生成する情報生成部と、前記配信情報を順次に送信する情報送信部とを具備する。

第１実施形態に係る情報提供システムが使用される状況の説明図である。案内音声の説明図である。情報提供システムの構成図である。情報生成部の動作を示すフローチャートである。信号処理回路の構成図である。情報提供システムの動作を示すフローチャートである。端末装置の構成図である。端末装置の動作を示すフローチャートである。第２実施形態の動作の説明図である。第３実施形態における参照テーブルの模式図である。第３実施形態における配信情報および区間情報の説明図である。第３実施形態の動作の説明図である。変形例における関連情報の表示例である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る情報提供システム１０が使用される状況の説明図である。第１実施形態の情報提供システム１０は、店舗またはショッピングモール等の商業施設内の利用者Ｕbに情報を提供するコンピュータシステムである。利用者Ｕbは、端末装置２０を携帯する。端末装置２０は、例えば携帯電話機またはスマートフォン等の可搬型の情報端末である。例えば、商業施設内に設置される電光掲示板または電子看板（例えばデジタルサイネージ）等の案内用の表示端末を端末装置２０として利用することも可能である。なお、実際には多数の利用者Ｕbが情報提供システム１０のサービスを利用し得るが、以下の説明では便宜的に１個の端末装置２０に着目する。

商業施設の従業者等の案内者Ｕaは、商業施設内の利用者Ｕbを案内するための音声（以下「案内音声」という）Ｇを発声する。図２に例示される通り、案内音声Ｇは、複数の区間Ｓ（Ｓ1，Ｓ2，…）を含んで構成される。複数の区間Ｓは、例えば案内者Ｕaが一連の案内として順次に発声する複数の文にそれぞれ対応する。図２に例示された案内音声Ｇは、「お客様にご案内申し上げます」という区間Ｓ1と、「当店は間もなく閉店いたします」という区間Ｓ2と、「ご来店ありがとうございました」という区間Ｓ3とで構成される。第１実施形態では、案内者Ｕaは、事前に用意された複数の文字列（以下「登録文字列」という）の何れかを選択的に発声する。各登録文字列は、案内音声Ｇの１個の区間Ｓに対応する。案内者Ｕaは、複数の登録文字列から選択された２個以上の登録文字列の時系列を案内音声Ｇとして発声する。

図３は、情報提供システム１０の機能に着目した構成図である。図３に例示される通り、第１実施形態の情報提供システム１０は、制御装置１１と記憶装置１２と収音装置１３と操作装置１４と信号処理回路１５と放音装置１６とを具備する。例えばタブレット端末またはパーソナルコンピュータ等の情報端末が情報提供システム１０として利用され得る。なお、例えば商業施設内に設置される電光掲示板または電子看板（例えばデジタルサイネージ）等の案内用の表示端末を情報提供システム１０として利用することも可能である。また、情報提供システム１０は、単体の装置で実現されるほか、相互に別体で構成された複数の装置でも実現され得る。

収音装置１３は、周囲の音響を収音する音響機器（マイクロホン）である。案内者Ｕaは、収音装置１３に対して案内音声Ｇを発声する。収音装置１３は、案内者Ｕaが発声した案内音声Ｇを収音し、当該案内音声Ｇを表す音声信号Ｖを生成する。なお、収音装置１３が生成した音声信号Ｖをアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略した。操作装置１４は、利用者Ｕbからの操作を受付ける入力機器である。放音装置１６は、制御装置１１から指示された音を再生する。

制御装置１１は、例えばＣＰＵ（Central Processing Unit）等の処理回路で構成され、情報提供システム１０の各要素を統括的に制御する。記憶装置１２は、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置１２として任意に採用され得る。なお、情報提供システム１０とは別体で記憶装置１２（例えばクラウドストレージ）を用意し、移動体通信網またはインターネット等の通信網を介して制御装置１１が記憶装置１２に対する読出および書込を実行することも可能である。

第１実施形態の記憶装置１２は参照テーブルＴaを記憶する。図３に例示される通り、参照テーブルＴaは、複数の登録文字列Ｘ（Ｘ1，Ｘ2，…）の各々について配信情報Ｄ（Ｄ1，Ｄ2，…）を対応させたデータテーブルである。各配信情報Ｄは、登録文字列Ｘを識別するための識別情報である。

第１実施形態の制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、商業施設の利用者Ｕbに情報を提供するための複数の機能（区切特定部１１２，音声認識部１１４および情報生成部１１６）を実現する。なお、制御装置１１の一部の機能を専用の電子回路で実現した構成、または、制御装置１１の機能を複数の装置に分散した構成も採用され得る。

区切特定部１１２は、収音装置１３が生成した音声信号Ｖが表す案内音声Ｇについて時間軸上の区切Ｂを特定する。区切Ｂは、図２に例示される通り、案内音声Ｇを構成する各区間Ｓの終点（すなわち案内音声Ｇが表す各文の境界点）であり、相前後する２個の区間Ｓの境界点とも換言され得る。区切特定部１１２による区切Ｂの特定は、収音装置１３による案内音声Ｇの収音に並行して（すなわち案内音声Ｇの終了前に）順次に実行される。

一般的な発話においては、相前後する２個の文の間に、低音量または無音の区間が存在するという傾向がある。以上の傾向を考慮して、第１実施形態の区切特定部１１２は、音声信号Ｖが表す案内音声Ｇの音量が低下した時点を区切Ｂとして特定する。例えば、区切特定部１１２は、各区間Ｓに想定される時間長と比較して充分に短い周期で音声信号Ｖの音量を順次に算定する。そして、区切特定部１１２は、音量が閾値を下回る期間が所定の時間にわたり継続した場合に、当該期間内の時点（例えば始点または終点）を区切Ｂとして特定する。

また、第１実施形態の区切特定部１１２は、区切Ｂの特定毎に区切情報Ｑを生成する。任意の１個の区切Ｂに対応する区切情報Ｑは、当該区切Ｂが案内音声Ｇの途中の時点であるか案内音声Ｇの末尾の時点であるかを示す情報（例えばフラグ）である。具体的には、区切特定部１１２は、１個の区切Ｂから所定の時間内に音声信号Ｖの音量が増加した場合には、当該区切Ｂが案内音声Ｇの途中の時点であることを示す区切情報Ｑを生成する。他方、特定済の１個の区切Ｂから所定の時間内に音声信号Ｖの音量が増加しない場合には、当該区切Ｂが案内音声Ｇの末尾の時点であることを示す区切情報Ｑを生成する。

例えば図２に例示される通り、区切特定部１１２は、区間Ｓ1と区間Ｓ2との間の区切Ｂ1を特定した段階では、当該区切Ｂ1が案内音声Ｇの途中の時点であることを示す区切情報Ｑ1を生成する。同様に、区間Ｓ2と区間Ｓ3との間の区切Ｂ2を特定した段階では、当該区切Ｂ2が案内音声Ｇの途中の時点であることを示す区切情報Ｑ2が生成される。他方、区間Ｓ3の区切Ｂ3を特定した段階では、区切特定部１１２は、当該区切Ｂ3が案内音声Ｇの末尾の時点であることを示す区切情報Ｑ3を生成する。

図３の音声認識部１１４は、音声信号Ｖに対する音声認識により認識文字列Ｙを特定する。認識文字列Ｙは、案内者Ｕaが発声した内容を表す文字列（すなわち音声認識の結果）である。第１実施形態の音声認識部１１４は、収音装置１３による案内音声Ｇの収音に並行して認識文字列Ｙを順次に特定する。具体的には、音声認識部１１４は、区切特定部１１２による区切Ｂの特定毎に、音声信号Ｖのうち当該区切Ｂの直前の区間Ｓに対する音声認識で認識文字列Ｙを特定する。すなわち、案内音声Ｇの１個の区間Ｓを案内者Ｕaが発声するたびに、当該区間Ｓの発声の内容を表す認識文字列Ｙが特定される。なお、音声信号Ｖの音声認識には、例えばＨＭＭ（Hidden Markov Model）等の音響モデルと言語的な制約を示す言語モデルとを利用した公知の認識処理が任意に採用され得る。

なお、案内者Ｕaは、事前に用意された複数の登録文字列Ｘの何れかを発声するから、理想的には、音声認識部１１４が特定する認識文字列Ｙは何れかの登録文字列Ｘと一致する。しかし、実際には、案内者Ｕa毎の発話の特徴または施設内の背景雑音等の種々の事情に起因して、音声認識部１１４による解析には誤認識が発生し得る。したがって、認識文字列Ｙと登録文字列Ｘとは、相互に類似するけれども一致しない場合がある。

図３の情報生成部１１６は、音声認識部１１４による音声認識の結果（すなわち認識文字列Ｙ）に応じた配信情報Ｄを生成する。情報生成部１１６による配信情報Ｄの生成は、区切特定部１１２による区切Ｂの特定毎（音声認識部１１４による認識文字列Ｙの認識毎）に順次に実行される。すなわち、収音装置１３による案内音声Ｇの収音に並行して区間Ｓの発声毎に配信情報Ｄが順次に生成される。配信情報Ｄの生成には、記憶装置１２に記憶された参照テーブルＴaが利用される。

図４は、情報生成部１１６が配信情報Ｄを生成する処理のフローチャートである。音声認識部１１４が１個の区間Ｓについて認識文字列Ｙを特定するたびに図４の処理が開始される。図４の処理を開始すると、情報生成部１１６は、参照テーブルＴaに登録された複数の登録文字列Ｘのうち認識文字列Ｙに類似する登録文字列Ｘを検索する（Ｓa51）。具体的には、情報生成部１１６は、複数の登録文字列Ｘの各々について認識文字列Ｙとの類似度を算定し、複数の登録文字列Ｘのうち類似度が最大となる１個の登録文字列Ｘ（すなわち認識文字列Ｙに最も類似する登録文字列Ｘ）を特定する。以上の説明から理解される通り、第１実施形態では、認識文字列Ｙに類似する登録文字列Ｘが特定されるから、音声認識における誤認識の影響を含まない登録文字列Ｘが特定される。

以上の手順で登録文字列Ｘを特定すると、情報生成部１１６は、当該登録文字列Ｘに対応する配信情報Ｄを参照テーブルＴaから検索する（Ｓa52）。すなわち、案内音声Ｇを構成する複数の区間Ｓの各々について、案内者Ｕaが当該区間Ｓについて発声した登録文字列Ｘに対応する配信情報Ｄが生成される。

図３の信号処理回路１５は、区切特定部１１２が生成した区切情報Ｑと情報生成部１１６が生成した配信情報Ｄとを表す通知信号Ｚaを生成する。図５は、信号処理回路１５の構成図である。図５に例示される通り、第１実施形態の信号処理回路１５は、変調処理部１５２と混合処理部１５４とを含んで構成される。なお、信号処理回路１５の少なくとも一部の機能を制御装置１１が実現することも可能である。

変調処理部１５２は、情報生成部１１６が生成した配信情報Ｄと区切特定部１１２が生成した区切情報Ｑとを示す音響成分を表す変調信号Ｍを生成する。具体的には、変調処理部１５２は、例えば所定の周波数の搬送波を配信情報Ｄおよび区切情報Ｑにより変調する周波数変調、または、拡散符号を利用した配信情報Ｄおよび区切情報Ｑの拡散変調等の変調処理により変調信号Ｍを生成する。配信情報Ｄおよび区切情報Ｑを表す音響成分の周波数帯域は、例えば、放音装置１６による再生が可能な周波数帯域であり、かつ、利用者Ｕbが通常の環境で聴取する音の周波数帯域を上回る範囲（例えば１８ｋＨｚ以上かつ２０ｋＨｚ以下）である。

図５の混合処理部１５４は、収音装置１３から供給される音声信号Ｖと変調処理部１５２が生成した変調信号Ｍとを混合（例えば加算）することで通知信号Ｚaを生成する。混合処理部１５４が生成した通知信号Ｚaが放音装置１６に供給される。放音装置１６は、通知信号Ｚaが表す音を放音する。したがって、音声信号Ｖが表す案内音声Ｇと変調信号Ｍが表す配信情報Ｄおよび区切情報Ｑの音響成分とが放音装置１６から再生される。すなわち、第１実施形態の放音装置１６は、案内者Ｕaが発声した案内音声Ｇを再生する音響機器として機能するほか、空気振動としての音波を伝送媒体とした音響通信で配信情報Ｄおよび区切情報Ｑを送信する送信機としても機能する。なお、通知信号Ｚaをデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略した。

前述の通り、配信情報Ｄおよび区切情報Ｑは、区切特定部１１２による区切Ｂの特定毎に生成される。したがって、配信情報Ｄと区切情報Ｑとは、収音装置１３による案内音声Ｇの収音に並行して区切Ｂの特定毎に送信される。以上の説明から理解される通り、信号処理回路１５および放音装置１６は、配信情報Ｄの生成毎（すなわち区切Ｂの特定毎）に配信情報Ｄと区切情報Ｑとを送信する情報送信部１７として機能する。

図６は、情報提供システム１０が実行する動作（以下「情報提供処理」という）を例示するフローチャートである。情報提供処理（情報提供方法の例示）は、例えば操作装置１４に対する案内者Ｕaからの指示を契機として開始され、案内者Ｕaによる案内音声Ｇの発声に並行して実行される。

区切特定部１１２は、案内音声Ｇの区切Ｂを特定するための処理（以下「区切特定処理」という）を実行する（Ｓa1）。区切特定部１１２が実際に区切Ｂを特定するまで区切特定処理Ｓa1は反復される（Ｓa2：NO）。区切特定処理Ｓa1により区切Ｂを特定すると（Ｓa2：YES）、区切特定部１１２は、当該区切Ｂについて区切情報Ｑを生成する（Ｓa3）。

音声認識部１１４は、音声信号Ｖのうち区切特定部１１２が特定した区切Ｂの直前の区間Ｓに対する音声認識で認識文字列Ｙを特定する（Ｓa4）。情報生成部１１６は、図４を参照して説明した通り、音声認識部１１４が特定した認識文字列Ｙに応じた配信情報Ｄを生成する（Ｓa5）。すなわち、情報生成部１１６は、認識文字列Ｙに類似する登録文字列Ｘを参照テーブルＴaから検索し（Ｓa51）、当該登録文字列Ｘに対応する配信情報Ｄを参照テーブルＴaから特定する（Ｓa52）。そして、情報送信部１７は、情報生成部１１６が生成した配信情報Ｄと区切特定部１１２が生成した区切情報Ｑとを送信する（Ｓa6）。具体的には、配信情報Ｄおよび区切情報Ｑを音響成分として含む通知信号Ｚaを信号処理回路１５が生成し、通知信号Ｚaが表す音を放音装置１６が放音する。

制御装置１１は、情報提供処理を終了すべきか否かを判定する（Ｓa7）。例えば案内音声Ｇが終了した場合、または、操作装置１４に対する操作で案内者Ｕaが終了を指示した場合、制御装置１１は情報提供処理を終了する（Ｓa7：YES）。他方、情報提供処理を継続すべき場合（Ｓa7：NO）、制御装置１１は処理をステップＳa1に移行して、同様の処理（Ｓa1−Ｓa7）を反復する。すなわち、収音装置１３による案内音声Ｇの収音に並行して、区切情報Ｑの生成（Ｓa3）と区間Ｓの音声認識（Ｓa4）と配信情報Ｄの生成（Ｓa5）と配信情報Ｄおよび区切情報Ｑの送信（Ｓa6）とが、区切Ｂの特定毎に順次に反復される。以上の手順で情報提供システム１０から送信された配信情報Ｄおよび区切情報Ｑは、商業施設内の利用者Ｕbが携帯する端末装置２０により受信される。

図７は、端末装置２０の構成図である。図７に例示される通り、端末装置２０は、制御装置２１と記憶装置２２と収音装置２３と表示装置２４とを具備する。収音装置２３は、周囲の音を収音する音響機器（マイクロホン）である。具体的には、収音装置２３は、情報提供システム１０の放音装置１６による再生音を収音して通知信号Ｚbを生成する。通知信号Ｚbは、配信情報Ｄおよび区切情報Ｑの音響成分を含み得る。以上の説明から理解される通り、収音装置２３は、端末装置２０の相互間の音声通話または動画撮影時の音声収録に利用されるほか、空気振動としての音波を伝送媒体とする音響通信で配信情報Ｄおよび区切情報Ｑを受信する受信機としても機能する。表示装置２４（例えば液晶表示パネル）は、制御装置２１による制御のもとで各種の画像を表示する。

制御装置２１は、例えばＣＰＵ等の処理回路で構成され、端末装置２０の各要素を統括的に制御する。記憶装置２２は、制御装置２１が実行するプログラムと制御装置２１が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置２２として任意に採用され得る。なお、端末装置２０とは別体で記憶装置２２（例えばクラウドストレージ）を用意し、制御装置２１が通信網を介して記憶装置２２に対する読出および書込を実行することも可能である。

第１実施形態の記憶装置２２は、図７に例示された参照テーブルＴbを記憶する。参照テーブルＴbは、情報提供システム１０から送信され得る複数の配信情報Ｄ（Ｄ1，Ｄ2，…）の各々について関連情報Ｃ（Ｃ1，Ｃ2，…）を対応させたデータテーブルである。任意の１個の配信情報Ｄに対応する関連情報Ｃは、当該配信情報Ｄが示す登録文字列Ｘに関連する情報である。例えば登録文字列Ｘ自体、または登録文字列Ｘを他言語に翻訳した文字列が、関連情報Ｃの好適例である。登録文字列Ｘと関連情報Ｃとは１対１に対応するから、配信情報Ｄは、関連情報Ｃを示す情報（例えば関連情報Ｃの識別情報）とも換言され得る。

制御装置２１は、記憶装置２２に記憶されたプログラムを実行することで、情報提供システム１０が送信した配信情報Ｄおよび区切情報Ｑに関する処理を実行するための複数の機能（情報抽出部２１２および提示制御部２１４）を実現する。なお、制御装置２１の一部の機能を専用の電子回路で実現した構成、または、制御装置２１の機能を複数の装置に分散した構成も採用され得る。

情報抽出部２１２は、収音装置２３が生成した通知信号Ｚbから配信情報Ｄおよび区切情報Ｑを抽出する。具体的には、情報抽出部２１２が通知信号Ｚbから配信情報Ｄを抽出するための処理（以下「抽出処理」という）は、例えば、通知信号Ｚbのうち配信情報Ｄおよび区切情報Ｑの音響成分を含む周波数帯域を強調するフィルタ処理と、前述の変調処理部１５２が実行する変調処理に対応した復調処理とを包含する。各区間Ｓに想定される時間長と比較して充分に短い周期で抽出処理が反復される。したがって、案内者Ｕaによる案内音声Ｇの発声（または放音装置１６による案内音声Ｇの再生）に並行して、当該案内音声Ｇの区間Ｓ毎に、配信情報Ｄと区切情報Ｑとが順次に抽出される。

提示制御部２１４は、表示装置２４による情報の表示を制御する。第１実施形態の提示制御部２１４は、情報抽出部２１２が抽出した配信情報Ｄに対応する関連情報Ｃを表示装置２４に表示させる。具体的には、提示制御部２１４は、参照テーブルＴbに登録された複数の関連情報Ｃのうち情報抽出部２１２が抽出した配信情報Ｄに対応する関連情報Ｃを検索し、当該関連情報Ｃを表示装置２４に表示させる。したがって、放音装置１６による案内音声Ｇの再生に並行して、当該案内音声Ｇの各区間Ｓに対応する関連情報Ｃが表示装置２４に表示される。

第１実施形態の提示制御部２１４は、情報抽出部２１２が抽出した区切情報Ｑに応じて関連情報Ｃの表示を制御する。具体的には、区切Ｂが案内音声Ｇの末尾の時点であることを示す区切情報Ｑの抽出までは、提示制御部２１４は、複数の関連情報Ｃを一連の情報として表示装置２４の１画面内に並列に表示させる。例えば、図２の例示を想定すると、区切Ｂ（Ｂ1，Ｂ2）が案内音声Ｇの途中の時点であることを区切情報Ｑ1および区切情報Ｑ2の各々が示し、区切Ｂ3が案内音声Ｇの末尾の時点であることを区切情報Ｑ3が示す。したがって、提示制御部２１４は、配信情報Ｄ1に対応する関連情報Ｃ1と配信情報Ｄ2に対応する関連情報Ｃ2と配信情報Ｄ3に対応する関連情報Ｃ3とを、案内音声Ｇに対応する一連の情報として表示装置２４の１画面内に表示させる。他方、区切Ｂが案内音声Ｇの末尾の時点であることを区切情報Ｑが示す場合、以後に抽出される配信情報Ｄに対応する関連情報Ｃは、表示済の関連情報Ｃとは別個の情報として、表示済の関連情報Ｃとは別画面に表示される。

図８は、端末装置２０が実行する動作（以下「情報取得処理」という）を例示するフローチャートである。記憶装置２２に記憶されたプログラムの起動を契機として情報取得処理が開始される。

端末装置２０の情報抽出部２１２は、収音装置２３が生成した通知信号Ｚbに対する抽出処理を実行する（Ｓb1）。情報抽出部２１２が実際に配信情報Ｄおよび区切情報Ｑを抽出するまで抽出処理は反復される（Ｓb2：NO）。抽出処理Ｓb1により配信情報Ｄおよび区切情報Ｑが抽出されると（Ｓb2：YES）、提示制御部２１４は、配信情報Ｄに対応する関連情報Ｃを表示装置２４に表示させる（Ｓb3）。前述の通り、提示制御部２１４は、抽出処理で抽出された区切情報Ｑに応じて、配信情報Ｄに対応する関連情報Ｃを、表示済の関連情報Ｃと同画面で表示するか別画面で表示するかを制御する。

制御装置２１は、情報取得処理を終了すべきか否かを判定する（Ｓb4）。例えば端末装置２０の利用者Ｕbが終了を指示した場合（Ｓb4：YES）には、情報取得処理は終了する。他方、情報取得処理を継続すべき場合（Ｓb4：NO）、制御装置２１は処理をステップＳb1に移行して同様の処理（Ｓb1−Ｓb4）を反復する。以上の説明から理解される通り、案内者Ｕaによる案内音声Ｇの発声に並行して、配信情報Ｄおよび区切情報Ｑの抽出処理（Ｓb1，Ｓb2）と関連情報Ｃの表示（Ｓb3）とが順次に反復される。したがって、図２に例示される通り、案内音声Ｇの区間Ｓ毎に関連情報Ｃが表示装置２４に順次に表示される。

以上に説明した通り、第１実施形態では、案内音声Ｇの収音に並行した区切Ｂの特定毎に、当該区切Ｂの直前の区間Ｓに対する音声認識の結果に応じた配信情報Ｄが順次に生成および送信される。すなわち、案内音声Ｇの終了前に配信情報Ｄの送信が開始される。したがって、例えば案内音声Ｇの終了を契機として音声信号Ｖに対する音声認識と配信情報Ｄの生成および送信とを開始する構成と比較して、案内音声Ｇに対する配信情報Ｄの送信（さらには関連情報Ｃの提示）の遅延を低減することが可能である。災害等の緊急事態の発生時には案内音声Ｇにより利用者Ｕbに迅速に通知する必要がある。配信情報Ｄの送信の遅延を低減できる第１実施形態は、緊急事態の発生を案内音声Ｇにより利用者Ｕbに通知する場合に特に好適である。

また、第１実施形態では、区切Ｂが案内音声Ｇの途中の時点であるか末尾の時点であるかを示す区切情報Ｑが配信情報Ｄとともに情報提供システム１０から送信される。したがって、情報提供システム１０から順次に送信される複数の配信情報Ｄが相互に関連しているのか否かを端末装置２０において把握する（さらには関連情報Ｃの表示を制御する）ことが可能である。

＜第２実施形態＞
本発明の第２実施形態について説明する。なお、以下に例示する各構成において作用または機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

第１実施形態（図２）では、情報生成部１１６による配信情報Ｄの生成毎に当該配信情報Ｄを端末装置２０に送信する構成を例示した。第２実施形態では、情報生成部１１６による配信情報Ｄの生成毎に、当該配信情報Ｄと、案内音声Ｇについて過去に特定された配信情報Ｄとを、情報提供システム１０から端末装置２０に送信する。

図９は、第２実施形態における情報提供システム１０の動作の説明図である。案内音声Ｇの最初の区間Ｓ1について区切特定部１１２が区切Ｂ1を特定すると、情報生成部１１６は、第１実施形態と同様に、区間Ｓ1の認識文字列Ｙに応じた配信情報Ｄ1を生成する。情報送信部１７は、配信情報Ｄ1と区切Ｂ1の区切情報Ｑ1とを送信する。配信情報Ｄ1は記憶装置１２に格納される。

案内音声Ｇの区間Ｓ2について区切特定部１１２が区切Ｂ2を特定すると、情報生成部１１６は、第１実施形態と同様に、区間Ｓ2の認識文字列Ｙに応じた配信情報Ｄ2を生成する。第２実施形態の情報送信部１７は、情報生成部１１６が新規に生成した配信情報Ｄ2と、直前の区間Ｓ1について生成済の配信情報Ｄ1とを、区間Ｓ2の区切情報Ｑ2とともに端末装置２０に送信する。配信情報Ｄ2は配信情報Ｄ1とともに記憶装置１２に格納される。

案内音声Ｇの区間Ｓ3について区切特定部１１２が区切Ｂ3を特定すると、情報生成部１１６は、区間Ｓ3の認識文字列Ｙに応じた配信情報Ｄ3を生成する。第２実施形態の情報送信部１７は、情報生成部１１６が新規に生成した配信情報Ｄ3と、案内音声Ｇについて過去に生成した配信情報Ｄ1および配信情報Ｄ2とを、区間Ｓ3の区切情報Ｑ3とともに端末装置２０に送信する。以上の説明から理解される通り、第２実施形態では、配信情報Ｄの生成毎に、当該配信情報Ｄと過去の配信情報Ｄとが端末装置２０に送信される。

他方、端末装置２０の情報抽出部２１２は、収音装置２３が生成した通知信号Ｚbから１個以上の配信情報Ｄと区切情報Ｑとを抽出する。情報抽出部２１２が１個の配信情報Ｄを抽出した場合、提示制御部２１４は、当該配信情報Ｄに対応する関連情報Ｃを参照テーブルＴbから特定して表示装置２４に表示させる。また、情報抽出部２１２が複数の配信情報Ｄを抽出した場合、提示制御部２１４は、複数の配信情報Ｄの各々について関連情報Ｃを参照テーブルＴbから特定し、複数の関連情報Ｃを表示装置２４に表示させる。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、情報生成部１１６が新規に生成した配信情報Ｄとともに過去の配信情報Ｄが送信される。したがって、案内音声Ｇの１個の区間Ｓについて受信に失敗した配信情報Ｄを、当該案内音声Ｇにおける以降の区間Ｓに対応する配信情報Ｄとともに受信し直すことが可能である。すなわち、案内音声Ｇに関する特定の関連情報Ｃを端末装置２０において表示できない可能性が低減されるという利点がある。また、案内音声Ｇの発声の開始前から商業施設内にいる利用者Ｕbの端末装置２０だけでなく、案内音声Ｇの発声の途中で商業施設に到着した利用者Ｕbの端末装置２０にも、配信情報Ｄを配信して関連情報Ｃを表示させることが可能である。

＜第３実施形態＞
図１０は、第３実施形態において端末装置２０の記憶装置２２に記憶される参照テーブルＴbの模式図である。図１０に例示される通り、第３実施形態の参照テーブルＴbは、案内者Ｕaが発声し得る複数の案内音声Ｇの各々について配信情報Ｅ（Ｅ1，Ｅ2，…）と関連情報Ｒ（Ｒ1，Ｒ2，…）とを相互に対応させたデータテーブルである。任意の１個の案内音声Ｇに対応する関連情報Ｒは、例えば当該案内音声Ｇを任意の言語（案内音声Ｇと同言語または他言語）で表現した文字列であり、時系列に配列された複数の部分ｒ（ｒ1，ｒ2，…）で構成される。複数の部分ｒは、案内音声Ｇの複数の区間Ｓにそれぞれ対応する。例えば、案内音声Ｇの任意の１個の区間Ｓに対応する部分ｒは、当該区間Ｓを表す文字列、自体または当該文字列を他言語に翻訳した文字列である。また、任意の１個の案内音声Ｇに対応する配信情報Ｅは、案内音声Ｇ（または当該案内音声Ｇに対応する関連情報Ｒ）を識別するための識別情報である。配信情報Ｅは、関連情報Ｒを構成する複数の部分ｒの組合せを識別するための情報とも換言され得る。

情報提供システム１０の情報生成部１１６は、図１１に例示される通り、区切特定部１１２による区切Ｂの特定毎（音声認識部１１４による認識文字列Ｙの認識毎）に配信情報Ｅと区間情報Ｆとを生成する。具体的には、情報生成部１１６は、複数の関連情報Ｒのうち認識文字列Ｙに類似する登録文字列Ｘを含む関連情報Ｒの配信情報Ｅを生成する。例えば、登録文字列Ｘが図２の区間Ｓ1の「お客様にご案内申し上げます」である場合、当該登録文字列Ｘを含む図２の案内音声Ｇの関連情報Ｒに対応した配信情報Ｅが生成される。

区間情報Ｆは、図１１に例示される通り、関連情報Ｒを構成する複数の部分ｒ（または案内音声Ｇを構成する複数の区間Ｓ）にそれぞれ対応する複数の単位データｆ（ｆ1，ｆ2，ｆ3）を含んで構成される。区間情報Ｆの複数の単位データｆのうち関連情報Ｒの１個の部分ｒに対応する単位データｆは、関連情報Ｒの当該部分ｒを端末装置２０の利用者Ｕbに提示するか否かを示す情報（例えばフラグ）である。例えば、区間情報Ｆの複数の単位データｆのうち、登録文字列Ｘが特定された区間Ｓに対応する単位データｆは数値ａ1（許可）に設定され、登録文字列Ｘの未特定の区間Ｓに対応する単位データｆは数値ａ0（禁止）に設定される。すなわち、区間情報Ｆは、案内音声Ｇの複数の区間Ｓの各々について登録文字列Ｘが特定されたか否か（案内者Ｕaが当該区間Ｓを発音したか否か、または、音声認識部１１４が当該区間の認識文字列Ｙを特定したか否か）を示す情報である。図１１に例示される通り、情報送信部１７は、配信情報Ｅの生成毎（すなわち区切Ｂの特定毎）に、配信情報Ｅと区間情報Ｆとを周囲に送信する。配信情報Ｅおよび区間情報Ｆの送信には、第１実施形態における配信情報Ｄおよび区切情報Ｑの送信と同様に、音響通信が好適に利用される。

図２の例示と同様に、「お客様にご案内申し上げます」という区間Ｓ1と「当店は間もなく閉店いたします」という区間Ｓ2と「ご来店ありがとうございました」という区間Ｓ3とで構成される案内音声Ｇを、案内者Ｕaが発声する場合を想定する。

図１２に例示される通り、案内音声Ｇの最初の区間Ｓ1の登録文字列Ｘが特定された段階ｔ1において、情報生成部１１６は、当該登録文字列Ｘを含む案内音声Ｇに対応した配信情報Ｅと、複数の単位データｆのうち区間Ｓ1に対応する単位データｆ1が数値ａ1（許可）に設定された区間情報Ｆとを生成する。区間情報Ｆのうち区間Ｓ1以外の各区間Ｓ（Ｓ2，Ｓ3）に対応する単位データｆは数値ａ0（禁止）に設定される。他方、配信情報Ｅと区間情報Ｆとを情報送信部１７から受信した端末装置２０の提示制御部２１４は、配信情報Ｅが示す関連情報Ｒを参照テーブルＴbから検索し、当該関連情報Ｒを構成する複数の部分ｒのうち数値ａ1の単位データｆに対応する部分ｒを表示装置２４に表示させる。すなわち、関連情報Ｒのうち「お客様にご案内申し上げます」という区間Ｓ1に対応する部分ｒ1が表示装置２４に表示される。関連情報Ｒのうち数値ａ0の単位データｆに対応する部分ｒ2および部分ｒ3は表示されない。

案内音声Ｇの第２番目の区間Ｓ2の登録文字列Ｘが特定された段階ｔ2では、情報生成部１１６は、区間Ｓ1および区間Ｓ2について特定された登録文字列Ｘを含む案内音声Ｇの配信情報Ｅと、区間情報Ｆとを生成する。区間情報Ｆの複数の単位データｆのうち、区間Ｓ1に対応する単位データｆ1と区間Ｓ2に対応する単位データｆ2とは数値ａ1（許可）に設定され、区間Ｓ3に対応する単位データｆ3は数値ａ0（禁止）に設定される。他方、配信情報Ｅと区間情報Ｆとを情報送信部１７から受信した端末装置２０の提示制御部２１４は、配信情報Ｅが示す関連情報Ｒの複数の部分ｒのうち、数値ａ1の単位データｆに対応する部分ｒを表示装置２４に表示させる。すなわち、関連情報Ｒのうち、「お客様にご案内申し上げます」という区間Ｓ1に対応する部分ｒ1と、「当店は間もなく閉店いたします」という区間Ｓ2に対応する部分ｒ2とが、表示装置２４に表示される。関連情報Ｒのうち数値ａ0の単位データｆ3に対応する部分ｒ3は表示されない。

案内音声Ｇの最後の区間Ｓ3の登録文字列Ｘが特定された段階ｔ3では、情報生成部１１６は、区間Ｓ1から区間Ｓ3について特定された登録文字列Ｘを含む案内音声Ｇの配信情報Ｅと、区間情報Ｆとを生成する。区間情報Ｆにおいては、区間Ｓ1から区間Ｓ3にそれぞれ対応する全部の単位データｆ（ｆ1〜ｆ3）が数値ａ1（許可）に設定される。他方、配信情報Ｅと区間情報Ｆとを情報送信部１７から受信した端末装置２０の提示制御部２１４は、配信情報Ｅが示す関連情報Ｒのうち数値ａ1の単位データｆに対応する部分ｒを表示装置２４に表示させる。すなわち、関連情報Ｒのうち「お客様にご案内申し上げます」という区間Ｓ1に対応する部分ｒ1と、「当店は間もなく閉店いたします」という区間Ｓ2に対応する部分ｒ2と、「ご来店ありがとうございました」という区間Ｓ3に対応する部分ｒ3と（すなわち関連情報Ｒの全部）が、表示装置２４に表示される。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、関連情報Ｒを構成する複数の部分ｒの各々について利用者Ｕbに対する提示の許否を示す区間情報Ｆが端末装置２０に送信される。したがって、案内音声Ｇの発声の開始から商業施設内にいる利用者Ｕbだけでなく、案内音声Ｇの発声の途中で商業施設に到着した利用者Ｕbにも、案内音声Ｇのうち利用者Ｕbの到着前に発音された区間Ｓに対応する部分ｒを含む関連情報Ｒを提示することが可能である。

なお、複数の部分ｒの組合せが相違する複数の関連情報Ｒのなかには、例えば最初の部分ｒ1が共通するものがある。最初の部分ｒ1が複数の関連情報Ｒにわたり共通する場合、例えば案内音声Ｇの最初の区間Ｓ1の登録文字列Ｘが特定された段階ｔ1では、関連情報Ｒを一意に特定できない可能性がある。情報生成部１１６は、登録文字列Ｘを含む複数の案内音声Ｇのうちの何れかに対応する配信情報Ｅを端末装置２０に送信する。以上の説明から理解される通り、端末装置２０に送信される配信情報Ｅが示す案内音声Ｇは、案内者Ｕaが実際に発声する案内音声Ｇとは相違する可能性がある。しかし、第３実施形態では、区切Ｂの特定毎に端末装置２０に送信される区間情報Ｆにより、関連情報Ｒの各部分ｒの提示の可否が指定されるから、関連情報Ｒのうち案内者Ｕaが実際には発声しない区間Ｓに対応する部分ｒは端末装置２０において表示されない。配信情報Ｅは、区切Ｂの特定毎に更新される。したがって、最初の区間Ｓが発声された段階では、案内者Ｕaが実際に発声する予定の内容とは相違する案内音声Ｇを示す配信情報Ｅが生成されたとしても、案内音声Ｇの全部の区間Ｓが発声された段階では、当該案内音声Ｇに対応した適正な配信情報Ｅが生成される。

＜変形例＞
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。

（１）前述の各形態では、案内音声Ｇの音量が低下した時点を区切Ｂとして特定したが、区切特定部１１２が案内音声Ｇの区切Ｂを特定する方法は以上の例示に限定されない。例えば、操作装置１４に対する操作で案内者Ｕaが指示した時点を区切特定部１１２が案内音声Ｇの区切Ｂとして特定することも可能である。例えば操作装置１４に所定の操作が付与された時点が区切Ｂとして特定される。以上の構成によれば、案内者Ｕaが意図した時点を区切Ｂとして設定できるという利点がある。

（２）前述の各形態では、認識文字列Ｙの認識毎に配信情報Ｄを生成および送信したが、配信情報Ｄの送信の契機は以上の例示に限定されない。例えば、認識文字列Ｙが特定の語句（以下「登録語句」という）を含むことを契機として、情報送信部１７が配信情報Ｄを送信することも可能である。例えば、記憶装置１２には登録語句が事前に記憶される。音声認識部１１４は、認識結果である認識文字列Ｙに登録語句が含まれるか否かを判定する。認識文字列Ｙに登録語句が含まれると音声認識部１１４が判定した場合に、情報送信部１７は、情報生成部１１６が生成した配信情報Ｄを端末装置２０に送信する。以上の構成によれば、案内者Ｕaによる登録語句の発声を契機として配信情報Ｄが端末装置２０に送信されるから、配信情報Ｄの送信のタイミングまたは頻度を案内者Ｕaが適宜に調整できるという利点がある。

（３）前述の各形態では、区切Ｂが案内音声Ｇの途中の時点であるか末尾の時点であるかを示す区切情報Ｑを端末装置２０に送信したが、区切Ｂが案内音声Ｇの途中の時点である場合に限定して区切情報Ｑを端末装置２０に送信することも可能である。すなわち、区切Ｂが案内音声Ｇの末尾の時点である場合には区切情報Ｑは送信されない。端末装置２０の提示制御部２１４は、区切情報Ｑを受信できた場合には区切Ｂが案内音声Ｇの途中の時点であると判定し、区切情報Ｑを受信できない場合には区切Ｂが案内音声の末尾の時点であると判定する。

同様に、区切Ｂが案内音声Ｇの末尾の時点である場合に限定して区切情報Ｑを端末装置２０に送信することも可能である。すなわち、区切Ｂが案内音声Ｇの途中の時点である場合には区切情報Ｑは送信されない。端末装置２０の提示制御部２１４は、区切情報Ｑを受信できた場合には区切Ｂが案内音声Ｇの末尾の時点であると判定し、区切情報Ｑを受信できない場合には区切Ｂが案内音声の途中の時点であると判定する。

（４）前述の各形態では、配信情報Ｄと区切情報Ｑとを情報提供システム１０から端末装置２０に送信したが、区切情報Ｑの送信は省略され得る。端末装置２０の提示制御部２１４は、配信情報Ｄに対応した区切Ｂが案内音声Ｇの途中の時点であるか末尾の時点であるかを認識することなく、配信情報Ｄが示す関連情報Ｃを表示装置２４に表示させる。例えば、図１３に例示される通り、配信情報Ｄの受信毎に、当該配信情報Ｄが示す関連情報Ｃ（Ｃ1，Ｃ2，Ｃ3）を順次に別画面で表示装置２４に表示させることも可能である。

（５）前述の各形態では、情報提供システム１０が音声認識部１１４を具備する構成を例示したが、情報提供システム１０が通信可能な音声認識装置（例えばウェブサーバ）に、音声信号Ｖの各区間Ｓに対する音声認識を実行させることも可能である。例えば、区切特定部１１２が区切Ｂを特定すると、音声信号Ｖのうち当該区切Ｂの直前の区間Ｓが音声認識装置に送信され、音声認識の結果である認識文字列Ｙが音声認識装置から情報提供システム１０に送信される。以上の説明から理解される通り、音声認識部１１４は情報提供システム１０から省略され得る。

（６）前述の各形態では、登録文字列Ｘの識別情報（または関連情報Ｃの識別情報）を配信情報Ｄとして例示したが、配信情報Ｄの内容は以上の例示に限定されない。例えば、関連情報Ｃ自体を配信情報Ｄとして情報提供システム１０から端末装置２０に送信することも可能である。以上の構成において、端末装置２０の提示制御部２１４は、情報抽出部２１２が抽出した配信情報Ｄ（すなわち関連情報Ｃ）を表示装置２４に表示させる。したがって、参照テーブルＴbを端末装置２０に保持する必要はない。

音声認識部１１４が特定した認識文字列Ｙを示す配信情報Ｄを情報生成部１１６が生成することも可能である。例えば、認識文字列Ｙ自体が配信情報Ｄとして端末装置２０に送信される。また、認識文字列Ｙを識別するための識別情報を配信情報Ｄとして端末装置２０に送信する構成も想定される。

（７）前述の各形態では、登録文字列Ｘが参照テーブルＴaに事前に登録された構成を例示したが、定型句と１個以上の挿入句とから構成される文字列を登録文字列Ｘとすることも可能である。定型句は、複数の登録文字列Ｘについて共用される定型的な文字列であり、挿入句は、定型句に挿入され得る文字列である。相異なる複数の挿入句の何れかが定型句に挿入されることで複数の登録文字列Ｘが構成される。情報生成部１１６は、音声認識部１１４による認識結果（認識文字列Ｙ）から定型句と挿入句とを特定し、定型句および挿入句の組合せを示す配信情報Ｄを生成する。

（８）前述の各形態では、関連情報Ｃを表示装置２４に表示したが、関連情報Ｃを端末装置２０の利用者Ｕbに提示する方法は以上の例示に限定されない。例えば、関連情報Ｃが示す音声を再生することで関連情報Ｃを利用者Ｕbに提示することも可能である。例えば、関連情報Ｃが音声を表す構成、または、関連情報Ｃが表す文字列に対する音声合成により音声を生成する構成が想定される。

（９）前述の各形態では、端末装置２０の記憶装置２２に参照テーブルＴbを保持したが、例えば移動体通信網またはインターネット等の通信網を介して端末装置２０と通信する配信装置に参照テーブルＴbを保持することも可能である。端末装置２０は、配信情報Ｄを含む情報要求を配信装置に送信する。配信装置は、情報要求内の配信情報Ｄに対応する関連情報Ｃを参照テーブルＴbから検索して要求元の端末装置２０に送信する。端末装置２０の提示制御部２１４は、配信装置から受信した関連情報Ｃを表示装置２４に表示させる。以上の説明から理解される通り、参照テーブルＴbを端末装置２０の記憶装置２２に記憶することは必須ではない。

（１０）前述の各形態では、情報提供システム１０を商業施設で利用する場面を例示したが、情報提供システム１０が利用される場面は以上の例示に限定されない。情報提供システム１０が設置される施設としては、例えば、電車またはバス等の交通施設、旅館またはホテル等の宿泊施設、博物館または美術館等の展示施設、史跡または名所等の観光施設、および、競技場または体育館等の運動施設が例示され得る。また、前述の各形態では、利用者Ｕbに施設を案内するための案内音声Ｇを例示したが、区切Ｂが検出される音声は案内音声Ｇに限定されず、任意の音声について情報提供システム１０を利用することが可能である。

（１１）前述の各形態では、音響を伝送媒体とする音響通信で配信情報Ｄおよび区切情報Ｑを端末装置２０に送信したが、端末装置２０に配信情報Ｄを送信するための通信方式は音響通信に限定されない。例えば、電波または赤外線等の電磁波を伝送媒体とした無線通信で情報提供システム１０から端末装置２０に配信情報Ｄおよび区切情報Ｑを送信することも可能である。すなわち、無線通信用の通信機器が情報送信部１７として利用される。具体的には、Bluetooth（登録商標）またはWiFi（登録商標）等の無線通信が配信情報Ｄの送信に好適である。

（１２）前述の各形態に係る情報提供システム１０は、各形態での例示の通り、制御装置１１とプログラムとの協働により実現される。前述の各形態に係るプログラムは、制御装置１１（コンピュータの例示）に、案内音声Ｇの収音に並行して当該案内音声Ｇの時間軸上の区切Ｂを順次に特定する区切特定処理（Ｓa1）と、区切特定処理による区切Ｂの特定毎に、当該区切Ｂの直前の区間Ｓに対する音声認識の結果（認識文字列Ｙ）に応じた配信情報Ｄを順次に生成する情報生成処理（Ｓa5）とを実行させる。

以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供することも可能である。

（１３）以上に例示した形態から、例えば以下の構成が把握される。
＜態様１＞
本発明の好適な態様（態様１）に係る情報提供方法は、コンピュータシステムが、音声の収音に並行して当該音声の時間軸上の区切を順次に特定し、前記区切の特定毎に、当該区切の直前の区間に対する音声認識の結果に応じた配信情報を順次に生成し、前記配信情報を順次に送信する。以上の態様では、音声の収音に並行した区切の特定毎に、当該区間に対する音声認識の結果に応じた配信情報が生成される。したがって、音声の全区間の終了を契機として音声認識と配信情報の生成とを開始する構成と比較して、音声に対する配信情報の送信の遅延を低減することが可能である。
＜態様２＞
態様１の好適例（態様２）において、前記区切の特定では、前記音声の音量が低下した時点を前記区切として特定する。以上の態様では、音声の音量が低下した時点が区切として特定されるから、例えば利用者が手動で音声の区切を指示する手間を必要とせずに、音声の適切な時点を区切として特定できるという利点がある。
＜態様３＞
態様１の好適例（態様３）において、前記区切の特定では、操作装置に対する操作で指示された時点を前記区切として特定する。以上の態様によれば、利用者（例えば案内者）が意図した任意の時点を区切として設定できるという利点がある。
＜態様４＞
態様１から態様３の何れかの好適例（態様４）において、前記配信情報の送信では、前記配信情報の生成毎に当該配信情報を送信する。以上の態様では、配信情報の生成毎に当該配信情報が送信されるから、音声に対する配信情報の送信の遅延を低減することが可能である。
＜態様５＞
態様１から態様３の何れかの好適例（態様５）において、前記配信情報の送信では、前記音声認識により特定された文字列が特定の語句を含む場合に、前記配信情報を送信する。以上の態様では、特定の語句の発声を契機として配信情報が送信されるから、配信情報の送信のタイミングを発声者が適宜に調整できるという利点がある。
＜態様６＞
態様１から態様５の何れかの好適例（態様６）において、前記配信情報の送信では、前記特定した区切が前記音声の途中の時点である場合に、当該途中の時点であることを示す区切情報と前記配信情報とを送信する。以上の態様では、区切が音声の途中の時点であることを示す区切情報が配信情報とともに送信される。したがって、順次に送信される複数の配信情報が、相互に関連しているのか否かを受信側において把握することが可能である。
＜態様７＞
態様１から態様６の何れかの好適例（態様７）において、前記配信情報の送信では、前記特定した区切が前記音声の末尾の時点である場合に、当該末尾の時点であることを示す区切情報と前記配信情報とを送信する。以上の態様では、区切が音声の末尾の時点であることを示す区切情報が配信情報とともに送信される。したがって、順次に送信される複数の配信情報が、相互に関連しているのか否かを受信側において把握することが可能である。
＜態様８＞
態様１から態様７の何れかの好適例（態様８）において、前記配信情報の送信では、前記配信情報の生成毎に、当該配信情報と、前記音声について過去に生成した配信情報とを送信する。以上の態様では、新規に生成された配信情報とともに過去の配信情報が送信される。したがって、配信情報の受信側では、音声の１個の区間について受信に失敗した配信情報を、後続の区間に対応する配信情報とともに受信し直すことが可能である。
＜態様９＞
態様１から態様４の何れかの好適例（態様９）において、前記配信情報の生成では、前記区切の特定毎に、当該区切の直前の区間を含む複数の区間に対応する関連情報を示す配信情報を生成し、前記配信情報の送信においては、前記配信情報の生成毎に、当該配信情報と、前記関連情報の複数の部分の各々について利用者に対する提示の可否を示す区間情報とを送信する。以上の態様では、関連情報の複数の部分の各々について提示の可否を示す区間情報が送信される。したがって、音声の発声の開始から配信情報を取得できた利用者だけでなく、音声の発声の途中で配信情報を取得可能になった利用者にも、音声の最初の区間に対応する部分を含む関連情報を提示することが可能である。
＜態様１０＞
本発明の好適な態様（態様１０）に係る情報提供システムは、音声の収音に並行して当該音声の時間軸上の区切を順次に特定する区切特定部と、前記区切特定部による区切の特定毎に、当該区切の直前の区間に対する音声認識の結果に応じた配信情報を順次に生成する情報生成部と、前記配信情報を順次に送信する情報送信部とを具備する。以上の態様では、音声の収音に並行した区切の特定毎に、当該区間に対する音声認識の結果に応じた配信情報が生成される。したがって、音声の全区間の終了を契機として音声認識と配信情報の生成とを開始する構成と比較して、音声に対する配信情報の送信の遅延を低減することが可能である。

１０…情報提供システム、１１…制御装置、１１２…区切特定部、１１４…音声認識部、１１６…情報生成部、１２…記憶装置、１３…収音装置、１４…操作装置、１５…信号処理回路、１５２…変調処理部、１５４…混合処理部、１６…放音装置、１７…情報送信部、２０…端末装置、２１…制御装置、２１２…情報抽出部、２１４…提示制御部、２２…記憶装置、２３…収音装置、２４…表示装置。

Claims

コンピュータシステムが、
音声の収音に並行して当該音声の時間軸上の区切を順次に特定し、
前記区切の特定毎に、当該区切の直前の区間に対する音声認識の結果に応じた配信情報を生成し、
前記配信情報を送信し、
前記配信情報の送信においては、前記特定した区切が前記音声の途中の時点である場合に、当該途中の時点であることを示す区切情報と前記配信情報とを送信する
情報提供方法。
コンピュータシステムが、
音声の収音に並行して当該音声の時間軸上の区切を順次に特定し、
前記区切の特定毎に、当該区切の直前の区間に対する音声認識の結果に応じた配信情報を生成し、
前記配信情報を送信し、
前記配信情報の送信においては、前記特定した区切が前記音声の末尾の時点である場合に、当該末尾の時点であることを示す区切情報と前記配信情報とを送信する
情報提供方法。
コンピュータシステムが、
音声の収音に並行して当該音声の時間軸上の区切を順次に特定し、
前記区切の特定毎に、当該区切の直前の区間に対する音声認識の結果に応じた配信情報を生成し、
前記配信情報を送信し、
前記配信情報の送信においては、前記配信情報の生成毎に、当該配信情報と、前記音声について過去に生成した配信情報とを送信する
情報提供方法。
コンピュータシステムが、
音声の収音に並行して当該音声の時間軸上の区切を順次に特定し、
前記区切の特定毎に、当該区切の直前の区間を含む複数の区間に対応する関連情報を示す配信情報を生成し、
前記配信情報の生成毎に、当該配信情報と、前記関連情報の複数の部分の各々について利用者に対する提示の可否を示す区間情報とを送信する
情報提供方法。
音声の収音に並行して当該音声の時間軸上の区切を順次に特定する区切特定部と、
前記区切特定部による区切の特定毎に、当該区切の直前の区間に対する音声認識の結果に応じた配信情報を生成する情報生成部と、
前記配信情報を送信する情報送信部とを具備し、
前記情報送信部は、前記区切特定部が特定した区切が前記音声の途中の時点である場合に、当該途中の時点であることを示す区切情報と前記配信情報とを送信する
情報提供システム。
音声の収音に並行して当該音声の時間軸上の区切を順次に特定する区切特定部と、
前記区切特定部による区切の特定毎に、当該区切の直前の区間に対する音声認識の結果に応じた配信情報を生成する情報生成部と、
前記配信情報を送信する情報送信部とを具備し、
前記情報送信部は、前記区切特定部が特定した区切が前記音声の末尾の時点である場合に、当該末尾の時点であることを示す区切情報と前記配信情報とを送信する
情報提供システム。
音声の収音に並行して当該音声の時間軸上の区切を順次に特定する区切特定部と、
前記区切特定部による区切の特定毎に、当該区切の直前の区間に対する音声認識の結果に応じた配信情報を生成する情報生成部と、
前記配信情報を送信する情報送信部とを具備し、
前記情報送信部は、前記配信情報の生成毎に、当該配信情報と、前記音声について過去に生成した配信情報とを送信する
情報提供システム。
音声の収音に並行して当該音声の時間軸上の区切を順次に特定する区切特定部と、
前記区切特定部による区切の特定毎に、当該区切の直前の区間を含む複数の区間に対応する関連情報を示す配信情報を生成する情報生成部と、
前記配信情報の生成毎に、当該配信情報と、前記関連情報の複数の部分の各々について利用者に対する提示の可否を示す区間情報とを送信する情報送信部と
を具備する情報提供システム。