JP2020053060A

JP2020053060A - 情報提供方法、情報提供装置およびプログラム

Info

Publication number: JP2020053060A
Application number: JP2019202399A
Authority: JP
Inventors: 貴裕岩田; Takahiro Iwata; 優樹瀬戸; Yuki Seto
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2017-08-31
Filing date: 2019-11-07
Publication date: 2020-04-02
Anticipated expiration: 2038-08-16
Also published as: US20200175988A1; EP3678018A4; EP3678018A1; JP6614395B2; JPWO2019044520A1; JP7331645B2; CN111033461A; US11790913B2; WO2019044520A1; US20220208190A1

Abstract

【課題】順次に発音される音声に対応する複数の情報の時系列を利用者に提供する。【解決手段】情報提供装置は、音声再生装置に対して順次に発音された複数の発話音声の各々の内容を表す関連情報を共通の識別情報に対応付けて記憶装置に格納し、音声再生装置から送信された識別情報を受信した端末装置からの要求に応じて、当該識別情報に対応する１以上の関連情報を当該端末装置に対して通信装置に送信させる。【選択図】図８

Description

本発明は、利用者に情報を提供する技術に関する。

端末装置の利用者に各種の情報を提供する技術が従来から提案されている。例えば特許文献１には、利用者が携帯する再生ユニットに事前に記憶された複数の解説音声のうち、各展示物の近傍の送信手段から送信されたコード情報に対応する解説音声を再生する案内システムが開示されている。

特開平２−１９０８８８号公報

特許文献１の技術のもとでは、再生ユニットに事前に記憶された解説音声が選択的に再生されるに過ぎない。しかし、例えば講演会において順次に発音される音声の内容を表す情報を利用者に提供できれば、音声の聴取が困難な難聴者が講演会での発話内容を把握できて便利である。以上の事情を考慮して、本発明は、順次に発音される音声に対応する複数の情報の時系列を利用者に提供することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る情報提供方法は、情報提供装置が、第１装置に対して順次に発音された複数の発話音声の各々の内容を表す関連情報を共通の識別情報に対応付けて記憶装置に格納し、前記第１装置から送信された前記識別情報を受信した第２装置からの要求に応じて、当該識別情報に対応する１以上の関連情報を当該第２装置に対して通信装置に送信させる。
本発明の好適な態様に係る情報提供装置は、第１装置に対して順次に発音される複数の発話音声の各々の内容を表す関連情報を共通の識別情報に対応付けて記憶装置に格納する制御部と、前記第１装置から送信された前記識別情報を受信した第２装置からの要求に応じて、当該識別情報に対応する１以上の関連情報を当該第２装置に対して通信装置に送信させる送信部とを具備する。

本発明の第１実施形態に係る通信システムの構成を示すブロック図である。音声再生装置の構成を示すブロック図である。信号処理回路の構成を示すブロック図である。情報提供装置の構成を示すブロック図である。情報提供装置の記憶装置における関連情報の記憶の説明図である。端末装置の構成を示すブロック図である。通信システムおよび端末装置の動作の説明図である。第２実施形態における通信システムおよび端末装置の動作の説明図である。第２実施形態における参照テーブルの模式図である。第３実施形態における通信システムおよび端末装置の動作の説明図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る通信システム１００の構成を例示するブロック図である。第１実施形態の通信システム１００は、ホールまたは会議室等の施設（以下「提供施設」という）内の利用者Ｕbに情報を提供するためのコンピュータシステムであり、音声再生装置１０と音声認識装置２０と機械翻訳装置３０と情報提供装置４０とを具備する。通信システム１００の各要素は、例えば移動体通信網またはインターネット等を含む通信網２００を介して相互に通信可能である。

音声再生装置１０（第１装置の例示）は、提供施設内に設置される。提供施設では、例えば発話者Ｕaが順次に発話する講演会が開催される。音声再生装置１０は、発話者Ｕaが順次に発音する音声（以下「発話音声」という）Ｖを収音および放音する音響システムである。利用者Ｕbは、講演会の受聴者であり、端末装置５０を携行して提供施設内に所在する。端末装置５０（第２装置の例示）は、例えば携帯電話機またはスマートフォン等の可搬型の情報端末である。なお、例えば提供施設に設置される電光掲示板または電子看板（例えばデジタルサイネージ）等の案内用の機器を、端末装置５０として利用してもよい。以下の説明では、便宜的に１個の端末装置５０に着目する。

図２は、音声再生装置１０の構成を例示するブロック図である。図２に例示される通り、第１実施形態の音声再生装置１０は、制御装置１１と記憶装置１２と通信装置１３と収音装置１４と信号処理回路１５と放音装置１６とを具備する。提供施設に設置された放送システムのほか、例えばタブレット端末またはパーソナルコンピュータ等の情報端末が音声再生装置１０として利用される。なお、音声再生装置１０は、単体の装置で実現されるほか、相互に別体で構成された複数の装置（すなわちシステム）でも実現される。

収音装置１４は、周囲の音響を収音する音響機器（マイクロホン）である。発話者Ｕaは、収音装置１４に対して発話音声Ｖを発音する。収音装置１４は、発話者Ｕaが発音した発話音声Ｖを収音し、当該発話音声Ｖを表す音声信号Ｘを生成する。なお、収音装置１４が生成した音声信号Ｘをアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略した。

制御装置１１は、例えばＣＰＵ（Central Processing Unit）等の処理回路で構成され、音声再生装置１０の各要素を統括的に制御する。記憶装置１２は、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する。例えば半導体記録媒体もしくは磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置１２として好適に利用される。

第１実施形態の制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで識別情報Ｄを生成する。識別情報Ｄは、提供施設内で発音される複数の発話音声Ｖの時系列を識別するための情報である。例えば講演会毎に別個の識別情報Ｄが付与される。識別情報Ｄの生成の方法は任意である。例えば制御装置１１は、音声再生装置１０の動作が開始された時刻、または所定の桁数の乱数を含む識別情報Ｄを生成する。音声再生装置１０に固有に付与された識別情報に前述の時刻または乱数を組合わせて識別情報Ｄとしてもよい。提供施設内で開催される講演会は複数の発話音声Ｖの時系列で構成されるから、識別情報Ｄは、当該講演会または当該提供施設を識別するための情報とも換言される。

通信装置１３は、制御装置１１による制御のもとで通信網２００を介して他装置と通信する。第１実施形態の通信装置１３は、収音装置１４が収音した音声信号Ｘを音声認識装置２０に送信するとともに、制御装置１１が生成した識別情報Ｄを情報提供装置４０に送信する。

信号処理回路１５は、発話音声Ｖと識別情報Ｄを表す音響成分との混合音を表す音響信号Ｚaを生成する。図３に例示される通り、第１実施形態の信号処理回路１５は、変調処理部１５１と混合処理部１５２とを含んで構成される。なお、信号処理回路１５の少なくとも一部の機能を制御装置１１が実現してもよい。

変調処理部１５１は、制御装置１１が生成した識別情報Ｄを音響成分として表す変調信号Ｙを生成する。具体的には、変調処理部１５１は、例えば所定の周波数の搬送波を識別情報Ｄにより変調する振幅変調もしくは周波数変調、または、拡散符号を利用した識別情報Ｄの拡散変調等の変調処理により変調信号Ｙを生成する。識別情報Ｄを表す音響成分の周波数帯域は、例えば、放音装置１６による再生が可能な周波数帯域であり、かつ、利用者Ｕbが通常の環境で聴取する音の周波数帯域を上回る範囲（例えば１８ｋＨｚ以上かつ２０ｋＨｚ以下）である。

図３の混合処理部１５２は、収音装置１４が生成した音声信号Ｘと変調処理部１５１が生成した変調信号Ｙとを混合（例えば加算）することで音響信号Ｚaを生成する。以上の説明から理解される通り、音響信号Ｚaは、発話者Ｕaが発音した発話音声Ｖと識別情報Ｄを表す音響との混合音を表す信号である。なお、音響信号Ｚaをデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略した。

図２の放音装置１６（例えばスピーカ装置）は、信号処理回路１５が生成した音響信号Ｚaが表す音響を再生する。以上の説明から理解される通り、第１実施形態の放音装置１６は、発話者Ｕaが発音した発話音声Ｖを再生する音響機器として機能するほか、空気振動としての音波を伝送媒体とした音響通信により識別情報Ｄを周囲に送信する送信機としても機能する。すなわち、第１実施形態では、発話音声Ｖを放音する放音装置１６から識別情報Ｄの音響を放音する音響通信により当該識別情報Ｄが周囲に送信される。したがって、識別情報Ｄの送信に専用される送信機が不要であるという利点がある。また、識別情報Ｄが送信される範囲を遮音物の設置により容易に制限できるという利点もある。講演会等において１対多の情報伝達を容易に実現できるという利点もある。

なお、音声再生装置１０による識別情報Ｄの送信の時期は任意である。例えば、発話者Ｕaによる発話音声Ｖの発音毎に音声再生装置１０が識別情報Ｄを送信してもよいし、発話者Ｕaによる発話の有無とは無関係に所定の周期で音声再生装置１０が識別情報Ｄを送信してもよい。ただし、講演会の途中で提供施設に来訪した利用者Ｕbの端末装置５０にも情報が提供されるように、時間軸上の相異なる複数の時点で識別情報Ｄが音声再生装置１０から送信される構成が好適である。

図１の音声認識装置２０は、音声再生装置１０から送信された音声信号Ｘを通信網２００から受信する。第１実施形態の音声認識装置２０は、音声信号Ｘに対する音声認識を実行することで、発話音声Ｖの内容を表す文字列（以下「認識文字列」という）Ｗを特定するコンピュータシステム（例えばウェブサーバ）である。音声認識装置２０による音声認識には、例えば隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）等の音響モデルと、言語的な制約を示す言語モデルとを利用した認識処理等の公知の技術が任意に採用される。

機械翻訳装置３０は、音声認識装置２０が特定した認識文字列Ｗに対する機械翻訳により、発話音声Ｖの内容を相異なる言語（例えば日本語，英語および中国語）で表す複数の関連情報Ｒを生成する。機械翻訳装置３０による機械翻訳には公知の技術が任意に採用され得る。例えば、認識文字列Ｗの構文解析の結果と言語的な規則とを参照して語順および単語を変換するルールベースの機械翻訳、または、言語の統計的な傾向を表現する統計モデルを利用して認識文字列Ｗを他言語に翻訳する統計的な機械翻訳が、関連情報Ｒの生成に利用される。以上の例示の通り、第１実施形態の関連情報Ｒは、発話音声Ｖに対する音声認識および機械翻訳により生成される。

情報提供装置４０は、音声認識および機械翻訳により生成された関連情報Ｒを提供施設内の端末装置５０に提供するコンピュータシステム（例えばウェブサーバ）である。図４は、情報提供装置４０の構成を例示するブロック図である。図４に例示される通り、第１実施形態の情報提供装置４０は、制御装置４１と記憶装置４２と通信装置４３とを具備する。なお、情報提供装置４０は、単体の装置で実現されるほか、相互に別体で構成された複数の装置（すなわちシステム）でも実現される。

制御装置４１は、例えばＣＰＵ等の処理回路で構成され、情報提供装置４０の各要素を統括的に制御する。記憶装置４２は、制御装置４１が実行するプログラムと制御装置４１が使用する各種のデータとを記憶する。例えば半導体記録媒体もしくは磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置４２として好適に利用される。なお、情報提供装置４０とは別体で記憶装置４２を設置し、通信網２００を介して制御装置４１が記憶装置４２に対する書込および読出を実行してもよい。すなわち、記憶装置４２は情報提供装置４０から省略され得る。

第１実施形態の制御装置４１（制御部の例示）は、音声再生装置１０に対して発話者Ｕaが順次に発音する複数の発話音声Ｖの各々の内容を表す関連情報Ｒを、当該音声再生装置１０の制御装置１１が生成した共通の識別情報Ｄに対応付けて記憶装置４２に格納する。具体的には、図５に例示される通り、相異なる言語に対応する複数の情報系列Ｇが共通の識別情報Ｄに対応付けられる。任意の言語に対応する１個の情報系列Ｇは、発話音声Ｖの認識文字列Ｗを当該言語に機械翻訳した複数の関連情報Ｒの時系列である。すなわち、発話者Ｕaが順次に発音した発話音声Ｖから生成された複数の関連情報Ｒの時系列が、相異なる複数の言語の各々について記憶装置４２に記憶される。なお、図１においては１個の音声再生装置１０を便宜的に図示したが、実際の通信システム１００は複数の音声再生装置１０を具備する。したがって、記憶装置４２には、相異なる提供施設に対応する複数の識別情報Ｄの各々について、当該提供施設内で発音された発話音声Ｖに対応する複数の関連情報Ｒが記憶される。

図４の通信装置４３は、制御装置４１による制御のもとで通信網２００を介して他装置（音声再生装置１０，機械翻訳装置３０または端末装置５０）と通信する。第１実施形態の通信装置４３は、提供施設内の端末装置５０からの要求に応じて、当該提供施設の識別情報Ｄに対応する１以上の関連情報Ｒを要求元の端末装置５０に送信する。

図６は、端末装置５０の構成を例示するブロック図である。図６に例示される通り、第１実施形態の端末装置５０は、制御装置５１と記憶装置５２と通信装置５３と収音装置５４と表示装置５５と放音装置５６とを具備する。

収音装置５４は、周囲の音を収音する音響機器である。具体的には、収音装置５４は、音声再生装置１０の放音装置１６が再生する音響を収音し、当該音響の波形を表す音響信号Ｚbを生成する。音響信号Ｚbは、識別情報Ｄの音響成分を含む。なお、収音装置５４が生成した音響信号Ｚbをアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略した。表示装置５５は、例えば液晶表示パネルで構成され、制御装置５１による制御のもとで各種の画像を表示する。

制御装置５１は、例えばＣＰＵ等の処理回路で構成され、端末装置５０の各要素を統括的に制御する。記憶装置５２は、制御装置５１が実行するプログラムと制御装置５１が使用する各種のデータとを記憶する。例えば半導体記録媒体もしくは磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置５２として任意に利用される。

第１実施形態の制御装置５１は、収音装置５４が生成した音響信号Ｚbから識別情報Ｄを抽出する。具体的には、制御装置５１は、音響信号Ｚbのうち識別情報Ｄの音響成分を含む周波数帯域を強調するフィルタ処理と、識別情報Ｄに対する変調処理に対応した復調処理とを実行することで、音響信号Ｚbから識別情報Ｄを抽出する。以上の説明から理解される通り、第１実施形態の収音装置５４は、端末装置５０の相互間の音声通話または動画撮影時の音声収録に利用されるほか、空気振動としての音波を伝送媒体とする音響通信で識別情報Ｄを受信する受信機としても機能する。

通信装置５３は、制御装置５１による制御のもとで、通信網２００を介して情報提供装置４０と通信する。例えば、通信装置５３は、関連情報Ｒの要求（以下「情報要求」という）を情報提供装置４０に送信する。端末装置５０が所在する提供施設の識別情報Ｄと、端末装置５０において設定された言語（以下「設定言語」という）Ｌとが、情報要求では指定される。設定言語Ｌは、端末装置５０の利用者Ｕbが指定した言語である。また、通信装置５３は、情報要求に応じて情報提供装置４０から送信された関連情報Ｒを表示装置５５に表示させる。

図７は、第１実施形態に係る通信システム１００と任意の１個の端末装置５０とにおいて実行される動作の説明図である。図７に例示される通り、音声再生装置１０の制御装置１１は、発話者Ｕaからの指示を契機として識別情報Ｄを生成して記憶装置１２に格納する（Ｓa0）。例えば講演会の開始の直後にステップＳa0の処理が実行される。識別情報Ｄの生成後に、発話者Ｕaは発話音声Ｖの発音を開始する。

図７に例示される通り、音声再生装置１０の収音装置１４は、発話者Ｕaが発音した発話音声Ｖを収音して音声信号Ｘを生成する（Ｓa1）。音声再生装置１０の通信装置１３は、制御装置１１からの指示に応じて、音声認識装置２０に対する音声信号Ｘの送信（Ｓa2）と、情報提供装置４０に対する識別情報Ｄの送信（Ｓa3）とを実行する。なお、音声信号Ｘの送信（Ｓa2）と識別情報Ｄの送信（Ｓa3）との順序は任意である。また、音声信号Ｘと識別情報Ｄとを並行に送信してもよい。

音声認識装置２０は、音声再生装置１０から音声信号Ｘを受信し、当該音声信号Ｘに対する音声認識により認識文字列Ｗを生成する（Ｓa4）。認識文字列Ｗは音声認識装置２０から機械翻訳装置３０に送信される（Ｓa5）。機械翻訳装置３０は、音声認識装置２０から認識文字列Ｗを受信し、当該認識文字列Ｗに対する機械翻訳により相異なる言語の複数の関連情報Ｒを生成する（Ｓa6）。１個の発話音声Ｖに対応する複数の関連情報Ｒが機械翻訳装置３０から情報提供装置４０に送信される（Ｓa7）。情報提供装置４０は、音声再生装置１０から受信した識別情報Ｄと、機械翻訳装置３０から受信した複数の関連情報Ｒとを対応させて記憶装置４２に格納する（Ｓa8）。以上の処理（Ｓa1〜Ｓa8）が発話者Ｕaによる発話音声Ｖの発音毎に反復されることで、相異なる発話音声Ｖの内容を表す複数の関連情報Ｒの時系列（情報系列Ｇ）が、提供施設を示す共通の識別情報Ｄに対応付けて言語毎に記憶装置４２に記憶される。各発話音声Ｖは、例えば音量が閾値を下回る無音区間を境界として区分される。なお、単語または文章等の分節単位で発話音声Ｖを区分してもよい。

なお、以上の説明では、音声再生装置１０と音声認識装置２０とが通信し、音声認識装置２０と機械翻訳装置３０とが通信する動作を例示したが、各要素間の情報の授受を情報提供装置４０が中継してもよい。例えば、音声再生装置１０から送信された音声信号Ｘが情報提供装置４０を介して間接的に音声認識装置２０に送信され、音声認識装置２０が生成した認識文字列Ｗが情報提供装置４０を介して間接的に機械翻訳装置３０に送信される。

他方、音声信号Ｘと識別情報Ｄとを送信した音声再生装置１０の信号処理回路１５は、発話音声Ｖと識別情報Ｄの音響成分との混合音を表す音響信号Ｚaを生成する（Ｓb1）。そして、音響信号Ｚaが放音装置１６に供給されることで、発話音声Ｖの再生とともに識別情報Ｄが音響通信により周囲に送信される（Ｓb2）。音声信号Ｘおよび識別情報Ｄの送信（Ｓa2，Ｓa3）と音響信号Ｚaの生成および放音（Ｓb1，Ｓb2）との順序は任意である。例えば、音響信号Ｚaの生成および放音（Ｓb1，Ｓb2）の実行後に通信装置１３が音声信号Ｘおよび識別情報Ｄを送信してもよい。

端末装置５０の収音装置５４は、音声再生装置１０の放音装置１６による再生音を収音して音響信号Ｚbを生成する（Ｓb3）。端末装置５０の制御装置５１は、音響信号Ｚbから識別情報Ｄを抽出する（Ｓb4）。端末装置５０の通信装置５３は、音響信号Ｚbから抽出した識別情報Ｄと当該端末装置５０の設定言語Ｌとを含む情報要求を情報提供装置４０に送信する（Ｓb5）。例えば、情報要求は、端末装置５０から所定の周期で反復的に送信される。

端末装置５０から送信された情報要求を受信すると、情報提供装置４０の制御装置４１は、当該情報要求で指定された識別情報Ｄに対応する複数の情報系列Ｇのうち、情報要求で指定された設定言語Ｌに対応する情報系列Ｇにおける最新の関連情報Ｒを記憶装置４２から検索する（Ｓb6）。すなわち、識別情報Ｄと設定言語Ｌとの組合せに対応する関連情報Ｒが記憶装置４２から検索される。制御装置４１は、記憶装置４２から検索された関連情報Ｒを要求元の端末装置５０に対して通信装置４３に送信させる（Ｓb7）。以上の説明から理解される通り、制御装置４１は、通信装置４３に関連情報Ｒを送信させる要素（送信部の例示）として機能する。

なお、以上の例示では、識別情報Ｄと設定言語Ｌとの組合せに対応した情報系列Ｇの複数の関連情報Ｒのうち最新の１個の関連情報Ｒを端末装置５０に送信したが、端末装置５０に送信される関連情報Ｒは以上の例示に限定されない。例えば、識別情報Ｄと設定言語Ｌとの組合せに対応した情報系列Ｇに含まれる既存の全部の関連情報Ｒを端末装置５０に送信してもよいし、情報系列Ｇ内の所定個の関連情報Ｒを端末装置５０に送信してもよい。また、情報系列Ｇの複数の関連情報Ｒのうち端末装置５０に対して未送信の関連情報Ｒを選択して当該端末装置５０に送信してもよい。以上の説明から理解される通り、情報提供装置４０は、音声再生装置１０から識別情報Ｄを受信した端末装置５０からの情報要求に応じて、当該識別情報Ｄに対応する１以上の関連情報Ｒを端末装置５０に送信する。

なお、以上の説明では、端末装置５０から周期的に送信される情報要求の受信毎に情報提供装置４０が端末装置５０に関連情報Ｒを送信したが、端末装置５０に対する関連情報Ｒの送信の時期は以上の例示に限定されない。例えば端末装置５０から情報要求を受信した場合に、関連情報Ｒの送信先として当該端末装置５０を情報提供装置４０に登録してもよい。情報提供装置４０は、発話者Ｕaによる発話音声Ｖの発音毎に、関連情報Ｒの送信先として登録された当該端末装置５０に対して関連情報Ｒを送信（プッシュ配信）する。すなわち、端末装置５０が複数回にわたり情報要求を送信する必要はない。

情報提供装置４０から送信された関連情報Ｒを受信すると、端末装置５０の制御装置５１は、当該関連情報Ｒを表示装置５５に表示させる（Ｓb8）。以上の動作が反復される結果、端末装置５０の表示装置５５には、発話者Ｕaが順次に発音した発話音声Ｖの内容を設定言語Ｌで表現した複数の関連情報Ｒが時系列に表示される。

講演会が終了すると、発話者Ｕaは、情報提供装置４０に対して処理の終了を指示する。情報提供装置４０の制御装置１１は、講演会の開始時（Ｓa0）から今回の講演会で継続的に使用された識別情報Ｄを記憶装置１２から削除する（Ｓb9）。以上に説明した終了処理により、記憶装置４２に記憶された複数の関連情報Ｒの時系列（例えば講演会の議事録）が確定する。

以上の説明から理解される通り、第１実施形態では、順次に発音される複数の発話音声Ｖの内容を表す関連情報Ｒが共通の識別情報Ｄに対応付けて記憶装置４２に格納される。したがって、第１実施形態の例示の通り、順次に発音される発話音声Ｖに対応する複数の関連情報Ｒの時系列（例えば講演会の内容）を端末装置５０に提供することが可能である。なお、複数の関連情報Ｒの時系列を講演会の議事録として利用してもよい。

また、発話音声Ｖに対する音声認識および機械翻訳で関連情報Ｒが生成されるから、発話音声Ｖの内容を別言語で表す関連情報Ｒを端末装置５０に提供できるという利点がある。第１実施形態では特に、発話音声Ｖを相異なる言語で表現した複数の関連情報Ｒが生成され、複数の関連情報Ｒのうち端末装置５０の設定言語Ｌに対応する関連情報Ｒが端末装置５０に送信される。したがって、例えば端末装置５０の利用者Ｕbが理解できる言語（設定言語Ｌ）で発話音声Ｖの内容を表現した関連情報Ｒを端末装置５０に提供することができる。

＜第２実施形態＞
本発明の第２実施形態を説明する。なお、以下に例示する各構成において作用または機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

図８は、第２実施形態に係る通信システム１００と任意の１個の端末装置５０とにおいて実行される動作の説明図である。図８に例示される通り、第２実施形態では、第１実施形態のステップＳa5からステップＳa7がステップＳc1からステップＳc5に置換される。音声認識装置２０が発話音声Ｖに対する音声認識で特定した認識文字列Ｗは、情報提供装置４０に送信される（Ｓc1）。

図９に例示される通り、情報提供装置４０の記憶装置４２には参照テーブルが記憶されている。参照テーブルは、発話音声Ｖと同じ言語で表現された複数の候補文字列ＷCの各々について、当該候補文字列ＷCを相異なる言語で表現した複数の登録文字列ＷRが登録されたデータテーブルである。各候補文字列ＷCは、発話者Ｕaが発話音声Ｖとして発音することが予想される文字列である。すなわち、発話者Ｕaは、事前に用意された複数の候補文字列ＷCの何れかを任意に選択して発話音声Ｖとして発音する。例えば、複数の候補文字列ＷCの時系列が講演会での発話内容として記載された台本に沿って発話者Ｕaが発話音声Ｖを発音する。なお、参照テーブルに登録された複数の候補文字列ＷCを発話者Ｕaが登録順に発音してもよい。

情報提供装置４０の制御装置４１は、参照テーブルに登録された複数の候補文字列ＷCのうち認識文字列Ｗに類似する候補文字列ＷCを探索し、当該候補文字列ＷCに対応する複数の登録文字列ＷRを特定する（Ｓc2）。すなわち、認識文字列Ｗに類似する候補文字列ＷCを相異なる言語に翻訳した複数の登録文字列ＷRが特定される。具体的には、制御装置４１は、複数の候補文字列ＷCの各々について認識文字列Ｗとの類似度の指標（以下「類似指標」という）を算定し、複数の候補文字列ＷCのうち類似指標が示す類似度が最大となる候補文字列ＷC（すなわち、認識文字列Ｗに最も類似する候補文字列ＷC）に対応する複数の登録文字列ＷRを特定する。すなわち、発話音声Ｖを相異なる言語に翻訳した複数の登録文字列ＷRが特定される。なお、候補文字列ＷC自体も登録文字列ＷRとして利用してもよい。類似指標の種類は任意であるが、例えば複数の文字列の相互間における類似性を評価するための編集距離（レーベンシュタイン距離）等の公知の指標が類似指標として好適である。

ただし、認識文字列Ｗには、候補文字列ＷCとは一致しない部分（以下「可変部分」という）が含まれる場合がある。例えば、発話者Ｕaによる発音の内容を事前に想定することが困難な固有名詞等の文字列が可変部分の典型例である。各言語の登録文字列ＷRには、可変部分の翻訳文は含まれていない。そこで、情報提供装置４０の制御装置１１は、認識文字列Ｗの可変部分に関する翻訳の要求（以下「翻訳要求」という）を通信装置１３から機械翻訳装置３０に送信する（Ｓc3）。機械翻訳装置３０は、情報提供装置４０からの翻訳要求に応じて可変部分に対する機械翻訳を実行する（Ｓc4）。具体的には、機械翻訳装置３０は、可変部分を相異なる複数の言語で表現した文字列を生成する。可変部分の翻訳文は機械翻訳装置３０から情報提供装置４０に送信される（Ｓc5）。

第２実施形態では、第１言語で表現された認識文字列Ｗのうち可変部分以外の部分を第２言語に翻訳した登録文字列ＷRと、当該可変部分を機械翻訳により当該第２言語に翻訳した文字列との組合せが関連情報Ｒとして利用される。すなわち、第１実施形態と同様に、発話音声Ｖの内容を相異なる言語で表現した複数の関連情報Ｒが生成される。情報提供装置４０の制御装置１１は、第１実施形態と同様に、音声再生装置１０から受信した識別情報Ｄと、以上の手順で生成した複数の関連情報Ｒとを対応させて記憶装置４２に格納する（Ｓa8）。以上の処理が発話者Ｕaによる発話音声Ｖの発音毎に反復されることで、相異なる発話音声Ｖの内容を表す複数の関連情報Ｒの時系列（情報系列Ｇ）が、提供施設を示す共通の識別情報Ｄに対応付けて言語毎に記憶装置４２に記憶される。端末装置５０からの情報要求に応じて情報提供装置４０から当該端末装置５０に関連情報Ｒを送信して表示装置５５に表示させる動作（Ｓb1〜Ｓb8）は、第１実施形態と同様である。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、複数の候補文字列ＷCのうち認識文字列Ｗに類似する候補文字列ＷCを他言語で表現した登録文字列ＷRが関連情報Ｒに含まれる。したがって、発話音声Ｖに対する音声認識の結果（認識文字列Ｗ）に誤認識がある場合でも、適切な文字列を表す関連情報Ｒを生成できるという利点がある。また、認識文字列Ｗのうち候補文字列ＷCとは相違する可変部分を他言語で表現した文字列が関連情報Ｒに含まれる。したがって、事前に用意された候補文字列ＷCに限定されない多様な内容の関連情報Ｒを生成できるという利点もある。

＜第３実施形態＞
本発明の第３実施形態を説明する。第３実施形態では、音声再生装置１０の放音装置１６から再生された発話音声Ｖを聴取した利用者Ｕbが端末装置５０に対して発音する。例えば、発話者Ｕaの発話音声Ｖに対して利用者Ｕbが意見または質問する場合が想定される。

図１０は、第３実施形態に係る通信システム１００と利用者Ｕbの端末装置５０とにおいて実行される動作の説明図である。例えば、音声再生装置１０が音響通信により送信した識別情報Ｄを端末装置５０が受信した状態で図１０の動作が開始される。

図１０に例示される通り、端末装置５０の収音装置５４は、利用者Ｕbが発音した発話音声Ｖを収音して音声信号Ｘを生成する（Ｓd1）。端末装置５０の通信装置５３は、制御装置５１からの指示に応じて、音声認識装置２０に音声信号Ｘを送信するとともに（Ｓd2）、音声再生装置１０から受信した識別情報Ｄを情報提供装置４０に送信する（Ｓd3）。なお、音声信号Ｘの送信（Ｓd2）と識別情報Ｄの送信（Ｓd3）との順序は任意である。また、音声信号Ｘと識別情報Ｄとを並行に送信してもよい。

音声認識装置２０は、端末装置５０から音声信号Ｘを受信し、当該音声信号Ｘに対する音声認識により認識文字列Ｗを生成する（Ｓd4）。認識文字列Ｗは音声認識装置２０から機械翻訳装置３０に送信される（Ｓd5）。機械翻訳装置３０は、音声認識装置２０から認識文字列Ｗを受信し、当該認識文字列Ｗに対する機械翻訳により相異なる言語の複数の関連情報Ｒを生成する（Ｓd6）。利用者Ｕbの発話音声Ｖに対応する複数の関連情報Ｒが機械翻訳装置３０から情報提供装置４０に送信される（Ｓd7）。情報提供装置４０は、利用者Ｕbの端末装置５０から受信した識別情報Ｄと、機械翻訳装置３０から受信した複数の関連情報Ｒとを対応させて記憶装置４２に格納する（Ｓd8）。すなわち、発話者Ｕaおよび利用者Ｕbの各々が発音した発話音声Ｖの内容を表す複数の関連情報Ｒの時系列（情報系列Ｇ）が、提供施設を示す共通の識別情報Ｄに対応付けて言語毎に記憶装置４２に記憶される。情報提供装置４０から各端末装置５０に関連情報Ｒを送信する動作は第１実施形態と同様である。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、利用者Ｕbの端末装置５０に対して発音された発話音声Ｖの内容を示す関連情報Ｒが、発話者Ｕaの発話音声Ｖに対応する関連情報Ｒとともに、識別情報Ｄに対応付けて記憶装置４２に格納される。したがって、発話者Ｕaおよび利用者Ｕbが順次に発音した発話音声Ｖに対応する複数の関連情報Ｒの時系列を各端末装置５０に提供することが可能である。

＜第３実施形態の変形例＞
第３実施形態では、端末装置５０を音声再生装置１０として利用してもよい。例えば、複数の利用者Ｕbが自分の端末装置５０を利用して任意の内容で相互に会話（すなわち自由会話）する場合が想定される。会話が開始される段階では、特定の端末装置５０から音響通信により識別情報Ｄが周囲の各端末装置５０に送信される。各端末装置５０の利用者Ｕbが所望の言語（例えば当該利用者Ｕbの母国語）で発話音声Ｖを発音すると、当該発話音声Ｖの内容を相異なる言語で表す複数の関連情報Ｒが音声認識装置２０および機械翻訳装置３０により生成され、識別情報Ｄに対応付けて情報提供装置４０の記憶装置４２に格納される。以上の動作が反復されることで、各利用者Ｕbの発話音声Ｖの内容を表す複数の関連情報Ｒの時系列（情報系列Ｇ）が、共通の識別情報Ｄに対応付けて、言語毎に記憶装置４２に記憶される。各端末装置５０は、相異なる言語で表現された複数の関連情報Ｒのうち、当該端末装置５０の設定言語Ｌに対応する関連情報Ｒを情報提供装置４０から受信して表示装置５５に表示させる。すなわち、複数の利用者Ｕbが順次に発音した発話音声Ｖの時系列が設定言語Ｌで表示装置５５に表示される。

なお、識別情報Ｄだけでは個々の利用者Ｕbを区別できない。したがって、端末装置５０毎の識別情報（以下「端末識別情報」という）を利用することで、各利用者Ｕbを区別してもよい。端末識別情報は、例えば端末装置５０に固有の識別情報、または、例えば情報提供装置４０により事前に付与された識別情報である。なお、第３実施形態ににおいても同様に、発話者Ｕaと各利用者Ｕbとを端末識別情報により区別してもよい。例えば、複数の利用者Ｕbの各々を区別する構成のほか、発話者Ｕa（講演者）と複数の利用者Ｕb（聴取者）の集合とを区別する構成も想定される。

＜変形例＞
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態では、端末装置５０の表示装置５５に関連情報Ｒを表示したが、関連情報Ｒを端末装置５０の利用者Ｕbに提示する方法は以上の例示に限定されない。例えば、関連情報Ｒが示す音声を端末装置５０の放音装置５６により再生することで関連情報Ｒを利用者Ｕbに提示してもよい。例えば、関連情報Ｒが音声を表す構成、または、関連情報Ｒが表す文字列に対する音声合成により音声を生成する構成が想定される。また、講演会の資料または講演会で撮影された画像等の各種の画像（以下「資料画像」という）を情報提供装置４０から各端末装置５０に提供し、関連情報Ｒとともに資料画像を表示装置５５に表示させてもよい。なお、資料画像等の事前に用意可能なデータは端末装置５０に事前に記憶されてもよい。

（２）発話音声Ｖに対する音声認識と、認識文字列Ｗに対する機械翻訳との少なくとも一方を、音声再生装置１０または情報提供装置４０が実行してもよい。また、音声認識と機械翻訳とを単体の装置により実現してもよい。すなわち、通信システム１００を構成する２以上の装置を一体に構成してもよいし、通信システム１００を構成する各装置の機能を別体の複数の装置に分散してもよい。

（３）機械翻訳装置３０による機械翻訳を省略してもよい。例えば、音声認識装置２０による音声認識で生成された認識文字列Ｗを関連情報Ｒとして情報提供装置４０の記憶装置４２に格納してもよい。以上の構成では、発話音声Ｖを同じ言語で表現した文字列を表す関連情報Ｒが端末装置５０に提供される。したがって、端末装置５０の表示装置５５に表示された関連情報Ｒを視認することで、発話音声Ｖの聴取が困難な難聴者が発話音声Ｖの内容を把握することが可能である。

（４）前述の各形態では、通信システム１００を講演会に利用する場合を例示したが、通信システム１００が利用される場面は以上の例示に限定されない。例えば、国際会議等の各種の会議、競技大会または各種の講座等の種々の場面において、前述の各形態で例示した通信システム１００が利用される。また、台詞が順次に発音される実演会（例えば演劇、ミュージカルもしくは歌舞伎）、または、楽曲が歌唱される実演会（例えばコンサートもしくはライブ）において、実演者（発話者Ｕa）による発話内容に関する関連情報Ｒを端末装置５０に提供するために、前述の各形態で例示した通信システム１００を利用してもよい。

（５）前述の各形態では、音波を伝送媒体とする音響通信で音声再生装置１０から端末装置５０に識別情報Ｄを送信したが、音声再生装置１０から識別情報Ｄを送信するための通信方式は音響通信に限定されない。例えば、電波または赤外線等の電磁波を伝送媒体とした無線通信で音声再生装置１０から端末装置５０に識別情報Ｄを送信してもよい。例えば、前述の各形態における放音装置５６が無線通信用の通信機器に置換される。具体的には、Bluetooth（登録商標）またはWiFi（登録商標）等の無線通信が識別情報Ｄの送信に好適である。以上の例示から理解される通り、音声再生装置１０による識別情報Ｄの送信には、移動体通信網等の通信網が介在しない近距離無線通信が好適であり、音波を伝送媒体とする音響通信と電磁波を伝送媒体とする無線通信とは、近距離無線通信の例示である。なお、音声再生装置１０とは別体の送信機から近距離無線通信で識別情報Ｄを端末装置５０に送信してもよい。すなわち、識別情報Ｄは、音声再生装置１０から送信された情報である必要はない。

（６）前述の各形態に係る情報提供装置４０は、各形態での例示の通り、制御装置４１とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。

（７）以上に例示した形態から、例えば以下の構成が把握される。
本発明の好適な態様（第１態様）に係る情報提供方法は、情報提供装置が、第１装置に対して順次に発音された複数の発話音声の各々の内容を表す関連情報を共通の識別情報に対応付けて記憶装置に格納し、前記第１装置から送信された前記識別情報を受信した第２装置からの要求に応じて、当該識別情報に対応する１以上の関連情報を当該第２装置に対して通信装置に送信させる。以上の態様では、順次に発音された複数の発話音声の各々の内容を表す関連情報が共通の識別情報に対応付けて記憶装置に格納される。したがって、順次に発音される発話音声に対応する複数の関連情報の時系列を第２装置に提供することが可能である。

第１態様の好適例（第２態様）において、前記発話音声の発音に並行して、前記識別情報を表す音響を放音装置から放音する音響通信により当該識別情報を前記第２装置に対して通信装置に送信させる。以上の態様では、発話音声を放音する放音装置を利用した音響通信により識別情報が第２装置に送信されるから、識別情報の送信に専用される送信機が不要であるという利点がある。また、識別情報が送信される範囲を遮音物の設置により容易に制限できるという利点もある。なお、発話音声を放音する放音装置とは別個の放音装置を利用した音響通信により識別情報を送信してもよい。

第１態様または第２態様の好適例（第３態様）において、前記第２装置に対して発音された発話音声の内容を表す関連情報を、前記識別情報に対応付けて前記記憶装置に格納する。以上の態様では、第１装置に対して発音された発話音声の関連情報と、第２装置に対して発音された発話音声の関連情報とが、共通の識別情報に対応付けて記憶装置に格納される。したがって、複数の発話者が順次に発音した発話音声に対応する複数の関連情報の時系列を提供することが可能である。

第１態様から第３態様の何れかの好適例（第４態様）において、前記関連情報は、前記発話音声に対する音声認識と、当該音声認識で特定された認識文字列に対する機械翻訳とにより生成される。以上の態様では、発話音声に対する音声認識および機械翻訳で関連情報が生成される。したがって、例えば発話音声の内容を別言語で表す関連情報を第２装置に提供することが可能である。

第１態様から第４態様の何れかの好適例（第５態様）において、前記発話音声に対する音声認識と、当該音声認識で特定された認識文字列に対する機械翻訳とにより生成された、相異なる言語に対応する複数の関連情報を、前記識別情報に対応付けて前記記憶装置に格納し、前記第２装置からの要求に応じて、前記相異なる言語に対応する複数の関連情報のうち当該第２装置の設定言語に対応する関連情報を当該第２装置に対して通信装置に送信させる。以上の態様では、発話音声に対する音声認識および機械翻訳で相異なる言語に対応する複数の関連情報が生成され、複数の関連情報のうち第２装置の設定言語に対応する関連情報が当該第２装置に送信される。したがって、例えば第２装置の利用者が理解できる言語で発話音声の内容を表現した関連情報を第２装置に提供することが可能である。

第１態様から第５態様の何れかの好適例（第６態様）において、前記関連情報は、複数の候補文字列のうち、前記発話音声に対する音声認識で特定された第１言語の認識文字列に類似する候補文字列を第２言語で表現した文字列と、前記認識文字列のうち前記候補文字列とは相違する可変部分を当該第２言語で表現した文字列とを含む。以上の態様では、複数の候補文字列のうち発話音声に対する音声認識で特定された認識文字列に類似する候補文字列を他言語で表現した文字列が関連情報に含まれるから、発話音声に対する音声認識の結果に誤認識がある場合でも、適切な文字列を表す関連情報を生成できるという利点がある。また、認識文字列のうち候補文字列とは相違する可変部分を他言語で表現した文字列が関連情報に含まれるから、事前に用意された候補文字列に限定されない多様な内容の関連情報を提供できるという利点もある。

本発明の好適な態様（第７態様）に係る情報提供装置は、第１装置に対して順次に発音される複数の発話音声の各々の内容を表す関連情報を共通の識別情報に対応付けて記憶装置に格納する制御部と、前記第１装置から送信された前記識別情報を受信した第２装置からの要求に応じて、当該識別情報に対応する１以上の関連情報を当該第２装置に対して通信装置に送信させる送信部とを具備する。以上の態様では、順次に発音された複数の発話音声の各々の内容を表す関連情報が共通の識別情報に対応付けて記憶装置に格納される。したがって、順次に発音される発話音声に対応する複数の関連情報の時系列を第２装置に提供することが可能である。

１０…音声再生装置、１１…制御装置、１２…記憶装置、１３…通信装置、１４…収音装置、１５…信号処理回路、１６…放音装置、２０…音声認識装置、３０…機械翻訳装置、４０…情報提供装置、４１…制御装置、４２…記憶装置、４３…通信装置、５０…端末装置、５１…制御装置、５２…記憶装置、５３…通信装置、５４…収音装置、５５…表示装置、５６…放音装置。

Claims

情報提供装置が、
第１装置に対して順次に発音された複数の発話音声の各々の内容を表す関連情報を共通の識別情報に対応付けて記憶装置に格納し、
前記識別情報を受信した第２装置からの要求に応じて、当該識別情報に対応する１以上の関連情報を当該第２装置に対して通信装置に送信させる
情報提供方法。
前記第１装置から前記第２装置に対して前記識別情報を送信する
請求項１の情報提供方法。
前記発話音声の発音に並行して、前記識別情報を表す音響を放音装置から放音する音響通信により当該識別情報を前記第２装置に送信する
請求項１または請求項２の情報提供方法。
前記第２装置に対して発音された発話音声の内容を表す関連情報を、前記識別情報に対応付けて前記記憶装置に格納する
請求項１から請求項３の何れかの情報提供方法。
前記関連情報は、前記発話音声に対する音声認識と、当該音声認識で特定された認識文字列に対する機械翻訳とにより生成される
請求項１から請求項４の何れかの情報提供方法。
前記発話音声に対する音声認識と、当該音声認識で特定された認識文字列に対する機械翻訳とにより生成された、相異なる言語に対応する複数の関連情報を、前記識別情報に対応付けて前記記憶装置に格納し、
前記第２装置からの要求に応じて、前記相異なる言語に対応する複数の関連情報のうち当該第２装置の設定言語に対応する関連情報を当該第２装置に対して前記通信装置に送信させる
請求項１から請求項５の何れかの情報提供方法。
前記関連情報は、複数の候補文字列のうち、前記発話音声に対する音声認識で特定された第１言語の認識文字列に類似する候補文字列を第２言語で表現した文字列と、前記認識文字列のうち前記候補文字列とは相違する可変部分を当該第２言語で表現した文字列とを含む
請求項１から請求項６の何れかの情報提供方法。
第１装置に対して順次に発音される複数の発話音声の各々の内容を表す関連情報を共通の識別情報に対応付けて記憶装置に格納する制御部と、
前記識別情報を受信した第２装置からの要求に応じて、当該識別情報に対応する１以上の関連情報を当該第２装置に対して通信装置に送信させる送信部と
を具備する情報提供装置。