JP2011119943A

JP2011119943A - 情報処理装置およびその制御方法

Info

Publication number: JP2011119943A
Application number: JP2009274957A
Authority: JP
Inventors: Hiroki Yamamoto; 寛樹山本; Toshiaki Fukada; 俊明深田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2009-12-02
Filing date: 2009-12-02
Publication date: 2011-06-16

Abstract

【課題】従来、発言を音声認識した結果を字幕としてディスプレイ等に表示する場合に、視聴者の周囲の騒音レベルに応じて、字幕の表示と非表示とを切り替えると、発言の一部が音声認識の対象とならず、所望の音声認識の結果を得られないという課題があった。
【解決手段】上記課題を解決するために、本発明の情報処理装置は、視聴者に対して音を出力し、前記音に含まれる音声区間の始端または終端を検出し、前記視聴者の周囲の騒音レベルを測定し、逐次、各前記騒音レベルが閾値以上であるか否か判断し、音声区間の始端において前記騒音レベルが前記閾値以上でない場合、音声区間の始端から、前記音声区間の音を保持し、前記音声区間の少なくとも一部において、前記騒音レベルが前記閾値以上となった場合、前記音声区間の始端から終端までの音を音声認識し、音声認識した結果を字幕として表示することを特徴とする。
【選択図】図１

Description

本発明は、音声認識した結果を字幕として表示する技術に関する。

従来、インターネットや電話回線網を利用して複数の拠点間を通信回線で結び、互いの映像や音声を通信して会議を行うテレビ会議システムが知られている。

そして、例えば、会議での発言を音声認識した結果を字幕としてディスプレイ等に表示する技術が知られている（例えば、特許文献１）。

また、視聴者の周囲の騒音レベルが所定の閾値以上である場合、字幕を表示し、視聴者の周囲の騒音レベルが所定の閾値に満たない場合、字幕を表示しないようにする技術が知られている（例えば、特許文献２）。

特開２００２−２３７９１１号公報特許第４１２８９１６号公報

しかしながら、例えば、会議での発言を音声認識した結果を字幕としてディスプレイ等に表示する場合に、視聴者の周囲の騒音レベルに応じて、字幕の表示と非表示とを切り替えると、以下のような課題が生じる。

即ち、視聴者の周囲の騒音レベルが所定の閾値以上となった場合のみ音声認識処理を実行すると、騒音レベルの変動が激しい場合には、例えば、単語の一部が音声認識の対象とならず、所望の音声認識の結果を得られないという課題がある。

一方、視聴者の周囲の騒音レベルに関わらず、常に音声認識処理を実行すると、字幕として表示しない発言に相当する音声も音声認識の対象となるため、計算リソースを浪費するという課題がある。

本発明は、以上のような課題を解決するためになされたものであり、視聴者の周囲の騒音レベルに応じて、音声認識した結果を字幕として表示するか否かを切り替える際に、計算リソースの使用を抑えると共に、音声認識の結果の正確性を担保することを目的とする。

上記課題を解決するために、本発明の情報処理装置は、視聴者に対して音を出力する音声出力手段と、前記音に含まれる音声区間の始端または終端を検出する検出手段と、
前記視聴者の周囲の騒音レベルを測定する測定手段と、逐次、各前記騒音レベルが閾値以上であるか否か判断する判断手段と、音声区間の始端において前記騒音レベルが前記閾値以上でない場合、音声区間の始端から、前記音声区間の音を保持する保持手段と、前記音声区間の少なくとも一部において、前記騒音レベルが前記閾値以上となった場合、前記音声区間の始端から終端までの音を音声認識する音声認識手段と、音声認識した結果を字幕として表示する字幕表示手段とを有することを特徴とする。

本発明の情報処理装置によれば、視聴者の周囲の騒音レベルに応じて、音声認識した結果を字幕として表示するか否かを切り替える際に、計算リソースの使用を抑えると共に、音声認識の結果の正確性を担保することが可能となる。

テレビ会議装置１００の機能構成を示す機能ブロック図である。２つの拠点間でのテレビ会議を行う様子を示す図である。映像および音声を送信する処理の流れを示すフローチャートである。騒音レベルの変動と字幕付与の判断を説明する図である。音声認識部１０５の機能構成を示す機能ブロック図である。音声データを保存する処理または認識する処理の流れを示すフローチャートである。音声データの保存する処理または認識する処理の流れを示すフローチャートである。音声認識を開始する処理の流れを示すフローチャートである。

以下、図面を参照しながら本発明の実施形態について説明していく。

（第１の実施形態）
本実施形態では、本発明の情報処理装置を、テレビ会議装置として説明するが、例えば、講演、講義等の映像および音声を遠隔地の視聴者へ配信する装置であってもよい。

図１は本発明のテレビ会議装置１００の機能構成を示す機能ブロック図である。

テレビ会議装置１００は、受信部１０１、デコード部１０２、表示部１０３、音声出力部１０４、音声認識部１０５、騒音収録部１０６、騒音測定部１０７を有する。また、テレビ会議装置１００は、字幕付与判断部１０８、撮像部１０９、音声入力部１１０、エンコード部１１１、送信部１１２、制御部１１３を有する。

受信部１０１は、通信インタフェース（Ｉ／Ｆ）であって、インターネット等の通信網１９０を介して、会議を行う相手方の映像および音声がエンコードされた信号を受信する。

尚、受信する信号には、例えば撮像部１０９の動作を制御するための制御コードなど、本装置の動作に必要な、映像、音声以外の情報が含まれても良い。

デコード部１０２は、マイクロプロセッサ（ＭＰＵ）等で構成され、受信部１０１で受信した信号を映像信号、音声信号に分離する。

尚、デコード部１０２は、制御コード等、映像、音声以外の信号が含まれる場合、これらの信号も分離する。

表示部１０３は、液晶ディスプレイ等の表示装置から構成され、デコード部１０２で分離された映像を表示する。すなわち、テレビ会議を行う場合には、会議の相手方を撮像した映像等を表示する。また、表示部１０３は、会議の相手方の発言内容を後述する音声認識部１０５が認識した結果を字幕として表示する。

尚、表示する字幕は、相手方を撮像した映像に合成しても良いし、映像を表示する装置とは別の表示装置に字幕を表示しても良い。

また、表示部１０３が表示する情報には、テレビ会議で使用する資料や図など、画像や文字等により構成される各種の情報を表示しても良い。

音声出力部１０４は、スピーカ等の音声出力装置から構成され、デコード部１０２で分離された音声信号を出力する。即ち、会議の相手先の発言等を示す音声を出力する。

音声認識部１０５は、ＭＰＵ等で構成され、デコード部１０２で分離された音声信号を音声認識して、音声信号に対応する文字列に変換する。尚、音声認識部１０５は、隠れマルコフモデルを用いた音声認識アルゴリズムなど、周知の手法を用いて音声認識処理を実行する。

騒音収録部１０６は、マイクロフォン等の音声入力装置から構成され、音声入力装置を介して入力される音を収録する。尚、騒音収録部１０６を構成する音声入力装置は、後述する音声入力部１１０のマイクロフォンと共用してもよい。

騒音測定部１０７は、ＭＰＵ等から構成され、騒音収録部１０６が集音した音の騒音レベルを算出する。尚、騒音測定部１０７は、例えば、等価騒音レベルを算出する手法、一定期間ごとの平均音声パワーを算出する手法等、周知の方法を用いる。

字幕付与判断部１０８は、ＭＰＵ等で構成され、騒音測定部１０７で測定した騒音レベルによって字幕が必要か不要かを判断する。尚、本実施形態では、騒音測定部１０７が測定した騒音レベルが所定の閾値を超えた場合に、字幕は必要と判断する。即ち、騒音測定部１０７が測定した騒音レベルが所定の閾値を以下である場合には、字幕は不要と判断する。

撮像部１０９は、ビデオカメラ等の動画像を撮影する撮像装置から構成され、会議の参加者（視聴者）等の映像を撮像する。

音声入力部１１０は、マイクロフォン等の音声入力装置から構成され、会議参加者の発言などの音声を集音する。

エンコード部１１１は、ＭＰＵ等で構成され、撮像部１０９が撮像した映像信号、音声入力部で集音した音声信号を後段で行う送信処理に適した形式に変換する。また、映像、音声以外にも制御コードなどテレビ会議システムの動作に必要な情報を合わせてエンコードしても良い。

送信部１１２は、通信Ｉ／Ｆであって、インターネット等の通信網１９０を介して、エンコード部１１１がエンコードした信号を送信先に送信する。

制御部１１３は、ＭＰＵ等で構成され、以上で説明した各部を制御し、本システムの動作を制御する。

尚、上述したＭＰＵ等で構成される各部は、ＭＰＵが、リードオンリメモリ（ＲＯＭ）等に記憶されたプログラムをランダムアクセスメモリ（ＲＡＭ）等に展開し、実行することによって、その機能を実現する。

図２は、２つの情報処理装置１００を、通信網１９０を介して接続した様子を示す図である。尚、この様子は、２つの拠点間でのテレビ会議を行う様子に相当する。

本図において、拠点１にはテレビ会議装置１００を、拠点２には、テレビ会議装置１００と同様の構成を有するテレビ会議装置２００を設置し、双方の装置は通信網１９０を介して接続されているものとする。尚、本図において、テレビ会議装置２００を構成する各部は、テレビ会議装置２００を構成する同名の各部と同様の構成及び機能を有するため、その説明を省略する。

図３は、テレビ会議装置２００によって撮像された映像および集音された音声をテレビ会議装置１００へ送信する処理の流れを示すフローチャートである。

まず、ステップＳ３０１において、撮像部２０９は、拠点２の会議参加者の映像を撮像し、音声入力部２１０は、撮像と同時に、拠点２の会議参加者の発言を集音する。

次に、ステップＳ３０２において、エンコード部２１１は、撮像した映像および集音した音声を所定の信号形式にエンコードする。

次に、ステップＳ３０３において、送信部２１２は、通信網１９０を介して、送信先にあたるテレビ会議装置１００に、撮像した映像および集音した音声を含む信号を送信する。

次に、ステップＳ３０４において、受信部１０１は、テレビ会議装置２００から送信された信号を受信する。

次に、ステップＳ３０５において、デコード部１０２は、受信した信号をデコードし、元の映像を示す信号、音声を示す信号に分離する。

一方、ステップＳ１０４、Ｓ１０５の処理と並行して、ステップＳ３０６において、騒音収録部１０６は、逐次、拠点１の会議参加者の周囲の音を収録する。

次に、ステップＳ３０７において、騒音測定部１０７は、騒音収録部１０６が収録した音の騒音レベルを算出する。

尚、騒音収録部１０６による音の収録、騒音測定部１０７による騒音レベルの測定は、常時行っても良いし、１分毎、１０秒毎等、所定の時間単位ごとに行っても良い。

また、所定の時間毎に騒音測定を行う場合は、少なくとも最新の測定結果をＲＡＭ等に記憶し、ステップＳ３０７の処理で、記憶された測定結果をメモリから呼び出せばよい。

次に、ステップＳ３０８において、字幕付与判断部１０８は、測定された騒音レベルが所定の閾値を超えているか否か判断する。

ステップＳ３０８において、測定された騒音レベルが所定の閾値を超えていると判断された場合、ステップＳ３０９の処理を実行し、測定された騒音レベルが所定の閾値を超えていないと判断された場合、ステップＳ３１１の処理を実行する。

ステップＳ３０９において、音声認識部１０５は、デコード部１０２が分離した音声、すなわち音声入力部２１０が集音した拠点２の会議参加者の発言を含む音を音声認識する。

次に、ステップＳ３１０において、表示部１０３は、認識結果を字幕として表示する。

次に、ステップＳ３１１において、音声出力部１０４は、受信した音声を出力し、表示部１０３は受信した映像を表示する。尚、ステップＳ３１１の処理は、ステップＳ３１０の処理と並行して実行される。

以上説明したように、字幕が不要である場合、音声認識処理は実行しない。

尚、本図においては、映像および音声を拠点２から拠点１に送信した場合の処理の流れについて説明したが、映像および音声を拠点１から拠点２に送信した信号の処理の流れについても同様である。

また、映像および音声を拠点１から拠点２に送信する場合の処理と、映像および音声を拠点２から拠点１に送信する場合の処理とを並行して行っても良い。

（第１の実施形態の変形例１）
図４は、騒音レベルの変動と字幕付与の判断を説明する図である。

図４（ａ）は、音声入力部２１０が集音した音の音声波形を示す図である。尚、本図の横軸は時刻であり、縦軸は各時点における振幅である。

また、音声波形４０１は、「次回のミーティングは来週月曜の１３時からです。」「では、よろしくお願いします。」という２つの発言（発言４０２、４０３）からなる発声に相当する音声波形である。

図４（ｂ）（ｃ）（ｄ）は、騒音収録部１０６が収録した拠点１の会議参加者の周囲の音から測定された騒音レベルを示す図である。尚、本図の横軸は時刻であり、縦軸は各時点における騒音レベルである。

ここで、線４０４、４０６、４０８は、変動する騒音レベルを示しており、線４０５、４０７、４０９は、所定の閾値を示している。

即ち、図４（ｂ）は、発言開始時点ｔ１では騒音レベルが所定の閾値を超えず、発言中の時点ｔ２において騒音レベルが所定の閾値を超える場合といえる。

また、図４（ｃ）は、発言開始時点ｔ１では騒音レベルが所定の閾値を超えているが、発言中の時点ｔ２において騒音レベルが所定の閾値を超えない場合といえる。

また、図４（ｄ）は、発言開始時点ｔ１から発言終了時点ｔ３までの間に、何度も騒音レベルと所定の閾値との大小関係が変動する場合といえる。

以下、このような場合においても、「次回のミーティングは来週月曜の１３時からです。」や「では、よろしくお願いします。」のような文あるいは発言を単位とした意味のある字幕を表示する機能を備えるテレビ会議装置について説明する。

より具体的には、図４（ｂ）の場合、字幕が必要と判断した時点ｔ２以降の部分的な字幕ではなく、発言４０２の冒頭からの字幕を表示する。また、発言４０３の字幕も表示する。

また、図４（ｃ）の場合、発言の途中で字幕は不要と判断した時点ｔ２以降も、発言４０２が終わるまでの字幕を表示する。また、図４（ｃ）のように、音声区間Ｂにおいて騒音レベルが所定の閾値を超えない場合、発言４０３の字幕は表示しない。

また、図４（ｄ）の場合、発言４０２の冒頭からの字幕を表示し、発言４０２が終わるまでの字幕を表示する。また、発言４０３についても同様に字幕を表示する。

図５は、騒音レベルと所定の閾値との大小関係が変動した場合でも、音声入力部２１０が集音した音を、一まとまりの発言等を単位とした意味のある字幕として表示するための処理を実行する音声認識部１０５の機能構成を示す機能ブロック図である。

音声認識部１０５は、より詳細にはプログラムモジュールとして、音声検出部５０１、一時記憶部５０２、読み出し部５０３、音響分析部５０４、探索部５０５を有する。以下、各部の機能について説明する。

音声検出部５０１は、周知の音声検出手法を用いて音声入力部２１０が集音した音から、パワーの変化等に基づいて拠点２の会議参加者が発言した音声区間の始端または終端を検出する。尚、音声検出には、ピッチ成分やゼロ交差回数の変化などを他の基準値を用いた周知の音声検出手法を用いても良い。

一時記憶部５０２は、入力された音声を一時的に記憶する。

読み出し部５０３は、一時記憶部５０２で記憶した音声を読み出す。

音響分析部５０４は、音声を分析し音声認識に適した特徴パラメータ（例えばＭＦＣＣ、ＬＰＣケプストラムなど）を求める。

探索部５０５は、所定の音響モデル、言語モデル等を用いて、音響分析部５０４が求めた特徴パラメータの尤度を最大にする音声認識結果を求める。

尚、パーソナルコンピュータのサウンドカード等、オーディオ入力装置では、一般的に、入力された音声データを一時的に記憶するメモリを備える。

しかし、一時記憶部５０２はこれらのオーディオ入力装置が備えるメモリとは別のメモリとする。

以下、騒音レベルと所定の閾値との大小関係が変動した場合でも、音声入力部２１０が集音した音を、一まとまりの発言等を単位とした意味のある字幕として表示するために、音声認識部１０５が実行する処理について説明する。

尚、音声認識部１０５における処理は、騒音測定部１０７、字幕付与判断部１０８の処理と並行して実行するものとする。また、音声認識部１０５は、音声データを所定量（たとえば１００ミリ秒間のデータとする。）毎に順次処理するものとする。

図６、図７は、騒音レベルと所定の閾値との大小関係が変動する場合に、音声データを保存する処理または認識する処理の流れを示すフローチャートである。

尚、本図において用いる、「ＶＡＤ」とは、音声区間であるかか否かを示すためのフラグとする。また、「ＣＡＰ」とは、字幕を表示するか否かを示すフラグとする。また、「ＲＥＣ」とは、音声データを保存するか否かのフラグとする。また、「ＡＳＲ」とは、音声認識実行中であるかか否かを示すフラグとする。尚、フラグとは、処理の条件判定結果を保持するレジスタである。

また、これらのフラグの管理およびフラグの値（ＹＥＳ、ＮＯ等）の制御は、制御部１１３が行う。また、いずれのフラグも、テレビ会議装置の起動時はＮＯであるものとする。

尚、「ＣＡＰ」は字幕を表示するか否かを示すフラグであって、字幕付与判断部１０８の字幕要否の判断とは必ずしも一致しない。また、「ＣＡＰ」は字幕を表示することを示す「ＹＥＳ」、字幕を表示しないことを示す「ＮＯ」のほかに、音声認識終了後に字幕付与を終了することを示す「ＴＢＦ」という値を取る。

まず、ユーザがテレビ会議を開始する操作を行うと、ステップＳ６００において、制御部１１３が各フラグを初期化する。すなわち、「ＶＡＤ」の値を「ＮＯ」に、「ＣＡＰ」の値を「ＮＯ」に、「ＲＥＣ」の値を「ＮＯ」に設定する。

次に、ステップＳ６０１において、音声認識部１０５は、前述した所定量を単位とする音声データを取得する。

次に、ステップＳ６０２において、制御部１１３は、「ＶＡＤ」の値を参照して、現在の状態が音声区間中であるか否か判断する。

ステップＳ６０２において、音声区間中の場合（「ＶＡＤ」の値が「ＹＥＳ」である場合）は、ステップＳ７０１の処理を実行し、音声区間中でない場合（「ＶＡＤ」の値が「ＮＯ」である場合）は、ステップＳ６０３の処理を実行する。

ステップＳ６０３において、字幕付与判断部１０８は、字幕表示が必要か否か判断する。

ステップＳ６０３において、字幕表示が必要と判断された場合、ステップＳ６０５において、制御部１１３が「ＣＡＰ」の値を「ＹＥＳ」とし、表示部１０３が字幕表示を開始するよう制御する。

一方、ステップＳ６０３において、字幕表示は不要と判断された場合、ステップＳ６０４において、制御部１１３は「ＣＡＰ」の値を「ＮＯ」にし、表示部１０３が字幕表示を終了するよう制御する。

次に、ステップＳ６０６において、音声検出部５０１は、取得した音声データが、音声の始端であるか否か判定する。

ステップＳ６０６において、取得した音声データが音声の始端であると判定された場合、ステップＳ６０７において、制御部１１３は、「ＶＡＤ」の値を「ＹＥＳ」にする。

次に、ステップＳ６０８において、制御部１１３は、「ＣＡＰ」の値が「ＹＥＳ」であるか「ＮＯ」であるか判定する。

ステップＳ６０８において、「ＣＡＰ」の値が「ＹＥＳ」であると判定された場合、ステップＳ６１０において、制御部１１３は音声認識を開始する処理を実行するよう音響分析部５０４と探索部５０５を制御する。

一方、ステップＳ６０８において、「ＣＡＰ」の値が「ＮＯ」であると判定された場合、ステップＳ６０９において、制御部１１３は、一時記憶部５０２が音声データの保存を開始するよう制御する。

尚、ステップＳ６１０における音声認識開始処理では、ステップＳ６０１で取得した音声データを、音響分析部５０４が音響分析し、探索部５０５が探索処理を実行する。

尚、この探索処理で、取得した音声に対して認識結果が確定した部分については、字幕として表示部１０３に表示する。尚、音声区間中にある時点までの認識結果を確定する探索方法には、例えば、最尤単語列を逐次比較する技術等、周知の技術を用いる。

尚、ステップＳ６１０で、制御部１１３は、システムの状態が音声認識中であることを示す「ＡＳＲ」の値を「ＹＥＳ」にする。

一方、ステップＳ６０９におけるデータ保存開始処理では、ステップＳ６０１で取得した音声データを、一時記憶部５０２に記憶する処理を開始する。尚、このとき、制御部１１３は「ＲＥＣ」の値を「ＹＥＳ」とする。また、このとき、一時記憶部５０２に過去の別の音声区間に対応する音声データが保持されている場合、一時記憶部５０２は、そのデータを抹消してもよい。

ステップＳ６１１において、制御部１１３は、テレビ会議を終了するか否か判断する。

ステップ６１１において、テレビ会議を終了すると判断した場合、一連の処理を終了する。一方、ステップＳ６１１において、テレビ会議を終了しないと判断した場合、次の所定量の音声データに対して、ステップＳ６０１からの処理を実行する。

続いて、図７を参照しながら、ステップＳ６０２において、音声区間中（「ＶＡＤ」の値が「ＹＥＳ」）の場合の処理を説明する。

ステップＳ７０１において、制御部１１３は、字幕を表示中であるか否か判断する。

ステップＳ７０１において、字幕を表示中であると判断された場合（「ＣＡＰ」の値が「ＹＥＳ」または「ＴＢＦ」である場合）、ステップＳ７０６の処理を実行する。

一方、ステップＳ７０１において、字幕を表示中でない場合（「ＣＡＰ」の値が「ＮＯ」である場合）、ステップＳ７０２の処理を実行する。

ステップＳ７０２において、字幕付与判断部１０８は、字幕表示が必要か否か判断する。

ステップＳ７０２において、字幕表示は不要と判断された場合、ステップＳ６０３において、一時記憶部５０２にステップＳ６０１で取得した音声データを記憶する。

即ち、ステップＳ６０３では、字幕表示を行わない場合でも音声区間中の音声データを一時的に記憶する処理を実行する。

一方、ステップＳ７０２において、字幕表示が必要と判断された場合、ステップＳ７０４において、制御部部１１３は、「ＣＡＰ」の値を「ＹＥＳ」にし、表示部１０３が字幕表示を開始するよう制御する。

次に、ステップＳ７０５において、音声認識部１０５は、音声認識を開始する処理を実行する。

図８は、ステップＳ７０５における音声認識を開始する処理の流れを示すフローチャートである。

まず、ステップＳ８０１において、制御部１１３は、音声認識中であることを示すためフラグ「ＡＳＲ」の値を「ＹＥＳ」にする。

次に、ステップＳ８０２において、読み出し部５０３は、一時記憶部５０２が記憶している音声データを読み出す。

次に、ステップＳ８０３において、制御部１１３は、データ保存を終了するためフラグ「ＲＥＣ」の値を「ＮＯ」にする。

次に、ステップＳ８０４において、音響分析部５０４は、ステップＳ８０２で読み出した音声データおよびＳ６０１で取得した音声データを音響分析する。

次に、ステップＳ８０５において、探索部５０５は、探索処理を実行する。

尚、探索処理とは、前述したように、探索部５０５が、所定の音響モデル、言語モデル等を用いて、音響分析部５０４が求めた特徴パラメータの尤度を最大にする音声認識結果を求める処理をいう。

次に、ステップＳ８０６において、表示部１０３は、ステップＳ６１０の処理と同様に、読み出した音声の認識結果が確定した部分を字幕として表示する。

以上の処理で、音声区間中すなわち発言中に字幕表示が必要と判断した場合でも、一時的に記憶した音声データを読み出して、発言の最初から音声認識処理を行うことができる。

一方、ステップＳ７０６において、字幕付与判断部１０８は、字幕表示が必要であるか否か判断する。

ステップＳ７０６において、字幕表示が不要と判断された場合、ステップＳ７０７において、制御部１１３は、後述する処理で音声認識終了後に字幕表示を終了するよう制御するため、「ＣＡＰ」の値を「ＴＢＦ」にする。

尚、この処理により、字幕付与判断部１０８が字幕不要と判断しても、音声認識を行っている間は字幕の表示を行う。

また、音声認識は後段で説明する音声の終端を検出するまで行なわれるので、発言終了まで字幕表示を継続することになる。従って、発言の途中で字幕表示を終了することがなくなる。

一方、ステップＳ７０６において、字幕表示は必要と判断された場合、制御部１１３は、フラグ「ＣＡＰ」の値を「ＹＥＳ」にする。

尚、この処理により、一旦、認識終了後に字幕表示終了とした場合（「ＣＡＰ」の値を「ＴＢＦ」とした場合）でも、その後の音声区間中に字幕付与が必要と判断した場合には、以降の発言でも字幕表示を継続することができる。

次に、ステップＳ７０８において、音響分析部５０４は、ステップＳ６０１で取り込んだ音声データを音響分析し、探索部５０５は、探索処理を行う。

また、ステップＳ６１０での処理と同様に、ステップＳ７０８の探索処理において、取り込んだ音声に対して認識結果が確定した部分は、表示部１０３に字幕として表示するよう制御部１１３が制御する。

ステップＳ７１０において、音声検出部５０１は、取得した音声データが音声の終端であるか否か判断する。

ステップＳ７１０において、音声の終端でないと判断された場合、制御部１１３はステップＳ６０１で取得した音声に対する処理を終了するよう制御する。

一方、ステップＳ７１０において、音声の終端であると判断された場合、ステップＳ７１１において、制御部１１３は、「ＣＡＰ」の値が「ＮＯ」であるか否かを判断する。

ステップＳ７１１において、「ＣＡＰ」の値が「ＮＯ」であると判断された場合、ステップＳ７１２において、制御部１１３は、「ＲＥＣ」の値を「ＮＯ」にして、一時記憶部５０２が音声データの保存を終了するよう制御する。

一方、ステップＳ７１２において、「ＣＡＰ」の値が「ＮＯ」でないと判断された場合（「ＣＡＰ」の値が「ＹＥＳ」または「ＴＢＦ」である場合）、ステップＳ７１３の処理を実行する。

ステップＳ７１３において、制御部１１３は、「ＡＳＲ」の値を「ＮＯ」にして、音声認識の処理を終了するよう音声認識部１０５を制御する。

次に、ステップＳ７１４において、制御部１１３は、認識終了後に字幕表示を終了するか否かを判断する。即ち、「ＣＡＰ」の値が「ＴＢＦ」であるか否か判断する。

ステップ７１４において、字幕表示を終了すると判断された場合、ステップＳ７１５において、制御部１１３は、「ＣＡＰ」の値を「ＮＯ」にして、字幕表示を終了するよう表示部１０３を制御する。

ステップＳ７１６において、制御部１１３は、フラグ「ＶＡＤ」の値を、音声区間ではないことを示す「ＮＯ」にする。このとき、制御部１１３はステップＳ６０１で取得した音声データに対する処理を終了するよう制御する。

尚、上述のステップＳ７０３の説明において、一時記憶部５０２が音声データを保存する場合について説明したが、音響分析部５０４で音声データを分析した結果の特徴パラメータを記憶してもよい。

この場合、ステップＳ８０２では、音響分析済みの特徴パラメータが読み出される。また、ステップＳ８０４では、ステップＳ６０１で取り込んだ音声であって、音響分析が完了していない音声に対して音響分析を実行する。

以上のように、本実施例のテレビ会議装置によれば、直ちに字幕表示を行わない場合でも音声データを一時的に保存し、字幕表示が必要になった場合に読み出して音声認識を実行する。

即ち、音声区間の少なくとも一部において、騒音レベルが閾値以上となった場合、当該音声区間の始端から終端までの音に対する音声認識を実行する。

したがって、発言中に騒音レベルの変動があり字幕表示が必要になった場合であっても、発言の最初の部分から字幕を表示することができる。

また、本実施例のテレビ会議装置によれば、字幕を表示している間は騒音レベルの変動があっても字幕表示を継続し、発言の途中で字幕表示が中止されることがない。

従って、一まとまりの発言等の単位で字幕の表示、非表示を切り替えることによって、利用者にとって、より見やすい字幕表示が可能となる。

（第１の実施形態の変形例２）
以下、テレビ会議装置１００の周囲の騒音レベルに応じて、テレビ会議装置２００で入力された音を、テレビ会議装置１００が字幕として表示するか否かを切り替える場合について説明する。

このような場合において、第１の実施形態では、字幕付与の判断および音声認識処理をテレビ会議装置１００が実行していたが、音声認識処理をテレビ会議装置２００が実行し、字幕付与の判断を、テレビ会議装置１００が実行してもよい。

この場合、音声認識部２０５は、音声入力部２１０が集音した音声を認識して認識結果を求める。即ち、第１の実施形態において音声認識部１０５が実行する処理を、音声認識部２０５が実行する。また、エンコード部２１１は、撮像部２０９が撮像した映像、音声入力部２１０が集音した音声に加え、音声認識部２０５が出力する認識結果をエンコードする。また、送信部２１２はエンコード部２１１がエンコードした信号を送信先に送信する。また、受信部１０１は映像信号、音声信号、認識結果を含む信号を受信する。また、デコード部１０２は、受信部１０１が受信した信号を元の映像信号、音声信号、認識結果に分離する。

尚、以上のような構成にすると、送信側に相当するテレビ会議装置２００で音声認識をするので、受信側に相当するテレビ会議装置１００における処理の負荷を軽減できる。

（第１の実施の変形例３）
以下、テレビ会議装置１００の周囲の騒音レベルに応じて、テレビ会議装置２００で入力された音を、テレビ会議装置１００が字幕として表示するか否かを切り替える場合について説明する。

このような場合において、第１の実施形態では、字幕付与の判断および音声認識処理をテレビ会議装置１００が実行していたが、字幕付与の判断および音声認識処理をテレビ会議装置２００が実行してもよい。

この場合、エンコード部１１１は、騒音測定部１０７が測定した騒音レベルを示す情報をエンコードする。また、送信部１１２は、所定の形式にエンコードされた騒音レベルを示す情報を受信部２０１へ送信する。また、受信部２０１は、騒音レベルを示す情報を受信する。デコード部２０２は、受信部２０１が受信した信号から騒音レベルを示す情報をデコードする。また、字幕付与判断部１０８は、受信部２０１が受信した騒音レベルを示す情報に基づき、字幕付与の要否を判断する。即ち、字幕付与判断部２０８は、騒音測定部１０７が測定した騒音レベルに基づき、字幕付与の要否を判断する。また、音声認識部２０５は、音声入力部２１０が集音した音声を認識して認識結果を求める。また、エンコード部２１１は、撮像部２０９が撮像した映像、音声入力部２１０が集音した音声、音声認識部２０５が出力する認識結果をエンコードする。また、送信部２１２はエンコード部２１１がエンコードした信号を送信先に送信する。また、受信部１０１は映像信号、音声信号、認識結果を含む信号を受信する。また、デコード部１０２は、受信部１０１が受信した信号を元の映像信号、音声信号、認識結果に分離する。

尚、以上のような構成にすると、送信側に相当するテレビ会議装置２００で字幕付与の判断および音声認識をするので、受信側に相当するテレビ会議装置１００における処理の負荷を軽減できる。

（第１の実施形態の変形例４）
第１の実施形態では、音声認識した結果を字幕として表示すると説明した。しかしながら、周知の文書要約技術を用いて、音声認識結果を要約した字幕を表示しても良い。また、周知のキーワード抽出技術を用いて、音声認識結果に含まれる重要語等のキーワードのみを字幕として表示しても良い。また、周知の翻訳技術を用いて、音声認識結果を別の言語に翻訳した字幕を表示しても良い。また、音声認識結果に対応する画像やアイコン等を、字幕に相当する情報として表示しても良い。

（第１の実施形態の変形例５）
第１の実施形態から第３の実施形態において、字幕付与判断部１０８が字幕付与の要否を判断に用いる騒音レベルの閾値は、テレビ会議装置の使用者が任意に設定できるようにしてもよい。

すなわち、上記の実施形態では、テレビ会議装置１００の使用者が騒音レベルの閾値を所定の値に設定できるようにする。このとき、第３の実施形態においては、設定した騒音レベルの閾値は、測定した騒音レベルとともに送信部１１２から送信先となるテレビ会議装置２００に送信されるものとする。

（その他の実施形態）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

視聴者に対して音を出力する音声出力手段と、
前記音に含まれる音声区間の始端または終端を検出する検出手段と、
前記視聴者の周囲の騒音レベルを測定する測定手段と、
逐次、各前記騒音レベルが閾値以上であるか否か判断する判断手段と、
音声区間の始端において前記騒音レベルが前記閾値以上でない場合、音声区間の始端から、前記音声区間の音を保持する保持手段と、
前記音声区間の少なくとも一部において、前記騒音レベルが前記閾値以上となった場合、前記音声区間の始端から終端までの音を音声認識する音声認識手段と、
音声認識した結果を字幕として表示する字幕表示手段とを有する情報処理装置。
前記検出手段は、前記音のパワーに基づいて、前記音声区間の始端または終端を検出することを特徴とする請求項１に記載の情報処理装置。
音声認識した結果を字幕として表示する情報処理装置の制御方法であって、
前記音に含まれる音声区間の始端または終端を検出する検出工程と、
前記視聴者の周囲の騒音レベルを測定する測定工程と、
逐次、各前記騒音レベルが閾値以上であるか否か判断する判断工程と、
音声区間の始端において前記騒音レベルが前記閾値以上でない場合、音声区間の始端から、前記音声区間の音を保持する保持工程と、
前記音声区間の少なくとも一部において、前記騒音レベルが前記閾値以上となった場合、前記音声区間の始端から終端までの音を音声認識する音声認識工程と、
音声認識した結果を字幕として表示する字幕表示工程とを有する制御方法。
請求項３に記載の制御方法をコンピュータに実行させるプログラム。