JP2023080604A

JP2023080604A - 音声制御装置、および音声制御方法

Info

Publication number: JP2023080604A
Application number: JP2021194031A
Authority: JP
Inventors: 雅之永野; Masayuki Nagano
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2023-06-09

Abstract

【課題】オンライン会議に参加している場合に、他の参加者に聞かれたくない音を消音すること。【解決手段】音声制御装置は、ユーザの姿勢を検出するセンサ部からユーザの姿勢に関する姿勢情報を取得する姿勢情報取得部と、姿勢情報取得部が取得した姿勢情報に基づいてユーザの姿勢に所定以上の変化があったか否かを判定する姿勢変化判定部と、姿勢変化判定部がユーザの姿勢に所定以上の変化があったと判定した場合にユーザの音声データを収音する音声入力部の状態をミュート待ち状態に遷移させる音声制御部と、を備える。【選択図】図１

Description

本発明は、音声制御装置、および音声制御方法に関する。

会議の参加者が発話した音声を録音する技術が知られている。例えば、特許文献１には、人の顔の向きに基づいて会議に参加しない発話の録音を抑制することができる技術が記載されている。

特開２０２０－１１５６０９号公報

参加者がヘッドセットなどを装着してオンライン会議に参加することがある。この場合、オンライン会議に参加しているときに、オンライン会議の他の参加者に聞かれたくない音をマイクが収音してしまうことがある。他の参加者に聞かれたくない音を他の参加者に聞かれることがないように、制御する技術が求められている。

本発明は、オンライン会議に参加している場合に、他の参加者に聞かれたくない音を消音することのできる音声制御装置、および音声制御方法を提供することを目的とする。

本発明に係る音声制御装置、ユーザの姿勢を検出するセンサ部から前記ユーザの姿勢に関する姿勢情報を取得する姿勢情報取得部と、姿勢情報取得部が取得した姿勢情報に基づいてユーザの姿勢に所定以上の変化があったか否かを判定する姿勢変化判定部と、前記姿勢変化判定部が前記ユーザの姿勢に所定以上の変化があったと判定した場合に前記ユーザの音声データを収音する音声入力部の状態をミュート待ち状態に遷移させる音声制御部と、を備える。

本発明に係る音声制御方法、ユーザの姿勢を検出するセンサ部から前記ユーザの姿勢に関する姿勢情報を取得するステップ、前記姿勢情報に基づいて前記ユーザの姿勢に所定以上の変化があったか否かを判定する姿勢変化判定部と、前記ユーザの姿勢に所定以上の変化があったと判定された場合に前記ユーザの音声データを収音する音声入力部の状態をミュート待ち状態に遷移させる音声制御部と、を含む。

本発明によれば、オンライン会議に参加している場合に、他の参加者に聞かれたくない音を消音することができる。

図１は、第１実施形態に係る端末装置の構成例を示すブロック図である。図２は、第１実施形態に係る音声制御処理を示すフローチャートである。図３は、第２実施形態に係る端末装置の構成例を示すブロック図である。図４は、第２実施形態に係る音声制御処理を示すフローチャートである。図５は、第３実施形態に係る端末装置の構成例を示すブロック図である。図６は、第３実施形態に係る音声制御処理を示すフローチャートである。

以下、添付図面を参照して、本発明に係る実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではなく、また、以下の実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

［第１実施形態］
（端末装置）
図１を用いて、第１実施形態に係る端末装置の構成例について説明する。図１は、第１実施形態に係る端末装置の構成例を示すブロック図である。

図１に示すように、端末装置１０は、入力部１２と、音声入力部１４と、音声出力部１６と、センサ部１８と、通信部２０と、制御部（音声制御装置）２２と、を備える。端末装置１０は、例えば、ユーザに装着して使用される、マイクなどの音声入力装置である。また、端末装置１０は、例えば、マイク付きのイヤホン、ヘッドホン、ネック型スピーカなどの音声入出力装置である。端末装置１０は、単体の装置で構成してもよいし、パーソナルコンピュータ、タブレットなどの情報端末装置及び演算装置及びサーバ装置などを組み合わせた複数の装置で構成してもよい。

入力部１２は、端末装置１０に対する各種の入力を受け付ける。入力部１２は、例えば、ボタン、スイッチ、およびダイヤルなどを含む。入力部１２は、音声コマンドを含んでもよく、この場合、入力部１２は後述する音声入力部１４によって収音されたユーザの音声を解析して各種の入力コマンドに変換する。

音声入力部１４は、端末装置１０を使用してオンライン会議に参加しているユーザの音声データなどを収音するマイクである。音声入力部１４は、音声制御部３２の制御に従って、端末装置１０を使用するユーザの音声データを収音させる処理を実行する。

音声出力部１６は、オンライン会議に参加している他のユーザの音声を出力するスピーカである。音声出力部１６は、音声制御部３２の制御に従って、オンライン会議に参加している他のユーザの音声を出力する処理を実行する。なお、端末装置１０は必ずしも音声出力部１６を備えていなくてもよく、オンライン会議に参加している他のユーザの音声は、ユーザがオンライン会議で使用している図示しない情報端末装置に備えられたスピーカなどから出力されてもよい。

センサ部１８は、端末装置１０を使用するユーザの各種の状態を検出するセンサである。センサ部１８は、例えば、端末装置１０の動きを示す角速度を検出するジャイロセンサを含む。

通信部２０は、端末装置１０と外部装置との間の通信を実行する。通信部２０は、例えば、端末装置１０と、ユーザがオンライン会議に使用している情報端末装置との間の通信を実行する。通信部２０は、無線通信でも有線通信でもよいが、より遠くまで端末装置１０を使用するユーザが移動できるため、無線通信の方がより好ましい。通信部２０は具体的には例えば、Ｂｌｕｔｏｏｔｈ（登録商標）を用いて通信を行う。

制御部２２は、端末装置１０の各部を制御する。制御部２２は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの情報処理装置と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）又はＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などの記憶装置とを有する。記憶装置には、制御部２２の演算内容、およびプログラム等の情報が記憶されている。制御部２２は、本発明に係る端末装置１０の動作を制御するプログラムを実行する。制御部２２は、例えば、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の集積回路により実現されてもよい。制御部２２は、ハードウェアと、ソフトウェアとの組み合わせで実現されてもよい。

制御部２２は、入力受付制御部３０と、音声制御部３２と、姿勢情報取得部３４と、姿勢変化判定部３６と、通信制御部３８と、を備える。

入力受付制御部３０は、入力部１２に対する各種の入力操作に関する入力情報を取得する。入力受付制御部３０は、取得した入力情報に対応した制御信号を出力する。

音声制御部３２は、音声入力部１４を制御する。音声制御部３２は、例えば、音声入力部１４を制御して、端末装置１０を使用するユーザの音声データを収音させる。音声制御部３２は、例えば、音声入力部１４を制御して、所定の音声を収音させる。音声制御部３２は、通信部２０を介して、音声入力部１４が収音した音声データを外部装置に送信する。音声制御部３２は、姿勢変化判定部３６が端末装置１０を使用するユーザの姿勢に所定以上の変化があったと判定した場合には、音声入力部１４の状態をミュート待ち状態に遷移させる。

音声制御部３２は、音声出力部１６を制御する。音声制御部３２は、例えば、音声出力部１６を制御して、オンライン会議に参加している他の参加者の音声を出力させる。

姿勢情報取得部３４は、センサ部１８から取得した情報に基づき、端末装置１０を使用するユーザの姿勢を検出する。姿勢情報取得部３４は、例えば、センサ部１８に備えられたジャイロセンサの出力値に基づいて、ユーザの姿勢が座っている、又は立っているかを判定する。姿勢情報取得部３４は、端末装置１０を使用するユーザの姿勢に関する姿勢情報をセンサ部１８から取得する。

姿勢変化判定部３６は、端末装置１０を使用するユーザの姿勢の変化を判定する。姿勢変化判定部３６は、姿勢情報取得部３４が取得した端末装置１０を使用するユーザの姿勢情報に基づいて、姿勢が所定以上の変化をしたか否かを判定する。姿勢変化判定部３６は例えば、ユーザが座っている状態から立ち上がったと判定した場合に、姿勢が所定以上の変化をしたと判定する。

通信制御部３８は、通信部２０を制御して、端末装置１０と外部装置との通信を制御する。通信制御部３８は、例えば、端末装置１０と、端末装置１０を使用しているユーザがオンライン会議で使用している情報端末装置との間の通信を制御する。通信制御部３８は例えば、通信部２０を制御して、Ｂｌｕｔｏｏｔｈ（登録商標）の通信を行う。

（音声制御処理）
図２を用いて、第１実施形態に係る音声制御処理について説明する。図２は、第１実施形態に係る音声制御処理を示すフローチャートである。

制御部２２は、端末装置１０を使用しているユーザの、他のユーザとのオンライン会議を開始する（ステップＳ１０）。具体的には、音声制御部３２は、音声入力部１４に端末装置１０を使用しているユーザの音声データを収音させる。音声制御部３２は、音声出力部１６から他のユーザの音声を出力させる。そして、ステップＳ１２に進む。

姿勢情報取得部３４は、端末装置１０を使用しているユーザの姿勢に関する姿勢情報を取得する（ステップＳ１２）。具体的には、姿勢情報取得部３４は、センサ部１８に検出させた端末装置を使用しているユーザの姿勢に関する姿勢情報を取得する。姿勢情報取得部３４は、例えば、所定の間隔（例えば、０．１秒から数秒程度）ごとに端末装置１０を使用しているユーザの姿勢に関する姿勢情報を取得する。姿勢情報取得部３４は、例えば、端末装置１０を使用しているユーザの姿勢に関する姿勢情報を常時取得してもよい。ステップＳ１４に進む。

姿勢変化判定部３６は、端末装置１０を使用しているユーザの姿勢に所定の変化があったか否かを判定する（ステップＳ１４）。具体的には、姿勢変化判定部３６は、姿勢情報取得部３４が取得した姿勢情報に基づいて、ユーザの姿勢に所定の変化があったか否かを判定する。

姿勢変化判定部３６は、例えば、姿勢情報取得部３４が取得した姿勢情報に基づいて、端末装置１０を使用しているユーザが座っている状態から立ち上がったと判定された場合に、ユーザの姿勢に所定以上の変化があったと判定する。

姿勢変化判定部３６は、例えば、姿勢情報取得部３４が取得した姿勢情報に基づいて、端末装置１０を使用しているユーザが一方向を向いている状態から振り返ったと判定された場合に、ユーザの姿勢に所定以上の変化があったと判定する。

姿勢変化判定部３６は、例えば、姿勢情報取得部３４が取得した姿勢情報に基づいて、端末装置１０を使用しているユーザが歩き始めたと判定された場合に、ユーザの姿勢に所定以上の変化があったと判定する。

端末装置１０を使用しているユーザの姿勢に所定の変化があったと判定された場合（ステップＳ１４；Ｙｅｓ）、ステップＳ１６に進む。端末装置１０を使用しているユーザの姿勢に所定の変化があったと判定されない場合（ステップＳ１４；Ｎｏ）、ステップＳ３０に進む。

ステップＳ１４でＹｅｓと判定された場合、音声制御部３２は、音声入力部１４の状態を通常状態からミュート待ち状態に遷移させる（ステップＳ１６）。ミュート待ち状態とは、例えば、音声入力部１４が所定の音声を収音した場合に、音声入力部１４をミュート状態にするか否かを判定するための状態をいう。そして、ステップＳ１８に進む。

音声制御部３２は、音声入力部１４が所定の音声を収音したか否かを判定する（ステップＳ１８）。具体的には、音声制御部３２は、音声入力部１４が、音声入力部１４をミュート状態に遷移させると判定される音声データを取得したか否かを判定する。すなわち、所定の音声とは、端末装置１０を使用しているユーザが、オンライン会議に参加している他の参加者に聞かれたくない音をミュートするための音声データであり得る。

音声制御部３２は、例えば、音声入力部１４がトイレに鍵をかける音を収音した場合に、所定の音声が収音されたと判定する。音声制御部３２は、例えば、図示しない辞書データなどに基づいて、音声入力部１４が収音した音がトイレに鍵をかける音であることを判定する。

音声制御部３２は、例えば、音声入力部１４がトイレの蓋を開ける音、または便座を上げたり下げたりする音を収音した場合に、所定の音声が収音されたと判定する。音声制御部３２は、例えば、図示しない辞書データなどに基づいて、音声入力部１４が収音した音がトイレの蓋を開ける音、または便座を上げたり下げたりする音であることを判定する。

音声制御部３２は、例えば、音声入力部１４がベルトの開け閉めやズボンのチャックを上げたり下げたりするような金属音を収音した場合に、所定の音声が収音されたと判定する。音声制御部３２は、例えば、図示しない辞書データなどに基づいて、音声入力部１４が収音した音がベルトの開け閉めやズボンのチャックを上げ下げする音であることを判定する。

音声制御部３２は、例えば、音声入力部１４が所定以上の大きな声を収音した場合に、所定の音声が収音されたと判定する。所定以上の大きな声は、例えば、ユーザの怒声、赤ちゃんの泣き声、子供の声などが例示されるが、これに限定されない。所定以上の大きな声は、例えばオンライン会議と関連の薄い声である。この場合、音声制御部３２は、例えば、図示しない辞書データなどに基づいて、音声入力部１４が収音した音がオンライン会議と関連の薄い声であり、かつ所定以上の大きな声であることを判定する。音声制御部３２は、音声入力部１４が収音した音声データの音量レベルが任意の閾値以上である場合に、所定以上の大きな声であると判定してもよい。

音声制御部３２は音声入力部１４がミュート待ち状態である場合には、収音した音声をオンライン会議の他の参加者に聞かれないような、処理を実行してもよい。音声制御部３２は、音声入力部１４がミュート待ち状態である場合には、通常状態に場合と比べて、比較的大きな音声データのみを収音する、つまり音声入力部１４の収音音量レベルに閾値を設定してもよい。音声制御部３２は、ミュート待ち状態である場合には、音声入力部１４が収音した音声データの音量レベルを小さくして通信部２０を介して外部装置に送信してもよい。

音声制御部３２は、音声入力部１４がミュート待ち状態である場合には、音声入力部１４が音声データを収音してから、その音声データをオンライン会議の他の参加者に出力するまでの間に遅延期間を設けてもよい。つまり音声制御部３２は、音声入力部１４がミュート待ち状態である場合には、音声入力部１４が収音した音声データを一定期間遅延させた遅延音声データを外部装置に送信する。具体的には音声制御部３２は、図示しない音声入力部１４が収音した音声データをＦＩＦＯ（Ｆｉｒｓｔ－ＩｎＦｉｒｓｔ－Ｏｕｔ）メモリに格納し、該ＦＩＦＯメモリから読みだしたデータを遅延音声データとする。遅延させる一定期間とは、例えば０．１～数秒である。この場合、音声制御部３２は、遅延期間の間に音声入力部１４が収音した音声データがオンライン会議に参加している他の参加者に聞かれたくない所定の音声であるか否かを判定（ステップＳ１８）すればよい。

音声制御部３２は、音声入力部１４がミュート待ち状態である場合に、通常状態と同様に、音声入力部１４の収音音量レベルの閾値を設定しなくてもよく、音声入力部１４が収音した音声データに何も処理をせずに外部装置に送信してもよい。

音声入力部１４が所定の音声を収音したと判定された場合（ステップＳ１８；Ｙｅｓ）、ステップＳ２０に進む。音声入力部１４が所定の音声を収音したと判定されない場合（ステップＳ１８；Ｎｏ）、ステップＳ２６に進む。

ステップＳ１８でＹｅｓと判定された場合（ステップＳ１８；Ｙｅｓ）、音声制御部３２は、音声入力部１４の状態をミュート状態に遷移させる（ステップＳ２０）。ミュート状態とは、音声入力部１４が音声データの収音を行わない状態をいう。ミュート状態とは、音声入力部１４が収音した音声データに対してフィルタ処理などを実行してオンライン会議の他の参加者に聞こえないようにする状態でもよい。音声制御部３２は、例えば、端末装置１０を使用するユーザがトイレに入り、音声入力部１４がトイレに鍵をかけた音を収音した際に、音声入力部１４の状態をミュート状態に遷移させる。音声制御部３２は、例えば、端末装置１０を使用するユーザが立ち上がったり、振り返ったりした後、音声入力部１４が赤ちゃんの泣き声および子どもの大声などを収音した場合に、音声入力部１４の状態をミュート状態に遷移させる。そして、ステップＳ２２に進む。

音声制御部３２は、音声入力部１４のミュート状態を解除するか否かを判定する（ステップＳ２２）。音声制御部３２は、例えば、入力受付制御部３０が入力部１２から音声入力部１４のミュート状態を解除する旨の入力情報を取得した場合に、音声入力部１４のミュート状態を解除すると判定する。言い換えれば、端末装置１０を使用しているユーザは、任意のタイミングで音声入力部１４のミュート状態を解除することができる。音声入力部１４のミュート状態を解除すると判定された場合（ステップＳ２２；Ｙｅｓ）、ステップＳ２４に進む。音声入力部１４のミュート状態を解除すると判定されない場合（ステップＳ２２；Ｎｏ）、ステップＳ２２の処理を繰り返す。

ステップＳ２２でＹｅｓと判定された場合、音声制御部３２は、音声入力部１４のミュート状態を解除する（ステップＳ２４）。具体的には、音声制御部３２は、音声入力部１４をミュート状態から通常状態に戻す。そして、ステップＳ３０に進む。

ステップＳ１８でＮｏと判定された場合、音声制御部３２は、音声入力部１４の状態がミュート待ち状態になってから所定時間経過したか否かを判定する（ステップＳ２６）。所定時間は、例えば、数秒から１０秒程度であるが、これに限定されない。所定時間は、端末装置１０を使用するユーザが任意に設定してよい。音声入力部１４の状態がミュート待ち状態になってから所定時間経過したと判定された場合（ステップＳ２６；Ｙｅｓ）、ステップＳ２８に進む。音声入力部１４の状態がミュート待ち状態になってから所定時間経過したと判定されない場合（ステップＳ２６；Ｎｏ）、ステップＳ１８に進む。

ステップＳ２６でＹｅｓと判定された場合、音声制御部３２は、音声入力部１４のミュート待ち状態を解除する（ステップＳ２８）。そして、ステップＳ３０に進む。

ステップＳ２６でＹｅｓと判定されステップＳ３０に進む前に、ユーザにミュート待ち状態の解除を確認する図示しないステップがあってもよい。例えば音声出力部１６から、ユーザにミュート待ち状態を解除してもよいか否かを確認する音声を出力し、ユーザは入力部１２を用いて解除してもよいか、解除してはならないかの情報を入力する。ユーザにミュート待ち状態の解除を確認するステップにおいて、ユーザの回答が解除してもよいことを示す場合はステップＳ２８に進む。ユーザにミュート待ち状態の解除を確認するステップにおいて、ユーザの回答が解除してはならないことを示す場合はステップＳ１８に戻る。ユーザにミュート待ち状態の解除を確認するステップは、端末装置１０を使用するユーザの設定によって、該ステップを省略するか追加するかを選択できてもよい。

制御部２２は、音声制御処理を終了するか否かを判定する（ステップＳ３０）。具体的には、制御部２２は、オンライン会議を終了する場合に、音声制御処理を終了すると判定する。音声制御処理を終了すると判定された場合（ステップＳ３０；Ｙｅｓ）、図２の処理を終了する。音声制御処理を終了すると判定されない場合（ステップＳ３０；Ｎｏ）、ステップＳ１２に進む。

上述のとおり、第１実施形態は、ユーザの姿勢をジャイロセンサなどにより検出し、ユーザの姿勢が所定の変化をしたと判定された場合に、音声入力部の状態をミュート待ち状態に遷移させる。これにより、第１実施形態は、オンライン会議の他の参加者に聞かれたくない音を検出した場合に、音声入力部の状態をミュート状態にすることができるので、他の参加者に聞かれたくない音を聞かれてしまうことを防止することができる。

［第１実施形態の第１変形例］

第１実施形態では、センサ部１８は、端末装置１０が備えるものとして説明したが、本発明は、これに限定されない。センサ部１８は、例えば、端末装置１０を使用しているユーザが所有するスマートホンおよびスマートウォッチなどに設けられていてもよい。この場合、姿勢情報取得部３４は、通信部２０を介して、スマートホンなどから端末装置１０を使用しているユーザの姿勢に関する姿勢情報を取得すればよい。

［第１実施形態の第２変形例］
第１実施形態では、端末装置１０が、端末装置１０を使用しているユーザの姿勢の変化を判定するものとして説明したが、本発明はこれに限定されない。端末装置１０を使用しているユーザの姿勢の変化は、例えば、オンライン会議で使用されている情報端末装置に備えられた図示しない姿勢変化判定部によって判定してもよい。この場合、端末装置１０の音声制御部３２は、情報処理装置による判定結果に応じて、音声入力部１４を制御すればよい。

［第２実施形態］
次に、本発明の第２実施形態を説明する。

（端末装置）
図３を用いて、第２実施形態に係る端末装置の構成例について説明する。図３は、第２実施形態に係る端末装置の構成例を示すブロック図である。

図３に示すように、端末装置１０Ａは、制御部２２Ａが位置情報算出部４０を備える点で、図１に示す端末装置１０と異なる。

位置情報算出部４０は、端末装置１０Ａの位置情報を算出する。位置情報算出部４０は、端末装置１０Ａを使用しているユーザの位置情報を算出する。位置情報算出部４０は、例えば、屋内に設置された図示しない位置ビーコンなどに基づいて、公知の方法により端末装置１０Ａの位置情報を算出する。位置情報算出部４０は、例えば、屋内の地図情報などに基づいて、端末装置１０Ａの位置情報を算出してもよい。

（音声制御処理）
図４を用いて、第２実施形態に係る音声制御処理について説明する。図４は、第２実施形態に係る音声制御処理を示すフローチャートである。

ステップＳ４０からステップＳ４４の処理は、それぞれ、図２に示すステップＳ１０からステップＳ１４の処理と同一なので、説明を省略する。

位置情報算出部４０は、端末装置１０Ａの位置情報を算出し、端末装置１０Ａを使用しているユーザが所定の場所に移動したか否かを判定する（ステップＳ４６）。具体的には、位置情報算出部４０は、屋内に設置された位置ビーコンなどに基づいて端末装置１０Ａの位置情報を算出し、端末装置１０Ａを使用しているユーザが所定の場所に移動したか否かを判定する。位置情報算出部４０は、例えば、端末装置１０Ａを使用しているユーザがトイレに移動したか否かを判定する。所定の場所は、端末装置１０Ａを使用しているユーザが任意に設定することができる。ユーザは所定の場所を、入力部１２を利用して設定してもよいし、ユーザがオンライン会議で使用している情報端末装置に備えられた図示しない入力装置を利用して設定してもよい。

端末装置１０Ａを使用しているユーザが所定の場所に移動したと判定された場合（ステップＳ４６；Ｙｅｓ）、ステップＳ４８に進む。端末装置１０Ａを使用しているユーザが所定の場所に移動したと判定されない場合（ステップＳ４６；Ｎｏ）、ステップＳ６２に進む。

ステップＳ４８からステップＳ６２の処理は、それぞれ、図２に示すステップＳ１６からステップＳ３０の処理と同一なので、説明を省略する。

上述のとおり、第２実施形態は、ユーザの姿勢の変化の状況と、ユーザの移動の状況とに基づいて、音声入力部の状態をミュート待ち状態に遷移させる。これにより、第２実施形態は、より適切なタイミングで音声入力部をミュート状態に遷移させることができる。

［第３実施形態］
次に、本発明の第３実施形態を説明する。

（端末装置）
図５を用いて、第３実施形態に係る端末装置の構成例について説明する。図５は、第３実施形態に係る端末装置の構成例を示すブロック図である。

図５に示すように、端末装置１０Ｂは、撮像装置５０から映像データを取得する点、および制御部２２Ｂが姿勢変化判定部３６Ａと映像データ取得部４２を備える点で図１に示す端末装置１０と異なる。

映像データ取得部４２は、端末装置１０Ｂを使用しているユーザを撮像した映像データを取得する。映像データ取得部４２は、例えば、撮像装置５０から端末装置１０Ｂを使用しているユーザを撮像した映像データを取得する。

姿勢変化判定部３６Ａは、映像データ取得部４２が取得した映像データに基づいて、端末装置１０Ｂを使用しているユーザの姿勢の変化を判定する。

撮像装置５０は、端末装置１０Ｂを使用しているユーザを撮像するカメラである。撮像装置５０は、例えば、端末装置１０Ｂを使用しているユーザがオンライン会議に使用している情報端末装置が備えるカメラである。撮像装置５０は、例えば、端末装置１０Ｂと通信可能なその他のカメラであってもよい。

（音声制御処理）
図６を用いて、第３実施形態に係る音声制御処理について説明する。図６は、第３実施形態に係る音声制御処理を示すフローチャートである。

ステップＳ７０およびステップＳ７２の処理は、それぞれ、図２に示すステップＳ１０およびステップＳ１２の処理と同一なので、説明を省略する。

映像データ取得部４２は、端末装置１０Ｂを使用しているユーザの映像データを取得する（ステップＳ７４）。具体的には、映像データ取得部４２は、撮像装置５０が撮像した端末装置１０Ｂを使用しているユーザの映像データを取得する。そして、ステップＳ７６に進む。

姿勢変化判定部３６Ａは、端末装置１０Ｂを使用しているユーザの姿勢に所定の変化があったか否かを判定する（ステップＳ７６）。具体的には、姿勢変化判定部３６Ａは、姿勢情報取得部３４が取得した姿勢情報と、映像データ取得部４２が取得した映像データに基づいて、ユーザの姿勢に所定の変化があったか否かを判定する。

姿勢変化判定部３６Ａは、例えば、姿勢情報取得部３４が取得した姿勢情報と、映像データ取得部４２が取得した映像データとに基づいて、端末装置１０Ｂを使用しているユーザが座っている状態から立ち上がったと判定された場合に、ユーザの姿勢に所定の変化があったと判定する。

姿勢変化判定部３６Ａは、例えば、姿勢情報取得部３４が取得した姿勢情報と、映像データ取得部４２が取得した映像データとに基づいて、端末装置１０Ｂを使用しているユーザが一方向を向いている状態から振り返ったと判定された場合に、ユーザの姿勢に所定の変化があったと判定する。

姿勢変化判定部３６Ａは、例えば、姿勢情報取得部３４が取得した姿勢情報と、映像データ取得部４２が取得した映像データとに基づいて、端末装置１０Ｂを使用しているユーザが歩き始めたと判定された場合に、所定の変化があったと判定する。

撮像装置５０は、端末装置１０Ｂを使用しているユーザが身に着けるカメラでもよい。撮像装置５０は例えば、ユーザが頭部に装着する図示しないヘッドマウントディスプレイの筐体外側に備えられ、ユーザの視界方向を撮像する。この場合の姿勢変化判定部３６Ａは、撮像装置５０によって撮像されたユーザの視界方向の映像データが、水平方向に回転した映像であった場合にユーザが一方向を向いている状態から振り返ったと判定する。なおユーザが頭部に装着するヘッドマウントディスプレイが、端末装置１０Ｂを備えていてもよい。

端末装置１０Ｂを使用しているユーザの姿勢に所定の変化があったと判定された場合（ステップＳ７６；Ｙｅｓ）、ステップＳ７８に進む。端末装置１０Ｂを使用しているユーザの姿勢に所定の変化があったと判定されない場合（ステップＳ７６；Ｎｏ）、ステップＳ９２に進む。

ステップＳ７８からステップＳ９２の処理は、それぞれ、図２に示すステップＳ１６からステップＳ３０の処理と同一なので、説明を省略する。

第３実施形態では、端末装置１０Ｂが、端末装置１０Ｂを使用しているユーザの姿勢の変化を判定するものとして説明したが、本発明はこれに限定されない。端末装置１０Ｂを使用しているユーザの姿勢の変化は、例えば、オンライン会議で使用されている情報端末装置に備えられた図示しない姿勢変化判定部によって判定してもよい。

上述のとおり、第３実施形態は、ユーザの姿勢をジャイロセンサなどおよび映像データに基づいて検出し、ユーザの姿勢が所定の変化をしたと判定された場合に、音声入力部の状態をミュート待ち状態に遷移させる。これにより、第３実施形態は、ユーザの姿勢が所定の変化をしたか否かをより精度よく判定することができる。

上述した各実施形態では、オンライン会議で使用しているヘッドホンなどのマイクをミュート待ち状態およびミュート状態に遷移させるものとして説明したが、本発明はこれに限定されない。本発明は、例えば、スマートホンなどで通話している際に、スマートホンのマイクをミュート待ち状態およびミュート状態に遷移させる場合にも適用することができる。

上述した各実施形態では、端末装置１０、１０Ａおよび１０Ｂに備えられた音声制御部３２によってオンライン会議で使用しているマイクをミュート待ち状態およびミュート状態に遷移させるものとして説明したが、本発明はこれに限定されない。本発明は、例えば、ユーザがオンライン会議で使用している情報端末装置に備えられた図示しない音声制御部によって、端末装置１０、１０Ａおよび１０Ｂに備えられた音声入力部１４をミュート待ち状態およびミュート状態に遷移させてもよい。

以上、本発明の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。

１０，１０Ａ，１０Ｂ端末装置
１２入力部
１４音声入力部
１６音声出力部
１８センサ部
２０通信部
２２，２２Ａ，２２Ｂ制御部
３０入力受付制御部
３２音声制御部
３４姿勢情報取得部
３６，３６Ａ姿勢変化判定部
３８通信制御部
４０位置情報算出部
４２映像データ取得部

Claims

ユーザの姿勢を検出するセンサ部から前記ユーザの姿勢に関する姿勢情報を取得する姿勢情報取得部と、
前記姿勢情報取得部が取得した前記姿勢情報に基づいて前記ユーザの姿勢に所定以上の変化があったか否かを判定する姿勢変化判定部と、
前記姿勢変化判定部が前記ユーザの姿勢に所定以上の変化があったと判定した場合に前記ユーザの音声データを収音する音声入力部の状態をミュート待ち状態に遷移させる音声制御部と、
を備える、音声制御装置。
前記音声制御部は、前記音声入力部の状態をミュート待ち状態に遷移させた後、前記音声入力部が所定の音声を収音した場合に、前記音声入力部の状態をミュート状態に遷移させる、
請求項１に記載の音声制御装置。
前記音声制御部は、前記音声入力部の状態がミュート待ち状態であるとき、前記音声入力部が収音した音声データを一定期間遅延させた遅延音声データを、外部装置との通信を実行する通信部を介して前記外部装置に送信する、
請求項１または２に記載の音声制御装置。
前記ユーザを撮像する撮像部から前記ユーザの映像データを取得する映像データ取得部を備え、
姿勢変化判定部は、前記姿勢情報取得部が取得した前記ユーザの前記姿勢情報と、前記映像データ取得部が取得した前記ユーザの映像データとに基づいて、前記ユーザの姿勢に所定以上の変化があったか否かを判定する、
請求項１から３のいずれか１項に記載の音声制御装置。
ユーザの姿勢を検出するセンサ部から前記ユーザの姿勢に関する姿勢情報を取得するステップと、
前記姿勢情報に基づいて前記ユーザの姿勢に所定以上の変化があったか否かを判定する姿勢変化判定部と、
前記ユーザの姿勢に所定以上の変化があったと判定された場合に前記ユーザの音声データを収音する音声入力部の状態をミュート待ち状態に遷移させる音声制御部と、
を含む、音声制御方法。