JP2020194021A

JP2020194021A - 音声処理装置、音声処理方法およびプログラム

Info

Publication number: JP2020194021A
Application number: JP2019098186A
Authority: JP
Inventors: 孔司 ▲桜▼田; Koji Sakurada
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2020-12-03
Anticipated expiration: 2039-05-27
Also published as: JP7293863B2

Abstract

【課題】会議への参加者による遠隔地からの音声の聞き取りやすさと、参加者の周囲に存在する他者による自分自身の活動への集中のしやすさとの双方を適切に制御することが可能な技術が提供されることが望まれる。【解決手段】第１の音声会話装置が置かれた空間に関する情報と、第２の音声会話装置に入力された第２の利用者の音声信号の音の特徴とに基づいて、前記第１の音声会話装置から第１の利用者に出力される前記第２の利用者の前記音声信号の音の特徴を制御する制御部を備える、音声処理装置が提供される。【選択図】図１

Description

本発明は、適切な音の特徴（例えば、音量）を有する音声により、複数拠点間のコミュニケーションを行う技術に関する。

従来、複数地点間の音声コミュニケーションにおいて適切な音の特徴（例えば、音量）によるコミュニケーションを実現するための方法の例として、テレビ会議システムによるコミュニケーション方法が開示されている（例えば、特許文献１参照）。かかる文献には、主発言者が用いる端末を簡易に特定して、主発言者の発話音声を、他の会議参加者からの音声の音量レベルより相対的に大きく音声出力させる方法について記載されている。これにより、主発言者の発言内容を聞き取りやすくして、テレビ会議を円滑に進行させることができる。

特開２０１４−２２０６４９号公報

しかしながら、上記した構成のテレビ会議システムを、複数の人が集まる共有空間に配置し、共有空間内にいる参加者が遠隔地と即時で短時間の会議を開催することに用いる場合、遠隔地からの音声が共有空間に広く聞こえる場合がある。かかる場合には、共有空間内で会議に参加していない人にとっては遠隔地からの音声が耳障りに感じされ、当該共有空間内で会議に参加していない人は、自分自身の活動に集中することができなくなってしまう。

そこで、会議への参加者による遠隔地からの音声の聞き取りやすさと、参加者の周囲に存在する他者による自分自身の活動への集中のしやすさとの双方を適切に制御することが可能な技術が提供されることが望まれる。

上記問題を解決するために、本発明のある観点によれば、第１の音声会話装置が置かれた空間に関する情報と、第２の音声会話装置に入力された第２の利用者の音声信号の音の特徴とに基づいて、前記第１の音声会話装置から第１の利用者に出力される前記第２の利用者の前記音声信号の音の特徴を制御する制御部を備える、音声処理装置が提供される。

前記空間に関する情報は、前記第１の利用者の音声信号の音の特徴を含んでもよい。

前記制御部は、前記第１の利用者の音声信号の音の特徴に適合するように、前記第２の利用者の前記音声信号の音の特徴を制御してもよい。

前記第１の利用者および前記第２の利用者それぞれの音声信号の音の特徴は、音量、音のトーン、音のピッチまたは音の抑揚であってもよい。

前記空間に関する情報は、前記第１の音声会話装置の周囲の集中度データを含んでもよい。

前記空間に関する情報は、前記集中度データに対応する目標の音の特徴に適合するように、前記第２の利用者の前記音声信号の音の特徴を制御してもよい。

前記集中度データに対応する目標の音の特徴および前記第２の利用者の音声信号の音の特徴それぞれは、音量、音のトーン、音のピッチまたは音の抑揚であってもよい。

前記音声処理装置は、前記第１の音声会話装置または前記第２の音声会話装置の内部に存在してもよい。

前記音声処理装置は、前記第１の音声会話装置および前記第２の音声会話装置とは異なる装置の内部に存在してもよい。

また、本発明の別の観点によれば、第１の音声会話装置が置かれた空間に関する情報と、第２の音声会話装置に入力された第２の利用者の音声信号の音の特徴とに基づいて、前記第１の音声会話装置から第１の利用者に出力される前記第２の利用者の前記音声信号の音の特徴を制御することを含む、音声処理方法が提供される。

また、本発明の別の観点によれば、コンピュータを、第１の音声会話装置が置かれた空間に関する情報と、第２の音声会話装置に入力された第２の利用者の音声信号の音の特徴とに基づいて、前記第１の音声会話装置から第１の利用者に出力される前記第２の利用者の前記音声信号の音の特徴を制御する制御部を備える、音声処理装置として機能させるためのプログラムが提供される。

以上説明したように本発明によれば、会議への参加者による遠隔地からの音声の聞き取りやすさと、参加者の周囲に存在する他者による自分自身の活動への集中のしやすさとの双方を適切に制御することが可能な技術が提供される。

本発明の第１の実施形態に係る音声会話システムの構成例を示す図である。同実施形態に係る音量制御部の詳細構成を示す図である。同実施形態に係る音声会話システムの動作を説明するための図である。本発明の第２の実施形態に係る音声会話システムの構成例を示す図である。同実施形態に係る集中度検出システムの構成例を示す図である。同実施形態に係る音量制御部の詳細構成を示す図である。同実施形態に係る音声会話システムの動作を説明するための図である。本実施形態に係る音声会話装置の例としてのデータ処理装置のハードウェア構成を示す図である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合がある。ただし、実質的に同一の機能構成を有する複数の構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。また、異なる実施形態の類似する構成要素については、同一の符号の後に異なるアルファベットを付して区別する場合がある。ただし、異なる実施形態の類似する構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。

（１．第１の実施形態）
まず、本発明の第１の実施形態について説明する。

［１−１．構成の説明］
本発明の第１の実施形態に係る音声会話システムの構成例について説明する。

図１は、本発明の第１の実施形態に係る音声会話システムの構成例を示す図である。図１に示すように、本発明の第１の実施形態に係る音声会話システム１は、第１の音声会話装置１０、第２の音声会話装置２０および通話制御サーバー３０を有する。第１の音声会話装置１０、第２の音声会話装置２０および通話制御サーバー３０は、ネットワークに接続されており、ネットワークを介して相互に通信可能に構成されている。

ここで、第１の音声会話装置１０と第２の音声会話装置２０とは、同一の機能を有している。そこで、第１の音声会話装置１０および第２の音声会話装置２０を代表して、第１の音声会話装置１０の機能を主に説明する。第１の音声会話装置１０は、音声入力部１１０、音声送信部１２０、音量検出部１３０、通話制御部１４０、音声受信部１５０、音量制御部１６０および音声出力部１７０を有する。

音声入力部１１０は、マイクロフォンによって構成され、利用者によって発せられた音声信号（音響振動）を入力する。また、音声入力部１１０は、利用者によって発せられた音声信号に基づいて、音声送信部１２０に音声入力データを出力する。また、音声入力部１１０は、利用者によって発せられた音声信号に基づいて、音量検出部１３０に音声入力データを出力する。

音声送信部１２０は、通信インタフェースによって構成され、音声入力部１１０から音声入力データを入力する。また、音声送信部１２０は、通話制御部１４０から送信制御データを入力する。また、音声送信部１２０は、音声入力データと送信制御データとに基づいて、他の音声会話装置（第２の音声会話装置２０）の音声受信部１５０に音声ストリームデータを出力する。

音量検出部１３０は、プロセッサによって構成され、音量検出部１３０は、音声入力部１１０から音声入力データを入力する。また、音量検出部１３０は、音声入力データに基づいて、音量制御部１６０に音量データを出力する。

通話制御部１４０は、プロセッサおよび通信インタフェースによって構成され、通信インタフェースによって通話制御サーバー３０との間で第１の通話制御データを送受信する。また、通話制御部１４０は、音声送信部１２０に送信制御データを出力し、音声受信部１５０に受信制御データを出力する。また、後にも説明するように、通話制御部１４０は、操作部および表示部を含んでいる。

音声受信部１５０は、通信インタフェースによって構成され、他の音声会話装置（第２の音声会話装置２０）の音声送信部１２０から第２の音声ストリームデータを入力する。また、音声受信部１５０は、通話制御部１４０から受信制御データを入力する。また、音声受信部１５０は、第２の音声ストリームデータと受信制御データとに基づいて、音声復号データを生成し、音声復号データを音量制御部１６０に出力する。

音量制御部１６０は、プロセッサによって構成され、音量制御部１６０は、音量検出部１３０から音量データを入力する。また、音量制御部１６０は、音声受信部１５０から音声復号データを入力する。また、音量制御部１６０は、音量データと音声復号データとに基づいて、音声出力部１７０に音声出力データを出力する。

音声出力部１７０は、スピーカーによって構成され、音量制御部１６０から音声出力データを入力する。また、音声出力部１７０は、音声出力データに基づいて、利用者に音声信号（音響振動）を出力する。

なお、ここでは、音量検出部１３０、通話制御部１４０および音量制御部１６０が、同一のプロセッサによって構成される場合を想定するが、異なるプロセッサによって構成されてもよい。これらのブロックの機能は、プロセッサによってプログラムが実行されることによって実現される。かかるプログラムは、記録媒体に記録され、記録媒体からプロセッサによって読み取られて実行され得る。あるいは、これらのブロックは、専用のハードウェアによって構成されてもよい。

通話制御サーバー３０は、コンピュータによって構成され、音声会話装置との間で個別の通話制御データを入出力する。例えば、通話制御サーバー３０は、第１の音声会話装置１０との間で第１の送受信制御データを入出力する。一方、通話制御サーバー３０は、第２の音声会話装置２０との間で第２の送受信制御データを入出力する。

図２は、音量制御部１６０の詳細構成を示す図である。図２に示すように、音量制御部１６０は、ゲイン計算部１６１および音声データ変換部１６２を備える。

ゲイン計算部１６１は、音量検出部１３０から音量データを入力する。また、ゲイン計算部１６１は、音声受信部１５０から音声復号データを入力する。また、ゲイン計算部１６１は、音量データと音声復号データとに基づいて、ゲインデータを音声データ変換部１６２に出力する。

音声データ変換部１６２は、ゲイン計算部１６１からゲインデータを入力する。また、音声データ変換部１６２は、音声受信部１５０から音声復号データを入力する。また、音声データ変換部１６２は、ゲインデータと音声復号データとに基づいて、音声出力データを音声出力部１７０に出力する。

［１−２．動作の説明］
本発明の第１の実施形態に係る音声会話システム１の動作例について説明する。

図３は、本発明の第１の実施形態に係る音声会話システム１の動作を説明するための図である。以下では、図１〜図３を参照しながら、第１の音声会話装置１０と第２の音声会話装置２０との間の音声コミュニケーションの動作を、第１の音声会話装置１０側の視点で、順を追って説明する。なお、本発明の実施形態においては、音声コミュニケーションに同期したコミュニケーションメディアとして、映像コミュニケーションも音声コミュニケーションと同時に行われる場合を想定する。しかし、映像コミュニケーションの動作の詳細な説明は省略する。

（１）音声コミュニケーションの開始
上記したように、第１の音声会話装置１０の通話制御部１４０は、利用者が操作可能な操作部および表示部（画面）を含んでいる。利用者は、画面を見ながら、音声コミュニケーションの相手となる第２の音声会話装置２０、音声コミュニケーションの開始、音声コミュニケーションの切断それぞれの指定を操作部に対して行う。

例えば、第１の音声会話装置１０の利用者は、コミュニケーション開始の際に、第１の音声会話装置１０の通話制御部１４０に対して、音声コミュニケーションの相手として第２の音声会話装置２０の指定を行い、音声コミュニケーション開始の指定を行う。第１の音声会話装置１０の通話制御部１４０は、これらの指定情報を第１の通話制御データとしてネットワークを介して通話制御サーバー３０に出力する。通話制御データの形式としては、ＳＩＰ（ＳｅｓｓｉｏｎＩｎｉｔｉａｔｉｏｎＰｒｏｔｏｃｏｌ）などといった公知のコミュニケーションプロトコルが利用されてよい。

通話制御サーバー３０には、あらかじめ第１の音声会話装置１０および第２の音声会話装置２０を制御するための制御情報が登録されている。そこで、通話制御サーバー３０は、第１の通話制御データを入力すると、制御情報に基づいて、第１の音声会話装置１０の通話制御部１４０と第２の音声会話装置２０の通話制御部１４０との間の各種データ（第１の通話制御データおよび第２の通話制御データ）のやり取りを仲介する。

そして、最後に、通話制御サーバー３０は、第１の音声会話装置１０の音声送信部１２０と第２の音声会話装置２０の音声送信部１２０とに、処理の開始を指示する送信制御データを出力し、第１の音声会話装置１０の音声受信部１５０と第２の音声会話装置２０の音声受信部１５０とに、処理の開始を指示する受信制御データを出力する。これによって、第１の音声会話装置１０と第２の音声会話装置２０との間での音声コミュニケーションが可能な状態に至る。

（２）第１の音声会話装置からの音声ストリームデータの送信
続いて、第１の音声会話装置１０の利用者が発言すると、第１の音声会話装置１０の音声入力部１１０が、第１の音声会話装置１０の利用者の発言に相当する音声信号（音響振動）をマイクロフォンによって入力する。第１の音声会話装置１０の音声入力部１１０は、入力した音声信号（音響振動）をアナログデータからデジタルデータに変換し、デジタルデータを音声入力データとして音声送信部１２０および音量検出部１３０それぞれに出力する。

続いて、第１の音声会話装置１０の音声送信部１２０は、音声入力データを入力すると、音声入力データを通信に適した形式に変換して第１の音声ストリームデータを生成する。そして、第１の音声会話装置１０の音声送信部１２０は、生成した第１の音声ストリームデータを第２の音声会話装置２０の音声受信部１５０に送信する。なお、上記した通信に適した形式としては、公知の形式、例えば、ＩＥＴＦ（ＩｎｔｅｒｎｅｔＥｎｇｉｎｅｅｒｉｎｉｇＴａｓｋＦｏｒｃｅ）で標準化された形式が用いられ得る。

（３）第２の音声会話装置からの音声ストリームデータの受信
第２の音声会話装置２０の利用者が発言すると、「（１）音声コミュニケーションの開始」と同様な動作を経て、第１の音声会話装置１０の音声受信部１５０は、第２の音声ストリームデータを受信する。第１の音声会話装置１０の音声受信部１５０は、第２の音声ストリームデータを音声信号に相当するデジタルデータに復号し、音声復号データとして音量制御部１６０に出力する。

（４）第２の音声会話装置から受信した音声の音量制御
一方、第１の音声会話装置１０の音量検出部１３０は、音声入力データを入力すると、音量入力データに基づいて所定期間（例えば、１０秒間）毎に音量を計算し、音量データとして音量制御部１６０に出力する。音量の計算方法としては、公知の方法が用いられてよいが、本発明の実施形態では、音声入力データからスペクトルエントロピー法を用いて音声区間検出を行い、検出した音声区間の音声入力データのＲＭＳ（ＲｏｏｔＭｅａｎＳｑｕａｒｅ）を計算し、計算したＲＭＳを音量データとして使用する場合を想定する。

第１の音声会話装置１０の音量制御部１６０は、音量検出部１３０から入力された音量データに基づいて、音声受信部１５０から入力された音声復号データの音量を調整し、音量調整後の音声復号データを音声出力データとして音声出力部１７０に出力する。

ここで、図２を参照しながら、音声復号データの音量調整の動作について詳細に説明する。音量制御部１６０のゲイン計算部１６１は、音声復号データを入力すると、音量検出部１３０と同様の方法によって音声復号データの音量を計算する。そして、ゲイン計算部１６１は、音量検出部１３０から入力された音声入力データの音量と、音声復号データの音量とを比較し、音声復号データの音量を音声入力データの音量に相当する音量に変換するための、レベル変換係数（ゲインデータ）を算出する。そして、ゲイン計算部１６１は、算出したレベル変換係数（ゲインデータ）を音声データ変換部１６２に出力する。

例えば、音声入力データ（例えば、１６ビット）の音量が２０００、音声復号データの音量が８０００であったとすれば、ゲインデータは、２０００／８０００＝０．２５となる。

音声データ変換部１６２は、音声復号データにゲインデータを乗算して、音声出力データを計算する。これによって、音声出力データの音量は音声入力データの音量と一致することになる。

図１に戻って説明を続ける。第１の音声会話装置１０の音声出力部１７０は、音量制御部１６０から入力された音声出力データをアナログデータに変換し、アナログデータをスピーカーから音声信号（音響振動）として出力する。これによって、第１の音声会話装置１０の利用者は、第２の音声会話装置２０に入力された音声信号を聴くことができる。なお、第２の音声会話装置２０も第１の音声会話装置１０の動作と同様の動作を行うため、第２の音声会話装置２０の利用者も、第１の音声会話装置１０に入力された音声信号を聴くことができる。

図３は、音声信号の音量の変化について説明するための図である。ここでは、第１の音声会話装置１０がある第１の空間Ｐ１に利用者Ａが存在し、第２の音声会話装置２０がある第２の空間Ｐ２に利用者Ｂが存在する場合を想定する。このとき、図３に示すように、利用者Ａが小さい声で会話を行うと、第１の音声会話装置１０から第２の音声会話装置２０に小さい声の状態で音声ストリームデータが伝送される。しかし、利用者Ｂが大きい声で会話を行っているために、利用者Ｂの前では、利用者Ａの声は大きい音に変換されて再生される。一方、利用者Ａの前では、利用者Ｂの声は小さい声に変換されて再生される。

（５）音声コミュニケーションの切断
本発明の実施形態においては、第１の音声会話装置１０と第２の音声会話装置２０との間の音声コミュニケーションが常時接続された状態で運用されることを想定する。しかし、例えば、第１の音声会話装置１０の利用者は、音声コミュニケーションを切断する場合には、第１の音声会話装置１０の通話制御部１４０の操作画面に対して、音声コミュニケーションの切断を指定すればよい。このとき、第１の音声会話装置１０の通話制御部１４０は、音声コミュニケーションの切断に必要な情報を第１の通話制御データとして生成し、ネットワークを介して通話制御サーバー３０に出力する。

通話制御サーバー３０は、第１の音声会話装置１０から第１の通話制御データが入力されると、第１の音声会話装置１０および第２の音声会話装置２０それぞれの音声送信部１２０および音声受信部１５０に、処理の切断を指示する送受信制御データを出力し、第１の音声会話装置１０と第２の音声会話装置２０の通話制御部１４０の間で、各種データ（第１の通話制御データおよび第２の通話制御データ）のやり取りを仲介し、第１の音声会話装置１０および第２の音声会話装置２０の間での音声コミュニケーションを切断する。

［１−３．効果の説明］
以上のように、本発明の第１の実施形態によれば、第１の音声会話装置１０に入力される音声の音量に基づいて、第２の音声会話装置２０に入力される音声の音量が調整され、音量調整後の音声が第１の音声会話装置１０から出力される。一例として、他者が集中して活動を行っている空間においては、音声会話装置の利用者は当該他者の集中を妨げないよう小さい声で発言する場合が想定されるが、かかる場合には、遠隔地に存在する相手の発言も当該空間において小さい音量で聞こえるので、他者は会話音声を耳障りに感じにくく、自分自身の活動に集中できるという効果がある。

以上、本発明の第１の実施形態について説明した。

（２．第２の実施形態）
続いて、本発明の第２の実施形態について説明する。

［２−１．構成の説明］
本発明の第２の実施形態に係る音声会話システムの構成例について説明する。

図４は、本発明の第２の実施形態に係る音声会話システムの構成例を示す図である。図４に示すように、本発明の第２の実施形態に係る音声会話システム２は、第１の音声会話装置１２、第２の音声会話装置２２、通話制御サーバー３０および集中度検出システム４０を有する。第１の音声会話装置１２、第２の音声会話装置２２、通話制御サーバー３０および集中度検出システム４０は、ネットワークに接続されており、ネットワークを介して相互に通信可能に構成されている。

ここで、第１の音声会話装置１２と第２の音声会話装置２２とは、同一の機能を有している。そこで、第１の音声会話装置１２および第２の音声会話装置２２を代表して、第１の音声会話装置１２の機能を主に説明する。本発明の第２の実施形態に係る第１の音声会話装置１２は、本発明の第１の実施形態に係る第１の音声会話装置１０と比較して、音量制御部１６０の代わりに音量制御部１８０を有する点、が異なる。さらに、本発明の第２の実施形態に係る音声会話システム２は、本発明の第１の実施形態に係る音声会話システム１と比較して、音量検出部１３０の代わりに集中度検出システム４０を有する点がさらに異なる。

したがって、以下では、音量制御部１８０および集中度検出システム４０について主に説明する。一方、本発明の第１の実施形態に係る音声会話システム１と本発明の第２の実施形態に係る音声会話システム２とにおいて、同一の構成についての詳細な説明は省略する。

音声入力部１１０は、利用者によって発せられた音声信号に基づいて、音声送信部１２０に音声入力データを出力する。また、本発明の第１の実施形態では、音声入力部１１０は、利用者によって発せられた音声信号に基づいて、音量検出部１３０に音声入力データを出力する。しかし、本発明の第２の実施形態では、音声入力部１１０は、利用者によって発せられた音声信号に基づいて、音量検出部１３０に音声入力データを出力しなくてよい。

音量制御部１８０は、集中度検出システム４０から第１の集中度データを入力する。また、音量制御部１８０は、音声受信部１５０から音声復号データを入力する。また、音量制御部１６０は、第１の集中度データと音声復号データとにも基づいて、音声出力部１７０に音声出力データを出力する。

集中度検出システム４０は、第１の音声会話装置１０および第２の音声会話装置２０それぞれの音量制御部１８０に対して、個別の集中度データを出力する。以下、集中度検出システム４０について詳細に説明する。

図５は、集中度検出システム４０の構成例を示す図である。図５に示すように、集中度検出システム４０は、複数のタグ（タグ４１Ａ〜４１Ｅ）、センサ端末４２、集中度計算装置４３、および、会話者特定装置４４を有する。タグ４１Ａは、利用者Ａに取り付けられており（あるいは、利用者Ａによって持ち運ばれており）、タグ４１Ｂ〜４１Ｅは、他者Ｂ〜Ｅにそれぞれ取り付けられている（あるいは、他者Ｂ〜Ｅによってそれぞれ持ち運ばれている）。

各タグは、センサ端末４２に集中ステータスを出力し、会話者特定装置４４に無線ビーコン信号を出力する。ここでは、会話者特定装置４４を基準として所定の距離以内に存在するタグから送信された無線ビーコン信号しか会話者特定装置４４において受信できないように構成されている場合を想定する。また、ここでは、集中ステータスと無線ビーコン信号とが、別の無線信号によって送信される場合を想定する。しかし、集中ステータスと無線ビーコン信号とは、共通の無線信号によって送信されてもよい。共通の無線信号が利用される場合、共通の無線信号の送信周期は、集中ステータスと無線ビーコン信号とのより短い送信周期に合わせられればよい。

センサ端末４２は、複数のタグ（タグ４１Ａ〜４１Ｅ）それぞれから集中ステータスを入力する。そして、センサ端末４２は、複数のタグ（タグ４１Ａ〜４１Ｅ）それぞれから入力された集中ステータスを、集中度計算装置４３に出力する。

集中度計算装置４３は、センサ端末４２から複数のタグ（タグ４１Ａ〜４１Ｅ）それぞれに対応した集中ステータスを入力する。また、集中度計算装置４３は、会話者特定装置４４から会話者特定データを入力する。また、集中度計算装置４３は、集中ステータスと会話者特定データとに基づいて、第１の音声会話装置１０に集中度データを出力する。

会話者特定装置４４は、第１の音声会話装置１０の近傍に設置されており、会話者特定装置４４から所定の距離以内のタグから無線ビーコン信号を入力する。会話者特定装置４４は、入力した無線ビーコン信号に基づいて、会話者を特定して集中度計算装置４３に会話者特定データを出力する。

図６は、音量制御部１８０の詳細構成を示す図である。図８に示すように、音量制御部１８０は、ゲイン計算部１８１および音声データ変換部１８２を備える。

ゲイン計算部１８１は、集中度検出システム４０から集中度データを入力する。また、ゲイン計算部１８１は、音声受信部１５０から音声復号データを入力する。また、ゲイン計算部１８１は、集中度データと音声復号データとに基づいて、ゲインデータを音声データ変換部１８２に出力する。

音声データ変換部１８２は、ゲイン計算部１８１からゲインデータを入力する。また、音声データ変換部１８２は、音声受信部１５０から音声復号データを入力する。また、音声データ変換部１８２は、ゲインデータと音声復号データとに基づいて、音声出力データを音声出力部１７０に出力する。

［２−２．動作の説明］
本発明の第２の実施形態に係る音声会話システム２の動作例について説明する。

図７は、本発明の第２の実施形態に係る音声会話システム２の動作を説明するための図である。以下では、図４〜図７を参照しながら、第１の音声会話装置１２と第２の音声会話装置２２との間の音声コミュニケーションの動作を、第１の音声会話装置１２側の視点で、順を追って説明する。なお、本発明の第２の実施形態に係る音声会話システム２の動作のうち、「（１）音声コミュニケーションの開始」「（２）第１の音声会話装置からの音声ストリームデータの送信」「（３）第２の音声会話装置からの音声ストリームデータの受信」「（５）音声コミュニケーションの切断」は、本発明の第１の実施形態に係る音声会話システム２の動作と共通するため、説明を省略する。

（４）第２の音声会話装置から受信した音声の音量制御
集中度検出システム４０は、所定期間（例えば、１分）毎に第１の集中度データを計算し、第１の音声会話装置１０の音量制御部１８０に出力する。以下、集中度検出システム４０の動作について、図５を参照しながら詳細に説明する。

図５に示した例では、第１の音声会話装置１２が設置された空間と同一の空間に、利用者Ａおよび他者Ｂ〜Ｅの５人が存在しており、そのうち利用者Ａが第１の音声会話装置１２を利用しており、他者Ｂ〜Ｅが空間内で他の活動を行っている場合を想定する。利用者Ａおよび他者Ｂ〜Ｅは、タグ４１Ａ〜４１Ｅをそれぞれ身に付けている。

タグ４１Ａ〜４１Ｅそれぞれは、マイクロフォンおよび加速度センサを内蔵しており、マイクロフォンによって空間内での会話の音量が閾値よりも小さいことが検出され、加速度センサによって加速度が閾値よりも小さい状態が所定時間継続したことが検出された場合（例えば、１分継続した場合）、このことを集中ステータスとしてセンサ端末４２に無線を用いて通知する。

センサ端末４２は、タグ４１Ａ〜４１Ｅそれぞれから受信される集中ステータスを、ネットワークを介して集中度計算装置４３に送信する。タグ４１Ａ〜４１Ｅそれぞれは、所定時間（例えば、１０秒）毎に無線ビーコン信号を発信し、会話者特定装置４４が近傍にある場合には、会話者特定装置４４によって無線ビーコン信号が受信される。図５に示された例では、第１の音声会話装置１２を利用している利用者Ａのタグ４１Ａから発信された無線ビーコン信号のみが会話者特定装置４４によって受信される。

会話者特定装置４４は、受信した無線ビーコン信号を発信するタグの情報を会話者特定データとして、集中度計算装置４３に送信する。

集中度計算装置４３は、収集されたタグ毎の集中ステータスと会話者特定データとに基づいて、集中ステータスに該当する人（集中している人）、かつ、会話者特定データに該当しない人の割合を計算し、計算した割合を集中度データ（０≦集中度データ≦１）として、第１の音声会話装置１２の音量制御部１８０に送信する。例えば、会話者特定データに該当しない他者Ｂ〜Ｅの４人のうち、集中ステータスに該当する人が３人存在した場合には、集中度データは、３／４＝０．７５となる。

続いて、第１の音声会話装置１２の音量制御部１８０は、集中度検出システム４０から入力された第１の集中度データの最新値に基づいて、音声受信部１５０から入力された音声復号データの音量を調整し、音量調整後の音声復号データを音声出力データとして、音声出力部１７０に出力する。

ここで、図６を参照しながら、音声復号データの音量調整の動作について詳細に説明する。音量制御部１８０のゲイン計算部１８１は、音声復号データを入力すると、本発明の第１の実施形態に係る音量検出部１３０と同様の方法によって音声復号データの音量を計算する。そして、ゲイン計算部１８１は、集中度検出システム４０から入力された集中度データの値に応じて、あらかじめ目標音量を設定し、目標音量と音声復号データ（例えば、１６ビット）の音量とを比較し、音声復号データの音量を目標音量に適合した音量に変換するための、レベル変換係数（ゲインデータ）を算出する。そして、ゲイン計算部１８１は、算出したレベル変換係数（ゲインデータ）を音声データ変換部１８２に出力する。

例えば、ゲイン計算部１８１は、集中度データの値が０〜０．４のいずれかである場合には、目標音量を８０００とし、集中度データの値が０．４〜０．７のいずれかである場合には、目標音量を４０００とし、集中度データの値が０．７〜１．０のいずれかである場合には、目標音量を２０００とする。このとき、集中度データの値が０．７５であり、音声復号データの音量が８０００である場合には、（目標音量が２０００となるため）ゲインデータは、２０００／８０００＝０．２５となる。

音声データ変換部１８２は、音声復号データにゲインデータを乗算して、音声出力データを計算する。これによって、音声出力データの音量は集中度データに応じた目標音量と一致することになる。

図４に戻って説明を続ける。第１の音声会話装置１２の音声出力部１７０は、音量制御部１８０から入力された音声出力データをアナログデータに変換し、アナログデータをスピーカーから音声信号（音響振動）として出力する。これによって、第１の音声会話装置１２の利用者は、第２の音声会話装置２２に入力された音声信号を聴くことができる。なお、第２の音声会話装置２２も第１の音声会話装置１２の動作と同様の動作を行うため、第２の音声会話装置２２の利用者も、第１の音声会話装置１２に入力された音声信号を聴くことができる。

図７は、音声信号の音量の変化について説明するための図である。ここでは、第１の音声会話装置１２がある第１の空間Ｐ１に利用者Ａが存在し、第２の音声会話装置２２がある第２の空間Ｐ２に利用者Ｂが存在する場合を想定する。このとき、図７に示すように、第１の空間Ｐ１に存在する人がそれぞれの活動に集中しており、第１の集中度データの値が大きい場合を想定する。このとき、利用者Ａの前では、利用者Ｂの声は小さい音に変換されて再生される。一方、第２の空間Ｐ２に存在する人同士のコミュニケーションが活発であり、第２の集中度データの値が小さい場合を想定する。このとき、利用者Ｂの前では、利用者Ａの声は大きい音に変換されて再生される。

［２−３．効果の説明］
以上のように、本発明の第２の実施形態によれば、集中度検出システム４０によって検出される第１の音声会話装置１２の周囲の第１の集中度データに基づいて、第２の音声会話装置２２に入力される音声の音量が調整され、音量調整後の音声が第１の音声会話装置１２から出力される。一例として、他者が集中して活動を行っている空間においては、遠隔地に存在する相手の発言も当該空間において小さい音量で聞こえるので、他者は会話音声を耳障りに感じにくく、自分自身の活動に集中できるという効果がある。

以上、本発明の第２の実施形態について説明した。

＜３．ハードウェア構成例＞
続いて、本実施形態に係る音声会話装置の例としてのデータ処理装置のハードウェア構成例について説明する。図８は、本実施形態に係る音声会話装置の例としてのデータ処理装置のハードウェア構成を示す図である。なお、通話制御サーバー３０、センサ端末４２、集中度計算装置４３および会話者特定装置４４それぞれのハードウェア構成も、図８に示されたデータ処理装置９０のハードウェア構成と同様に実現されてよい。

図８に示すように、データ処理装置９０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３と、ホストバス９０４と、ブリッジ９０５と、外部バス９０６と、インタフェース９０７と、入力装置９０８と、出力装置９０９と、ストレージ装置９１０と、通信装置９１１と、を備える。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従ってデータ処理装置９０内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはＣＰＵバス等から構成されるホストバス９０４により相互に接続されている。

ホストバス９０４は、ブリッジ９０５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バス等の外部バス９０６に接続されている。なお、必ずしもホストバス９０４、ブリッジ９０５および外部バス９０６を分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

入力装置９０８は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバー等、利用者が情報を入力するための入力手段と、利用者による入力に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路等から構成されている。データ処理装置９０を操作する利用者は、この入力装置９０８を操作することにより、データ処理装置９０に対して各種のデータを入力したり処理動作を指示したりすることができる。

出力装置９０９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置、ランプ等の表示装置およびスピーカー等の音声出力装置を含む。

ストレージ装置９１０は、データ格納用の装置である。ストレージ装置９１０は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置９１０は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）で構成される。このストレージ装置９１０は、ハードディスクを駆動し、ＣＰＵ９０１が実行するプログラムや各種データを格納する。

通信装置９１１は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置９１１は、無線通信または有線通信のどちらに対応してもよい。

以上、本実施形態に係るデータ処理装置９０のハードウェア構成例について説明した。

＜４．変形例＞
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

本発明の第１の実施形態では、第１の音声会話装置１０にて、音声入力データの音量を検出し、音声入力データの音量に基づいて第２の音声会話装置２０から受信される音声の音量を調整して音声出力を行う構成について説明した。しかし、第２の音声会話装置２０にて同様の処理を行う構成とされてもよい。すなわち、第２の音声会話装置２０において、第１の音声会話装置１０から受信される音声の音量を検出し、検出した音量に基づいて音声入力データの音量を調整して第１の音声会話装置１０に送信するように構成されれば、本発明の第１の実施形態と同様の効果が得られる。

本発明の第２の実施形態では、集中度検出システム４０にて、第１の音声会話装置１２の周辺の集中度データを検出し、第１の音声会話装置１２にて、集中度データに基づいて第２の音声会話装置２２から受信される音声の音量を調整して音声出力を行う構成について説明した。しかし、第２の音声会話装置２２にて同様の処理を行う構成とされてもよい。すなわち、集中度検出システム４０において、第１の音声会話装置１２の周辺の集中度データを検出し、第２の音声会話装置２０において、集中度データに基づいて音声入力データの音量を調整して第１の音声会話装置１０に送信するように構成されれば、本発明の第２の実施形態と同様の効果が得られる。

本発明の第２の実施形態では、集中度検出システム４０が第１の音声会話装置１２の周囲に存在する人の音声の音量と加速度とを検出し、検出した音量と加速度とに基づいて、集中度データを計算する例について説明した。しかし、集中度データの計算方法は、かかる例に限定されない。集中度データとして、第１の音声会話装置１２の近傍に存在する人の物事への集中度合いの指標となる数値が得られれば、任意の方法が用いられてよい。例えば、集中度検出システム４０は、第１の音声会話装置１２の近傍を撮影可能なカメラの映像から人の動きの量を検出し、屋内測位手段により第１の音声会話装置１２の近傍にいる人の位置を検出し、または、人の行動情報（表情、視線、姿勢など）または生体情報（脈拍、呼吸など）を検出し、これらの計測データに基づいて集中度データを算出してもよい。

例えば、集中度検出システム４０は、人の行動情報が背伸びを示していれば、その人が集中していないことを算出してもよい。あるいは、集中度検出システム４０は、人の行動情報が腕組みを示していれば、その人が集中していることを算出してもよい。あるいは、集中度検出システム４０は、机の近傍にいる人がいれば、その人が集中していることを算出してもよい。あるいは、集中度検出システム４０は、人同士が近接していたり、人同士がコミュニケーションを取っていたりしていれば、その人達が集中していることを算出してもよい。あるいは、集中度検出システム４０は、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）への入力回数が閾値よりも多い人、または、アプリケーションの切り替えを閾値よりも多くしている人がいれば、その人が集中していることを算出してもよい。あるいは、集中度検出システム４０は、機械学習によって得たモデルを利用して集中度データを算出してもよい。

本発明の第１の実施形態および本発明の第２の実施形態においては、音声会話装置が２台ある場合について説明した。しかし、音声会話装置は３台以上存在し、３台以上の音声会話装置の間で音声コミュニケーションが行われたとしても、音声会話装置が２台存在する場合と同様の効果が享受される。

また、第１の音声会話装置が置かれた空間に関する情報と、第２の音声会話装置に入力された第２の利用者の音声信号の音量とに基づいて、第１の音声会話装置から第１の利用者に出力される第２の利用者の音声信号の音量を制御する制御部を備える、音声処理装置が提供される。ここで、空間に関する情報は、本発明の第１の実施形態では、第１の利用者の音声信号の音量に相当し、本発明の第２の実施形態では、第１の音声会話装置の周囲に存在する他者の集中度データに相当する。

音声処理装置は、第１の音声会話装置の内部に存在してもよいし、第２の音声会話装置の内部に存在してもよい。あるいは、音声処理装置は、第１の音声会話装置および第２の音声会話装置とは異なる装置（サーバなど）の内部に存在してもよい。

また、本発明の第１の実施形態および第２の実施形態における、第２の利用者の音声信号の音量は、第２の利用者の音声信号の音の特徴に置き換えられてもよい。すなわち、制御部は、第１の音声会話装置が置かれた空間に関する情報と、第２の音声会話装置に入力された第２の利用者の音声信号の音の特徴とに基づいて、第１の音声会話装置から第１の利用者に出力される第２の利用者の音声信号の特徴を制御してもよい。

さらに、空間に関する情報の例としての第１の利用者の音声信号の音量も、第１の利用者の音声信号の音の特徴に置き換えられてもよい。すなわち、制御部は、第１の音声会話装置の第１の利用者の音声信号の音の特徴と、第２の音声会話装置に入力された第２の利用者の音声信号の音の特徴とに基づいて、第１の音声会話装置から第１の利用者に出力される第２の利用者の音声信号の音の特徴を制御してもよい。これによって、会議への参加者による遠隔地からの音声の聞き取りやすさと、参加者の周囲に存在する他者による自分自身の活動への集中のしやすさとの双方を適切に制御される。

また、空間に関する情報の例として集中度データが用いられる場合にも、集中度データに対応する目標音量の代わりに、集中度データに対応する音の特徴が用いられてよい。すなわち、制御部は、空間に関する情報の例として集中度データが用いられる場合、集中度データに対応する目標の音の特徴に適合するように、第２の利用者の音声信号の音の特徴を制御してもよい。

このとき、第１の利用者および第２の利用者それぞれの音声信号の音の特徴、集中度データに対応する目標の音の特徴などは、音量の他、音のトーンであってもよいし、音のピッチであってもよいし、音の抑揚であってもよいし、他の特徴であってもよい。音のトーン、音のピッチ、音の抑揚なども、何らかの方法によって定量化することが可能である。したがって、制御部は、音量の制御と同様に、音のトーン、音のピッチまたは音の抑揚を制御すればよい。

１、２音声会話システム
１０、１２第１の音声会話装置
２０、２２第２の音声会話装置
３０通話制御サーバー
４０集中度検出システム
４２センサ端末
４３集中度計算装置
４４会話者特定装置
１１０音声入力部
１２０音声送信部
１３０音量検出部
１４０通話制御部
１５０音声受信部
１６０、１８０音量制御部
１６１、１８１ゲイン計算部
１６２、１８２音声データ変換部
１７０音声出力部

Claims

第１の音声会話装置が置かれた空間に関する情報と、第２の音声会話装置に入力された第２の利用者の音声信号の音の特徴とに基づいて、前記第１の音声会話装置から第１の利用者に出力される前記第２の利用者の前記音声信号の音の特徴を制御する制御部を備える、
音声処理装置。
前記空間に関する情報は、前記第１の利用者の音声信号の音の特徴を含む、
請求項１に記載の音声処理装置。
前記制御部は、前記第１の利用者の音声信号の音の特徴に適合するように、前記第２の利用者の前記音声信号の音の特徴を制御する、
請求項２に記載の音声処理装置。
前記第１の利用者および前記第２の利用者それぞれの音声信号の音の特徴は、音量、音のトーン、音のピッチまたは音の抑揚である、
請求項２または３に記載の音声処理装置。
前記空間に関する情報は、前記第１の音声会話装置の周囲の集中度データを含む、
請求項１に記載の音声処理装置。
前記空間に関する情報は、前記集中度データに対応する目標の音の特徴に適合するように、前記第２の利用者の前記音声信号の音の特徴を制御する、
請求項５に記載の音声処理装置。
前記集中度データに対応する目標の音の特徴および前記第２の利用者の音声信号の音の特徴それぞれは、音量、音のトーン、音のピッチまたは音の抑揚である、
請求項５または６に記載の音声処理装置。
前記音声処理装置は、前記第１の音声会話装置または前記第２の音声会話装置の内部に存在する、
請求項１〜７のいずれか一項に記載の音声処理装置。
前記音声処理装置は、前記第１の音声会話装置および前記第２の音声会話装置とは異なる装置の内部に存在する、
請求項１〜７のいずれか一項に記載の音声処理装置。
第１の音声会話装置が置かれた空間に関する情報と、第２の音声会話装置に入力された第２の利用者の音声信号の音の特徴とに基づいて、前記第１の音声会話装置から第１の利用者に出力される前記第２の利用者の前記音声信号の音の特徴を制御することを含む、
音声処理方法。
コンピュータを、
第１の音声会話装置が置かれた空間に関する情報と、第２の音声会話装置に入力された第２の利用者の音声信号の音の特徴とに基づいて、前記第１の音声会話装置から第１の利用者に出力される前記第２の利用者の前記音声信号の音の特徴を制御する制御部を備える、
音声処理装置として機能させるためのプログラム。