JP2006174198A

JP2006174198A - 音声再生端末、音声再生方法、音声再生プログラム、及び音声再生プログラムの記録媒体

Info

Publication number: JP2006174198A
Application number: JP2004365387A
Authority: JP
Inventors: Takeya Suzuki; 健也鈴木; Nobuhiko Takehara; 伸彦竹原; Tomoki Watabe; 智樹渡部; Hisashi Ibaraki; 久茨木
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-12-17
Filing date: 2004-12-17
Publication date: 2006-06-29

Abstract

【課題】通話機能を含む音声再生端末において再生する音声を、継続して聴取し続けること又は相手の意向と調停しながら共有して聴取し続けることを簡単な操作で実現する。
【解決手段】音声を出力する聴取用デバイス１１０、聴取用デバイス１１０に音声情報を供給する音声記憶装置１０３、ネットワークを介して通話を行う通話部１２０、ユーザからの操作を入力する操作用デバイス１３０、音声記憶装置１０３から供給される音声情報と相手方端末２００から受信した通話音声情報とをミキシングして聴取用デバイス１１０で再生する音信号加算部１０５、音声記憶装置１０３から供給される音声情報を通話部１２０を介して通話を行う相手方端末２００に送信し、操作用デバイス１３０からの入力情報に基づいて聴取用デバイス１１０で再生されるミキシング音声を構成する各音声情報の聞こえやすさを調整する操作制御部１３１を有する音声再生端末１００。
【選択図】図１

Description

本発明は、通話機能を含む音声再生端末において、通話着信後も音声を継続して聴取し続ける、又は相手と共有して音声を聴取する技術に関する。

一般に、通話機能を含む音声再生端末において通話が着信すると、着信呼出音声（例えば、ベルなど）を、ヘッドホンなど聴取デバイスの音声に重畳し、利用者に通話の着信を知らせる。利用者がボタン操作などによって通話することを示すと、それまで再生していた音楽などの音声を停止し、通話の音声が優先されて再生される。

このような際に、着信前に再生していた音声を含むマルチメディアデータなどを通話相手と共有するためには、例えば、閲覧者と応対者との両方が通話の開始前に準備操作を行い、利用者が手元のＷＷＷブラウザなどによってページを切り替えることで、通話の開始を媒介したサーバを介して、同じページが相手側のＷＷＷブラウザにも表示されることで、通話とＷＷＷブラウザ（音声の再生も容易に類推可能）の両方を同時に利用した対話型通信を実現していた(例えば、特許文献１参照。)。

また、着信前に再生していた音声を継続して聴取し続ける、又は相手と共有して聴取するといった一連のマルチメディア情報操作等に際して、マルチメディア制御装置のデバイス競合を回避するためには、例えば、デバイス操作処理部に、該デバイス操作処理部以外からの通信により、マルチメディアデバイスの操作を開始するデバイス占有操作開始インタフェースと、そのマルチメディアデバイスが開放されたことを、該デバイス操作処理部以外へ通信するデバイス占有操作開放通知インタフェースとを具備させることによって実現していた(例えば、特許文献２参照。)。
特開平１０−２２８４３１号公報特開２００１−４２９８３号公報

しかしながら、上述した従来の技術では、着信した通話を行おうとすると、それまで再生していた音楽などの音声を停止し、通話の音声が優先されて再生されるため、音楽などの音声を相手と共有して聴取すること自体が困難であった。

また、上述した従来の技術では、音楽などの音声を相手と共有して聴取するためには、通話発信／着信に先立って準備操作を行う必要があるため、不意に思い立って、又は簡単な操作で音声を共有することは難しい。

同様に、音声の共有再生を行う際、相手側の再生デバイス空き状況や利用者の許可によって、再生するかどうかを二者択一的に決定するため、より自然な操作感で相手の意向と調停しながら、共有聴取を実現することは難しかった。

このように、従来の技術では、利用者の認知的負荷は増加し、不要なボタン操作や準備操作等が増加する場合がある。

本発明は、上記のような問題を解決するためになされたもので、通話機能を含む音声再生端末において、再生している音声（音楽、解説音声、又は、別の音声通話など。通話着信前から再生しているもの、又は通話着信後に再生を始めてもよい）を、継続して聴取し続けること、又は相手の意向と調停しながら共有して聴取し続けることを簡単な操作で実現できる音声共有技術を提供することを目的とする。

そこで上記課題を解決するために、請求項１に記載の発明は、通話機能を有する音声再生端末であって、音声を出力する音声再生手段と、前記音声再生手段に音声情報を供給する音声供給手段と、ネットワークを介して通話を行う通話手段と、ユーザからの操作を入力する操作手段と、前記音声供給手段から供給される音声情報を前記通話手段を介して通話を行う相手方端末に送信する音声情報送信手段と、前記音声供給手段から供給される音声情報と前記相手方端末から受信した通話音声情報とをミキシングして前記音声再生手段で再生するミキシング手段と、前記操作手段からの入力情報に基づいて前記音声再生手段で再生されるミキシング音声を構成する前記各音声情報の聞こえやすさを調整する操作制御手段と、を有することを特徴とする。

また、請求項２に記載の発明は、前記ミキシング手段は、前記音声供給手段から供給される音声情報と前記相手方端末から受信した通話音声情報と前記相手方端末から受信した前記相手方端末が蓄積している音声情報とをミキシングして前記音声再生手段で出力することを特徴とする。

また、請求項３に記載の発明は、前記相手方端末との通話中において、前記操作手段から一定期間入力がないときに、前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力される音声の聞きやすさを経時的に減少させる音声調整手段を有することを特徴とする。

また、請求項４に記載の発明は、前記音声再生手段はステレオ音声を出力し、前記音声調整手段は前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力されるステレオ音声を、経時的にモノラル音声で出力させるようにし、かつ、前記再生される音量を経時的に小さくすることを特徴とする。

また、請求項５に記載の発明は、前記音声再生手段は前記音声再生手段から出力される音声の音源を擬似的に空間に配置することが可能であり、前記音声調整手段は前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力される音声の音源を経時的に遠方に移動させることを特徴とする。

また、請求項６に記載の発明は、前記操作手段からの入力情報が示す方向に基づいて、前記操作制御手段は前記音量、モノラル音声とステレオ音声との切り換え、又は前記音源の位置を調整する処理を行うことを特徴とする。

また、請求項７に記載の発明は、前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力される音声の聞きやすさが最大に達しているときは、前記音声供給手段から供給される前記相手方端末における音声の聞きやすさを前記通信手段を用いて変化させる相手方端末調整手段を有することを特徴とする。

また、請求項８に記載の発明は、前記音声再生手段、又は前記操作手段は前記音声再生端末とは分離しており、有線又は無線により前記音声再生端末と通信することを特徴とする。

また、請求項９に記載の発明は、前記前記音声再生手段と前記操作手段との位置関係を検出する位置関係検出手段を有し、前記操作制御手段は前記位置関係検出手段の位置関係情報に基づいて、前記操作手段から入力される前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力される音声が聞こえる方向、又は前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力される音声の音源の方向を補正することを特徴とする。

また、請求項１０に記載の発明は、通話機能を有する音声再生端末における音声再生方法であって、音声供給手段が音声再生手段に音声情報を供給する音声供給ステップと、前記音声再生手段が音声を出力する音声再生ステップと、通話手段ネットワークを介して通話を行う通話ステップと、音声情報送信手段が前記音声供給手段から供給される音声情報を前記通話手段を介して通話を行う相手方端末に送信する音声情報送信ステップと、ミキシング手段が前記音声供給手段から供給される音声情報と前記相手方端末から受信した通話音声情報とをミキシングして前記音声再生手段で再生するミキシングステップと、操作手段がユーザからの操作を入力する操作ステップと、操作制御手段が前記操作手段からの入力情報に基づいて前記音声再生手段で再生されるミキシング音声を構成する前記各音声情報の聞こえやすさを調整する操作制御ステップと、を有することを特徴とする。

また、請求項１１に記載の発明は、前記ミキシング手段は、前記音声供給手段から供給される音声情報と前記相手方端末から受信した通話音声情報と前記相手方端末から受信した前記相手方端末が蓄積している音声情報とをミキシングして前記音声再生手段で出力することを特徴とする。

また、請求項１２に記載の発明は、前記相手方端末との通話中において、前記操作手段から一定期間入力がないときに、音声調整手段が前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力される音声の聞きやすさを経時的に減少させる音声調整ステップを有することを特徴とする。

また、請求項１３に記載の発明は、前記音声再生手段はステレオ音声を出力し、前記音声調整手段は前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力されるステレオ音声を、経時的にモノラル音声で出力させるようにし、かつ、前記再生される音量を経時的に小さくすることを特徴とする。

また、請求項１４に記載の発明は、前記音声再生手段は前記音声再生手段から出力される音声の音源を擬似的に空間に配置することが可能であり、前記音声調整手段は前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力される音声の音源を経時的に遠方に移動させることを特徴とする。

また、請求項１５に記載の発明は、前記操作手段からの入力情報が示す方向に基づいて、前記操作制御手段は前記音量、モノラル音声とステレオ音声との切り換え、又は前記音源の位置、を調整する処理を行うことを特徴とする。

また、請求項１６に記載の発明は、前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力される音声の聞きやすさが最大に達しているときは、相手方端末調整手段が前記音声供給手段から供給される前記相手方端末における音声の聞きやすさを前記通信手段を用いて変化させる相手方端末調整ステップを有することを特徴とする。

また、請求項１７に記載の発明は、前記音声再生手段、又は前記操作手段は前記音声再生端末とは分離しており、有線又は無線により前記音声再生端末と通信することを特徴とする。

また、請求項１８に記載の発明は、位置関係検出手段が前記前記音声再生手段と前記操作手段との位置関係を検出する位置関係検出ステップを有し、前記操作制御手段は前記位置関係検出手段の位置関係情報に基づいて、前記操作手段から入力される前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力される音声が聞こえる方向、又は前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力される音声の音源の方向を補正することを特徴とする。

また、請求項１９に記載の発明は、上記の請求項１〜１８のいずれか１項に記載の音声再生端末又は音声再生方法を、コンピュータプログラムで記載してそれを実行可能にしたことを特徴とする。

また、請求項２０に記載の発明は、上記の請求項１〜２０のいずれか１項に記載の音声再生端末又は音声再生方法を、コンピュータで実行可能に記載したプログラムを記録したことを特徴とする。

請求項１及び１０に記載の発明では、通話時に相手方端末に音声を送信し、当該音声と通話音声とをミキシングして出力するので、通話時に相手方端末と音声供給手段に蓄積されている音声情報を共有することが可能となる。

請求項２及び１１に記載の発明では、相手方端末から送信される音声情報についても共有することが可能となる。

請求項３及び１２に記載の発明では、共有する音声情報の出力音量を自動で調整することが可能となる。

請求項４及び１３に記載の発明では、共有する音声情報の出力音量を経時的かつ段階的に調整することが可能となる。

請求項５及び１４に記載の発明では、共有する音声情報の出力音量を経時的かつ段階的に調整することが可能となる。

請求項６及び１５に記載の発明では、共有する音声情報の出力音量を経時的かつ段階的にユーザが調整することが可能となる。

例えば、操作手段からの入力情報がモノラル音声が聞こえてくる方向、又は音源の位置の方向を示すものであれば、操作制御手段は音量をさらに小さくする、又は音源の位置をさらに遠方にする処理を行い、操作手段からの入力情報がモノラル音声が聞こえてくる方向とは異なる方向、又は音源の位置の方向とは異なる方向を示すものであれば、操作制御手段は音量を大きくする若しくはステレオ音声にする、又は音源の位置を近づける、という処理を行うことが可能となる。

請求項７及び１６に記載の発明では、相手方端末で出力される共有する音声情報の聞こえやすさを調整してより密接な共有が可能となる。

請求項８及び１７に記載の発明では、よりユーザが使用しやすい形態を実現することが可能となる。

請求項９及び１８に記載の発明では、ユーザからの入力情報を補正するので、ユーザにおいて操作性が向上する。

請求項１〜２０に記載の発明によれば、音声を相手方端末と共有して聴取するために、通話発信／着信に先立って準備操作を行う必要がなく、不意に思い立って、また簡単な操作で音声を共有することができる。

また、音声の共有再生を行う際、相手側の再生デバイス空き状況や利用者の許可を、より自然な操作感で相手の意向と調停しながら得ることができるため利用者の認知的負荷は減少し、不要なボタン操作や準備操作等を抑止させることができる。すなわち、通話機能を含む音声再生端末において再生する音声を、継続して聴取し続けること、又は相手の意向と調停しながら共有して聴取し続けることを簡単な操作で実現できる。

以下、本発明の実施形態を図面を用いて説明する。

図１は、本発明の実施形態に係る音声共有型通話端末装置の構成を表すブロック図である。図１に示す音声共有型通話端末装置１００は、コントローラ１０１、メモリ１０２、音声記憶装置１０３、音声再生部１０４、音声信号加算部１０５、聴取用デバイス１１０、通信部１２０、マイク１２１、着信音発生部１２２、操作用デバイス１３０、及び操作制御部１３１から構成される。

音声共有型通話端末装置１００は、相手側端末２００と通話を行う際には、電話網、ＬＡＮ、無線ＬＡＮ、インターネット等の通信ネットワークに接続されている。

本実施形態は、コントローラ１０１及びメモリ１０２を有する装置として記載するが、汎用ＰＣなどのコンピュータ上で動作するプログラムとして実現されてもよい。通常、音声記憶装置１０３は、ハードディスクや不揮発性メモリなどの外部記憶装置として実現し、また、音声再生部１０４、音声信号加算部１０５、通信部１２０、着信音発生部１２２、及び操作制御部１３１は、メモリ１０２に格納された制御プログラムがコントローラ１０１で実行される形態で実現できるが、それぞれを装置として実現することも可能である。

音声記憶装置１０３には、本実施形態で独自に再生される音楽、解説音声などの音声が格納されている。通常は、ディジタル化したデータ形式で格納されているが、アナログ形式で格納されていてもよい。また、ディジタル化の符号化方式に関してはいずれのものを用いてもよい。

さらに、音声記憶装置１０３は、別の通話における音声、放送を受信した音声などを、外部記憶装置としてではなく、受信した音声を一時的に蓄えておくバッファのような形態で実施してもよい。

音声再生部１０４は、音声記憶装置１０３に格納されている音声を、音声信号加算部１０５を通じて聴取用デバイス１１０で音として発音可能な形式に加工してから、音声信号加算部１０５に伝達する。同様に、コントローラ１０１から指示された場合には、通信部１２０にも音声（信号、データ）を伝達する。

音声信号加算部１０５は、音声再生部１０４、通信部１２０、及び、着信音発生部１２２から出力された音声（聴取用デバイス１１０で音として発音可能なデータや信号）を加算し、聴取用デバイス１１０に伝達する。

例えば、聴取用デバイス１１０に伝達すべき信号が、１６ビットに量子化されたＰＣＭデータであり、音声再生部１０４、通信部１２０、及び、着信音発生部１２２からの入力も同様の場合などで、それぞれの入力データが最大振幅ならば、そのままＰＣＭデータを加算しただけでは、聴取用デバイス１１０で発音した際に音声の歪みが出てしまう。このようなことを抑制するために、音声信号加算部１０５では、固定的、又は、適応的にそれぞれの入力データを正規化し、それらを加算した後に音声の歪みが出ないように加算処理を行うことが可能である。

聴取用デバイス１１０は、ヘッドホン、スピーカなどの発音装置で、音声信号加算部１０５から伝達された信号がＰＣＭデータであれば、Ｄ／Ａ変換を行う。なお、聴取用デバイス１１０が、音声共有型通話端末装置１００と赤外線や電波などを使ったワイヤレスで接続された形態も可能である。

通信部１２０は、相手側端末２００と電話網、ＬＡＮ、無線ＬＡＮ、インターネット等の通信ネットワークによって接続され、通話機能を実現する。相手側端末２００との間の通信方式については、例えば、通常の電話回線、ＶｏＩＰ（ＶｏｉｃｅｏｖｅｒＩＰ，インターネット電話）などが考えられる。

この通信ネットワークが、電話回線など、音声のみしか通さないものの場合は、通信部１２０で、マイク１２１から伝達された音声と、音声再生部１０４から伝達された音声を、音声信号加算部１０５と同様の機能によって加算し、相手側端末２００に伝達することになる。一方、ＬＡＮ上のＩＰ通信のように、データの通信を許容するものの場合は、相手側端末２００と通話とは別の論理チャネル（データ通信を行う論理的な回線）を設定し、その中で、音声再生部１０４から伝達された音声データ（ＰＣＭデータや圧縮・符号化されたデータなど）、及び操作制御部１３１から伝達された制御信号データを個別にやり取りする。但し、相手側端末２００が、音声共有型通話端末装置１００、又はその互換機能を有する装置でない場合は、電話回線と同様の処理を行う。

マイク１２１は、相手側端末２００と通話をする際の、音声を採取する装置である。採取された音声は、通信部１２０で処理可能な形式（例えば、１６ビットに量子化したＰＣＭデータ、など）に加工して、通信部１２０に伝達する。同様に、コントローラ１０１からの指示された場合には、通信部１２０に音声（信号、データ）を伝達する。マイク１２１には、音声共有型通話端末装置１００と赤外線や電波などを使ったワイヤレスで接続された形態や、聴取用デバイス１１０と一体化した形態も可能である。

着信音発生部１２２は、通信部１２０が相手側端末２００からの着信を検知した際に、通信部１２０から指示されて、ベルなどの着信呼出音声を、音声信号加算部１０５を通じて聴取用デバイス１１０で音として発音可能な形式で、音声信号加算部１０５に伝達する。

例えば、ステレオ音声の片側からだんだん両側に広げて発音する、小さい音量から大きな音量へコントロールする、及び三次元音場（ヘッドホンを併用するなど）を使ってぐるぐるまわっているようにする等の形式が可能である。その他、着信音発生部１２２に対して、バイブレータなどの別デバイスを使用して、着信を報知することも可能である。

通信部１２０から停止の指示が伝達された際には、音声信号加算部１０５への着信呼出音声の伝達を停止する。

操作用デバイス１３０は、例えば、図２に示すように、スライダ１３０−１のような連続的な値を入力できるデバイスを持ち、その入力値を操作制御部１３１に伝達する。また、図２のスライダ１３０−１のような形態に限定せず、例えば、２つのボタンなどでもよい。このような２つのボタンを用いた場合は、それぞれをステレオ音声で言うところの左右に対応させる。２つ以上のボタンを用いて、各々の強弱を入力できるようにしてもよい。

また、図２に示したように、着信ボタン１３０−２を備えていてもよい。この着信ボタン１３０−２は、通話の着信が報知された際に、通信の開始を了承し、音声通話を始めるために用いるものである。なお、着信ボタン１３０−２の代わりに、スライダ１３０−１の入力を操作制御部１３１で解析し、あるパターンに適合した場合に着信ボタンを押したことにするような、ジェスチャー処理としてもよい。なお、操作用デバイス１３０が、音声共有型通話端末装置１００と赤外線や電波などを使ったワイヤレスで接続された形態も可能である。

また、操作用デバイス１３０における入力デバイスは、スライダ１３０−１のような形態に限定せず、例えば、２つのボタンなどでもよい。このような２つのボタンを用いた場合は、それぞれをステレオ音声で言うところの左右に対応させる。２つ以上のボタンを用いて、各々の強弱を入力できるようにしてもよい。

操作制御部１３１は、操作用デバイス１３０から伝達された値を解析し、コントローラ１０１を通じて音声再生部１０４で再生される音声の音量（又は聞きやすさ等）を変更する指示を伝達する。ここでの指示の伝達は、必ずしもコントローラ１０１を通じて指示を伝達する必要はなく、直接、音声再生部１０４に指示を伝達してもよい。同様に、通信部１２０と相手側端末２００とが通話とは別の論理チャネルを設定し、その中で、音声再生部１０４から伝達された音声データ（ＰＣＭデータや圧縮・符号化されたデータなど）を通信している場合は、相手側端末２００で再生される音声の音量（又は聞きやすさ等）を変更する指示を通信部１２０に伝達し、相手側端末２００への制御信号データとして送信することも可能である。

また、通信部１２０が、相手側端末２００から同様の音声音量変更指示を受信している場合は、この音声音量変更指示（音声の音量又は聞きやすさを変更する指示）を伝達され、コントローラ１０１を通じて音声再生部１０４で再生される音声の音量（又は聞きやすさ等）を変更する指示を伝達してもよい。

なお、操作制御部１３１は、着信ボタン１３０−２が押された場合などに、通信部１２０に通話（通信）の開始を指示する機能も有している。指示を受けた通信部１２０は、通話が開始されたら、着信音発生部１２２へ着信音の停止指示を伝達する
以下、主に操作制御部１３１で実行される処理について、図面を用いて説明する。

図３は、操作制御部１３１で実行される処理のフロー図である。図３に示すように音声再生部１０４では、既に音声（音楽、解説音声、又は別の音声通話など）を再生中であるとする。この音声再生部１０４で再生している音声には、処理の説明をやりやすくするために、「メイン音声」、「サブ音声」というラベルをつけることとする。「メイン音声」とは、利用者が主として聴取しようとしている音声であり、通信部１２０を用いた通話が行われていない場合に相当する。「サブ音声」とは、利用者が、自身で聴取、又は通話中の相手と共有して聴取しようとしている音声であり、通信部１２０を用いた通話が行われている場合に相当する。音声再生部１０４では、既に再生中の音声は「メイン音声」である。

操作制御部１３１では、Ｓ１０１として、通信部１２０が通話を着信しているかどうか、ポーリングしており、通話の着信があった場合は、Ｓ１０２に遷移する。なお、ポーリングの代わりに、通信部１２０から操作制御部１３１への着信通知信号の伝達によって以下のＳ１０２以降が起動する形態でもよい。

Ｓ１０２では、着信音発生部１２２に着信音の発生を指示する制御信号を伝達し、着信音を発生させる。制御信号の伝達は通信部１２０を通じて行うが、直接行ってもよい。その後、Ｓ１０３に遷移する。

Ｓ１０３では、操作用デバイス１３０からの入力を監視し、着信ボタン１３０−２が押されたらＳ１０４に遷移する。なお、着信ボタン１３０−２の代わりに、スライダ１３０−１の入力を解析し、すばやく左右に動かしたなど、あるパターンに適合した場合に着信ボタンを押したとみなし、Ｓ１０４に遷移させることも可能である。

Ｓ１０４では、Ｓ１０３で利用者から着信が許可されたら、着信音発生部１２２に着信音の停止を指示する制御信号を伝達し、着信音を停止させる。制御信号の伝達は通信部１２０を通じて行うが、直接行ってもよい。その後、Ｓ１０５に遷移する。

Ｓ１０５では、通信部１２０を用いた通話が開始されたため、現在の「メイン音声」である、音声再生部１０４で既に再生中の音声を「サブ音声」とする。その後、Ｓ１０６に遷移する。

Ｓ１０６では、通信部１２０で通話を継続しているかどうかポーリングする。通話が継続される場合は、Ｓ１０８に遷移する。通話が終了していた場合には、Ｓ１０７に遷移する。また、操作用デバイス１３０からの入力を監視し、着信ボタン１３０−２が押されたら、通話の終了とみなしてＳ１０７に遷移する実装も可能である。同様に、着信ボタン１３０−２の代わりに、スライダ１３０−１の入力を解析し、すばやく左右に動かしたなど、あるパターンに適合した場合に着信ボタンを押したとみなし、Ｓ１０７に遷移させる実装も可能である。

Ｓ１０７では、現在の「メイン音声」である通話音声がなくなるため、音声再生部１０４で再生中の音声を「サブ音声」から「メイン音声」とし、その後、この処理を終了する。終了後、通常、操作制御部１３１では、Ｓ１０１が再起動する。

Ｓ１０８では、操作用デバイス１３０からの入力を監視し、スライダ１３０−１による操作が行われたかどうかを判断する。操作が行われなかった場合は、Ｓ２２０に遷移し、操作が行われた場合は、Ｓ１０９に遷移する。

Ｓ１０９では、Ｓ１０８で入力されたスライダ１３０−１による操作の種類を判断する。種類の判定方法については後述するが、「順方向」と判断された場合はＳ２１０に遷移し、「逆方向」と判断された場合はＳ２２０に遷移する。

Ｓ２１０では、「サブ音声」を聞こえにくくする処理を行い、Ｓ１０６に遷移する。

Ｓ２２０では、「サブ音声」を聞こえやすくする処理を行い、Ｓ１０６に遷移する。

音声再生部１０４での音声再生は、通話着信後に始めてもよい。その場合は、音声再生を「サブ音声」として開始し、図３中の(１)に示すようにＳ１０６からの流れに従う。

ここで図４を用いて、図３におけるＳ２１０とＳ２２０で行われる処理フローを説明する。

図４（ａ）は、Ｓ２１０の処理を表している。まず、Ｓ２１１として、「サブ音声」を通話相手に送信しているかを判断する。ここでは、「サブ音声」を通話相手に送信しているかのフラグが「Ｙｅｓ」か「Ｎｏ」かにより判断する。「サブ音声」を通話相手に送信していない場合は、Ｓ２１２へ遷移し、「サブ音声」を通話相手に送信している場合は、Ｓ２１３に遷移する。

Ｓ２１２では、コントローラ１０１を通じて、音声再生部１０４に自端末内における「サブ音声」の聞こえやすさパラメータを減じる制御信号を伝達する。音声再生部１０４では、この制御信号を受け、自端末内における「サブ音声」の聞こえやすさパラメータを減じる。その後、Ｓ２１０は終了する。

この自端末内における「サブ音声」の聞こえやすさパラメータを減じる方法としては、例えば、ステレオの両側から聞こえていた音声をミックスして片側からの音声に切り替え、大きな音量から小さな音量へと変化させる、といった制御を連続的に行うことが挙げられる。また、３次元音場技術を使って、ステレオの左右両側で再生されていたサブ音声を、図５に示した(１)→(２)→(３)のように、脇に片寄りながら遠ざかるイメージで定位させることによって実現してもよい。

Ｓ２１３では、通信部１２０を通じて、通信相手に送信する「サブ音声」の聞こえやすさパラメータを減じる。通信部１２０では、この制御信号を受け、音声再生部１０４から伝達されている、通信相手に送信する「サブ音声」の聞こえやすさパラメータを減じる。その後、Ｓ２１０は終了する。

この際、通信部１２０と相手側端末２００とが通話とは別の論理チャネルを設定し、その中で、音声再生部１０４から伝達された音声データ（ＰＣＭデータや圧縮・符号化されたデータなど）を通信している場合は、通信相手に送信する「サブ音声」の聞こえやすさパラメータを減じるように変更する指示を相手側端末２００への制御信号データとして送信する。

Ｓ２１４では、通話相手に送信する「サブ音声」の聞こえやすさパラメータの値を判断し、０であればＳ２１５へ進み、>０であれば処理を終了する。

Ｓ２１５では、通話相手への「サブ音声」送信を停止する。ここでは、「サブ音声」を通話相手に送信しているかどうかのフラグを「Ｎｏ」に設定する。

一方、図４（ｂ）はＳ２２０の処理を表している。まず、Ｓ２２１として、「サブ音声」を通話相手に送信しているかどうかを判断する。ここでは、「サブ音声」を通話相手に送信しているかのフラグが「Ｙｅｓ」か「Ｎｏ」かにより判断する。「サブ音声」を通話相手に送信していない場合は、Ｓ２２２へ遷移し、「サブ音声」を通話相手に送信している場合は、Ｓ２２５に遷移する。

Ｓ２２２では、コントローラ１０１を通じて、音声再生部１０４に自端末内における「サブ音声」の聞こえやすさパラメータを増大させる制御信号を伝達する。音声再生部１０４では、この制御信号を受け、再生中の音声を聞こえやすくする。

Ｓ２２３では、自己端末内における「サブ音声」の聞こえやすさパラメータの値を判断し、この値が１００のときはＳ２２４に進み、値が<１００のときは処理を終了する。

Ｓ２２４では、「サブ音声」の通信相手への送信を開始する。ここでは、「サブ音声」を通話相手に送信しているかどうかのフラグを「Ｙｅｓ」に設定する。
その後、Ｓ２２０は終了する。

再生中の音声を聞こえやすくする方法としては、前記した再生中の音声を聞こえにくくする方法の反対を行う。例えば、ミックスされてステレオの片側でしか聞こえていなかった音声を両側からの音声に切り替え、小さな音量から大きな音量へと変化させる、といった制御を連続的に行うことが挙げられる。また、３次元音場技術を使って、ステレオの左右両側で再生されていたサブ音声を、図５に示した(３)→(２)→(１)のように、中心に寄せながら近づくイメージで定位させることによって実現してもよい。

Ｓ２２５では、通信部１２０を通じて、通信相手に送信する「サブ音声」の聞こえやすさパラメータを増加させる制御信号（音声音量変更指示）を伝達する。
通信部１２０では、この制御信号を受け、音声再生部１０４から伝達されている音声を聞こえやすくする。その後、Ｓ２２０は終了する。

また、図３のフロー図で説明した流れとは非同期に、通信部１２０が、相手側端末２００から前述の音声音量変更指示を受信する場合がある。その際には、受信した音声音量変更指示に合わせて、「サブ音声」の聞こえやすさパラメータを増加させる処理や、「サブ音声」の聞こえやすさパラメータを減じる処理を実施する。

ここで、Ｓ１０９において、Ｓ１０８で入力されたスライダ１３０−１による操作の種類を判断する判定方法について説明する。

図６（ａ）に示すように、「サブ音声」（図中では「音源」と記載）を聞こえにくくする処理と同方向へ、スライダ１３０−１からの連続値を変化させた場合「順方向」と判断する。逆に、図６（ｂ）に示すように、「サブ音声」を聞こえやすくする処理と同方向、すなわち、「サブ音声」を聞こえにくくする処理と逆方向へ、スライダ１３０−１からの連続値を変化させた場合「逆方向」と判断する。操作用デバイス１３０（スライダ１３０−１）の左右と「サブ音声」の左右との対応は、あらかじめ決めておく。これは、聴取用デバイス１１０と操作用デバイス１３０の位置関係をセンサーなどによって検知することでその都度決める実装も考えることもできる。

ここで、操作用デバイス１３０のスライダ１３０−１の代わりに、２つのボタンを使った場合には、各々のボタンを「順方向」と「逆方向」に対応させる。３つのボタンを使った場合には、「順方向」「逆方向」と、それぞれの変化の程度を強化する「強化」としたり、４つ以上のボタンを使った場合には、強「順方向」、弱「順方向」、弱「逆方向」、強「逆方向」と割り当てたりすることも考えられる。

また、聴取用デバイス１１０と操作用デバイス１３０とが分離している形態の場合には、これらの位置関係を検出し、この位置関係に基づいて操作用デバイス１３０から入力される方向情報を補正することが可能である。

以上の説明では、「サブ音声」は、通話の開始と共に徐々に聞こえにくくなって行き、また、操作用デバイス１３０を用いた操作を行わない場合も、徐々に聞こえにくくなって行った。

しかし、この実装は使いにくい場合もある。そこで、Ｓ１０８の条件分岐で、操作用デバイス１３０を用いた操作が行われていないと判断された際、それまでに１度も操作が行われていなかった場合はＳ２２０に遷移し、１度でも操作が行われていた場合はＳ１０６に遷移する、という実装が考えられる。これによって、１度でも操作用デバイス１３０を用いた操作を行えば、その後、「サブ音声」が聞こえにくくなることはない。

また同様に、通話の開始時には「サブ音声」が最も聞こえにくい、例えば音量が０、すなわち聞こえないという状態にしてしまうという実装も可能である。

また、「サブ音声」を聞こえにくくする処理で、１回当りに聞こえにくくなる程度（音量の下げ幅や、音源が遠ざかる距離など）と、聞こえやすくする処理の１回当りに聞こえやすくなる程度とを異なった値とすることで、操作のしやすさを調整することができる。

相手側端末２００の側においても、通話相手が聞かせたい「サブ音声」が存在している場合がある。その際には、両者の調停が必要となるが、下記の２つのモードでこれらを処理させる。

１つ目のモードは、利用者側の「サブ音声」と相手側の「サブ音声」とを独立に扱うモードである。この場合、利用者が何の操作も行わなければ、相手側端末２００から送信された「サブ音声」が相手側の指定した聞きやすさで聴取される。利用者が操作用デバイス１３０（スライダ１３０−１）を操作すれば、それに重畳されて利用者側の「サブ音声」も聴取・共有することができる。

２つ目のモードは、利用者側の「サブ音声」と相手側の「サブ音声」とを同時に操作するモードである。このとき、図７(ａ)、(ｂ)に示したように、相手側端末２００からの「サブ音声」は、利用者側の「サブ音声」とはステレオの逆側に配置する。利用者が何の操作も行わなければ、相手側端末２００から送信された「サブ音声」が相手側の指定した聞きやすさで聴取できることは１つ目のモードと同じである。しかし、利用者が操作用デバイス１３０（スライダ１３０−１）を「逆方向」に操作すれば、相手側の「サブ音声」を聞きにくくし、利用者側の「サブ音声」を聞きやすくすることができる。「順方向」に操作した場合は、図７(ｂ)に示すように相手側の「サブ音声」を聞きやすくし、図７(ａ)に示すように利用者側の「サブ音声」を聞きにくくすることができる。また、前記した、「サブ音声」を聞こえにくくする処理と聞こえやすくする処理の１回当りの程度を異なった値とすることで、両者が共存するポイントを探るような操作も可能となる。

以上のようにして、利用者が着信した通話に出た時点で、それまで再生していた音声から通話の音声をメインの再生音声とすることができる。

また、スライダのような操作デバイスを用い、現在、方耳でしか聞こえていないようなサブの音声を、例えば、聞こえてくる方向と反対方向に操作デバイスから連続値を入力することで、両耳→通話相手の方耳→通話相手の両耳と重畳再生する範囲を拡大し、通話相手と共有して聴取することができる。

逆に、聞こえてくる方向と同じ方向に操作デバイスから連続値を入力すれば、サブの音声を小さくすることができる。

一方、同様のシステムと操作デバイスが通話相手の方にもあれば、通話相手の側でサブの音声が聞こえてくる方向と反対方向に操作デバイスから連続値を入力することで、聞きたくない場合に重畳再生する範囲を縮小するような調停を行うことができる。

逆に、聞こえてくる方向と同じ方向に操作デバイスから連続値を入力すれば、聞きたい場合にサブの音声を受け入れるような調停を行うことができる。

本発明の実施形態に係る音声共有型通話端末装置の構成を表すブロック図。操作用デバイスの外観図。操作制御部で実行される処理のフロー図。図３におけるＳ２１０及びＳ２２０の処理フロー。音声きこえやすさ状態を変化させる説明図。音声きこえやすさ状態を変化させる説明図。音声きこえやすさ状態を変化させる説明図。

符号の説明

１００…音声共有型通話端末装置
１０１…コントローラ
１０２…メモリ
１０３…音声記憶装置
１０４…音声再生部
１０５…音信号加算部
１１０…聴取用デバイス
１２０…通信部
１２１…マイク
１２２…着信音発生部
１３０…操作用デバイス
１３１…操作制御部
２００…相手側端末

Claims

通話機能を有する音声再生端末であって、
音声を出力する音声再生手段と、
前記音声再生手段に音声情報を供給する音声供給手段と、
ネットワークを介して通話を行う通話手段と、
ユーザからの操作を入力する操作手段と、
前記音声供給手段から供給される音声情報を前記通話手段を介して通話を行う相手方端末に送信する音声情報送信手段と、
前記音声供給手段から供給される音声情報と前記相手方端末から受信した通話音声情報とをミキシングして前記音声再生手段で再生するミキシング手段と、
前記操作手段からの入力情報に基づいて前記音声再生手段で再生されるミキシング音声を構成する前記各音声情報の聞こえやすさを調整する操作制御手段と、を有することを特徴とする音声再生端末。
前記ミキシング手段は、前記音声供給手段から供給される音声情報と前記相手方端末から受信した通話音声情報と前記相手方端末から受信した前記相手方端末が蓄積している音声情報とをミキシングして前記音声再生手段で出力することを特徴とする請求項１に記載の音声再生端末。
前記相手方端末との通話中において、前記操作手段から一定期間入力がないときに、前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力される音声の聞きやすさを経時的に減少させる音声調整手段を有することを特徴とする請求項１または２に記載の音声再生端末。
前記音声再生手段はステレオ音声を出力し、
前記音声調整手段は前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力されるステレオ音声を、経時的にモノラル音声で出力させるようにし、かつ、前記再生される音量を経時的に小さくすることを特徴とする請求項３に記載の音声再生端末。
前記音声再生手段は前記音声再生手段から出力される音声の音源を擬似的に空間に配置することが可能であり、
前記音声調整手段は前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力される音声の音源を経時的に遠方に移動させることを特徴とする請求項３に記載の音声再生端末。
前記操作手段からの入力情報が示す方向に基づいて、前記操作制御手段は前記音量、モノラル音声とステレオ音声との切り換え、又は前記音源の位置を調整する処理を行うことを特徴とする請求項４または５に記載の音声再生端末。
前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力される音声の聞きやすさが最大に達しているときは、
前記音声供給手段から供給される前記相手方端末における音声の聞きやすさを前記通信手段を用いて変化させる相手方端末調整手段を有することを特徴とする請求項６に記載の音声再生端末。
前記音声再生手段、又は前記操作手段は前記音声再生端末とは分離しており、有線又は無線により前記音声再生端末と通信することを特徴とする請求項６又は７に記載の音声再生端末。
前記前記音声再生手段と前記操作手段との位置関係を検出する位置関係検出手段を有し、
前記操作制御手段は前記位置関係検出手段の位置関係情報に基づいて、前記操作手段から入力される前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力される音声が聞こえる方向、又は前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力される音声の音源の方向を補正することを特徴とする請求項８に記載の音声再生端末。
通話機能を有する音声再生端末における音声再生方法であって、
音声供給手段が音声再生手段に音声情報を供給する音声供給ステップと、
前記音声再生手段が音声を出力する音声再生ステップと、
通話手段ネットワークを介して通話を行う通話ステップと、
音声情報送信手段が前記音声供給手段から供給される音声情報を前記通話手段を介して通話を行う相手方端末に送信する音声情報送信ステップと、
ミキシング手段が前記音声供給手段から供給される音声情報と前記相手方端末から受信した通話音声情報とをミキシングして前記音声再生手段で再生するミキシングステップと、
操作手段がユーザからの操作を入力する操作ステップと、
操作制御手段が前記操作手段からの入力情報に基づいて前記音声再生手段で再生されるミキシング音声を構成する前記各音声情報の聞こえやすさを調整する操作制御ステップと、を有することを特徴とする音声再生方法。
前記ミキシング手段は、前記音声供給手段から供給される音声情報と前記相手方端末から受信した通話音声情報と前記相手方端末から受信した前記相手方端末が蓄積している音声情報とをミキシングして前記音声再生手段で出力することを特徴とする請求項１に記載の音声再生方法。
前記相手方端末との通話中において、前記操作手段から一定期間入力がないときに、音声調整手段が前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力される音声の聞きやすさを経時的に減少させる音声調整ステップを有することを特徴とする請求項１０または１１に記載の音声再生方法。
前記音声再生手段はステレオ音声を出力し、
前記音声調整手段は前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力されるステレオ音声を、経時的にモノラル音声で出力させるようにし、かつ、前記再生される音量を経時的に小さくすることを特徴とする請求項１２に記載の音声再生方法。
前記音声再生手段は前記音声再生手段から出力される音声の音源を擬似的に空間に配置することが可能であり、
前記音声調整手段は前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力される音声の音源を経時的に遠方に移動させることを特徴とする請求項１２に記載の音声再生端末。
前記操作手段からの入力情報が示す方向に基づいて、前記操作制御手段は前記音量、モノラル音声とステレオ音声との切り換え、又は前記音源の位置、を調整する処理を行うことを特徴とする請求項１３または１４に記載の音声再生端末。
前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力される音声の聞きやすさが最大に達しているときは、
相手方端末調整手段が前記音声供給手段から供給される前記相手方端末における音声の聞きやすさを前記通信手段を用いて変化させる相手方端末調整ステップを有することを特徴とする請求項１５に記載の音声再生端末。
前記音声再生手段、又は前記操作手段は前記音声再生端末とは分離しており、有線又は無線により前記音声再生端末と通信することを特徴とする請求項１５又は１６に記載の音声再生方法。
位置関係検出手段が前記前記音声再生手段と前記操作手段との位置関係を検出する位置関係検出ステップを有し、
前記操作制御手段は前記位置関係検出手段の位置関係情報に基づいて、前記操作手段から入力される前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力される音声が聞こえる方向、又は前記音声供給手段から供給された音声情報に基づいて前記音声再生手段で出力される音声の音源の方向を補正することを特徴とする請求項１７に記載の音声再生方法。
上記の請求項１〜１８のいずれか１項に記載の音声再生端末又は音声再生方法を、コンピュータプログラムで記載してそれを実行可能にしたことを特徴とするプログラム。
上記の請求項１〜２０のいずれか１項に記載の音声再生端末又は音声再生方法を、コンピュータで実行可能に記載したプログラムを記録したことを特徴とする記録媒体。