WO2021014990A1

WO2021014990A1 - 音声処理装置、音声処理方法、および記録媒体

Info

Publication number: WO2021014990A1
Application number: PCT/JP2020/026903
Authority: WO
Inventors: 知行河部
Original assignee: 日本電気株式会社
Priority date: 2019-07-24
Filing date: 2020-07-09
Publication date: 2021-01-28
Also published as: JP7375817B2; EP4007243A1; JPWO2021014990A1; EP4007243A4; US20220293084A1

Abstract

ユーザが、聴覚のみによって、通話相手を簡単に識別することを可能にするため、通話相手識別手段は、通話相手を識別する。背景音響選択手段は、識別した通話相手に応じた背景音響を選択する。合成手段は、通話の音声信号と、選択した背景音響とを合成する。

Description

音声処理装置、音声処理方法、および記録媒体

　本発明は、音声処理装置、音声処理方法、および記録媒体に関し、特に、通話の音声信号を背景音響と合成する音声処理装置、音声処理方法、および記録媒体に関する。

　関連する音響ＡＲ（Augmented Reality）技術は、ユーザが複数の通話相手と同時に通話することを可能にする。例えば、特許文献１に記載された関連する技術は、姿勢情報センサおよび左右独立スピーカを用いて、ユーザにとって、通話相手から音声が聞こえてくると知覚する仮想的な位置を規定する（音像定位）。これにより、ユーザは、あたかも、複数の通話相手とともに、仮想的な空間を共有しているような感覚を得る。

　特許文献２には、ユーザの所定の操作によって、ユーザが指定した方向から聞こえる発話者情報（例えば通話相手の名前またはニックネーム）を、音声で出力することが記載されている。

特開２０１３－０１７０２７号公報特開２０１２－１０３８４５号公報国際公開第２０１８／１９８３１０号

　ディスプレイがある場合、ユーザは、ディスプレイに表示された通話相手の画像や通話相手の名前、ニックネームを見ることにより、通話相手がだれであるのかを判断することができる。しかしながら、ディスプレイがない場合、ユーザは、聴覚のみによって、通話相手がだれであるのかを判断しなければならない。ところが、特許文献１に記載の関連する技術では、通話相手が無言である場合、ユーザは、聴覚によって、通話相手がだれであるのかを知ることができない。また、特許文献２に記載の技術では、ユーザは、無言の通話相手がいることに気付かないので、発話者情報を音声で出力させるために、所定の操作を行う動機が生じない。

　本発明は、上記の課題に鑑みてなされたものであり、その目的は、ユーザが、聴覚のみによって、通話相手を簡単に識別することを可能にする音声処理装置等を提供することにある。

　本発明の一態様に係わる音声処理装置は、通話相手を識別する通話相手識別手段と、識別した前記通話相手に応じた背景音響を選択する背景音響選択手段と、選択した前記背景音響を、通話の音声信号と合成する合成手段とを備えている。

　本発明の一態様に係わる音声処理方法は、通話相手を識別し、識別した前記通話相手に応じた背景音響を選択し、選択した前記背景音響を、通話の音声信号と合成する。

　本発明の一態様に係わるコンピュータ読み取り可能な記録媒体に記録されたプログラムは、通話相手を識別することと、識別した前記通話相手に応じた背景音響を選択することと、選択した前記背景音響を、通話の音声信号と合成することとをコンピュータに実行させる。

　本発明の一態様によれば、ユーザが、聴覚のみによって、通話相手を簡単に識別できる。

実施形態１に係わる音声処理装置の構成を示すブロック図である。実施形態１に係わる音声処理装置の動作を示すフローチャートである。実施形態２に係わる話し手側の通話デバイスの構成を示すブロック図である。実施形態２に係わる聞き手側の通話デバイスの構成を示すブロック図である。通話相手を識別する通話者ＩＤと、音像定位情報と、背景音響情報との間の対応関係を示す設定リストの一例を示す図である。実施形態２に係わる聞き手側通話デバイスの動作の流れを示すフローチャートである。複数の通話相手と通話しているユーザを示す。実施形態３に係わる聞き手側の通話デバイスの構成を示すブロック図である。実施形態３に係わる聞き手側通話デバイスの動作の流れを示すフローチャートである。第１のグループが指定されたグループである場合に、指定されたグループと通話相手とが通話を行う場合の通話デバイスの動作を説明する図である。第２のグループが指定されたグループである場合に、指定されたグループと通話相手とが通話を行う場合の通話デバイスの動作を説明する図である。実施形態５に係わる情報処理装置のハードウェア構成を示す図である。

　〔実施形態１〕
　図１～図２を参照して、実施形態１について説明する。

　本実施形態１では、ユーザが、通話デバイスを用いて、通話相手と通話をしている。通話相手は、１人または複数人であってよい。ユーザが使用している通話デバイスを、以下では、ユーザの通話デバイスと呼ぶ。また、ユーザの通話相手が使用している通話デバイスを、以下では、通話相手の通話デバイスと呼ぶ。通話デバイスは、例えば、モバイル端末、コンピュータデバイス、または電話機である。通話デバイスは、音声デバイスとも呼ばれる。

　通話相手の通話デバイスと、ユーザの通話デバイスとの間で、通信ネットワーク、例えばインターネットあるいは電話回線、が接続されている。ユーザは、ユーザの通話デバイスを用いて、通話相手と通話している。

　（音声処理装置１）
　図１は、実施形態１に係わる音声処理装置１の構成を示すブロック図である。図１に示すように、音声処理装置１は、通話相手識別部１１、背景音響選択部１２、および合成部１３を含む。以下で説明する音声処理装置１の各部の機能は、ユーザの通話デバイス（図示せず）が含むプロセッサが、メモリに読み込んだプログラムを実行することによって、ソフトウェアとして実現されてもよい。

　通話相手識別部１１は、通話相手を識別する。通話相手識別部１１は、通話相手識別手段の一例である。具体的には、通話相手識別部１１は、通話相手の通話デバイス（図示せず）から、付帯情報を受信する。付帯情報は、通話相手の通話デバイスを識別する情報を含む。

　付帯情報は、例えば、通話相手の通話デバイスを識別する端末ＩＤ（Identification）である。あるいは、付帯情報は、通話相手の通話デバイスの電話番号であってもよい。しかしながら、付帯情報は、端末ＩＤおよび電話番号に限定されない。付帯情報は、通話相手を識別する情報（例えば生体認証情報）であってもよい。

　通話相手識別部１１は、通話相手の通話デバイスから受信した付帯情報に基づいて、通話相手を識別する。

　例えば、付帯情報が、通話相手の通話デバイスの端末ＩＤである場合、通話相手識別部１１は、図示しないメモリに格納された所有者リストのデータを参照する。所有者リストのデータ（以下、単に所有者リストと称する）には、端末ＩＤと、通話デバイスの所有者に関する情報とが紐付けられている。

　通話相手識別部１１は、端末ＩＤに基づいて、通話相手を識別する。例えば、通話相手識別部１１は、端末ＩＤによって識別される通話デバイスの所有者が、通話相手であることを、所有者リストを参照することによって識別する。

　通話相手識別部１１は、識別した通話相手を示す情報（例えば所有者リストに含まれる通話者ＩＤ）を、背景音響選択部１２へ送信する。

　背景音響選択部１２は、識別した通話相手に応じた背景音響を選択する。背景音響選択部１２は、背景音響選択手段の一例である。例えば、背景音響選択部１２は、通話者と背景音響との対応関係を示す通話者－背景音響テーブル（図示せず）を参照して、通話相手に応じた背景音響を選択する。通話者－背景音響テーブルは、メモリまたはストレージに格納される。

　背景音響は、主たる音声（ここでは、通話の音声）と重なるようにユーザに聞こえる音響である。一般的に、背景音響は、ユーザが主たる音声を聴くことを妨げないような小さい音量を有する。背景音響は、例えば、ＢＧＭ（Back Ground Music）、環境音（アンビエント）、および音響効果のいずれかである。あるいは、背景音響は、これらの組み合わせであってもよい。

　例えば、通話者－背景音響テーブルは、通話相手を識別する通話者ＩＤと、背景音響を示す情報（背景音響情報）とを対応付けている。通話者－背景音響テーブルは、ユーザ（ここでは聞き手）によって予め準備されていてもよい。

　あるいは、背景音響選択部１２は、通話相手（ここでは話し手）ごとに異なる背景音響を、任意の方法で選択してもよい。例えば、背景音響選択部１２は、付帯情報として取得したセンシング情報に基づいて、通話相手ごとに、異なる背景音響を割り当てる（実施形態４）。

　合成部１３は、通話の音声信号と、選択した背景音響とを合成する。合成部１３は、合成手段の一例である。具体的には、合成部１３は、通話の音声信号に対して背景音響が重畳された音声信号（以下では、背景音響付き音声信号と呼ぶ）を生成する。

　ここで、通話の音声信号に対し、既存の他の背景音響が既に重畳されている場合、合成部１３は、背景音響選択部１２が選択した背景音響を、既存の他の背景音響とともに出力してもよい。あるいは、合成部１３は、既存の他の背景音響を消音または音量を小さくする一方、背景音響選択部１２が選択した背景音響を、既存の他の背景音響よりも大きい音量で出力してもよい。

　さらに、合成部１３は、ユーザにとって、通話相手ごとに予め設定された仮想的な場所から、背景音響付き音声信号が聞こえるようにするため、背景音響付き音声信号に対し、音像定位処理を行ってもよい。

　具体的には、音像定位処理において、合成部１３は、背景音響付き音声信号の音量及びプレゼンス等を調整する。これにより、合成部１３は、背景音響付き音声信号の音像の仮想的な位置を規定する。スピーカ等から出力された背景音響付き音声信号を聴いたユーザは、合成部１３によって規定された仮想的な位置に、背景音響付き音声信号の音像があるように知覚する。

　なお、合成部１３は、通話相手識別部１１が識別した通話相手が所属するグループに応じて、背景音響に関して、音の高さ、強さ、音色、またはその組み合わせを変換してもよい。なお、通話相手が複数のグループに分類されている構成について、実施形態３で説明する。

　合成部１３は、このようにして生成した背景音響付き音声信号を出力する。

　（音声処理装置１の動作）
　図２を参照して、本実施形態１に係わる音声処理装置１の動作を説明する。図２は、音声処理装置１が実行する処理の流れを示すフローチャートである。

　図２に示すように、通話相手識別部１１は、通話相手の通話デバイスから受信した付帯情報に基づいて、通話相手を識別する（Ｓ１）。

　通話相手識別部１１は、識別した通話相手を示す情報（例えば通話者ＩＤ）を、背景音響選択部１２へ送信する。

　背景音響選択部１２は、通話相手識別部１１から受信した情報（例えば通話者ＩＤ）に基づいて、通話相手に応じた背景音響を選択する（Ｓ２）。

　背景音響選択部１２は、選択した背景音響を示す背景音響情報を、合成部１３へ送信する。なお、ステップＳ１とステップＳ２の順序は逆または並行であってもよい。

　合成部１３は、背景音響選択部１２から、背景音響情報を受信する。また、合成部１３は、通話の音声信号を受信する。

　合成部１３は、背景音響情報が示す背景音響と、通話の音声信号とを合成する（Ｓ３）。そして、合成部１３は、背景音響と、通話の音声信号とを合成することによって得られた音声信号（背景音響付き音声信号）を出力する。

　以上で、音声処理装置１の動作は終了する。

　（本実施形態の効果）
　本実施形態の構成によれば、通話相手識別部１１は、通話相手を識別する。背景音響選択部１２は、識別した通話相手に応じた背景音響を選択する。合成部１３は、通話の音声信号と、選択した背景音響とを合成する。このように、通話の音声信号と背景音響とが合成されることによって得られた背景音響付き音声信号が出力される。そのため、ユーザは、聴覚のみによって、通話相手を簡単に識別できる。

　〔実施形態２〕
　図３～図７を参照して、実施形態２について説明する。本実施形態２では、話し手側の通話デバイスと、聞き手側の通話デバイスとに関して、それぞれ説明する。

　（話し手側の通話デバイス１００）
　図３は、話し手側の通話デバイス１００（以下、単に通話デバイス１００と記載する）の構成を示すブロック図である。図３に示すように、通話デバイス１００は、マイク１０１、メモリ１０２、および通信部１０３を含む。

　通話デバイス１００は、話し手個人を生体認証するためのセンサまたはスイッチをさらに含んでいてもよい。例えば、通話デバイス１００は、画像センサ（カメラ）によって、通話デバイス１００を装着した話し手の姿勢に関する情報を取得してもよいし、通話相手を選択するためのスイッチまたはセンサをさらに含んでいてもよい。

　マイク１０１は、話し手の発言を集音する。マイク１０１は、話し手の発言を音声信号に変換し、通話の音声信号を通信部１０３へ送信する。

　メモリ１０２は、自機（つまり通話デバイス１００）を識別するための端末ＩＤ、および、通話デバイス１００の電話番号を示す情報を少なくとも記憶している。

　通信部１０３は、メモリ１０２から、端末ＩＤまたは電話番号を示す情報を取得する。通信部１０３は、マイク１０１から受信した通話の音声信号を、聞き手側の通話デバイス２００へ送信するとともに、メモリ１０２から取得した端末ＩＤまたは電話番号を示す情報も、付帯情報として、聞き手側の通話デバイス２００へ送信する。加えて、通信部１０３は、通話デバイス１００が取得したセンシング情報も、付帯情報として、聞き手側の通話デバイス２００へ送信してもよい。例えば、付帯情報は、通話相手の通話デバイスを識別するための端末ＩＤ（Identification）、または、通話相手の電話番号である。

　（聞き手側の通話デバイス２００）
　図４は、聞き手側の通話デバイス２００（以下、単に通話デバイス２００と記載する）の構成を示すブロック図である。図４に示すように、通話デバイス２００は、受信部２４、音声処理装置２、および出力制御部２６を含む。

　図４に示すように、受信部２４は、通話デバイス１００の通信部１０３から、音声信号および付帯情報（ここでは端末ＩＤ）を受信する。受信部２４は、受信した音声信号を、音声処理装置２の合成部１３へ送信する。また、受信部２４は、受信した付帯情報を、音声処理装置２の通話相手識別部１１へ送信する。

　（音声処理装置２）
　図４に示すように、本実施形態２に係わる音声処理装置２は、通話相手識別部１１、背景音響選択部１２、および合成部１３を含む。前記実施形態１において、通話相手識別部１１、背景音響選択部１２、および合成部１３の詳細を説明した。本実施形態２では、これらの各部に関して、簡単に説明する。

　通話相手識別部１１は、通話相手を識別する。具体的には、通話相手識別部１１は、通話相手の通話デバイスから受信した付帯情報に基づいて、通話相手を識別する。

　通話相手識別部１１は、通話相手の識別結果を背景音響選択部１２へ送信する。具体的には、通話相手識別部１１は、通話相手を識別する通話者ＩＤを、背景音響選択部１２へ送信する。

　背景音響選択部１２は、通話相手識別部１１が識別した通話相手に応じた音響を選択する。具体的には、背景音響選択部１２は、設定リスト（図５参照）を参照する。通話相手識別部１１が識別した通話相手の通話者ＩＤが、設定リストに登録されている場合、背景音響選択部１２は、設定リストにおいて、通話相手の通話者ＩＤと紐付いている一つのＢＧＭ（Back Ground Music）のデータを取得する。ＢＧＭは、背景音響の一種である。

　一方、通話相手識別部１１が識別した通話相手が設定リストにまだ登録されていない場合、背景音響選択部１２は、ＢＧＭライブラリ（図示せず）を参照して、設定リストに登録済のどの通話者ＩＤとも紐付いていない一つのＢＧＭのデータを、ＢＧＭライブラリからランダムに取得する。

　また、背景音響選択部１２は、設定リストから、通話者ＩＤと紐付いている音像定位情報を取得する。音像定位情報は、仮想空間における座標位置を示す情報である。

　背景音響選択部１２は、選択したＢＧＭのデータ（背景音響情報）と、音像定位情報とを、合成部１３へ送信する。

　通話デバイス２００の合成部１３は、背景音響選択部１２から、ＢＧＭのデータおよび音像定位情報を受信する。また合成部１３は、受信部２４から、通話の音声信号を受信する。合成部１３は、通話の音声信号と、選択した背景音響とを合成する。具体的には、合成部１３は、通話の音声信号に対して、背景音響（ここではＢＧＭ）が重畳された背景音響付き音声信号を生成する。

　ここで、既存の他の背景音響が、通話の音声信号に既に重畳されている場合、合成部１３は、背景音響選択部１２が選択したＢＧＭを、既存の他の背景音響とともに出力してもよい。あるいは、合成部１３は、既存の他の背景音響を消音または音量を小さくする一方、背景音響選択部１２が選択したＢＧＭを、既存の他の背景音響よりも大きい音量で出力してもよい。

　さらに、合成部１３は、ユーザにとって、通話相手ごとに予め設定された仮想的な位置から、背景音響付き音声信号が聞こえるようにするため、背景音響付き音声信号に対し、上述した音像定位処理を行ってもよい。

　合成部１３は、背景音響付き音声信号を、出力制御部２６へ送信する。

　図４に示すように、出力制御部２６は、合成部１３から、背景音響付き音声信号を受信する。出力制御部２６は、受信した背景音響付き音声信号を、図示しないスピーカ等のデバイスに出力させる。なお、出力制御部２６は、音声処理装置２の構成要素であってもよい。

　（設定リスト）
　図５は、設定リストの一例を示すテーブルである。図５に示すように、設定リストには、通話相手を識別する付帯情報として通話者ＩＤが含まれる。設定リストにおいて、音像定位情報および背景音響情報が、それぞれの通話者ＩＤに対して紐付けられている。

　音像定位情報は、音像の仮想的な位置を示す。背景音響情報は、ユーザが、聴覚のみで、音像の仮想的な位置から、通話相手を識別することを可能にする。背景音響情報は、例えば、通話相手個人を識別するための通話者ＩＤに紐づいたＢＧＭ、環境音、または音響効果のデータである。

　（通話デバイス２００の動作）
　図６および図７を参照して、本実施形態２に係わる通話デバイス２００の動作を説明する。図６は、通話デバイス２００の動作の流れを示すフローチャートである。

　図６に示すように、ユーザ（図７のＡ）の通話デバイス２００の受信部２４は、通話相手（図７のＢ～Ｆ）の通話デバイス１００から、通話の音声信号および付帯情報を受信する（Ｓ１０１）。

　受信部２４は、音声処理装置２の合成部１３へ、通話の音声信号を送信するとともに、通話相手識別部１１へ、付帯情報（ここでは端末ＩＤ）を送信する。

　通話相手識別部１１は、受信部２４から、付帯情報を受信する。通話相手識別部１１は、受信した付帯情報に基づいて、通話相手を識別する（Ｓ１０２）。通話相手は１または複数である。

　通話相手識別部１１は、通話相手の識別結果を、背景音響選択部１２へ送信する。具体的には、通話相手識別部１１は、通話相手の識別に成功した場合、通話相手を識別する通話者ＩＤを、背景音響選択部１２へ送信する。一方、通話相手識別部１１は、通話相手の識別に失敗した場合、空の通話者ＩＤ（Ｎｏｎｅ）を、背景音響選択部１２へ送信する。

　背景音響選択部１２は、通話相手識別部１１から、通話相手の識別結果を受信する。背景音響選択部１２は、通話相手が設定リストに登録済かどうかを判定する（Ｓ１０３）。具体的には、背景音響選択部１２は、通話相手識別部１１から受信した通話者ＩＤが、設定リストに含まれるかどうかを判定する。

　通話相手が設定リストに登録済である場合（Ｓ１０３でＹｅｓ）、背景音響選択部１２は、通話相手に応じた背景音響（ここではＢＧＭ）を選択する（Ｓ１０４Ａ）。一方、通話相手が設定リストに登録済でない場合（Ｓ１０３でＮｏ）、背景音響選択部１２は、ＢＧＭライブラリを参照して、設定リストに登録されたどの通話者ＩＤとも紐付いていない背景音響（ここではＢＧＭ）をランダムに選択する（Ｓ１０４Ｂ）。

　背景音響選択部１２は、選択したＢＧＭのデータ（背景音響情報）を、通話相手の通話者ＩＤに応じた音像定位情報とともに、合成部１３へ送信する。

　合成部１３は、背景音響選択部１２から、通話相手に応じて選択された背景音響情報および音像定位情報を受信する。また、合成部１３は、受信部２４から、通話の音声信号を受信する。

　合成部１３は、受信した通話の音声信号と、背景音響であるＢＧＭとを合成する（Ｓ１０５）。これにより、合成部１３は、背景音響付き音声信号を生成する。

　合成部１３は、生成した背景音響付き音声信号を出力制御部２６へ送信する。

　出力制御部２６は、合成部１３から、背景音響付き音声信号を受信する。出力制御部２６は、受信した背景音響付き音声信号を出力する（Ｓ１０６）。

　以上で、通話デバイス２００の動作は終了する。

　（具体例）
　ユーザ（図７のＡで示す人物）が、通話デバイス２００を用いて、複数の通話相手（図７のＢ～Ｆで示す人物）と同時に通話している。

　通話相手の通話デバイス１００（図３）とユーザの通話デバイス２００（図４）との間の回線が切断されない限り、通話相手が無言であっても、ユーザの通話デバイス２００は、通話相手を識別する通話者ＩＤと紐付けられたＢＧＭを、背景音響として出力する。これにより、ユーザは、聴覚のみによって、無言の通話相手の存在を、直感的に知ることができる。

　ユーザが、通話デバイス２００の通話終了ボタン（図示せず）を押下したとき、通話デバイス１００と通話デバイス２００との間の電話回線が切断される。このとき、通話デバイス２００は、通話相手を識別する通話者ＩＤと対応するＢＧＭを消音（ミュート）する。これにより、ユーザは、通話が終了したことを直感的に知ることができる。

　（変形例）
　一変形例では、音声処理装置２の各部は、通話デバイス２００の内部リソースを用いず、ネットワークサーバ上で、上述した処理を実行してもよい。

　（本実施形態の効果）
　本実施形態の構成によれば、通話相手識別部１１は、通話相手を識別する。背景音響選択部１２は、識別した通話相手に応じた背景音響を選択する。合成部１３は、通話の音声信号と、選択した背景音響とを合成する。このように、通話の音声信号と背景音響とが合成されることによって得られた音声信号が出力される。そのため、ユーザは、聴覚のみによって、通話相手を簡単に識別できる。

　さらに、本実施形態の構成によれば、通話相手に応じた音像定位情報によって、通話相手ごとの仮想的な位置を規定する。これにより、ユーザは、あたかも仮想的な空間を共有しているように、通話相手と通話することができる。

　〔実施形態３〕
　本実施形態３では、通話相手が所属するグループを識別し、識別したグループに応じた処理を行う構成を説明する。

　（通話デバイス３００）
　図８は、本実施形態３に係わる通話デバイス３００の構成を示すブロック図である。図８に示すように、通話デバイス３００は、前記実施形態２で説明した音声処理装置２の代わりに、音声処理装置３を含む。

　（音声処理装置３）
　図８に示すように、本実施形態３に係わる音声処理装置３は、通話相手識別部１１、背景音響選択部１２、および合成部１３に加えて、グループ判定部１４をさらに含む。すなわち、音声処理装置３は、グループ判定部１４を含んでいる点で、前記実施形態２に係わる音声処理装置２とは構成が異なる。

　前記実施形態２において、通話相手識別部１１、背景音響選択部１２、および合成部１３の詳細を説明した。本実施形態３において、これらの各部の基本的な機能は、前記実施形態２と同様である。したがって、本実施形態３では、これらの各部に関して、説明を省略する。

　通話相手識別部１１は、受信部２４から、付帯情報とともに、グループ指定情報を受信する。通話相手識別部１１は、前記実施形態１と同様に、付帯情報に基づいて、通話相手を識別する。さらに、通話相手識別部１１は、グループ指定情報に基づいて、ユーザが指定されたグループに所属するかどうかを判定する。

　ユーザが指定されたグループに所属していない場合、通話相手識別部１１は、出力制御部２６に対し、出力を消音（ミュート）するように指示する。ユーザが指定されたグループに所属している場合、通話相手識別部１１は、通話相手の識別結果を、グループ判定部１４へ送信する。

　グループ判定部１４は、通話相手識別部１１から、通話相手の識別結果を受信する。グループ判定部１４は、通話相手識別部１１が識別した通話相手が所属するグループを判定する。グループ判定部１４は、グループ判定手段の一例である。グループ判定部１４は、通話相手が所属するグループの判定結果を、通話相手の識別結果とともに、背景音響選択部１２へ送信する。

　背景音響選択部１２は、グループ判定部１４から受信したグループの判定結果に基づいて、通話相手が所属するグループに応じたＢＧＭを選択する。同じグループに属する複数の通話相手と対応する背景音響（つまり複数のＢＧＭ）は、同じ特徴（例えば、同じピッチ、同じ音量、または同じ音色）を有することが好ましい。

　（通話デバイス３００の動作）
　図９～図１１を参照して、本実施形態３に係わる通話デバイス３００の動作を説明する。図９は、通話デバイス３００の動作の流れを示すフローチャートである。

　図９に示すように、ユーザ（図１０のＢ～Ｅのいずれか）の通話デバイス３００の受信部２４は、通話相手（図１０のＡ）の通話デバイス１００から、通話の音声信号および付帯情報を受信する（Ｓ２０１）。

　受信部２４は、音声処理装置３の合成部１３へ、通話の音声信号を送信するとともに、通話相手識別部１１へ、付帯情報（例えば、端末ＩＤまたは電話番号）およびグループ指定情報を送信する。グループ指定情報は、どのグループの聞き手に通話を聴取させるかを指定する情報である。通話を聴取することを許可するグループは、通話デバイス１００に対する通話相手（図１０のＡ）の操作によって、指定されてもよい。

　通話相手識別部１１は、受信部２４から、付帯情報およびグループ指定情報を受信する。通話相手識別部１１は、受信したグループ指定情報に基づいて、ユーザ（すなわち通話デバイス３００の持ち主）が指定されたグループに所属するかどうかを判定する（Ｓ２０２）。

　ユーザが指定されたグループに所属していない場合（Ｓ２０２でＮｏ）、通話相手識別部１１は、出力制御部２６に対し、出力を消音（ミュート）するように指示する（Ｓ２０８）。

　図１０に示す例では、ユーザが、第２のグループ（ＤまたはＥ）に所属する場合、通話相手識別部１１は、出力制御部２６に対し、ミュート指示を送信する。一方、図１１に示す例では、ユーザが、第１のグループ（ＢまたはＣ）に所属する場合、通話相手識別部１１は、出力制御部２６に対し、ミュート指示を送信する。

　一方、ユーザが指定されたグループに所属している場合（Ｓ２０２でＹｅｓ）、通話相手識別部１１は、付帯情報に基づいて、通話相手を識別する（Ｓ２０３）。通話相手識別部１１は、グループ判定部１４へ、通話相手の識別結果を送信する。

　図１０に示す例では、ユーザが、第１のグループ（ＢまたはＣ）に所属する場合、通話相手識別部１１は、グループ判定部１４へ、通話相手の識別結果を送信する。一方、図１１に示す例では、ユーザが、第２のグループ（ＤまたはＥ）に所属する場合、通話相手識別部１１は、グループ判定部１４へ、通話相手の識別結果を送信する。

　具体的には、通話相手識別部１１は、通話相手の識別に成功した場合、通話相手を識別する通話者ＩＤを、グループ判定部１４へ送信する。一方、通話相手識別部１１は、通話相手の識別に失敗した場合、空の通話者ＩＤ（Ｎｏｎｅ）を、グループ判定部１４へ送信する。

　グループ判定部１４は、通話相手識別部１１から、通話相手の識別結果を受信する。通話相手識別部１１は、通話相手識別部１１によって識別された通話相手が所属するグループを判定する。グループ判定部１４は、グループ判定手段の一例である。グループ判定部１４は、通話相手が所属するグループの判定結果を、通話相手の識別結果とともに、背景音響選択部１２へ送信する。
　背景音響選択部１２は、グループ判定部１４から、通話相手の識別結果、および、通話相手が所属するグループの判定結果を受信する。背景音響選択部１２は、通話相手が設定リストに登録済かどうかを判定する（Ｓ２０４）。具体的には、背景音響選択部１２は、通話相手識別部１１から、通話相手の識別結果として受信した通話者ＩＤが、設定リストに含まれるかどうかを判定する。

　通話相手が設定リストに登録済である場合（Ｓ２０４でＹｅｓ）、背景音響選択部１２は、通話相手（およびその所属するグループ）に応じた背景音響（ここではＢＧＭ）を選択する（Ｓ２０５Ａ）。一方、通話相手が設定リストに登録済でない場合（Ｓ２０４でＮｏ）、背景音響選択部１２は、ＢＧＭライブラリを参照して、背景音響（ここではＢＧＭ）をランダムに選択する（Ｓ２０５Ｂ）。

　合成部１３は、背景音響選択部１２から、通話相手に応じて選択された背景音響情報を受信する。また、合成部１３は、受信部２４から、通話の音声信号を受信する。

　合成部１３は、受信した通話の音声信号と、背景音響であるＢＧＭとを合成する（Ｓ２０６）。これにより、合成部１３は、背景音響付き音声信号を生成する。

　出力制御部２６は、合成部１３から、背景音響付き音声信号を受信する。出力制御部２６は、受信した背景音響付き音声信号を、図示しないスピーカ等から出力する（Ｓ２０７）。

　以上で、通話デバイス３００の動作は終了する。

　さらに、本実施形態の構成によれば、グループ判定部１４は、通話相手が所属するグループを判定する。背景音響選択部１２は、通話相手が所属するグループに応じたＢＧＭを、背景音響として選択することが好ましい。

　これにより、ユーザは、ＢＧＭの特徴（例えば、音の高さ、強さ、音色）によって、通話相手が所属するグループを簡単に識別することができる。

　〔実施形態４〕
　本実施形態４において、話し手側の通話デバイス（前記実施形態１で説明した通話デバイス１００）は、耳に装着されるヒアラブルデバイスである。ヒアラブルデバイスは、耳音響認証技術を応用したウェアラブルデバイスの一種である。ヒアラブルデバイスの一例が、特許文献３に記載されている。

　本実施形態４では、通話デバイス１００は、話し手の耳の内部へ向けて、音響信号（検査信号）を放出するスピーカと、耳の内部からの反響信号を受信するマイクとを含む。通話デバイス１００は、マイクが受信した反響信号を、センシング情報として、聞き手側の通話デバイス（前記実施形態２、３で説明した通話デバイス２００、３００）へ送信する。

　本実施形態４において、通話デバイス２００、３００の通話相手識別部１１は、通話デバイス１００からのセンシング情報に基づいて、通話相手を識別する。具体的には、通話相手識別部１１は、話し手の耳の穴の形状によって決まる特徴的な反響（音響特性）を、センシング情報として用いる。背景音響選択部１２は、センシング情報に基づく通話相手の識別結果に基づいて、ＢＧＭを選択する。耳の穴の形状とは、例えば、外耳道から鼓膜までの形状、あるいは、中耳または内耳まで延伸する形状である。

　（変形例）
　一変形例では、通話デバイス１００は、ヒアラブルデバイス以外のウェアラブルデバイスである。例えば、本変形例に係わる通話デバイス１００は、グラス（メガネ）型またはリストバンド型のウェアラブルデバイスである。

　さらに、本実施形態の構成によれば、話し手側の通話デバイスは、ヒアラブルデバイス等のウェアラブルデバイスである。したがって、聞き手側の通話デバイスは、話し手の身体から取得したセンシング情報に基づいて、通話相手（話し手）を識別し、識別した通話相手に応じた背景音響を選択することができる。

　〔実施形態５〕
　図１２を参照して、実施形態５について以下で説明する。

　（ハードウェア構成について）
　前記実施形態１～４で説明した音声処理装置の各構成要素は、機能単位のブロックを示している。これらの構成要素の一部又は全部は、例えば図１２に示すような情報処理装置９００により実現される。図１２は、情報処理装置９００のハードウェア構成の一例を示すブロック図である。

　図１２に示すように、情報処理装置９００は、一例として、以下のような構成を含む。

　　・ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）９０１
　　・ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０２
　　・ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０３
　　・ＲＡＭ９０３にロードされるプログラム９０４
　　・プログラム９０４を格納する記憶装置９０５
　　・記録媒体９０６の読み書きを行うドライブ装置９０７
　　・通信ネットワーク９０９と接続する通信インタフェース９０８
　　・データの入出力を行う入出力インタフェース９１０
　　・各構成要素を接続するバス９１１
　前記実施形態１～４で説明した音声処理装置の各構成要素は、これらの機能を実現するプログラム９０４をＣＰＵ９０１が読み込んで実行することで実現される。各構成要素の機能を実現するプログラム９０４は、例えば、予め記憶装置９０５やＲＯＭ９０２に格納されており、必要に応じてＣＰＵ９０１がＲＡＭ９０３にロードして実行される。なお、プログラム９０４は、通信ネットワーク９０９を介してＣＰＵ９０１に供給されてもよいし、予め記録媒体９０６に格納されており、ドライブ装置９０７が当該プログラムを読み出してＣＰＵ９０１に供給してもよい。

　（本実施形態の効果）
　本実施形態の構成によれば、前記実施形態において説明した音声処理装置が、ハードウェアとして実現される。したがって、前記実施形態において説明した効果と同様の効果を奏することができる。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１９年７月２４日に出願された日本出願特願２０１９－１３５７９９を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明は、例えば、携帯型ゲーム機およびＶＲ（Virtual Realty）デバイスに利用することができる。

　　　１　音声処理装置
　　１１　通話相手識別部
　　１２　背景音響選択部
　　１３　合成部
　　１４　グループ判定部
　　２４　受信部
　　２６　出力制御部
　１００　話し手側の通話デバイス
　２００　聞き手側の通話デバイス
　３００　聞き手側の通話デバイス

Claims

　通話相手を識別する通話相手識別手段と、
　識別した前記通話相手に応じた背景音響を選択する背景音響選択手段と、
　選択した前記背景音響を、通話の音声信号と合成する合成手段と
を備えた
　音声処理装置。
　前記通話相手識別手段は、どのグループに所属する聞き手に通話を聴取させるかを指定するグループ指定情報を受信し、受信した前記グループ指定情報に基づいて、音声信号を出力する出力制御手段の出力を消音させる
　ことを特徴とする請求項１に記載の音声処理装置。
　識別した前記通話相手が所属するグループを判定するグループ判定手段をさらに備え、
　前記背景音響選択手段は、前記通話相手が所属するグループの判定結果に応じて、前記背景音響を選択する
　ことを特徴とする請求項１または２に記載の音声処理装置。
　前記背景音響選択手段は、識別した前記通話相手に応じて、前記通話の音声信号の音像を定位させる仮想的な位置を規定する
　ことを特徴とする請求項１から３のいずれか１項に記載の音声処理装置。
　前記背景音響は、ＢＧＭ（Back Ground Music）、環境音、および音響効果のうちのいずれかである
　ことを特徴とする請求項１から４のいずれか１項に記載の音声処理装置。
　前記通話相手識別手段は、前記通話相手の身体から取得したセンシング情報に基づいて前記通話相手を識別する
　ことを特徴とする請求項１から５のいずれか１項に記載の音声処理装置。
　請求項１から６のいずれか１項に記載の音声処理装置と、
　前記通話の音声信号を受信する受信手段と、
　前記音声処理装置の前記合成手段が合成した音声信号を出力する出力制御手段とを備えた
　通話デバイス。
　通話相手を識別し、
　識別した前記通話相手に応じた背景音響を選択し、
　選択した前記背景音響を、通話の音声信号と合成する
　音声処理方法。
　通話相手を識別することと、
　識別した前記通話相手に応じた背景音響を選択することと、
　選択した前記背景音響を、通話の音声信号と合成することと
　をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。