JP2022137824A

JP2022137824A - 音声加工装置及び音声加工方法

Info

Publication number: JP2022137824A
Application number: JP2021037505A
Authority: JP
Inventors: 剛仁寺口; Takehito Teraguchi; 放歌陳; Fangge Chen; 裕史井上; Yasushi Inoue; 雅己岡本; Masami Okamoto; 純河西; Jun Kawanishi; 雄宇志小田; Yuu Shioda; 翔太大久保; Shota Okubo; 乘西山; Nori Nishiyama
Original assignee: Renault SAS; Nissan Motor Co Ltd
Current assignee: Renault SAS; Nissan Motor Co Ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2022-09-22

Abstract

【課題】ユーザの好みに合わせた音声を自動的に出力することができる音声加工装置及び音声加工方法を提供する。【解決手段】第１ユーザがいる場所で集音装置により集音された集音音声を取得し、所定のサンプル音声に対する、第１ユーザがいる場所とは別の場所にいる第２ユーザの好感度を記憶し、サンプル音声に対する第２ユーザの好感度に基づいて、集音音声に対する第２ユーザの好感度を推定し、集音音声に対する第２ユーザの好感度に応じて、集音音声を強調又は抑制することで、集音音声を加工した加工音声を生成し、音声を第２ユーザに出力する出力装置に、加工音声を出力する。【選択図】図１

Description

本発明は、音声加工装置及び音声加工方法に関する。

車両の外部の周囲ノイズを検知する音響検出器を含む車両用音響システムが知られている（例えば、特許文献１）。特許文献１に記載の車両用音響システムでは、周囲ノイズをフィルタ処理して周囲ノイズ内の連続音響を識別し、連続音響をマスキング用音響に処理し、スピーカーからマスキング用音響を出力することで、プライバシーゾーンを車両の室内に生成する。

特開２０１９－８６７８４号公報

特許文献１に記載の車両用音響システムでは、車内の音響に対して音声加工するため、ユーザの好みに合わせた音声を自動的に出力することができない、という問題がある。

本発明が解決しようとする課題は、ユーザの好みに合わせた音声を自動的に出力することができる音声加工装置及び音声加工方法を提供することである。

本発明は、第１ユーザがいる場所で集音装置により集音された集音音声を取得し、所定のサンプル音声に対する、第１ユーザがいる場所とは別の場所にいる第２ユーザの好感度を記憶し、サンプル音声に対する第２ユーザの好感度に基づいて、集音音声に対する第２ユーザの好感度を推定し、集音音声に対する第２ユーザの好感度に応じて、集音音声を強調又は抑制することで、集音音声を加工した加工音声を生成し、音声を第２ユーザに出力する出力装置に、加工音声を出力することで、上記課題を解決する。

本発明によれば、集音音声に対するユーザの好感度に応じて加工された加工音声をユーザに出力することができるため、ユーザの好みに合わせた音声を自動的に出力することができる。

本実施形態に係るコミュニケーションシステムのブロック図である。本実施形態に係るコミュニケーションシステムによる音声出力処理を示すフローチャートである。本実施形態に係るコミュニケーションシステムによる音声出力処理を示すフローチャートである。

以下、本発明の実施形態を図面に基づいて説明する。
本実施形態では、本発明に係る音声加工装置及び音声加工方法を、コミュニケーションシステムに適用した例を用いて説明する。

図１は、本実施形態に係るコミュニケーションシステム１００のブロック図である。本実施形態に係るコミュニケーションシステム１００は、同一空間にいないユーザＡとユーザＢとが会話する場面に用いられる。本実施形態では、ユーザＡとして、車両１に乗車しており、車内空間１０にいるユーザを例に挙げ、ユーザＢとして、車両１から離間した場所である遠隔地空間２０にいるユーザを例に挙げて説明する。ユーザＡがいる場所とユーザＢがいる場所は異なる。

なお、コミュニケーションシステム１００は、ユーザＡがいる場所とユーザＢがいる場所とが異なる場面で用いられればよく、ユーザＡとユーザＢのそれぞれが位置する場所は特に限定されない。例えば、ユーザＡは車両１に乗車していなくてもよい。以降の説明では、便宜上、車内空間１０にいるユーザＡを車内ユーザＡと称し、遠隔地空間２０にいるユーザＢを遠隔地ユーザＢと称して説明する。

また本実施形態において、車内ユーザＡと遠隔地ユーザＢとが会話する際の各ユーザの状態は特に限定されない。例えば、図１では、車内ユーザＡの状態として、車両１のステアリングを操作している状態を示しているが、車内ユーザＡはドライバではなく、助手席又は後部座席に着座する乗員であってもよい。また例えば、図１では、遠隔地ユーザＢの状態として着座した状態を示しているが、遠隔地ユーザＢは起立していてもよい。また本実施形態では、車内ユーザＡと遠隔地ユーザＢとが会話する場面を例に挙げて説明するが、コミュニケーションシステム１００は会話の場面以外でも用いることができる。例えば、車内ユーザＡから遠隔地ユーザＢに向けて一方的に話す場面、すなわち、音声の流れは一方向の場面にも、コミュニケーションシステム１００を用いることができる。

また本実施形態では、コミュニケーションシステム１００が仮想現実（Virtual Reality）の技術を利用したシステムに用いられた場合を例に挙げて説明する。図１に示すように、車内ユーザＡと遠隔地ユーザＢとはそれぞれ異なる空間にいるため、車内ユーザＡと遠隔地ユーザＢは同一空間内で会話することができない。しかし、コンピュータによって作り出された世界である仮想空間を現実としてユーザに知覚させる仮想現実の技術では、コンピュータは、遠隔地ユーザＢに対して、あたかも車内空間１０にいるような仮想空間を作り出すことができる。仮想空間では、遠隔地ユーザＢは、少なくとも視覚及び聴覚を通じて、あたかも車内空間１０にいるかのように知覚する。例えば、遠隔地ユーザＢは、ＶＲゴーグル等、本願出願時に知られた仮想現実の技術が用いられたデバイスを装着することで、視覚を通じて仮想空間を車内空間１０として認知することができる。また遠隔地ユーザＢは、本実施形態に係るコミュニケーションシステム１００により、聴覚を通じて仮想空間を車内空間１０として認知することができる。以降、図１を用いて、コミュニケーションシステム１００の各構成を説明する。

図１に示すように、コミュニケーションシステム１００は、車内空間１０、遠隔地空間２０、及びサーバー３０を含む。遠隔地空間２０は、車内空間１０から離間した空間である。遠隔地空間２０としては、例えば、車両１とは別の車両の室内や建物の一室などが挙げられるが、遠隔地空間２０は車内空間１０とは別の場所であれば特に限定されない。

車内空間１０は、車両１の室内を示す区間である。車内空間１０には、車載マイク１１、車載コントローラ１２、及び車載通信装置１４が設けられている。車載マイク１１、車載コントローラ１２、及び車載通信装置１４は、車両１に搭載されている。車内空間１０に設けられた各装置は、相互に情報の送受信を行うために、例えばＣＡＮ（Controller Area Network）その他の車載ネットワーク（イーサネット（商標登録）など）によって接続されている。

車載マイク１１は、車内ユーザＡがいる場所で音声を集音する集音装置である。車載マイク１１は、車両１の室内の音声を集音するための車内用マイク１１ａと、車両１の室外の音声を集音するための車外用マイク１１ｂを含む。車内用マイク１１ａは、車両１に搭載され、車両１の室内の音声を集音する装置又は機器であればよく、その形態、数、特性、設置位置などは特に限定されない。同様に、車外用マイク１１ｂは、車両１に搭載され、車両１の室外の音声を集音する装置又は機器であればよく、その形態、数、特性、設置位置などは特に限定されない。

車内用マイク１１ａは、車内空間１０に流れ、人間、車両１に搭載された装置又はシステムを音源とする音声を集音する。車内用マイク１１ａが集音する音声としては、例えば、車内ユーザＡ又は車両１のその他の乗員が発する声、車両１が駆動していることを示す音（エンジン音、モータ音）、方向指示器が作動していることを示す音（ウィンカー音）、ワイパーが作動していることを示す音（ワイパー音）、ハザードランプが作動していることを示す音（ハザードランプ音）、カーナビゲーションシステムから出力される音声（音声案内の音）、オーディオシステムから再生される音声（音楽、テレビ音）などが挙げられる。

車外用マイク１１ｂは、車両１の周辺環境に流れ、人間、車両１以外の他車両、又は車両１に搭載された装置以外の装置を音源とする音声を集音する。車外用マイク１１ｂが集音する音声としては、例えば、車両１以外の他車両に関する音（他車両の走行音、クラクション音など）、緊急車両に関する音（サイレン音など）、広告宣伝車両に関する音（宣伝音など）などが挙げられる。

車載マイク１１により集音された音声は、車内ユーザＡの音声及び車内ユーザＡの背景音声のうち少なくともいずれかを含む。車内ユーザＡの背景音声とは、車内ユーザＡが発した音声以外の音声である（例えば、上述した車両１のエンジン音や他車両のクラクション音など）。一般的に、車両１の室内又は室外には、何らかの背景音声が存在する。そのため、本実施形態では、車内ユーザＡが発話した場合、車載マイク１１により集音された音声には、車内ユーザＡの音声及び背景音声が含まれ、一方、車内ユーザＡが発話していない場合、車載マイク１１により集音された音声には、背景音声が含まれるものとして説明する。また、以降では、説明の便宜上、車載マイク１１により集音された音声を集音音声と称して説明する。車載マイク１１により集音された集音音声は、集音音声データとして車載コントローラ１２に出力される。

車載コントローラ１２は、遠隔地空間２０との間で音声データを送受信するためのプログラムを格納したＲＯＭ（Read Only Memory）と、このＲＯＭに格納されたプログラムを実行するＣＰＵ（Central Processing Unit）と、アクセス可能な記憶装置として機能するＲＡＭ（Random Access Memory）とから構成されるコンピュータである。車載コントローラ１２は、音声取得部１３を有している。車載コントローラ１２は、ＲＯＭに格納されたプログラムを実行することで、音声取得部１３の機能を実行することができる。

音声取得部１３は、車内ユーザＡがいる場所で車載マイク１１により集音された集音音声を取得する。音声取得部１３は、集音音声を取得すると、集音音声をそのまま車載通信装置１４に転送する。また音声取得部１３は、集音音声データの送信先を含む送信指令を車載通信装置１４に出力する。音声取得部１３は、本発明の「音声取得部」の一例である。

車載通信装置１４は、車両１の外部との間で無線によりデータを送受信する無線通信機能を備えた機器である。車載通信装置１４としては、例えば、テレマティクスコントロールユニット（TCU：Telematics Control Unit）が挙げられる。車載通信装置１４は、無線通信機能により、例えば、４Ｇ／ＬＴＥ、Ｗｉｆｉ（商標登録）等の通信規格を利用して、インターネットに接続し、車両１の外部に設けられたサーバーやシステムとの間で様々なデータの送受信を行う。車載通信装置１４には、車載コントローラ１２から、集音音声データとともに、送信指令が入力される。車載通信装置１４は、送信指令に示された送信先に集音音声データを送信する。本実施形態では、車載通信装置１４は、車載コントローラ１２の送信指令に従い、集音音声データを遠隔地通信装置２１に送信する。

遠隔地空間２０について説明する。図１に示すように、遠隔地空間２０には、遠隔地通信装置２１、遠隔地カメラ２２、遠隔地マイク２３、遠隔地入力装置２４、遠隔地出力装置２５、及び遠隔地コントローラ２６が設けられている。遠隔地空間２０に設けられた各装置は、相互に情報の送受信を行うために、例えばイーサネット（商標登録）などによって接続されている。

遠隔地通信装置２１は、遠隔地空間２０の外部との間で無線によりデータを送受信する無線通信機能を備えた機器である。遠隔地通信装置２１としては、例えば、ルーターが挙げられる。遠隔地通信装置２１は、無線通信機能により、例えば、４Ｇ／ＬＴＥ、Ｗｉｆｉ（商標登録）等の通信規格を利用して、インターネットに接続し、遠隔地空間２０の外部に設けられたサーバーやシステムとの間で様々なデータの送受信を行う。本実施形態では、遠隔地通信装置２１は、車載通信装置１４及びサーバー通信装置３１との間でデータの送受信を行う。各通信装置間で送受信されるデータについては後述する。

遠隔地カメラ２２は、遠隔地空間２０で遠隔地ユーザＢを撮像する撮像装置である。遠隔地カメラ２２は、遠隔地ユーザＢの表情を撮像可能な位置に設置されるのが好ましい。遠隔地カメラ２２により撮像された、遠隔地ユーザＢの表情を含む撮像画像は、遠隔地ユーザＢの撮像画像データとして、遠隔地コントローラ２６に出力される。なお、遠隔地カメラ２２は、その形態、数、特性、設置場所などは特に限定されない。例えば、遠隔地カメラ２２は、複数のカメラ又は種別が複数のカメラで構成されていてもよい。

遠隔地マイク２３は、遠隔地ユーザＢがいる場所（遠隔地空間２０）で音声を集音する集音装置である。遠隔地マイク２３は、遠隔地ユーザＢの音声を集音可能な位置に設置されるのが好ましい。遠隔地マイク２３により集音された集音音声は、遠隔地コントローラ２６に出力される。なお、遠隔地マイク２３は、その形態、数、特性、設置場所などは特に限定されない。例えば、遠隔地マイク２３は、複数のマイク又は種別が複数のマイクで構成されていてもよい。

遠隔地入力装置２４は、遠隔地ユーザＢが操作可能なヒューマンインターフェースとして機能する装置である。遠隔地ユーザＢは、遠隔地入力装置２４を操作することで、コミュニケーションシステム１００に関する設定を入力することができる。遠隔地入力装置２４は、キーボードやマウス等、各機器が別体で構成されていてもよいし、タッチパネルのようにディスプレイと入力部とが一体で構成されていてもよい。遠隔地入力装置２４の形態、特性、設置場所などは特に限定されない。

本実施形態では、遠隔装置ユーザＢは、コミュニケーションシステム１００に関する設定として、遠隔地入力装置２４を介して音声加工モードを設定する。例えば、遠隔地ユーザＢは、画面に表示された複数のモードから一つのモードを選択することで、音声加工モードを設定する。遠隔地ユーザＢによる音声加工モードの設定方法は一例であって、その他の設定方法であってもよい。遠隔地入力装置２４に入力された音声加工モードの設定情報は、遠隔地コントローラ２６に出力される。

ここで、本実施形態に係る音声加工モードについて説明する。音声加工モードとは、車載マイク１１により集音された集音音声をどの観点から加工するかを規定したモードである。本実施形態では、音声加工モードとして２種類のモードが設定されている。

２種類の音声加工モードのうち一方の音声加工モードは、好感度モードと称され、遠隔地ユーザＢの嗜好性を重視したモードである。遠隔地ユーザＢの嗜好性とは、遠隔地ユーザＢの好みである。遠隔地ユーザＢの好みは、遠隔地ユーザＢが好きなものの傾向及び遠隔地ユーザＢが嫌いなものの傾向を含む。音声加工モードが好感度モードに設定された場合、後述する遠隔地コントローラ２６の音声加工部２８は、集音音声に対する遠隔地ユーザＢの好感度に応じて、集音音声を加工処理する。音声加工部２８については後述する。

また２種類の音声加工モードのうち他方の音声加工モードは、重要度モードと称され、集音音声に対する重要度を重視したモードである。集音音声に対する重要度とは、ユーザに集音音声を聞いて欲しい度合いである。音声加工モードが重要度モードに設定された場合、後述する遠隔地コントローラ２６の音声加工部２８は、集音音声の重要度に応じて、集音音声に対する加工の要否を判定し、加工が必要と判定した場合、集音音声を加工処理する。

遠隔地出力装置２５は、遠隔地ユーザＢに対して音声を出力する装置である。遠隔地出力装置２５は、遠隔地ユーザＢが遠隔地出力装置２５から出力される音声を聞きやすい位置に設置されるのが好ましい。遠隔地出力装置２５には、遠隔地コントローラ２６から集音音声データ又は加工音声データが入力される。加工音声データとは、遠隔地コントローラ２６の音声加工部２８により集音音声が加工された加工音声のデータである。

遠隔地出力装置２５は、遠隔地コントローラ２６から出力される集音音声データ又は加工音声データに基づき再生音を生成し、生成した再生音を出力する。遠隔地出力装置２５としては、例えば、スピーカーなどが挙げられる。なお、遠隔地出力装置２５は、その形態、数、設置場所、特性などは特に限定されない。例えば、遠隔地出力装置２５は、複数のスピーカー又は種別が複数のスピーカーで構成されていてもよい。また遠隔地出力装置２５は、再生音を立体音響として出力する立体音響機能を備えていてもよい。例えば、遠隔地出力装置２５は、遠隔地コントローラ２６から入力される音声データにバイノーラル録音の信号が含まれる場合、遠隔地出力装置２５は、立体音響機能により、バイノーラル方式を用いて再生音を立体音響として出力してもよい。

遠隔地コントローラ２６は、遠隔地ユーザＢが聞く音声を加工処理するためのプログラムを格納したＲＯＭ（Read Only Memory）と、このＲＯＭに格納されたプログラムを実行するＣＰＵ（Central Processing Unit）と、アクセス可能な記憶装置として機能するＲＡＭ（Random Access Memory）とから構成されるコンピュータである。遠隔地コントローラ２６は、対象サンプル音声特定部２７、音声加工部２８、及び音声出力部２９を有している。遠隔地コントローラ２６は、ＲＯＭに格納されたプログラムを実行することで、対象サンプル音声特定部２７、音声加工部２８、及び音声出力部２９の機能を実行することができる。遠隔地コントローラ２６の各機能について説明する。

対象サンプル音声特定部２７には、遠隔地通信装置２１を介して、車載通信装置１４から送信された集音音声データが入力される。対象サンプル音声特定部２７は、車載通信装置１４から送信された集音音声データに対して、音声認識処理、クラスタリング処理、及びサンプル音声特定処理を順次実行することで、集音音声と同一又は類似のサンプル音声を対象サンプル音声として特定する。サンプル音声とは、集音音声に対する遠隔地ユーザＢの好感度を推定するために用いられる見本の音声である。

対象サンプル音声特定部２７は、集音音声データに対して音声認識処理を実行することで、集音音声に含まれる音声の種別を判別する。例えば、車内ユーザＡが発した音声、車両１のエンジン音、及び他車両のクラクション音が集音音声に含まれる場合、対象サンプル音声特定部２７は、集音音声から車内ユーザＡの音声、車両１のエンジン音、及び他車両のクラクション音を抽出する。また対象サンプル音声特定部２７は、車両１のエンジン音及び他車両のクラクション音を背景音声として、これらの音声を車内ユーザＡの音声と区別する。

次に、対象サンプル音声特定部２７は、判別した各種別の音声に対してクラスタリング処理を実行することで、各種別の音声を予め設定されたクラスに分類する。例えば、対象サンプル音声特定部２７は、抽出した車内ユーザＡの音声、車両１のエンジン音、及び他車両のクラクション音のそれぞれを予め設定されたクラスに分類する。一例として、対象サンプル音声特定部２７は、車内ユーザＡの音声を「ユーザ音声」に分類し、車両１のエンジン音を「車両１の駆動音」に分類し、他車両のクラクション音を「他車両の音声」に分類する。なお、クラスタリング処理におけるクラスの分類方法、クラスの階層の深さ、クラスの数などは特に限定されず、上記は一例に過ぎない。

さらに、対象サンプル音声特定部２７は、分類されたクラスに含まれる音声と同一又は類似のサンプル音声を、対象サンプル音声として特定する。対象サンプル音声特定部２７は、分類されたクラスに含まれる音声ごとに対象サンプル音声を特定することで、集音音声に含まれる全ての音声について、対象サンプル音声を特定する。

ここで、本実施形態における同一及び類似の概念について説明する。同一の音声又は類似の音声と規定するためのパラメータとしては、例えば、音声の周波数成分（周波数スペクトラム）が挙げられる。例えば、対象サンプル音声特定部２７は、予め記憶された複数のサンプル音声から、分類されたクラスに含まれる音声の周波数成分と同一の周波数成分を有するサンプル音声を、対象サンプル音声として特定する。また例えば、対象サンプル音声特定部２７は、予め記憶された複数のサンプル音声から、分類されたクラスに含まれる音声の周波数成分とは完全一致しないものの、周波数帯が所定範囲内又はピーク値が所定範囲内の周波数成分を有するサンプル音声を、対象サンプル音声として特定する。なお、対象サンプル音声を特定するためのパラメータは、周波数成分に限られず、音声に関するその他のパラメータであってもよい。

対象サンプル音声特定部２７は、特定した対象サンプル音声を遠隔地通信装置２１に出力する。なお、対象サンプル音声特定部２７による各処理は一例であって、上記処理に限定されるものではない。対象サンプル音声特定部２７が実行する処理には、本願出願時に知られた音声認識処理、クラスタリング処理、及び音声特定処理を適用することができる。対象サンプル音声特定部２７は、本発明の「対象サンプル音声特定部」の一例である。

音声加工部２８には、遠隔地通信装置２１を介して、車載通信装置１４から集音音声データが入力される。また、音声加工部２８には、遠隔地入力装置２４から、音声加工モードの設定情報が入力される。さらに、音声加工部２８には、遠隔地通信装置２１を介して、サーバー通信装置３１から集音音声に対する遠隔地ユーザＢの好感度の情報が入力される。

音声加工部２８は、音声加工モードが好感度モードに設定されている場合、集音音声に対して音声加工処理を実行し、音声加工部２８に入力された集音音声を音声出力部２９に転送しない。また音声加工部２８は、音声加工モードが重要度モードに設定されている場合、集音音声に対する音声加工の要否判定処理を実行し、音声加工部２８に入力された集音音声を音声出力部２９に転送しない。一方、音声加工部２８は、音声加工モードが好感度モード及び重要度モードのいずれにも設定されていない場合、音声加工部２８に入力された集音音声を音声出力部２９に転送する。

音声加工部２８による音声加工処理について説明する。まず、音声加工モードが好感度モードに設定されている場合について説明する。音声加工部２８は、音声加工モードが好感度モードに設定されている場合、集音音声に含まれる各音声に対する遠隔地ユーザＢの好感度を特定し、集音音声に含まれる音声ごとに、遠隔地ユーザＢの好感度と所定の第１閾値を比較する。音声加工部２８は、特定の音声に対する遠隔地ユーザＢの好感度が所定の第１閾値よりも高い場合、加工音声に含まれる特定の音声が集音音声に含まれる特定の音声よりも相対的に強調されるように、集音音声を加工する。一方、音声加工部２８は、集音音声に含まれる特定の音声に対する遠隔地ユーザＢの好感度が所定の第１閾値よりも低い場合、加工音声に含まれる特定の音声が集音音声に含まれる特定の音声よりも相対的に抑制されるように、集音音声を加工する。このように集音音声に含まれる音声ごとに、強調処理又は抑制処理がされることで、ユーザが比較的好む音声は強調され、ユーザが比較的好まない音声は抑制された加工音声を生成することができる。なお、上記の所定の第１閾値は、音声を強調又は抑制するかを判定するための閾値であって、予め定められた閾値である。

例えば、遠隔地ユーザＢがカーナビゲーションシステムから出力される音楽を好むため、集音音声に含まれる音楽に対する遠隔地ユーザＢの好感度が所定の第１閾値よりも高い場合、音声加工部２８は、加工音声に含まれる音楽が集音音声に含まれる音楽よりも相対的に強調されるように、集音音声を加工する。また例えば、遠隔地ユーザＢが他車両のクラクション音を好まないため、集音音声に含まれる他車両のクラクション音に対する遠隔地ユーザＢの好感度が所定の第１閾値よりも低い場合、音声加工部２８は、加工音声に含まれる他車両のクラクション音が集音音声に含まれる他車両のクラクション音よりも相対的に抑制されるように、集音音声を加工する。

なお、例を挙げて説明した音声加工部２８による音声の強調処理及び音声の抑制処理には、本願出願時に知られた音声の強調処理及び音声の抑制処理を適用することができるものとする。

次に、音声加工モードが重要度モードに設定されている場合について説明する。音声加工部２８は、音声加工モードが重要度モードに設定されている場合、集音音声に含まれる各音声の重要度の高さを特定し、集音音声に含まれる音声ごとに、音声の重要度と所定の第２閾値を比較する。音声加工部２８は、集音音声に含まれる各音声のうち少なくとも一つの音声の重要度が所定の第２閾値よりも高い場合、集音音声の重要度が所定の第２閾値よりも高いものとして、集音音声に対する音声加工が必要と判定する。具体的に、音声加工部２８は、重要度が所定の第２閾値よりも高いとされる音声に対して音声加工が必要と判定する。一方、音声加工部２８は、集音音声に含まれる各音声の重要度が所定の第２閾値よりも低い場合、集音音声の重要度が所定の第２閾値よりも低いものとして、集音音声に対する加工は不要と判定する。なお、上記の所定の第２閾値は、集音音声の重要度により音声加工が必要か否かを判定するための閾値であって、予め定められた閾値である。

集音音声の重要度は、集音音声の内容に応じて設定されている。例えば、緊急車両のサイレン音は、遠隔地ユーザＢに強調して伝達すべき音として予め重要度が高いクラスに分類されている。集音音声に緊急車両のサイレン音が含まれている場合、すなわち、車両１の周辺に緊急車両が存在する場合を例に挙げて音声加工部２８の音声加工処理を説明する。

音声加工部２８は、音声認識処理により、集音音声に含まれる各音声を判別することで、集音音声に緊急車両のサイレン音が含まれていることを特定する。音声加工部２８は、緊急車両のサイレン音の重要度と所定の第２閾値を比較し、緊急車両のサイレン音の重要度が所定の第２閾値よりも高い場合、緊急車両のサイレン音に対する加工が必要と判定する。この場合、音声加工部２８は、加工音声に含まれる緊急車両のサイレン音が集音音声に含まれる緊急車両のサイレン音よりも相対的に強調されるように、集音音声を加工する。音声加工部２８は、本発明の「音声加工部」の一例である。

音声出力部２９は、音声加工部２８から入力される集音音声又は加工音声を、遠隔地出力装置２５に出力する。音声加工モードが好感度モードに設定されている場合、音声出力部２９には、音声加工部２８から加工音声が入力される。この場合、音声出力部２９は、入力された加工音声を遠隔地出力装置２５に出力する。また音声加工モードが重要度モードに設定され、かつ、音声加工部２８が音声加工処理を実行した場合、音声出力部２９には、音声加工部２８から加工音声が入力される。この場合、音声出力部２９は、入力された加工音声を遠隔地出力装置２５に出力する。また音声加工モードが好感度モード及び重要度モードのいずれにも設定されていない場合、音声出力部２９には、音声加工部２８から集音音声が入力される。この場合、音声出力部２９は、入力された集音音声を遠隔地出力装置２５に出力する。音声出力部２９は、本発明の「音声出力部」の一例である。

次に、サーバー３０について説明する。図１に示すように、サーバー３０は、サーバー通信装置３１、データベース３２、及びサーバーコントローラ３３を備えている。サーバー３０が備える各装置は、相互に情報の送受信を行うために、例えばイーサネット（商標登録）などによって接続されている。

サーバー通信装置３１は、遠隔地通信装置２１との間で無線によりデータを送受信する無線通信機能を備えた機器である。サーバー通信装置３１としては、例えば、ルーターが挙げられる。サーバー通信装置３１は、無線通信機能により、例えば、４Ｇ／ＬＴＥ、Ｗｉｆｉ（商標登録）等の通信規格を利用して、インターネットに接続し、サーバー３０の外部に設けられた他のサーバーやシステムとの間で様々なデータの送受信を行う。本実施形態では、サーバー通信装置３１は、遠隔地通信装置２１との間でデータの送受信を行う。

サーバー通信装置３１の送受信するデータについて説明する。サーバー通信装置３１は、遠隔地通信装置２１から、遠隔地カメラ２２により撮像された遠隔地ユーザＢの表情を含む撮像画像のデータ、及び遠隔地マイク２３により集音された遠隔地ユーザＢの音声データを受信する。サーバー通信装置３１は、受信した撮像画像のデータ及び音声データを、データベース３２及びサーバーコントローラ３３に出力する。なお、本実施形態では、車内ユーザＡと遠隔地ユーザＢとがコミュニケーションシステム１００を利用する前に、サーバー通信装置３１は、上記の撮像画像のデータ及び音声データを受信するものとする。

また、サーバー通信装置３１は、遠隔地通信装置２１から、対象サンプル音声特定部２７により特定された対象サンプル音声のデータを受信する。サーバー通信装置３１は、受信した対象サンプル音声のデータをサーバーコントローラ３３に出力する。なお、本実施形態では、車内ユーザＡと遠隔地ユーザＢとがコミュニケーションシステム１００を利用開始した後に、サーバー通信装置３１は、上記の対象サンプル音声のデータを受信するものとする。

また、サーバー通信装置３１には、サーバーコントローラ３３から、集音音声に対する遠隔地ユーザＢの好感度の情報が入力される。サーバー通信装置３１は、集音音声に対する遠隔地ユーザＢの好感度の情報を、遠隔地通信装置２１に送信する。

データベース３２は、コミュニケーションシステム１００を利用するユーザの各種データを格納する。データベース３２は、所定のサンプル音声に対する遠隔地ユーザＢの好感度を記憶する。サンプル音声の種別は複数あり、データベース３２は、サンプル音声ごとに遠隔地ユーザＢの好感度を記憶する。データベース３２が記憶するサンプル音声に対する遠隔地ユーザＢの好感度は、後述するサーバーコントローラ３３の好感度推定部３４により推定される。

またデータベース３２は、好感度推定部３４の好感度推定処理に利用されるデータとして、所定のサンプル音声を聞いたときのユーザの表現態様の情報を記憶する。所定のサンプル音声を聞いたときのユーザの表現態様は、所定のサンプル音声を聞いたときのユーザの表情、所定のサンプル音声を聞いたときにユーザが発した音声の音質、及び所定のサンプル音声を聞いたときにユーザが発生した内容のうち少なくともいずれか一つを含む。所定のサンプル音声を聞いたときのユーザの表情は、遠隔地カメラ２２により撮像された遠隔地ユーザＢの表情を含む撮像画像のデータから取得された情報である。また所定のサンプル音声を聞いたときにユーザが発した音声の音質及び所定のサンプル音声を聞いたときにユーザが発した内容は、遠隔地マイク２３により集音された遠隔地ユーザＢの音声データから取得された情報である。

例えば、車内ユーザＡと遠隔地ユーザＢがコミュニケーションシステム１００を利用開始する前に、サンプル音声を聞いたときの遠隔地ユーザＢの表現態様の情報を取得する機会が予め設けられていたとする。この機会において、サンプル音声を聞いたときの遠隔地ユーザＢの反応（いわゆるリアクション）は、遠隔地カメラ２２及び遠隔地マイク２３によりデータとして取得される。例えば、遠隔地ユーザＢがサンプル音声として特定車種の車両のエンジン音を聞いた場合、遠隔地カメラ２２は、そのときの遠隔地ユーザＢの表情を撮像し、また遠隔地マイク２３は、そのときの遠隔地ユーザＢの音声を集音する。サンプル音声が変わるたびに、遠隔地カメラ２２及び遠隔地マイク２３は、サンプル音声を聞いたときの遠隔地ユーザＢの反応をデータとして取得する。遠隔地ユーザＢが全てのサンプル音声を聞き終わると、遠隔地カメラ２２に撮像された撮像データ及び遠隔地マイク２３により集音された音声データは、遠隔地通信装置２１を介して、サーバー通信装置３１に送信される。これにより、データベース３２は、サンプル音声と当該サンプル音声を聞いたときの遠隔地ユーザＢの表現態様を対応させて記憶することができ、サンプル音声と遠隔地ユーザの表現態様のデータベース化を実現することができる。なお、本実施形態では、サンプル音声の種別やその数、またユーザがサンプル音声を聞くタイミングなどは特に限定されない。データベース３２が記憶する各種データは、サーバーコントローラ３３の好感度推定部３４で用いられる。データベース３２は、本発明の「記憶部」の一例である。

サーバーコントローラ３３は、サンプル音声に対するユーザの好感度を推定するサンプル音声好感度推定処理、及び集音音声に対する好感度を推定する集音音声好感度推定処理を実行するためのプログラムを格納したＲＯＭ（Read Only Memory）と、このＲＯＭに格納されたプログラムを実行するＣＰＵ（Central Processing Unit）と、アクセス可能な記憶装置として機能するＲＡＭ（Random Access Memory）とから構成されるコンピュータである。サーバーコントローラ３３は、好感度推定部３４を有している。サーバーコントローラ３３は、ＲＯＭに格納されたプログラムを実行することで、好感度推定部３４の機能を実行することができる。好感度推定部３４の機能について説明する。

好感度推定部３４は、サンプル音声好感度推定処理により、データベース３２に記憶される所定のサンプル音声を聞いたときのユーザの表現態様の情報に基づき、サンプルに対する遠隔地ユーザＢの好感度を推定する。例えば、好感度推定部３４は、サンプル音声を聞いた前後での遠隔地ユーザの表情の変化に基づき、サンプルに対する遠隔地ユーザＢの好感度を推定する。また例えば、好感度推定部３４は、サンプル音声を聞いた前後での遠隔地ユーザの音声の抑揚の変化に基づき、サンプルに対する遠隔地ユーザＢの好感度を推定する。また例えば、好感度推定部３４は、サンプル音声を聞いた後に遠隔地ユーザＢが発話した内容に基づき、サンプルに対する遠隔地ユーザＢの好感度を推定する。遠隔地ユーザＢが発話した内容としては、例えば、「好き」、「嫌い」など遠隔地ユーザＢの好みを直接的に表現した内容、又は遠隔地ユーザＢの好みを示唆する内容を含む。好感度推定部３４は、推定したサンプル音声に対する遠隔地ユーザＢの好感度をデータベース３２に記憶させる。

好感度推定部３４の一例としては、遠隔地ユーザＢの表現態様からサンプル音声に対する遠隔地ユーザＢの好感度を推定するために機械学習を行った学習済みの学習済みモデルが挙げられる。
学習済みモデルは、学習済みニューラルネットワークを有する。学習済みニューラルネットワークは、所定のサンプル音声を聞いたときのユーザの表現態様が入力されると、サンプル音声に対する遠隔地ユーザＢの好感度を推定するように、教師データを用いて機械学習処理が施されたニューラルネットワークである。好感度推定部３４は、サーバー通信装置３１を介して、所定のサンプル音声を聞いたときの遠隔地ユーザＢの表現態様が入力されると、学習済みニューラルネットワークを用いて、当該サンプル音声に対する遠隔地ユーザＢの好感度を推定する。

また好感度推定部３４は、対象サンプル音声のデータが入力されると、集音音声好感度推定処理により、データベース３２に記憶される所定のサンプル音声に対する遠隔地ユーザＢの好感度に基づいて、集音音声に対する遠隔地ユーザの好感度を推定する。具体的には、好感度推定部３４は、データベース３２に記憶されるサンプル音声の中から、対象サンプル音声に対応したサンプル音声を抽出する。データベース３２は、サンプル音声と当該サンプル音声に対する遠隔地ユーザの好感度が対応付けられて記憶している。好感度推定部３４は、データベース３２を参照することで、特定したサンプル音声に対する遠隔地ユーザＢの好感度を特定する。好感度推定部３４は、特定したサンプル音声に対する遠隔地ユーザＢの好感度を、集音音声に対する遠隔地ユーザＢの好感度として推定する。好感度推定部３４は、推定した集音音声に対する遠隔地ユーザＢの好感度を、サーバー通信装置３１を介して、遠隔地通信装置２１に送信する。

図２及び図３を用いて、コミュニケーションシステム１００により、車内ユーザＡがいる場所で集音された音声が遠隔地ユーザＢに出力されるまでのフローを説明する。図２及び図３は、コミュニケーションシステム１００による音声出力処理を示すフローチャートである。図２及び図３に示すように、フローチャートの各ステップは、車載コントローラ１２、遠隔地コントローラ２６、又はサーバーコントローラ３３のいずれかにより実行される。

ステップＳ１０１では、車載コントローラ１２は、コミュニケーションシステム１００の利用が開始されたか否かを判定する。例えば、コミュニケーションシステム１００の利用は、ＶＲゴーグルを装着した遠隔地ユーザＢがコミュニケーションシステム１００を起動するための操作を行うことで開始される。遠隔地ユーザＢによる上記操作の情報が遠隔地空間２０から車両１に対して送信され、車載コントローラ１２に入力されると、車載コントローラ１２は、コミュニケーションシステム１００の利用が開始されたと判定する。車載コントローラ１２が肯定的な判定をした場合、ステップＳ１０２に進む。一方、車載コントローラ１２に遠隔地ユーザＢによる操作の情報が入力されず、車載コントローラ１２が否定的な判定をした場合、コミュニケーションシステム１００による音声出力処理は終了する。

ステップＳ１０２では、車載コントローラ１２は、車載マイク１１により集音された集音音声を取得したか否かを判定する。車載コントローラ１２は、車載マイク１１から集音音声データが入力された場合、集音音声を取得したと判定し、車載マイク１１から集音音声データが入力されない場合、集音音声を取得していないと判定する。車載コントローラ１２が肯定的な判定をした場合、ステップＳ１０３に進み、車載コントローラ１２が否定的な判定をした場合、ステップＳ１０１に戻る。

ステップＳ１０２において、車載コントローラ１２が肯定的な判定をした場合、ステップＳ１０３に進む。ステップＳ１０３では、車載コントローラ１２は、車載通信装置１４を介して、ステップＳ１０２で取得した集音音声データを遠隔地空間２０に送信する。

ステップＳ１０４では、遠隔地コントローラ２６は、遠隔地通信装置２１を介して、ステップＳ１０３で車載通信装置１４から送信された集音音声データを受信する。ステップＳ１０５では、遠隔地コントローラ２６は、ステップＳ１０４で受信した集音音声と同一又は類似のサンプル音声を対象サンプル音声として特定する。

ステップＳ１０６では、遠隔地コントローラ２６は、遠隔地ユーザＢが遠隔地入力装置２４に入力した音声加工モードの設定情報を取得し、音声加工モードが重要度モードか否かを判定する。遠隔地コントローラ２６が肯定的な判定をした場合、ステップＳ１０７に進み、遠隔地コントローラ２６が否定的な判定をした場合、ステップＳ１０８に進む。

ステップＳ１０６において、遠隔地コントローラ２６が肯定的な判定をした場合、ステップＳ１０７に進む。ステップＳ１０７では、遠隔地コントローラ２６は、ステップＳ１０４で受信した集音音声の重要度が所定の第２閾値よりも高いか否かを判定する。

例えば、遠隔地コントローラ２６は、集音音声に対して音声認識処理を実行することで、集音音声に含まれる各音声を判別する。遠隔地コントローラ２６は、集音音声に含まれる各音声の重要度と所定の第２閾値とを比較する。遠隔地コントローラ２６は、集音音声に含まれる各音声のうち少なくとも一つの音声の重要度が所定の第２閾値よりも高い場合、集音音声の重要度が所定の第２閾値よりも高いと判定する。一方、遠隔地コントローラ２６は、集音音声に含まれる全ての音声の重要度が所定の第２閾値よりも低い場合、集音音声の重要度は所定の第２閾値よりも低いと判定する。遠隔地コントローラ２６が肯定的な判定をした場合、ステップＳ１１４に進み、遠隔地コントローラ２６が否定的な判定をした場合、ステップＳ１０８に進む。

ステップＳ１０７において、遠隔地コントローラ２６が否定的な判定をした場合、ステップＳ１０８に進む。ステップＳ１０８では、遠隔地コントローラ２６は、音声加工モードが好感度モードか否かを判定する。遠隔地コントローラ２６が肯定的な判定をした場合、ステップＳ１０９に進み、遠隔地コントローラ２６が否定的な判定をした場合、ステップＳ１１５に進む。

ステップＳ１０８において、遠隔地コントローラ２６が肯定的な判定をした場合、ステップＳ１０９に進む。ステップＳ１０９では、遠隔地コントローラ２６は、遠隔地通信装置２１を介して、ステップＳ１０５で特定した対象サンプル音声のデータ（対象サンプル音声データ）をサーバー３０に送信する。

ステップＳ１１０では、サーバーコントローラ３３は、サーバー通信装置３１を介して、ステップＳ１０９で遠隔地通信装置２１から送信された対象サンプル音声データを受信する。ステップＳ１１１では、サーバーコントローラ３３は、データベース３２に記憶されるサンプル音声に対する遠隔地ユーザＢの好感度に基づき、集音音声に対する遠隔地ユーザＢの好感度を推定する。

ステップＳ１１２では、サーバーコントローラ３３は、サーバー通信装置３１を介して、集音音声に対する遠隔地ユーザＢの好感度の情報（ステップＳ１１１で推定された好感度の推定結果）を遠隔地空間２０に送信する。

ステップＳ１１３では、遠隔地コントローラ２６は、遠隔地通信装置２１を介して、ステップＳ１１２でサーバー通信装置３１から送信された好感度の推定結果の情報を受信する。

ステップＳ１１４では、遠隔地コントローラ２６は、ステップＳ１０４で受信した集音音声データに対して音声加工処理を実行する。このステップでは、遠隔地コントローラ２６は、設定された音声加工モードに応じて、加工対象の音声及び加工方法が異なる音声加工処理を実行する。

ステップＳ１０７からステップＳ１１４に進んだ場合、遠隔地コントローラ２６は、ステップＳ１０７で重要度が所定の第２閾値よりも高いと判定された音声を強調する強調処理を実行し、集音音声を加工した加工音声を生成する。一方、ステップＳ１１３からステップＳ１１４に進んだ場合、ステップＳ１１３で受信した集音音声に対する遠隔地ユーザＢの好感度に応じて、ステップＳ１０４で受信した集音音声を強調する強調処理又は抑制する抑制処理を実行し、集音音声を加工した加工音声を生成する。

ステップＳ１１５では、遠隔地コントローラ２６は、遠隔地出力装置２５を介して、遠隔地ユーザＢに音声を出力する。遠隔地コントローラ２６は、設定された音声加工モードに応じて異なる音声を遠隔地ユーザＢに出力する。

音声加工モードが好感度モードに設定されている場合、遠隔地コントローラ２６は、ステップＳ１１４で集音音声を強調又は抑制した加工音声を、遠隔地出力装置２５に出力する。これにより、集音音声とは異なり、遠隔地ユーザＢの好みが反映された加工音声を自動的に遠隔地ユーザＢに出力することができる。

また音声加工モードが重要度モードに設定され、ステップＳ１１４で音声加工処理が実行された場合、遠隔地コントローラ２６は、加工音声として、重要度が所定の第２閾値よりも高い音声が集音音声に対して強調された加工音声を、遠隔地出力装置２５に出力する。これにより、集音音声とは異なり、重要度が所定の第２閾値よりも高い音声が強調された加工音声を自動的に遠隔地ユーザＢに出力することができる。

さらに音声加工モードが好感度モード又は重要度モードのいずれのモードにも設定されていない場合、遠隔地コントローラ２６は、ステップＳ１０４で受信した集音音声を遠隔地ユーザＢに出力する。これにより、車内ユーザＡがいる場所で集音された音声をそのまま遠隔地ユーザＢに出力することができる。

ステップＳ１１５の処理が終了すると、ステップＳ１０１に戻り、ステップＳ１０２で否定的な判定がされるまで、図２及び図３に示すコミュニケーションシステム１００による音声出力処理が繰り返し実行される。

このように、本実施形態に係るコミュニケーションシステム１００による音声出力処理によれば、音声加工モードの設定、集音音声に含まれる音声の種別、集音音声の重要度、及び集音音声に対する遠隔地ユーザＢの好感度に応じて、異なる音声を遠隔地ユーザＢに対して出力することができる。また、音声加工モードが好感度モード又は重要度モードに設定され、集音音声に含まれる各音声の一部又は全部が加工された加工音声が遠隔地ユーザＢに出力される場合、集音音声に含まれる各音声のうち強調された音声は、遠隔地ユーザＢにとって聞き取りやすくなり、集音音声に含まれる各音声のうち抑制された音声は、遠隔地ユーザＢにとって聞き取りづらくなる。つまり、本実施形態に係るコミュニケーションシステム１００による音声出力処理によれば、集音音声に含まれる各音声から音声を選択して、遠隔地ユーザＢに聞かせることができる。

以上のように、本実施形態では、車載コントローラ１２は、車内ユーザＡがいる場所で車載マイク１１により集音された集音音声を取得する音声取得部１３を備え、サーバー３０は、所定のサンプル音声に対する、車内ユーザＡがいる場所とは別の場所にいる遠隔地ユーザＢの好感度を記憶するデータベース３２と、サンプル音声に対する遠隔地ユーザＢの好感度に基づいて、集音音声に対する遠隔地ユーザＢの好感度を推定する好感度推定部３４とを備え、遠隔地コントローラ２６は、集音音声に対する遠隔地ユーザＢの好感度に応じて、集音音声を強調又は抑制することで、集音音声を加工した加工音声を生成する音声加工部２８と、音声を遠隔地ユーザＢに出力する遠隔地出力装置２５に、加工音声を出力する音声出力部２９とを備える。これにより、集音音声に対する遠隔地ユーザＢの好感度に応じて加工された加工音声を遠隔地ユーザＢに出力することできるため、ユーザの好みに合わせた音声を自動的に出力することができる。例えば、重低音のエンジン音を好まないユーザに対して、車両１のエンジン音を選択的にキャンセリングした加工音声を自動的に出力することができる。その結果、ユーザが自身の好みに合わせて音声を調整するという調整作業が必要になる機会を減らすことができる。

また、本実施形態では、好感度推定部３４は、所定のサンプル音声を聞いたときの遠隔地ユーザＢの表現態様に基づき、サンプル音声に対する遠隔地ユーザＢの好感度を推定する。これにより、サンプル音声に対するユーザの好感度を高精度で推定することができる。

さらに、本実施形態では、遠隔地コントローラ２６は、集音音声と同一又は類似のサンプル音声を対象サンプル音声として特定する対象サンプル音声特定部２７を備え、好感度推定部３４は、対象サンプル音声に対する遠隔地ユーザＢの好感度に基づいて、集音音声に対する遠隔地ユーザＢの好感度を推定する。集音音声と同一又は類似のサンプル音声に対するユーザの好感度から、集音音声に対するユーザの好感度を推定するため、集音音声に対するユーザの好感度を高精度で推定することができる。

加えて、本実施形態では、車内ユーザＡは、車両１に乗車しているユーザであり、遠隔地ユーザＢは、車両１から離間した場所の遠隔地空間２０にいるユーザである。これにより、車両の室内のように様々な種別の音声が流れる空間にいるユーザと会話する場面においても、聞き手のユーザの好みに合わせた音声を自動的に出力することができる。その結果、ユーザがいる場所の音場環境を問わず、聞き手のユーザの好みに合わせた音声を自動的に出力することができる。

また、本実施形態では、音声加工部２８は、集音音声に対する遠隔地ユーザＢの好感度が所定の第１閾値よりも高い場合、加工音声が集音音声に比べて相対的に強調されるように、集音音声を加工する。これにより、ユーザは、自身の好みの音声が強調された加工音声を聞くことができるため、ユーザによる音声の調整作業の機会を減らすことができ、ユーザの利便性を高めることができる。

さらに、本実施形態では、音声出力部２９は、集音音声を加工する音声加工モードとして、集音音声に対する遠隔地ユーザＢの好感度に応じて集音音声を加工する好感度モードが設定されている場合、集音音声に対する遠隔地ユーザＢの好感度に応じた加工音声を、遠隔地出力装置２５に出力する。これにより、ユーザは、音声加工モードが好感度モードに設定されているか否かに応じて、加工音声又は集音音声を聞くことができる。ユーザは、自身の好みに応じて加工された音声に限られず、実際の音声を聞くことができる。例えば、聞き手のユーザが車両のエンジン音や他車両のクラクション音が好まない場合であっても、会話相手が乗車する車両に何らかのトラブルが発生したときに、会話相手の状況を把握できない状態に陥るのを防ぐことができる。

加えて、本実施形態では、音声加工部２８は、集音音声の重要度が所定の第２閾値よりも高い場合、加工音声が集音音声に比べて強調されるように、集音音声を加工する。これにより、例えば、ユーザは、緊急車両のサイレン音のように、ユーザが無視することができない音を強調された状態で聞くことができるため、会話相手の周辺状況を把握できない状態に陥るのを防ぐことができる。

また、本実施形態では、音声出力部２９は、集音音声を加工する音声加工モードとして、集音音声の重要度に応じて集音音声を加工する重要度モードが設定されている場合、集音音声の重要度に応じた加工音声を、遠隔地出力装置２５に出力する。これにより、ユーザは、音声加工モードが重要度モードに設定されているか否かに応じて、加工音声又は集音音声を聞くことができる。ユーザは、音声の重要度に応じて加工された音声に限られず、実際の音声を聞くことができるため、会話相手の状況を把握できない状態に陥るのを防ぐことができる。

さらに、本実施形態では、遠隔地ユーザＢの表現態様は、所定のサンプル音声を聞いたときの遠隔地ユーザＢの表情、サンプル音声を聞いたときに遠隔地ユーザが発生した音声の音質、及びサンプル音声を聞いたときに遠隔地ユーザが発生した内容のうち少なくともいずれか一つを含む。これにより、サンプル音声を聞いたときにユーザが反射的に出す反応に基づいて、サンプル音声に対するユーザの好感度を推定することができるため、サンプル音声に対するユーザの好感度の推定精度を高めることができる。

加えて、本実施形態では、好感度推定部３４は、所定のサンプル音声を聞いたときの遠隔地ユーザＢの表現態様が入力されると、学習済みニューラルネットワークを用いて、サンプル音声に対する遠隔地ユーザＢの好感度を推定する。学習済みニューラルネットワークは、サンプル音声を聞いたときの遠隔地ユーザＢの表現態様が入力されると、サンプル音声に対する遠隔地ユーザＢの好感度を推定するように、教師データを用いて機械学習処理が施されたニューラルネットワークである。これにより、ルールベースでサンプル音声に対するユーザの好感度を推定するよりも高い精度で、サンプル音声に対するユーザの好感度を推定することができる。

なお、以上に説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計変更や均等物をも含む趣旨である。

例えば、上述した実施形態では、音声加工モードが好感度モード又は重要度モードに設定されるという択一的な場合を例に挙げて説明したが、これに限られず、音声加工モードは好感度モード及び重要度モードに設定されてもよい。この場合、音声加工部２８は、集音音声に対する遠隔地ユーザＢの好感度と、集音音声の重要度とに応じて、集音音声を強調又は抑制することで、加工音声を生成する。これにより、ユーザは、ユーザの状態又は状況に応じた音声を聞くことができるとともに、ユーザの好みが反映された音声を聞くことができる。例えば、車両１のウィンカー音は遠隔地ユーザＢにとって不要な音声であり、一方で、車両１に流れる音楽は遠隔地ユーザＢにとって好みの音声の場合、ウィンカー音を抑制させつつ、音楽を強調させた加工音声を遠隔地ユーザＢに出力することができる。

また例えば、上述した実施形態では、好感度推定部３４によるサンプル音声に対する好感度の推定方法として、学習済みニューラルネットワークを用いた推定方法を例に挙げて説明したが、その他の方法によりサンプル音声に対する好感度を推定してもよい。例えば、好感度推定部３４は、入力層及び出力層を含み、入力層への入力データをサンプル音声を聞いたときの遠隔地ユーザＢの表現態様とし、出力層からの出力データをサンプル音声に対する遠隔地ユーザＢの好感度とするニューラルネットワークと、入力データ及び出力データの実績値を教師データとしてニューラルネットワークを学習させる機械学習部と、機械学習部により学習させたニューラルネットワークに新たな入力データを入力し、当該入力データに対する新たな出力データとして、サンプル音声に対する遠隔地ユーザＢの好感度を推定する推定部を有していてもよい。これにより、好感度推定部３４は、サンプル音声を聞いたときの遠隔地ユーザＢの表現態様が入力されるたびに、遠隔地ユーザＢの表現態様を学習するため、サンプル音声に対する遠隔地ユーザＢの好感度の推定精度をより高めることができる。

また、例えば、上述した実施形態では、車内ユーザＡがいる場所で集音された集音音声を遠隔地空間２０にいる遠隔地ユーザＢに出力する場合を例に挙げて説明したが、本発明はこれに限定されない。例えば、遠隔地ユーザＢがいる場所で集音された集音音声を車内空間１０にいる車内ユーザＡに出力する場合においても、本発明の音声加工装置及び音声加工方法を適用することができる。この場合、データベース３２は、好感度推定部３４により推定された所定のサンプル音声に対する車内ユーザＡの好感度を記憶し、好感度推定部３４は、対象サンプル音声に対する車内ユーザＡの好感度に基づき、集音音声に対する車内ユーザＡの好感度を推定する。遠隔地コントローラ２６によって、集音音声に対する車内ユーザＡの好感度に応じた集音音声の音声加工処理が実行され、加工音声は車両１に送信される。そして、車載コントローラ１２は、車両１に搭載されたスピーカーなどの出力装置に、加工音声を出力する。

また例えば、上述した実施形態では、車載コントローラ１２が音声取得部１３を備え、サーバー３０がデータベース３２及び好感度推定部３４を備え、遠隔地コントローラ２６が対象サンプル音声特定部２７、音声加工部２８、及び音声出力部２９を備える場合を例に挙げて説明したが、本発明の音声加工装置の構成はこれに限定されない。例えば、音声取得部、記憶部、好感度推定部、対象サンプル音声特定部、音声加工部、及び音声出力部は、特定のコントローラ又は装置が備える構成であってもよい。例えば、車載コントローラ１２がこれらのブロックを備えていてもよいし、遠隔地コントローラ２６がこれらのブロックを備えていてもよいし、あるいは、サーバー３０がこれらのブロックを備えていてもよい。このように音声加工装置の各ブロックを集約した構成の場合、各ブロックを備える装置は、いずれのブロックも備えない装置との間で、通信装置を介してデータの送受信を行うことで、上述した実施形態と同様の効果を得ることができる。

また例えば、上述した実施形態では、本発明の音声加工方法の一例として、音声の強調及び抑制を例に挙げて説明したが、音声加工方法はその他の方法であってもよい。また好感度及び重要度以外のパラメータを組み合わせて音声加工をしてもよい。例えば、強調処理において、音声を聞いたユーザが当該音声の音源の方向及び音源までの距離を認知できるように、立体音響処理を加えてもよい。

また例えば、音声の出力を前提とする強調処理及び抑制処理ではなく、音声そのものを消失させる処理を行ってもよい。この場合、音声の重要度が特に低いとされる音声に対して実行するのが好ましい。また、ユーザの状態に応じて音声の出力有無を判定してもよい。例えば、聞き手のユーザが睡眠中や話し手のユーザ以外のユーザと会話中の場合、集音音声に対するユーザの好感度、集音音声の重要度にかかわらず、音声が出力されないよう加工してもよい。この場合、ユーザの状態は、カメラ等から把握することができる。

また例えば、集音音声とは異なる音声を追加する音声加工処理であってもよい。例えば、ユーザが動作したこと又は装置が動作したことを示す効果音を集音音声に対して付加する音声加工処理であってもよい。例えば、車両１に搭載された空調機を操作したときの集音音声に対して、車内ユーザＡが空調機を操作していることを誇張させた効果音を付加してもよい。

１００…コミュニケーションシステム
１０…車内空間
１１…車載マイク
１１ａ…車内用マイク
１１ｂ…車外用マイク
１２…車載コントローラ
１３…音声取得部
１４…車載通信装置
２０…遠隔地空間
２１…遠隔地通信装置
２２…遠隔地カメラ
２３…遠隔地マイク
２４…遠隔地入力装置
２５…遠隔地出力装置
２６…遠隔地コントローラ
２７…対象サンプル音声特定部
２８…音声加工部
２９…音声出力部
３０…サーバー
３１…サーバー通信装置
３２…データベース
３３…サーバーコントローラ
３４…好感度推定部

Claims

第１ユーザがいる場所で集音装置により集音された集音音声を取得する音声取得部と、
所定のサンプル音声に対する、前記第１ユーザがいる場所とは別の場所にいる第２ユーザの好感度を記憶する記憶部と、
前記サンプル音声に対する第２ユーザの好感度に基づいて、前記集音音声に対する前記第２ユーザの好感度を推定する好感度推定部と、
前記集音音声に対する前記第２ユーザの好感度に応じて、前記集音音声を強調又は抑制することで、前記集音音声を加工した加工音声を生成する音声加工部と、
音声を前記第２ユーザに出力する出力装置に、前記加工音声を出力する音声出力部と、を備える音声加工装置。
前記好感度推定部は、前記サンプル音声を聞いたときの前記第２ユーザの表現態様に基づき、前記サンプル音声に対する前記第２ユーザの好感度を推定する請求項１に記載の音声加工装置。
前記集音音声と同一又は類似の前記サンプル音声を対象サンプル音声として特定する対象サンプル音声特定部を備え、
前記好感度推定部は、前記対象サンプル音声に対する前記第２ユーザの好感度に基づいて、前記集音音声に対する前記第２ユーザの好感度を推定する請求項１に記載の音声加工装置。
前記第１ユーザは、車両に乗車している車内ユーザであり、
前記第２ユーザは、前記車両から離間した場所にいる遠隔地ユーザである請求項１～３のいずれかに記載の音声加工装置。
前記音声加工部は、前記集音音声に対する前記第２ユーザの好感度が所定の第１閾値よりも高い場合、前記加工音声が前記集音音声に比べて相対的に強調されるように、前記集音音声を加工する請求項１～４のいずれかに記載の音声加工装置。
前記音声出力部は、前記集音音声を加工するモードとして、前記集音音声に対する前記第２ユーザの好感度に応じて前記集音音声を加工する好感度モードが設定されている場合、前記集音音声に対する前記第２ユーザの好感度に応じて加工された前記加工音声を前記出力装置に出力する請求項１～４のいずれかに記載の音声加工装置。
前記音声加工部は、前記集音音声に対する前記第２ユーザの好感度と、前記集音音声の内容に応じて設定された前記集音音声の重要度とに応じて、前記集音音声を強調又は抑制することで、前記加工音声を生成する請求項１～６のいずれかに記載の音声加工装置。
前記音声加工部は、前記集音音声の前記重要度が所定の第２閾値よりも高い場合、前記加工音声が前記集音音声に比べて強調されるように、前記集音音声を加工する請求項７に記載の音声加工装置。
前記音声出力部は、前記集音音声を加工するモードとして、前記集音音声の前記重要度に応じて前記集音音声を加工する重要度モードが設定されている場合、前記集音音声の前記重要度に応じて加工された前記加工音声を前記出力装置に出力する請求項７又は８に記載の音声加工装置。
前記第２ユーザの前記表現態様は、前記サンプル音声を聞いたときの前記第２ユーザの表情、前記サンプル音声を聞いたときに前記第２ユーザが発した音声の音質、及び前記サンプル音声を聞いたときに前記第２ユーザが発した内容のうち少なくともいずれか一つを含む請求項２記載の音声加工装置。
前記好感度推定部は、前記サンプル音声を聞いたときの前記第２ユーザの表現態様が入力されると、学習済みニューラルネットワークを用いて、前記サンプル音声に対する前記第２ユーザの好感度を推定し、
前記学習済みニューラルネットワークは、前記サンプル音声を聞いたときの前記第２ユーザの表現態様が入力されると、前記サンプル音声に対する前記第２ユーザの好感度を推定するように、教師データを用いて機械学習処理が施されたニューラルネットワークである請求項２又は１０のいずれかに記載の音声加工装置。
前記好感度推定部は、
入力層及び出力層を含み、前記入力層への入力データを前記サンプル音声を聞いたときの前記第２ユーザの表現態様とし、出力層からの出力データを前記サンプル音声に対する前記第２ユーザの好感度とするニューラルネットワークと、
前記入力データ及び前記出力データの実績値を教師データとして前記ニューラルネットワークを学習させる機械学習部と、
前記機械学習部により学習させた前記ニューラルネットワークに新たな前記入力データを入力し、当該入力データに対応する新たな前記出力データとして、前記サンプル音声に対する前記第２ユーザの好感度を推定する推定部を有する請求項２又は１０に記載の音声加工装置。
コントローラにより実行される音声加工方法であって、
第１ユーザがいる場所で集音装置により集音された集音音声を取得し、
所定のサンプル音声に対する、前記第１ユーザがいる場所とは別の場所にいる第２ユーザの好感度を記憶し、
前記サンプル音声に対する前記第２ユーザの好感度に基づいて、前記集音音声に対する前記第２ユーザの好感度を推定し、
前記集音音声に対する前記第２ユーザの好感度に応じて、前記集音音声を強調又は抑制することで、前記集音音声を加工した加工音声を生成し、
音声を前記第２ユーザに出力する出力装置に、前記加工音声を出力する音声加工方法。