JP2022137824A - 音声加工装置及び音声加工方法 - Google Patents

音声加工装置及び音声加工方法 Download PDF

Info

Publication number
JP2022137824A
JP2022137824A JP2021037505A JP2021037505A JP2022137824A JP 2022137824 A JP2022137824 A JP 2022137824A JP 2021037505 A JP2021037505 A JP 2021037505A JP 2021037505 A JP2021037505 A JP 2021037505A JP 2022137824 A JP2022137824 A JP 2022137824A
Authority
JP
Japan
Prior art keywords
voice
user
sound
collected sound
remote
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021037505A
Other languages
English (en)
Inventor
剛仁 寺口
Takehito Teraguchi
放歌 陳
Fangge Chen
裕史 井上
Yasushi Inoue
雅己 岡本
Masami Okamoto
純 河西
Jun Kawanishi
雄宇 志小田
Yuu Shioda
翔太 大久保
Shota Okubo
乘 西山
Nori Nishiyama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renault SAS
Nissan Motor Co Ltd
Original Assignee
Renault SAS
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renault SAS, Nissan Motor Co Ltd filed Critical Renault SAS
Priority to JP2021037505A priority Critical patent/JP2022137824A/ja
Publication of JP2022137824A publication Critical patent/JP2022137824A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

【課題】 ユーザの好みに合わせた音声を自動的に出力することができる音声加工装置及び音声加工方法を提供する。【解決手段】 第1ユーザがいる場所で集音装置により集音された集音音声を取得し、所定のサンプル音声に対する、第1ユーザがいる場所とは別の場所にいる第2ユーザの好感度を記憶し、サンプル音声に対する第2ユーザの好感度に基づいて、集音音声に対する第2ユーザの好感度を推定し、集音音声に対する第2ユーザの好感度に応じて、集音音声を強調又は抑制することで、集音音声を加工した加工音声を生成し、音声を第2ユーザに出力する出力装置に、加工音声を出力する。【選択図】 図1

Description

本発明は、音声加工装置及び音声加工方法に関する。
車両の外部の周囲ノイズを検知する音響検出器を含む車両用音響システムが知られている(例えば、特許文献1)。特許文献1に記載の車両用音響システムでは、周囲ノイズをフィルタ処理して周囲ノイズ内の連続音響を識別し、連続音響をマスキング用音響に処理し、スピーカーからマスキング用音響を出力することで、プライバシーゾーンを車両の室内に生成する。
特開2019-86784号公報
特許文献1に記載の車両用音響システムでは、車内の音響に対して音声加工するため、ユーザの好みに合わせた音声を自動的に出力することができない、という問題がある。
本発明が解決しようとする課題は、ユーザの好みに合わせた音声を自動的に出力することができる音声加工装置及び音声加工方法を提供することである。
本発明は、第1ユーザがいる場所で集音装置により集音された集音音声を取得し、所定のサンプル音声に対する、第1ユーザがいる場所とは別の場所にいる第2ユーザの好感度を記憶し、サンプル音声に対する第2ユーザの好感度に基づいて、集音音声に対する第2ユーザの好感度を推定し、集音音声に対する第2ユーザの好感度に応じて、集音音声を強調又は抑制することで、集音音声を加工した加工音声を生成し、音声を第2ユーザに出力する出力装置に、加工音声を出力することで、上記課題を解決する。
本発明によれば、集音音声に対するユーザの好感度に応じて加工された加工音声をユーザに出力することができるため、ユーザの好みに合わせた音声を自動的に出力することができる。
本実施形態に係るコミュニケーションシステムのブロック図である。 本実施形態に係るコミュニケーションシステムによる音声出力処理を示すフローチャートである。 本実施形態に係るコミュニケーションシステムによる音声出力処理を示すフローチャートである。
以下、本発明の実施形態を図面に基づいて説明する。
本実施形態では、本発明に係る音声加工装置及び音声加工方法を、コミュニケーションシステムに適用した例を用いて説明する。
図1は、本実施形態に係るコミュニケーションシステム100のブロック図である。本実施形態に係るコミュニケーションシステム100は、同一空間にいないユーザAとユーザBとが会話する場面に用いられる。本実施形態では、ユーザAとして、車両1に乗車しており、車内空間10にいるユーザを例に挙げ、ユーザBとして、車両1から離間した場所である遠隔地空間20にいるユーザを例に挙げて説明する。ユーザAがいる場所とユーザBがいる場所は異なる。
なお、コミュニケーションシステム100は、ユーザAがいる場所とユーザBがいる場所とが異なる場面で用いられればよく、ユーザAとユーザBのそれぞれが位置する場所は特に限定されない。例えば、ユーザAは車両1に乗車していなくてもよい。以降の説明では、便宜上、車内空間10にいるユーザAを車内ユーザAと称し、遠隔地空間20にいるユーザBを遠隔地ユーザBと称して説明する。
また本実施形態において、車内ユーザAと遠隔地ユーザBとが会話する際の各ユーザの状態は特に限定されない。例えば、図1では、車内ユーザAの状態として、車両1のステアリングを操作している状態を示しているが、車内ユーザAはドライバではなく、助手席又は後部座席に着座する乗員であってもよい。また例えば、図1では、遠隔地ユーザBの状態として着座した状態を示しているが、遠隔地ユーザBは起立していてもよい。また本実施形態では、車内ユーザAと遠隔地ユーザBとが会話する場面を例に挙げて説明するが、コミュニケーションシステム100は会話の場面以外でも用いることができる。例えば、車内ユーザAから遠隔地ユーザBに向けて一方的に話す場面、すなわち、音声の流れは一方向の場面にも、コミュニケーションシステム100を用いることができる。
また本実施形態では、コミュニケーションシステム100が仮想現実(Virtual Reality)の技術を利用したシステムに用いられた場合を例に挙げて説明する。図1に示すように、車内ユーザAと遠隔地ユーザBとはそれぞれ異なる空間にいるため、車内ユーザAと遠隔地ユーザBは同一空間内で会話することができない。しかし、コンピュータによって作り出された世界である仮想空間を現実としてユーザに知覚させる仮想現実の技術では、コンピュータは、遠隔地ユーザBに対して、あたかも車内空間10にいるような仮想空間を作り出すことができる。仮想空間では、遠隔地ユーザBは、少なくとも視覚及び聴覚を通じて、あたかも車内空間10にいるかのように知覚する。例えば、遠隔地ユーザBは、VRゴーグル等、本願出願時に知られた仮想現実の技術が用いられたデバイスを装着することで、視覚を通じて仮想空間を車内空間10として認知することができる。また遠隔地ユーザBは、本実施形態に係るコミュニケーションシステム100により、聴覚を通じて仮想空間を車内空間10として認知することができる。以降、図1を用いて、コミュニケーションシステム100の各構成を説明する。
図1に示すように、コミュニケーションシステム100は、車内空間10、遠隔地空間20、及びサーバー30を含む。遠隔地空間20は、車内空間10から離間した空間である。遠隔地空間20としては、例えば、車両1とは別の車両の室内や建物の一室などが挙げられるが、遠隔地空間20は車内空間10とは別の場所であれば特に限定されない。
車内空間10は、車両1の室内を示す区間である。車内空間10には、車載マイク11、車載コントローラ12、及び車載通信装置14が設けられている。車載マイク11、車載コントローラ12、及び車載通信装置14は、車両1に搭載されている。車内空間10に設けられた各装置は、相互に情報の送受信を行うために、例えばCAN(Controller Area Network)その他の車載ネットワーク(イーサネット(商標登録)など)によって接続されている。
車載マイク11は、車内ユーザAがいる場所で音声を集音する集音装置である。車載マイク11は、車両1の室内の音声を集音するための車内用マイク11aと、車両1の室外の音声を集音するための車外用マイク11bを含む。車内用マイク11aは、車両1に搭載され、車両1の室内の音声を集音する装置又は機器であればよく、その形態、数、特性、設置位置などは特に限定されない。同様に、車外用マイク11bは、車両1に搭載され、車両1の室外の音声を集音する装置又は機器であればよく、その形態、数、特性、設置位置などは特に限定されない。
車内用マイク11aは、車内空間10に流れ、人間、車両1に搭載された装置又はシステムを音源とする音声を集音する。車内用マイク11aが集音する音声としては、例えば、車内ユーザA又は車両1のその他の乗員が発する声、車両1が駆動していることを示す音(エンジン音、モータ音)、方向指示器が作動していることを示す音(ウィンカー音)、ワイパーが作動していることを示す音(ワイパー音)、ハザードランプが作動していることを示す音(ハザードランプ音)、カーナビゲーションシステムから出力される音声(音声案内の音)、オーディオシステムから再生される音声(音楽、テレビ音)などが挙げられる。
車外用マイク11bは、車両1の周辺環境に流れ、人間、車両1以外の他車両、又は車両1に搭載された装置以外の装置を音源とする音声を集音する。車外用マイク11bが集音する音声としては、例えば、車両1以外の他車両に関する音(他車両の走行音、クラクション音など)、緊急車両に関する音(サイレン音など)、広告宣伝車両に関する音(宣伝音など)などが挙げられる。
車載マイク11により集音された音声は、車内ユーザAの音声及び車内ユーザAの背景音声のうち少なくともいずれかを含む。車内ユーザAの背景音声とは、車内ユーザAが発した音声以外の音声である(例えば、上述した車両1のエンジン音や他車両のクラクション音など)。一般的に、車両1の室内又は室外には、何らかの背景音声が存在する。そのため、本実施形態では、車内ユーザAが発話した場合、車載マイク11により集音された音声には、車内ユーザAの音声及び背景音声が含まれ、一方、車内ユーザAが発話していない場合、車載マイク11により集音された音声には、背景音声が含まれるものとして説明する。また、以降では、説明の便宜上、車載マイク11により集音された音声を集音音声と称して説明する。車載マイク11により集音された集音音声は、集音音声データとして車載コントローラ12に出力される。
車載コントローラ12は、遠隔地空間20との間で音声データを送受信するためのプログラムを格納したROM(Read Only Memory)と、このROMに格納されたプログラムを実行するCPU(Central Processing Unit)と、アクセス可能な記憶装置として機能するRAM(Random Access Memory)とから構成されるコンピュータである。車載コントローラ12は、音声取得部13を有している。車載コントローラ12は、ROMに格納されたプログラムを実行することで、音声取得部13の機能を実行することができる。
音声取得部13は、車内ユーザAがいる場所で車載マイク11により集音された集音音声を取得する。音声取得部13は、集音音声を取得すると、集音音声をそのまま車載通信装置14に転送する。また音声取得部13は、集音音声データの送信先を含む送信指令を車載通信装置14に出力する。音声取得部13は、本発明の「音声取得部」の一例である。
車載通信装置14は、車両1の外部との間で無線によりデータを送受信する無線通信機能を備えた機器である。車載通信装置14としては、例えば、テレマティクスコントロールユニット(TCU:Telematics Control Unit)が挙げられる。車載通信装置14は、無線通信機能により、例えば、4G/LTE、Wifi(商標登録)等の通信規格を利用して、インターネットに接続し、車両1の外部に設けられたサーバーやシステムとの間で様々なデータの送受信を行う。車載通信装置14には、車載コントローラ12から、集音音声データとともに、送信指令が入力される。車載通信装置14は、送信指令に示された送信先に集音音声データを送信する。本実施形態では、車載通信装置14は、車載コントローラ12の送信指令に従い、集音音声データを遠隔地通信装置21に送信する。
遠隔地空間20について説明する。図1に示すように、遠隔地空間20には、遠隔地通信装置21、遠隔地カメラ22、遠隔地マイク23、遠隔地入力装置24、遠隔地出力装置25、及び遠隔地コントローラ26が設けられている。遠隔地空間20に設けられた各装置は、相互に情報の送受信を行うために、例えばイーサネット(商標登録)などによって接続されている。
遠隔地通信装置21は、遠隔地空間20の外部との間で無線によりデータを送受信する無線通信機能を備えた機器である。遠隔地通信装置21としては、例えば、ルーターが挙げられる。遠隔地通信装置21は、無線通信機能により、例えば、4G/LTE、Wifi(商標登録)等の通信規格を利用して、インターネットに接続し、遠隔地空間20の外部に設けられたサーバーやシステムとの間で様々なデータの送受信を行う。本実施形態では、遠隔地通信装置21は、車載通信装置14及びサーバー通信装置31との間でデータの送受信を行う。各通信装置間で送受信されるデータについては後述する。
遠隔地カメラ22は、遠隔地空間20で遠隔地ユーザBを撮像する撮像装置である。遠隔地カメラ22は、遠隔地ユーザBの表情を撮像可能な位置に設置されるのが好ましい。遠隔地カメラ22により撮像された、遠隔地ユーザBの表情を含む撮像画像は、遠隔地ユーザBの撮像画像データとして、遠隔地コントローラ26に出力される。なお、遠隔地カメラ22は、その形態、数、特性、設置場所などは特に限定されない。例えば、遠隔地カメラ22は、複数のカメラ又は種別が複数のカメラで構成されていてもよい。
遠隔地マイク23は、遠隔地ユーザBがいる場所(遠隔地空間20)で音声を集音する集音装置である。遠隔地マイク23は、遠隔地ユーザBの音声を集音可能な位置に設置されるのが好ましい。遠隔地マイク23により集音された集音音声は、遠隔地コントローラ26に出力される。なお、遠隔地マイク23は、その形態、数、特性、設置場所などは特に限定されない。例えば、遠隔地マイク23は、複数のマイク又は種別が複数のマイクで構成されていてもよい。
遠隔地入力装置24は、遠隔地ユーザBが操作可能なヒューマンインターフェースとして機能する装置である。遠隔地ユーザBは、遠隔地入力装置24を操作することで、コミュニケーションシステム100に関する設定を入力することができる。遠隔地入力装置24は、キーボードやマウス等、各機器が別体で構成されていてもよいし、タッチパネルのようにディスプレイと入力部とが一体で構成されていてもよい。遠隔地入力装置24の形態、特性、設置場所などは特に限定されない。
本実施形態では、遠隔装置ユーザBは、コミュニケーションシステム100に関する設定として、遠隔地入力装置24を介して音声加工モードを設定する。例えば、遠隔地ユーザBは、画面に表示された複数のモードから一つのモードを選択することで、音声加工モードを設定する。遠隔地ユーザBによる音声加工モードの設定方法は一例であって、その他の設定方法であってもよい。遠隔地入力装置24に入力された音声加工モードの設定情報は、遠隔地コントローラ26に出力される。
ここで、本実施形態に係る音声加工モードについて説明する。音声加工モードとは、車載マイク11により集音された集音音声をどの観点から加工するかを規定したモードである。本実施形態では、音声加工モードとして2種類のモードが設定されている。
2種類の音声加工モードのうち一方の音声加工モードは、好感度モードと称され、遠隔地ユーザBの嗜好性を重視したモードである。遠隔地ユーザBの嗜好性とは、遠隔地ユーザBの好みである。遠隔地ユーザBの好みは、遠隔地ユーザBが好きなものの傾向及び遠隔地ユーザBが嫌いなものの傾向を含む。音声加工モードが好感度モードに設定された場合、後述する遠隔地コントローラ26の音声加工部28は、集音音声に対する遠隔地ユーザBの好感度に応じて、集音音声を加工処理する。音声加工部28については後述する。
また2種類の音声加工モードのうち他方の音声加工モードは、重要度モードと称され、集音音声に対する重要度を重視したモードである。集音音声に対する重要度とは、ユーザに集音音声を聞いて欲しい度合いである。音声加工モードが重要度モードに設定された場合、後述する遠隔地コントローラ26の音声加工部28は、集音音声の重要度に応じて、集音音声に対する加工の要否を判定し、加工が必要と判定した場合、集音音声を加工処理する。
遠隔地出力装置25は、遠隔地ユーザBに対して音声を出力する装置である。遠隔地出力装置25は、遠隔地ユーザBが遠隔地出力装置25から出力される音声を聞きやすい位置に設置されるのが好ましい。遠隔地出力装置25には、遠隔地コントローラ26から集音音声データ又は加工音声データが入力される。加工音声データとは、遠隔地コントローラ26の音声加工部28により集音音声が加工された加工音声のデータである。
遠隔地出力装置25は、遠隔地コントローラ26から出力される集音音声データ又は加工音声データに基づき再生音を生成し、生成した再生音を出力する。遠隔地出力装置25としては、例えば、スピーカーなどが挙げられる。なお、遠隔地出力装置25は、その形態、数、設置場所、特性などは特に限定されない。例えば、遠隔地出力装置25は、複数のスピーカー又は種別が複数のスピーカーで構成されていてもよい。また遠隔地出力装置25は、再生音を立体音響として出力する立体音響機能を備えていてもよい。例えば、遠隔地出力装置25は、遠隔地コントローラ26から入力される音声データにバイノーラル録音の信号が含まれる場合、遠隔地出力装置25は、立体音響機能により、バイノーラル方式を用いて再生音を立体音響として出力してもよい。
遠隔地コントローラ26は、遠隔地ユーザBが聞く音声を加工処理するためのプログラムを格納したROM(Read Only Memory)と、このROMに格納されたプログラムを実行するCPU(Central Processing Unit)と、アクセス可能な記憶装置として機能するRAM(Random Access Memory)とから構成されるコンピュータである。遠隔地コントローラ26は、対象サンプル音声特定部27、音声加工部28、及び音声出力部29を有している。遠隔地コントローラ26は、ROMに格納されたプログラムを実行することで、対象サンプル音声特定部27、音声加工部28、及び音声出力部29の機能を実行することができる。遠隔地コントローラ26の各機能について説明する。
対象サンプル音声特定部27には、遠隔地通信装置21を介して、車載通信装置14から送信された集音音声データが入力される。対象サンプル音声特定部27は、車載通信装置14から送信された集音音声データに対して、音声認識処理、クラスタリング処理、及びサンプル音声特定処理を順次実行することで、集音音声と同一又は類似のサンプル音声を対象サンプル音声として特定する。サンプル音声とは、集音音声に対する遠隔地ユーザBの好感度を推定するために用いられる見本の音声である。
対象サンプル音声特定部27は、集音音声データに対して音声認識処理を実行することで、集音音声に含まれる音声の種別を判別する。例えば、車内ユーザAが発した音声、車両1のエンジン音、及び他車両のクラクション音が集音音声に含まれる場合、対象サンプル音声特定部27は、集音音声から車内ユーザAの音声、車両1のエンジン音、及び他車両のクラクション音を抽出する。また対象サンプル音声特定部27は、車両1のエンジン音及び他車両のクラクション音を背景音声として、これらの音声を車内ユーザAの音声と区別する。
次に、対象サンプル音声特定部27は、判別した各種別の音声に対してクラスタリング処理を実行することで、各種別の音声を予め設定されたクラスに分類する。例えば、対象サンプル音声特定部27は、抽出した車内ユーザAの音声、車両1のエンジン音、及び他車両のクラクション音のそれぞれを予め設定されたクラスに分類する。一例として、対象サンプル音声特定部27は、車内ユーザAの音声を「ユーザ音声」に分類し、車両1のエンジン音を「車両1の駆動音」に分類し、他車両のクラクション音を「他車両の音声」に分類する。なお、クラスタリング処理におけるクラスの分類方法、クラスの階層の深さ、クラスの数などは特に限定されず、上記は一例に過ぎない。
さらに、対象サンプル音声特定部27は、分類されたクラスに含まれる音声と同一又は類似のサンプル音声を、対象サンプル音声として特定する。対象サンプル音声特定部27は、分類されたクラスに含まれる音声ごとに対象サンプル音声を特定することで、集音音声に含まれる全ての音声について、対象サンプル音声を特定する。
ここで、本実施形態における同一及び類似の概念について説明する。同一の音声又は類似の音声と規定するためのパラメータとしては、例えば、音声の周波数成分(周波数スペクトラム)が挙げられる。例えば、対象サンプル音声特定部27は、予め記憶された複数のサンプル音声から、分類されたクラスに含まれる音声の周波数成分と同一の周波数成分を有するサンプル音声を、対象サンプル音声として特定する。また例えば、対象サンプル音声特定部27は、予め記憶された複数のサンプル音声から、分類されたクラスに含まれる音声の周波数成分とは完全一致しないものの、周波数帯が所定範囲内又はピーク値が所定範囲内の周波数成分を有するサンプル音声を、対象サンプル音声として特定する。なお、対象サンプル音声を特定するためのパラメータは、周波数成分に限られず、音声に関するその他のパラメータであってもよい。
対象サンプル音声特定部27は、特定した対象サンプル音声を遠隔地通信装置21に出力する。なお、対象サンプル音声特定部27による各処理は一例であって、上記処理に限定されるものではない。対象サンプル音声特定部27が実行する処理には、本願出願時に知られた音声認識処理、クラスタリング処理、及び音声特定処理を適用することができる。対象サンプル音声特定部27は、本発明の「対象サンプル音声特定部」の一例である。
音声加工部28には、遠隔地通信装置21を介して、車載通信装置14から集音音声データが入力される。また、音声加工部28には、遠隔地入力装置24から、音声加工モードの設定情報が入力される。さらに、音声加工部28には、遠隔地通信装置21を介して、サーバー通信装置31から集音音声に対する遠隔地ユーザBの好感度の情報が入力される。
音声加工部28は、音声加工モードが好感度モードに設定されている場合、集音音声に対して音声加工処理を実行し、音声加工部28に入力された集音音声を音声出力部29に転送しない。また音声加工部28は、音声加工モードが重要度モードに設定されている場合、集音音声に対する音声加工の要否判定処理を実行し、音声加工部28に入力された集音音声を音声出力部29に転送しない。一方、音声加工部28は、音声加工モードが好感度モード及び重要度モードのいずれにも設定されていない場合、音声加工部28に入力された集音音声を音声出力部29に転送する。
音声加工部28による音声加工処理について説明する。まず、音声加工モードが好感度モードに設定されている場合について説明する。音声加工部28は、音声加工モードが好感度モードに設定されている場合、集音音声に含まれる各音声に対する遠隔地ユーザBの好感度を特定し、集音音声に含まれる音声ごとに、遠隔地ユーザBの好感度と所定の第1閾値を比較する。音声加工部28は、特定の音声に対する遠隔地ユーザBの好感度が所定の第1閾値よりも高い場合、加工音声に含まれる特定の音声が集音音声に含まれる特定の音声よりも相対的に強調されるように、集音音声を加工する。一方、音声加工部28は、集音音声に含まれる特定の音声に対する遠隔地ユーザBの好感度が所定の第1閾値よりも低い場合、加工音声に含まれる特定の音声が集音音声に含まれる特定の音声よりも相対的に抑制されるように、集音音声を加工する。このように集音音声に含まれる音声ごとに、強調処理又は抑制処理がされることで、ユーザが比較的好む音声は強調され、ユーザが比較的好まない音声は抑制された加工音声を生成することができる。なお、上記の所定の第1閾値は、音声を強調又は抑制するかを判定するための閾値であって、予め定められた閾値である。
例えば、遠隔地ユーザBがカーナビゲーションシステムから出力される音楽を好むため、集音音声に含まれる音楽に対する遠隔地ユーザBの好感度が所定の第1閾値よりも高い場合、音声加工部28は、加工音声に含まれる音楽が集音音声に含まれる音楽よりも相対的に強調されるように、集音音声を加工する。また例えば、遠隔地ユーザBが他車両のクラクション音を好まないため、集音音声に含まれる他車両のクラクション音に対する遠隔地ユーザBの好感度が所定の第1閾値よりも低い場合、音声加工部28は、加工音声に含まれる他車両のクラクション音が集音音声に含まれる他車両のクラクション音よりも相対的に抑制されるように、集音音声を加工する。
なお、例を挙げて説明した音声加工部28による音声の強調処理及び音声の抑制処理には、本願出願時に知られた音声の強調処理及び音声の抑制処理を適用することができるものとする。
次に、音声加工モードが重要度モードに設定されている場合について説明する。音声加工部28は、音声加工モードが重要度モードに設定されている場合、集音音声に含まれる各音声の重要度の高さを特定し、集音音声に含まれる音声ごとに、音声の重要度と所定の第2閾値を比較する。音声加工部28は、集音音声に含まれる各音声のうち少なくとも一つの音声の重要度が所定の第2閾値よりも高い場合、集音音声の重要度が所定の第2閾値よりも高いものとして、集音音声に対する音声加工が必要と判定する。具体的に、音声加工部28は、重要度が所定の第2閾値よりも高いとされる音声に対して音声加工が必要と判定する。一方、音声加工部28は、集音音声に含まれる各音声の重要度が所定の第2閾値よりも低い場合、集音音声の重要度が所定の第2閾値よりも低いものとして、集音音声に対する加工は不要と判定する。なお、上記の所定の第2閾値は、集音音声の重要度により音声加工が必要か否かを判定するための閾値であって、予め定められた閾値である。
集音音声の重要度は、集音音声の内容に応じて設定されている。例えば、緊急車両のサイレン音は、遠隔地ユーザBに強調して伝達すべき音として予め重要度が高いクラスに分類されている。集音音声に緊急車両のサイレン音が含まれている場合、すなわち、車両1の周辺に緊急車両が存在する場合を例に挙げて音声加工部28の音声加工処理を説明する。
音声加工部28は、音声認識処理により、集音音声に含まれる各音声を判別することで、集音音声に緊急車両のサイレン音が含まれていることを特定する。音声加工部28は、緊急車両のサイレン音の重要度と所定の第2閾値を比較し、緊急車両のサイレン音の重要度が所定の第2閾値よりも高い場合、緊急車両のサイレン音に対する加工が必要と判定する。この場合、音声加工部28は、加工音声に含まれる緊急車両のサイレン音が集音音声に含まれる緊急車両のサイレン音よりも相対的に強調されるように、集音音声を加工する。音声加工部28は、本発明の「音声加工部」の一例である。
音声出力部29は、音声加工部28から入力される集音音声又は加工音声を、遠隔地出力装置25に出力する。音声加工モードが好感度モードに設定されている場合、音声出力部29には、音声加工部28から加工音声が入力される。この場合、音声出力部29は、入力された加工音声を遠隔地出力装置25に出力する。また音声加工モードが重要度モードに設定され、かつ、音声加工部28が音声加工処理を実行した場合、音声出力部29には、音声加工部28から加工音声が入力される。この場合、音声出力部29は、入力された加工音声を遠隔地出力装置25に出力する。また音声加工モードが好感度モード及び重要度モードのいずれにも設定されていない場合、音声出力部29には、音声加工部28から集音音声が入力される。この場合、音声出力部29は、入力された集音音声を遠隔地出力装置25に出力する。音声出力部29は、本発明の「音声出力部」の一例である。
次に、サーバー30について説明する。図1に示すように、サーバー30は、サーバー通信装置31、データベース32、及びサーバーコントローラ33を備えている。サーバー30が備える各装置は、相互に情報の送受信を行うために、例えばイーサネット(商標登録)などによって接続されている。
サーバー通信装置31は、遠隔地通信装置21との間で無線によりデータを送受信する無線通信機能を備えた機器である。サーバー通信装置31としては、例えば、ルーターが挙げられる。サーバー通信装置31は、無線通信機能により、例えば、4G/LTE、Wifi(商標登録)等の通信規格を利用して、インターネットに接続し、サーバー30の外部に設けられた他のサーバーやシステムとの間で様々なデータの送受信を行う。本実施形態では、サーバー通信装置31は、遠隔地通信装置21との間でデータの送受信を行う。
サーバー通信装置31の送受信するデータについて説明する。サーバー通信装置31は、遠隔地通信装置21から、遠隔地カメラ22により撮像された遠隔地ユーザBの表情を含む撮像画像のデータ、及び遠隔地マイク23により集音された遠隔地ユーザBの音声データを受信する。サーバー通信装置31は、受信した撮像画像のデータ及び音声データを、データベース32及びサーバーコントローラ33に出力する。なお、本実施形態では、車内ユーザAと遠隔地ユーザBとがコミュニケーションシステム100を利用する前に、サーバー通信装置31は、上記の撮像画像のデータ及び音声データを受信するものとする。
また、サーバー通信装置31は、遠隔地通信装置21から、対象サンプル音声特定部27により特定された対象サンプル音声のデータを受信する。サーバー通信装置31は、受信した対象サンプル音声のデータをサーバーコントローラ33に出力する。なお、本実施形態では、車内ユーザAと遠隔地ユーザBとがコミュニケーションシステム100を利用開始した後に、サーバー通信装置31は、上記の対象サンプル音声のデータを受信するものとする。
また、サーバー通信装置31には、サーバーコントローラ33から、集音音声に対する遠隔地ユーザBの好感度の情報が入力される。サーバー通信装置31は、集音音声に対する遠隔地ユーザBの好感度の情報を、遠隔地通信装置21に送信する。
データベース32は、コミュニケーションシステム100を利用するユーザの各種データを格納する。データベース32は、所定のサンプル音声に対する遠隔地ユーザBの好感度を記憶する。サンプル音声の種別は複数あり、データベース32は、サンプル音声ごとに遠隔地ユーザBの好感度を記憶する。データベース32が記憶するサンプル音声に対する遠隔地ユーザBの好感度は、後述するサーバーコントローラ33の好感度推定部34により推定される。
またデータベース32は、好感度推定部34の好感度推定処理に利用されるデータとして、所定のサンプル音声を聞いたときのユーザの表現態様の情報を記憶する。所定のサンプル音声を聞いたときのユーザの表現態様は、所定のサンプル音声を聞いたときのユーザの表情、所定のサンプル音声を聞いたときにユーザが発した音声の音質、及び所定のサンプル音声を聞いたときにユーザが発生した内容のうち少なくともいずれか一つを含む。所定のサンプル音声を聞いたときのユーザの表情は、遠隔地カメラ22により撮像された遠隔地ユーザBの表情を含む撮像画像のデータから取得された情報である。また所定のサンプル音声を聞いたときにユーザが発した音声の音質及び所定のサンプル音声を聞いたときにユーザが発した内容は、遠隔地マイク23により集音された遠隔地ユーザBの音声データから取得された情報である。
例えば、車内ユーザAと遠隔地ユーザBがコミュニケーションシステム100を利用開始する前に、サンプル音声を聞いたときの遠隔地ユーザBの表現態様の情報を取得する機会が予め設けられていたとする。この機会において、サンプル音声を聞いたときの遠隔地ユーザBの反応(いわゆるリアクション)は、遠隔地カメラ22及び遠隔地マイク23によりデータとして取得される。例えば、遠隔地ユーザBがサンプル音声として特定車種の車両のエンジン音を聞いた場合、遠隔地カメラ22は、そのときの遠隔地ユーザBの表情を撮像し、また遠隔地マイク23は、そのときの遠隔地ユーザBの音声を集音する。サンプル音声が変わるたびに、遠隔地カメラ22及び遠隔地マイク23は、サンプル音声を聞いたときの遠隔地ユーザBの反応をデータとして取得する。遠隔地ユーザBが全てのサンプル音声を聞き終わると、遠隔地カメラ22に撮像された撮像データ及び遠隔地マイク23により集音された音声データは、遠隔地通信装置21を介して、サーバー通信装置31に送信される。これにより、データベース32は、サンプル音声と当該サンプル音声を聞いたときの遠隔地ユーザBの表現態様を対応させて記憶することができ、サンプル音声と遠隔地ユーザの表現態様のデータベース化を実現することができる。なお、本実施形態では、サンプル音声の種別やその数、またユーザがサンプル音声を聞くタイミングなどは特に限定されない。データベース32が記憶する各種データは、サーバーコントローラ33の好感度推定部34で用いられる。データベース32は、本発明の「記憶部」の一例である。
サーバーコントローラ33は、サンプル音声に対するユーザの好感度を推定するサンプル音声好感度推定処理、及び集音音声に対する好感度を推定する集音音声好感度推定処理を実行するためのプログラムを格納したROM(Read Only Memory)と、このROMに格納されたプログラムを実行するCPU(Central Processing Unit)と、アクセス可能な記憶装置として機能するRAM(Random Access Memory)とから構成されるコンピュータである。サーバーコントローラ33は、好感度推定部34を有している。サーバーコントローラ33は、ROMに格納されたプログラムを実行することで、好感度推定部34の機能を実行することができる。好感度推定部34の機能について説明する。
好感度推定部34は、サンプル音声好感度推定処理により、データベース32に記憶される所定のサンプル音声を聞いたときのユーザの表現態様の情報に基づき、サンプルに対する遠隔地ユーザBの好感度を推定する。例えば、好感度推定部34は、サンプル音声を聞いた前後での遠隔地ユーザの表情の変化に基づき、サンプルに対する遠隔地ユーザBの好感度を推定する。また例えば、好感度推定部34は、サンプル音声を聞いた前後での遠隔地ユーザの音声の抑揚の変化に基づき、サンプルに対する遠隔地ユーザBの好感度を推定する。また例えば、好感度推定部34は、サンプル音声を聞いた後に遠隔地ユーザBが発話した内容に基づき、サンプルに対する遠隔地ユーザBの好感度を推定する。遠隔地ユーザBが発話した内容としては、例えば、「好き」、「嫌い」など遠隔地ユーザBの好みを直接的に表現した内容、又は遠隔地ユーザBの好みを示唆する内容を含む。好感度推定部34は、推定したサンプル音声に対する遠隔地ユーザBの好感度をデータベース32に記憶させる。
好感度推定部34の一例としては、遠隔地ユーザBの表現態様からサンプル音声に対する遠隔地ユーザBの好感度を推定するために機械学習を行った学習済みの学習済みモデルが挙げられる。
学習済みモデルは、学習済みニューラルネットワークを有する。学習済みニューラルネットワークは、所定のサンプル音声を聞いたときのユーザの表現態様が入力されると、サンプル音声に対する遠隔地ユーザBの好感度を推定するように、教師データを用いて機械学習処理が施されたニューラルネットワークである。好感度推定部34は、サーバー通信装置31を介して、所定のサンプル音声を聞いたときの遠隔地ユーザBの表現態様が入力されると、学習済みニューラルネットワークを用いて、当該サンプル音声に対する遠隔地ユーザBの好感度を推定する。
また好感度推定部34は、対象サンプル音声のデータが入力されると、集音音声好感度推定処理により、データベース32に記憶される所定のサンプル音声に対する遠隔地ユーザBの好感度に基づいて、集音音声に対する遠隔地ユーザの好感度を推定する。具体的には、好感度推定部34は、データベース32に記憶されるサンプル音声の中から、対象サンプル音声に対応したサンプル音声を抽出する。データベース32は、サンプル音声と当該サンプル音声に対する遠隔地ユーザの好感度が対応付けられて記憶している。好感度推定部34は、データベース32を参照することで、特定したサンプル音声に対する遠隔地ユーザBの好感度を特定する。好感度推定部34は、特定したサンプル音声に対する遠隔地ユーザBの好感度を、集音音声に対する遠隔地ユーザBの好感度として推定する。好感度推定部34は、推定した集音音声に対する遠隔地ユーザBの好感度を、サーバー通信装置31を介して、遠隔地通信装置21に送信する。
図2及び図3を用いて、コミュニケーションシステム100により、車内ユーザAがいる場所で集音された音声が遠隔地ユーザBに出力されるまでのフローを説明する。図2及び図3は、コミュニケーションシステム100による音声出力処理を示すフローチャートである。図2及び図3に示すように、フローチャートの各ステップは、車載コントローラ12、遠隔地コントローラ26、又はサーバーコントローラ33のいずれかにより実行される。
ステップS101では、車載コントローラ12は、コミュニケーションシステム100の利用が開始されたか否かを判定する。例えば、コミュニケーションシステム100の利用は、VRゴーグルを装着した遠隔地ユーザBがコミュニケーションシステム100を起動するための操作を行うことで開始される。遠隔地ユーザBによる上記操作の情報が遠隔地空間20から車両1に対して送信され、車載コントローラ12に入力されると、車載コントローラ12は、コミュニケーションシステム100の利用が開始されたと判定する。車載コントローラ12が肯定的な判定をした場合、ステップS102に進む。一方、車載コントローラ12に遠隔地ユーザBによる操作の情報が入力されず、車載コントローラ12が否定的な判定をした場合、コミュニケーションシステム100による音声出力処理は終了する。
ステップS102では、車載コントローラ12は、車載マイク11により集音された集音音声を取得したか否かを判定する。車載コントローラ12は、車載マイク11から集音音声データが入力された場合、集音音声を取得したと判定し、車載マイク11から集音音声データが入力されない場合、集音音声を取得していないと判定する。車載コントローラ12が肯定的な判定をした場合、ステップS103に進み、車載コントローラ12が否定的な判定をした場合、ステップS101に戻る。
ステップS102において、車載コントローラ12が肯定的な判定をした場合、ステップS103に進む。ステップS103では、車載コントローラ12は、車載通信装置14を介して、ステップS102で取得した集音音声データを遠隔地空間20に送信する。
ステップS104では、遠隔地コントローラ26は、遠隔地通信装置21を介して、ステップS103で車載通信装置14から送信された集音音声データを受信する。ステップS105では、遠隔地コントローラ26は、ステップS104で受信した集音音声と同一又は類似のサンプル音声を対象サンプル音声として特定する。
ステップS106では、遠隔地コントローラ26は、遠隔地ユーザBが遠隔地入力装置24に入力した音声加工モードの設定情報を取得し、音声加工モードが重要度モードか否かを判定する。遠隔地コントローラ26が肯定的な判定をした場合、ステップS107に進み、遠隔地コントローラ26が否定的な判定をした場合、ステップS108に進む。
ステップS106において、遠隔地コントローラ26が肯定的な判定をした場合、ステップS107に進む。ステップS107では、遠隔地コントローラ26は、ステップS104で受信した集音音声の重要度が所定の第2閾値よりも高いか否かを判定する。
例えば、遠隔地コントローラ26は、集音音声に対して音声認識処理を実行することで、集音音声に含まれる各音声を判別する。遠隔地コントローラ26は、集音音声に含まれる各音声の重要度と所定の第2閾値とを比較する。遠隔地コントローラ26は、集音音声に含まれる各音声のうち少なくとも一つの音声の重要度が所定の第2閾値よりも高い場合、集音音声の重要度が所定の第2閾値よりも高いと判定する。一方、遠隔地コントローラ26は、集音音声に含まれる全ての音声の重要度が所定の第2閾値よりも低い場合、集音音声の重要度は所定の第2閾値よりも低いと判定する。遠隔地コントローラ26が肯定的な判定をした場合、ステップS114に進み、遠隔地コントローラ26が否定的な判定をした場合、ステップS108に進む。
ステップS107において、遠隔地コントローラ26が否定的な判定をした場合、ステップS108に進む。ステップS108では、遠隔地コントローラ26は、音声加工モードが好感度モードか否かを判定する。遠隔地コントローラ26が肯定的な判定をした場合、ステップS109に進み、遠隔地コントローラ26が否定的な判定をした場合、ステップS115に進む。
ステップS108において、遠隔地コントローラ26が肯定的な判定をした場合、ステップS109に進む。ステップS109では、遠隔地コントローラ26は、遠隔地通信装置21を介して、ステップS105で特定した対象サンプル音声のデータ(対象サンプル音声データ)をサーバー30に送信する。
ステップS110では、サーバーコントローラ33は、サーバー通信装置31を介して、ステップS109で遠隔地通信装置21から送信された対象サンプル音声データを受信する。ステップS111では、サーバーコントローラ33は、データベース32に記憶されるサンプル音声に対する遠隔地ユーザBの好感度に基づき、集音音声に対する遠隔地ユーザBの好感度を推定する。
ステップS112では、サーバーコントローラ33は、サーバー通信装置31を介して、集音音声に対する遠隔地ユーザBの好感度の情報(ステップS111で推定された好感度の推定結果)を遠隔地空間20に送信する。
ステップS113では、遠隔地コントローラ26は、遠隔地通信装置21を介して、ステップS112でサーバー通信装置31から送信された好感度の推定結果の情報を受信する。
ステップS114では、遠隔地コントローラ26は、ステップS104で受信した集音音声データに対して音声加工処理を実行する。このステップでは、遠隔地コントローラ26は、設定された音声加工モードに応じて、加工対象の音声及び加工方法が異なる音声加工処理を実行する。
ステップS107からステップS114に進んだ場合、遠隔地コントローラ26は、ステップS107で重要度が所定の第2閾値よりも高いと判定された音声を強調する強調処理を実行し、集音音声を加工した加工音声を生成する。一方、ステップS113からステップS114に進んだ場合、ステップS113で受信した集音音声に対する遠隔地ユーザBの好感度に応じて、ステップS104で受信した集音音声を強調する強調処理又は抑制する抑制処理を実行し、集音音声を加工した加工音声を生成する。
ステップS115では、遠隔地コントローラ26は、遠隔地出力装置25を介して、遠隔地ユーザBに音声を出力する。遠隔地コントローラ26は、設定された音声加工モードに応じて異なる音声を遠隔地ユーザBに出力する。
音声加工モードが好感度モードに設定されている場合、遠隔地コントローラ26は、ステップS114で集音音声を強調又は抑制した加工音声を、遠隔地出力装置25に出力する。これにより、集音音声とは異なり、遠隔地ユーザBの好みが反映された加工音声を自動的に遠隔地ユーザBに出力することができる。
また音声加工モードが重要度モードに設定され、ステップS114で音声加工処理が実行された場合、遠隔地コントローラ26は、加工音声として、重要度が所定の第2閾値よりも高い音声が集音音声に対して強調された加工音声を、遠隔地出力装置25に出力する。これにより、集音音声とは異なり、重要度が所定の第2閾値よりも高い音声が強調された加工音声を自動的に遠隔地ユーザBに出力することができる。
さらに音声加工モードが好感度モード又は重要度モードのいずれのモードにも設定されていない場合、遠隔地コントローラ26は、ステップS104で受信した集音音声を遠隔地ユーザBに出力する。これにより、車内ユーザAがいる場所で集音された音声をそのまま遠隔地ユーザBに出力することができる。
ステップS115の処理が終了すると、ステップS101に戻り、ステップS102で否定的な判定がされるまで、図2及び図3に示すコミュニケーションシステム100による音声出力処理が繰り返し実行される。
このように、本実施形態に係るコミュニケーションシステム100による音声出力処理によれば、音声加工モードの設定、集音音声に含まれる音声の種別、集音音声の重要度、及び集音音声に対する遠隔地ユーザBの好感度に応じて、異なる音声を遠隔地ユーザBに対して出力することができる。また、音声加工モードが好感度モード又は重要度モードに設定され、集音音声に含まれる各音声の一部又は全部が加工された加工音声が遠隔地ユーザBに出力される場合、集音音声に含まれる各音声のうち強調された音声は、遠隔地ユーザBにとって聞き取りやすくなり、集音音声に含まれる各音声のうち抑制された音声は、遠隔地ユーザBにとって聞き取りづらくなる。つまり、本実施形態に係るコミュニケーションシステム100による音声出力処理によれば、集音音声に含まれる各音声から音声を選択して、遠隔地ユーザBに聞かせることができる。
以上のように、本実施形態では、車載コントローラ12は、車内ユーザAがいる場所で車載マイク11により集音された集音音声を取得する音声取得部13を備え、サーバー30は、所定のサンプル音声に対する、車内ユーザAがいる場所とは別の場所にいる遠隔地ユーザBの好感度を記憶するデータベース32と、サンプル音声に対する遠隔地ユーザBの好感度に基づいて、集音音声に対する遠隔地ユーザBの好感度を推定する好感度推定部34とを備え、遠隔地コントローラ26は、集音音声に対する遠隔地ユーザBの好感度に応じて、集音音声を強調又は抑制することで、集音音声を加工した加工音声を生成する音声加工部28と、音声を遠隔地ユーザBに出力する遠隔地出力装置25に、加工音声を出力する音声出力部29とを備える。これにより、集音音声に対する遠隔地ユーザBの好感度に応じて加工された加工音声を遠隔地ユーザBに出力することできるため、ユーザの好みに合わせた音声を自動的に出力することができる。例えば、重低音のエンジン音を好まないユーザに対して、車両1のエンジン音を選択的にキャンセリングした加工音声を自動的に出力することができる。その結果、ユーザが自身の好みに合わせて音声を調整するという調整作業が必要になる機会を減らすことができる。
また、本実施形態では、好感度推定部34は、所定のサンプル音声を聞いたときの遠隔地ユーザBの表現態様に基づき、サンプル音声に対する遠隔地ユーザBの好感度を推定する。これにより、サンプル音声に対するユーザの好感度を高精度で推定することができる。
さらに、本実施形態では、遠隔地コントローラ26は、集音音声と同一又は類似のサンプル音声を対象サンプル音声として特定する対象サンプル音声特定部27を備え、好感度推定部34は、対象サンプル音声に対する遠隔地ユーザBの好感度に基づいて、集音音声に対する遠隔地ユーザBの好感度を推定する。集音音声と同一又は類似のサンプル音声に対するユーザの好感度から、集音音声に対するユーザの好感度を推定するため、集音音声に対するユーザの好感度を高精度で推定することができる。
加えて、本実施形態では、車内ユーザAは、車両1に乗車しているユーザであり、遠隔地ユーザBは、車両1から離間した場所の遠隔地空間20にいるユーザである。これにより、車両の室内のように様々な種別の音声が流れる空間にいるユーザと会話する場面においても、聞き手のユーザの好みに合わせた音声を自動的に出力することができる。その結果、ユーザがいる場所の音場環境を問わず、聞き手のユーザの好みに合わせた音声を自動的に出力することができる。
また、本実施形態では、音声加工部28は、集音音声に対する遠隔地ユーザBの好感度が所定の第1閾値よりも高い場合、加工音声が集音音声に比べて相対的に強調されるように、集音音声を加工する。これにより、ユーザは、自身の好みの音声が強調された加工音声を聞くことができるため、ユーザによる音声の調整作業の機会を減らすことができ、ユーザの利便性を高めることができる。
さらに、本実施形態では、音声出力部29は、集音音声を加工する音声加工モードとして、集音音声に対する遠隔地ユーザBの好感度に応じて集音音声を加工する好感度モードが設定されている場合、集音音声に対する遠隔地ユーザBの好感度に応じた加工音声を、遠隔地出力装置25に出力する。これにより、ユーザは、音声加工モードが好感度モードに設定されているか否かに応じて、加工音声又は集音音声を聞くことができる。ユーザは、自身の好みに応じて加工された音声に限られず、実際の音声を聞くことができる。例えば、聞き手のユーザが車両のエンジン音や他車両のクラクション音が好まない場合であっても、会話相手が乗車する車両に何らかのトラブルが発生したときに、会話相手の状況を把握できない状態に陥るのを防ぐことができる。
加えて、本実施形態では、音声加工部28は、集音音声の重要度が所定の第2閾値よりも高い場合、加工音声が集音音声に比べて強調されるように、集音音声を加工する。これにより、例えば、ユーザは、緊急車両のサイレン音のように、ユーザが無視することができない音を強調された状態で聞くことができるため、会話相手の周辺状況を把握できない状態に陥るのを防ぐことができる。
また、本実施形態では、音声出力部29は、集音音声を加工する音声加工モードとして、集音音声の重要度に応じて集音音声を加工する重要度モードが設定されている場合、集音音声の重要度に応じた加工音声を、遠隔地出力装置25に出力する。これにより、ユーザは、音声加工モードが重要度モードに設定されているか否かに応じて、加工音声又は集音音声を聞くことができる。ユーザは、音声の重要度に応じて加工された音声に限られず、実際の音声を聞くことができるため、会話相手の状況を把握できない状態に陥るのを防ぐことができる。
さらに、本実施形態では、遠隔地ユーザBの表現態様は、所定のサンプル音声を聞いたときの遠隔地ユーザBの表情、サンプル音声を聞いたときに遠隔地ユーザが発生した音声の音質、及びサンプル音声を聞いたときに遠隔地ユーザが発生した内容のうち少なくともいずれか一つを含む。これにより、サンプル音声を聞いたときにユーザが反射的に出す反応に基づいて、サンプル音声に対するユーザの好感度を推定することができるため、サンプル音声に対するユーザの好感度の推定精度を高めることができる。
加えて、本実施形態では、好感度推定部34は、所定のサンプル音声を聞いたときの遠隔地ユーザBの表現態様が入力されると、学習済みニューラルネットワークを用いて、サンプル音声に対する遠隔地ユーザBの好感度を推定する。学習済みニューラルネットワークは、サンプル音声を聞いたときの遠隔地ユーザBの表現態様が入力されると、サンプル音声に対する遠隔地ユーザBの好感度を推定するように、教師データを用いて機械学習処理が施されたニューラルネットワークである。これにより、ルールベースでサンプル音声に対するユーザの好感度を推定するよりも高い精度で、サンプル音声に対するユーザの好感度を推定することができる。
なお、以上に説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計変更や均等物をも含む趣旨である。
例えば、上述した実施形態では、音声加工モードが好感度モード又は重要度モードに設定されるという択一的な場合を例に挙げて説明したが、これに限られず、音声加工モードは好感度モード及び重要度モードに設定されてもよい。この場合、音声加工部28は、集音音声に対する遠隔地ユーザBの好感度と、集音音声の重要度とに応じて、集音音声を強調又は抑制することで、加工音声を生成する。これにより、ユーザは、ユーザの状態又は状況に応じた音声を聞くことができるとともに、ユーザの好みが反映された音声を聞くことができる。例えば、車両1のウィンカー音は遠隔地ユーザBにとって不要な音声であり、一方で、車両1に流れる音楽は遠隔地ユーザBにとって好みの音声の場合、ウィンカー音を抑制させつつ、音楽を強調させた加工音声を遠隔地ユーザBに出力することができる。
また例えば、上述した実施形態では、好感度推定部34によるサンプル音声に対する好感度の推定方法として、学習済みニューラルネットワークを用いた推定方法を例に挙げて説明したが、その他の方法によりサンプル音声に対する好感度を推定してもよい。例えば、好感度推定部34は、入力層及び出力層を含み、入力層への入力データをサンプル音声を聞いたときの遠隔地ユーザBの表現態様とし、出力層からの出力データをサンプル音声に対する遠隔地ユーザBの好感度とするニューラルネットワークと、入力データ及び出力データの実績値を教師データとしてニューラルネットワークを学習させる機械学習部と、機械学習部により学習させたニューラルネットワークに新たな入力データを入力し、当該入力データに対する新たな出力データとして、サンプル音声に対する遠隔地ユーザBの好感度を推定する推定部を有していてもよい。これにより、好感度推定部34は、サンプル音声を聞いたときの遠隔地ユーザBの表現態様が入力されるたびに、遠隔地ユーザBの表現態様を学習するため、サンプル音声に対する遠隔地ユーザBの好感度の推定精度をより高めることができる。
また、例えば、上述した実施形態では、車内ユーザAがいる場所で集音された集音音声を遠隔地空間20にいる遠隔地ユーザBに出力する場合を例に挙げて説明したが、本発明はこれに限定されない。例えば、遠隔地ユーザBがいる場所で集音された集音音声を車内空間10にいる車内ユーザAに出力する場合においても、本発明の音声加工装置及び音声加工方法を適用することができる。この場合、データベース32は、好感度推定部34により推定された所定のサンプル音声に対する車内ユーザAの好感度を記憶し、好感度推定部34は、対象サンプル音声に対する車内ユーザAの好感度に基づき、集音音声に対する車内ユーザAの好感度を推定する。遠隔地コントローラ26によって、集音音声に対する車内ユーザAの好感度に応じた集音音声の音声加工処理が実行され、加工音声は車両1に送信される。そして、車載コントローラ12は、車両1に搭載されたスピーカーなどの出力装置に、加工音声を出力する。
また例えば、上述した実施形態では、車載コントローラ12が音声取得部13を備え、サーバー30がデータベース32及び好感度推定部34を備え、遠隔地コントローラ26が対象サンプル音声特定部27、音声加工部28、及び音声出力部29を備える場合を例に挙げて説明したが、本発明の音声加工装置の構成はこれに限定されない。例えば、音声取得部、記憶部、好感度推定部、対象サンプル音声特定部、音声加工部、及び音声出力部は、特定のコントローラ又は装置が備える構成であってもよい。例えば、車載コントローラ12がこれらのブロックを備えていてもよいし、遠隔地コントローラ26がこれらのブロックを備えていてもよいし、あるいは、サーバー30がこれらのブロックを備えていてもよい。このように音声加工装置の各ブロックを集約した構成の場合、各ブロックを備える装置は、いずれのブロックも備えない装置との間で、通信装置を介してデータの送受信を行うことで、上述した実施形態と同様の効果を得ることができる。
また例えば、上述した実施形態では、本発明の音声加工方法の一例として、音声の強調及び抑制を例に挙げて説明したが、音声加工方法はその他の方法であってもよい。また好感度及び重要度以外のパラメータを組み合わせて音声加工をしてもよい。例えば、強調処理において、音声を聞いたユーザが当該音声の音源の方向及び音源までの距離を認知できるように、立体音響処理を加えてもよい。
また例えば、音声の出力を前提とする強調処理及び抑制処理ではなく、音声そのものを消失させる処理を行ってもよい。この場合、音声の重要度が特に低いとされる音声に対して実行するのが好ましい。また、ユーザの状態に応じて音声の出力有無を判定してもよい。例えば、聞き手のユーザが睡眠中や話し手のユーザ以外のユーザと会話中の場合、集音音声に対するユーザの好感度、集音音声の重要度にかかわらず、音声が出力されないよう加工してもよい。この場合、ユーザの状態は、カメラ等から把握することができる。
また例えば、集音音声とは異なる音声を追加する音声加工処理であってもよい。例えば、ユーザが動作したこと又は装置が動作したことを示す効果音を集音音声に対して付加する音声加工処理であってもよい。例えば、車両1に搭載された空調機を操作したときの集音音声に対して、車内ユーザAが空調機を操作していることを誇張させた効果音を付加してもよい。
100…コミュニケーションシステム
10…車内空間
11…車載マイク
11a…車内用マイク
11b…車外用マイク
12…車載コントローラ
13…音声取得部
14…車載通信装置
20…遠隔地空間
21…遠隔地通信装置
22…遠隔地カメラ
23…遠隔地マイク
24…遠隔地入力装置
25…遠隔地出力装置
26…遠隔地コントローラ
27…対象サンプル音声特定部
28…音声加工部
29…音声出力部
30…サーバー
31…サーバー通信装置
32…データベース
33…サーバーコントローラ
34…好感度推定部

Claims (13)

  1. 第1ユーザがいる場所で集音装置により集音された集音音声を取得する音声取得部と、
    所定のサンプル音声に対する、前記第1ユーザがいる場所とは別の場所にいる第2ユーザの好感度を記憶する記憶部と、
    前記サンプル音声に対する第2ユーザの好感度に基づいて、前記集音音声に対する前記第2ユーザの好感度を推定する好感度推定部と、
    前記集音音声に対する前記第2ユーザの好感度に応じて、前記集音音声を強調又は抑制することで、前記集音音声を加工した加工音声を生成する音声加工部と、
    音声を前記第2ユーザに出力する出力装置に、前記加工音声を出力する音声出力部と、を備える音声加工装置。
  2. 前記好感度推定部は、前記サンプル音声を聞いたときの前記第2ユーザの表現態様に基づき、前記サンプル音声に対する前記第2ユーザの好感度を推定する請求項1に記載の音声加工装置。
  3. 前記集音音声と同一又は類似の前記サンプル音声を対象サンプル音声として特定する対象サンプル音声特定部を備え、
    前記好感度推定部は、前記対象サンプル音声に対する前記第2ユーザの好感度に基づいて、前記集音音声に対する前記第2ユーザの好感度を推定する請求項1に記載の音声加工装置。
  4. 前記第1ユーザは、車両に乗車している車内ユーザであり、
    前記第2ユーザは、前記車両から離間した場所にいる遠隔地ユーザである請求項1~3のいずれかに記載の音声加工装置。
  5. 前記音声加工部は、前記集音音声に対する前記第2ユーザの好感度が所定の第1閾値よりも高い場合、前記加工音声が前記集音音声に比べて相対的に強調されるように、前記集音音声を加工する請求項1~4のいずれかに記載の音声加工装置。
  6. 前記音声出力部は、前記集音音声を加工するモードとして、前記集音音声に対する前記第2ユーザの好感度に応じて前記集音音声を加工する好感度モードが設定されている場合、前記集音音声に対する前記第2ユーザの好感度に応じて加工された前記加工音声を前記出力装置に出力する請求項1~4のいずれかに記載の音声加工装置。
  7. 前記音声加工部は、前記集音音声に対する前記第2ユーザの好感度と、前記集音音声の内容に応じて設定された前記集音音声の重要度とに応じて、前記集音音声を強調又は抑制することで、前記加工音声を生成する請求項1~6のいずれかに記載の音声加工装置。
  8. 前記音声加工部は、前記集音音声の前記重要度が所定の第2閾値よりも高い場合、前記加工音声が前記集音音声に比べて強調されるように、前記集音音声を加工する請求項7に記載の音声加工装置。
  9. 前記音声出力部は、前記集音音声を加工するモードとして、前記集音音声の前記重要度に応じて前記集音音声を加工する重要度モードが設定されている場合、前記集音音声の前記重要度に応じて加工された前記加工音声を前記出力装置に出力する請求項7又は8に記載の音声加工装置。
  10. 前記第2ユーザの前記表現態様は、前記サンプル音声を聞いたときの前記第2ユーザの表情、前記サンプル音声を聞いたときに前記第2ユーザが発した音声の音質、及び前記サンプル音声を聞いたときに前記第2ユーザが発した内容のうち少なくともいずれか一つを含む請求項2記載の音声加工装置。
  11. 前記好感度推定部は、前記サンプル音声を聞いたときの前記第2ユーザの表現態様が入力されると、学習済みニューラルネットワークを用いて、前記サンプル音声に対する前記第2ユーザの好感度を推定し、
    前記学習済みニューラルネットワークは、前記サンプル音声を聞いたときの前記第2ユーザの表現態様が入力されると、前記サンプル音声に対する前記第2ユーザの好感度を推定するように、教師データを用いて機械学習処理が施されたニューラルネットワークである請求項2又は10のいずれかに記載の音声加工装置。
  12. 前記好感度推定部は、
    入力層及び出力層を含み、前記入力層への入力データを前記サンプル音声を聞いたときの前記第2ユーザの表現態様とし、出力層からの出力データを前記サンプル音声に対する前記第2ユーザの好感度とするニューラルネットワークと、
    前記入力データ及び前記出力データの実績値を教師データとして前記ニューラルネットワークを学習させる機械学習部と、
    前記機械学習部により学習させた前記ニューラルネットワークに新たな前記入力データを入力し、当該入力データに対応する新たな前記出力データとして、前記サンプル音声に対する前記第2ユーザの好感度を推定する推定部を有する請求項2又は10に記載の音声加工装置。
  13. コントローラにより実行される音声加工方法であって、
    第1ユーザがいる場所で集音装置により集音された集音音声を取得し、
    所定のサンプル音声に対する、前記第1ユーザがいる場所とは別の場所にいる第2ユーザの好感度を記憶し、
    前記サンプル音声に対する前記第2ユーザの好感度に基づいて、前記集音音声に対する前記第2ユーザの好感度を推定し、
    前記集音音声に対する前記第2ユーザの好感度に応じて、前記集音音声を強調又は抑制することで、前記集音音声を加工した加工音声を生成し、
    音声を前記第2ユーザに出力する出力装置に、前記加工音声を出力する音声加工方法。
JP2021037505A 2021-03-09 2021-03-09 音声加工装置及び音声加工方法 Pending JP2022137824A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021037505A JP2022137824A (ja) 2021-03-09 2021-03-09 音声加工装置及び音声加工方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021037505A JP2022137824A (ja) 2021-03-09 2021-03-09 音声加工装置及び音声加工方法

Publications (1)

Publication Number Publication Date
JP2022137824A true JP2022137824A (ja) 2022-09-22

Family

ID=83319434

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021037505A Pending JP2022137824A (ja) 2021-03-09 2021-03-09 音声加工装置及び音声加工方法

Country Status (1)

Country Link
JP (1) JP2022137824A (ja)

Similar Documents

Publication Publication Date Title
US10032453B2 (en) System for providing occupant-specific acoustic functions in a vehicle of transportation
CN110070868B (zh) 车载系统的语音交互方法、装置、汽车和机器可读介质
JP6515764B2 (ja) 対話装置及び対話方法
US9743213B2 (en) Enhanced auditory experience in shared acoustic space
US9613639B2 (en) Communication system and terminal device
KR102445365B1 (ko) 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법
CN105632521B (zh) 一种基于汽车的随机音源自动声音控制装置
JP6284331B2 (ja) 会話支援装置、会話支援方法及び会話支援プログラム
CN112078498B (zh) 一种车辆智能座舱的声音输出控制方法和智能座舱
WO2021057364A1 (zh) 车辆功能服务推荐方法和装置
JPWO2018055898A1 (ja) 情報処理装置、及び情報処理方法
CN114194128A (zh) 车辆的音量控制方法、车辆和存储介质
US11974103B2 (en) In-car headphone acoustical augmented reality system
CN115769601A (zh) 用输出单元输出使用者特定声学信号的方法,计算机程序产品和电子信号处理系统
JP2022137824A (ja) 音声加工装置及び音声加工方法
CN111902864A (zh) 用于运行机动车的声音输出装置的方法、语音分析与控制装置、机动车和机动车外部的服务器装置
KR102371513B1 (ko) 대화 시스템 및 대화 처리 방법
JP2019053785A (ja) サービス提供装置
JP2019105966A (ja) 情報処理方法及び情報処理装置
CN110139205B (zh) 用于辅助信息呈现的方法及装置
JP2020060623A (ja) エージェントシステム、エージェント方法、およびプログラム
JP7386076B2 (ja) 車載装置及び応答出力制御方法
JP2022138930A (ja) 情報処理装置、情報処理方法及び学習済みモデル
CN118205507A (zh) 辅助车载乘客睡眠的方法、装置、相关设备及计算机程序产品
US20230318727A1 (en) Vehicle and method of controlling the same

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231107