以下、本発明の実施形態を図面に基づいて説明する。なお、本実施形態に係る情報提示装置は、例えば、車両に搭載されるナビゲーション装置などであり、本実施形態においては、情報提示装置を車両に適用する場合を例示して説明する。
≪第1実施形態≫
図1は、第1実施形態に係る情報提示装置の構成を示す図である。図1に示すように、第1実施形態に係る情報提示装置100は、マイク110と、制御装置120と、音声データベース130と、スピーカ140とを備えている。
マイク110は、車室内に設置され、車室内においてユーザが発話した発話音声を集音する。また、マイク110は、集音した発話音声(アナログ信号)を、マイク110が備えるA/Dコンバータ(不図示)により音声データ(デジタル信号)に変換し、変換した音声データを制御装置120に送信する。
制御装置120は、マイク110から送信されたユーザの音声に基づく音声データを取得し、取得した音声データに基づいて、ユーザに提示するための情報提示用音声の音声データを生成する。制御装置120は、情報提示用音声の音声データを生成するためのプログラムが格納されたROM(Read Only Memory)と、このROMに格納されたプログラムを実行する動作回路としてのCPU(Central Processing Unit)と、アクセス可能な記憶装置として機能するRAM(Random Access Memory)と、を備える。なお、動作回路としては、CPUに代えて又はこれとともに、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)などを用いることができる。
そして、制御装置120は、ROMに格納されたプログラムをCPUにより実行することにより、マイク110から音声データを取得する取得機能、ユーザの音声の基本周波数を検出する基本周波数検出機能、ユーザの性別を識別する性別識別機能、情報提示用音声の音声データを生成する情報提示用音声生成機能、情報提示用音声がユーザに提示された頻度を検出する提示頻度検出機能、および情報提示用音声を変更する情報提示用音声変更機能を実現する。以下に、制御装置120が有する各機能について説明する。
制御装置120の取得機能は、マイク110から送信されたユーザの音声に基づく音声データを取得する。
制御装置120の基本周波数検出機能は、取得機能により取得された音声データに基づいて、ユーザの音声の基本周波数を検出する。ここで、基本周波数とは、音声周波数の調波成分の中で最も低い周波数であり、人間の声帯振動の基本振動数と一致することから、音の高さの物理的特徴といわれている。基本周波数検出機能は、例えば、取得機能により取得された音声データを、高速フーリエ変換(FFT)により解析することにより、基本周波数を検出することができる。
制御装置120の性別識別機能は、基本周波数検出機能により検出されたユーザの音声の基本周波数に基づいて、音声データに係るユーザの性別が男性であるか、あるいは、女性であるかを識別する。例えば、男性の一般的な基本周波数の周波数帯域が100Hz前後(例えば、80Hz〜120Hzの周波数帯域)であり、女性の一般的な基本周波数の周波数帯域が200Hz前後(例えば、180Hz〜220Hzの周波数帯域)であり、基本周波数検出機能により検出された基本周波数が100Hzである場合、性別識別機能は、音声データに係るユーザの性別は男性であると識別することができ、基本周波数検出機能により検出された基本周波数が200Hzである場合、性別識別機能は、音声データに係るユーザの性別は女性であると識別することができる。
制御装置120の情報提示用音声生成機能は、ユーザの音声に基づく音声データに基づいて、情報提示用音声の音声データを生成する。具体的には、情報提示用音声生成機能は、性別識別機能により音声データに係るユーザの性別が男性であると識別された場合に、ユーザの発話音声に基づく音声データにおいて、ユーザの音声の基本周波数を、女性の一般的な基本周波数の周波数帯域(例えば、180〜220Hzの周波数帯域)にシフトさせることにより、ユーザの発話音声に基づく音声データをシフトさせた基本周波数に基づいて変換し、情報提示用音声の音声データを生成する。ここで、男性の一般的な基本周波数が100Hz前後であり、女性の一般的な基本周波数が200Hz前後である場合、男性の一般的な基本周波数と、女性の一般的な基本周波数とは、約100Hzの差がある。そのため、情報提示用音声生成機能は、性別識別機能により音声データに係るユーザの性別が男性と識別された場合に、ユーザの発話音声に基づく音声データにおいて、ユーザの音声の基本周波数を、女性の一般的な基本周波数の周波数帯域側(高周波数帯域側)に100Hzシフトさせることにより、ユーザの発話音声に基づく音声データをシフトさせた基本周波数に基づいて変換し、情報提示用音声の音声データを生成する。
また、情報提示用音声生成機能は、性別識別機能により音声データに係るユーザの性別が女性であると識別された場合に、ユーザの発話音声に基づく音声データにおいて、ユーザの音声の基本周波数を、男性の一般的な基本周波数の周波数帯域(例えば、80〜120Hzの周波数帯域)にシフトさせることにより、ユーザの発話音声に基づく音声データをシフトさせた基本周波数に基づいて変換し、情報提示用音声の音声データを生成する。具体的に、情報提示用音声生成機能は、性別識別機能により音声データに係るユーザの性別が女性であると識別された場合に、ユーザの発話音声に基づく音声データにおいて、ユーザの音声の基本周波数を男性の一般的な基本周波数の周波数帯域側(低周波数帯域側)に100Hzシフトさせることにより、ユーザの発話音声に基づく音声データをシフトさせた基本周波数に基づいて変換し、情報提示用音声の音声データを生成する。
制御装置120の提示頻度検出機能は、スピーカ140により情報提示用音声が提示された頻度を、提示頻度として検出する。提示頻度検出機能により検出される提示頻度としては、例えば、情報提示用音声が提示された回数、または情報提示用音声が提示された時間の長さなどが挙げられる。なお、提示頻度検出機能により提示頻度を検出する方法は、特に限定されないが、例えば、情報提示用音声が提示された時刻や時間の長さなどの情報を時系列に沿って履歴情報として記憶しておき、この履歴情報に基づいて、現在の基本周波数で情報提示用音声がユーザに提示された回数をカウントし、または現在の基本周波数で情報提示用音声がユーザに提示された時間の長さを積算することにより、情報提示用音声の提示頻度を検出することができる。
制御装置120の情報提示用音声変更機能は、提示頻度検出機能により検出された提示頻度が所定値以上となった場合、音声データベース130に記憶されている情報提示用音声の基本周波数を所定幅、例えば5Hzシフトさせることにより、情報提示用音声の音声データを変更する。なお、情報提示用音声変更機能により情報提示用音声の音声データを変更する方法については、後述する。
音声データベース130は、図2に示すように、情報提示用音声に関するテーブルを格納している。ここで、図2は、音声データベース130に格納されているテーブルの一例を示す図である。図2に示すように、音声データベース130には、ユーザに提示する音声のテキスト情報と、ユーザの性別情報と、マイク110を介して取得されたユーザの発話音声に基づく音声データと、制御装置120により生成された情報提示用音声の音声データと、情報提示用音声の音声データが記憶されているか否かを示す登録情報と、が格納されている。なお、図2においては、ユーザの発話音声に基づく音声データと情報提示用音声の音声データとについては、各音声データにおける基本周波数のみを示している。
テキスト情報には、図2に示すように、例えば、『おはようございます』や『こんにちは』などの挨拶に関するテキスト情報や、『次の信号を左折です』、『右折です』、『目的地周辺です』などの経路案内を行うためのテキスト情報などが含まれている。これらのテキスト情報は、音声データベース130に予め記憶されているものである。
音声データベース130の性別情報には、制御装置120の性別識別機能により識別されたユーザの性別の情報が記憶される。図2に示す例において、例えば、制御装置120の取得機能により『おはようございます』とのユーザの発話音声に基づく音声データが取得され、制御装置120の性別識別機能により音声データに係るユーザの性別が男性であると識別された場合、『おはようございます』とのテキスト情報に対応するユーザの性別情報には、図2に示すように、『男性』との情報が記憶される。
また、図2に示すように、音声データベース130には、制御装置120の取得機能により取得されたユーザの発話音声に基づく音声データ、および制御装置120の情報提示用音声生成機能により生成された情報提示用音声の音声データが記憶される。また、ユーザの発話音声に基づく音声データ、および情報提示用音声の音声データが記憶される際には、これら音声データにおける基本周波数の情報も記憶される。さらに、情報提示用音声の音声データが音声データベース130に記憶された場合に、音声データベース130の登録情報に、情報提示用音声の音声データが音声データベース130に記憶されていること示す情報、例えば、『○』が記憶される。なお、図2に示す例では、『こんにちは』とのテキスト情報、および『目的地周辺です』とのテキスト情報について、ユーザの性別情報、ユーザの発話音声に基づく音声データ、および情報提示用音声の音声データは記憶されておらず、また、情報提示用音声の音声データは記憶されていないため、登録情報も記憶されていない。
スピーカ140は、音声データベース130に記憶されている情報提示用音声の音声データ(デジタル信号)を、スピーカ140に備えるD/Aコンバータ(不図示)により情報提示用音声(アナログ信号)に変換し、変換した情報提示用音声を、アンプ(不図示)を介して出力することで、ユーザに情報提示用音声を提示する。
次いで、図3を参照して、本実施形態に係る情報提示用音声の生成処理について説明する。図3は、本実施形態に係る情報提示用音声の生成処理を示すフローチャートである。
まず、ステップS101では、制御装置120の取得機能により、マイク110により入力された音声に基づく音声データの取得が行われる。なお、取得機能により取得される音声データは、車室内に設置されたマイク110から入力された音声に基づくものであり、マイク110から入力された音声を、マイク110が備えるA/Dコンバータにより、音声データに変換したものである。
ステップS102では、制御装置120の情報提示用音声生成機能により、ステップS101で取得した音声データが、ユーザの発話音声に基づく音声データであるか否かの判断が行われる。具体的には、情報提示用音声生成機能は、マイク110から入力された音声に基づいて、音声データの平均パワーと瞬間パワーとを算出し、算出した音声データの平均パワーと瞬間パワーとに基づいて、ステップS101で取得した音声データが、ユーザの発話音声に基づく音声データであるか否かを判断する。すなわち、情報提示用音声生成機能は、算出した音声データの瞬間パワーが平均パワーよりも所定値以上大きい場合は、ステップS101で取得した音声データはユーザの発話音声に基づく音声データであると判断し、一方、算出した音声データの瞬間パワーが平均パワーよりも所定値以上大きくない場合は、ステップS101で取得した音声データは、ユーザの発話音声に基づく音声データではないと判断する。ステップS101で取得した音声データが、ユーザの発話音声に基づく音声データであると判断された場合はステップS103に進み、一方、ステップS101で取得した音声データが、ユーザの発話音声に基づく音声データではないと判断された場合は、ステップS101に戻る。
ステップS103では、情報提示用音声生成機能により、ステップS101で取得した音声データのテキスト情報が、音声データベース130に記憶されているか否かの判断が行われる。例えば、情報提示用音声生成機能は、ステップS101で取得した音声データについて音声認識を行い、該音声認識の結果に基づいて、ステップS101で取得した音声データのテキスト情報と、音声データベース130に予め記憶されているテキスト情報とを比較する。そして、情報提示用音声生成機能は、該比較の結果に基づいて、ステップS101で取得した音声データのテキスト情報が、音声データベース130に記憶されているか否かを判断する。具体的には、図2に示すように、音声データベース130に『おはようございます』、『こんにちは』、『次の信号を左折です』、『右折です』、および『目的地周辺です』などのテキスト情報が予め記憶されている場合、情報提示用音声生成機能は、ステップS101で取得した音声データのテキスト情報が、音声データベース130に記憶されている『おはようございます』、『こんにちは』、『次の信号を左折です』、『右折です』、または『目的地周辺です』などのテキスト情報に対応するものであるか否かを判断する。ステップS101で取得した音声データのテキスト情報が、音声データベース130に記憶されているテキスト情報に対応するものであると判断された場合は、ステップS104に進み、一方、ステップS101で取得した音声データに対応するテキスト情報が、音声データベース130に記憶されているテキスト情報に対応するものではないと判断された場合は、ステップS101に戻る。
ステップS104では、情報提示用音声生成機能により、ステップS101で取得した音声データに基づく情報提示用音声の音声データが、音声データベース130に記憶されているか否かの判断が行われる。例えば、図2に示すように、音声データベース130は、情報提示用音声の音声データが音声データベース130に記憶されているかを示す登録情報を有しており、情報提示用音声生成機能は、この登録情報を参照することにより、各テキスト情報に対応する情報提示用音声の音声データが、音声データベース130に記憶されているか否かを判断することができる。例えば、図2に示す例では、『おはようございます』とのテキスト情報に対応する登録情報が『○』となっており、『おはようございます』とのテキスト情報に対応する情報提示用音声の音声データが音声データベース130に記憶されている。そのため、情報提示用音声生成機能は、『おはようございます』とのテキスト情報に対応する登録情報を参照して、『おはようございます』とのテキスト情報に対応する情報提示用音声の音声データが、音声データベース130に記憶されていると判断することができる。一方、図2に示す例では、『こんにちは』とのテキスト情報に対応する登録情報が記憶されていない。そのため、情報提示用音声生成機能は、『こんにちは』とのテキスト情報に対応する登録情報を参照して、『こんにちは』とのテキスト情報に対応する情報提示用音声の音声データが、音声データベース130に記憶されていないと判断することができる。ステップS101で取得した音声データに基づく情報提示用音声の音声データが、音声データベース130に記憶されていないと判断された場合はステップS105に進み、一方、ステップS101で取得した音声データに基づく情報提示用音声の音声データが、音声データベース130に記憶されていると判断された場合は、ステップS108に進む。
ステップS104において、ステップS101で取得した音声データに基づく情報提示用音声の音声データが、音声データベース130に記憶されていないと判断された場合は、ステップS101で取得した音声データに基づく情報提示用音声の音声データを生成するために、ステップS105〜ステップS107の処理が行われる。
まず、ステップS105では、制御装置120の基本周波数検出機能により、ステップS101で取得した音声データに基づいて、ユーザの音声の基本周波数の検出が行われる。例えば、本実施形態において、基本周波数検出機能は、ステップS101で取得した音声データを、例えば、高速フーリエ変換(FFT)により解析することにより、ユーザの音声の基本周波数を検出することができる。検出されたユーザの音声の基本周波数は、ステップS101で取得した音声データとともに、音声データベース130に記憶される。例えば、図2に示すように、ステップS101において『おはようございます』とのテキスト情報に対応する音声データが取得された場合、基本周波数検出機能は、この音声データに基づいてユーザの音声の基本周波数を検出し、検出された基本周波数が、例えば、100Hzであった場合に、図2に示すように、『おはようございます』とのテキスト情報に対応する音声データと、この音声データに基づいて検出された基本周波数である100Hzとを、『おはようございます』とのテキスト情報に対応付けて、音声データベース130に記憶する。
ステップS106では、制御装置120の性別識別機能により、ステップS105で検出された基本周波数に基づいて、ステップS101で取得した音声データに係るユーザの性別の識別が行われる。本実施形態において、性別識別機能は、例えば、ステップS105で検出した基本周波数が、女性の一般的な基本周波数の周波数帯域に含まれる場合には、ステップS101で取得した音声データに係るユーザの性別は女性であると識別し、一方、ステップS105で検出した基本周波数が、男性の一般的な基本周波数の周波数帯域に含まれる場合には、ステップS101で取得した音声データに係るユーザの性別は男性であると識別することができる。そして、識別されたユーザの性別の情報は、音声データベース130に記憶される。例えば、男性の一般的な基本周波数の周波数帯域が100Hz前後(例えば、80Hz〜120Hzの周波数帯域)である場合に、図2に示すように、ステップS101において『おはようございます』とのテキスト情報に対応する音声データが取得され、ステップS105においてこの音声データにおける基本周波数が100Hzとして検出された場合には、この音声データおける基本周波数である100Hzが男性の一般的な基本周波数の周波数帯域(例えば、80Hz〜120Hzの周波数帯域)に含まれるため、性別識別機能は、ステップS101で取得した音声データに係るユーザの性別は『男性』であると識別し、識別されたユーザの性別である『男性』との情報を、図2に示すように、『おはようございます』とのテキスト情報に対応づけて、音声データベース130に記憶する。
次に、ステップS107では、情報提示用音声生成機能により、ステップS101で取得した音声データに基づいて、情報提示用音声の音声データの生成が行われる。具体的には、情報提示用音声生成機能は、ステップS106でユーザの性別が男性であると識別された場合に、ステップS101で取得した音声データにおける基本周波数を、女性の一般的な基本周波数の周波数帯域にシフトさせることにより、ステップS101で取得した音声データを変換して、情報提示用音声の音声データを生成する。ここで、男性の一般的な基本周波数の周波数帯域が100Hz前後であり、女性の一般的な基本周波数の周波数帯域が200Hz前後である場合、男性の一般的な基本周波数と、女性の一般的な基本周波数とは、約100Hzの差がある。本実施形態において、情報提示用音声生成機能は、ステップS106でユーザの性別が男性であると識別された場合に、ステップS101で取得した音声データの基本周波数を、女性の一般的な基本周波数の周波数帯域側(高周波数帯域側)に上記差分の100Hzだけシフトさせることにより、ステップS101で取得した音声データにおける基本周波数を女性の一般的な基本周波数の周波数帯域にシフトさせるものである。そして、情報提示用音声生成機能は、ステップS101で取得した音声データを、シフトさせた基本周波数に基づいて変換し、情報提示用音声の音声データを生成する。
例えば、図2に示すように、ステップS101において『おはようございます』とのテキスト情報に対応する音声データが取得され、ステップS105において『おはようございます』とのテキスト情報に対応する音声データにおける基本周波数が100Hzとして検出された場合であって、ステップS106でユーザの性別が男性であると識別された場合に、情報提示用音声生成機能は、この音声データにおける基本周波数を、女性の一般的な基本周波数の周波数帯域側(高周波数帯域側)に100Hzシフトさせる。これにより、情報提示用音声生成機能は、ステップS101で取得した音声データを、シフトさせた基本周波数に基づいて変換し、基本周波数が200Hzの情報提示用音声の音声データを生成する。また、同様に、情報提示用音声生成機能は、図2に示すように、『次の信号を左折です』とのテキスト情報に対応する基本周波数が102Hzの音声データにおいて、基本周波数を、女性の一般的な基本周波数の周波数帯域側(高周波数帯域側)に100Hzシフトさせることにより、基本周波数が202Hzの情報提示用音声の音声データを生成し、また、『右折です』とのテキスト情報に対応する基本周波数が101Hzの音声データにおいて、基本周波数を、女性の一般的な基本周波数の周波数帯域側(高周波数帯域側)に100Hzシフトさせることにより、基本周波数が201Hzの情報提示用音声の音声データを生成する。
一方、情報提示用音声生成機能は、ステップS106においてユーザの性別が女性であると識別された場合に、ステップS101で取得した音声データにおける基本周波数を、男性の一般的な基本周波数の周波数帯域にシフトさせることにより、ステップS101で取得した音声データを変換して、情報提示用音声の生成を行う。具体的には、情報提示用音声生成機能は、ステップS106においてユーザの性別が女性であると識別された場合に、ステップS101で取得した音声データにおける基本周波数を、男性の一般的な基本周波数の周波数帯域側(低周波数帯域側)に上記差分の100Hzだけシフトさせる。これにより、情報提示用音声生成機能は、ステップS101で取得した音声データを、シフトさせた基本周波数に基づいて変換し、情報提示用音声の音声データを生成する。例えば、ステップS105において、ステップS101で取得した音声データにおける基本周波数が210Hzとして検出され、ステップS106において、ユーザの性別が女性であると識別された場合に、情報提示用音声生成機能は、この音声データにおける基本周波数を、男性の一般的な基本周波数の周波数帯域側(高周波数帯域側)に100Hzシフトさせることにより、ステップS101で取得した音声データを変換し、基本周波数が110Hzの情報提示用音声の音声データを生成する。
そして、このように生成された情報提示用音声は、図2示すように、音声データベース130に記憶される。なお、ステップS107で情報提示用音声が生成された後は、ステップS101に戻り、上述した情報提示用音声の生成処理を繰り返す。
一方、ステップS104で、ステップS101で取得した音声データに基づく情報提示用音声の音声データが、音声データベース130に記憶されていると判断された場合は、ステップS108に進む。ステップS108では、制御装置120の提示頻度検出機能により、スピーカ140を介して情報提示用音声がユーザに提示された提示頻度の検出が行われる。例えば、提示頻度検出機能は、情報提示用音声がユーザに提示された時刻や時間の長さの情報を時系列に沿って記憶した履歴情報に基づいて、現在の基本周波数の情報提示用音声が提示された回数をカウントし、または時間の長さを累積することにより、情報提示用音声の頻度を提示頻度として検出することができる。そして、続くステップS109では、制御装置120の情報提示用音声変更機能により、ステップS108で検出された提示頻度が所定値以上であるか否かの判断が行われる。情報提示用音声の提示頻度が所定値以上であると判断された場合はステップS110に進み、一方、情報提示用音声の提示頻度が所定値未満であると判断された場合は、ステップS101に戻り、この情報提示用音声の生成処理を繰り返す。
ステップS110では、情報提示用音声変更機能により、音声データベース130に記憶されている情報提示用音声の音声データの変更が行われる。具体的に、情報提示用音声変更機能は、音声データベース130に記憶されている情報提示用音声の音声データにおいて、基本周波数を所定幅シフトさせることにより、情報提示用音声の音声データを、シフトさせた基本周波数に基づくものに変換する。例えば、図2に示すように、『おはようございます』とのテキスト情報に対応する基本周波数が200Hzの情報提示用音声の音声データが記憶されている場合、情報提示用音声変更機能は、この『おはようございます』とのテキスト情報に対応する情報提示用音声の音声データにおいて、基本周波数を、高周波数帯域側に所定幅、例えば5Hzシフトさせる。これにより、情報提示用音声変更機能は、図2に示す『おはようございます』とのテキスト情報に対応する基本周波数が200Hzの情報提示用音声の音声データを、図4に示すように、基本周波数が205Hzの情報提示用音声の音声データに変換することができる。また、同様に、情報提示用音声変更機能は、図2に示す『次の信号を左折です』とのテキスト情報に対応する基本周波数が202Hzの情報提示用音声の音声データにおいて、基本周波数を高周波数帯域側に5Hzシフトさせることにより、基本周波数が202Hzの情報提示用音声の音声データを、基本周波数が207Hzの情報提示用音声の音声データに変換し、さらに、『右折です』とのテキスト情報に対応する基本周波数が201Hzの情報提示用音声の音声データにおいて、基本周波数を高周波数帯域側に5Hzシフトさせることにより、基本周波数が201Hzの情報提示用音声の音声データを、基本周波数が206Hzの情報提示用音声の音声データに変換する。なお、図4は、図2に示す音声データベース130にテーブルにおいて、情報提示用音声の音声データを変更した後の音声データベース130のテーブルの一例を示す図である。
ステップS110で情報提示用音声の音声データを変更した後は、ステップS101に戻り、この情報提示用音声の生成処理を繰り返す。
このように、本実施形態に係る情報提示用音声の生成処理では、ユーザの発話音声の音声データに基づいて、情報提示用音声の音声データが生成され、生成された情報提示用音声の音声データが、音声データベース130に記憶される。そして、情報提示装置100は、音声データベース130に記憶された情報提示用音声の音声データに基づいて、スピーカ140を介して、情報提示用音声を出力することができ、この情報提示用音声をユーザに提示することができる。
以上のように、本実施形態に係る情報提示装置100によれば、ユーザの発話音声に基づく音声データに基づいて、情報提示用音声の音声データが生成され、音声データベース130に記憶される。そして、音声データベース130に記憶されている情報提示用音声の音声データに基づいて、情報提示用音声が、スピーカ140を介してユーザに提示される。このように、本実施形態では、ユーザに提示される情報提示用音声の音声データをユーザの発話音声に基づく音声データに基づいて生成することにより、ユーザに提示される情報提示用音声を、ユーザが発話する速さ、およびリズムとすることができため、ユーザにとって聞き取りやすい情報提示用音声をユーザに提示することができる。また、ユーザに提示される情報提示用音声の音声データを、ユーザが骨伝導を介して普段聞いているユーザ自身の音声に基づいて生成することで、ユーザが骨伝導を経て普段聞いているユーザ自身の声を聞き飽きることがないように、ユーザが情報提示用音声を聞き飽きることを低減することができる。
ここで、図5および図6は、本実施形態に係る情報提示用音声の効果を説明するための図である。図5および図6では、各10人のユーザ(被験者)のそれぞれの発話音声に基づく情報提示用音声である10種類の音声刺激を用意し、各10人のユーザ(被験者)に、これら10種類の音声刺激を、それぞれ一対一で比較させ、どちらの音声が好きか回答させた結果を示している(一対比較実験)。
この一対比較実験において、ユーザ自身の音声に基づく情報提示用音声と、他のユーザの音声に基づく9種類の情報提示用音声とを、それぞれ一対一で比較した結果、ユーザ自身の音声に基づく情報提示用音声をユーザが好む度合を「選好度」として算出した。具体的に、「選好度」とは、ユーザが、ユーザ自身の音声に基づく情報提示用音声を、他のユーザの音声に基づく情報提示用音声よりも好む度合であり、例えば、ユーザが、ユーザ自身の音声に基づく情報提示用音声を、他人の音声に基づく9種類の全ての情報提示用音声よりも好む場合の選好度は、9/9、すなわち1.0となる。また、反対に、ユーザが、ユーザ自身の音声に基づく情報提示用音声を、他のユーザの音声に基づく9種類の全ての情報提示用音声よりも好まない場合の選好度は、0/9、すなわち0となる。そして、ユーザが、ユーザ自身の音声に基づく情報提示用音声を、他のユーザの音声に基づく9種類の情報提示用音声のうち4種類の情報提示用音声よりも好み、他のユーザの音声に基づく情報提示用音声の9種類のうち残りの5種類よりも好まない場合の選好度は、4/9、すなわち0.44となる。
図5では、各10人のユーザ(被験者)ごとに、挨拶、ナビゲーション音声、注意喚起、および警報を内容とする4種類の音声種別ごとの選好度を算出し、算出した選好度を棒グラフで示している。例えば、図5には、挨拶を内容した情報提示用音声について、各10人のユーザ(被験者)の選好度のデータを示しており、左から、順次、1番目のユーザ(被験者)の選好度のデータ、2番目のユーザ(被験者)の選好度のデータを示しており、同様に、3番目〜10番目のユーザ(被験者)の選好度のデータもそれぞれ示している。また、挨拶を内容した情報提示用音声についての選好度のデータの右隣には、ナビゲーション音声を内容とする情報提示用音声についての選好度のデータを示している。ナビゲーション音声を内容とする情報提示用音声についての選好度のデータにおいても、挨拶を内容した情報提示用音声についての選好度のデータと同様に、左から、順次、1番目のユーザ(被験者)の選好度のデータ、2番目のユーザ(被験者)の選好度のデータを示しており、同様に、3番目〜10番目のユーザ(被験者)の選好度のデータもそれぞれ示している。同様に、注意喚起を内容とする情報提示用音声についての選好度のデータ、および、警報を内容とする情報提示用音声についての選好度のデータについても、1番目〜10番目のユーザ(被験者)の選好度のデータをそれぞれ示している。なお、図5においては、挨拶、ナビゲーション音声、注意喚起、および警報を内容とする情報提示用音声についての選好度のデータにおいて、1番目の選好度のデータは同じユーザ(被験者)の選好度のデータをそれぞれ示しており、2番目の選好度のデータは、1番目のユーザ(被験者)とは異なる別のユーザ(被験者)の選好度のデータをそれぞれ示している。同様に、挨拶、ナビゲーション音声、注意喚起、および警報を内容とする情報提示用音声についての各選好度のデータにおいて、3番目〜10番目の選好度のデータは、それぞれ別のユーザ(被験者)の選好度のデータをそれぞれ示している。
さらに、図5においては、図5に示す全ての選好度の平均値を、AL(アベレージレベル)として示している。図5に示す実験結果では、各ユーザがユーザ自身の音声に基づく情報提示用音声を好む選好度の平均値(AL)は、0.63となった。さらに、図5においては、これらの10種類の音声刺激を一対一で比較した場合に、一方の音声が選択される偶発的な確率をCL(チャンスレベル)として示しており、その値は1/2、すなわち0.5となる。このように、各ユーザがユーザ自身の音声に基づく情報提示用音声を好む選好度の平均値(AL)は0.63であり、CLの0.5よりも大きな値になっていることから、ユーザは、ユーザ自身の音声に基づく情報提示用音声を好む傾向にあるといえる。具体的には、AL(アベレージレベル)である0.63と、CL(チャンスレベル)である0.5から、下記式(1)に示すように、ユーザがユーザ自身の音声に基づく情報提示用音声を好む度合は、他人の音声に基づく情報提示用音声を好む度合と比べて、26%上昇する結果となった。
{(0.63−0.5)/0.5}×100 = 26(%) ・・・(1)
本実施形態では、このように、ユーザの音声に基づく情報提示用音声をユーザに提示することにより、ユーザが気に入りやすい情報提示用音声をユーザに提示することができる。
また、図5に示す実験結果では、この一対比較実験で利用した10種類の音声刺激の中に、自分の音声に基づく情報提示用音声が含まれていることに気付いたユーザ(被験者)の選好度のデータと、自分の音声に基づく情報提示用音声が含まれていることに気付かなかったユーザのユーザ(被験者)の選好度のデータとを併せて表示している。一方、図6では、図5に示す実験結果のうち、この一対比較実験で利用した10種類の音声刺激の中に、自分の音声に基づく情報提示用音声が含まれていることに気付かなかった6人のユーザ(被験者)の選好度のデータのみを表示している。
図6に示すように、10種類の音声刺激の中に自分の音声に基づく情報提示用音声が含まれていることに気付かなかったユーザ(被験者)の選好度の平均値(AL)は0.7となり、図5における選好度の平均値(AL)である0.63よりも大きな値となった。このことから、ユーザに提示される情報提示用音声が、ユーザ自身の音声に基づくものであると気付かなかった場合には、ユーザ自身の音声に基づく情報提示用音声を好む傾向がより強くなるといえる。具体的には、AL(アベレージレベル)である0.7と、CL(チャンスレベル)である0.5から、下記式(2)に示すように、ユーザに提示される情報提示用音声が、ユーザ自身の音声に基づくものであると気付かなかった場合には、ユーザが、ユーザ自身の音声に基づく情報提示用音声を好む度合は、他のユーザの音声に基づく情報提示用音声を好む度合と比べて、40%上昇する結果となった。
{(0.7−0.5)/0.5}×100 = 40(%) ・・・(2)
本実施形態では、このように、ユーザの音声に基づいて情報提示用音声を生成する際に、ユーザの性別を識別し、ユーザの音声を異性の音声の周波数となるように、ユーザの音声を変更して、情報提示用音声を生成することにより、ユーザがより気に入りやすい情報提示用音声をユーザに提示することができる。
加えて、本実施形態に係る情報提示装置100によれば、スピーカ140を介して情報提示用音声がユーザに提示された頻度を提示頻度として検出し、検出した提示頻度が所定値以上の場合に、音声データベース130に記憶されている情報提示用音声の音声データにおける基本周波数を所定幅シフトさせることにより、音声データベース130に記憶されている情報提示用音声を、シフトさせた基本周波数に基づくものに変更する。これにより、制御装置120からスピーカ140を介して情報提示用音声が、所定値以上、ユーザに提示された場合であっても、情報提示用音声について、聴感上の印象を変えることができるため、ユーザが情報提示用音声を聞き飽きることを有効に防止することができる。
≪第2実施形態≫
続いて、第2実施形態に係る情報提示装置について説明する。第2実施形態に係る情報提示装置100は、図1に示す第1実施形態に係る情報提示装置100と同様の構成を有しており、以下に説明する点以外は、第1実施形態に係る情報提示装置100と同様の動作を行う。
第2実施形態における情報提示装置100は、図1に示す第1実施形態に係る情報提示装置100と同様に、マイク110、制御装置120、音声データベース130、およびスピーカ140を備えているが、第2実施形態に係る情報提示装置100では、制御装置120が、図1に示す制御装置120が有する各機能に加えて、音声合成を行うための音声合成機能を有する点で、第1実施形態に係る情報提示装置100と異なっている。制御装置120の音声合成機能は、例えば、音声データベース130に記憶されているユーザの発話音声に基づく音声データを用いて、ユーザが発話していない任意のテキスト情報に応じた音声データの合成を行う。なお、音声合成機能による音声合成方法は、特に限定されず、例えば、波形接続方式やHMM(Hidden Markov Model)など既知の音声合成方法を用いることができる。
ここで、図7は、音声合成機能により音声合成された情報提示用音声を含む音声データベース130のテーブルの一例を示す図である。音声合成機能は、例えば、図7に示すように、明日の天気予報に関する情報をユーザに提示するため、音声データベース130に記憶されているユーザの発話音声に基づく音声データを用いて、ユーザが発話していない『明日の神奈川県東部の天気は晴れのち曇りです』とのテキスト情報に対応する音声データを合成する。また、音声合成機能は、音声合成を行う際に、性別識別機能によりユーザの性別が男性であると識別されている場合は、合成された音声データにおいて、基本周波数が、女性の一般的な基本周波数となるように音声合成を行い、性別識別機能によりユーザの性別が女性であると識別されている場合は、合成された音声データにおいて、基本周波数が、男性の一般的な基本周波数となるように音声合成を行う。
そして、音声合成機能は、例えば、明日の天気予報に関する情報をユーザに提示する際に、図7に示すように、『明日の神奈川県東部の天気は晴れのち曇りです』との情報提示用音声の音声データを音声合成し、合成した情報提示用音声の音声データを音声データベース130に記憶する。これにより、スピーカ140を介して『明日の神奈川県東部の天気は晴れのち曇りです』との情報提示用音声がユーザに提示されることとなる。
以上のように、第2実施形態に係る情報提示装置100によれば、制御装置120の音声合成機能により、ユーザの発話音声に基づく音声データに基づいて、ユーザが実際に発話していないテキスト情報に対応する情報提示用音声の音声データを音声合成する。これにより、第2実施形態に係る情報提示装置100によれば、例えば、図7に示すように、明日の天気に関する『明日の神奈川県東部の天気は晴れのち曇りです』などの任意のテキスト情報を、ユーザの発話音声に基づく情報提示用音声で提示することができるため、多種多様のテキスト情報を、ユーザが気に入りやすい情報提示用音声で、ユーザに提示することができる。
≪第3実施形態≫
続いて、図8を用いて、第3実施形態に係る情報提示装置について説明する。図8は、第3実施形態に係る情報提示装置100aの構成図である。第3実施形態に係る情報提示装置100aは、以下に説明する点以外は、第1実施形態に係る情報提示装置100と同様の構成を有し、第1実施形態に係る情報提示装置100と同様の動作を行う。第3実施形態における情報提示装置100は、図1に示す第1実施形態に係る情報提示装置100と同様に、マイク110、制御装置120、音声データベース130、およびスピーカ140に加え、通信装置150をさらに備える。
通信装置150は、車外に設置されたサーバや通信端末(不図示)から、インターネット回線を介して、車外において集音されたユーザの発話音声の音声データを受信し、受信したユーザの発話音声の音声データを、制御装置120に送信する。
次に、第3実施形態に係る情報提示用音声の生成処理について説明する。第3実施形態に係る情報提示用音声の生成処理は、ステップS101において、マイク110を介して入力された音声に基づく音声データに加えて、通信装置150により受信された音声データをも取得する点以外は、図3に示す第1実施形態に係る情報提示用音声の生成処理と同様に行われる。
すなわち、第3実施形態に係る情報提示用音声の生成処理では、まず、ステップS101において、制御装置120の取得機能により音声データを取得する際に、車室内においてマイク110を介して入力された音声に基づく音声データに加えて、通信装置150により受信された音声データ、すなわち、車外において集音された音声に基づく音声データを取得する。
そして、第3実施形態に係る情報提示用音声の生成処理では、情報提示用音声の音声データを生成するために、マイク110を介して入力された音声に基づく音声データ、および通信装置150により受信された音声データを用いて、ステップS102〜ステップS110の処理が行われる。なお、第3実施形態に係る情報提示用音声の生成処理では、ステップS102〜ステップS110においては、図3に示す第1実施形態に係る情報提示用音声の生成処理と同様であるため、説明は省略する。
以上のように、第3実施形態に係る情報提示装置100aは、車外において集音されたユーザの発話音声に基づく音声データを受信する通信装置150をさらに有し、マイク110を介して入力されたユーザの発話音声に基づく音声データと、通信装置150により受信されたユーザの発話音声に基づく音声データとを取得し、取得した音声データに基づいて、情報提示用音声を生成する。これにより、第3実施形態に係る情報提示装置100aでは、ユーザの発話音声を車外においても集音することができるため、様々な種類のユーザの発話音声に基づく音声データを数多く取得することができ、その結果、精度の高い情報提示用音声を数多く生成することができる。
≪第4実施形態≫
続いて、図9を用いて、第4実施形態に係る情報提示装置について説明する。図9は、第4実施形態に係る情報提示装置100bの構成図である。第4実施形態に係る情報提示装置100bは、以下に説明する点以外は、第1実施形態に係る情報提示装置100と同様の構成を有し、第1実施形態に係る情報提示装置と同様の動作を行う。
図9に示すように、第4実施形態における情報提示装置100bは、マイク110、制御装置120、音声データベース130、およびスピーカ140に加え、ユーザの顔部を撮像するためのカメラ160をさらに備えている。
カメラ160は、ユーザの顔部を撮像し、撮像したユーザの顔部の画像データを制御装置120に送信する。
次に、第4実施形態に係る情報提示用音声の生成処理について説明する。第4実施形態に係る情報提示用音声の生成処理は、ステップS106において、ステップS101で取得した音声データに係るユーザの性別を識別する際に、ステップS105で検出された基本周波数を用いることに加えて、カメラ160により撮像されたユーザの顔部の画像データを用いる点以外は、図3に示す第1実施形態に係る情報提示用音声の生成処理と同様に行われる。
第4実施形態に係る情報提示用音声の生成処理では、図3に示す第1実施形態に係る情報提示用音声の生成処理と同様に、ステップS101〜ステップS105の処理が行われる。すなわち、マイク110を介して音声データが取得され(ステップS101)、ステップS101で取得した音声データがユーザの発話音声に基づく音声データであり(ステップS102=YES)、ステップS101で取得した音声データのテキスト情報が、音声データベース130に記憶されており(ステップS103=YES)、さらに、ステップS101で取得した音声データに基づく情報提示用音声の音声データが音声データベース130に記憶されていない場合(ステップS104=NO)に、ステップS101で取得した音声データにおいて、ユーザの音声の基本周波数が検出される(ステップS105)。
そして、続くステップS106では、制御装置120の性別識別機能により、ステップS105で検出されたユーザの音声の基本周波数に基づいて、ステップS101で取得した音声データに係るユーザの性別の識別が行われるとともに、カメラ160で撮像されたユーザの顔部の画像データに基づいて、ステップS101で取得した音声データに係るユーザの性別の識別が行われる。例えば、性別識別機能は、ユーザの顔部の画像データに基づいて、ユーザの肌色の明るさ、顔の形態、および唇の色などの特徴を検出し、検出した特徴に基づいて、ユーザの性別を識別することができる。例えば、性別識別機能は、ユーザの顔部の画像データに基づいて、ユーザの肌色が色白であり、顔部の形態に女性的な特徴が見られる場合は、ユーザの性別を女性であると識別することができ、また、ユーザの肌色が色白であり、唇に赤みを帯びている場合にも、ユーザの性別を女性であると識別することができる。
なお、第4実施形態に係る情報提示用音声の生成処理では、ステップS107〜ステップS110においては、図3に示す第1実施形態に係る情報提示用音声の生成処理と同様であるため、説明は省略する。
以上のように、第4実施形態に係る情報提示装置100bは、ユーザの顔部を撮像するカメラ160をさらに備え、ステップS106において、ステップS101で取得した音声データに係るユーザの性別を識別する際に、ユーザの音声の基本周波数に加えて、カメラ160により撮像されたユーザの顔部の画像データを用いて、ユーザの性別を識別するものである。これにより、ステップS101で取得した音声データに係るユーザの性別の識別精度を高めることができ、ユーザにとって適切な情報提示用音声をユーザに提示することができる。
以上説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計変更や均等物をも含む趣旨である。
すなわち、本発明は、上述した実施形態に限られず、また、上述した第1〜4実施形態を組合せて実施しても良い。
また、上述した実施形態では、男性の一般的な基本周波数を100Hz前後(例えば、80Hz〜120Hz)、女性の一般的な基本周波数を200Hz前後(180Hz〜220Hz)として例示しているが、男性の一般的な基本周波数、および女性の一般的な基本周波数は、この周波数帯域に限定されるものではない。例えば、男性の一般的な基本周波数の周波数帯域が120Hz〜150Hzであってもよく、また、女性の一般的な基本周波数の周波数帯域が240Hz〜300Hzであってもよい。上述した実施形態によれば、男性の一般的な基本周波数と女性の一般的な基本周波数との差に応じて、ステップS101で取得した音声データにおける基本周波数をシフトさせることにより、情報提示用音声の音声データを生成することができるためである。
さらに、上述した実施形態では、例えば、男性の一般的な基本周波数と女性の一般的な基本周波数との差分だけ、ステップS101で取得した音声データにおける基本周波数をシフトさせることにより、情報提示用音声の音声データを生成しているが、この構成に限定されるものではない。例えば、ステップS101で取得した音声データに係るユーザの性別が男性と識別された場合に、ステップS101で取得した音声データにおける基本周波数と、女性の一般的な基本周波数との差分を算出し、ステップS101で取得した音声データにおける基本周波数を、女性の一般的な基本周波数の周波数帯域側に、算出した差分だけシフトさせることにより、情報提示用音声の音声データを生成する構成としてもよい。
また、上述した実施形態では、ステップS101で取得した音声データについて音声認識を行うことにより、ステップS101で取得した音声データが、音声データベース130に記憶されている音声データか判断し(ステップS103)、この音声データに基づいて情報提示用音声の音声データを生成しているが、例えば、車両の停車中などに、ユーザに提示するための音声のテキスト情報をユーザに発話させることにより、音声データベース130に記憶されているテキスト情報に対応する音声データを取得し、この音声データに基づいて、情報提示用音声の音声データを生成する構成としてもよい。
さらに、第3実施形態では、通信装置150により車外で集音された音声データを、インターネット回線を通じて受信しているが、この構成に限定されるものではなく、例えば、車外で集音された音声データを持ち運び可能な記憶媒体に記憶しておき、該記憶媒体に記憶させた音声データを、制御装置120に取得させる構成としてもよい。
加えて、上述した実施形態において、性別識別機能は、ユーザの音声の基本周波数や、ユーザの顔部を撮像した画像データに基づいて、ユーザの性別を識別しているが、この構成に加え、またはこの構成に替えて、性別識別機能は、例えば、ユーザの性別をユーザが入力するための入力スイッチを介して、ユーザに入力されたユーザの性別の情報に基づいて、ユーザの性別を識別する構成としてもよい。これにより、性別識別機能によるユーザの性別の識別精度を高めることができ、ユーザにとって適切な音声情報提示音声をユーザに提示することができる。
なお、上述した実施形態の制御装置120は本発明の取得手段、基本周波数検出手段、識別手段、第1生成手段、第2生成手段、提示頻度検出手段、変更手段、及び音声合成手段に、音声データベース130は本発明の保持手段に、スピーカ140は本発明の提示手段に、カメラ160は本発明の撮像手段に、それぞれ相当する。