JP5750839B2

JP5750839B2 - 音声情報提示装置および音声情報提示方法

Info

Publication number: JP5750839B2
Application number: JP2010135031A
Authority: JP
Inventors: 英治外塚; 寸田　剛司; 剛司寸田; 実冨樫
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2010-06-14
Filing date: 2010-06-14
Publication date: 2015-07-22
Anticipated expiration: 2030-06-14
Also published as: JP2012002856A

Description

本発明は、音声情報提示装置および音声情報提示方法に関するものである。

従来より、ナビゲーション情報を音声でユーザに提示する音声情報提示装置が知られている。このような音声情報提示装置において、ナビゲーション情報をユーザに聞き取り易くするために、ナビゲーション情報をユーザの年齢に合わせた周波数で音声合成し、合成した音声をユーザに提示する音声情報提示装置が知られている（特許文献１）。

特開平１１−１８３１８１号公報

しかしながら、従来技術では、ユーザの年齢に応じて、音声合成するための周波数を設定するものであるため、ユーザに提示される音声が特定の周波数に固定されることとなり、その結果、ユーザが、ナビゲーション情報の音声を聞き飽きてしまう場合があった。

本発明が解決しようとする課題は、ユーザに提示する情報を、ユーザにとって適切な音声で提示することができる音声情報提示装置を提供することである。

本発明は、ユーザの音声を取得し、取得したユーザの音声の基本周波数を検出するとともに、ユーザの性別を識別し、ユーザが女性であると識別された場合に、ユーザの音声の基本周波数を男性の一般的な基本周波数の周波数帯域にシフトさせることにより、ユーザの音声を変更して、情報提示用音声を生成し、ユーザが男性であると識別された場合に、ユーザの音声の基本周波数を女性の一般的な基本周波数の周波数帯域にシフトさせることにより、ユーザの音声を変更して、情報提示用音声を生成し、生成した情報提示用音声をユーザに提示することで、上記課題を解決する。

本発明によれば、ユーザの音声に基づく情報提示用音声を生成することができ、これにより、ユーザに提示する情報を、ユーザにとって適切な音声で提示することができる。

第１実施形態に係る情報提示装置の構成図である。音声データベースに格納されているテーブルの一例を示す図である。第１実施形態に係る情報提示用音声の生成処理を示すフローチャートである。図２に示す音声データベースに格納されているテーブルにおいて、情報提示用音声の音声データを変更した後のテーブルの一例を示す図である。本実施形態に係る情報提示装置の効果を説明するための図である。本実施形態に係る情報提示装置の効果を説明するための図である。音声合成機能により音声合成された情報提示用音声の音声データを含む音声データベースのテーブルの一例を示す図である。第３実施形態に係る情報提示装置の構成図である。第４実施形態に係る情報提示装置の構成図である。

以下、本発明の実施形態を図面に基づいて説明する。なお、本実施形態に係る情報提示装置は、例えば、車両に搭載されるナビゲーション装置などであり、本実施形態においては、情報提示装置を車両に適用する場合を例示して説明する。

≪第１実施形態≫
図１は、第１実施形態に係る情報提示装置の構成を示す図である。図１に示すように、第１実施形態に係る情報提示装置１００は、マイク１１０と、制御装置１２０と、音声データベース１３０と、スピーカ１４０とを備えている。

マイク１１０は、車室内に設置され、車室内においてユーザが発話した発話音声を集音する。また、マイク１１０は、集音した発話音声（アナログ信号）を、マイク１１０が備えるＡ／Ｄコンバータ（不図示）により音声データ（デジタル信号）に変換し、変換した音声データを制御装置１２０に送信する。

制御装置１２０は、マイク１１０から送信されたユーザの音声に基づく音声データを取得し、取得した音声データに基づいて、ユーザに提示するための情報提示用音声の音声データを生成する。制御装置１２０は、情報提示用音声の音声データを生成するためのプログラムが格納されたＲＯＭ（Read Only Memory）と、このＲＯＭに格納されたプログラムを実行する動作回路としてのＣＰＵ（Central Processing Unit）と、アクセス可能な記憶装置として機能するＲＡＭ（Random Access Memory）と、を備える。なお、動作回路としては、ＣＰＵに代えて又はこれとともに、ＭＰＵ（Micro Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）などを用いることができる。

そして、制御装置１２０は、ＲＯＭに格納されたプログラムをＣＰＵにより実行することにより、マイク１１０から音声データを取得する取得機能、ユーザの音声の基本周波数を検出する基本周波数検出機能、ユーザの性別を識別する性別識別機能、情報提示用音声の音声データを生成する情報提示用音声生成機能、情報提示用音声がユーザに提示された頻度を検出する提示頻度検出機能、および情報提示用音声を変更する情報提示用音声変更機能を実現する。以下に、制御装置１２０が有する各機能について説明する。

制御装置１２０の取得機能は、マイク１１０から送信されたユーザの音声に基づく音声データを取得する。

制御装置１２０の基本周波数検出機能は、取得機能により取得された音声データに基づいて、ユーザの音声の基本周波数を検出する。ここで、基本周波数とは、音声周波数の調波成分の中で最も低い周波数であり、人間の声帯振動の基本振動数と一致することから、音の高さの物理的特徴といわれている。基本周波数検出機能は、例えば、取得機能により取得された音声データを、高速フーリエ変換（ＦＦＴ）により解析することにより、基本周波数を検出することができる。

制御装置１２０の性別識別機能は、基本周波数検出機能により検出されたユーザの音声の基本周波数に基づいて、音声データに係るユーザの性別が男性であるか、あるいは、女性であるかを識別する。例えば、男性の一般的な基本周波数の周波数帯域が１００Ｈｚ前後（例えば、８０Ｈｚ〜１２０Ｈｚの周波数帯域）であり、女性の一般的な基本周波数の周波数帯域が２００Ｈｚ前後（例えば、１８０Ｈｚ〜２２０Ｈｚの周波数帯域）であり、基本周波数検出機能により検出された基本周波数が１００Ｈｚである場合、性別識別機能は、音声データに係るユーザの性別は男性であると識別することができ、基本周波数検出機能により検出された基本周波数が２００Ｈｚである場合、性別識別機能は、音声データに係るユーザの性別は女性であると識別することができる。

制御装置１２０の情報提示用音声生成機能は、ユーザの音声に基づく音声データに基づいて、情報提示用音声の音声データを生成する。具体的には、情報提示用音声生成機能は、性別識別機能により音声データに係るユーザの性別が男性であると識別された場合に、ユーザの発話音声に基づく音声データにおいて、ユーザの音声の基本周波数を、女性の一般的な基本周波数の周波数帯域（例えば、１８０〜２２０Ｈｚの周波数帯域）にシフトさせることにより、ユーザの発話音声に基づく音声データをシフトさせた基本周波数に基づいて変換し、情報提示用音声の音声データを生成する。ここで、男性の一般的な基本周波数が１００Ｈｚ前後であり、女性の一般的な基本周波数が２００Ｈｚ前後である場合、男性の一般的な基本周波数と、女性の一般的な基本周波数とは、約１００Ｈｚの差がある。そのため、情報提示用音声生成機能は、性別識別機能により音声データに係るユーザの性別が男性と識別された場合に、ユーザの発話音声に基づく音声データにおいて、ユーザの音声の基本周波数を、女性の一般的な基本周波数の周波数帯域側（高周波数帯域側）に１００Ｈｚシフトさせることにより、ユーザの発話音声に基づく音声データをシフトさせた基本周波数に基づいて変換し、情報提示用音声の音声データを生成する。

また、情報提示用音声生成機能は、性別識別機能により音声データに係るユーザの性別が女性であると識別された場合に、ユーザの発話音声に基づく音声データにおいて、ユーザの音声の基本周波数を、男性の一般的な基本周波数の周波数帯域（例えば、８０〜１２０Ｈｚの周波数帯域）にシフトさせることにより、ユーザの発話音声に基づく音声データをシフトさせた基本周波数に基づいて変換し、情報提示用音声の音声データを生成する。具体的に、情報提示用音声生成機能は、性別識別機能により音声データに係るユーザの性別が女性であると識別された場合に、ユーザの発話音声に基づく音声データにおいて、ユーザの音声の基本周波数を男性の一般的な基本周波数の周波数帯域側（低周波数帯域側）に１００Ｈｚシフトさせることにより、ユーザの発話音声に基づく音声データをシフトさせた基本周波数に基づいて変換し、情報提示用音声の音声データを生成する。

制御装置１２０の提示頻度検出機能は、スピーカ１４０により情報提示用音声が提示された頻度を、提示頻度として検出する。提示頻度検出機能により検出される提示頻度としては、例えば、情報提示用音声が提示された回数、または情報提示用音声が提示された時間の長さなどが挙げられる。なお、提示頻度検出機能により提示頻度を検出する方法は、特に限定されないが、例えば、情報提示用音声が提示された時刻や時間の長さなどの情報を時系列に沿って履歴情報として記憶しておき、この履歴情報に基づいて、現在の基本周波数で情報提示用音声がユーザに提示された回数をカウントし、または現在の基本周波数で情報提示用音声がユーザに提示された時間の長さを積算することにより、情報提示用音声の提示頻度を検出することができる。

制御装置１２０の情報提示用音声変更機能は、提示頻度検出機能により検出された提示頻度が所定値以上となった場合、音声データベース１３０に記憶されている情報提示用音声の基本周波数を所定幅、例えば５Ｈｚシフトさせることにより、情報提示用音声の音声データを変更する。なお、情報提示用音声変更機能により情報提示用音声の音声データを変更する方法については、後述する。

音声データベース１３０は、図２に示すように、情報提示用音声に関するテーブルを格納している。ここで、図２は、音声データベース１３０に格納されているテーブルの一例を示す図である。図２に示すように、音声データベース１３０には、ユーザに提示する音声のテキスト情報と、ユーザの性別情報と、マイク１１０を介して取得されたユーザの発話音声に基づく音声データと、制御装置１２０により生成された情報提示用音声の音声データと、情報提示用音声の音声データが記憶されているか否かを示す登録情報と、が格納されている。なお、図２においては、ユーザの発話音声に基づく音声データと情報提示用音声の音声データとについては、各音声データにおける基本周波数のみを示している。

テキスト情報には、図２に示すように、例えば、『おはようございます』や『こんにちは』などの挨拶に関するテキスト情報や、『次の信号を左折です』、『右折です』、『目的地周辺です』などの経路案内を行うためのテキスト情報などが含まれている。これらのテキスト情報は、音声データベース１３０に予め記憶されているものである。

音声データベース１３０の性別情報には、制御装置１２０の性別識別機能により識別されたユーザの性別の情報が記憶される。図２に示す例において、例えば、制御装置１２０の取得機能により『おはようございます』とのユーザの発話音声に基づく音声データが取得され、制御装置１２０の性別識別機能により音声データに係るユーザの性別が男性であると識別された場合、『おはようございます』とのテキスト情報に対応するユーザの性別情報には、図２に示すように、『男性』との情報が記憶される。

また、図２に示すように、音声データベース１３０には、制御装置１２０の取得機能により取得されたユーザの発話音声に基づく音声データ、および制御装置１２０の情報提示用音声生成機能により生成された情報提示用音声の音声データが記憶される。また、ユーザの発話音声に基づく音声データ、および情報提示用音声の音声データが記憶される際には、これら音声データにおける基本周波数の情報も記憶される。さらに、情報提示用音声の音声データが音声データベース１３０に記憶された場合に、音声データベース１３０の登録情報に、情報提示用音声の音声データが音声データベース１３０に記憶されていること示す情報、例えば、『○』が記憶される。なお、図２に示す例では、『こんにちは』とのテキスト情報、および『目的地周辺です』とのテキスト情報について、ユーザの性別情報、ユーザの発話音声に基づく音声データ、および情報提示用音声の音声データは記憶されておらず、また、情報提示用音声の音声データは記憶されていないため、登録情報も記憶されていない。

スピーカ１４０は、音声データベース１３０に記憶されている情報提示用音声の音声データ（デジタル信号）を、スピーカ１４０に備えるＤ／Ａコンバータ（不図示）により情報提示用音声（アナログ信号）に変換し、変換した情報提示用音声を、アンプ（不図示）を介して出力することで、ユーザに情報提示用音声を提示する。

次いで、図３を参照して、本実施形態に係る情報提示用音声の生成処理について説明する。図３は、本実施形態に係る情報提示用音声の生成処理を示すフローチャートである。

まず、ステップＳ１０１では、制御装置１２０の取得機能により、マイク１１０により入力された音声に基づく音声データの取得が行われる。なお、取得機能により取得される音声データは、車室内に設置されたマイク１１０から入力された音声に基づくものであり、マイク１１０から入力された音声を、マイク１１０が備えるＡ／Ｄコンバータにより、音声データに変換したものである。

ステップＳ１０２では、制御装置１２０の情報提示用音声生成機能により、ステップＳ１０１で取得した音声データが、ユーザの発話音声に基づく音声データであるか否かの判断が行われる。具体的には、情報提示用音声生成機能は、マイク１１０から入力された音声に基づいて、音声データの平均パワーと瞬間パワーとを算出し、算出した音声データの平均パワーと瞬間パワーとに基づいて、ステップＳ１０１で取得した音声データが、ユーザの発話音声に基づく音声データであるか否かを判断する。すなわち、情報提示用音声生成機能は、算出した音声データの瞬間パワーが平均パワーよりも所定値以上大きい場合は、ステップＳ１０１で取得した音声データはユーザの発話音声に基づく音声データであると判断し、一方、算出した音声データの瞬間パワーが平均パワーよりも所定値以上大きくない場合は、ステップＳ１０１で取得した音声データは、ユーザの発話音声に基づく音声データではないと判断する。ステップＳ１０１で取得した音声データが、ユーザの発話音声に基づく音声データであると判断された場合はステップＳ１０３に進み、一方、ステップＳ１０１で取得した音声データが、ユーザの発話音声に基づく音声データではないと判断された場合は、ステップＳ１０１に戻る。

ステップＳ１０３では、情報提示用音声生成機能により、ステップＳ１０１で取得した音声データのテキスト情報が、音声データベース１３０に記憶されているか否かの判断が行われる。例えば、情報提示用音声生成機能は、ステップＳ１０１で取得した音声データについて音声認識を行い、該音声認識の結果に基づいて、ステップＳ１０１で取得した音声データのテキスト情報と、音声データベース１３０に予め記憶されているテキスト情報とを比較する。そして、情報提示用音声生成機能は、該比較の結果に基づいて、ステップＳ１０１で取得した音声データのテキスト情報が、音声データベース１３０に記憶されているか否かを判断する。具体的には、図２に示すように、音声データベース１３０に『おはようございます』、『こんにちは』、『次の信号を左折です』、『右折です』、および『目的地周辺です』などのテキスト情報が予め記憶されている場合、情報提示用音声生成機能は、ステップＳ１０１で取得した音声データのテキスト情報が、音声データベース１３０に記憶されている『おはようございます』、『こんにちは』、『次の信号を左折です』、『右折です』、または『目的地周辺です』などのテキスト情報に対応するものであるか否かを判断する。ステップＳ１０１で取得した音声データのテキスト情報が、音声データベース１３０に記憶されているテキスト情報に対応するものであると判断された場合は、ステップＳ１０４に進み、一方、ステップＳ１０１で取得した音声データに対応するテキスト情報が、音声データベース１３０に記憶されているテキスト情報に対応するものではないと判断された場合は、ステップＳ１０１に戻る。

ステップＳ１０４では、情報提示用音声生成機能により、ステップＳ１０１で取得した音声データに基づく情報提示用音声の音声データが、音声データベース１３０に記憶されているか否かの判断が行われる。例えば、図２に示すように、音声データベース１３０は、情報提示用音声の音声データが音声データベース１３０に記憶されているかを示す登録情報を有しており、情報提示用音声生成機能は、この登録情報を参照することにより、各テキスト情報に対応する情報提示用音声の音声データが、音声データベース１３０に記憶されているか否かを判断することができる。例えば、図２に示す例では、『おはようございます』とのテキスト情報に対応する登録情報が『○』となっており、『おはようございます』とのテキスト情報に対応する情報提示用音声の音声データが音声データベース１３０に記憶されている。そのため、情報提示用音声生成機能は、『おはようございます』とのテキスト情報に対応する登録情報を参照して、『おはようございます』とのテキスト情報に対応する情報提示用音声の音声データが、音声データベース１３０に記憶されていると判断することができる。一方、図２に示す例では、『こんにちは』とのテキスト情報に対応する登録情報が記憶されていない。そのため、情報提示用音声生成機能は、『こんにちは』とのテキスト情報に対応する登録情報を参照して、『こんにちは』とのテキスト情報に対応する情報提示用音声の音声データが、音声データベース１３０に記憶されていないと判断することができる。ステップＳ１０１で取得した音声データに基づく情報提示用音声の音声データが、音声データベース１３０に記憶されていないと判断された場合はステップＳ１０５に進み、一方、ステップＳ１０１で取得した音声データに基づく情報提示用音声の音声データが、音声データベース１３０に記憶されていると判断された場合は、ステップＳ１０８に進む。

ステップＳ１０４において、ステップＳ１０１で取得した音声データに基づく情報提示用音声の音声データが、音声データベース１３０に記憶されていないと判断された場合は、ステップＳ１０１で取得した音声データに基づく情報提示用音声の音声データを生成するために、ステップＳ１０５〜ステップＳ１０７の処理が行われる。

まず、ステップＳ１０５では、制御装置１２０の基本周波数検出機能により、ステップＳ１０１で取得した音声データに基づいて、ユーザの音声の基本周波数の検出が行われる。例えば、本実施形態において、基本周波数検出機能は、ステップＳ１０１で取得した音声データを、例えば、高速フーリエ変換（ＦＦＴ）により解析することにより、ユーザの音声の基本周波数を検出することができる。検出されたユーザの音声の基本周波数は、ステップＳ１０１で取得した音声データとともに、音声データベース１３０に記憶される。例えば、図２に示すように、ステップＳ１０１において『おはようございます』とのテキスト情報に対応する音声データが取得された場合、基本周波数検出機能は、この音声データに基づいてユーザの音声の基本周波数を検出し、検出された基本周波数が、例えば、１００Ｈｚであった場合に、図２に示すように、『おはようございます』とのテキスト情報に対応する音声データと、この音声データに基づいて検出された基本周波数である１００Ｈｚとを、『おはようございます』とのテキスト情報に対応付けて、音声データベース１３０に記憶する。

ステップＳ１０６では、制御装置１２０の性別識別機能により、ステップＳ１０５で検出された基本周波数に基づいて、ステップＳ１０１で取得した音声データに係るユーザの性別の識別が行われる。本実施形態において、性別識別機能は、例えば、ステップＳ１０５で検出した基本周波数が、女性の一般的な基本周波数の周波数帯域に含まれる場合には、ステップＳ１０１で取得した音声データに係るユーザの性別は女性であると識別し、一方、ステップＳ１０５で検出した基本周波数が、男性の一般的な基本周波数の周波数帯域に含まれる場合には、ステップＳ１０１で取得した音声データに係るユーザの性別は男性であると識別することができる。そして、識別されたユーザの性別の情報は、音声データベース１３０に記憶される。例えば、男性の一般的な基本周波数の周波数帯域が１００Ｈｚ前後（例えば、８０Ｈｚ〜１２０Ｈｚの周波数帯域）である場合に、図２に示すように、ステップＳ１０１において『おはようございます』とのテキスト情報に対応する音声データが取得され、ステップＳ１０５においてこの音声データにおける基本周波数が１００Ｈｚとして検出された場合には、この音声データおける基本周波数である１００Ｈｚが男性の一般的な基本周波数の周波数帯域（例えば、８０Ｈｚ〜１２０Ｈｚの周波数帯域）に含まれるため、性別識別機能は、ステップＳ１０１で取得した音声データに係るユーザの性別は『男性』であると識別し、識別されたユーザの性別である『男性』との情報を、図２に示すように、『おはようございます』とのテキスト情報に対応づけて、音声データベース１３０に記憶する。

次に、ステップＳ１０７では、情報提示用音声生成機能により、ステップＳ１０１で取得した音声データに基づいて、情報提示用音声の音声データの生成が行われる。具体的には、情報提示用音声生成機能は、ステップＳ１０６でユーザの性別が男性であると識別された場合に、ステップＳ１０１で取得した音声データにおける基本周波数を、女性の一般的な基本周波数の周波数帯域にシフトさせることにより、ステップＳ１０１で取得した音声データを変換して、情報提示用音声の音声データを生成する。ここで、男性の一般的な基本周波数の周波数帯域が１００Ｈｚ前後であり、女性の一般的な基本周波数の周波数帯域が２００Ｈｚ前後である場合、男性の一般的な基本周波数と、女性の一般的な基本周波数とは、約１００Ｈｚの差がある。本実施形態において、情報提示用音声生成機能は、ステップＳ１０６でユーザの性別が男性であると識別された場合に、ステップＳ１０１で取得した音声データの基本周波数を、女性の一般的な基本周波数の周波数帯域側（高周波数帯域側）に上記差分の１００Ｈｚだけシフトさせることにより、ステップＳ１０１で取得した音声データにおける基本周波数を女性の一般的な基本周波数の周波数帯域にシフトさせるものである。そして、情報提示用音声生成機能は、ステップＳ１０１で取得した音声データを、シフトさせた基本周波数に基づいて変換し、情報提示用音声の音声データを生成する。

例えば、図２に示すように、ステップＳ１０１において『おはようございます』とのテキスト情報に対応する音声データが取得され、ステップＳ１０５において『おはようございます』とのテキスト情報に対応する音声データにおける基本周波数が１００Ｈｚとして検出された場合であって、ステップＳ１０６でユーザの性別が男性であると識別された場合に、情報提示用音声生成機能は、この音声データにおける基本周波数を、女性の一般的な基本周波数の周波数帯域側（高周波数帯域側）に１００Ｈｚシフトさせる。これにより、情報提示用音声生成機能は、ステップＳ１０１で取得した音声データを、シフトさせた基本周波数に基づいて変換し、基本周波数が２００Ｈｚの情報提示用音声の音声データを生成する。また、同様に、情報提示用音声生成機能は、図２に示すように、『次の信号を左折です』とのテキスト情報に対応する基本周波数が１０２Ｈｚの音声データにおいて、基本周波数を、女性の一般的な基本周波数の周波数帯域側（高周波数帯域側）に１００Ｈｚシフトさせることにより、基本周波数が２０２Ｈｚの情報提示用音声の音声データを生成し、また、『右折です』とのテキスト情報に対応する基本周波数が１０１Ｈｚの音声データにおいて、基本周波数を、女性の一般的な基本周波数の周波数帯域側（高周波数帯域側）に１００Ｈｚシフトさせることにより、基本周波数が２０１Ｈｚの情報提示用音声の音声データを生成する。

一方、情報提示用音声生成機能は、ステップＳ１０６においてユーザの性別が女性であると識別された場合に、ステップＳ１０１で取得した音声データにおける基本周波数を、男性の一般的な基本周波数の周波数帯域にシフトさせることにより、ステップＳ１０１で取得した音声データを変換して、情報提示用音声の生成を行う。具体的には、情報提示用音声生成機能は、ステップＳ１０６においてユーザの性別が女性であると識別された場合に、ステップＳ１０１で取得した音声データにおける基本周波数を、男性の一般的な基本周波数の周波数帯域側（低周波数帯域側）に上記差分の１００Ｈｚだけシフトさせる。これにより、情報提示用音声生成機能は、ステップＳ１０１で取得した音声データを、シフトさせた基本周波数に基づいて変換し、情報提示用音声の音声データを生成する。例えば、ステップＳ１０５において、ステップＳ１０１で取得した音声データにおける基本周波数が２１０Ｈｚとして検出され、ステップＳ１０６において、ユーザの性別が女性であると識別された場合に、情報提示用音声生成機能は、この音声データにおける基本周波数を、男性の一般的な基本周波数の周波数帯域側（高周波数帯域側）に１００Ｈｚシフトさせることにより、ステップＳ１０１で取得した音声データを変換し、基本周波数が１１０Ｈｚの情報提示用音声の音声データを生成する。

そして、このように生成された情報提示用音声は、図２示すように、音声データベース１３０に記憶される。なお、ステップＳ１０７で情報提示用音声が生成された後は、ステップＳ１０１に戻り、上述した情報提示用音声の生成処理を繰り返す。

一方、ステップＳ１０４で、ステップＳ１０１で取得した音声データに基づく情報提示用音声の音声データが、音声データベース１３０に記憶されていると判断された場合は、ステップＳ１０８に進む。ステップＳ１０８では、制御装置１２０の提示頻度検出機能により、スピーカ１４０を介して情報提示用音声がユーザに提示された提示頻度の検出が行われる。例えば、提示頻度検出機能は、情報提示用音声がユーザに提示された時刻や時間の長さの情報を時系列に沿って記憶した履歴情報に基づいて、現在の基本周波数の情報提示用音声が提示された回数をカウントし、または時間の長さを累積することにより、情報提示用音声の頻度を提示頻度として検出することができる。そして、続くステップＳ１０９では、制御装置１２０の情報提示用音声変更機能により、ステップＳ１０８で検出された提示頻度が所定値以上であるか否かの判断が行われる。情報提示用音声の提示頻度が所定値以上であると判断された場合はステップＳ１１０に進み、一方、情報提示用音声の提示頻度が所定値未満であると判断された場合は、ステップＳ１０１に戻り、この情報提示用音声の生成処理を繰り返す。

ステップＳ１１０では、情報提示用音声変更機能により、音声データベース１３０に記憶されている情報提示用音声の音声データの変更が行われる。具体的に、情報提示用音声変更機能は、音声データベース１３０に記憶されている情報提示用音声の音声データにおいて、基本周波数を所定幅シフトさせることにより、情報提示用音声の音声データを、シフトさせた基本周波数に基づくものに変換する。例えば、図２に示すように、『おはようございます』とのテキスト情報に対応する基本周波数が２００Ｈｚの情報提示用音声の音声データが記憶されている場合、情報提示用音声変更機能は、この『おはようございます』とのテキスト情報に対応する情報提示用音声の音声データにおいて、基本周波数を、高周波数帯域側に所定幅、例えば５Ｈｚシフトさせる。これにより、情報提示用音声変更機能は、図２に示す『おはようございます』とのテキスト情報に対応する基本周波数が２００Ｈｚの情報提示用音声の音声データを、図４に示すように、基本周波数が２０５Ｈｚの情報提示用音声の音声データに変換することができる。また、同様に、情報提示用音声変更機能は、図２に示す『次の信号を左折です』とのテキスト情報に対応する基本周波数が２０２Ｈｚの情報提示用音声の音声データにおいて、基本周波数を高周波数帯域側に５Ｈｚシフトさせることにより、基本周波数が２０２Ｈｚの情報提示用音声の音声データを、基本周波数が２０７Ｈｚの情報提示用音声の音声データに変換し、さらに、『右折です』とのテキスト情報に対応する基本周波数が２０１Ｈｚの情報提示用音声の音声データにおいて、基本周波数を高周波数帯域側に５Ｈｚシフトさせることにより、基本周波数が２０１Ｈｚの情報提示用音声の音声データを、基本周波数が２０６Ｈｚの情報提示用音声の音声データに変換する。なお、図４は、図２に示す音声データベース１３０にテーブルにおいて、情報提示用音声の音声データを変更した後の音声データベース１３０のテーブルの一例を示す図である。

ステップＳ１１０で情報提示用音声の音声データを変更した後は、ステップＳ１０１に戻り、この情報提示用音声の生成処理を繰り返す。

このように、本実施形態に係る情報提示用音声の生成処理では、ユーザの発話音声の音声データに基づいて、情報提示用音声の音声データが生成され、生成された情報提示用音声の音声データが、音声データベース１３０に記憶される。そして、情報提示装置１００は、音声データベース１３０に記憶された情報提示用音声の音声データに基づいて、スピーカ１４０を介して、情報提示用音声を出力することができ、この情報提示用音声をユーザに提示することができる。

以上のように、本実施形態に係る情報提示装置１００によれば、ユーザの発話音声に基づく音声データに基づいて、情報提示用音声の音声データが生成され、音声データベース１３０に記憶される。そして、音声データベース１３０に記憶されている情報提示用音声の音声データに基づいて、情報提示用音声が、スピーカ１４０を介してユーザに提示される。このように、本実施形態では、ユーザに提示される情報提示用音声の音声データをユーザの発話音声に基づく音声データに基づいて生成することにより、ユーザに提示される情報提示用音声を、ユーザが発話する速さ、およびリズムとすることができため、ユーザにとって聞き取りやすい情報提示用音声をユーザに提示することができる。また、ユーザに提示される情報提示用音声の音声データを、ユーザが骨伝導を介して普段聞いているユーザ自身の音声に基づいて生成することで、ユーザが骨伝導を経て普段聞いているユーザ自身の声を聞き飽きることがないように、ユーザが情報提示用音声を聞き飽きることを低減することができる。

ここで、図５および図６は、本実施形態に係る情報提示用音声の効果を説明するための図である。図５および図６では、各１０人のユーザ（被験者）のそれぞれの発話音声に基づく情報提示用音声である１０種類の音声刺激を用意し、各１０人のユーザ（被験者）に、これら１０種類の音声刺激を、それぞれ一対一で比較させ、どちらの音声が好きか回答させた結果を示している（一対比較実験）。

この一対比較実験において、ユーザ自身の音声に基づく情報提示用音声と、他のユーザの音声に基づく９種類の情報提示用音声とを、それぞれ一対一で比較した結果、ユーザ自身の音声に基づく情報提示用音声をユーザが好む度合を「選好度」として算出した。具体的に、「選好度」とは、ユーザが、ユーザ自身の音声に基づく情報提示用音声を、他のユーザの音声に基づく情報提示用音声よりも好む度合であり、例えば、ユーザが、ユーザ自身の音声に基づく情報提示用音声を、他人の音声に基づく９種類の全ての情報提示用音声よりも好む場合の選好度は、９／９、すなわち１．０となる。また、反対に、ユーザが、ユーザ自身の音声に基づく情報提示用音声を、他のユーザの音声に基づく９種類の全ての情報提示用音声よりも好まない場合の選好度は、０／９、すなわち０となる。そして、ユーザが、ユーザ自身の音声に基づく情報提示用音声を、他のユーザの音声に基づく９種類の情報提示用音声のうち４種類の情報提示用音声よりも好み、他のユーザの音声に基づく情報提示用音声の９種類のうち残りの５種類よりも好まない場合の選好度は、４／９、すなわち０．４４となる。

図５では、各１０人のユーザ（被験者）ごとに、挨拶、ナビゲーション音声、注意喚起、および警報を内容とする４種類の音声種別ごとの選好度を算出し、算出した選好度を棒グラフで示している。例えば、図５には、挨拶を内容した情報提示用音声について、各１０人のユーザ（被験者）の選好度のデータを示しており、左から、順次、１番目のユーザ（被験者）の選好度のデータ、２番目のユーザ（被験者）の選好度のデータを示しており、同様に、３番目〜１０番目のユーザ（被験者）の選好度のデータもそれぞれ示している。また、挨拶を内容した情報提示用音声についての選好度のデータの右隣には、ナビゲーション音声を内容とする情報提示用音声についての選好度のデータを示している。ナビゲーション音声を内容とする情報提示用音声についての選好度のデータにおいても、挨拶を内容した情報提示用音声についての選好度のデータと同様に、左から、順次、１番目のユーザ（被験者）の選好度のデータ、２番目のユーザ（被験者）の選好度のデータを示しており、同様に、３番目〜１０番目のユーザ（被験者）の選好度のデータもそれぞれ示している。同様に、注意喚起を内容とする情報提示用音声についての選好度のデータ、および、警報を内容とする情報提示用音声についての選好度のデータについても、１番目〜１０番目のユーザ（被験者）の選好度のデータをそれぞれ示している。なお、図５においては、挨拶、ナビゲーション音声、注意喚起、および警報を内容とする情報提示用音声についての選好度のデータにおいて、１番目の選好度のデータは同じユーザ（被験者）の選好度のデータをそれぞれ示しており、２番目の選好度のデータは、１番目のユーザ（被験者）とは異なる別のユーザ（被験者）の選好度のデータをそれぞれ示している。同様に、挨拶、ナビゲーション音声、注意喚起、および警報を内容とする情報提示用音声についての各選好度のデータにおいて、３番目〜１０番目の選好度のデータは、それぞれ別のユーザ（被験者）の選好度のデータをそれぞれ示している。

さらに、図５においては、図５に示す全ての選好度の平均値を、ＡＬ（アベレージレベル）として示している。図５に示す実験結果では、各ユーザがユーザ自身の音声に基づく情報提示用音声を好む選好度の平均値（ＡＬ）は、０．６３となった。さらに、図５においては、これらの１０種類の音声刺激を一対一で比較した場合に、一方の音声が選択される偶発的な確率をＣＬ（チャンスレベル）として示しており、その値は１／２、すなわち０．５となる。このように、各ユーザがユーザ自身の音声に基づく情報提示用音声を好む選好度の平均値（ＡＬ）は０．６３であり、ＣＬの０．５よりも大きな値になっていることから、ユーザは、ユーザ自身の音声に基づく情報提示用音声を好む傾向にあるといえる。具体的には、ＡＬ（アベレージレベル）である０．６３と、ＣＬ（チャンスレベル）である０．５から、下記式（１）に示すように、ユーザがユーザ自身の音声に基づく情報提示用音声を好む度合は、他人の音声に基づく情報提示用音声を好む度合と比べて、２６％上昇する結果となった。
｛（０．６３−０．５）／０．５｝×１００＝２６（％）・・・（１）
本実施形態では、このように、ユーザの音声に基づく情報提示用音声をユーザに提示することにより、ユーザが気に入りやすい情報提示用音声をユーザに提示することができる。

また、図５に示す実験結果では、この一対比較実験で利用した１０種類の音声刺激の中に、自分の音声に基づく情報提示用音声が含まれていることに気付いたユーザ（被験者）の選好度のデータと、自分の音声に基づく情報提示用音声が含まれていることに気付かなかったユーザのユーザ（被験者）の選好度のデータとを併せて表示している。一方、図６では、図５に示す実験結果のうち、この一対比較実験で利用した１０種類の音声刺激の中に、自分の音声に基づく情報提示用音声が含まれていることに気付かなかった６人のユーザ（被験者）の選好度のデータのみを表示している。

図６に示すように、１０種類の音声刺激の中に自分の音声に基づく情報提示用音声が含まれていることに気付かなかったユーザ（被験者）の選好度の平均値（ＡＬ）は０．７となり、図５における選好度の平均値（ＡＬ）である０．６３よりも大きな値となった。このことから、ユーザに提示される情報提示用音声が、ユーザ自身の音声に基づくものであると気付かなかった場合には、ユーザ自身の音声に基づく情報提示用音声を好む傾向がより強くなるといえる。具体的には、ＡＬ（アベレージレベル）である０．７と、ＣＬ（チャンスレベル）である０．５から、下記式（２）に示すように、ユーザに提示される情報提示用音声が、ユーザ自身の音声に基づくものであると気付かなかった場合には、ユーザが、ユーザ自身の音声に基づく情報提示用音声を好む度合は、他のユーザの音声に基づく情報提示用音声を好む度合と比べて、４０％上昇する結果となった。
｛（０．７−０．５）／０．５｝×１００＝４０（％）・・・（２）
本実施形態では、このように、ユーザの音声に基づいて情報提示用音声を生成する際に、ユーザの性別を識別し、ユーザの音声を異性の音声の周波数となるように、ユーザの音声を変更して、情報提示用音声を生成することにより、ユーザがより気に入りやすい情報提示用音声をユーザに提示することができる。

加えて、本実施形態に係る情報提示装置１００によれば、スピーカ１４０を介して情報提示用音声がユーザに提示された頻度を提示頻度として検出し、検出した提示頻度が所定値以上の場合に、音声データベース１３０に記憶されている情報提示用音声の音声データにおける基本周波数を所定幅シフトさせることにより、音声データベース１３０に記憶されている情報提示用音声を、シフトさせた基本周波数に基づくものに変更する。これにより、制御装置１２０からスピーカ１４０を介して情報提示用音声が、所定値以上、ユーザに提示された場合であっても、情報提示用音声について、聴感上の印象を変えることができるため、ユーザが情報提示用音声を聞き飽きることを有効に防止することができる。

≪第２実施形態≫
続いて、第２実施形態に係る情報提示装置について説明する。第２実施形態に係る情報提示装置１００は、図１に示す第１実施形態に係る情報提示装置１００と同様の構成を有しており、以下に説明する点以外は、第１実施形態に係る情報提示装置１００と同様の動作を行う。

第２実施形態における情報提示装置１００は、図１に示す第１実施形態に係る情報提示装置１００と同様に、マイク１１０、制御装置１２０、音声データベース１３０、およびスピーカ１４０を備えているが、第２実施形態に係る情報提示装置１００では、制御装置１２０が、図１に示す制御装置１２０が有する各機能に加えて、音声合成を行うための音声合成機能を有する点で、第１実施形態に係る情報提示装置１００と異なっている。制御装置１２０の音声合成機能は、例えば、音声データベース１３０に記憶されているユーザの発話音声に基づく音声データを用いて、ユーザが発話していない任意のテキスト情報に応じた音声データの合成を行う。なお、音声合成機能による音声合成方法は、特に限定されず、例えば、波形接続方式やＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）など既知の音声合成方法を用いることができる。

ここで、図７は、音声合成機能により音声合成された情報提示用音声を含む音声データベース１３０のテーブルの一例を示す図である。音声合成機能は、例えば、図７に示すように、明日の天気予報に関する情報をユーザに提示するため、音声データベース１３０に記憶されているユーザの発話音声に基づく音声データを用いて、ユーザが発話していない『明日の神奈川県東部の天気は晴れのち曇りです』とのテキスト情報に対応する音声データを合成する。また、音声合成機能は、音声合成を行う際に、性別識別機能によりユーザの性別が男性であると識別されている場合は、合成された音声データにおいて、基本周波数が、女性の一般的な基本周波数となるように音声合成を行い、性別識別機能によりユーザの性別が女性であると識別されている場合は、合成された音声データにおいて、基本周波数が、男性の一般的な基本周波数となるように音声合成を行う。

そして、音声合成機能は、例えば、明日の天気予報に関する情報をユーザに提示する際に、図７に示すように、『明日の神奈川県東部の天気は晴れのち曇りです』との情報提示用音声の音声データを音声合成し、合成した情報提示用音声の音声データを音声データベース１３０に記憶する。これにより、スピーカ１４０を介して『明日の神奈川県東部の天気は晴れのち曇りです』との情報提示用音声がユーザに提示されることとなる。

以上のように、第２実施形態に係る情報提示装置１００によれば、制御装置１２０の音声合成機能により、ユーザの発話音声に基づく音声データに基づいて、ユーザが実際に発話していないテキスト情報に対応する情報提示用音声の音声データを音声合成する。これにより、第２実施形態に係る情報提示装置１００によれば、例えば、図７に示すように、明日の天気に関する『明日の神奈川県東部の天気は晴れのち曇りです』などの任意のテキスト情報を、ユーザの発話音声に基づく情報提示用音声で提示することができるため、多種多様のテキスト情報を、ユーザが気に入りやすい情報提示用音声で、ユーザに提示することができる。

≪第３実施形態≫
続いて、図８を用いて、第３実施形態に係る情報提示装置について説明する。図８は、第３実施形態に係る情報提示装置１００ａの構成図である。第３実施形態に係る情報提示装置１００ａは、以下に説明する点以外は、第１実施形態に係る情報提示装置１００と同様の構成を有し、第１実施形態に係る情報提示装置１００と同様の動作を行う。第３実施形態における情報提示装置１００は、図１に示す第１実施形態に係る情報提示装置１００と同様に、マイク１１０、制御装置１２０、音声データベース１３０、およびスピーカ１４０に加え、通信装置１５０をさらに備える。

通信装置１５０は、車外に設置されたサーバや通信端末（不図示）から、インターネット回線を介して、車外において集音されたユーザの発話音声の音声データを受信し、受信したユーザの発話音声の音声データを、制御装置１２０に送信する。

次に、第３実施形態に係る情報提示用音声の生成処理について説明する。第３実施形態に係る情報提示用音声の生成処理は、ステップＳ１０１において、マイク１１０を介して入力された音声に基づく音声データに加えて、通信装置１５０により受信された音声データをも取得する点以外は、図３に示す第１実施形態に係る情報提示用音声の生成処理と同様に行われる。

すなわち、第３実施形態に係る情報提示用音声の生成処理では、まず、ステップＳ１０１において、制御装置１２０の取得機能により音声データを取得する際に、車室内においてマイク１１０を介して入力された音声に基づく音声データに加えて、通信装置１５０により受信された音声データ、すなわち、車外において集音された音声に基づく音声データを取得する。

そして、第３実施形態に係る情報提示用音声の生成処理では、情報提示用音声の音声データを生成するために、マイク１１０を介して入力された音声に基づく音声データ、および通信装置１５０により受信された音声データを用いて、ステップＳ１０２〜ステップＳ１１０の処理が行われる。なお、第３実施形態に係る情報提示用音声の生成処理では、ステップＳ１０２〜ステップＳ１１０においては、図３に示す第１実施形態に係る情報提示用音声の生成処理と同様であるため、説明は省略する。

以上のように、第３実施形態に係る情報提示装置１００ａは、車外において集音されたユーザの発話音声に基づく音声データを受信する通信装置１５０をさらに有し、マイク１１０を介して入力されたユーザの発話音声に基づく音声データと、通信装置１５０により受信されたユーザの発話音声に基づく音声データとを取得し、取得した音声データに基づいて、情報提示用音声を生成する。これにより、第３実施形態に係る情報提示装置１００ａでは、ユーザの発話音声を車外においても集音することができるため、様々な種類のユーザの発話音声に基づく音声データを数多く取得することができ、その結果、精度の高い情報提示用音声を数多く生成することができる。

≪第４実施形態≫
続いて、図９を用いて、第４実施形態に係る情報提示装置について説明する。図９は、第４実施形態に係る情報提示装置１００ｂの構成図である。第４実施形態に係る情報提示装置１００ｂは、以下に説明する点以外は、第１実施形態に係る情報提示装置１００と同様の構成を有し、第１実施形態に係る情報提示装置と同様の動作を行う。

図９に示すように、第４実施形態における情報提示装置１００ｂは、マイク１１０、制御装置１２０、音声データベース１３０、およびスピーカ１４０に加え、ユーザの顔部を撮像するためのカメラ１６０をさらに備えている。

カメラ１６０は、ユーザの顔部を撮像し、撮像したユーザの顔部の画像データを制御装置１２０に送信する。

次に、第４実施形態に係る情報提示用音声の生成処理について説明する。第４実施形態に係る情報提示用音声の生成処理は、ステップＳ１０６において、ステップＳ１０１で取得した音声データに係るユーザの性別を識別する際に、ステップＳ１０５で検出された基本周波数を用いることに加えて、カメラ１６０により撮像されたユーザの顔部の画像データを用いる点以外は、図３に示す第１実施形態に係る情報提示用音声の生成処理と同様に行われる。

第４実施形態に係る情報提示用音声の生成処理では、図３に示す第１実施形態に係る情報提示用音声の生成処理と同様に、ステップＳ１０１〜ステップＳ１０５の処理が行われる。すなわち、マイク１１０を介して音声データが取得され（ステップＳ１０１）、ステップＳ１０１で取得した音声データがユーザの発話音声に基づく音声データであり（ステップＳ１０２＝ＹＥＳ）、ステップＳ１０１で取得した音声データのテキスト情報が、音声データベース１３０に記憶されており（ステップＳ１０３＝ＹＥＳ）、さらに、ステップＳ１０１で取得した音声データに基づく情報提示用音声の音声データが音声データベース１３０に記憶されていない場合（ステップＳ１０４＝ＮＯ）に、ステップＳ１０１で取得した音声データにおいて、ユーザの音声の基本周波数が検出される（ステップＳ１０５）。

そして、続くステップＳ１０６では、制御装置１２０の性別識別機能により、ステップＳ１０５で検出されたユーザの音声の基本周波数に基づいて、ステップＳ１０１で取得した音声データに係るユーザの性別の識別が行われるとともに、カメラ１６０で撮像されたユーザの顔部の画像データに基づいて、ステップＳ１０１で取得した音声データに係るユーザの性別の識別が行われる。例えば、性別識別機能は、ユーザの顔部の画像データに基づいて、ユーザの肌色の明るさ、顔の形態、および唇の色などの特徴を検出し、検出した特徴に基づいて、ユーザの性別を識別することができる。例えば、性別識別機能は、ユーザの顔部の画像データに基づいて、ユーザの肌色が色白であり、顔部の形態に女性的な特徴が見られる場合は、ユーザの性別を女性であると識別することができ、また、ユーザの肌色が色白であり、唇に赤みを帯びている場合にも、ユーザの性別を女性であると識別することができる。

なお、第４実施形態に係る情報提示用音声の生成処理では、ステップＳ１０７〜ステップＳ１１０においては、図３に示す第１実施形態に係る情報提示用音声の生成処理と同様であるため、説明は省略する。

以上のように、第４実施形態に係る情報提示装置１００ｂは、ユーザの顔部を撮像するカメラ１６０をさらに備え、ステップＳ１０６において、ステップＳ１０１で取得した音声データに係るユーザの性別を識別する際に、ユーザの音声の基本周波数に加えて、カメラ１６０により撮像されたユーザの顔部の画像データを用いて、ユーザの性別を識別するものである。これにより、ステップＳ１０１で取得した音声データに係るユーザの性別の識別精度を高めることができ、ユーザにとって適切な情報提示用音声をユーザに提示することができる。

以上説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計変更や均等物をも含む趣旨である。

すなわち、本発明は、上述した実施形態に限られず、また、上述した第１〜４実施形態を組合せて実施しても良い。

また、上述した実施形態では、男性の一般的な基本周波数を１００Ｈｚ前後（例えば、８０Ｈｚ〜１２０Ｈｚ）、女性の一般的な基本周波数を２００Ｈｚ前後（１８０Ｈｚ〜２２０Ｈｚ）として例示しているが、男性の一般的な基本周波数、および女性の一般的な基本周波数は、この周波数帯域に限定されるものではない。例えば、男性の一般的な基本周波数の周波数帯域が１２０Ｈｚ〜１５０Ｈｚであってもよく、また、女性の一般的な基本周波数の周波数帯域が２４０Ｈｚ〜３００Ｈｚであってもよい。上述した実施形態によれば、男性の一般的な基本周波数と女性の一般的な基本周波数との差に応じて、ステップＳ１０１で取得した音声データにおける基本周波数をシフトさせることにより、情報提示用音声の音声データを生成することができるためである。

さらに、上述した実施形態では、例えば、男性の一般的な基本周波数と女性の一般的な基本周波数との差分だけ、ステップＳ１０１で取得した音声データにおける基本周波数をシフトさせることにより、情報提示用音声の音声データを生成しているが、この構成に限定されるものではない。例えば、ステップＳ１０１で取得した音声データに係るユーザの性別が男性と識別された場合に、ステップＳ１０１で取得した音声データにおける基本周波数と、女性の一般的な基本周波数との差分を算出し、ステップＳ１０１で取得した音声データにおける基本周波数を、女性の一般的な基本周波数の周波数帯域側に、算出した差分だけシフトさせることにより、情報提示用音声の音声データを生成する構成としてもよい。

また、上述した実施形態では、ステップＳ１０１で取得した音声データについて音声認識を行うことにより、ステップＳ１０１で取得した音声データが、音声データベース１３０に記憶されている音声データか判断し（ステップＳ１０３）、この音声データに基づいて情報提示用音声の音声データを生成しているが、例えば、車両の停車中などに、ユーザに提示するための音声のテキスト情報をユーザに発話させることにより、音声データベース１３０に記憶されているテキスト情報に対応する音声データを取得し、この音声データに基づいて、情報提示用音声の音声データを生成する構成としてもよい。

さらに、第３実施形態では、通信装置１５０により車外で集音された音声データを、インターネット回線を通じて受信しているが、この構成に限定されるものではなく、例えば、車外で集音された音声データを持ち運び可能な記憶媒体に記憶しておき、該記憶媒体に記憶させた音声データを、制御装置１２０に取得させる構成としてもよい。

加えて、上述した実施形態において、性別識別機能は、ユーザの音声の基本周波数や、ユーザの顔部を撮像した画像データに基づいて、ユーザの性別を識別しているが、この構成に加え、またはこの構成に替えて、性別識別機能は、例えば、ユーザの性別をユーザが入力するための入力スイッチを介して、ユーザに入力されたユーザの性別の情報に基づいて、ユーザの性別を識別する構成としてもよい。これにより、性別識別機能によるユーザの性別の識別精度を高めることができ、ユーザにとって適切な音声情報提示音声をユーザに提示することができる。

なお、上述した実施形態の制御装置１２０は本発明の取得手段、基本周波数検出手段、識別手段、第１生成手段、第２生成手段、提示頻度検出手段、変更手段、及び音声合成手段に、音声データベース１３０は本発明の保持手段に、スピーカ１４０は本発明の提示手段に、カメラ１６０は本発明の撮像手段に、それぞれ相当する。

１００〜１００ｂ…情報提示装置
１１０…マイク
１２０…制御装置
１３０…音声データベース
１４０…スピーカ
１５０…通信装置
１６０…カメラ

Claims

ユーザの音声を取得する取得手段と、
前記取得手段により取得されたユーザの音声を保持する保持手段と、
前記ユーザの音声に基づいて、前記ユーザの音声の基本周波数を検出する基本周波数検出手段と、
前記音声に係るユーザの性別を識別する識別手段と、
前記識別手段により、前記音声に係るユーザが女性であると識別された場合に、前記ユーザの音声において、前記基本周波数を男性の一般的な基本周波数の周波数帯域にシフトさせることにより、前記ユーザの音声を変更して、情報提示用音声を生成する第１生成手段と、
前記識別手段により、前記音声に係るユーザが男性であると識別された場合に、前記ユーザの音声において、前記基本周波数を女性の一般的な基本周波数の周波数帯域にシフトさせることにより、前記ユーザの音声を変更して、前記情報提示用音声を生成する第２生成手段と、
前記情報提示用音声を、前記音声に係るユーザに提示する提示手段と、
前記情報提示用音声のテキストをユーザが発声した場合に、前記提示手段により前記情報提示用音声がユーザに提示された頻度を検出する提示頻度検出手段と、
前記情報提示用音声がユーザに提示された頻度に応じて、前記情報提示用音声において、前記基本周波数を所定幅だけシフトさせることにより、前記情報提示用音声を変更する変更手段と、を有することを特徴とする音声情報提示装置。
請求項１に記載の音声情報提示装置であって、
前記取得手段は、前記音声情報提示装置が備える集音手段および／または外部に備えられた集音手段を介して、前記ユーザの音声を取得することを特徴とする音声情報提示装置。
請求項１または２に記載の音声情報提示装置であって、
前記ユーザの音声に基づいて、ユーザが発話していないテキスト情報の音声を合成音声として合成する音声合成手段をさらに有し、
前記第１生成手段および／または第２生成手段は、前記合成音声に基づいて、前記情報提示用音声を生成することを特徴とする音声情報提示装置。
請求項１〜３のいずれかに記載の音声情報提示装置であって、
前記識別手段は、前記ユーザの音声の基本周波数に基づいて、前記音声に係るユーザの性別を識別することを特徴とする音声情報提示装置。
請求項１〜３のいずれかに記載の音声情報提示装置であって、
ユーザの性別をユーザが入力する入力手段をさらに有し、
前記識別手段は、前記入力手段により入力されたユーザの性別に基づいて、前記音声に係るユーザの性別を識別することを特徴とする音声情報提示装置。
ユーザの音声を取得し、取得した前記ユーザの音声に基づいて、前記ユーザの音声の基本周波数を検出するとともに、前記音声に係るユーザの性別を識別し、前記識別の結果、前記音声に係るユーザが女性であると識別した場合に、前記ユーザの音声において、前記基本周波数を男性の一般的な基本周波数の周波数帯域にシフトさせることにより、前記ユーザの音声を変更して、情報提示用音声を生成し、前記音声に係るユーザが男性であると識別した場合に、前記ユーザの音声において、前記基本周波数を女性の一般的な基本周波数の周波数帯域にシフトさせることにより、前記ユーザの音声を変更して、前記情報提示用音声を生成し、生成した前記情報提示用音声を前記音声に係るユーザに提示し、
前記情報提示用音声のテキストをユーザが発声した場合に、前記情報提示用音声がユーザに提示された頻度を検出し、前記情報提示用音声がユーザに提示された頻度に応じて、前記情報提示用音声において、前記基本周波数を所定幅だけシフトさせることにより、前記情報提示用音声を変更することを特徴とする音声情報提示方法。