JP2022053366A

JP2022053366A - 発音フィードバック装置、発音フィードバック方法、及びコンピュータプログラム

Info

Publication number: JP2022053366A
Application number: JP2020160162A
Authority: JP
Inventors: 秀生鶴; Hideo Tsuru; 規高田; Tadashi Takada; 秀弥辻井; Hideya Tsujii
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2022-04-05
Also published as: WO2022065441A1

Abstract

【課題】発話者に適正な音声をフィードバックすること。【解決手段】発音フィードバック装置は、発話者が発した原音声を示す原音声データを取得する取得部と、原音声データの音響特徴量を調整して再生音声を示す再生音声データを生成する処理部と、再生音声データを出力する出力部と、を備える。【選択図】図１

Description

本発明は、発音フィードバック装置、発音フィードバック方法、及びコンピュータプログラムに関する。

特許文献１には、スピーカ付きマイクが開示されている。発話者がマイクに発した音声は、スピーカから発話者にフィードバックされる。

特開２００６－１９７５２６号公報

雑音環境下においては、発話者は普段よりも大きい声又は高い声で話してしまう可能性がある。また、発話者の吃音又は活舌の悪さに起因して、発話者の音声を認識し難くなる可能性がある。このような不具合を抑制するためには、発話者に適正な音声をフィードバックすることが有効である。

本発明は、発話者に適正な音声をフィードバックすることを目的とする。

本発明の一態様に係る発音フィードバック装置は、発話者が発した原音声を示す原音声データを取得する取得部と、前記原音声データの音響特徴量を調整して再生音声を示す再生音声データを生成する処理部と、前記再生音声データを出力する出力部と、を備える。

本発明の一態様に係る発音フィードバック方法は、発話者が発した原音声を示す原音声データを取得するステップと、前記原音声データの音響特徴量を調整して再生音声を示す再生音声データを生成するステップと、前記再生音声データを出力するステップと、を含む。

本発明の一態様に係るコンピュータプログラムは、発話者が発した原音声を示す原音声データを取得するステップと、前記原音声データの音響特徴量を調整して再生音声を示す再生音声データを生成するステップと、前記再生音声データを出力するステップと、を含む発音フィードバック方法を、コンピュータに実行させる。

本発明によれば、発話者に適正な音声をフィードバックすることができる。

図１は、第１実施形態に係る発音フィードバック装置を示す模式図である。図２は、第１実施形態に係る音声処理装置を示す機能ブロック図である。図３は、第１施形態に係るフォルマントシフトを説明するための図である。図４は、第１施形態に係るフォルマントシフトを説明するための図である。図５は、第１実施形態に係る発音フィードバック方法を示すフローチャートである。図６は、第１実施形態に係る発音フィードバック装置の第１適用例を説明するための図である。図７は、第１実施形態に係る発音フィードバック装置の第２適用例を説明するための図である。図８は、第１実施形態の変形例に係る発音フィードバック装置を示す模式図である。図９は、第２実施形態に係る発音フィードバック装置を示す模式図である。図１０は、第２実施形態に係るイヤホンの周波数特性を説明するための図である。

以下に、本発明の実施形態を図面に基づいて詳細に説明する。なお、以下に説明する実施形態により本発明が限定されるものではない。

［第１実施形態］
（発音フィードバック装置）
図１は、本実施形態に係る発音フィードバック装置１を示す模式図である。図１に示すように、発音フィードバック装置１は、マイクロホン２と、コミュニケータ３と、音声処理装置４と、スピーカ５とを備える。

発話者Ｍａは、音声を発する。本実施形態において、発話者Ｍａが発した音声を適宜、原音声Ｖｏ、と称する。発話者Ｍａが発した原音声Ｖｏは、気導音として、マイクロホン２に入力される。気導音とは、空中を伝播する音をいう。

マイクロホン２は、発話者Ｍａが発した原音声Ｖｏを原音声データに変換する。マイクロホン２は、コミュニケータ３に接続される。マイクロホン２からの原音声データは、伝送装置６を介してコミュニケータ３から別のコミュニケータ７に伝送される。コミュニケータ７にスピーカ８が接続される。スピーカ８は、原音声データを再生音声Ｖｐに変換する。再生音声Ｖｐは、スピーカ８から出力される。原音声Ｖｏの周波数特性と再生音声Ｖｐの周波数特性とは類似する。視聴者Ｍｂは、スピーカ８から出力された再生音声Ｖｐを聞くことができる。

コミュニケータ３は、マイクロホン２からの原音声データを音声処理装置４に送信する。

音声処理装置４は、取得部９と、処理部１０と、出力部１１と、記憶部１２とを有する。

取得部９は、発話者Ｍａが発した原音声Ｖｏを示す原音声データを取得する。原音声Ｖｏは、気導音である。取得部９は、コミュニケータ３を介してマイクロホン２から原音声データを取得する。

処理部１０は、取得部９により取得された原音声データの音響特徴量を調整して、再生音声Ｖａを示す再生音声データを生成する。

出力部１１は、処理部１０により生成された再生音声データをスピーカ５に出力する。スピーカ５は、再生音声データを再生音声Ｖａに変換する。再生音声Ｖａは、スピーカ５から出力される。発話者Ｍａは、スピーカ５から出力された再生音声Ｖａを聞くことができる。

本実施形態において、再生音声Ｖａの音響特徴量は、発話者Ｍａの骨導音と気導音との混合音の音響特徴量と一致又は類似する。骨導音とは、発話者Ｍａの声帯の振動が発話者Ｍａの頭蓋骨を介して発話者Ｍａの聴覚神経に伝わる音をいう。気導音とは、発話者Ｍａが発した原音声Ｖｏが空気及び発話者Ｍａの鼓膜を介して発話者Ｍａの聴覚神経に伝わる音をいう。通常、発話者Ｍａが原音声Ｖｏを発したときに発話者Ｍａが知覚する音声は、骨導音と気導音との混合音である。処理部１０は、スピーカ５から発話者Ｍａの骨導音と気導音との混合音の音響特徴量と一致又は類似する音響特徴量を示す再生音声Ｖａが出力されるように、再生音声データを生成する。

本実施形態において、発話者Ｍａの骨導音と気導音との混合音を適宜、自己知覚音声、と称する。自己知覚音声は、発話者Ｍａが原音声Ｖｏを発したときに発話者Ｍａが知覚する音声である。処理部１０は、自己知覚音声がスピーカ５から出力されるように、再生音声データを生成する。

（音声処理装置）
図２は、本実施形態に係る音声処理装置４を示す機能ブロック図である。音声処理装置４は、コンピュータを含む。音声処理装置４は、プロセッサ４１と、メインメモリ４２と、ストレージ４３と、インタフェース４４とを有する。プロセッサ４１として、ＣＰＵ（Central Processing Unit）又はＭＰＵ（Micro Processing Unit）が例示される。メインメモリ４２として、不揮発性メモリ又は揮発性メモリが例示される。不揮発性メモリとして、ＲＯＭ（Read Only Memory）が例示される。揮発性メモリとして、ＲＡＭ（Random Access Memory）が例示される。ストレージ４３として、ハードディスクドライブ（ＨＤＤ：Hard Disk Drive）又はソリッドステートドライブ（ＳＳＤ：Solid State Drive）が例示される。インタフェース４４として、入出力回路又は通信回路が例示される。

コンピュータプログラム４５がメインメモリ４２に展開される。プロセッサ４１は、コンピュータプログラム４５に従って、本実施形態に係る発音フィードバック方法を実行する。インタフェース４４は、コミュニケータ３及びスピーカ５のそれぞれと接続される。

プロセッサ４１は、処理部１０として機能する。ストレージ４３は、記憶部１２として機能する。インタフェース４４は、取得部９及び出力部１１として機能する。

本実施形態において、処理部１０により調整される原音声データの音響特徴量は、原音声Ｖｏの周波数帯域、原音声Ｖｏのピッチ、及び原音声Ｖｏのフォルマントを含む。処理部１０は、原音声Ｖｏの周波数帯域を可聴帯域に制限するフィルタ処理部１３と、原音声Ｖｏをピッチシフトするピッチシフト処理部１４と、原音声Ｖｏをフォルマントシフトするフォルマントシフト処理部１５とを含む。

フィルタ処理部１３は、取得部９により取得された原音声データから可聴帯域の原音声データのみを抽出する。可聴帯域とは、ヒトが知覚可能な音声の周波数範囲をいう。ヒトの可聴帯域は、例えば１５［Ｈｚ］以上２０［ｋＨｚ］以下である。フィルタ処理部１３は、２０［ｋＨｚ］以下の周波数の原音声データを通過させるローパスフィルタと、１５［Ｈｚ］以上の周波数の原音声データを通過させるハイパスフィルタとを含む。なお、フィルタ処理部１３は、１５［Ｈｚ］以上２０［ｋＨｚ］以下の原音声データを通過させるバンドパスフィルタを含んでもよい。なお、処理部１０は、フィルタ処理部１３を含まなくてもよい。

フィルタ処理部１３を通過した原音声データは、ピッチシフト処理部１４に入力される。ピッチシフト処理部１４は、原音声データをピッチシフトする。

ピッチとは、音声の基音の周波数をいう。ピッチは、音程に影響する。ピッチは、ヒトの声帯により作られる。男性のピッチは、例えば１００［Ｈｚ］以上１５０［Ｈｚ］以下である。女性のピッチは、例えば２５０［Ｈｚ］以上３００［Ｈｚ］以下である。

ピッチシフトとは、所定のピッチシフト条件に基づいて、ピッチをシフトさせることをいう。ピッチシフト条件は、ピッチシフト方向及びピッチシフト量Ｄｐを含む。ピッチシフト方向は、高周波数側又は低周波数側を含む。すなわち、ピッチシフトとは、ピッチを高周波数側又は低周波数側に所定のピッチシフト量Ｄｐだけシフトさせることをいう。

ピッチシフト処理部１４を通過した原音声データは、フォルマントシフト処理部１５に入力される。フォルマントシフト処理部１５は、原音声データをフォルマントシフトする。

フォルマントとは、声道の共鳴によって強調される周波数成分をいう。フォルマントは、音色に影響する。フォルマントは、ヒトの声道により作られる。フォルマントは、ヒトによって異なる。周波数が最も低いフォルマントは、第１フォルマントと呼ばれる。第１フォルマントに次いで周波数が低いフォルマントは、第２フォルマントと呼ばれる。第１フォルマント及び第２フォルマントは、母音を決定付ける要素である。第３フォルマントよりも高い周波数のフォルマントは、男女差又はヒトの声の特徴を形作る要素である。第１フォルマントは、例えば６００［Ｈｚ］以上８００［Ｈｚ］以下である。第２フォルマントは、例えば１１００［Ｈｚ］以上１９００［Ｈｚ］以下である。

フォルマントシフトとは、所定のフォルマントシフト条件に基づいて、フォルマントをシフトさせることをいう。フォルマントシフト条件は、フォルマントシフト方向及びフォルマントシフト量Ｄｆを含む。フォルマントシフト方向は、高周波数側又は低周波数側を含む。すなわち、フォルマントシフトとは、フォルマントを高周波数側又は低周波数側に所定のフォルマントシフト量Ｄｆだけシフトさせることをいう。

本実施形態において、ピッチシフト条件及びフォルマントシフト条件は、予め定められており、記憶部１２に記憶されている。ピッチシフト処理部１４は、記憶部１２に記憶されているピッチシフト条件に基づいて、ピッチシフトする。フォルマントシフト処理部１５は、記憶部１２に記憶されているフォルマントシフト条件に基づいて、フォルマントシフトする。

本実施形態において、ピッチシフト方向とフォルマントシフト方向とは、同一である。すなわち、フォルマントシフト処理部１５が高周波数側にフォルマントシフトした場合、ピッチシフト処理部１４は高周波数側にピッチシフトする。フォルマントシフト処理部１５が低周波数側にフォルマントシフトした場合、ピッチシフト処理部１４は低周波数側にピッチシフトする。

ピッチシフト処理部１４は、ピッチの振幅を変化させることなく、ピッチシフトする。フォルマントシフト処理部１５は、フォルマントの振幅を変化させることなく、フォルマントシフトする。なお、ピッチシフト処理部１４及びフォルマントシフト処理部１５は、それぞれピッチシフト及びフォルマントシフトのみを精度よく行うため、振幅を変化させないとしている。ピッチシフト処理部１４及びフォルマントシフト処理部１５は、振幅を変化させてもよい。出力部１１が、所定の周波数の振幅を変化させてもよい。

本実施形態において、処理部１０は、発話者Ｍａの骨導音と気導音との混合音である自己知覚音声がスピーカ５から出力されるように、再生音声データを生成する。フォルマントシフト処理部１５は、高周波数側にフォルマントシフトする。ピッチシフト処理部１４は、高周波数側にピッチシフトする。

原音声Ｖｏを自己知覚音声である再生音声Ｖａに変換するためのピッチシフト量Ｄｐ及びフォルマントシフト量Ｄｆは、例えば統計的に導出することができ、記憶部１２に予め記憶される。ピッチシフト処理部１４は、記憶部１２に記憶されているピッチシフト量Ｄｐだけ高周波数側にピッチシフトする。フォルマントシフト処理部１５は、記憶部１２に記憶されているフォルマントシフト量Ｄｆだけ高周波数側にフォルマントシフトする。

なお、原音声Ｖｏを自己知覚音声である再生音声Ｖａに変換するためのピッチシフト量Ｄｐ及びフォルマントシフト量Ｄｆが、発話者Ｍａごとに定められてもよい。ピッチシフト量Ｄｐは、可変でもよい。フォルマントシフト量Ｄｆは、可変でもよい。

図３及び図４のそれぞれは、本実施形態に係るフォルマントシフトを説明するための図である。図３及び図４に示すグラフにおいて、横軸は周波数［Ｈｚ］を示し、縦軸は振幅［ｄＢ］を示す。横軸は線形スケールである。図３及び図４に示す例において、原音声データのフォルマントは、第１フォルマントＦ１と、第２フォルマントＦ２と、第３フォルマントＦ３と、第４フォルマントＦ４とを含む。

フォルマントシフト処理部１５は、原音声データについて高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）のような直交変換処理を実施して、フォルマントの包絡線Ｌ０を含む原音声データの周波数特性を算出する。包絡線Ｌ０は、複数の周波数のそれぞれの最大振幅値（最大パワー値）を結ぶように形成される。フォルマントシフト処理部１５は、フォルマントの包絡線Ｌ０の少なくとも一部を高周波数側にフォルマントシフト量Ｄｆだけフォルマントシフトする。

図３に示すように、フォルマントシフト処理部１５は、第１フォルマントＦ１及び第２フォルマントＦ２の包絡線Ｌ０を高周波数側にフォルマントシフト量Ｄｆだけフォルマントシフトしてもよい。包絡線Ｌ０がフォルマントシフトされることにより、第１フォルマントＦ１及び第２フォルマントＦ２の包絡線Ｌ１が生成される。第１フォルマントＦ１のフォルマントシフト方向と第２フォルマントＦ２のフォルマントシフト方向とは、同一である。第１フォルマントＦ１のフォルマントシフト量Ｄｆと第２フォルマントＦ２のフォルマントシフト量Ｄｆとは、同一である。フォルマントシフト処理部１５は、第１フォルマントＦ１の振幅及び第２フォルマントＦ２の振幅を変化させることなく、第１フォルマントＦ１及び第２フォルマントＦ２をフォルマントシフトする。

なお、第１フォルマントＦ１のフォルマントシフト量Ｄｆと第２フォルマントＦ２のフォルマントシフト量Ｄｆとは、異なってもよい。

なお、図４に示すように、フォルマントシフト処理部１５は、フォルマントの包絡線Ｌ０全体を高周波数側にフォルマントシフト量Ｄｆだけフォルマントシフトしてもよい。図４におけるフォルマントの包絡線Ｌ０全体とは、第１フォルマントＦ１から第４フォルマントＦ４までを含む範囲である。

なお、フォルマントシフト量Ｄｆは、第１フォルマントＦ１のピーク周波数Ｐ０に基づいて決定されてもよい。ピーク周波数Ｐ０における第１フォルマントＦ１の振幅がＡ０である場合、フォルマントシフト処理部１５は、振幅Ａ０の８０［％］となる振幅Ａ１と、振幅Ａ１における第１フォルマントＦ１の周波数Ｐ１とを算出する。フォルマントシフト量Ｄｆは、ピーク周波数Ｐ０と周波数Ｐ１との差を超えないように定められてもよい。フォルマントシフト量Ｄｆは、ピーク周波数Ｐ０と周波数Ｐ１との差でもよい。なお、振幅Ａ１は振幅Ａ０の７０［％］以上１００［％］未満であればよく、振幅Ａ０の８０［％］程度とするのが好適である。

なお、フォルマントシフトにおいて、フォルマントの包絡線Ｌ０全体がシフトされなくてもよい。基本周波数の時間変化や振幅包絡の時間情報等が保持されていれば、包絡線Ｌ０においてピークを含む所定の周波数範囲だけをシフトさせてもよい。

原音声データは、フィルタ処理部１３、ピッチシフト処理部１４、及びフォルマントシフト処理部１５のそれぞれで処理されることにより、再生音声データに変換される。再生音声Ｖａは、スピーカ５によって再生される。発話者Ｍａは、スピーカ５から出力された再生音声Ｖａを聞くことができる。

（発音フィードバック方法）
図５は、本実施形態に係る発音フィードバック方法を示すフローチャートである。コンピュータプログラム４５は、発音フィードバック方法を音声処理装置４に実行させることができる。

発話者Ｍａは、マイクロホン２に向かって原音声Ｖｏを発する。取得部９は、発話者Ｍａが発した原音声Ｖｏを示す原音声データを取得する（ステップＳ１）。

フィルタ処理部１３は、原音声データの周波数帯域を可聴帯域に制限する（ステップＳ２）。なお、ステップＳ２は任意の処理である。

ピッチシフト処理部１４は、フィルタ処理部１３を通過した原音声データをピッチシフトする（ステップＳ３）。

フォルマントシフト処理部１５は、ピッチシフト処理部１４を通過した原音声データをフォルマントシフトする（ステップＳ４）。

ステップＳ３及びステップＳ４により、再生音声Ｖａを示す再生音声データが生成される。処理部１０は、ステップＳ３及びステップＳ４において、自己知覚音声がスピーカ５から出力されるように、再生音声データを生成する。処理部１０は、ステップＳ２、ステップＳ３、及びステップＳ４により、再生音声Ｖａを示す再生音声データを生成してもよい。なお、ステップＳ２、ステップＳ３、及びステップＳ４の順序は任意である。

出力部１１は、処理部１０において生成された再生音声データをスピーカ５に出力する（ステップＳ５）。

スピーカ５は、再生音声Ｖａを発話者Ｍａに出力する。スピーカ５から出力される再生音声Ｖａは、発話者Ｍａの自己知覚音声と類似する。

（適用例）
図６は、本実施形態に係る発音フィードバック装置１の第１適用例を説明するための図である。図６は、発音フィードバック装置１が携帯電話２０に適用された例を示す。携帯電話２０は、送話口２１と、受話口２２とを有する。マイクロホン２が送話口２１に配置される。スピーカ５が受話口２２に配置される。音声処理装置４は、携帯電話２０の内部に配置される。

例えば雑音環境下で電話する場合、発話者Ｍａは、発話者Ｍａが発した音声を聞き取り難いため、普段よりも大きい声で話したり高い声で話したりする可能性がある。本実施形態においては、発話者Ｍａが送話口２１に発した原音声Ｖｏが、音声処理装置４において再生音声Ｖａに変換される。再生音声Ｖａは、受話口２２から出力される。発話者Ｍａは、自己知覚音声である再生音声Ｖａを聞きながら話すことができる。したがって、雑音環境下で電話する場合において、発話者Ｍａが普段よりも大きい声で話したり高い声で話したりすることが抑制される。

図７は、本実施形態に係る発音フィードバック装置１の第２適用例を説明するための図である。図７は、発音フィードバック装置１が歌唱練習装置３０に適用された例を示す。歌唱練習装置３０は、マイクスタンド３１に支持されるマイクロホン２と、スピーカ５を含むモニタスピーカ３２とを有する。音声処理装置４は、マイクロホン２とモニタスピーカ３２との間に配置される。

発話者Ｍａが自己認識音声である再生音声Ｖａを聞きながら歌唱すると、歌唱の音程が安定する場合が多い。本実施形態においては、発話者Ｍａがマイクロホン２に発した歌唱音声である原音声Ｖｏが、音声処理装置４において再生音声Ｖａに変換される。再生音声Ｖａは、モニタスピーカ３２から出力される。発話者Ｍａは、自己知覚音声である再生音声Ｖａを聞きながら歌唱することができる。これにより、発話者Ｍａの歌唱の音程は安定する。

（効果）
以上説明したように、本実施形態によれば、発話者Ｍａが発した原音声Ｖｏを示す原音声データの音響特徴量が処理部１０により調整される。処理部１０は、原音声データの音響特徴量を調整して、再生音声Ｖａを示す再生音声データを生成する。出力部１１は、再生音声データをスピーカ５に出力する。スピーカ５は、再生音声Ｖａを発話者Ｍａに出力する。これにより、発話者Ｍａに適正な再生音声Ｖａがフィードバックされる。発話者Ｍａに適正は再生音声Ｖａがフィードバックされるので、雑音環境下で発話者Ｍａが普段よりも大きい声で話したり高い声で話したりする現象が抑制される。

原音声Ｖｏを自己知覚音声である再生音声Ｖａに変換する場合、ピッチシフト及びフォルマントシフトが有効である。また、原音声Ｖｏを自己知覚音声である再生音声Ｖａに変換する場合、フォルマントシフト方向とピッチシフト方向とを一致させることが有効である。

また、原音声Ｖｏを自己知覚音声である再生音声Ｖａに変換する場合、ピッチシフト及びフォルマントシフトの前に、原音声Ｖｏの周波数帯域を可聴帯域に制限するフィルタ処理を実施することが有効である。

（変形例）
図８は、本実施形態の変形例に係る発音フィードバック装置１０１を示す模式図である。上述の実施形態においては、ピッチシフト条件及びフォルマントシフト条件が予め記憶部１２に記憶されていることとした。図８に示すように、発音フィードバック装置１０１は、ピッチシフト条件及びフォルマントシフト条件を調整する操作装置１６を備えてもよい。図８に示すように、操作装置１６は、音声処理装置４に接続される。操作装置１６は、ピッチシフト条件を調整するピッチスライダ１６Ａと、フォルマントシフト条件を調整するフォルマントスライダ１６Ｂとを有する。ピッチスライダ１６Ａがスライドされることにより、ピッチシフト方向及びピッチシフト量Ｄｐを含むピッチシフト条件が変更される。フォルマントスライダ１６Ｂがスライドされることにより、フォルマントシフト方向及びフォルマントシフト量Ｄｆを含むフォルマントシフト条件が変更される。発話者Ｍａは、スピーカ５から出力される再生音声Ｖａを聞きながら、再生音声Ｖａが自己知覚音声に近付くように、操作装置１６を操作することができる。

上述の実施形態においては、再生音声Ｖａが自己知覚音声であることとした。再生音声Ｖａは自己知覚音声でなくてもよい。また、ピッチシフト処理部１４は、低周波数側にピッチシフトしてもよい。フォルマントシフト処理部１５は、低周波数側にフォルマントシフトしてもよい。発話者Ｍａがピッチの変化及びフォルマントの変化を知覚できる程度にピッチシフト及びフォルマントシフトが実施されればよい。再生音声Ｖａが発話者Ｍａにフィードバックされることにより、発話者Ｍａは、音声生成及び音声知覚を適正に行うことができる。音声生成及び音声知覚が適正に行われるので、発話者Ｍａの吃音又は活舌の悪さに起因して、発話者Ｍａの音声を認識し難くなる現象が抑制される。例えば英語学習において再生音声Ｖａを聞きながら発音練習をする場合、スピーカ５から出力される再生音声Ｖａを発話者Ｍａが適正に認識できるように、原音声データの音響特徴量が調整されてもよい。

［第２実施形態］
第２実施形態について説明する。以下の説明において、上述の実施形態と同一又は同等の構成要素については同一の符号を付し、その構成要素の説明を簡略又は省略する。

図９は、本実施形態に係る発音フィードバック装置１０２を示す模式図である。本実施形態において、出力部１１は、スピーカ５を含むイヤホン５０に再生音声データを出力する。イヤホン５０は、発話者Ｍａの外耳道に挿入されるインナイヤホンである。イヤホン５０は、外耳道において再生音声Ｖａを出力する。

イヤホン５０は、外耳道の内面に接触するイヤピース５１を含む。イヤピース５１は、耳栓としても機能する。イヤピース５１は、例えばゴム製、シリコーン製、及びウレタン製等である。なお、イヤピース５１は、指で押すと変形する軟質材料で形成されていればよい。

イヤピース５１の形状により、発話者Ｍａの鼓膜に伝達される外部音声Ｖｎの周波数特性が変化する。外部音声Ｖｎとは、外耳道の外部から鼓膜に伝達される音声をいう。外部音声Ｖｎとして、発話者Ｍａの周囲の雑音が例示される。

イヤピース５１の形状は、イヤピース５１が変形した場合の形状を含む。イヤピース５１が変形することによっても、発話者Ｍａの鼓膜に伝達される外部音声Ｖｎの周波数特性が変化する。

図１０は、本実施形態に係るイヤホン５０の周波数特性を説明するための図である。図１０に示すラインＨＡ，ＨＢ，ＨＣ，ＨＤのように、イヤピース５１の形状が変化することにより、発話者Ｍａの鼓膜に伝達される外部音声Ｖｎの周波数特性が変化する。

ラインＨＡは、第１直径のイヤピース５１に係る外部音声Ｖｎの周波数特性を示す。ラインＨＢは、第１直径よりも大きい第２直径のイヤピース５１に係る外部音声Ｖｎの周波数特性を示す。ラインＨＣは、第２直径よりも大きい第３直径のイヤピース５１に係る外部音声Ｖｎの周波数特性を示す。ラインＨＤは、第３直径よりも大きい第４直径のイヤピース５１に係る外部音声Ｖｎの周波数特性を示す。４形態のイヤピース５１のうち、第１直径のイヤピース５１は、最も緩めに外耳道に挿入される。第１直径のイヤピース５１は、ほぼ変形しない状態で外耳道に挿入される。４形態のイヤピース５１のうち、第４直径のイヤピース５１は、最もきつめに外耳道に挿入される。第４直径のイヤピース５１は、最も変形した状態で外耳道に挿入される。４形態のイヤピース５１のうち、第４直径のイヤピース５１は、外耳道を最も密閉する。

なお、発話者Ｍａの鼓膜の近傍にマイクを配置し、４形態のイヤピース５１のそれぞれを外耳道に挿入した状態で、外部音声Ｖｎを外耳道に入力することにより、発話者Ｍａの鼓膜に伝達される外部音声Ｖｎの周波数特性を測定することができる。外部音声Ｖｎは、インパルス音等の所定の周波数パターンを備えた信号を用いてもよいし、列車や自動車の走行音等の各種騒音を用いてもよい。

図１０に示すように、イヤピース５１の直径が大きくなるほど、鼓膜に対する外部音声Ｖｎの遮断効果が高まり、特に高周波数帯域においてゲインが低下する。ここでいう高周波数帯域は、１０００［Ｈｚ］以上２０［ｋＨｚ］以下の周波数帯域である。

図９に示すように、本実施形態において、処理部１０は、再生音声Ｖａの周波数特性を調整する調整部１７を含む。調整部１７は、イヤホン５０のイヤピース５１の形状を模擬するように、イヤホン５０のスピーカ５から発話者Ｍａの鼓膜に伝達される再生音声Ｖａの周波数特性を調整する。記憶部１２には、ラインＨＡ，ＨＢ，ＨＣ，ＨＤで示した周波数特性が記憶されている。調整部１７は、再生音声Ｖａのゲインを調整するゲインコントロール機能を有する。なお、記憶部１２には、ラインＨＡ，ＨＢ，ＨＣ，ＨＤで示した周波数特性に限らず、所定の周波数帯域における複数の異なる周波数特性が記憶されていてもよい。

上述の実施形態と同様、処理部１０は、フィルタ処理部１３、ピッチシフト処理部１４、及びフォルマントシフト処理部１５を含む。フォルマントシフト処理部１５から再生音声データが出力される。調整部１７は、フォルマントシフト処理部１５から出力された再生音声データの周波数特性（ゲイン）を調整する。

調整部１７に操作装置１８が接続される。操作装置１８は、回転可能なノブを含む。調整部１７は、操作装置１８の操作量に基づいて、再生音声Ｖａの周波数特性を、ラインＨＡで示す周波数特性、ラインＨＢで示す周波数特性、ラインＨＣで示す周波数特性、及びラインＨＤで示す周波数特性のそれぞれに変化させる。

本実施形態において、調整部１７は、操作装置１８の操作量に基づいて、スピーカ５から出力される再生音声Ｖａの音量を調整する。調整部１７は、操作装置１８の操作量に基づいて、再生音声Ｖａの周波数特性の変化と連動するように、再生音声Ｖａの音量を変化させる。再生音声Ｖａの周波数特性がラインＨＡで示す周波数特性に調整される場合、再生音声Ｖａの音量は、第１音量に調整される。再生音声Ｖａの周波数特性がラインＨＢで示す周波数特性に調整される場合、再生音声Ｖａの音量は、第１音量よりも小さい第２音量に調整される。再生音声Ｖａの周波数特性がラインＨＣで示す周波数特性に調整される場合、再生音声Ｖａの音量は、第２音量よりも小さい第３音量に調整される。再生音声Ｖａの周波数特性がラインＨＤで示す周波数特性に調整される場合、再生音声Ｖａの音量は、第３音量よりも小さい第４音量に調整される。

例えば、再生音声Ｖａの周波数特性がラインＨＡで示す周波数特性に調整されることにより、発話者Ｍａは、クリアな再生音声Ｖａを第１音量で聞くことができる。再生音声Ｖａの周波数特性がラインＨＤで示す周波数特性に調整されることにより、発話者Ｍａは、こもった再生音声Ｖａを第４音量で聞くことができる。発話者Ｍａは、発話者Ｍａの好みに合わせて再生音声Ｖａの周波数特性及び再生音声Ｖａの音量を調整することができる。

１…発音フィードバック装置、２…マイクロホン、３…コミュニケータ、４…音声処理装置、５…スピーカ、６…伝送装置、７…コミュニケータ、８…スピーカ、９…取得部、１０…処理部、１１…出力部、１２…記憶部、１３…フィルタ処理部、１４…ピッチシフト処理部、１５…フォルマントシフト処理部、１６…操作装置、１６Ａ…ピッチスライダ、１６Ｂ…フォルマントスライダ、１７…調整部、１８…操作装置、２０…携帯電話、２１…送話口、２２…受話口、３０…歌唱練習装置、３１…マイクスタンド、３２…モニタスピーカ、４１…プロセッサ、４２…メインメモリ、４３…ストレージ、４４…インタフェース、４５…コンピュータプログラム、５０…イヤホン、５１…イヤピース、１０１…発音フィードバック装置、１０２…発音フィードバック装置、Ａ０…振幅、Ａ１…振幅、Ｄｆ…フォルマントシフト量、Ｄｐ…ピッチシフト量、Ｆ１…第１フォルマント、Ｆ２…第２フォルマント、Ｆ３…第３フォルマント、Ｆ４…第４フォルマント、Ｌ０…包絡線、Ｌ１…包絡線、Ｍａ…発話者、Ｍｂ…視聴者、Ｐ０…ピーク周波数、Ｐ１…周波数、Ｖａ…再生音声、Ｖｎ…外部音声、Ｖｏ…原音声、Ｖｐ…再生音声。

Claims

発話者が発した原音声を示す原音声データを取得する取得部と、
前記原音声データの音響特徴量を調整して再生音声を示す再生音声データを生成する処理部と、
前記再生音声データを出力する出力部と、を備える、
発音フィードバック装置。
前記音響特徴量は、前記原音声のピッチ及びフォルマントを含み、
前記処理部は、ピッチシフトするピッチシフト処理部及びフォルマントシフトするフォルマントシフト処理部を含む、
請求項１に記載の発音フィードバック装置。
前記処理部は、高周波数側にフォルマントシフトした場合、高周波数側にピッチシフトし、低周波数側にフォルマントシフトした場合、低周波数側にピッチシフトする、
請求項２に記載の発音フィードバック装置。
前記音響特徴量は、前記原音声の周波数帯域を含み、
前記処理部は、前記周波数帯域を可聴帯域に制限するフィルタ処理部を含む、
請求項１から請求項３のいずれか一項に記載の発音フィードバック装置。
発話者が発した原音声を示す原音声データを取得するステップと、
前記原音声データの音響特徴量を調整して再生音声を示す再生音声データを生成するステップと、
前記再生音声データを出力するステップと、を含む、
発音フィードバック方法。
発話者が発した原音声を示す原音声データを取得するステップと、
前記原音声データの音響特徴量を調整して再生音声を示す再生音声データを生成するステップと、
前記再生音声データを出力するステップと、を含む発音フィードバック方法を、コンピュータに実行させる、
コンピュータプログラム。