JP2022053366A - 発音フィードバック装置、発音フィードバック方法、及びコンピュータプログラム - Google Patents
発音フィードバック装置、発音フィードバック方法、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2022053366A JP2022053366A JP2020160162A JP2020160162A JP2022053366A JP 2022053366 A JP2022053366 A JP 2022053366A JP 2020160162 A JP2020160162 A JP 2020160162A JP 2020160162 A JP2020160162 A JP 2020160162A JP 2022053366 A JP2022053366 A JP 2022053366A
- Authority
- JP
- Japan
- Prior art keywords
- formant
- voice
- speaker
- processing unit
- reproduced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 13
- 238000004590 computer program Methods 0.000 title claims description 8
- 238000012545 processing Methods 0.000 claims abstract description 99
- 238000010586 diagram Methods 0.000 description 17
- 210000000613 ear canal Anatomy 0.000 description 11
- 230000008859 change Effects 0.000 description 9
- 210000003454 tympanic membrane Anatomy 0.000 description 9
- 210000000988 bone and bone Anatomy 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 208000003028 Stuttering Diseases 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 210000000860 cochlear nerve Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- JOYRKODLDBILNP-UHFFFAOYSA-N Ethyl urethane Chemical compound CCOC(N)=O JOYRKODLDBILNP-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 210000003625 skull Anatomy 0.000 description 1
- 239000007779 soft material Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Neurosurgery (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】発話者に適正な音声をフィードバックすること。【解決手段】発音フィードバック装置は、発話者が発した原音声を示す原音声データを取得する取得部と、原音声データの音響特徴量を調整して再生音声を示す再生音声データを生成する処理部と、再生音声データを出力する出力部と、を備える。【選択図】図1
Description
本発明は、発音フィードバック装置、発音フィードバック方法、及びコンピュータプログラムに関する。
特許文献1には、スピーカ付きマイクが開示されている。発話者がマイクに発した音声は、スピーカから発話者にフィードバックされる。
雑音環境下においては、発話者は普段よりも大きい声又は高い声で話してしまう可能性がある。また、発話者の吃音又は活舌の悪さに起因して、発話者の音声を認識し難くなる可能性がある。このような不具合を抑制するためには、発話者に適正な音声をフィードバックすることが有効である。
本発明は、発話者に適正な音声をフィードバックすることを目的とする。
本発明の一態様に係る発音フィードバック装置は、発話者が発した原音声を示す原音声データを取得する取得部と、前記原音声データの音響特徴量を調整して再生音声を示す再生音声データを生成する処理部と、前記再生音声データを出力する出力部と、を備える。
本発明の一態様に係る発音フィードバック方法は、発話者が発した原音声を示す原音声データを取得するステップと、前記原音声データの音響特徴量を調整して再生音声を示す再生音声データを生成するステップと、前記再生音声データを出力するステップと、を含む。
本発明の一態様に係るコンピュータプログラムは、発話者が発した原音声を示す原音声データを取得するステップと、前記原音声データの音響特徴量を調整して再生音声を示す再生音声データを生成するステップと、前記再生音声データを出力するステップと、を含む発音フィードバック方法を、コンピュータに実行させる。
本発明によれば、発話者に適正な音声をフィードバックすることができる。
以下に、本発明の実施形態を図面に基づいて詳細に説明する。なお、以下に説明する実施形態により本発明が限定されるものではない。
[第1実施形態]
(発音フィードバック装置)
図1は、本実施形態に係る発音フィードバック装置1を示す模式図である。図1に示すように、発音フィードバック装置1は、マイクロホン2と、コミュニケータ3と、音声処理装置4と、スピーカ5とを備える。
(発音フィードバック装置)
図1は、本実施形態に係る発音フィードバック装置1を示す模式図である。図1に示すように、発音フィードバック装置1は、マイクロホン2と、コミュニケータ3と、音声処理装置4と、スピーカ5とを備える。
発話者Maは、音声を発する。本実施形態において、発話者Maが発した音声を適宜、原音声Vo、と称する。発話者Maが発した原音声Voは、気導音として、マイクロホン2に入力される。気導音とは、空中を伝播する音をいう。
マイクロホン2は、発話者Maが発した原音声Voを原音声データに変換する。マイクロホン2は、コミュニケータ3に接続される。マイクロホン2からの原音声データは、伝送装置6を介してコミュニケータ3から別のコミュニケータ7に伝送される。コミュニケータ7にスピーカ8が接続される。スピーカ8は、原音声データを再生音声Vpに変換する。再生音声Vpは、スピーカ8から出力される。原音声Voの周波数特性と再生音声Vpの周波数特性とは類似する。視聴者Mbは、スピーカ8から出力された再生音声Vpを聞くことができる。
コミュニケータ3は、マイクロホン2からの原音声データを音声処理装置4に送信する。
音声処理装置4は、取得部9と、処理部10と、出力部11と、記憶部12とを有する。
取得部9は、発話者Maが発した原音声Voを示す原音声データを取得する。原音声Voは、気導音である。取得部9は、コミュニケータ3を介してマイクロホン2から原音声データを取得する。
処理部10は、取得部9により取得された原音声データの音響特徴量を調整して、再生音声Vaを示す再生音声データを生成する。
出力部11は、処理部10により生成された再生音声データをスピーカ5に出力する。スピーカ5は、再生音声データを再生音声Vaに変換する。再生音声Vaは、スピーカ5から出力される。発話者Maは、スピーカ5から出力された再生音声Vaを聞くことができる。
本実施形態において、再生音声Vaの音響特徴量は、発話者Maの骨導音と気導音との混合音の音響特徴量と一致又は類似する。骨導音とは、発話者Maの声帯の振動が発話者Maの頭蓋骨を介して発話者Maの聴覚神経に伝わる音をいう。気導音とは、発話者Maが発した原音声Voが空気及び発話者Maの鼓膜を介して発話者Maの聴覚神経に伝わる音をいう。通常、発話者Maが原音声Voを発したときに発話者Maが知覚する音声は、骨導音と気導音との混合音である。処理部10は、スピーカ5から発話者Maの骨導音と気導音との混合音の音響特徴量と一致又は類似する音響特徴量を示す再生音声Vaが出力されるように、再生音声データを生成する。
本実施形態において、発話者Maの骨導音と気導音との混合音を適宜、自己知覚音声、と称する。自己知覚音声は、発話者Maが原音声Voを発したときに発話者Maが知覚する音声である。処理部10は、自己知覚音声がスピーカ5から出力されるように、再生音声データを生成する。
(音声処理装置)
図2は、本実施形態に係る音声処理装置4を示す機能ブロック図である。音声処理装置4は、コンピュータを含む。音声処理装置4は、プロセッサ41と、メインメモリ42と、ストレージ43と、インタフェース44とを有する。プロセッサ41として、CPU(Central Processing Unit)又はMPU(Micro Processing Unit)が例示される。メインメモリ42として、不揮発性メモリ又は揮発性メモリが例示される。不揮発性メモリとして、ROM(Read Only Memory)が例示される。揮発性メモリとして、RAM(Random Access Memory)が例示される。ストレージ43として、ハードディスクドライブ(HDD:Hard Disk Drive)又はソリッドステートドライブ(SSD:Solid State Drive)が例示される。インタフェース44として、入出力回路又は通信回路が例示される。
図2は、本実施形態に係る音声処理装置4を示す機能ブロック図である。音声処理装置4は、コンピュータを含む。音声処理装置4は、プロセッサ41と、メインメモリ42と、ストレージ43と、インタフェース44とを有する。プロセッサ41として、CPU(Central Processing Unit)又はMPU(Micro Processing Unit)が例示される。メインメモリ42として、不揮発性メモリ又は揮発性メモリが例示される。不揮発性メモリとして、ROM(Read Only Memory)が例示される。揮発性メモリとして、RAM(Random Access Memory)が例示される。ストレージ43として、ハードディスクドライブ(HDD:Hard Disk Drive)又はソリッドステートドライブ(SSD:Solid State Drive)が例示される。インタフェース44として、入出力回路又は通信回路が例示される。
コンピュータプログラム45がメインメモリ42に展開される。プロセッサ41は、コンピュータプログラム45に従って、本実施形態に係る発音フィードバック方法を実行する。インタフェース44は、コミュニケータ3及びスピーカ5のそれぞれと接続される。
プロセッサ41は、処理部10として機能する。ストレージ43は、記憶部12として機能する。インタフェース44は、取得部9及び出力部11として機能する。
本実施形態において、処理部10により調整される原音声データの音響特徴量は、原音声Voの周波数帯域、原音声Voのピッチ、及び原音声Voのフォルマントを含む。処理部10は、原音声Voの周波数帯域を可聴帯域に制限するフィルタ処理部13と、原音声Voをピッチシフトするピッチシフト処理部14と、原音声Voをフォルマントシフトするフォルマントシフト処理部15とを含む。
フィルタ処理部13は、取得部9により取得された原音声データから可聴帯域の原音声データのみを抽出する。可聴帯域とは、ヒトが知覚可能な音声の周波数範囲をいう。ヒトの可聴帯域は、例えば15[Hz]以上20[kHz]以下である。フィルタ処理部13は、20[kHz]以下の周波数の原音声データを通過させるローパスフィルタと、15[Hz]以上の周波数の原音声データを通過させるハイパスフィルタとを含む。なお、フィルタ処理部13は、15[Hz]以上20[kHz]以下の原音声データを通過させるバンドパスフィルタを含んでもよい。なお、処理部10は、フィルタ処理部13を含まなくてもよい。
フィルタ処理部13を通過した原音声データは、ピッチシフト処理部14に入力される。ピッチシフト処理部14は、原音声データをピッチシフトする。
ピッチとは、音声の基音の周波数をいう。ピッチは、音程に影響する。ピッチは、ヒトの声帯により作られる。男性のピッチは、例えば100[Hz]以上150[Hz]以下である。女性のピッチは、例えば250[Hz]以上300[Hz]以下である。
ピッチシフトとは、所定のピッチシフト条件に基づいて、ピッチをシフトさせることをいう。ピッチシフト条件は、ピッチシフト方向及びピッチシフト量Dpを含む。ピッチシフト方向は、高周波数側又は低周波数側を含む。すなわち、ピッチシフトとは、ピッチを高周波数側又は低周波数側に所定のピッチシフト量Dpだけシフトさせることをいう。
ピッチシフト処理部14を通過した原音声データは、フォルマントシフト処理部15に入力される。フォルマントシフト処理部15は、原音声データをフォルマントシフトする。
フォルマントとは、声道の共鳴によって強調される周波数成分をいう。フォルマントは、音色に影響する。フォルマントは、ヒトの声道により作られる。フォルマントは、ヒトによって異なる。周波数が最も低いフォルマントは、第1フォルマントと呼ばれる。第1フォルマントに次いで周波数が低いフォルマントは、第2フォルマントと呼ばれる。第1フォルマント及び第2フォルマントは、母音を決定付ける要素である。第3フォルマントよりも高い周波数のフォルマントは、男女差又はヒトの声の特徴を形作る要素である。第1フォルマントは、例えば600[Hz]以上800[Hz]以下である。第2フォルマントは、例えば1100[Hz]以上1900[Hz]以下である。
フォルマントシフトとは、所定のフォルマントシフト条件に基づいて、フォルマントをシフトさせることをいう。フォルマントシフト条件は、フォルマントシフト方向及びフォルマントシフト量Dfを含む。フォルマントシフト方向は、高周波数側又は低周波数側を含む。すなわち、フォルマントシフトとは、フォルマントを高周波数側又は低周波数側に所定のフォルマントシフト量Dfだけシフトさせることをいう。
本実施形態において、ピッチシフト条件及びフォルマントシフト条件は、予め定められており、記憶部12に記憶されている。ピッチシフト処理部14は、記憶部12に記憶されているピッチシフト条件に基づいて、ピッチシフトする。フォルマントシフト処理部15は、記憶部12に記憶されているフォルマントシフト条件に基づいて、フォルマントシフトする。
本実施形態において、ピッチシフト方向とフォルマントシフト方向とは、同一である。すなわち、フォルマントシフト処理部15が高周波数側にフォルマントシフトした場合、ピッチシフト処理部14は高周波数側にピッチシフトする。フォルマントシフト処理部15が低周波数側にフォルマントシフトした場合、ピッチシフト処理部14は低周波数側にピッチシフトする。
ピッチシフト処理部14は、ピッチの振幅を変化させることなく、ピッチシフトする。フォルマントシフト処理部15は、フォルマントの振幅を変化させることなく、フォルマントシフトする。なお、ピッチシフト処理部14及びフォルマントシフト処理部15は、それぞれピッチシフト及びフォルマントシフトのみを精度よく行うため、振幅を変化させないとしている。ピッチシフト処理部14及びフォルマントシフト処理部15は、振幅を変化させてもよい。出力部11が、所定の周波数の振幅を変化させてもよい。
本実施形態において、処理部10は、発話者Maの骨導音と気導音との混合音である自己知覚音声がスピーカ5から出力されるように、再生音声データを生成する。フォルマントシフト処理部15は、高周波数側にフォルマントシフトする。ピッチシフト処理部14は、高周波数側にピッチシフトする。
原音声Voを自己知覚音声である再生音声Vaに変換するためのピッチシフト量Dp及びフォルマントシフト量Dfは、例えば統計的に導出することができ、記憶部12に予め記憶される。ピッチシフト処理部14は、記憶部12に記憶されているピッチシフト量Dpだけ高周波数側にピッチシフトする。フォルマントシフト処理部15は、記憶部12に記憶されているフォルマントシフト量Dfだけ高周波数側にフォルマントシフトする。
なお、原音声Voを自己知覚音声である再生音声Vaに変換するためのピッチシフト量Dp及びフォルマントシフト量Dfが、発話者Maごとに定められてもよい。ピッチシフト量Dpは、可変でもよい。フォルマントシフト量Dfは、可変でもよい。
図3及び図4のそれぞれは、本実施形態に係るフォルマントシフトを説明するための図である。図3及び図4に示すグラフにおいて、横軸は周波数[Hz]を示し、縦軸は振幅[dB]を示す。横軸は線形スケールである。図3及び図4に示す例において、原音声データのフォルマントは、第1フォルマントF1と、第2フォルマントF2と、第3フォルマントF3と、第4フォルマントF4とを含む。
フォルマントシフト処理部15は、原音声データについて高速フーリエ変換(FFT:Fast Fourier Transform)のような直交変換処理を実施して、フォルマントの包絡線L0を含む原音声データの周波数特性を算出する。包絡線L0は、複数の周波数のそれぞれの最大振幅値(最大パワー値)を結ぶように形成される。フォルマントシフト処理部15は、フォルマントの包絡線L0の少なくとも一部を高周波数側にフォルマントシフト量Dfだけフォルマントシフトする。
図3に示すように、フォルマントシフト処理部15は、第1フォルマントF1及び第2フォルマントF2の包絡線L0を高周波数側にフォルマントシフト量Dfだけフォルマントシフトしてもよい。包絡線L0がフォルマントシフトされることにより、第1フォルマントF1及び第2フォルマントF2の包絡線L1が生成される。第1フォルマントF1のフォルマントシフト方向と第2フォルマントF2のフォルマントシフト方向とは、同一である。第1フォルマントF1のフォルマントシフト量Dfと第2フォルマントF2のフォルマントシフト量Dfとは、同一である。フォルマントシフト処理部15は、第1フォルマントF1の振幅及び第2フォルマントF2の振幅を変化させることなく、第1フォルマントF1及び第2フォルマントF2をフォルマントシフトする。
なお、第1フォルマントF1のフォルマントシフト量Dfと第2フォルマントF2のフォルマントシフト量Dfとは、異なってもよい。
なお、図4に示すように、フォルマントシフト処理部15は、フォルマントの包絡線L0全体を高周波数側にフォルマントシフト量Dfだけフォルマントシフトしてもよい。図4におけるフォルマントの包絡線L0全体とは、第1フォルマントF1から第4フォルマントF4までを含む範囲である。
なお、フォルマントシフト量Dfは、第1フォルマントF1のピーク周波数P0に基づいて決定されてもよい。ピーク周波数P0における第1フォルマントF1の振幅がA0である場合、フォルマントシフト処理部15は、振幅A0の80[%]となる振幅A1と、振幅A1における第1フォルマントF1の周波数P1とを算出する。フォルマントシフト量Dfは、ピーク周波数P0と周波数P1との差を超えないように定められてもよい。フォルマントシフト量Dfは、ピーク周波数P0と周波数P1との差でもよい。なお、振幅A1は振幅A0の70[%]以上100[%]未満であればよく、振幅A0の80[%]程度とするのが好適である。
なお、フォルマントシフトにおいて、フォルマントの包絡線L0全体がシフトされなくてもよい。基本周波数の時間変化や振幅包絡の時間情報等が保持されていれば、包絡線L0においてピークを含む所定の周波数範囲だけをシフトさせてもよい。
原音声データは、フィルタ処理部13、ピッチシフト処理部14、及びフォルマントシフト処理部15のそれぞれで処理されることにより、再生音声データに変換される。再生音声Vaは、スピーカ5によって再生される。発話者Maは、スピーカ5から出力された再生音声Vaを聞くことができる。
(発音フィードバック方法)
図5は、本実施形態に係る発音フィードバック方法を示すフローチャートである。コンピュータプログラム45は、発音フィードバック方法を音声処理装置4に実行させることができる。
図5は、本実施形態に係る発音フィードバック方法を示すフローチャートである。コンピュータプログラム45は、発音フィードバック方法を音声処理装置4に実行させることができる。
発話者Maは、マイクロホン2に向かって原音声Voを発する。取得部9は、発話者Maが発した原音声Voを示す原音声データを取得する(ステップS1)。
フィルタ処理部13は、原音声データの周波数帯域を可聴帯域に制限する(ステップS2)。なお、ステップS2は任意の処理である。
ピッチシフト処理部14は、フィルタ処理部13を通過した原音声データをピッチシフトする(ステップS3)。
フォルマントシフト処理部15は、ピッチシフト処理部14を通過した原音声データをフォルマントシフトする(ステップS4)。
ステップS3及びステップS4により、再生音声Vaを示す再生音声データが生成される。処理部10は、ステップS3及びステップS4において、自己知覚音声がスピーカ5から出力されるように、再生音声データを生成する。処理部10は、ステップS2、ステップS3、及びステップS4により、再生音声Vaを示す再生音声データを生成してもよい。なお、ステップS2、ステップS3、及びステップS4の順序は任意である。
出力部11は、処理部10において生成された再生音声データをスピーカ5に出力する(ステップS5)。
スピーカ5は、再生音声Vaを発話者Maに出力する。スピーカ5から出力される再生音声Vaは、発話者Maの自己知覚音声と類似する。
(適用例)
図6は、本実施形態に係る発音フィードバック装置1の第1適用例を説明するための図である。図6は、発音フィードバック装置1が携帯電話20に適用された例を示す。携帯電話20は、送話口21と、受話口22とを有する。マイクロホン2が送話口21に配置される。スピーカ5が受話口22に配置される。音声処理装置4は、携帯電話20の内部に配置される。
図6は、本実施形態に係る発音フィードバック装置1の第1適用例を説明するための図である。図6は、発音フィードバック装置1が携帯電話20に適用された例を示す。携帯電話20は、送話口21と、受話口22とを有する。マイクロホン2が送話口21に配置される。スピーカ5が受話口22に配置される。音声処理装置4は、携帯電話20の内部に配置される。
例えば雑音環境下で電話する場合、発話者Maは、発話者Maが発した音声を聞き取り難いため、普段よりも大きい声で話したり高い声で話したりする可能性がある。本実施形態においては、発話者Maが送話口21に発した原音声Voが、音声処理装置4において再生音声Vaに変換される。再生音声Vaは、受話口22から出力される。発話者Maは、自己知覚音声である再生音声Vaを聞きながら話すことができる。したがって、雑音環境下で電話する場合において、発話者Maが普段よりも大きい声で話したり高い声で話したりすることが抑制される。
図7は、本実施形態に係る発音フィードバック装置1の第2適用例を説明するための図である。図7は、発音フィードバック装置1が歌唱練習装置30に適用された例を示す。歌唱練習装置30は、マイクスタンド31に支持されるマイクロホン2と、スピーカ5を含むモニタスピーカ32とを有する。音声処理装置4は、マイクロホン2とモニタスピーカ32との間に配置される。
発話者Maが自己認識音声である再生音声Vaを聞きながら歌唱すると、歌唱の音程が安定する場合が多い。本実施形態においては、発話者Maがマイクロホン2に発した歌唱音声である原音声Voが、音声処理装置4において再生音声Vaに変換される。再生音声Vaは、モニタスピーカ32から出力される。発話者Maは、自己知覚音声である再生音声Vaを聞きながら歌唱することができる。これにより、発話者Maの歌唱の音程は安定する。
(効果)
以上説明したように、本実施形態によれば、発話者Maが発した原音声Voを示す原音声データの音響特徴量が処理部10により調整される。処理部10は、原音声データの音響特徴量を調整して、再生音声Vaを示す再生音声データを生成する。出力部11は、再生音声データをスピーカ5に出力する。スピーカ5は、再生音声Vaを発話者Maに出力する。これにより、発話者Maに適正な再生音声Vaがフィードバックされる。発話者Maに適正は再生音声Vaがフィードバックされるので、雑音環境下で発話者Maが普段よりも大きい声で話したり高い声で話したりする現象が抑制される。
以上説明したように、本実施形態によれば、発話者Maが発した原音声Voを示す原音声データの音響特徴量が処理部10により調整される。処理部10は、原音声データの音響特徴量を調整して、再生音声Vaを示す再生音声データを生成する。出力部11は、再生音声データをスピーカ5に出力する。スピーカ5は、再生音声Vaを発話者Maに出力する。これにより、発話者Maに適正な再生音声Vaがフィードバックされる。発話者Maに適正は再生音声Vaがフィードバックされるので、雑音環境下で発話者Maが普段よりも大きい声で話したり高い声で話したりする現象が抑制される。
原音声Voを自己知覚音声である再生音声Vaに変換する場合、ピッチシフト及びフォルマントシフトが有効である。また、原音声Voを自己知覚音声である再生音声Vaに変換する場合、フォルマントシフト方向とピッチシフト方向とを一致させることが有効である。
また、原音声Voを自己知覚音声である再生音声Vaに変換する場合、ピッチシフト及びフォルマントシフトの前に、原音声Voの周波数帯域を可聴帯域に制限するフィルタ処理を実施することが有効である。
(変形例)
図8は、本実施形態の変形例に係る発音フィードバック装置101を示す模式図である。上述の実施形態においては、ピッチシフト条件及びフォルマントシフト条件が予め記憶部12に記憶されていることとした。図8に示すように、発音フィードバック装置101は、ピッチシフト条件及びフォルマントシフト条件を調整する操作装置16を備えてもよい。図8に示すように、操作装置16は、音声処理装置4に接続される。操作装置16は、ピッチシフト条件を調整するピッチスライダ16Aと、フォルマントシフト条件を調整するフォルマントスライダ16Bとを有する。ピッチスライダ16Aがスライドされることにより、ピッチシフト方向及びピッチシフト量Dpを含むピッチシフト条件が変更される。フォルマントスライダ16Bがスライドされることにより、フォルマントシフト方向及びフォルマントシフト量Dfを含むフォルマントシフト条件が変更される。発話者Maは、スピーカ5から出力される再生音声Vaを聞きながら、再生音声Vaが自己知覚音声に近付くように、操作装置16を操作することができる。
図8は、本実施形態の変形例に係る発音フィードバック装置101を示す模式図である。上述の実施形態においては、ピッチシフト条件及びフォルマントシフト条件が予め記憶部12に記憶されていることとした。図8に示すように、発音フィードバック装置101は、ピッチシフト条件及びフォルマントシフト条件を調整する操作装置16を備えてもよい。図8に示すように、操作装置16は、音声処理装置4に接続される。操作装置16は、ピッチシフト条件を調整するピッチスライダ16Aと、フォルマントシフト条件を調整するフォルマントスライダ16Bとを有する。ピッチスライダ16Aがスライドされることにより、ピッチシフト方向及びピッチシフト量Dpを含むピッチシフト条件が変更される。フォルマントスライダ16Bがスライドされることにより、フォルマントシフト方向及びフォルマントシフト量Dfを含むフォルマントシフト条件が変更される。発話者Maは、スピーカ5から出力される再生音声Vaを聞きながら、再生音声Vaが自己知覚音声に近付くように、操作装置16を操作することができる。
上述の実施形態においては、再生音声Vaが自己知覚音声であることとした。再生音声Vaは自己知覚音声でなくてもよい。また、ピッチシフト処理部14は、低周波数側にピッチシフトしてもよい。フォルマントシフト処理部15は、低周波数側にフォルマントシフトしてもよい。発話者Maがピッチの変化及びフォルマントの変化を知覚できる程度にピッチシフト及びフォルマントシフトが実施されればよい。再生音声Vaが発話者Maにフィードバックされることにより、発話者Maは、音声生成及び音声知覚を適正に行うことができる。音声生成及び音声知覚が適正に行われるので、発話者Maの吃音又は活舌の悪さに起因して、発話者Maの音声を認識し難くなる現象が抑制される。例えば英語学習において再生音声Vaを聞きながら発音練習をする場合、スピーカ5から出力される再生音声Vaを発話者Maが適正に認識できるように、原音声データの音響特徴量が調整されてもよい。
[第2実施形態]
第2実施形態について説明する。以下の説明において、上述の実施形態と同一又は同等の構成要素については同一の符号を付し、その構成要素の説明を簡略又は省略する。
第2実施形態について説明する。以下の説明において、上述の実施形態と同一又は同等の構成要素については同一の符号を付し、その構成要素の説明を簡略又は省略する。
図9は、本実施形態に係る発音フィードバック装置102を示す模式図である。本実施形態において、出力部11は、スピーカ5を含むイヤホン50に再生音声データを出力する。イヤホン50は、発話者Maの外耳道に挿入されるインナイヤホンである。イヤホン50は、外耳道において再生音声Vaを出力する。
イヤホン50は、外耳道の内面に接触するイヤピース51を含む。イヤピース51は、耳栓としても機能する。イヤピース51は、例えばゴム製、シリコーン製、及びウレタン製等である。なお、イヤピース51は、指で押すと変形する軟質材料で形成されていればよい。
イヤピース51の形状により、発話者Maの鼓膜に伝達される外部音声Vnの周波数特性が変化する。外部音声Vnとは、外耳道の外部から鼓膜に伝達される音声をいう。外部音声Vnとして、発話者Maの周囲の雑音が例示される。
イヤピース51の形状は、イヤピース51が変形した場合の形状を含む。イヤピース51が変形することによっても、発話者Maの鼓膜に伝達される外部音声Vnの周波数特性が変化する。
図10は、本実施形態に係るイヤホン50の周波数特性を説明するための図である。図10に示すラインHA,HB,HC,HDのように、イヤピース51の形状が変化することにより、発話者Maの鼓膜に伝達される外部音声Vnの周波数特性が変化する。
ラインHAは、第1直径のイヤピース51に係る外部音声Vnの周波数特性を示す。ラインHBは、第1直径よりも大きい第2直径のイヤピース51に係る外部音声Vnの周波数特性を示す。ラインHCは、第2直径よりも大きい第3直径のイヤピース51に係る外部音声Vnの周波数特性を示す。ラインHDは、第3直径よりも大きい第4直径のイヤピース51に係る外部音声Vnの周波数特性を示す。4形態のイヤピース51のうち、第1直径のイヤピース51は、最も緩めに外耳道に挿入される。第1直径のイヤピース51は、ほぼ変形しない状態で外耳道に挿入される。4形態のイヤピース51のうち、第4直径のイヤピース51は、最もきつめに外耳道に挿入される。第4直径のイヤピース51は、最も変形した状態で外耳道に挿入される。4形態のイヤピース51のうち、第4直径のイヤピース51は、外耳道を最も密閉する。
なお、発話者Maの鼓膜の近傍にマイクを配置し、4形態のイヤピース51のそれぞれを外耳道に挿入した状態で、外部音声Vnを外耳道に入力することにより、発話者Maの鼓膜に伝達される外部音声Vnの周波数特性を測定することができる。外部音声Vnは、インパルス音等の所定の周波数パターンを備えた信号を用いてもよいし、列車や自動車の走行音等の各種騒音を用いてもよい。
図10に示すように、イヤピース51の直径が大きくなるほど、鼓膜に対する外部音声Vnの遮断効果が高まり、特に高周波数帯域においてゲインが低下する。ここでいう高周波数帯域は、1000[Hz]以上20[kHz]以下の周波数帯域である。
図9に示すように、本実施形態において、処理部10は、再生音声Vaの周波数特性を調整する調整部17を含む。調整部17は、イヤホン50のイヤピース51の形状を模擬するように、イヤホン50のスピーカ5から発話者Maの鼓膜に伝達される再生音声Vaの周波数特性を調整する。記憶部12には、ラインHA,HB,HC,HDで示した周波数特性が記憶されている。調整部17は、再生音声Vaのゲインを調整するゲインコントロール機能を有する。なお、記憶部12には、ラインHA,HB,HC,HDで示した周波数特性に限らず、所定の周波数帯域における複数の異なる周波数特性が記憶されていてもよい。
上述の実施形態と同様、処理部10は、フィルタ処理部13、ピッチシフト処理部14、及びフォルマントシフト処理部15を含む。フォルマントシフト処理部15から再生音声データが出力される。調整部17は、フォルマントシフト処理部15から出力された再生音声データの周波数特性(ゲイン)を調整する。
調整部17に操作装置18が接続される。操作装置18は、回転可能なノブを含む。調整部17は、操作装置18の操作量に基づいて、再生音声Vaの周波数特性を、ラインHAで示す周波数特性、ラインHBで示す周波数特性、ラインHCで示す周波数特性、及びラインHDで示す周波数特性のそれぞれに変化させる。
本実施形態において、調整部17は、操作装置18の操作量に基づいて、スピーカ5から出力される再生音声Vaの音量を調整する。調整部17は、操作装置18の操作量に基づいて、再生音声Vaの周波数特性の変化と連動するように、再生音声Vaの音量を変化させる。再生音声Vaの周波数特性がラインHAで示す周波数特性に調整される場合、再生音声Vaの音量は、第1音量に調整される。再生音声Vaの周波数特性がラインHBで示す周波数特性に調整される場合、再生音声Vaの音量は、第1音量よりも小さい第2音量に調整される。再生音声Vaの周波数特性がラインHCで示す周波数特性に調整される場合、再生音声Vaの音量は、第2音量よりも小さい第3音量に調整される。再生音声Vaの周波数特性がラインHDで示す周波数特性に調整される場合、再生音声Vaの音量は、第3音量よりも小さい第4音量に調整される。
例えば、再生音声Vaの周波数特性がラインHAで示す周波数特性に調整されることにより、発話者Maは、クリアな再生音声Vaを第1音量で聞くことができる。再生音声Vaの周波数特性がラインHDで示す周波数特性に調整されることにより、発話者Maは、こもった再生音声Vaを第4音量で聞くことができる。発話者Maは、発話者Maの好みに合わせて再生音声Vaの周波数特性及び再生音声Vaの音量を調整することができる。
1…発音フィードバック装置、2…マイクロホン、3…コミュニケータ、4…音声処理装置、5…スピーカ、6…伝送装置、7…コミュニケータ、8…スピーカ、9…取得部、10…処理部、11…出力部、12…記憶部、13…フィルタ処理部、14…ピッチシフト処理部、15…フォルマントシフト処理部、16…操作装置、16A…ピッチスライダ、16B…フォルマントスライダ、17…調整部、18…操作装置、20…携帯電話、21…送話口、22…受話口、30…歌唱練習装置、31…マイクスタンド、32…モニタスピーカ、41…プロセッサ、42…メインメモリ、43…ストレージ、44…インタフェース、45…コンピュータプログラム、50…イヤホン、51…イヤピース、101…発音フィードバック装置、102…発音フィードバック装置、A0…振幅、A1…振幅、Df…フォルマントシフト量、Dp…ピッチシフト量、F1…第1フォルマント、F2…第2フォルマント、F3…第3フォルマント、F4…第4フォルマント、L0…包絡線、L1…包絡線、Ma…発話者、Mb…視聴者、P0…ピーク周波数、P1…周波数、Va…再生音声、Vn…外部音声、Vo…原音声、Vp…再生音声。
Claims (6)
- 発話者が発した原音声を示す原音声データを取得する取得部と、
前記原音声データの音響特徴量を調整して再生音声を示す再生音声データを生成する処理部と、
前記再生音声データを出力する出力部と、を備える、
発音フィードバック装置。 - 前記音響特徴量は、前記原音声のピッチ及びフォルマントを含み、
前記処理部は、ピッチシフトするピッチシフト処理部及びフォルマントシフトするフォルマントシフト処理部を含む、
請求項1に記載の発音フィードバック装置。 - 前記処理部は、高周波数側にフォルマントシフトした場合、高周波数側にピッチシフトし、低周波数側にフォルマントシフトした場合、低周波数側にピッチシフトする、
請求項2に記載の発音フィードバック装置。 - 前記音響特徴量は、前記原音声の周波数帯域を含み、
前記処理部は、前記周波数帯域を可聴帯域に制限するフィルタ処理部を含む、
請求項1から請求項3のいずれか一項に記載の発音フィードバック装置。 - 発話者が発した原音声を示す原音声データを取得するステップと、
前記原音声データの音響特徴量を調整して再生音声を示す再生音声データを生成するステップと、
前記再生音声データを出力するステップと、を含む、
発音フィードバック方法。 - 発話者が発した原音声を示す原音声データを取得するステップと、
前記原音声データの音響特徴量を調整して再生音声を示す再生音声データを生成するステップと、
前記再生音声データを出力するステップと、を含む発音フィードバック方法を、コンピュータに実行させる、
コンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020160162A JP2022053366A (ja) | 2020-09-24 | 2020-09-24 | 発音フィードバック装置、発音フィードバック方法、及びコンピュータプログラム |
PCT/JP2021/035137 WO2022065441A1 (ja) | 2020-09-24 | 2021-09-24 | 発音フィードバック装置、発音フィードバック方法、及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020160162A JP2022053366A (ja) | 2020-09-24 | 2020-09-24 | 発音フィードバック装置、発音フィードバック方法、及びコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022053366A true JP2022053366A (ja) | 2022-04-05 |
Family
ID=80846652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020160162A Pending JP2022053366A (ja) | 2020-09-24 | 2020-09-24 | 発音フィードバック装置、発音フィードバック方法、及びコンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2022053366A (ja) |
WO (1) | WO2022065441A1 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10224898A (ja) * | 1997-01-31 | 1998-08-21 | Sanyo Electric Co Ltd | 補聴器 |
WO2004032816A2 (en) * | 2002-10-09 | 2004-04-22 | East Carolina University | Frequency altered feedback for treating non-stuttering pathologies |
-
2020
- 2020-09-24 JP JP2020160162A patent/JP2022053366A/ja active Pending
-
2021
- 2021-09-24 WO PCT/JP2021/035137 patent/WO2022065441A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2022065441A1 (ja) | 2022-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8781836B2 (en) | Hearing assistance system for providing consistent human speech | |
JP5665134B2 (ja) | ヒアリングアシスタンス装置 | |
EP2640095B2 (en) | Method for fitting a hearing aid device with active occlusion control to a user | |
CA2964906A1 (en) | Systems, methods, and devices for intelligent speech recognition and processing | |
US10555108B2 (en) | Filter generation device, method for generating filter, and program | |
JP2006243178A (ja) | 音声処理方法と装置及びプログラム並びに音声システム | |
EP2650872A1 (en) | Masking sound generation device, masking sound output device, and masking sound generation program | |
KR20060075134A (ko) | 실시간 주파수 특성 보정 방법 및 그를 적용한 사운드재생 장치 | |
US11985467B2 (en) | Hearing sensitivity acquisition methods and devices | |
US10034087B2 (en) | Audio signal processing for listening devices | |
US11727949B2 (en) | Methods and apparatus for reducing stuttering | |
WO2020008931A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
Bouserhal et al. | An in-ear speech database in varying conditions of the audio-phonation loop | |
JP2012063614A (ja) | マスキング音生成装置 | |
CN112995854A (zh) | 音频处理方法、装置及电子设备 | |
WO2022065441A1 (ja) | 発音フィードバック装置、発音フィードバック方法、及びコンピュータプログラム | |
JP5395826B2 (ja) | 補聴器調整装置 | |
US20240214718A1 (en) | Hearing Sensitivity Acquisition Methods And Devices | |
JP2010278791A (ja) | オーディオ機能を有する機器 | |
JP2006208820A (ja) | 音声処理装置 | |
KR20200093576A (ko) | 헬멧에서, 청취자의 청각적 인식 특성을 고려하여, 라이브 전관 방송을 수행하는 방법 | |
US20240163621A1 (en) | Hearing aid listening test presets | |
US11309858B2 (en) | Method for inducing brainwaves by sound and sound adjusting device | |
CN112511941B (zh) | 一种音频输出方法及系统及耳机 | |
CN112399004B (zh) | 声音输出的调整方法及执行该调整方法的电子装置 |