JP2844817B2

JP2844817B2 - 発声練習用音声合成方式

Info

Publication number: JP2844817B2
Application number: JP2072888A
Authority: JP
Inventors: 敬子永野
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1990-03-22
Filing date: 1990-03-22
Publication date: 1999-01-13
Anticipated expiration: 2014-01-13
Also published as: JPH03273280A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、練習者の音声を分析してその特徴を抽出
し、該練習者の音声の特徴を標準話者の音声の特徴に変
換した合成音声を教師音声とする発声練習用音声合成方
式に関する。

（従来の技術）従来の発声訓練装置としては、練習者が発声する音声
についてそのピッチ周波数やフォルマント周波数を解析
して該解析結果をモニター上に画面として表示し、前記
練習者が前記モニター上の画面を観察しながら発声訓練
を行う訓練装置がすでに知られている。この発声訓練装
置の詳細については、梅崎氏らによる“聾唖者用発声・
発語訓練装置の開発”と題した論文（1988年３月日本
音響学会論文集１−４−11 p.297〜298）（文献１）に
記載されている。

またこれ以外にも、音声学の知識に基づき練習者が発
声する音声を種々のセンサにより種々のパラメータにつ
いて分析して該パラメータに基づいて訓練方法を決定
し、練習者が発声する音声について各パラメータ毎に教
師音声のパラメータと比較して発声訓練を行う訓練装置
が知られている。この装置の詳細については、山田氏ら
による“言語障害者用発声訓練装置の開発（第６報）”
と題した論文（1988年１月電子情報通信学会技術研究
報告 ET87−８ p.25〜30）（文献２）に記載されてい
る。

また最近では、教師音声を聴きながらリズム・イント
ネーション、母音の発声練習および単語の聞き取り練習
ができ、練習者の発声した音声と教師音声を聴き比べる
ことができる発声訓練装置が実現されている。この詳細
については、高田氏らによる“英語スピーチ練習システ
ムの開発”と題した論文（1987年３月電子情報通信学
会技術研究報告 ET86−12 p.49〜52）（文献３）に記
載されている。

（発明が解決しようとする課題）しかしながら、文献１の発声訓練装置では、解析した
入力音声すなわち練習者が発声する音声のみのイントネ
ーションをディスプレイに表示するから、入力音声が標
準的な発声からどの様にずれているかを確認することが
できず、練習者には標準音声と自分の音声との違いが分
かりにくいという欠点があった。

また、文献２の発声訓練装置では、練習者が発声訓練
時に種々のセンサを身につける必要があり、非常に煩わ
しく、かつセンサの付加により発声の仕方が歪められる
という欠点があった。

文献３の発声訓練装置では、リズム・イントネーショ
ンの練習と称して、予め登録されている教師音声に合わ
せて練習者が発音すると、教師音声と練習者の発声した
音声のリズムとイントネーションをディスプレイに表示
するが、表示画面を見ただけではどこをどうなおしたら
よいのかわからず、ただ単に練習者の発声が標準音声で
ある教師音声とは違うことを示すだけであるから、実際
の発声の学習には結び付きにくいという欠点があった。
また、この訓練装置では、練習者が自分の発声の聞き比
べかつ目標とする教師音声として他の話者が発声した標
準音声を使用するが、その教師音声は練習者の音声とは
音韻、韻律情報のみならず、声質等が違うから、練習者
は声質等の違いに注意を向けがちで、音韻や韻律情報を
教師音声に近づくことができるように訓練するのが難し
いという欠点があった。また、標準話者の発声速度が、
一般に一定であるから、練習者の発声速度に合わない場
合があり、練習者は言語の発声訓練時に話す速度を変え
る必要があった。

そこで本発明の目的は、個々の練習者に近い声質、発
声速度を持った教師音声を生成することによって、個々
の練習者に適した教師音声を提供し、さらに、練習者の
音声を音素毎に教師音声と比較し表示することでどの部
分に問題があるかを明瞭にし、練習者の発声と教師音声
の発声の距離を求め、学習到達度を示すことにより、ど
のくらい学習効果があったかを分かりやすく表示する発
声練習用音声合成方法を提供することにある。

（課題を解決するための手段）本発明に係る第１の発声練習用音声合成方式は、練習
者が発声した音声を入力音声として入力し、該入力音声
を分析して基本周波数の時間的変化や音韻継続時間長か
らなる韻律情報を抽出する手段と、予め分析してある標準話者の音声である標準音声の韻
律情報を記憶する手段と、前記入力音声と前記標準音声との音素間の対応関係を
それぞれの韻律情報から求め、前記入力音声の韻律情報
を予め分析してある前記標準音声の韻律情報に変換して
該入力音声と前記標準音声とを合成し、該合成した音声
を教師音声として出力する手段と、前記教師音声から抽出した前記韻律情報と前記入力音
声から抽出した前記韻律情報とを画面に表示する際に、
前記教師音声の韻律情報に対して前記教師音声から抽出
した音素名と音素境界の情報を加え、前記入力音声の韻
律情報に対して前記入力音声から抽出した音素名と音素
境界の情報を加えて、前記教師音程の韻律情報及び前記
入力音声の韻律情報を表示する手段と、を有することを特徴とする。

本発明に係る第２の発声練習用音声合成方式は、練習者が発声した音声を入力音声として入力し、該入
力音声を分析して基本周波数の時間的変化や音韻継続時
間長からなる韻律情報を抽出する手段と、予め分析してある標準話者の音声である標準音声の韻
律情報を記憶する手段と、前記入力音声と前記標準音声との音素間の対応関係を
それぞれの韻律情報から求め、前記入力音声の韻律情報
を予め分析してある前記標準音声の韻律情報に変換して
該入力音声と前記標準音声とを合成し、該合成した音声
を教師音声として出力する手段と、前記入力音声の分析結果から得た音韻継続時間長と前
記標準音声の分析結果から得た音韻継続時間長を比較し
て差異を計算し、音韻継続時間長を前記差異だけ伸縮し
た標準音声を前記教師音声出力手段において用いる標準
音声として出力する手段、または、前記入力音声と前記
標準音声のそれぞれについてストレスのある母音の継続
時間長と他の母音の継続時間長との関係を求め、前記標
準音声の前記ストレスのある母音の継続時間長を前記入
力音声の母音の継続時間長に変換し、その他の母音につ
いては前記標準音声における各母音間の継続時間長を前
記入力音声における各母音間の継続時間長に変換し、該
母音間の継続時間長を変換した前記標準音声を前記教師
音声出力手段において用いる表標準音声として出力する
手段と、を有することを特徴とする。

本発明に係る第３の発声練習用音声合成方式は、練習者が発声した音声を入力音声として入力し、該入
力音声を分析して基本周波数の時間的変化や音韻継続時
間長からなる韻律情報を抽出する手段と、予め分析してある標準話者の音声である標準音声の韻
律情報を記憶する手段と、前記入力音声と前記標準音声との音素間の対応関係を
それぞれの韻律情報から求め、前記入力音声の韻律情報
を予め分析してある前記標準音声の韻律情報に変換して
該入力音声と前記標準音声とを合成し、該合成した音声
を教師音声として出力する手段と、予め継続時間長の異なる複数の音声を記憶しておき、
前記入力音声と前記標準音声の継続時間長を比較して該
継続時間長が異なる場合には前記複数の音声の中から継
続時間長が前記入力音声に最も近い音声を選択して該音
声を前記教師音声出力手段に標準音声として出力する手
段と、を有することを特徴とする。

本発明に係る第４の発声練習用音声合成方式は、練習者が発声した音声を入力音声として入力し、該入
力音声を分析して基本周波数の時間的変化や音韻継続時
間長からなる韻律情報を抽出する手段と、予め分析してある標準話者の音声である標準音声の韻
律情報を記憶する手段と、前記入力音声と前記標準音声の音素間の対応関係をそ
れぞれの韻律情報から求め、前記入力音声の韻律情報を
予め分析してある前記標準音声の韻律情報に変換して該
入力音声と前記標準音声とを合成し、該合成した音声を
教師音声として出力する手段と、前記入力音声と前記教師音声との韻律情報同志の距離
を計算し、該距離を学習到達度に変換して画面に出力す
る手段と、を有することを特徴とする。

（作用）本発明によれば、練習者が標準話者の韻律情報、特に
リズム・イントネーションを正確に習得し、発声できる
ようになる。練習には視覚的な情報と、聴覚的な情報の
両方を用いる。視覚的な情報を表示する画面に教師音声
と練習者の発声した音声との音素間の対応を表示するこ
とにより、どの部分でどの程度違うかが確かめられる。
また、教師音声には、練習者の発声および練習者の声質
を待った音声を用いて、練習者の声と教師音声の声の違
いを少なくし、両音声の韻律情報の差を強調するから、
練習者自身が標準音声の韻律情報を正確に真似した時の
イメージをつかみながら、練習を行うことができる。例
えば、イントネーションについては、練習者のイントネ
ーションのどこが標準話者のイントネーションと違うか
を明確にわからせるために、画面上では標準話者のイン
トネーションの上に練習者のイントネーションを重ねて
表示し、どの部分が違うか視覚的に練習者に知らせる。
また、それが何という音素であるかを表示し、より正確
に問題部分を練習者に示す。また、音素毎に音声を評価
し、教師音声と異なっている部分を示す。練習用の教師
音声としては、練習を行いたい韻律情報については標準
音程のものを、それ以外の声道特性と音源特性について
は練習者の音声のものを用いて音声合成した音声を用い
る。教師音声として使われる合成音声は練習したい韻律
情報以外は練習者のものであるから、練習者が自分の発
声と教師音声を聞き比べる時に、声質的な差が少なくな
っており、両音声で練習を行いたい韻律情報の違いが分
かりやすくなり、目標とする韻律が習得しやすくなる。

さらに、練習者と標準話者の発声速度が著しく違うも
のについては、標準話者の発声速度を伸縮し、練習者の
発声速度に近づけた上で、音程合成を行うから、練習者
が教師音声の発声速度に合わせられず、正しい訓練が行
えないという欠点は解決する。

（実施例）次に、図面を参照して本発明について詳しく説明す
る。

第１図は本発明に係る第１の発声練習用音声合成方式
の一実施例を示すブロック図である。標準音声ピッチ抽
出部30は、入力端子１を介して入力する標準音声を線形
予測分析して残差特性と声道特性に分離し、さらに自己
相関法を用いて残差特性に対してピッチ抽出を行ってピ
ッチ分割位置と音素境界を抽出し、これら全てを標準音
声ファイルとする。この方法には、岩田氏の“音声ピッ
チ抽出装置”（特願昭62−210690号明細書）（文献４）
の方法を用いる。データ保存部10は、標準音声ピッチ抽
出部30でピッチ抽出を行った標準音声のデータすなわち
標準音声ファイルを保存する。標準音声として既にある
データを使用する場合に、このデータ保存部10から取り
出す。

入力音声検出部40は、入力端子６を介して入力する練
習者の音声である入力音声を線形予測分析して残差特性
と声道特性とに分離し、さらに自動音声検出を行って、
入力音声の始端・終端の位置を求める。自声検出には、
Rabiner氏らの“An Algorithm for Determining the En
dpoints of Isolated Utterrances"（Bell Syst.Tech.
J.,Vol.54,No.2,pp297−315,February1975）（文献５）
の方法を用いる。

データ照合部50は、DPマッチングを用いて、入力音声
検出部40と標準音声ピッチ抽出部30とでそれぞれ分析さ
れる入力音声と標準音声との分析結果間の距離を求めて
両音声の時間軸対応をとる。このDPマッチングには、迫
江氏らによる“動的計画法による音声パタンの類似度評
価”（1970年８月昭和45年度電子通信学会総合全国大
会講演論文集 p136）（文献６）の方法を用いる。ま
た、DPマッチングにより、あらかじめ音素名と音素境界
位置が入っている標準音声ファイルを用いて、入力音声
ファイルに入力音声における音素境界の位置を与える。

分析部60は、標準音声ピッチ抽出部30で標準音声にお
けるピッチ分割位置を挿入した標準音声ファイルを、ピ
ッチ同期で分析する。分析した標準音声ファイルを音素
名と音素境界位置、ピッチ分割位置、継続時間長、残差
特性、声道特性などに分離し、それらを第１の合成波形
作成用ファイルに書き込む。

ピッチ抽出・分析部70は、入力音声分析部40で分析さ
れ、かつデータ照合部50で入力音声における音素境界を
与えられた入力音声ファイルを用いて、入力音声に対す
るピッチ抽出を行って、ピッチ分割位置を求め、その結
果を元に入力音声ファイルをピッチ同期で分析する。こ
の分析結果は、標準音声ファイルのピッチ同期分析と同
様に第２の合成波形作成用ファイルに書き込む。

合成部80は、第１および第２の合成波形作成用ファイ
ルを用いて、標準音声の韻律情報の少なくとも１つと、
入力音声の残差特性と声道特性を用いて音声合成を行っ
て教師音声を生成する。また、合成部80は、ピッチ分割
位置、音素境界と残差特性、声道特性等の情報を持った
入力音声ファイルと標準音声ファイルを用いて、目的と
する教師音声の韻律情報を標準音声のものと変換する。
このとき、ピッチ制御を用いて入力音声または標準音声
の時間長を変換する。合成部80は、教師音声を生成する
だけではなく、標準音声、入力音声の再生を行う。出力
端子５には、これら合成された各音声が出力する。合成
波形保存部130は、教師音声を保存し、必要なときに該
教師音声を出力する。

画面表示部150は、データ照合部50で求めた入力音声
の音素名と音素境界位置および合成部80で求めた教師音
声の音素名と音素境界位置を元に、それらに対応する韻
律情報のそれぞれの場所に、音素名と音素境界の情報を
加えて画面に出力する。これらの画面に表示された情報
に対して、入力端子３にキーボードやマウス等から再生
する部分の音素を指定する信号を入力すると、合成部80
においてその信号に対応する部分の音声について音声合
成を行い、出力端子５から教師音声が出力する。

第２図は本発明に係る第２の発声練習用音声合成方式
の一実施例を示すブロック図である。第２図において、
第１図に示す実施例と同一の番号である構成要素は、第
１図に示す実施例のものと同一の動作をする。発声速度
変換部90は、標準音声ファイルと入力音声ファイルとか
ら標準音声と入力音声の全体の音韻継続時間長を比べ、
標準音声と入力音声の音韻継続時間長が著しく違う場合
には、標準音声と入力音声の音韻継続時間長の差を計算
する。この差について標準音声の時間長の伸縮を残差信
号上で行う。この伸縮にはピッチ制御法を用いる。この
方法については岩田氏の論文“残差制御による音声合成
システムの検討”（1988年10月日本音響学会講演論文
集３−２−７ p.183〜184）（文献７）に詳しく述べら
れている。

発声速度変換の別の方法としては、発声速度変換部90
において、入力音声と標準音声の分析結果である入力音
声ファイルと標準音声ファイルとから、最も強く発声す
るストレスのある母音の継続時間長と他の母音の継続時
間長との比を入力音声と標準音声のそれぞれについて求
める。さらに、標準音声における最も強く発声するスト
レスのある母音の継続時間長を、入力音声のそれに対応
する母音の部分の継続時間長に変換する。次に、標準音
声の母音同志の比を同じにするように、他の母音につい
ても継続時間長の伸縮を行う。このようにして、標準音
声の継続時間長を求め直す。

第３図は本発明に係る第３の発声練習用音声合成方式
の一実施例を示すブロック図である。第３図において、
第１図および第２図に示す実施例と同一の番号である構
成要素は、第１図および第２図に示す実施例のものと同
一の動作をする。発声速度照合部100は、入力音声と標
準音声の時間長を比較するもので、入力音声と標準音声
の時間長が著しく異なる場合は、入力音声の時間長に近
い標準音声をデータ保存部20から呼び出し、標準音声と
入力音声の時間長と等しいものに変える。

第４図は本発明に係る第４の発声練習用音声合成方式
の一実施例を示すブロック図である。第４図において、
第１図、第２図および第３図に示す実施例と同一の番号
である構成要素は、第１図、第２図および第３図に示す
実施例のものと同一の動作をする。距離計算部120は、
教師音声と入力音声の韻律パラメータ同志の距離を求
め、その結果を、予め決めておいてた評価数値対応表と
照合して評価値（例えば０〜100点）に変換する。画面
出力部110は、距離計算部120で求めた評価値および教師
音声と入力音声の韻律パラメータの時間的変化を表示す
る。評価値を表示する場合は、数値またはグラフ若しく
は図等を用いて視覚的に分かりやすい表示をする。ま
た、発声方法をアドバイスする欄を設け、例えば継続時
間長を練習している場合は、“ａの音をもっと短く発音
して下さい”、“ｉの音を少し長めに発音して下さい”
等を表示し、ピッチの場合は“ａの音は高めに発音して
下さい”、“ｕの音は低めに発音して下さい”等を表示
する。表示用の文章の中で共通の部分は、あらかじめ画
面出力部110に用意しておき、音素の部分に必要な音素
名を挿入し、画面に表示する。従って過去の評価値と現
在の評価値を対応させることにより、練習者に上達具合
いを把握させることができる。

評価値保存部140は、過去の評価値を保存しておき、
過去の練習結果として、画面に表示できるようにする。
画面出力端子20を介してこれら評価結果を画面に表示す
る。

（発明の効果）以上に詳しく説明したように、本発明によれば、発声
練習を行う際に用いる教師音声の声質は練習者の声質に
近いものであり、その発声速度は練習者の音声とほぼ同
じであるから、練習者にとって分かりやすく個々の練習
者に適した教師音声を生成する発声練習用音声合成方式
を提供できる。また、本発明の発声練習用音声合成方式
の画面表示では、教師音声と入力音声の両方に音素境界
を表示することによって、どの音に問題があるか分かり
やすくなり、その音を練習する時の方法等も表示するか
ら、練習者が上達する上で大きな効果がある。

【図面の簡単な説明】

第１図は本発明に係る第１の発声練習用音声合成方式の
一実施例を示すブロック図、第２図は本発明に係る第２
の発声練習用音声合成方式の一実施例を示すブロック
図、第３図は本発明に係る第３の発声練習用合成方式の
一実施例を示すブロック図、第４図は本発明に係る第４
の発声練習用合成方式の一実施例を示すブロック図であ
る。１……入力端子、３……入力端子、５……出力端子、６
……入力端子、10……データ保存部、20……画面出力端
子、30……標準音声ピッチ抽出部、40……入力音声検出
部、50……データ照合部、60……分析部、70……ピッチ
抽出・分析部、80……合成部、90……発声速度変換部、
100……発声速度照合部、110……画面出力部、120……
距離計算部、130……合成波形保存部、140……評価値保
存部、150……画面表示部。

Claims

(57)【特許請求の範囲】

【請求項１】練習者が発声した音声を入力音声として入
力し、該入力音声を分析して基本周波数の時間的変化や
音韻継続時間長からなる韻律情報を抽出する手段と、予め分析してある標準話者の音声である標準音声の韻律
情報を記憶する手段と、前記入力音声と前記標準音声との音素間の対応関係をそ
れぞれの韻律情報から求め、前記入力音声の韻律情報を
予め分析してある前記標準音声の韻律情報に変換して該
入力音声と前記標準音声とを合成し、該合成した音声を
教師音声として出力する手段と、前記教師音声から抽出した前記韻律情報と前記入力音声
から抽出した前記韻律情報とを画面に表示する際に、前
記教師音声の韻律情報に対して前記教師音声から抽出し
た音素名と音素境界の情報を加え、前記入力音声の韻律
情報に対して前記入力音声から抽出した音素名と音素境
界の情報を加えて、前記教師音声の韻律情報及び前記入
力音声の韻律情報を表示する手段と、を有することを特徴とする発声練習用音声合成方式。
【請求項２】練習者が発声した音声を入力音声として入
力し、該入力音声を分析して基本周波数の時間的変化や
音韻継続時間長からなる韻律情報を抽出する手段と、予め分析してある標準話者の音声である標準音声の韻律
情報を記憶する手段と、前記入力音声と前記標準音声との音素間の対応関係をそ
れぞれの韻律情報から求め、前記入力音声の韻律情報を
予め分析してある前記標準音声の韻律情報に変換して該
入力音声と前記標準音声とを合成し、該合成した音声を
教師音声として出力する手段と、前記入力音声の分析結果から得た音韻継続時間長と前記
標準音程の分析結果から得た音韻継続時間長を比較して
差異を計算し、音韻継続時間長を前記差異だけ伸縮した
標準音声を前記教師音声出力手段において用いる標準音
声として出力する手段、または、前記入力音声と前記標
準音声のそれぞれについてストレスのある母音の継続時
間長と他の母音の継続時間長との関係を求め、前記標準
音声の前記ストレスのある母音の継続時間長を前記入力
音声の母音の継続時間長に変換し、その他の母音につい
ては前記標準音声における各母音間の継続時間長を前記
入力音声における各母音間の継続時間に変換し、該母音
の継続時間長を変換した前記標準音声を前記教師音声出
力手段において用いる標準音声として出力する手段と、を有することを特徴とする発声練習用音声合成方式。
【請求項３】練習者が発声した音声を入力音声として入
力し、該入力音声を分析して基本周波数の時間的変化や
音韻継続時間長からなる韻律情報を抽出する手段と、予め分析してある標準話者の音声である標準音声の韻律
情報を記憶する手段と、前記入力音声と前記標準音声との音素間の対応関係をそ
れぞれの韻律情報から求め、前記入力音声の韻律情報を
予め分析してある前記標準音声の韻律情報に変換して該
入力音声と前記標準音声とを合成し、該合成した音声を
教師音声として出力する手段と、予め継続時間長の異なる複数の音声を記憶しておき、前
記入力音声と前記標準音声の継続時間長を比較して該継
続時間長が異なる場合には前記複数の音声の中から継続
時間長が前記入力音声に最も近い音声を選択して該音声
を前記教師音声出力手段に標準音声として出力する手段
と、を有することを特徴とする発声練習用音声合成方式。
【請求項４】練習者が発声した音声を入力音声として入
力し、該入力音声を分析して基本周波数の時間的変化や
音韻継続時間長からなる韻律情報を抽出する手段と、予め分析してある標準話者の音声である標準音声の韻律
情報を記憶する手段と、前記入力音声と前記標準音声の音素間の対応関係をそれ
ぞれの韻律情報から求め、前記入力音声の韻律情報を予
め分析してある前記標準音声の韻律情報に変換して該入
力音声と前記標準音声とを合成し、該合成した音声を教
師音声として出力する手段と、前記入力音声と前記教師音声との韻律情報同志の距離を
計算し、該距離を学習到達度変換して画面に出力する手
段と、を有することを特徴とする発声練習用音声合成方式。