JP7040258B2

JP7040258B2 - 発音変換装置、その方法、およびプログラム

Info

Publication number: JP7040258B2
Application number: JP2018084381A
Authority: JP
Inventors: 定男廣谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-04-25
Filing date: 2018-04-25
Publication date: 2022-03-23
Anticipated expiration: 2038-04-25
Also published as: US20210241754A1; WO2019208193A1; JP2019191378A; US11557287B2

Description

本発明は、ある言語を母語としない非母語話者が、その言語を発話する際の発音を学習する際に用いる発音変換装置、発音を変換する際に用いるピッチマーク時刻抽出装置、それらの方法、およびプログラムに関する。

非母語話者の発音の学習においては、学習者（非母語話者）がネイティブ（母語話者）の発音を聞き、それを真似て発話し、ネイティブが評価を行う、あるいはComputer-Assisted Language Learning (CALL)を用いて発音の評定を行ったり、発音の誤りを視覚的に理解することが一般的である。非特許文献１は、CALLの一例であって、フォルマント分析と音素認識による評価に基づいて、調音指示を行うシステムが開示されている。

坪田康、壇辻正剛、河原達也、「フォルマント構造推定による日本人用英語発音教示システム」、音声言語処理27-12, 1999年

非特許文献１の手法では、評価結果が視覚的にフィードバックされるが、どう誤っていてどのように修正すればよいかを学習者が直感的に理解することが難しく、発音の改善が難しいという問題がある。

この問題に鑑み、本発明では、学習者が直感的に発音を改善することが可能なシステムを提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、発音変換装置は、ある言語を母語とする第一話者が他の言語を発話した際に得られる第一音声信号に対応する第一特徴量を、他の言語を母語とする第二話者が他の言語を発話した際に得られる第二音声信号に対応する第二特徴量に近づくように変換する変換部を含み、第一特徴量及び第二特徴量は、発音の違いを表現可能な特徴量であり、変換後の第一特徴量から得られる音声信号は、第一話者に対して提示される。

上記の課題を解決するために、本発明の一態様によれば、ピッチマーク時刻抽出装置は、音声信号の音声区間を検出する音声区間検出部と、音声信号と音声区間とを用いて、LPC分析により音声区間の音声信号から得られるLPC係数aと、音声区間の第一音声信号とを用いて、LPC残差信号を求めるLPC分析部と、音声信号を用いて、EGG声門閉鎖時刻に対応するインパルス列を算出するピッチマーク分析部と、LPC残差信号とインパルス列との相互相関を推定することで、EGG声門閉鎖時刻に対するLPC残差信号の遅延を推定する相互相関推定部と、遅延とインパルス列とLPC残差信号とに基づき、ピッチマーク時刻を推定するピッチマーク時刻推定部と、有する。

本発明によれば、学習者が直感的に発音を改善できるという効果を奏する。

第一実施形態に係る学習システムの機能ブロック図。第一実施形態に係る学習システムの処理フローの例を示す図。第二実施形態に係る特徴量抽出部の機能ブロック図。第二実施形態に係る特徴量抽出部の処理フローの例を示す図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜本実施形態の基本原理＞
本実施形態は、ある言語（例えば日本語）を母語とする話者が他の言語（例えば英語）を発話したときに、他の言語（例えば”had”などの英単語）の母音を他言語の正しい発音に直してリアルタイムにフィードバックすると、話者は無意識のうちに正しい発音に引きずられ発音が上手くなるという自然法則の発見に基づく。ここで、リアルタイムとは、話者に発音の変換による時間ずれに気づかれない範囲内で処理を行うことを意味し、20ミリ秒以下で処理を完了することが望ましいとされる。

この発見に基づき、本実施形態の発音変換装置は、学習者（発話者）の発音をネイティブの発音に近い形に変換した音を学習者にフィードバックすることで、学習者が直感的に発音を改善しやすいシステムを提供する。

＜第一実施形態＞
図１は第一実施形態に係る学習システムの機能ブロック図を、図２はその処理フローを示す。

学習システム１０は、収音装置９１と発音変換装置１００と再生装置９２とを含む。さらに、発音変換装置１００は、特徴量抽出部１１０と、変換部１２０とを含む。

学習システム１０は、収音装置９１で学習者の発話を収音し、発音変換装置１００において収音した収音信号（以下、原音声信号ともいう）s(t)に含まれる学習者の発音をネイティブの発音に近い形に変換し、変換後の信号（以下、変換後音声信号ともいう）y(t)を再生装置９２で再生し学習者に対して提示する。なお、tは時刻を示すインデックスである。

発音変換装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。発音変換装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。発音変換装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。発音変換装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。発音変換装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも発音変換装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、発音変換装置の外部に備える構成としてもよい。

以下、発音変換装置１００の各部について説明する。

＜特徴量抽出部１１０＞
特徴量抽出部１１０は、原音声信号s(t)を入力とし、原音声信号s(t)から、特徴量を抽出し（Ｓ１１０）、出力する。ここで抽出する特徴量は、原音声信号s(t)と目標（お手本）とする発音の音声信号（以下、目標音声信号ともいう）との発音の違いを表現可能な特徴量であり、例えば、フォルマント周波数若しくはフォルマント周波数のバンド幅である。

フォルマント周波数の抽出方法としては、例えば、PEAR(phase equalization-based autoregressive exogenous model)と呼ばれるアルゴリズム（参考文献１参照）等の周知技術や、後述の第二実施形態で説明する手法を用いれば良い。
（参考文献１）：Oohashi, H., Hiroya, S., and Mochida, T., "Real-time robust formant estimation system using a phase equalization-based autoregressive exogenous model", Acoustical Science and Technology, vol. 36, no. 6, pp. 478-488, 2015.

例えば、原音声信号s(t)をPEAR（もしくはLPC）分析して線形予測係数a₁, …, a_P(Pは予測次数)を求め、線形予測係数により得られる予測多項式の根z₁, …, z_Pを求める。このとき虚根の角をθ₁, …, θ_P、大きさをr₁, …, r_Pとする。θ_pとフォルマント周波数F_pは以下の式(1)の関係にあるので、θ_pを逆変換するとフォルマント周波数F_pが求まる。各p(1≦p≦P)についてθ_pからフォルマント周波数F_pを求める。

ただし、f_sはサンプリング周波数を表す。

フォルマント周波数のバンド幅を特徴量として用いる場合には、B_pをフォルマント周波数のバンド幅とすると、

の関係が成り立つので、大きさr_pを逆変換することでバンド幅B_pを求めればよい。

＜変換部１２０＞
変換部１２０は、特徴量抽出部１１０で抽出した特徴量と、目標音声信号の特徴量とに基づいて、原音声信号s(t)を変換した変換後音声信号y(t)を求める。変換後音声信号y(t)は、再生装置９２で学習者が知覚可能な形（聴こえる形）で再生される。

例えば、変換部１２０は、特徴量抽出部１１０で抽出した特徴量を入力とし、この特徴量を目標音声信号の特徴量に近づくように変換する（Ｓ１２０）。
（特徴量としてフォルマント周波数を用いる場合）
特徴量抽出部１１０で抽出したフォルマント周波数に対応する声道スペクトルA(z)と、目標音声信号のフォルマント周波数に対応する声道スペクトルA’(z)とを用いて、変換後音声信号y(t)を求め、出力する。ただし、zは線形予測係数により得られる予測多項式の根である。

より詳細には、原音声信号の声道スペクトルA(z)と目標音声信号の声道スペクトルA’(z)とから、以下の式(3)に従う変換フィルタF(z)を求め、変換フィルタF(z)に原音声信号S(z)を通すことにより、変換後音声信号Y(z)を求める。つまり、式(4)により変換後音声信号Y(z)を求める。ここで、S(z)は原音声信号s(t)の周波数領域表現である。声道スペクトルは通常の音声分析と同様に5～10ミリ秒毎に求める。したがって、変換フィルタも声道スペクトルに合わせてフレーム毎に更新する。

Y(z)=F(z)S(z) (4)
例えば、声道スペクトルA(z)及び声道スペクトルA'(z)は以下のように表される。

ここで、θ'_pは目標音声信号のフォルマント周波数F'_pから、下記式により求められる。

（特徴量としてフォルマント周波数のバンド幅を用いる場合）
特徴量抽出部１１０で抽出したフォルマント周波数のバンド幅に対応する声道スペクトルA(z)と、目標音声信号のフォルマント周波数のバンド幅に対応する声道スペクトルA’(z)とを用いて、変換後音声信号y(t)を求める。式(3),(4),(5)については特徴量としてフォルマント周波数を用いる場合と同様である。

この場合、声道スペクトルA'(z)は以下のように表される。

ここでr_p'は、目標音声信号のフォルマント周波数F'_pのバンド幅B_p'から下記式により求められる。

（特徴量としてフォルマント周波数とフォルマント周波数のバンド幅を用いる場合）
特徴量抽出部１１０で抽出したフォルマント周波数とそのバンド幅に対応する声道スペクトルA(z)と、目標音声信号のフォルマント周波数とそのバンド幅に対応する声道スペクトルA’(z)とを用いて、変換後音声信号y(t)を求める。式(3),(4),(5)については特徴量としてフォルマント周波数を用いる場合と同様である。

この場合、声道スペクトルA'(z)は以下のように表される。

ここでθ_p',r_p'は、上述の式(7),(9)から求められる。

なお、目標音声信号の特徴量（フォルマント周波数F'_pおよびバンド幅B'_p）または目標音声信号の声道スペクトルA’(z)は、発音変換に先立ち、予め外部から与えられるか、あるいは、図示しない記憶部に予め記憶されているものとする。例えば、原音声信号s(t)に対応する発話(単語単位、文単位、文章単位の何れであってもよく、適宜設定すればよい)をネイディブ（母語話者）が行い、その発話を収音して得られる音声信号から特徴量を得、得た特徴量から声道スペクトルA’(z)を求めておく。

さらに、変換部１２０は、変換後の音声信号(以下、変換後音声信号ともいう)Y(z)を時間領域に変換して、時間領域の変換後音声信号y(t)を得（参考文献４参照）、出力する。
（参考文献４）Villacorta, V.M., Perkell, J.S., and Guenther, F.H., "Sensorimotor adaptation to feedback perturbations of vowel acoustics and its relation to perception", J. Acoust. Soc. Am., 2007, pp.2306--2319, 2007.

例えば、”had”という英単語の”a”のフォルマント周波数をネイティブのものに変換するためには、第１フォルマント周波数（F1）を862Hz、第２フォルマント周波数（F2）を1615Hzにすればよい。これらが目標とする音声信号のフォルマント周波数となる。なお、F1やF2は上述のP個のフォルマント周波数F₁, …, F_Pの中から決定されるものとする。

＜効果＞
以上の構成により、変換後音声信号y(t)が再生装置９２で再生され、学習者に提示される。再生音を聴きながら、学習者は無意識のうちに正しい発音に引きずられ発音が上手くなり、学習者は直感的に発音を改善しやすくなる。

なお、従来のリアルタイムフォルマント周波数変換研究においては、人間のメカニズムの解明が目的であったため、フォルマント周波数を100Hzシフトさせるなどの処理が主であり、非母語話者の発音をよくするという観点はなく、この観点からフォルマント周波数を変換するという技術的思想は本願独自のものである。

日本語母語話者が”had”などの母音[ae]（アッシュ）を含む英単語を発話する際、日本語の母音「あ」に置き換え、「ハド」と発話する。日本語母音「あ」のF1はおおよそ920Hz、F2は1500Hzである。英語母音[ae]の音を学習させるために、リアルタイムに母音のF1を862Hz、F2を1615Hzに変換した音声を日本語母語話者に聞かせると、話者はF1を862Hz、F2を1615Hzに近づけるように、F1を下げ、F2を上げて発話を行う。F1は舌の上下、F2は舌の前後の位置と対応していることから、フォルマント周波数が英語母音のそれに近づいたということは、舌の位置が英語母音のそれに近づいたということである。つまり、英語母音の正しい舌の位置とフォルマント周波数の関係を直感的に理解できることになる。

＜変形例１＞
変換部１２０では、特徴量抽出部１１０で抽出した特徴量と、目標音声信号の特徴量とに基づいて、原音声信号s(t)を変換したが、常に同じフォルマント周波数に変換されると不自然と感じることがある。

そこで、不自然さを解消するため、変換部１２０で用いる目標音声信号の特徴量（以下、目標特徴量ともいう）として、予め与えられた目標音声信号の特徴量を補正したもの（以下、「補正目標特徴量」ともいう）を用いる。補正目標特徴量は、目標特徴量の近傍の値の中からランダムに選択される値とする。発話毎に変換部１２０で変換を行うとした場合に、時間的に連続する複数の発話の少なくとも一部において、異なる補正目標特徴量が用いられるようにすればよい。

このような処理を行うことで、変換部１２０は、目標特徴量に乱数を与えて、特徴量抽出部１１０で抽出した特徴量を、補正目標特徴量に近づくように変換することができ、不自然さを解消できる。

例えば、本変形例では、目標音声信号の特徴量が、発音変換に先立ち、予め外部から与えられるか、あるいは、図示しない記憶部に予め記憶されており、変換部１２０は、目標音声信号の特徴量を中心に発話毎に異なる乱数を与えて、乱数を与えた値（補正目標特徴量）から声道スペクトルA’(z)を求める。このような構成により、発話毎にばらつきを与えることができ、上述の不自然さを解消することができる。

＜第二実施形態＞
第一実施形態と異なる部分を中心に説明する。

第二実施形態は、第一実施形態の特徴量抽出部１１０の処理が第一実施形態とは異なる。

第一実施形態では、特徴量の計算は参考文献１等の従来技術を用いてもよいこととしていた。しかし、参考文献１に開示されているPEARでは、リアルタイムに精度よくフォルマント周波数を抽出することができるが、そのためにはEGG(Electroglottography)という装置を用いて声帯振動を計測し、ピッチマークを抽出する必要がある。ここで、EGGからピッチマークを抽出する方法としては特許文献２を用いれば良い。
（参考文献２）特開２０１６－１３３５２２号公報
ただし、利用の便を考えた場合、EGG等の装置を用いず、PEARにより、入力音声信号（原音声信号）のみから精度よくピッチマーク、そしてフォルマント周波数を抽出できるほうが好ましい。背景技術に記載した非特許文献１の技術においてもフォルマント分析が用いられているが、このフォルマント分析のためには、第一実施形態と同じくEGG等の装置が必要であり、簡便に利用することができないという問題がある。

そこで、第二実施形態の特徴量抽出部１１０は、EGGを利用せず、入力音声信号のみからフォルマント周波数を抽出することを特徴とする。特に、従来EGGが必要とされたのはピッチマーク時刻の抽出処理であるが、第二実施形態の特徴量抽出部１１０は、EGGを利用せず、入力音声信号のみからピッチマーク時刻を抽出することを特徴とする。これにより、第一実施形態よりも簡便な装置で、発話変換を実現することができる。なお、ピッチマーク時刻は、発話変換のみならず、音声合成、音声変換及び音声分析等の基盤技術となる特徴量である。つまり、第二実施形態の音声区間検出部１１１、LPC分析部１１２、ピッチマーク分析部１１３、相互相関推定部１１４、ピッチマーク時刻推定部１１５を切り出して、ピッチマーク時刻を抽出するピッチマーク時刻抽出装置として機能させ、抽出したピッチマークを音声合成や音声分析等に用いることも可能である。この場合も、EGG等の装置が不要で、簡便、かつ、精度良くピッチマーク時刻を抽出することが可能となる効果がある。

図３は第二実施形態の特徴量抽出部１１０の機能ブロック図を、図４はその処理フローの例を示す。

第二実施形態の特徴量抽出部１１０は、音声区間検出部１１１、LPC分析部１１２、ピッチマーク分析部１１３、相互相関推定部１１４、ピッチマーク時刻推定部１１５、抽出部１１６を含む。

以下、各部の処理内容を説明する。

＜音声区間検出部１１１＞
まず、音声区間検出部１１１は、原音声信号s(t)を受け取り、入力された原音声信号s(t)の音声区間を検出し、出力する（Ｓ１１１）。例えば、原音声信号s(t)のパワーを求め、そのパワーが所定の閾値よりも大きい場合に、音声区間として検出し、音声区間を表す情報（以下「音声区間情報」ともいう）を出力する。例えば、音声区間情報をu(t)とし、音声信号s(t)が音声区間であればu(t)=1とし、音声区間でなければu(t)=0とする。また、音声区間の開始時刻及び終了時刻（および／または、音声区間でない区間の開始時刻及び終了時刻）を音声区間情報として出力してもよい。音声区間として検出された音声信号s(t)を、そのまま音声区間情報として出力してもよい。要は、以下の処理において、音声区間が分かればよいので、どのような方法により、音声区間を検出し、音声区間情報を出力してもよい。以下の処理において、音声区間に対してのみ処理を行うことで、処理量を軽減することができる。なお、本実施形態では音声区間情報をu(t)とする。

＜LPC分析部１１２＞
LPC分析部１１２は、原音声信号s(t)とその音声区間情報u(t)とを受け取り、LPC分析により音声区間の原音声信号s(t)から得られるLPC係数aと、音声区間の原音声信号s(t)とを用いて、LPC残差信号e(t)を求め（Ｓ１１２）、LPC分析の過程で得られる自己相関関数R_SSと、LPC残差信号e(t)とを出力する。

例えば、本実施形態では、LPC分析部１１２は、原音声信号s(t)に対して通常のLPC分析(例えば参考文献３参照)を行い、LPC係数aと、自己相関関数R_SSとを求める。
（参考文献３）古井、「ディジタル音声処理」、東海大学出版会、1985年、pp.60-65.

最後に、原音声信号s(t),s(t-1),…,s(t-P)とLPC係数a={a(1),a(2),…,a(P)}とを用いて、次式によりLPC残差信号e(t)を求める。

なお、sp(t)は、原音声信号s(t)に対して音源スペクトルの傾斜特性を取り除くためにプリエンファシスを行って得られる原音声信号である。ただし、プリエンファシスを行った原音声信号sp(t)は次式により表される。
sp(t)=s(t)-αs(t-1) (12)
αは例えば0.98を用いる。なお、プリエンファシス(pre-emphasis)とは、伝送路固有の高周波数における減衰特性に応じて伝送信号の高域側を増幅して送信側から送出し、受信側で受ける信号の周波数特性を改善する変調技術である。

＜ピッチマーク分析部１１３＞
ピッチマーク分析部１１３は、原音声信号s(t)を受け取り、原音声信号s(t)を用いて、EGG声門閉鎖時刻{t_i ^E}に対応する時刻において１を、それ以外の時刻において0を持つインパルス列δ(t,{t_i ^E})を算出し（Ｓ１１３）、出力する。例えば、参考文献４のP997のSEDREAMSというアルゴリズムで音声信号から参考文献４の図3(b)のようなmean-based signal x(t)を作成する。なお、mean-based signal x(t)は次式により、求まる。

w(m)は窓長2N+1の窓関数(例えばハミング窓)である。この際、予め発話者(学習者)のおおよそのピッチラグ（基本周波数をサンプリング周波数で割ったもの）を求めておき、そのピッチラグを1.75倍した値を2N+1とする。あるいは、予め発話者のピッチラグを求めておくのではなく、LPC分析部１１２で求めた自己相関関数R_ssの値を最大にするピッチラグをフレーム毎に用いてもよい。また、変形自己相関法など各種ピッチ分析により、ピッチラグをフレーム毎に求めてもよい。このmean-based signal x(t)はピッチラグの周期を持つ周期関数であり、最小値を持つ時刻、例えばx(t)-x(t-1)<0かつx(t)-x(t+1)<0となる時刻t、でパルスを立てたパルス列を前述のインパルス列δ(t,{t_i ^E})として生成する。
（参考文献４）T. Drugman, M. Thomas, J. Gudnason, P. Naylor, and T. Dutoit, “Detection of Glottal Closure Instants from Speech Signals: A Quantitative Review,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no. 3, pp. 994-1006, Mar. 2012.

＜相互相関推定部１１４＞
相互相関推定部１１４は、LPC残差信号e(t)とインパルス列δ(t,{t_i ^E})とを受け取り、次式により、LPC残差信号e(t)とインパルス列δ(t,{t_i ^E})との相互相関を推定することで（Ｓ１１４）、EGG声門閉鎖時刻に対するLPC残差信号e(t)の遅延τを推定し、出力する。

なお、原音声信号s(t)とインパルス列δ(t,{t_i ^E})の相互相関を計算し、相互相関の値が最大となる値を遅延τとしてもよい。このとき、遅延推定部１１４は少なくとも相互相関の計算に必要となる値を求めるための構成を備えればよい。

＜ピッチマーク時刻推定部１１５＞
ピッチマーク時刻推定部１１５は、相互相関推定部１１４で求めた遅延τと、ピッチマーク分析部１１３で求めたインパルス列δ(t,{t_i ^E})と、ＬＰＣ残差信号e(t)とに基づき、ピッチマーク時刻ｔ_i ^Ｓを推定して（Ｓ１１５）出力する。

例えば、インパルス列δ(t,{t_i ^E})によってパルスが立つ（値が１となる）時刻ｔ_iに遅延τを加えた値ｔ_i＋τの近傍の範囲（ｔ_i＋τ±Δ）に含まれる時刻のうち、対応するLPC残差信号e(t)が最大または最小となる時刻をピッチマーク時刻ｔ_i ^Ｓとして推定し、抽出部１１６に出力する。Δは、基本周期F0より小さい値であり、予め定めておくものとする。

なお、LPC残差信号とEGGの場合、多くの遅延τは正の値になるが、LPC残差信号とmean-based signalの場合、遅延τは負の値になることもある。

以上の処理により、原音声信号s(t)のみから精度よくピッチマーク時刻を抽出することができる。

＜抽出部１１６＞
特徴量抽出部１１０の抽出部１１６では、このようにして求めたピッチマーク時刻ｔ_i ^Ｓと原音声信号s(t)、LPC残差信号e(t)、自己相関関数R_ssから特徴量（例えば、フォルマント周波数とフォルマント周波数のバンド幅との少なくとも何れか）を抽出し（Ｓ１１６、参考文献１参照）、出力する。

例えば、抽出部１１６は、ピッチマーク時刻ｔ_i ^Ｓと原音声信号s(t)、LPC残差信号e(t)、を用いて、次式により値V(p)を求める。

ただし、w(m)は前述の窓関数である。次に、抽出部１１６は、値V(p)と自己相関関数R_ssとを用いて次式に基づきLPC係数^a(p)を得る。

さらに、LPC係数^a(p)からフォルマント周波数とフォルマント周波数のバンド幅との少なくとも何れかを求める。LPC係数^a(p)からフォルマント周波数F_p、バンド幅B_pを求める方法は第一実施形態で説明した通りである。つまり、LPC係数^a(p)により得られる予測多項式の根z₁, …, z_Pを求める。このとき虚根の角をθ₁, …, θ_P、大きさをr₁, …, r_Pとする。角θ_pとフォルマント周波数F_pは上述の式(1)の関係にあるので、θ_pを逆変換するとフォルマント周波数F_pが求まる。また、大きさr_pとバンド幅B_pは上述の式(2)の関係にあるので、大きさr_pを逆変換することでバンド幅B_pを求めればよい。

＜効果＞
このような構成により、本実施形態ではEGG等の装置を用いずに、第一実施形態と同様の効果を得ることができる。

＜変形例＞
上述の第一実施形態、第二実施形態では、フォルマント抽出のためにPEARを用いたが、線形予測符号化（Linear Predictive Coding: LPC）を用いても良い。

変換後音声信号をリアルタイムに発話者に返す(再生する)のではなく、少し時間が経ってから（例えば1秒後）発話者に返しても良い。このような場合にも、直後に正しい発音を確認することで、学習者は直感的に発音を改善できる。

変換後音声信号を発話者に返すと同時に、フォルマント周波数を視覚的に与えても良い。

上述の変換部１２０の例では、フォルマント周波数F_p’を862Hzなど目標とするフォルマント周波数を陽に与えているが、原音声信号s(t)のフォルマント周波数を目標音声信号のフォルマント周波数に変換するシフト量を与えても良い。例えば、シフト量をSpとした場合、F_p’=F_p+S_pとなり、F_p’をθ_p’との関係式を用いてθ_p’に変換すれば、式(3),(4)を用いて音声信号の変換を行うことができる。シフト量S_pは、例えば日本語母語話者のフォルマント周波数の平均^-F_pと英語母語話者の平均^-F'_pの差分Sp=^-F'_p-^-F_pで求めることができる。

本実施例は、非母語話者の発音を母語話者のそれに変換するものであったが、母語話者の方言の発音を母語話者の標準語の発音に変換するなど、母語話者間での発音の変換であってもよいし、また非母語話者間の変換であってもよい。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

ある言語を母語とする第一話者が他の言語を発話した際に得られる第一音声信号に対応する第一特徴量を、前記他の言語を母語とする第二話者が前記他の言語を発話した際に得られる第二音声信号に対応する第二特徴量に近づくように変換する変換部を含み、
前記第一特徴量及び前記第二特徴量は、発音の違いを表現可能な特徴量であり、
前記第二特徴量は、前記他の言語を母語とする一般的な話者の発音に基づく特徴量であり、
変換後の前記第一特徴量から得られる音声信号は、前記第一話者に対して提示される、
発音変換装置。
請求項１の発音変換装置であって、
前記第一音声信号の音声区間を検出する音声区間検出部と、
前記第一音声信号と前記音声区間とを用いて、LPC分析により前記音声区間の前記第一
音声信号から得られるLPC係数aと、前記音声区間の前記第一音声信号とを用いて、LPC残
差信号を求めるLPC分析部と、
前記第一音声信号を用いて、EGG声門閉鎖時刻に対応するインパルス列を算出するピッ
チマーク分析部と、
前記LPC残差信号と前記インパルス列との相互相関を推定することで、前記EGG声門閉鎖時刻に対する前記LPC残差信号の遅延を推定する相互相関推定部と、
前記遅延と前記インパルス列と前記LPC残差信号とに基づき、ピッチマーク時刻を推定
するピッチマーク時刻推定部と、
前記ピッチマーク時刻と前記第一音声信号から前記第一特徴量を抽出する抽出部とを、有する、
発音変換装置。
請求項１または請求項２の発音変換装置であって、
線形予測係数により得られる予測多項式の根をzとし、前記変換部は、前記第一特徴量
に対応する第一声道スペクトルA(z)と、前記第二特徴量に対応する第二声道スペクトルA'(z)とから変換フィルタ

を求め、前記第一特徴量を前記変換フィルタF(z)を用いて変換する、
発音変換装置。
請求項３の発音変換装置であって、
前記第一音声信号から求まる線形予測係数により得られる予測多項式の虚根の大きさをr_pとし、線形予測係数により得られる予測多項式の虚根の角をθ_pとし、前記第一声道ス
ペクトルA(z)は、

であり、
前記第二声道スペクトルA'(z)は、

であり、

または

または

であり、第二音声信号のフォルマント周波数をF'_pとし、サンプリング周波数をf_sとし、
第二音声信号のフォルマント周波数のバンド幅をB'_pとし、

である、
発音変換装置。
請求項１から請求項４の何れかの発音変換装置であって、
前記変換部は、前記第二特徴量に乱数を与えて、前記第一特徴量を、乱数を与えた前記第二特徴量に近づくように変換する、
発音変換装置。
変換部が、ある言語を母語とする第一話者が他の言語を発話した際に得られる第一音声信号に対応する第一特徴量を、前記他の言語を母語とする第二話者が前記他の言語を発話した際に得られる第二音声信号に対応する第二特徴量に近づくように変換する変換ステップを含み、
前記第一特徴量及び前記第二特徴量は、発音の違いを表現可能な特徴量であり、
前記第二特徴量は、前記他の言語を母語とする一般的な話者の発音に基づく特徴量であり、
変換後の前記第一特徴量から得られる音声信号は、前記第一話者に対して提示される、
発音変換方法。
請求項１から請求項５の何れかの発音変換装置としてコンピュータを機能させるためのプログラム。