JP2013238819A

JP2013238819A - 音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム

Info

Publication number: JP2013238819A
Application number: JP2012113439A
Authority: JP
Inventors: Hideyuki Mizuno; 秀之水野; Yusuke Ijima; 勇祐井島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-05-17
Filing date: 2012-05-17
Publication date: 2013-11-28
Anticipated expiration: 2032-05-17
Also published as: JP5706368B2

Abstract

【課題】発話者の声質を維持したまま聴取者にとって聞き取りやすい音声に変換する。
【解決手段】第一話者モデル学習部１１０は、複数の第一話者が発話した音声を学習して第一話者平均声モデルを生成する。第二話者モデル学習部１１５は、複数の第二話者が発話した音声を学習して第二話者平均声モデルを生成する。第一話者音声合成部１２０は、第一話者平均声モデルを用いて第一話者平均声合成音を生成する。第二話者音声合成部１２５は、第二話者平均声モデルを用いて第二話者平均声合成音を生成する。変換関数学習部１３０は、第一話者が発話した音声から第二話者が発話した音声に類似する音声へ変換する第一音声変換関数および第二話者が発話した音声から第一話者が発話した音声に類似する音声へ変換する第二話者音声変換関数を学習する。
【選択図】図１

Description

この発明は、発音の傾向の異なる二者間で対話する際に発話者の音声を聴取者に聞き取りやすい音声に変換する音声変換技術に関する。

日本人が外国で英語等を母語とする人と会話する場合、英語または当該国の母語を用いて会話することが一般的である。近年では日本人の大部分はある程度英語を話せるもの、会話能力としては初心者レベルの場合が大多数である。このような初心者が諸外国等で英語を用いて意思疎通することは困難であるため、従来は音声自動翻訳技術により日本語と英語または他の言語との相互の翻訳が期待されてきた。実際、様々な大学、企業等で音声の自動翻訳を目指した研究が行われてきており、実環境での実用実験も行われてきている。その結果現在では、旅行や受付等、利用場面を限定すればある程度実用レベルになってきている。

このように、自動音声翻訳の技術的な発展は著しいものの、なお多くの技術的な課題が存在する。自動音声翻訳の実現には、音声認識技術による音声のテキスト化、機械翻訳技術によるある言語のテキストから異なる言語のテキストへの翻訳、音声合成技術による翻訳されたテキストから音声への変換、という３種類の全く異なる技術を全体として統合し動作させる必要がある。そのため自動音声翻訳全体としての精度を向上することは困難である。上述のとおり利用場面を限定することで各技術のチューニングを行い、全体の精度を高める工夫が行われてはいるが、利用場面が限定されるため一般的な普及には至っていない。

一方、発話者が語学学習等により会話能力を高めることは可能である。しかし、第二言語と母語とでは発音自体が根本的に異なることが多いため、学習の初期段階ではその言語を母語とする人には聞き取りづらいか、異なる音として聞き取れる発音になることがある。また、第二言語を習得中の学習者はその言語の聴取能力が低いため、その言語を母語とする人の発音を全く聞き取れなかったりするという問題もある。

そこで、発話者の発音を聴取者にとって聞き取りやすい音声に変換するような方法が考えられる。従来から声質を変換する技術に関しては様々な方法が提案されている。例えば非特許文献１には、特定の個人と異なる個人とで同一のテキストを発話した音声をそれぞれ収録し、それぞれの音声間の対応関係を表す変換関数を学習することで、特定の個人が発話した音声を異なる個人が発話した音声に類似する音声に変換する声質変換技術が記載されている。

G.Bandoin, Y.Stylianou, "On the transformation of the speech spectrum for voice conversion", Proc. of ICSLP1996, Vol.3, pp.1405-1408, 1996.

しかしながら、非特許文献１に記載の声質変換技術は、特定の個人と異なる個人との間で声質を変換することを目的としている。この技術をそのまま特定の言語を習得中の話者とその言語を母語とする話者とで会話する場面に応用した場合、発話者の声質までが異なった声質に変換されてしまい、聴取者に違和感を与えることになるという問題があった。

この発明はこのような点に鑑みてなされたものであり、発話者の声質を維持したまま、聴取者にとって聞き取りやすい音声に変換することができる音声変換技術を提供することを目的とする。

上記の課題を解決するために、この発明の音声変換関数学習装置は、複数の話者を発音の傾向によりグループ分けし、一方のグループに属する第一話者が発話した音声を他方のグループに属する第二話者が発話した音声に類似する音声へ変換し、第二話者が発話した音声を第一話者が発話した音声に類似する音声へ変換する音声変換関数を学習する。音声変換関数学習装置は、第一話者平均声モデル記憶部と第二話者平均声モデル記憶部とテキスト記憶部と第一話者音声合成部と第二話者音声合成部と変換関数学習部とを備える。第一話者平均声モデル記憶部には、複数の第一話者が発話した第一話者音声を学習して生成した第一話者平均声モデルが記憶されている。第二話者平均声モデル記憶部には、複数の第二話者が発話した第二話者音声を学習して生成した第二話者平均声モデルが記憶されている。テキスト記憶部には、任意のテキストが記憶されている。第一話者音声合成部は、第一話者平均声モデルを用いてテキストを音声合成し、第一話者平均声合成音を生成する。第二話者音声合成部は、第二話者平均声モデルを用いてテキストを音声合成し、第二話者平均声合成音を生成する。変換関数学習部は、第一話者平均声合成音と第二話者平均声合成音とを用いて、第一話者音声から第二話者音声への対応関係を学習して、第一話者が発話した音声を入力として第二話者が発話した音声に類似する第二話者類似音声を出力する第一音声変換関数を生成し、第一話者平均声合成音と第二話者平均声合成音とを用いて、第二話者音声から第一話者音声への対応関係を学習して、第二話者が発話した音声を入力として第一話者が発話した音声に類似する第一話者類似音声を出力する第二音声変換関数を生成する。

また、この発明の音声変換装置は、複数の話者を発音の傾向によりグループ分けし、一方のグループに属する第一話者が発話した音声を他方のグループに属する第二話者が発話した音声に類似する音声へ変換し、当該第二話者が発話した音声を当該第一話者が発話した音声に類似する音声へ変換する。音声変換装置は、第一音声変換関数記憶部と第二音声変換関数記憶部と第一話者音声変換部と第二話者音声変換部とを備える。第一音声変換関数記憶部には、第一話者が発話した音声を入力として第二話者が発話した音声に類似する第二話者類似音声を出力する第一音声変換関数が記憶されている。第二音声変換関数記憶部には、第二話者が発話した音声を入力として第一話者が発話した音声に類似する第一話者類似音声を出力する第二音声変換関数が記憶されている。第一話者音声変換部は、入力音声が第一話者の発話した音声であれば、第一音声変換関数を実行することにより、入力音声を第二話者類似音声に変換する。第二話者音声変換部は、入力音声が第二話者の発話した音声であれば、第二音声変換関数を実行することにより、入力音声を第一話者類似音声に変換する。ただし、第一音声変換関数は、複数の第一話者が発話した第一話者音声を学習して生成した第一話者平均声モデルと複数の第二話者が発話した第二話者音声を学習して生成した第二話者平均声モデルとを用いて、第一話者音声から第二話者音声への対応関係を学習されたものである。また、第二音声変換関数は、第一話者平均声モデルと第二話者平均声モデルとを用いて、第二話者音声から第一話者音声への対応関係を学習されたものである。

この発明の音声変換技術によれば、発音の傾向の異なる二者間で対話する際に、発話者の声質を維持したまま聴取者に聞き取りやすい音声に変換することができるため、二者間での円滑な意思の伝達が可能となる。

第１実施形態に係る音声変換関数学習装置の構成例を示すブロック図。第１実施形態に係る音声変換装置の構成例を示すブロック図。第１実施形態に係る音声変換関数学習装置の動作例を示すフローチャート。第１実施形態に係る音声変換装置の動作例を示すフローチャート。第２実施形態に係る音声変換関数学習装置の構成例を示すブロック図。第２実施形態に係る音声変換装置の構成例を示すブロック図。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

［第１実施形態］
＜概要＞
まず、この発明の第１実施形態の概要を説明する。この実施形態では、音声変換関数学習装置１０と音声変換装置２０を用いる。まず、あらかじめ複数の話者を発音の傾向によりグループ分けし、各グループに属する複数の話者の音声を収集する。音声変換関数学習装置１０は、任意のグループに属する話者を第一話者として、第一話者が発話した音声を学習して第一話者平均声モデルを生成する。また、異なるグループに属する話者を第二話者として、第二話者が発話した音声を学習して第二話者平均声モデルを生成する。そして、第一話者平均声モデルと第二話者平均声モデルとを用いて、第一話者が発話した音声を第二話者が発話した音声に類似する音声に変換する第一音声変換関数と、第二話者が発話した音声を第一話者が発話した音声に類似する音声に変換する第二音声変換関数とを学習する。

第一音声変換関数と第二音声変換関数を学習する際には、第一話者平均声モデルと第二話者平均声モデルをそれぞれ用いて十分な数のテキストを音声合成し、その合成音間の対応関係を表す変換関数を学習する。

音声変換装置２０は、第一話者が発話した音声が入力された場合には、第一音声変換関数を用いて、第二話者が発話した音声に類似する音声に変換する。一方、第二話者が発話した音声が入力された場合には、第二音声変換関数を用いて、第一話者が発話した音声に類似する音声に変換する。

平均声モデルは多数の話者の声質を用いて構築する平均的な声質の音響モデルである。したがって、十分な量の第一話者の音声と第二話者の音声を収集することが出来れば、第一話者平均声モデルと第二話者平均声モデルの声質は均質なものとすることができる。その結果、第一話者平均声モデルと第二話者平均声モデルとの差分は、第一話者と第二話者の発音の傾向のみが抽出されたものとなることが期待できる。つまり第一話者平均声モデルと第二話者平均声モデルの対応関係を表す変換関数は、入力された音声に対してそれぞれの話者の発音の傾向を双方向に反映させる変換関数であると言える。したがって、第一話者と第二話者が対話する際に、発話者の音声が聴取者の聞き取りやすい音声に変換されるため、二者間での円滑な意思の伝達が可能となる。

＜構成＞
図１を参照して、第１実施形態に係る音声変換関数学習装置１０の構成例を詳細に説明する。音声変換関数学習装置１０は、第一話者モデル学習部１１０と第二話者モデル学習部１１５と第一話者音声合成部１２０と第二話者音声合成部１２５と変換関数学習部１３０と第一話者音声記憶部９１０と第二話者音声記憶部９１５と第一話者平均声モデル記憶部９２０と第二話者平均声モデル記憶部９２５とテキスト記憶部９３０と第一話者平均声合成音記憶部９４０と第二話者平均声合成音記憶部９４５と第一音声変換関数記憶部９５０と第二音声変換関数記憶部９５５とを備える。第一話者音声記憶部９１０と第二話者音声記憶部９１５と第一話者平均声モデル記憶部９２０と第二話者平均声モデル記憶部９２５とテキスト記憶部９３０と第一話者平均声合成音記憶部９４０と第二話者平均声合成音記憶部９４５と第一音声変換関数記憶部９５０と第二音声変換関数記憶部９５５は、例えば、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）などの半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

図２を参照して、第１実施形態に係る音声変換装置２０の構成例を詳細に説明する。音声変換装置２０は、収音手段２０１と発音手段２０２と第一話者音声変換部２１０と第二話者音声変換部２１５と第一音声変換関数記憶部９５０と第二音声変換関数記憶部９５５とを備える。第一音声変換関数記憶部９５０および第二音声変換関数記憶部９５５は、音声変換関数学習装置１０の備える第一音声変換関数記憶部９５０および第二音声変換関数記憶部９５５と同様に構成される。

＜音声変換関数学習処理＞
図３を参照して、音声変換関数学習装置１０の動作例を、実際に行われる手続きの順に従って詳細に説明する。

音声変換関数学習装置１０の備える第一話者音声記憶部９１０には、複数の第一話者が発話した複数の音声である第一話者音声が記憶されている。第一話者とは、あらかじめ複数の話者を発音の傾向によりグループ分けし、複数のグループの中から選択されたあるグループに属する話者である。第一話者音声は、実際に収録された音声データと、その音声データに対してあらかじめ自動的または手作業により付与されたコンテキスト情報から構成される。コンテキスト情報は、具体的には、形態素、音素、アクセントなどである。音声データに対してコンテキスト情報を自動的に付与する方法は、従来より様々な方法が提案されているため、ここでの詳細な説明は省略する。

音声変換関数学習装置１０の備える第二話者音声記憶部９１５には、複数の第二話者が発話した複数の音声である第二話者音声が記憶されている。第二話者とは、あらかじめ複数の話者を発音の傾向によりグループ分けし、複数のグループの中から選択されたあるグループに属する話者である。第二話者が属するグループは、第一話者が属するグループとは異なるグループでなければならない。したがって、第一話者と第二話者は、発音の傾向が互いに異なる二組の話者である。第二話者音声の構成は、上述の第一話者音声の構成と同様であるので、ここでは説明を省略する。

音声変換関数学習装置１０の備えるテキスト記憶部９３０には、あらかじめ与えられた任意のテキストが記憶されている。与えられるテキストは、この発明の音声変換技術が適用される場面を考慮して選択することが望ましい。また、テキストのデータ量は学習精度に影響を与えるため、できるだけ多い方が望ましい。

音声変換関数学習装置１０の備える第一話者モデル学習部１１０は、第一話者音声を学習して第一話者平均声モデルを生成する（Ｓ１１０）。平均声の学習は、様々な方法が提案されているが、例えば、「J.YAMAGISHI, M.TAMURA, T.MASUKO, K.TOKUDA, T.KOBAYASHI, ”A Training Method of Average Voice Model for HMM-Based Speech Synthesis”, IEICE TRANSACTIONS on Fundamentals of Electronics, Communications and Computer Sciences Vol.E86-A No.8, pp.1956-1963（参考文献１）」に記載の方法で行うことができる。生成された第一話者平均声モデルは、第一話者平均声モデル記憶部９２０に記憶される。

音声変換関数学習装置１０の備える第二話者モデル学習部１１５は、第二話者音声を学習して第二話者平均声モデルを生成する（Ｓ１１５）。平均声の学習は、上述の第一話者平均声モデルの学習と同様に、様々な方法により行うことができる。生成された第二話者平均声モデルは、第二話者平均声モデル記憶部９２５に記憶される。

音声変換関数学習装置１０の備える第一話者音声合成部１２０は、テキスト記憶部１３０に記憶されているテキストを、第一話者平均声モデルを用いて音声合成し、第一話者平均声合成音を生成する（Ｓ１２０）。第一話者平均声合成音は、音声合成により生成される音声データと、その音声データに対応する音素ラベルにより構成される。音声合成の方法は、様々な方法が提案されているが、例えば、「K.Tokuda, Z.Heiga. A.W.Black, “An HMM-based speech synthesis system applied to English”, Proc. of 2002 IEEE SSW, 2002（参考文献２）」に記載の方法で行うことができる。音素ラベルとは、音声データ中に含まれる各音素の時間的な位置を表す情報である。音素の時間的な位置は音声合成処理の中で決定するものであるため、音声合成処理において容易に取得することができる。生成された第一話者平均声合成音は、第一話者平均声合成音記憶部９４０に記憶される。

音声変換関数学習装置１０の備える第二話者音声合成部１２５は、テキスト記憶部１３０に記憶されているテキストを、第二話者平均声モデルを用いて音声合成し、第二話者平均声合成音を生成する（Ｓ１２５）。第二話者平均声合成音の構成は、上述の第一話者平均声合成音の構成と同様である。音声合成の方法は、上述の第一話者平均声合成音の合成と同様に、様々な方法により行うことができる。生成された第二話者平均声合成音は、第二話者平均声合成音記憶部９４５に記憶される。

音声変換関数学習装置１０の備える変換関数学習部１３０は、第一話者平均声合成音と第二話者平均声合成音とを用いて、第一音声変換関数を学習する。また、第一話者平均声合成音と第二話者平均声合成音とを用いて、第二音声変換関数を学習する。第一音声変換関数とは、第一話者が発話した音声を入力として、第二話者類似音声を出力する変換関数である。第二話者類似音声は、第二話者が発話した音声に類似する音声であり、より詳細には、第一話者の声質を維持したまま第二話者の発音の傾向が反映された音声である。第二音声変換関数とは、第一音声変換関数とは逆に、第二話者が発話した音声を入力として、第一話者類似音声を出力する変換関数である。第一話者類似音声は、第一話者が発話した音声に類似する音声であり、より詳細には、第二話者の声質を維持したまま第一話者の発音の傾向が反映された音声である。

第一音声変換関数および第二音声変換関数の学習方法について、詳細に説明する。変換関数の学習方法は、既知の様々な声質変換技術を適用することができるが、ここでは、非特許文献１に記載の方法を例に説明する。特許文献１においては、様々な音響モデルについて言及しているが、ここでは多次元混合正規分布（Gaussian Mixture Model、GMM）により音声の特徴量がモデル化されている場合を例にとって説明する。

xを入力音声のp次元の特徴量ベクトルとし、μを入力音声xの平均とし、Σを入力音声xの共分散行列とし、α_iをクラスiの重みとし、mをクラス数とすると、多次元混合正規分布によりモデル化された入力音声xの確率分布p(x)は以下の式で表すことができる。

ここで、xを入力音声とし、yを出力音声とし、μ_i ^(x)を入力音声xのクラスiの平均とし、μ_i ^(y)を出力音声yのクラスiの平均とし、Σ_i ^(xx)を入力音声xのクラスiの共分散行列とし、Σ_i ^(xy)を入力音声xと出力音声yのクラスiの共分散行列とすると、変換関数y=F(x)は以下の式で表すことができる。

変換関数F(x)のパラメータであるα_i、μ_i ^(x) _、μ_i ^(y) _、Σ_i ^(xx) _、Σ_i ^(yx)は以下のように結合特徴量ベクトルを用いてEMアルゴリズムにより推定することができる。

入力音声xを第一話者平均声合成音とし、出力音声yを第二話者平均声合成音とすることで、第一音声変換関数を学習することができる。逆に、入力音声xを第二話者平均声合成音とし、出力音声yを第一話者平均声合成音とすることで、第二音声変換関数を学習することができる。このように、ある音声と異なる音声との間で音素ラベルの対応付けが可能であれば、それらの音声間の相互の対応関係である変換関数は入力音声と出力音声を入れ替えるだけで容易に学習することができる。変換関数の学習方法についてのより詳細な説明は、非特許文献１を参照されたい。

＜音声変換処理＞
図４を参照して、音声変換装置２０の動作例を、実際に行われる手続きの順に従って詳細に説明する。

音声変換装置２０の備える第一音声変換関数記憶部９５０には、音声変換関数学習装置１０の学習した第一音声変換関数が記憶されている。

音声変換装置２０の備える第二音声変換関数記憶部９５５は、音声変換関数学習装置１０の学習した第二音声変換関数が記憶されている。

音声変換装置２０の備える収音手段２０１は、発話者の発話した音声を音声信号に変換して、入力端子（図示せず）を介して音声変換装置２０へ入力する（Ｓ２０１）。収音手段２０１は、典型的にはマイクロホンである。

音声変換装置２０の備える第一話者音声変換部２１０は、収音手段２０１を介して入力された音声信号が、誰の発話した音声であるかを判定する（Ｓ２０５）。入力音声の発話者を判定する方法は様々な方法が考えられるが、例えば、手動で設定可能としてもよい。入力音声が第一話者の発話した音声であれば、第一音声変換関数記憶部９５０に記憶されている第一音声変換関数を実行することにより、その入力音声を第二話者類似音声に変換する（Ｓ２１０）。入力音声の変換方法についての詳細は、非特許文献１を参照されたい。生成した第二話者類似音声は、発音手段２０２へ出力される。

音声変換装置２０の備える第二話者音声変換部２１５は、収音手段２０１を介して入力された音声信号が、誰の発話した音声であるかを判定する（Ｓ２０５）。入力音声の発話者を判定する方法は様々な方法が考えられるが、例えば、手動で設定可能としてもよい。入力音声が第二話者の発話した音声であれば、第二音声変換関数記憶部９５５に記憶されている第二音声変換関数を実行することにより、その入力音声を第一話者類似音声に変換する（Ｓ２１５）。入力音声の変換方法についての詳細は、非特許文献１を参照されたい。生成した第一話者類似音声は、発音手段２０２へ出力される。

音声変換装置２０の備える発音手段２０２は、出力端子（図示せず）を介して音声変換装置２０が出力する音声信号を、音声に変換して周囲へ発音する（Ｓ２０２）。発音手段２０２は、典型的にはスピーカーである。ここで出力する音声信号は、入力音声が第一話者の発話した音声であれば、第二話者類似音声である。一方、入力音声が第二話者の発話した音声であれば、第一話者類似音声である。

＜効果＞
この発明の第１実施形態では、音声変換関数学習装置１０が、第一話者平均声モデルと第二話者平均声モデルとを用いて、同一のテキストをそれぞれ音声合成し、生成された合成音の対応関係を表す変換関数を学習する。音声変換装置２０は、音声変換関数学習装置１０が学習した変換関数を用いて、第一話者の発話する音声を第二話者の発話する音声に類似する音声に変換し、第二話者の発話する音声を第一話者の発話する音声に類似する音声に変換する。

このように構成することにより、発音の傾向の異なる二者間で対話する際に、発話者の声質を維持したまま聴取者に聞き取りやすい音声に変換することができるため、二者間での円滑な意思の伝達が可能となる。

［第２実施形態］
＜概要＞
まず、この発明の第２実施形態の概要を説明する。この実施形態は、ある言語を母語とせず、その言語の習得が十分でない学習者と、その言語を母語とする母語話者とが対話する場面に、この発明を適用することを想定している。すなわち、第１実施形態における第一話者を、ある言語を母語とせず、その言語の習得が十分でない学習者とし、第１実施形態における第二話者を、その言語を母語とする母語話者とする。

この実施形態では、音声変換関数学習装置１１と音声変換装置２１を用いる。まず、あらかじめ対象言語を母語とせず、その言語の習得が十分でない学習者の音声と、その言語を母語とする母語話者の音声とを、それぞれ収集する。音声変換関数学習装置１１は、複数の学習者が発話した音声を学習して学習者平均声モデルを生成する。また、複数の母語話者が発話した音声を学習して母語話者平均声モデルを生成する。そして、学習者平均声モデルと母語話者平均声モデルとを用いて、学習者が発話した音声を母語話者が発話した音声に類似する音声に変換する第一音声変換関数と、母語話者が発話した音声を学習者が発話した音声に類似する音声に変換する第二音声変換関数とを学習する。

音声変換装置は、学習者が発話した音声が入力された場合には、第一音声変換関数を用いて、母語話者が発話した音声に類似する音声に変換する。一方、母語話者が発話した音声が入力された場合には、第二音声変換関数を用いて、学習者が発話した音声に類似する音声に類似する音声に変換する。

上述の通り、平均声モデルの特徴を鑑みると、学習者平均声モデルと母語話者平均声モデルとの差分は、対象言語の習得度の違いのみを表わすものとなることが期待できる。つまり学習者平均声モデルと母語話者平均声モデルの対応関係を表す変換関数は、入力された音声に対して、対象言語の習得度を双方向に反映させる変換関数であると言える。したがって、学習者と母語話者が対話する際に、発話者の音声が聴取者の聞き取りやすい音声に変換されるため、二者間での円滑な意思の伝達が可能となる。

＜構成＞
図５を参照して、第２実施形態に係る音声変換関数学習装置１１の構成例を詳細に説明する。音声変換関数学習装置１１は、学習者モデル学習部１１１と母語話者モデル学習部１１６と学習者音声合成部１２１と母語話者音声合成部１２６と変換関数学習部１３１と学習者音声記憶部９１１と母語話者音声記憶部９１６と学習者平均声モデル記憶部９２１と母語話者平均声モデル記憶部９２６とテキスト記憶部９３１と学習者平均声合成音記憶部９４１と母語話者平均声合成音記憶部９４６と学習者音声変換関数記憶部９５１と母語話者音声変換関数記憶部９５６とを備える。学習者音声記憶部９１１と母語話者音声記憶部９１６と学習者平均声モデル記憶部９２１と母語話者平均声モデル記憶部９２６とテキスト記憶部９３１と学習者平均声合成音記憶部９４１と母語話者平均声合成音記憶部９４６と学習者音声変換関数記憶部９５１と母語話者音声変換関数記憶部９５６は、例えば、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）などの半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

図６を参照して、第２実施形態に係る音声変換装置２１の構成例を詳細に説明する。音声変換装置２１は、収音手段２０１と発音手段２０２と学習者音声変換部２１１と母語話者音声変換部２１６と学習者音声変換関数記憶部９５１と母語話者音声変換関数記憶部９５６とを備える。学習者音声変換関数記憶部９５１および母語話者音声変換関数記憶部９５６は、音声変換関数学習装置１１の備える学習者音声変換関数記憶部９５１および母語話者音声変換関数記憶部９５６と同様に構成される。

＜第１実施形態との相違点＞
この実施形態と第１実施形態との相違点について説明する。第１実施形態と第２実施形態では、基本的に音声変換関数学習処理と音声変換処理の内容は同様である。第２実施形態では、第１実施形態における第一話者を、ある言語を母語とせず、その言語の習得が十分でない話者である学習者とし、第２実施形態における第二話者を、その言語を母語とする話者である母語話者とする。ある言語の習得が十分でない学習者は、その言語の発音が適切でなく自身の母語の発音に近くなることが考えられるため、発音の傾向が近いグループとすることができる。また、ある言語を母語とする母語話者は、その言語の発音が適切であるため、同様に発音の傾向が近いグループとすることができる。例えば、対象言語を英語とすると、学習者を英語の習得が十分でない日本人として、母語話者を英語を母語とする米国人とすることが考えられる。

具体的には、学習者音声記憶部９１１に記憶される学習者音声と、母語話者音声記憶部９１６に記憶される母語話者音声と、テキスト記憶部９３１に記憶される任意のテキストは、いずれも母語話者が母語とし、学習者が母語としない対象言語で統一されていなければいけない。また、音声変換装置２１の備える収集手段２０１からの入力音声も、同じ言語で発話されなければいけない。上記の例であれば、学習者音声と母語話者音声は英語で発話された音声でなければいけないし、音声変換装置２１へ入力される発話者の音声は英語を発話したものでなければならない。

＜効果＞
この実施形態では、音声変換関数学習装置１１が、学習者平均声モデルと母語話者平均声モデルとを用いて、同一のテキストをそれぞれ音声合成し、対応する合成音の対応関係を表す変換関数を学習する。音声変換装置２１は、音声変換関数学習装置１１が学習した変換関数を用いて、学習者の発話する音声を母語話者の発話する音声に類似する音声に変換し、母語話者の発話する音声を学習者の発話する音声に類似する音声に変換する。

このように構成することにより、ある言語を母語とせず、その言語の習得が十分でない学習者が発声した音声を、その言語を母語とする母語話者にとって聴取しやすい音声に、発話者の声質を維持したまま変換することができ、学習者がその言語を習得する初期段階であっても、学習者から母語話者への円滑な意思の伝達が可能となる。

また、ある言語を母語とする母語話者が発声した音声を、その言語を母語とせず、その言語の習得が十分でない学習者にとって聴取しやすい音声に、発話者の声質を維持したまま変換することができ、学習者がその言語を習得する初期段階であっても、母語話者から学習者への円滑な意思の伝達が可能となる。

［プログラム、記録媒体］
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

また、上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１０，１１音声変換関数学習装置
２０，２１音声変換装置
１１０第一話者モデル学習部１１１学習者モデル学習部
１１５第二話者モデル学習部１１６母語話者モデル学習部
１２０第一話者音声合成部１２１学習者音声合成部
１２５第二話者音声合成部１２６母語話者音声合成部
１３０，１３１変換関数学習部
２０１収音手段２０２発音手段
２１０第一話者音声変換部２１１学習者音声変換部
２１５第二話者音声変換部２１６母語話者音声変換部
９１０第一話者音声記憶部９１１学習者音声記憶部
９１５第二話者音声記憶部９１５母語話者音声記憶部
９２０第一話者平均声モデル記憶部９２１学習者平均声モデル記憶部
９２５第二話者平均声モデル記憶部９２６母語話者平均声モデル記憶部
９３０，９３１テキスト記憶部
９４０第一話者平均声合成音記憶部９４１学習者平均声合成音記憶部
９４５第二話者平均声合成音記憶部９４６母語話者平均声合成音記憶部
９５０第一音声変換関数記憶部９５１学習者音声変換関数記憶部
９５５第二音声変換関数記憶部９５６母語話者音声変換関数記憶部

Claims

複数の話者を発音の傾向によりグループ分けし、一方のグループに属する第一話者が発話した音声を他方のグループに属する第二話者が発話した音声に類似する音声へ変換し、当該第二話者が発話した音声を当該第一話者が発話した音声に類似する音声へ変換する音声変換関数を学習する音声変換関数学習装置であって、
複数の前記第一話者が発話した第一話者音声を学習して生成した第一話者平均声モデルが記憶された第一話者平均声モデル記憶部と、
複数の前記第二話者が発話した第二話者音声を学習して生成した第二話者平均声モデルが記憶された第二話者平均声モデル記憶部と、
任意のテキストが記憶されたテキスト記憶部と、
前記第一話者平均声モデルを用いて前記テキストを音声合成し、第一話者平均声合成音を生成する第一話者音声合成部と、
前記第二話者平均声モデルを用いて前記テキストを音声合成し、第二話者平均声合成音を生成する第二話者音声合成部と、
前記第一話者平均声合成音と前記第二話者平均声合成音とを用いて、前記第一話者音声から前記第二話者音声への対応関係を学習して、前記第一話者が発話した音声を入力として前記第二話者が発話した音声に類似する第二話者類似音声を出力する第一音声変換関数を生成し、前記第一話者平均声合成音と前記第二話者平均声合成音とを用いて、前記第二話者音声から前記第一話者音声への対応関係を学習して、前記第二話者が発話した音声を入力として前記第一話者が発話した音声に類似する第一話者類似音声を出力する第二音声変換関数を生成する変換関数学習部と、
を備えることを特徴とする音声変換関数学習装置。
請求項１に記載の音声変換関数学習装置であって、
前記第一話者平均声合成音および前記第二話者平均声合成音は、特徴量ベクトルの確率分布が多次元混合正規分布でモデル化され、
前記変換関数学習部は、
前記第一話者平均声合成音を入力として、前記第一話者平均声合成音と前記第二話者平均声合成音との結合特徴量ベクトルを用いて、前記第一音声変換関数のパラメータを推定し、前記第二話者平均声合成音を入力として、前記結合特徴量ベクトルを用いて、前記第二音声変換関数のパラメータを推定する
ことを特徴とする音声変換関数学習装置。
複数の話者を発音の傾向によりグループ分けし、一方のグループに属する第一話者が発話した音声を他方のグループに属する第二話者が発話した音声に類似する音声へ変換し、当該第二話者が発話した音声を当該第一話者が発話した音声に類似する音声へ変換する音声変換装置であって、
前記第一話者が発話した音声を入力として前記第二話者が発話した音声に類似する第二話者類似音声を出力する第一音声変換関数が記憶された第一音声変換関数記憶部と、
前記第二話者が発話した音声を入力として前記第一話者が発話した音声に類似する第一話者類似音声を出力する第二音声変換関数が記憶された第二音声変換関数記憶部と、
入力音声が前記第一話者の発話した音声であれば、前記第一音声変換関数を実行することにより、前記入力音声を前記第二話者類似音声に変換する第一話者音声変換部と、
前記入力音声が前記第二話者の発話した音声であれば、前記第二音声変換関数を実行することにより、前記入力音声を前記第一話者類似音声に変換する第二話者音声変換部と、
を備え、
前記第一音声変換関数は、複数の前記第一話者が発話した第一話者音声を学習して生成した第一話者平均声モデルと複数の前記第二話者が発話した第二話者音声を学習して生成した第二話者平均声モデルとを用いて、前記第一話者音声から前記第二話者音声への対応関係を学習されたものであり、
前記第二音声変換関数は、前記第一話者平均声モデルと前記第二話者平均声モデルとを用いて、前記第二話者音声から前記第一話者音声への対応関係を学習されたものである
ことを特徴とする音声変換装置。
請求項３に記載の音声変換装置であって、
前記第一音声変換関数は、前記第一話者平均声モデルを用いて任意のテキストを音声合成した第一話者平均声合成音と前記第二話者平均声モデルを用いて前記テキストを音声合成した第二話者平均声合成音とを用いて、前記第一話者音声から前記第二話者音声への対応関係を学習されたものであり、
前記第二音声変換関数は、前記第一話者平均声合成音と前記第二話者平均声合成音とを用いて、前記第二話者音声から前記第一話者音声への対応関係を学習されたものである
ことを特徴とする音声変換装置。
請求項４に記載の音声変換装置であって、
前記第一話者平均声合成音および前記第二話者平均声合成音は、確率分布が多次元混合正規分布でモデル化され、
前記第一音声変換関数は、前記第一話者平均声合成音を入力として前記第一話者平均声合成音と前記第二話者平均声合成音とを結合した結合特徴量ベクトルを用いて推定されたパラメータを用い、
前記第二音声変換関数は、前記第二話者平均声合成音を入力として前記結合特徴量ベクトルを用いて推定されたパラメータを用いる
ことを特徴とする音声変換装置。
複数の話者を発音の傾向によりグループ分けし、一方のグループに属する第一話者が発話した音声を他方のグループに属する第二話者が発話した音声に類似する音声へ変換し、当該第二話者が発話した音声を当該第一話者が発話した音声に類似する音声へ変換する音声変換関数を学習する音声変換関数学習方法であって、
複数の前記第一話者が発話した第一話者音声を学習して生成した第一話者平均声モデルを用いて任意のテキストを音声合成し、第一話者平均声合成音を生成する第一話者音声合成ステップと、
複数の前記第二話者が発話した第二話者音声を学習して生成した第二話者平均声モデルを用いて前記テキストを音声合成し、第二話者平均声合成音を生成する第二話者音声合成ステップと、
前記第一話者平均声合成音と前記第二話者平均声合成音とを用いて、前記第一話者音声から前記第二話者音声への対応関係を学習して、前記第一話者が発話した音声を入力として前記第二話者が発話した音声に類似する第二話者類似音声を出力する第一音声変換関数を生成し、前記第一話者平均声合成音と前記第二話者平均声合成音とを用いて、前記第二話者音声から前記第一話者音声への対応関係を学習して、前記第二話者が発話した音声を入力として前記第一話者が発話した音声に類似する第一話者類似音声を出力する第二音声変換関数を生成する変換関数学習ステップと、
を含むことを特徴とする音声変換関数学習方法。
複数の話者を発音の傾向によりグループ分けし、一方のグループに属する第一話者が発話した音声を他方のグループに属する第二話者が発話した音声に類似する音声へ変換し、当該第二話者が発話した音声を当該第一話者が発話した音声に類似する音声へ変換する音声変換方法であって、
入力音声が前記第一話者の発話した音声であれば、前記第一話者が発話した音声を入力として前記第二話者が発話した音声に類似する第二話者類似音声を出力する第一音声変換関数を実行することにより、前記入力音声を前記第二話者類似音声に変換する第一話者音声変換ステップと、
前記入力音声が前記第二話者の発話した音声であれば、前記第二話者が発話した音声を入力として前記第一話者が発話した音声に類似する第一話者類似音声を出力する第二音声変換関数を実行することにより、前記入力音声を前記第一話者類似音声に変換する第二話者音声変換ステップと、
を含み、
前記第一音声変換関数は、複数の前記第一話者が発話した第一話者音声を学習して生成した第一話者平均声モデルと複数の前記第二話者が発話した第二話者音声を学習して生成した第二話者平均声モデルとを用いて、前記第一話者音声から前記第二話者音声への対応関係を学習されたものであり、
前記第二音声変換関数は、前記第一話者平均声モデルと前記第二話者平均声モデルとを用いて、前記第二話者音声から前記第一話者音声への対応関係を学習されたものである
ことを特徴とする音声変換方法。
請求項１または２に記載の音声変換関数学習装置もしくは請求項３から５のいずれかに記載の音声変換装置としてコンピュータを機能させるためのプログラム。