JP2013238819A - 音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム - Google Patents

音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム Download PDF

Info

Publication number
JP2013238819A
JP2013238819A JP2012113439A JP2012113439A JP2013238819A JP 2013238819 A JP2013238819 A JP 2013238819A JP 2012113439 A JP2012113439 A JP 2012113439A JP 2012113439 A JP2012113439 A JP 2012113439A JP 2013238819 A JP2013238819 A JP 2013238819A
Authority
JP
Japan
Prior art keywords
speaker
voice
speech
uttered
conversion function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012113439A
Other languages
English (en)
Other versions
JP5706368B2 (ja
Inventor
Hideyuki Mizuno
秀之 水野
Yusuke Ijima
勇祐 井島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012113439A priority Critical patent/JP5706368B2/ja
Publication of JP2013238819A publication Critical patent/JP2013238819A/ja
Application granted granted Critical
Publication of JP5706368B2 publication Critical patent/JP5706368B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】発話者の声質を維持したまま聴取者にとって聞き取りやすい音声に変換する。
【解決手段】第一話者モデル学習部110は、複数の第一話者が発話した音声を学習して第一話者平均声モデルを生成する。第二話者モデル学習部115は、複数の第二話者が発話した音声を学習して第二話者平均声モデルを生成する。第一話者音声合成部120は、第一話者平均声モデルを用いて第一話者平均声合成音を生成する。第二話者音声合成部125は、第二話者平均声モデルを用いて第二話者平均声合成音を生成する。変換関数学習部130は、第一話者が発話した音声から第二話者が発話した音声に類似する音声へ変換する第一音声変換関数および第二話者が発話した音声から第一話者が発話した音声に類似する音声へ変換する第二話者音声変換関数を学習する。
【選択図】図1

Description

この発明は、発音の傾向の異なる二者間で対話する際に発話者の音声を聴取者に聞き取りやすい音声に変換する音声変換技術に関する。
日本人が外国で英語等を母語とする人と会話する場合、英語または当該国の母語を用いて会話することが一般的である。近年では日本人の大部分はある程度英語を話せるもの、会話能力としては初心者レベルの場合が大多数である。このような初心者が諸外国等で英語を用いて意思疎通することは困難であるため、従来は音声自動翻訳技術により日本語と英語または他の言語との相互の翻訳が期待されてきた。実際、様々な大学、企業等で音声の自動翻訳を目指した研究が行われてきており、実環境での実用実験も行われてきている。その結果現在では、旅行や受付等、利用場面を限定すればある程度実用レベルになってきている。
このように、自動音声翻訳の技術的な発展は著しいものの、なお多くの技術的な課題が存在する。自動音声翻訳の実現には、音声認識技術による音声のテキスト化、機械翻訳技術によるある言語のテキストから異なる言語のテキストへの翻訳、音声合成技術による翻訳されたテキストから音声への変換、という3種類の全く異なる技術を全体として統合し動作させる必要がある。そのため自動音声翻訳全体としての精度を向上することは困難である。上述のとおり利用場面を限定することで各技術のチューニングを行い、全体の精度を高める工夫が行われてはいるが、利用場面が限定されるため一般的な普及には至っていない。
一方、発話者が語学学習等により会話能力を高めることは可能である。しかし、第二言語と母語とでは発音自体が根本的に異なることが多いため、学習の初期段階ではその言語を母語とする人には聞き取りづらいか、異なる音として聞き取れる発音になることがある。また、第二言語を習得中の学習者はその言語の聴取能力が低いため、その言語を母語とする人の発音を全く聞き取れなかったりするという問題もある。
そこで、発話者の発音を聴取者にとって聞き取りやすい音声に変換するような方法が考えられる。従来から声質を変換する技術に関しては様々な方法が提案されている。例えば非特許文献1には、特定の個人と異なる個人とで同一のテキストを発話した音声をそれぞれ収録し、それぞれの音声間の対応関係を表す変換関数を学習することで、特定の個人が発話した音声を異なる個人が発話した音声に類似する音声に変換する声質変換技術が記載されている。
G.Bandoin, Y.Stylianou, "On the transformation of the speech spectrum for voice conversion", Proc. of ICSLP1996, Vol.3, pp.1405-1408, 1996.
しかしながら、非特許文献1に記載の声質変換技術は、特定の個人と異なる個人との間で声質を変換することを目的としている。この技術をそのまま特定の言語を習得中の話者とその言語を母語とする話者とで会話する場面に応用した場合、発話者の声質までが異なった声質に変換されてしまい、聴取者に違和感を与えることになるという問題があった。
この発明はこのような点に鑑みてなされたものであり、発話者の声質を維持したまま、聴取者にとって聞き取りやすい音声に変換することができる音声変換技術を提供することを目的とする。
上記の課題を解決するために、この発明の音声変換関数学習装置は、複数の話者を発音の傾向によりグループ分けし、一方のグループに属する第一話者が発話した音声を他方のグループに属する第二話者が発話した音声に類似する音声へ変換し、第二話者が発話した音声を第一話者が発話した音声に類似する音声へ変換する音声変換関数を学習する。音声変換関数学習装置は、第一話者平均声モデル記憶部と第二話者平均声モデル記憶部とテキスト記憶部と第一話者音声合成部と第二話者音声合成部と変換関数学習部とを備える。第一話者平均声モデル記憶部には、複数の第一話者が発話した第一話者音声を学習して生成した第一話者平均声モデルが記憶されている。第二話者平均声モデル記憶部には、複数の第二話者が発話した第二話者音声を学習して生成した第二話者平均声モデルが記憶されている。テキスト記憶部には、任意のテキストが記憶されている。第一話者音声合成部は、第一話者平均声モデルを用いてテキストを音声合成し、第一話者平均声合成音を生成する。第二話者音声合成部は、第二話者平均声モデルを用いてテキストを音声合成し、第二話者平均声合成音を生成する。変換関数学習部は、第一話者平均声合成音と第二話者平均声合成音とを用いて、第一話者音声から第二話者音声への対応関係を学習して、第一話者が発話した音声を入力として第二話者が発話した音声に類似する第二話者類似音声を出力する第一音声変換関数を生成し、第一話者平均声合成音と第二話者平均声合成音とを用いて、第二話者音声から第一話者音声への対応関係を学習して、第二話者が発話した音声を入力として第一話者が発話した音声に類似する第一話者類似音声を出力する第二音声変換関数を生成する。
また、この発明の音声変換装置は、複数の話者を発音の傾向によりグループ分けし、一方のグループに属する第一話者が発話した音声を他方のグループに属する第二話者が発話した音声に類似する音声へ変換し、当該第二話者が発話した音声を当該第一話者が発話した音声に類似する音声へ変換する。音声変換装置は、第一音声変換関数記憶部と第二音声変換関数記憶部と第一話者音声変換部と第二話者音声変換部とを備える。第一音声変換関数記憶部には、第一話者が発話した音声を入力として第二話者が発話した音声に類似する第二話者類似音声を出力する第一音声変換関数が記憶されている。第二音声変換関数記憶部には、第二話者が発話した音声を入力として第一話者が発話した音声に類似する第一話者類似音声を出力する第二音声変換関数が記憶されている。第一話者音声変換部は、入力音声が第一話者の発話した音声であれば、第一音声変換関数を実行することにより、入力音声を第二話者類似音声に変換する。第二話者音声変換部は、入力音声が第二話者の発話した音声であれば、第二音声変換関数を実行することにより、入力音声を第一話者類似音声に変換する。ただし、第一音声変換関数は、複数の第一話者が発話した第一話者音声を学習して生成した第一話者平均声モデルと複数の第二話者が発話した第二話者音声を学習して生成した第二話者平均声モデルとを用いて、第一話者音声から第二話者音声への対応関係を学習されたものである。また、第二音声変換関数は、第一話者平均声モデルと第二話者平均声モデルとを用いて、第二話者音声から第一話者音声への対応関係を学習されたものである。
この発明の音声変換技術によれば、発音の傾向の異なる二者間で対話する際に、発話者の声質を維持したまま聴取者に聞き取りやすい音声に変換することができるため、二者間での円滑な意思の伝達が可能となる。
第1実施形態に係る音声変換関数学習装置の構成例を示すブロック図。 第1実施形態に係る音声変換装置の構成例を示すブロック図。 第1実施形態に係る音声変換関数学習装置の動作例を示すフローチャート。 第1実施形態に係る音声変換装置の動作例を示すフローチャート。 第2実施形態に係る音声変換関数学習装置の構成例を示すブロック図。 第2実施形態に係る音声変換装置の構成例を示すブロック図。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[第1実施形態]
<概要>
まず、この発明の第1実施形態の概要を説明する。この実施形態では、音声変換関数学習装置10と音声変換装置20を用いる。まず、あらかじめ複数の話者を発音の傾向によりグループ分けし、各グループに属する複数の話者の音声を収集する。音声変換関数学習装置10は、任意のグループに属する話者を第一話者として、第一話者が発話した音声を学習して第一話者平均声モデルを生成する。また、異なるグループに属する話者を第二話者として、第二話者が発話した音声を学習して第二話者平均声モデルを生成する。そして、第一話者平均声モデルと第二話者平均声モデルとを用いて、第一話者が発話した音声を第二話者が発話した音声に類似する音声に変換する第一音声変換関数と、第二話者が発話した音声を第一話者が発話した音声に類似する音声に変換する第二音声変換関数とを学習する。
第一音声変換関数と第二音声変換関数を学習する際には、第一話者平均声モデルと第二話者平均声モデルをそれぞれ用いて十分な数のテキストを音声合成し、その合成音間の対応関係を表す変換関数を学習する。
音声変換装置20は、第一話者が発話した音声が入力された場合には、第一音声変換関数を用いて、第二話者が発話した音声に類似する音声に変換する。一方、第二話者が発話した音声が入力された場合には、第二音声変換関数を用いて、第一話者が発話した音声に類似する音声に変換する。
平均声モデルは多数の話者の声質を用いて構築する平均的な声質の音響モデルである。したがって、十分な量の第一話者の音声と第二話者の音声を収集することが出来れば、第一話者平均声モデルと第二話者平均声モデルの声質は均質なものとすることができる。その結果、第一話者平均声モデルと第二話者平均声モデルとの差分は、第一話者と第二話者の発音の傾向のみが抽出されたものとなることが期待できる。つまり第一話者平均声モデルと第二話者平均声モデルの対応関係を表す変換関数は、入力された音声に対してそれぞれの話者の発音の傾向を双方向に反映させる変換関数であると言える。したがって、第一話者と第二話者が対話する際に、発話者の音声が聴取者の聞き取りやすい音声に変換されるため、二者間での円滑な意思の伝達が可能となる。
<構成>
図1を参照して、第1実施形態に係る音声変換関数学習装置10の構成例を詳細に説明する。音声変換関数学習装置10は、第一話者モデル学習部110と第二話者モデル学習部115と第一話者音声合成部120と第二話者音声合成部125と変換関数学習部130と第一話者音声記憶部910と第二話者音声記憶部915と第一話者平均声モデル記憶部920と第二話者平均声モデル記憶部925とテキスト記憶部930と第一話者平均声合成音記憶部940と第二話者平均声合成音記憶部945と第一音声変換関数記憶部950と第二音声変換関数記憶部955とを備える。第一話者音声記憶部910と第二話者音声記憶部915と第一話者平均声モデル記憶部920と第二話者平均声モデル記憶部925とテキスト記憶部930と第一話者平均声合成音記憶部940と第二話者平均声合成音記憶部945と第一音声変換関数記憶部950と第二音声変換関数記憶部955は、例えば、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)などの半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
図2を参照して、第1実施形態に係る音声変換装置20の構成例を詳細に説明する。音声変換装置20は、収音手段201と発音手段202と第一話者音声変換部210と第二話者音声変換部215と第一音声変換関数記憶部950と第二音声変換関数記憶部955とを備える。第一音声変換関数記憶部950および第二音声変換関数記憶部955は、音声変換関数学習装置10の備える第一音声変換関数記憶部950および第二音声変換関数記憶部955と同様に構成される。
<音声変換関数学習処理>
図3を参照して、音声変換関数学習装置10の動作例を、実際に行われる手続きの順に従って詳細に説明する。
音声変換関数学習装置10の備える第一話者音声記憶部910には、複数の第一話者が発話した複数の音声である第一話者音声が記憶されている。第一話者とは、あらかじめ複数の話者を発音の傾向によりグループ分けし、複数のグループの中から選択されたあるグループに属する話者である。第一話者音声は、実際に収録された音声データと、その音声データに対してあらかじめ自動的または手作業により付与されたコンテキスト情報から構成される。コンテキスト情報は、具体的には、形態素、音素、アクセントなどである。音声データに対してコンテキスト情報を自動的に付与する方法は、従来より様々な方法が提案されているため、ここでの詳細な説明は省略する。
音声変換関数学習装置10の備える第二話者音声記憶部915には、複数の第二話者が発話した複数の音声である第二話者音声が記憶されている。第二話者とは、あらかじめ複数の話者を発音の傾向によりグループ分けし、複数のグループの中から選択されたあるグループに属する話者である。第二話者が属するグループは、第一話者が属するグループとは異なるグループでなければならない。したがって、第一話者と第二話者は、発音の傾向が互いに異なる二組の話者である。第二話者音声の構成は、上述の第一話者音声の構成と同様であるので、ここでは説明を省略する。
音声変換関数学習装置10の備えるテキスト記憶部930には、あらかじめ与えられた任意のテキストが記憶されている。与えられるテキストは、この発明の音声変換技術が適用される場面を考慮して選択することが望ましい。また、テキストのデータ量は学習精度に影響を与えるため、できるだけ多い方が望ましい。
音声変換関数学習装置10の備える第一話者モデル学習部110は、第一話者音声を学習して第一話者平均声モデルを生成する(S110)。平均声の学習は、様々な方法が提案されているが、例えば、「J.YAMAGISHI, M.TAMURA, T.MASUKO, K.TOKUDA, T.KOBAYASHI, ”A Training Method of Average Voice Model for HMM-Based Speech Synthesis”, IEICE TRANSACTIONS on Fundamentals of Electronics, Communications and Computer Sciences Vol.E86-A No.8, pp.1956-1963(参考文献1)」に記載の方法で行うことができる。生成された第一話者平均声モデルは、第一話者平均声モデル記憶部920に記憶される。
音声変換関数学習装置10の備える第二話者モデル学習部115は、第二話者音声を学習して第二話者平均声モデルを生成する(S115)。平均声の学習は、上述の第一話者平均声モデルの学習と同様に、様々な方法により行うことができる。生成された第二話者平均声モデルは、第二話者平均声モデル記憶部925に記憶される。
音声変換関数学習装置10の備える第一話者音声合成部120は、テキスト記憶部130に記憶されているテキストを、第一話者平均声モデルを用いて音声合成し、第一話者平均声合成音を生成する(S120)。第一話者平均声合成音は、音声合成により生成される音声データと、その音声データに対応する音素ラベルにより構成される。音声合成の方法は、様々な方法が提案されているが、例えば、「K.Tokuda, Z.Heiga. A.W.Black, “An HMM-based speech synthesis system applied to English”, Proc. of 2002 IEEE SSW, 2002(参考文献2)」に記載の方法で行うことができる。音素ラベルとは、音声データ中に含まれる各音素の時間的な位置を表す情報である。音素の時間的な位置は音声合成処理の中で決定するものであるため、音声合成処理において容易に取得することができる。生成された第一話者平均声合成音は、第一話者平均声合成音記憶部940に記憶される。
音声変換関数学習装置10の備える第二話者音声合成部125は、テキスト記憶部130に記憶されているテキストを、第二話者平均声モデルを用いて音声合成し、第二話者平均声合成音を生成する(S125)。第二話者平均声合成音の構成は、上述の第一話者平均声合成音の構成と同様である。音声合成の方法は、上述の第一話者平均声合成音の合成と同様に、様々な方法により行うことができる。生成された第二話者平均声合成音は、第二話者平均声合成音記憶部945に記憶される。
音声変換関数学習装置10の備える変換関数学習部130は、第一話者平均声合成音と第二話者平均声合成音とを用いて、第一音声変換関数を学習する。また、第一話者平均声合成音と第二話者平均声合成音とを用いて、第二音声変換関数を学習する。第一音声変換関数とは、第一話者が発話した音声を入力として、第二話者類似音声を出力する変換関数である。第二話者類似音声は、第二話者が発話した音声に類似する音声であり、より詳細には、第一話者の声質を維持したまま第二話者の発音の傾向が反映された音声である。第二音声変換関数とは、第一音声変換関数とは逆に、第二話者が発話した音声を入力として、第一話者類似音声を出力する変換関数である。第一話者類似音声は、第一話者が発話した音声に類似する音声であり、より詳細には、第二話者の声質を維持したまま第一話者の発音の傾向が反映された音声である。
第一音声変換関数および第二音声変換関数の学習方法について、詳細に説明する。変換関数の学習方法は、既知の様々な声質変換技術を適用することができるが、ここでは、非特許文献1に記載の方法を例に説明する。特許文献1においては、様々な音響モデルについて言及しているが、ここでは多次元混合正規分布(Gaussian Mixture Model、GMM)により音声の特徴量がモデル化されている場合を例にとって説明する。
xを入力音声のp次元の特徴量ベクトルとし、μを入力音声xの平均とし、Σを入力音声xの共分散行列とし、αiをクラスiの重みとし、mをクラス数とすると、多次元混合正規分布によりモデル化された入力音声xの確率分布p(x)は以下の式で表すことができる。
Figure 2013238819
ここで、xを入力音声とし、yを出力音声とし、μi (x)を入力音声xのクラスiの平均とし、μi (y)を出力音声yのクラスiの平均とし、Σi (xx)を入力音声xのクラスiの共分散行列とし、Σi (xy)を入力音声xと出力音声yのクラスiの共分散行列とすると、変換関数y=F(x)は以下の式で表すことができる。
Figure 2013238819
変換関数F(x)のパラメータであるαi、μi (x) μi (y) Σi (xx) Σi (yx)は以下のように結合特徴量ベクトルを用いてEMアルゴリズムにより推定することができる。
Figure 2013238819
入力音声xを第一話者平均声合成音とし、出力音声yを第二話者平均声合成音とすることで、第一音声変換関数を学習することができる。逆に、入力音声xを第二話者平均声合成音とし、出力音声yを第一話者平均声合成音とすることで、第二音声変換関数を学習することができる。このように、ある音声と異なる音声との間で音素ラベルの対応付けが可能であれば、それらの音声間の相互の対応関係である変換関数は入力音声と出力音声を入れ替えるだけで容易に学習することができる。変換関数の学習方法についてのより詳細な説明は、非特許文献1を参照されたい。
<音声変換処理>
図4を参照して、音声変換装置20の動作例を、実際に行われる手続きの順に従って詳細に説明する。
音声変換装置20の備える第一音声変換関数記憶部950には、音声変換関数学習装置10の学習した第一音声変換関数が記憶されている。
音声変換装置20の備える第二音声変換関数記憶部955は、音声変換関数学習装置10の学習した第二音声変換関数が記憶されている。
音声変換装置20の備える収音手段201は、発話者の発話した音声を音声信号に変換して、入力端子(図示せず)を介して音声変換装置20へ入力する(S201)。収音手段201は、典型的にはマイクロホンである。
音声変換装置20の備える第一話者音声変換部210は、収音手段201を介して入力された音声信号が、誰の発話した音声であるかを判定する(S205)。入力音声の発話者を判定する方法は様々な方法が考えられるが、例えば、手動で設定可能としてもよい。入力音声が第一話者の発話した音声であれば、第一音声変換関数記憶部950に記憶されている第一音声変換関数を実行することにより、その入力音声を第二話者類似音声に変換する(S210)。入力音声の変換方法についての詳細は、非特許文献1を参照されたい。生成した第二話者類似音声は、発音手段202へ出力される。
音声変換装置20の備える第二話者音声変換部215は、収音手段201を介して入力された音声信号が、誰の発話した音声であるかを判定する(S205)。入力音声の発話者を判定する方法は様々な方法が考えられるが、例えば、手動で設定可能としてもよい。入力音声が第二話者の発話した音声であれば、第二音声変換関数記憶部955に記憶されている第二音声変換関数を実行することにより、その入力音声を第一話者類似音声に変換する(S215)。入力音声の変換方法についての詳細は、非特許文献1を参照されたい。生成した第一話者類似音声は、発音手段202へ出力される。
音声変換装置20の備える発音手段202は、出力端子(図示せず)を介して音声変換装置20が出力する音声信号を、音声に変換して周囲へ発音する(S202)。発音手段202は、典型的にはスピーカーである。ここで出力する音声信号は、入力音声が第一話者の発話した音声であれば、第二話者類似音声である。一方、入力音声が第二話者の発話した音声であれば、第一話者類似音声である。
<効果>
この発明の第1実施形態では、音声変換関数学習装置10が、第一話者平均声モデルと第二話者平均声モデルとを用いて、同一のテキストをそれぞれ音声合成し、生成された合成音の対応関係を表す変換関数を学習する。音声変換装置20は、音声変換関数学習装置10が学習した変換関数を用いて、第一話者の発話する音声を第二話者の発話する音声に類似する音声に変換し、第二話者の発話する音声を第一話者の発話する音声に類似する音声に変換する。
このように構成することにより、発音の傾向の異なる二者間で対話する際に、発話者の声質を維持したまま聴取者に聞き取りやすい音声に変換することができるため、二者間での円滑な意思の伝達が可能となる。
[第2実施形態]
<概要>
まず、この発明の第2実施形態の概要を説明する。この実施形態は、ある言語を母語とせず、その言語の習得が十分でない学習者と、その言語を母語とする母語話者とが対話する場面に、この発明を適用することを想定している。すなわち、第1実施形態における第一話者を、ある言語を母語とせず、その言語の習得が十分でない学習者とし、第1実施形態における第二話者を、その言語を母語とする母語話者とする。
この実施形態では、音声変換関数学習装置11と音声変換装置21を用いる。まず、あらかじめ対象言語を母語とせず、その言語の習得が十分でない学習者の音声と、その言語を母語とする母語話者の音声とを、それぞれ収集する。音声変換関数学習装置11は、複数の学習者が発話した音声を学習して学習者平均声モデルを生成する。また、複数の母語話者が発話した音声を学習して母語話者平均声モデルを生成する。そして、学習者平均声モデルと母語話者平均声モデルとを用いて、学習者が発話した音声を母語話者が発話した音声に類似する音声に変換する第一音声変換関数と、母語話者が発話した音声を学習者が発話した音声に類似する音声に変換する第二音声変換関数とを学習する。
音声変換装置は、学習者が発話した音声が入力された場合には、第一音声変換関数を用いて、母語話者が発話した音声に類似する音声に変換する。一方、母語話者が発話した音声が入力された場合には、第二音声変換関数を用いて、学習者が発話した音声に類似する音声に類似する音声に変換する。
上述の通り、平均声モデルの特徴を鑑みると、学習者平均声モデルと母語話者平均声モデルとの差分は、対象言語の習得度の違いのみを表わすものとなることが期待できる。つまり学習者平均声モデルと母語話者平均声モデルの対応関係を表す変換関数は、入力された音声に対して、対象言語の習得度を双方向に反映させる変換関数であると言える。したがって、学習者と母語話者が対話する際に、発話者の音声が聴取者の聞き取りやすい音声に変換されるため、二者間での円滑な意思の伝達が可能となる。
<構成>
図5を参照して、第2実施形態に係る音声変換関数学習装置11の構成例を詳細に説明する。音声変換関数学習装置11は、学習者モデル学習部111と母語話者モデル学習部116と学習者音声合成部121と母語話者音声合成部126と変換関数学習部131と学習者音声記憶部911と母語話者音声記憶部916と学習者平均声モデル記憶部921と母語話者平均声モデル記憶部926とテキスト記憶部931と学習者平均声合成音記憶部941と母語話者平均声合成音記憶部946と学習者音声変換関数記憶部951と母語話者音声変換関数記憶部956とを備える。学習者音声記憶部911と母語話者音声記憶部916と学習者平均声モデル記憶部921と母語話者平均声モデル記憶部926とテキスト記憶部931と学習者平均声合成音記憶部941と母語話者平均声合成音記憶部946と学習者音声変換関数記憶部951と母語話者音声変換関数記憶部956は、例えば、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)などの半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
図6を参照して、第2実施形態に係る音声変換装置21の構成例を詳細に説明する。音声変換装置21は、収音手段201と発音手段202と学習者音声変換部211と母語話者音声変換部216と学習者音声変換関数記憶部951と母語話者音声変換関数記憶部956とを備える。学習者音声変換関数記憶部951および母語話者音声変換関数記憶部956は、音声変換関数学習装置11の備える学習者音声変換関数記憶部951および母語話者音声変換関数記憶部956と同様に構成される。
<第1実施形態との相違点>
この実施形態と第1実施形態との相違点について説明する。第1実施形態と第2実施形態では、基本的に音声変換関数学習処理と音声変換処理の内容は同様である。第2実施形態では、第1実施形態における第一話者を、ある言語を母語とせず、その言語の習得が十分でない話者である学習者とし、第2実施形態における第二話者を、その言語を母語とする話者である母語話者とする。ある言語の習得が十分でない学習者は、その言語の発音が適切でなく自身の母語の発音に近くなることが考えられるため、発音の傾向が近いグループとすることができる。また、ある言語を母語とする母語話者は、その言語の発音が適切であるため、同様に発音の傾向が近いグループとすることができる。例えば、対象言語を英語とすると、学習者を英語の習得が十分でない日本人として、母語話者を英語を母語とする米国人とすることが考えられる。
具体的には、学習者音声記憶部911に記憶される学習者音声と、母語話者音声記憶部916に記憶される母語話者音声と、テキスト記憶部931に記憶される任意のテキストは、いずれも母語話者が母語とし、学習者が母語としない対象言語で統一されていなければいけない。また、音声変換装置21の備える収集手段201からの入力音声も、同じ言語で発話されなければいけない。上記の例であれば、学習者音声と母語話者音声は英語で発話された音声でなければいけないし、音声変換装置21へ入力される発話者の音声は英語を発話したものでなければならない。
<効果>
この実施形態では、音声変換関数学習装置11が、学習者平均声モデルと母語話者平均声モデルとを用いて、同一のテキストをそれぞれ音声合成し、対応する合成音の対応関係を表す変換関数を学習する。音声変換装置21は、音声変換関数学習装置11が学習した変換関数を用いて、学習者の発話する音声を母語話者の発話する音声に類似する音声に変換し、母語話者の発話する音声を学習者の発話する音声に類似する音声に変換する。
このように構成することにより、ある言語を母語とせず、その言語の習得が十分でない学習者が発声した音声を、その言語を母語とする母語話者にとって聴取しやすい音声に、発話者の声質を維持したまま変換することができ、学習者がその言語を習得する初期段階であっても、学習者から母語話者への円滑な意思の伝達が可能となる。
また、ある言語を母語とする母語話者が発声した音声を、その言語を母語とせず、その言語の習得が十分でない学習者にとって聴取しやすい音声に、発話者の声質を維持したまま変換することができ、学習者がその言語を習得する初期段階であっても、母語話者から学習者への円滑な意思の伝達が可能となる。
[プログラム、記録媒体]
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
また、上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
10,11 音声変換関数学習装置
20,21 音声変換装置
110 第一話者モデル学習部 111 学習者モデル学習部
115 第二話者モデル学習部 116 母語話者モデル学習部
120 第一話者音声合成部 121 学習者音声合成部
125 第二話者音声合成部 126 母語話者音声合成部
130,131 変換関数学習部
201 収音手段 202 発音手段
210 第一話者音声変換部 211 学習者音声変換部
215 第二話者音声変換部 216 母語話者音声変換部
910 第一話者音声記憶部 911 学習者音声記憶部
915 第二話者音声記憶部 915 母語話者音声記憶部
920 第一話者平均声モデル記憶部 921 学習者平均声モデル記憶部
925 第二話者平均声モデル記憶部 926 母語話者平均声モデル記憶部
930,931 テキスト記憶部
940 第一話者平均声合成音記憶部 941 学習者平均声合成音記憶部
945 第二話者平均声合成音記憶部 946 母語話者平均声合成音記憶部
950 第一音声変換関数記憶部 951 学習者音声変換関数記憶部
955 第二音声変換関数記憶部 956 母語話者音声変換関数記憶部

Claims (8)

  1. 複数の話者を発音の傾向によりグループ分けし、一方のグループに属する第一話者が発話した音声を他方のグループに属する第二話者が発話した音声に類似する音声へ変換し、当該第二話者が発話した音声を当該第一話者が発話した音声に類似する音声へ変換する音声変換関数を学習する音声変換関数学習装置であって、
    複数の前記第一話者が発話した第一話者音声を学習して生成した第一話者平均声モデルが記憶された第一話者平均声モデル記憶部と、
    複数の前記第二話者が発話した第二話者音声を学習して生成した第二話者平均声モデルが記憶された第二話者平均声モデル記憶部と、
    任意のテキストが記憶されたテキスト記憶部と、
    前記第一話者平均声モデルを用いて前記テキストを音声合成し、第一話者平均声合成音を生成する第一話者音声合成部と、
    前記第二話者平均声モデルを用いて前記テキストを音声合成し、第二話者平均声合成音を生成する第二話者音声合成部と、
    前記第一話者平均声合成音と前記第二話者平均声合成音とを用いて、前記第一話者音声から前記第二話者音声への対応関係を学習して、前記第一話者が発話した音声を入力として前記第二話者が発話した音声に類似する第二話者類似音声を出力する第一音声変換関数を生成し、前記第一話者平均声合成音と前記第二話者平均声合成音とを用いて、前記第二話者音声から前記第一話者音声への対応関係を学習して、前記第二話者が発話した音声を入力として前記第一話者が発話した音声に類似する第一話者類似音声を出力する第二音声変換関数を生成する変換関数学習部と、
    を備えることを特徴とする音声変換関数学習装置。
  2. 請求項1に記載の音声変換関数学習装置であって、
    前記第一話者平均声合成音および前記第二話者平均声合成音は、特徴量ベクトルの確率分布が多次元混合正規分布でモデル化され、
    前記変換関数学習部は、
    前記第一話者平均声合成音を入力として、前記第一話者平均声合成音と前記第二話者平均声合成音との結合特徴量ベクトルを用いて、前記第一音声変換関数のパラメータを推定し、前記第二話者平均声合成音を入力として、前記結合特徴量ベクトルを用いて、前記第二音声変換関数のパラメータを推定する
    ことを特徴とする音声変換関数学習装置。
  3. 複数の話者を発音の傾向によりグループ分けし、一方のグループに属する第一話者が発話した音声を他方のグループに属する第二話者が発話した音声に類似する音声へ変換し、当該第二話者が発話した音声を当該第一話者が発話した音声に類似する音声へ変換する音声変換装置であって、
    前記第一話者が発話した音声を入力として前記第二話者が発話した音声に類似する第二話者類似音声を出力する第一音声変換関数が記憶された第一音声変換関数記憶部と、
    前記第二話者が発話した音声を入力として前記第一話者が発話した音声に類似する第一話者類似音声を出力する第二音声変換関数が記憶された第二音声変換関数記憶部と、
    入力音声が前記第一話者の発話した音声であれば、前記第一音声変換関数を実行することにより、前記入力音声を前記第二話者類似音声に変換する第一話者音声変換部と、
    前記入力音声が前記第二話者の発話した音声であれば、前記第二音声変換関数を実行することにより、前記入力音声を前記第一話者類似音声に変換する第二話者音声変換部と、
    を備え、
    前記第一音声変換関数は、複数の前記第一話者が発話した第一話者音声を学習して生成した第一話者平均声モデルと複数の前記第二話者が発話した第二話者音声を学習して生成した第二話者平均声モデルとを用いて、前記第一話者音声から前記第二話者音声への対応関係を学習されたものであり、
    前記第二音声変換関数は、前記第一話者平均声モデルと前記第二話者平均声モデルとを用いて、前記第二話者音声から前記第一話者音声への対応関係を学習されたものである
    ことを特徴とする音声変換装置。
  4. 請求項3に記載の音声変換装置であって、
    前記第一音声変換関数は、前記第一話者平均声モデルを用いて任意のテキストを音声合成した第一話者平均声合成音と前記第二話者平均声モデルを用いて前記テキストを音声合成した第二話者平均声合成音とを用いて、前記第一話者音声から前記第二話者音声への対応関係を学習されたものであり、
    前記第二音声変換関数は、前記第一話者平均声合成音と前記第二話者平均声合成音とを用いて、前記第二話者音声から前記第一話者音声への対応関係を学習されたものである
    ことを特徴とする音声変換装置。
  5. 請求項4に記載の音声変換装置であって、
    前記第一話者平均声合成音および前記第二話者平均声合成音は、確率分布が多次元混合正規分布でモデル化され、
    前記第一音声変換関数は、前記第一話者平均声合成音を入力として前記第一話者平均声合成音と前記第二話者平均声合成音とを結合した結合特徴量ベクトルを用いて推定されたパラメータを用い、
    前記第二音声変換関数は、前記第二話者平均声合成音を入力として前記結合特徴量ベクトルを用いて推定されたパラメータを用いる
    ことを特徴とする音声変換装置。
  6. 複数の話者を発音の傾向によりグループ分けし、一方のグループに属する第一話者が発話した音声を他方のグループに属する第二話者が発話した音声に類似する音声へ変換し、当該第二話者が発話した音声を当該第一話者が発話した音声に類似する音声へ変換する音声変換関数を学習する音声変換関数学習方法であって、
    複数の前記第一話者が発話した第一話者音声を学習して生成した第一話者平均声モデルを用いて任意のテキストを音声合成し、第一話者平均声合成音を生成する第一話者音声合成ステップと、
    複数の前記第二話者が発話した第二話者音声を学習して生成した第二話者平均声モデルを用いて前記テキストを音声合成し、第二話者平均声合成音を生成する第二話者音声合成ステップと、
    前記第一話者平均声合成音と前記第二話者平均声合成音とを用いて、前記第一話者音声から前記第二話者音声への対応関係を学習して、前記第一話者が発話した音声を入力として前記第二話者が発話した音声に類似する第二話者類似音声を出力する第一音声変換関数を生成し、前記第一話者平均声合成音と前記第二話者平均声合成音とを用いて、前記第二話者音声から前記第一話者音声への対応関係を学習して、前記第二話者が発話した音声を入力として前記第一話者が発話した音声に類似する第一話者類似音声を出力する第二音声変換関数を生成する変換関数学習ステップと、
    を含むことを特徴とする音声変換関数学習方法。
  7. 複数の話者を発音の傾向によりグループ分けし、一方のグループに属する第一話者が発話した音声を他方のグループに属する第二話者が発話した音声に類似する音声へ変換し、当該第二話者が発話した音声を当該第一話者が発話した音声に類似する音声へ変換する音声変換方法であって、
    入力音声が前記第一話者の発話した音声であれば、前記第一話者が発話した音声を入力として前記第二話者が発話した音声に類似する第二話者類似音声を出力する第一音声変換関数を実行することにより、前記入力音声を前記第二話者類似音声に変換する第一話者音声変換ステップと、
    前記入力音声が前記第二話者の発話した音声であれば、前記第二話者が発話した音声を入力として前記第一話者が発話した音声に類似する第一話者類似音声を出力する第二音声変換関数を実行することにより、前記入力音声を前記第一話者類似音声に変換する第二話者音声変換ステップと、
    を含み、
    前記第一音声変換関数は、複数の前記第一話者が発話した第一話者音声を学習して生成した第一話者平均声モデルと複数の前記第二話者が発話した第二話者音声を学習して生成した第二話者平均声モデルとを用いて、前記第一話者音声から前記第二話者音声への対応関係を学習されたものであり、
    前記第二音声変換関数は、前記第一話者平均声モデルと前記第二話者平均声モデルとを用いて、前記第二話者音声から前記第一話者音声への対応関係を学習されたものである
    ことを特徴とする音声変換方法。
  8. 請求項1または2に記載の音声変換関数学習装置もしくは請求項3から5のいずれかに記載の音声変換装置としてコンピュータを機能させるためのプログラム。
JP2012113439A 2012-05-17 2012-05-17 音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム Expired - Fee Related JP5706368B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012113439A JP5706368B2 (ja) 2012-05-17 2012-05-17 音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012113439A JP5706368B2 (ja) 2012-05-17 2012-05-17 音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2013238819A true JP2013238819A (ja) 2013-11-28
JP5706368B2 JP5706368B2 (ja) 2015-04-22

Family

ID=49763857

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012113439A Expired - Fee Related JP5706368B2 (ja) 2012-05-17 2012-05-17 音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5706368B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019208193A1 (ja) * 2018-04-25 2019-10-31 日本電信電話株式会社 発音変換装置、ピッチマーク時刻抽出装置、それらの方法、およびプログラム
CN112382273A (zh) * 2020-11-13 2021-02-19 北京有竹居网络技术有限公司 用于生成音频的方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002244689A (ja) * 2001-02-22 2002-08-30 Rikogaku Shinkokai 平均声の合成方法及び平均声からの任意話者音声の合成方法
JP2004012584A (ja) * 2002-06-04 2004-01-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体
WO2010142928A1 (en) * 2009-06-10 2010-12-16 Toshiba Research Europe Limited A text to speech method and system
JP2011028130A (ja) * 2009-07-28 2011-02-10 Panasonic Electric Works Co Ltd 音声合成装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002244689A (ja) * 2001-02-22 2002-08-30 Rikogaku Shinkokai 平均声の合成方法及び平均声からの任意話者音声の合成方法
JP2004012584A (ja) * 2002-06-04 2004-01-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体
WO2010142928A1 (en) * 2009-06-10 2010-12-16 Toshiba Research Europe Limited A text to speech method and system
JP2011028130A (ja) * 2009-07-28 2011-02-10 Panasonic Electric Works Co Ltd 音声合成装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
G. BAUDOIN, ET AL.: ""ON THE TRANSFORMATION OF THE SPEECH SPECTRUM FOR VOICE CONVERSION"", PROCEEDINGS OF THE 4TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING (ICSLP 96), vol. 3, JPN6015006419, October 1996 (1996-10-01), pages 1405 - 1408, XP010237945, ISSN: 0003010464, DOI: 10.1109/ICSLP.1996.607877 *
KEIICHI TOKUDA, ET AL.: ""AN HMM-BASED SPEECH SYNTHESIS SYSTEM APPLIED TO ENGLISH"", PROCEEDINGS OF THE 2002 IEEE WORKSHOP ON SPEECH SYNTHESIS, JPN6015006418, September 2002 (2002-09-01), pages 227 - 230, XP010653652, ISSN: 0003010465 *
彭湘琳他: ""言語依存平均声の差異を考慮したクロスリンガル話者適応"", 日本音響学会2010年春季研究発表会講演論文集CD−ROM[CD−ROM], JPN6015006417, March 2010 (2010-03-01), pages 325 - 326, ISSN: 0003010463 *
金川裕紀他: ""HMM音声合成における不特定話者スタイル変換の検討"", 電子情報通信学会技術研究報告, vol. 111, no. 364, JPN6014004143, December 2011 (2011-12-01), pages 191 - 196, ISSN: 0003010462 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019208193A1 (ja) * 2018-04-25 2019-10-31 日本電信電話株式会社 発音変換装置、ピッチマーク時刻抽出装置、それらの方法、およびプログラム
JP2019191378A (ja) * 2018-04-25 2019-10-31 日本電信電話株式会社 発音変換装置、ピッチマーク時刻抽出装置、それらの方法、およびプログラム
JP7040258B2 (ja) 2018-04-25 2022-03-23 日本電信電話株式会社 発音変換装置、その方法、およびプログラム
CN112382273A (zh) * 2020-11-13 2021-02-19 北京有竹居网络技术有限公司 用于生成音频的方法、装置、设备和介质

Also Published As

Publication number Publication date
JP5706368B2 (ja) 2015-04-22

Similar Documents

Publication Publication Date Title
Barker et al. The fifth'CHiME'speech separation and recognition challenge: dataset, task and baselines
EP3994683B1 (en) Multilingual neural text-to-speech synthesis
CN105845125B (zh) 语音合成方法和语音合成装置
US20220013106A1 (en) Multi-speaker neural text-to-speech synthesis
CN106688034B (zh) 具有情感内容的文字至语音转换
CN108831437A (zh) 一种歌声生成方法、装置、终端和存储介质
WO2019116889A1 (ja) 信号処理装置および方法、学習装置および方法、並びにプログラム
CN112102811B (zh) 一种合成语音的优化方法、装置及电子设备
KR20200027331A (ko) 음성 합성 장치
CN113205793B (zh) 音频生成方法、装置、存储介质及电子设备
Abushariah et al. Modern standard Arabic speech corpus for implementing and evaluating automatic continuous speech recognition systems
CN112185342A (zh) 语音转换与模型训练方法、装置和系统及存储介质
CN116312471A (zh) 语音迁移、语音交互方法、装置、电子设备及存储介质
Sugiura et al. Non-monologue HMM-based speech synthesis for service robots: A cloud robotics approach
CN113314096A (zh) 语音合成方法、装置、设备和存储介质
JP5706368B2 (ja) 音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム
CN117351948A (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
CN113851140A (zh) 语音转换相关方法、系统及装置
Mirishkar et al. CSTD-Telugu corpus: Crowd-sourced approach for large-scale speech data collection
WO2023197206A1 (en) Personalized and dynamic text to speech voice cloning using incompletely trained text to speech models
JP5689774B2 (ja) 対話型情報発信装置、対話型情報発信方法、及びプログラム
JP2005196020A (ja) 音声処理装置と方法並びにプログラム
TWI725608B (zh) 語音合成系統、方法及非暫態電腦可讀取媒體
JP4769086B2 (ja) 声質変換吹替システム、及び、プログラム
JP6538944B2 (ja) 発話リズム変換装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140703

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150226

R150 Certificate of patent or registration of utility model

Ref document number: 5706368

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees