JP5706368B2 - Speech conversion function learning device, speech conversion device, speech conversion function learning method, speech conversion method, and program - Google Patents
Speech conversion function learning device, speech conversion device, speech conversion function learning method, speech conversion method, and program Download PDFInfo
- Publication number
- JP5706368B2 JP5706368B2 JP2012113439A JP2012113439A JP5706368B2 JP 5706368 B2 JP5706368 B2 JP 5706368B2 JP 2012113439 A JP2012113439 A JP 2012113439A JP 2012113439 A JP2012113439 A JP 2012113439A JP 5706368 B2 JP5706368 B2 JP 5706368B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice
- speech
- uttered
- conversion function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000006243 chemical reaction Methods 0.000 title claims description 215
- 230000006870 function Effects 0.000 title claims description 162
- 238000000034 method Methods 0.000 title claims description 41
- 230000015572 biosynthetic process Effects 0.000 claims description 24
- 238000003786 synthesis reaction Methods 0.000 claims description 24
- 230000009466 transformation Effects 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000013519 translation Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 241000186514 Warburgia ugandensis Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Description
この発明は、発音の傾向の異なる二者間で対話する際に発話者の音声を聴取者に聞き取りやすい音声に変換する音声変換技術に関する。 The present invention relates to a voice conversion technique for converting a voice of a speaker into a voice that can be easily heard by a listener when a conversation between two parties having different pronunciation tendencies is performed.
日本人が外国で英語等を母語とする人と会話する場合、英語または当該国の母語を用いて会話することが一般的である。近年では日本人の大部分はある程度英語を話せるもの、会話能力としては初心者レベルの場合が大多数である。このような初心者が諸外国等で英語を用いて意思疎通することは困難であるため、従来は音声自動翻訳技術により日本語と英語または他の言語との相互の翻訳が期待されてきた。実際、様々な大学、企業等で音声の自動翻訳を目指した研究が行われてきており、実環境での実用実験も行われてきている。その結果現在では、旅行や受付等、利用場面を限定すればある程度実用レベルになってきている。 When a Japanese has a conversation with a person whose mother tongue is English or the like in a foreign country, it is common to have a conversation using English or the native language of the country. In recent years, the majority of Japanese can speak English to some extent, and the conversation ability is mostly at the beginner level. Since it is difficult for such beginners to communicate using English in other countries, it has been expected that Japanese and English or other languages can be translated into each other by automatic speech translation technology. In fact, various universities, companies, etc. have been conducting research aimed at automatic speech translation, and practical experiments in actual environments have also been conducted. As a result, at present, it has become a practical level to some extent if the use scenes such as travel and reception are limited.
このように、自動音声翻訳の技術的な発展は著しいものの、なお多くの技術的な課題が存在する。自動音声翻訳の実現には、音声認識技術による音声のテキスト化、機械翻訳技術によるある言語のテキストから異なる言語のテキストへの翻訳、音声合成技術による翻訳されたテキストから音声への変換、という3種類の全く異なる技術を全体として統合し動作させる必要がある。そのため自動音声翻訳全体としての精度を向上することは困難である。上述のとおり利用場面を限定することで各技術のチューニングを行い、全体の精度を高める工夫が行われてはいるが、利用場面が限定されるため一般的な普及には至っていない。 Thus, although the technical development of automatic speech translation is remarkable, there are still many technical problems. Realization of automatic speech translation includes text-to-speech by speech recognition technology, translation from text in one language to text in a different language by machine translation technology, and conversion from translated text to speech by speech synthesis technology. It is necessary to integrate and operate totally different kinds of technologies as a whole. Therefore, it is difficult to improve the accuracy of the entire automatic speech translation. As described above, each technology is tuned by limiting the usage scenes, and devices have been devised to improve the overall accuracy. However, since the usage scenes are limited, it has not been widely spread.
一方、発話者が語学学習等により会話能力を高めることは可能である。しかし、第二言語と母語とでは発音自体が根本的に異なることが多いため、学習の初期段階ではその言語を母語とする人には聞き取りづらいか、異なる音として聞き取れる発音になることがある。また、第二言語を習得中の学習者はその言語の聴取能力が低いため、その言語を母語とする人の発音を全く聞き取れなかったりするという問題もある。 On the other hand, it is possible for a speaker to improve conversational ability by language learning or the like. However, since the pronunciation itself is often fundamentally different between the second language and the mother tongue, it may be difficult for the person who speaks the language as the mother tongue at the initial stage of learning, or the pronunciation may be heard as a different sound. In addition, since the learner who is learning the second language has a low ability to listen to the language, there is also a problem that the pronunciation of a person whose native language is the language cannot be heard at all.
そこで、発話者の発音を聴取者にとって聞き取りやすい音声に変換するような方法が考えられる。従来から声質を変換する技術に関しては様々な方法が提案されている。例えば非特許文献1には、特定の個人と異なる個人とで同一のテキストを発話した音声をそれぞれ収録し、それぞれの音声間の対応関係を表す変換関数を学習することで、特定の個人が発話した音声を異なる個人が発話した音声に類似する音声に変換する声質変換技術が記載されている。 Therefore, a method is conceivable in which the pronunciation of the speaker is converted into a voice that is easy for the listener to hear. Conventionally, various methods have been proposed for techniques for converting voice quality. For example, Non-Patent Document 1 records voices uttered by the same text between a specific individual and different individuals, and learns a conversion function representing the correspondence between the respective voices so that a specific individual speaks. A voice quality conversion technique is described in which converted speech is converted into speech similar to speech uttered by different individuals.
しかしながら、非特許文献1に記載の声質変換技術は、特定の個人と異なる個人との間で声質を変換することを目的としている。この技術をそのまま特定の言語を習得中の話者とその言語を母語とする話者とで会話する場面に応用した場合、発話者の声質までが異なった声質に変換されてしまい、聴取者に違和感を与えることになるという問題があった。 However, the voice quality conversion technique described in Non-Patent Document 1 aims to convert voice quality between a specific individual and a different individual. When this technology is applied to a conversation between a speaker who is learning a specific language and a speaker whose native language is that language, the voice quality of the speaker is converted to a different voice quality, which There was a problem of giving a sense of incongruity.
この発明はこのような点に鑑みてなされたものであり、発話者の声質を維持したまま、聴取者にとって聞き取りやすい音声に変換することができる音声変換技術を提供することを目的とする。 This invention is made in view of such a point, and it aims at providing the audio | voice conversion technique which can be converted into the audio | voice which is easy to hear for a listener, maintaining the voice quality of a speaker.
上記の課題を解決するために、この発明の音声変換関数学習装置は、複数の話者を発音の傾向によりグループ分けし、一方のグループに属する第一話者が発話した音声を他方のグループに属する第二話者が発話した音声に類似する音声へ変換し、第二話者が発話した音声を第一話者が発話した音声に類似する音声へ変換する音声変換関数を学習する。音声変換関数学習装置は、第一話者平均声モデル記憶部と第二話者平均声モデル記憶部とテキスト記憶部と第一話者音声合成部と第二話者音声合成部と変換関数学習部とを備える。第一話者平均声モデル記憶部には、複数の第一話者が発話した第一話者音声を学習して生成した第一話者平均声モデルが記憶されている。第二話者平均声モデル記憶部には、複数の第二話者が発話した第二話者音声を学習して生成した第二話者平均声モデルが記憶されている。テキスト記憶部には、任意のテキストが記憶されている。第一話者音声合成部は、第一話者平均声モデルを用いてテキストを音声合成し、第一話者平均声合成音を生成する。第二話者音声合成部は、第二話者平均声モデルを用いてテキストを音声合成し、第二話者平均声合成音を生成する。変換関数学習部は、第一話者平均声合成音と第二話者平均声合成音とを用いて、第一話者音声から第二話者音声への対応関係を学習して、第一話者が発話した音声を入力として第二話者が発話した音声に類似する第二話者類似音声を出力する第一音声変換関数を生成し、第一話者平均声合成音と第二話者平均声合成音とを用いて、第二話者音声から第一話者音声への対応関係を学習して、第二話者が発話した音声を入力として第一話者が発話した音声に類似する第一話者類似音声を出力する第二音声変換関数を生成する。 In order to solve the above-described problem, the speech conversion function learning device of the present invention divides a plurality of speakers into groups according to pronunciation tendency, and the speech uttered by the first speaker belonging to one group is assigned to the other group. A voice conversion function is converted to convert the voice spoken by the second speaker into a voice similar to the voice spoken by the second speaker, and convert the voice spoken by the second speaker into a voice similar to the voice spoken by the first speaker. The voice conversion function learning device includes a first speaker average voice model storage unit, a second speaker average voice model storage unit, a text storage unit, a first speaker voice synthesis unit, a second speaker voice synthesis unit, and a conversion function learning. A part. The first speaker average voice model storage unit stores a first speaker average voice model generated by learning first speaker voices uttered by a plurality of first speakers. The second speaker average voice model storage unit stores a second speaker average voice model generated by learning second speaker voices uttered by a plurality of second speakers. Arbitrary text is stored in the text storage unit. The first speaker voice synthesizer synthesizes text using the first speaker average voice model to generate a first speaker average voice synthesized sound. The second speaker voice synthesizer synthesizes text using the second speaker average voice model to generate a second speaker average voice synthesized sound. The conversion function learning unit learns the correspondence from the first speaker voice to the second speaker voice using the first speaker average voice synthesized sound and the second speaker average voice synthesized sound, Generates the first speech conversion function that outputs the second speaker-similar speech similar to the speech spoken by the second speaker, using the speech spoken by the speaker as the input, Learn the correspondence from the second speaker's voice to the first speaker's voice using the average voice synthesized by the speaker, and use the voice spoken by the second speaker as input to the voice spoken by the first speaker A second voice conversion function for outputting similar first speaker-like voice is generated.
また、この発明の音声変換装置は、複数の話者を発音の傾向によりグループ分けし、一方のグループに属する第一話者が発話した音声を他方のグループに属する第二話者が発話した音声に類似する音声へ変換し、当該第二話者が発話した音声を当該第一話者が発話した音声に類似する音声へ変換する。音声変換装置は、第一音声変換関数記憶部と第二音声変換関数記憶部と第一話者音声変換部と第二話者音声変換部とを備える。第一音声変換関数記憶部には、第一話者が発話した音声を入力として第二話者が発話した音声に類似する第二話者類似音声を出力する第一音声変換関数が記憶されている。第二音声変換関数記憶部には、第二話者が発話した音声を入力として第一話者が発話した音声に類似する第一話者類似音声を出力する第二音声変換関数が記憶されている。第一話者音声変換部は、入力音声が第一話者の発話した音声であれば、第一音声変換関数を実行することにより、入力音声を第二話者類似音声に変換する。第二話者音声変換部は、入力音声が第二話者の発話した音声であれば、第二音声変換関数を実行することにより、入力音声を第一話者類似音声に変換する。ただし、第一音声変換関数は、複数の第一話者が発話した第一話者音声を学習して生成した第一話者平均声モデルと複数の第二話者が発話した第二話者音声を学習して生成した第二話者平均声モデルとを用いて、第一話者音声から第二話者音声への対応関係を学習されたものである。また、第二音声変換関数は、第一話者平均声モデルと第二話者平均声モデルとを用いて、第二話者音声から第一話者音声への対応関係を学習されたものである。 The voice conversion device according to the present invention also divides a plurality of speakers into groups according to pronunciation tendency, and a voice uttered by a first speaker belonging to one group is a voice uttered by a second speaker belonging to the other group. And the voice uttered by the second speaker is converted into the voice similar to the voice uttered by the first speaker. The speech conversion device includes a first speech conversion function storage unit, a second speech conversion function storage unit, a first speaker speech conversion unit, and a second speaker speech conversion unit. The first voice conversion function storage unit stores a first voice conversion function that outputs a second speaker-similar voice similar to a voice spoken by the second speaker by using the voice spoken by the first speaker as an input. Yes. The second voice conversion function storage unit stores a second voice conversion function that outputs a first speaker-similar voice similar to a voice spoken by the first speaker by using a voice spoken by the second speaker as an input. Yes. The first speaker voice conversion unit converts the input voice into a second speaker similar voice by executing a first voice conversion function if the input voice is a voice uttered by the first speaker. If the input voice is a voice uttered by the second speaker, the second speaker voice conversion unit converts the input voice into the first speaker-like voice by executing a second voice conversion function. However, the first voice conversion function is the first speaker average voice model generated by learning the first speaker voice uttered by a plurality of first speakers and the second speaker uttered by a plurality of second speakers. The correspondence relationship from the first speaker voice to the second speaker voice is learned using the second speaker average voice model generated by learning the voice. The second voice conversion function is a learning function of the correspondence from the second speaker voice to the first speaker voice using the first speaker average voice model and the second speaker average voice model. is there.
この発明の音声変換技術によれば、発音の傾向の異なる二者間で対話する際に、発話者の声質を維持したまま聴取者に聞き取りやすい音声に変換することができるため、二者間での円滑な意思の伝達が可能となる。 According to the voice conversion technology of the present invention, when a conversation between two parties having different pronunciation tendencies, the voice can be converted into a voice that can be easily heard by the listener while maintaining the voice quality of the speaker. Can communicate smoothly.
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the component which has the same function in drawing, and duplication description is abbreviate | omitted.
[第1実施形態]
<概要>
まず、この発明の第1実施形態の概要を説明する。この実施形態では、音声変換関数学習装置10と音声変換装置20を用いる。まず、あらかじめ複数の話者を発音の傾向によりグループ分けし、各グループに属する複数の話者の音声を収集する。音声変換関数学習装置10は、任意のグループに属する話者を第一話者として、第一話者が発話した音声を学習して第一話者平均声モデルを生成する。また、異なるグループに属する話者を第二話者として、第二話者が発話した音声を学習して第二話者平均声モデルを生成する。そして、第一話者平均声モデルと第二話者平均声モデルとを用いて、第一話者が発話した音声を第二話者が発話した音声に類似する音声に変換する第一音声変換関数と、第二話者が発話した音声を第一話者が発話した音声に類似する音声に変換する第二音声変換関数とを学習する。
[First Embodiment]
<Overview>
First, the outline of the first embodiment of the present invention will be described. In this embodiment, the speech conversion
第一音声変換関数と第二音声変換関数を学習する際には、第一話者平均声モデルと第二話者平均声モデルをそれぞれ用いて十分な数のテキストを音声合成し、その合成音間の対応関係を表す変換関数を学習する。 When learning the first voice conversion function and the second voice conversion function, a sufficient number of texts are synthesized using the first speaker average voice model and the second speaker average voice model, respectively, Learn the conversion function that represents the correspondence between the two.
音声変換装置20は、第一話者が発話した音声が入力された場合には、第一音声変換関数を用いて、第二話者が発話した音声に類似する音声に変換する。一方、第二話者が発話した音声が入力された場合には、第二音声変換関数を用いて、第一話者が発話した音声に類似する音声に変換する。
When the voice uttered by the first speaker is input, the
平均声モデルは多数の話者の声質を用いて構築する平均的な声質の音響モデルである。したがって、十分な量の第一話者の音声と第二話者の音声を収集することが出来れば、第一話者平均声モデルと第二話者平均声モデルの声質は均質なものとすることができる。その結果、第一話者平均声モデルと第二話者平均声モデルとの差分は、第一話者と第二話者の発音の傾向のみが抽出されたものとなることが期待できる。つまり第一話者平均声モデルと第二話者平均声モデルの対応関係を表す変換関数は、入力された音声に対してそれぞれの話者の発音の傾向を双方向に反映させる変換関数であると言える。したがって、第一話者と第二話者が対話する際に、発話者の音声が聴取者の聞き取りやすい音声に変換されるため、二者間での円滑な意思の伝達が可能となる。 The average voice model is an average voice quality acoustic model constructed using the voice quality of many speakers. Therefore, the voice quality of the first speaker average voice model and the second speaker average voice model should be uniform if a sufficient amount of the voice of the first speaker and the voice of the second speaker can be collected. be able to. As a result, the difference between the first speaker average voice model and the second speaker average voice model can be expected to extract only the pronunciation tendency of the first speaker and the second speaker. In other words, the conversion function that represents the correspondence between the first speaker average voice model and the second speaker average voice model is a conversion function that bidirectionally reflects the tendency of each speaker's pronunciation to the input speech. It can be said. Therefore, when the first speaker and the second speaker interact, the voice of the speaker is converted into a voice that is easy for the listener to hear, so that smooth communication between the two parties can be achieved.
<構成>
図1を参照して、第1実施形態に係る音声変換関数学習装置10の構成例を詳細に説明する。音声変換関数学習装置10は、第一話者モデル学習部110と第二話者モデル学習部115と第一話者音声合成部120と第二話者音声合成部125と変換関数学習部130と第一話者音声記憶部910と第二話者音声記憶部915と第一話者平均声モデル記憶部920と第二話者平均声モデル記憶部925とテキスト記憶部930と第一話者平均声合成音記憶部940と第二話者平均声合成音記憶部945と第一音声変換関数記憶部950と第二音声変換関数記憶部955とを備える。第一話者音声記憶部910と第二話者音声記憶部915と第一話者平均声モデル記憶部920と第二話者平均声モデル記憶部925とテキスト記憶部930と第一話者平均声合成音記憶部940と第二話者平均声合成音記憶部945と第一音声変換関数記憶部950と第二音声変換関数記憶部955は、例えば、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)などの半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
<Configuration>
A configuration example of the speech conversion
図2を参照して、第1実施形態に係る音声変換装置20の構成例を詳細に説明する。音声変換装置20は、収音手段201と発音手段202と第一話者音声変換部210と第二話者音声変換部215と第一音声変換関数記憶部950と第二音声変換関数記憶部955とを備える。第一音声変換関数記憶部950および第二音声変換関数記憶部955は、音声変換関数学習装置10の備える第一音声変換関数記憶部950および第二音声変換関数記憶部955と同様に構成される。
With reference to FIG. 2, the structural example of the audio |
<音声変換関数学習処理>
図3を参照して、音声変換関数学習装置10の動作例を、実際に行われる手続きの順に従って詳細に説明する。
<Speech conversion function learning process>
With reference to FIG. 3, an operation example of the speech conversion
音声変換関数学習装置10の備える第一話者音声記憶部910には、複数の第一話者が発話した複数の音声である第一話者音声が記憶されている。第一話者とは、あらかじめ複数の話者を発音の傾向によりグループ分けし、複数のグループの中から選択されたあるグループに属する話者である。第一話者音声は、実際に収録された音声データと、その音声データに対してあらかじめ自動的または手作業により付与されたコンテキスト情報から構成される。コンテキスト情報は、具体的には、形態素、音素、アクセントなどである。音声データに対してコンテキスト情報を自動的に付与する方法は、従来より様々な方法が提案されているため、ここでの詳細な説明は省略する。
The first speaker
音声変換関数学習装置10の備える第二話者音声記憶部915には、複数の第二話者が発話した複数の音声である第二話者音声が記憶されている。第二話者とは、あらかじめ複数の話者を発音の傾向によりグループ分けし、複数のグループの中から選択されたあるグループに属する話者である。第二話者が属するグループは、第一話者が属するグループとは異なるグループでなければならない。したがって、第一話者と第二話者は、発音の傾向が互いに異なる二組の話者である。第二話者音声の構成は、上述の第一話者音声の構成と同様であるので、ここでは説明を省略する。
The second speaker
音声変換関数学習装置10の備えるテキスト記憶部930には、あらかじめ与えられた任意のテキストが記憶されている。与えられるテキストは、この発明の音声変換技術が適用される場面を考慮して選択することが望ましい。また、テキストのデータ量は学習精度に影響を与えるため、できるだけ多い方が望ましい。
The
音声変換関数学習装置10の備える第一話者モデル学習部110は、第一話者音声を学習して第一話者平均声モデルを生成する(S110)。平均声の学習は、様々な方法が提案されているが、例えば、「J.YAMAGISHI, M.TAMURA, T.MASUKO, K.TOKUDA, T.KOBAYASHI, ”A Training Method of Average Voice Model for HMM-Based Speech Synthesis”, IEICE TRANSACTIONS on Fundamentals of Electronics, Communications and Computer Sciences Vol.E86-A No.8, pp.1956-1963(参考文献1)」に記載の方法で行うことができる。生成された第一話者平均声モデルは、第一話者平均声モデル記憶部920に記憶される。
The first speaker
音声変換関数学習装置10の備える第二話者モデル学習部115は、第二話者音声を学習して第二話者平均声モデルを生成する(S115)。平均声の学習は、上述の第一話者平均声モデルの学習と同様に、様々な方法により行うことができる。生成された第二話者平均声モデルは、第二話者平均声モデル記憶部925に記憶される。
The second speaker
音声変換関数学習装置10の備える第一話者音声合成部120は、テキスト記憶部130に記憶されているテキストを、第一話者平均声モデルを用いて音声合成し、第一話者平均声合成音を生成する(S120)。第一話者平均声合成音は、音声合成により生成される音声データと、その音声データに対応する音素ラベルにより構成される。音声合成の方法は、様々な方法が提案されているが、例えば、「K.Tokuda, Z.Heiga. A.W.Black, “An HMM-based speech synthesis system applied to English”, Proc. of 2002 IEEE SSW, 2002(参考文献2)」に記載の方法で行うことができる。音素ラベルとは、音声データ中に含まれる各音素の時間的な位置を表す情報である。音素の時間的な位置は音声合成処理の中で決定するものであるため、音声合成処理において容易に取得することができる。生成された第一話者平均声合成音は、第一話者平均声合成音記憶部940に記憶される。
The first speaker
音声変換関数学習装置10の備える第二話者音声合成部125は、テキスト記憶部130に記憶されているテキストを、第二話者平均声モデルを用いて音声合成し、第二話者平均声合成音を生成する(S125)。第二話者平均声合成音の構成は、上述の第一話者平均声合成音の構成と同様である。音声合成の方法は、上述の第一話者平均声合成音の合成と同様に、様々な方法により行うことができる。生成された第二話者平均声合成音は、第二話者平均声合成音記憶部945に記憶される。
The second
音声変換関数学習装置10の備える変換関数学習部130は、第一話者平均声合成音と第二話者平均声合成音とを用いて、第一音声変換関数を学習する。また、第一話者平均声合成音と第二話者平均声合成音とを用いて、第二音声変換関数を学習する。第一音声変換関数とは、第一話者が発話した音声を入力として、第二話者類似音声を出力する変換関数である。第二話者類似音声は、第二話者が発話した音声に類似する音声であり、より詳細には、第一話者の声質を維持したまま第二話者の発音の傾向が反映された音声である。第二音声変換関数とは、第一音声変換関数とは逆に、第二話者が発話した音声を入力として、第一話者類似音声を出力する変換関数である。第一話者類似音声は、第一話者が発話した音声に類似する音声であり、より詳細には、第二話者の声質を維持したまま第一話者の発音の傾向が反映された音声である。
The conversion
第一音声変換関数および第二音声変換関数の学習方法について、詳細に説明する。変換関数の学習方法は、既知の様々な声質変換技術を適用することができるが、ここでは、非特許文献1に記載の方法を例に説明する。特許文献1においては、様々な音響モデルについて言及しているが、ここでは多次元混合正規分布(Gaussian Mixture Model、GMM)により音声の特徴量がモデル化されている場合を例にとって説明する。 A learning method of the first speech conversion function and the second speech conversion function will be described in detail. Various known voice quality conversion techniques can be applied to the conversion function learning method. Here, the method described in Non-Patent Document 1 will be described as an example. In Patent Document 1, various acoustic models are mentioned, but here, an example in which a speech feature is modeled by a multidimensional mixed normal distribution (Gaussian Mixture Model, GMM) will be described.
xを入力音声のp次元の特徴量ベクトルとし、μを入力音声xの平均とし、Σを入力音声xの共分散行列とし、αiをクラスiの重みとし、mをクラス数とすると、多次元混合正規分布によりモデル化された入力音声xの確率分布p(x)は以下の式で表すことができる。 If x is the p-dimensional feature vector of the input speech, μ is the average of the input speech x, Σ is the covariance matrix of the input speech x, α i is the weight of class i, and m is the number of classes. The probability distribution p (x) of the input speech x modeled by the dimensional mixed normal distribution can be expressed by the following equation.
ここで、xを入力音声とし、yを出力音声とし、μi (x)を入力音声xのクラスiの平均とし、μi (y)を出力音声yのクラスiの平均とし、Σi (xx)を入力音声xのクラスiの共分散行列とし、Σi (xy)を入力音声xと出力音声yのクラスiの共分散行列とすると、変換関数y=F(x)は以下の式で表すことができる。 Where x is the input speech, y is the output speech, μ i (x) is the average of class i of input speech x, μ i (y) is the average of class i of output speech y, and Σ i ( xx) is the class i covariance matrix of input speech x, and Σ i (xy) is the class i covariance matrix of input speech x and output speech y, the transformation function y = F (x) is It can be expressed as
変換関数F(x)のパラメータであるαi、μi (x) 、μi (y) 、Σi (xx) 、Σi (yx)は以下のように結合特徴量ベクトルを用いてEMアルゴリズムにより推定することができる。 Α i, μ i (x) , μ i (y) , Σ i (xx) , Σ i (yx) parameters of the transformation function F (x) Can be estimated.
入力音声xを第一話者平均声合成音とし、出力音声yを第二話者平均声合成音とすることで、第一音声変換関数を学習することができる。逆に、入力音声xを第二話者平均声合成音とし、出力音声yを第一話者平均声合成音とすることで、第二音声変換関数を学習することができる。このように、ある音声と異なる音声との間で音素ラベルの対応付けが可能であれば、それらの音声間の相互の対応関係である変換関数は入力音声と出力音声を入れ替えるだけで容易に学習することができる。変換関数の学習方法についてのより詳細な説明は、非特許文献1を参照されたい。 The first speech conversion function can be learned by using the input speech x as the first speaker average voice synthesized sound and the output speech y as the second speaker average voice synthesized sound. Conversely, the second speech conversion function can be learned by using the input speech x as the second speaker average voice synthesized sound and the output speech y as the first speaker average voice synthesized sound. In this way, if it is possible to associate phoneme labels between a certain voice and a different voice, the conversion function, which is the mutual correspondence between those voices, can be easily learned simply by switching the input voice and the output voice. can do. Refer to Non-Patent Document 1 for a more detailed description of the conversion function learning method.
<音声変換処理>
図4を参照して、音声変換装置20の動作例を、実際に行われる手続きの順に従って詳細に説明する。
<Audio conversion processing>
With reference to FIG. 4, an example of the operation of the
音声変換装置20の備える第一音声変換関数記憶部950には、音声変換関数学習装置10の学習した第一音声変換関数が記憶されている。
The first speech conversion
音声変換装置20の備える第二音声変換関数記憶部955は、音声変換関数学習装置10の学習した第二音声変換関数が記憶されている。
The second speech conversion
音声変換装置20の備える収音手段201は、発話者の発話した音声を音声信号に変換して、入力端子(図示せず)を介して音声変換装置20へ入力する(S201)。収音手段201は、典型的にはマイクロホンである。
The sound collection means 201 included in the
音声変換装置20の備える第一話者音声変換部210は、収音手段201を介して入力された音声信号が、誰の発話した音声であるかを判定する(S205)。入力音声の発話者を判定する方法は様々な方法が考えられるが、例えば、手動で設定可能としてもよい。入力音声が第一話者の発話した音声であれば、第一音声変換関数記憶部950に記憶されている第一音声変換関数を実行することにより、その入力音声を第二話者類似音声に変換する(S210)。入力音声の変換方法についての詳細は、非特許文献1を参照されたい。生成した第二話者類似音声は、発音手段202へ出力される。
The first
音声変換装置20の備える第二話者音声変換部215は、収音手段201を介して入力された音声信号が、誰の発話した音声であるかを判定する(S205)。入力音声の発話者を判定する方法は様々な方法が考えられるが、例えば、手動で設定可能としてもよい。入力音声が第二話者の発話した音声であれば、第二音声変換関数記憶部955に記憶されている第二音声変換関数を実行することにより、その入力音声を第一話者類似音声に変換する(S215)。入力音声の変換方法についての詳細は、非特許文献1を参照されたい。生成した第一話者類似音声は、発音手段202へ出力される。
The second speaker
音声変換装置20の備える発音手段202は、出力端子(図示せず)を介して音声変換装置20が出力する音声信号を、音声に変換して周囲へ発音する(S202)。発音手段202は、典型的にはスピーカーである。ここで出力する音声信号は、入力音声が第一話者の発話した音声であれば、第二話者類似音声である。一方、入力音声が第二話者の発話した音声であれば、第一話者類似音声である。
The sound generation means 202 included in the
<効果>
この発明の第1実施形態では、音声変換関数学習装置10が、第一話者平均声モデルと第二話者平均声モデルとを用いて、同一のテキストをそれぞれ音声合成し、生成された合成音の対応関係を表す変換関数を学習する。音声変換装置20は、音声変換関数学習装置10が学習した変換関数を用いて、第一話者の発話する音声を第二話者の発話する音声に類似する音声に変換し、第二話者の発話する音声を第一話者の発話する音声に類似する音声に変換する。
<Effect>
In the first embodiment of the present invention, the speech conversion
このように構成することにより、発音の傾向の異なる二者間で対話する際に、発話者の声質を維持したまま聴取者に聞き取りやすい音声に変換することができるため、二者間での円滑な意思の伝達が可能となる。 In this way, when talking between two parties with different pronunciation tendencies, the voice quality of the speaker can be converted into a voice that is easy to hear while maintaining the voice quality of the speaker. Communication is possible.
[第2実施形態]
<概要>
まず、この発明の第2実施形態の概要を説明する。この実施形態は、ある言語を母語とせず、その言語の習得が十分でない学習者と、その言語を母語とする母語話者とが対話する場面に、この発明を適用することを想定している。すなわち、第1実施形態における第一話者を、ある言語を母語とせず、その言語の習得が十分でない学習者とし、第1実施形態における第二話者を、その言語を母語とする母語話者とする。
[Second Embodiment]
<Overview>
First, the outline of the second embodiment of the present invention will be described. In this embodiment, it is assumed that the present invention is applied to a scene in which a learner who does not speak a language as a native language and does not have sufficient knowledge of the language and a native speaker who speaks the language as a native language interact. . That is, the first speaker in the first embodiment is a learner who does not have a language as a native language and is not sufficiently mastered of the language, and the second speaker in the first embodiment is a native language whose native language is the language. I will be a person.
この実施形態では、音声変換関数学習装置11と音声変換装置21を用いる。まず、あらかじめ対象言語を母語とせず、その言語の習得が十分でない学習者の音声と、その言語を母語とする母語話者の音声とを、それぞれ収集する。音声変換関数学習装置11は、複数の学習者が発話した音声を学習して学習者平均声モデルを生成する。また、複数の母語話者が発話した音声を学習して母語話者平均声モデルを生成する。そして、学習者平均声モデルと母語話者平均声モデルとを用いて、学習者が発話した音声を母語話者が発話した音声に類似する音声に変換する第一音声変換関数と、母語話者が発話した音声を学習者が発話した音声に類似する音声に変換する第二音声変換関数とを学習する。
In this embodiment, the speech conversion
音声変換装置は、学習者が発話した音声が入力された場合には、第一音声変換関数を用いて、母語話者が発話した音声に類似する音声に変換する。一方、母語話者が発話した音声が入力された場合には、第二音声変換関数を用いて、学習者が発話した音声に類似する音声に類似する音声に変換する。 When the voice uttered by the learner is input, the voice conversion device converts the voice into a voice similar to the voice uttered by the native speaker using the first voice conversion function. On the other hand, when the voice spoken by the native speaker is input, the voice is converted to a voice similar to the voice similar to the voice spoken by the learner using the second voice conversion function.
上述の通り、平均声モデルの特徴を鑑みると、学習者平均声モデルと母語話者平均声モデルとの差分は、対象言語の習得度の違いのみを表わすものとなることが期待できる。つまり学習者平均声モデルと母語話者平均声モデルの対応関係を表す変換関数は、入力された音声に対して、対象言語の習得度を双方向に反映させる変換関数であると言える。したがって、学習者と母語話者が対話する際に、発話者の音声が聴取者の聞き取りやすい音声に変換されるため、二者間での円滑な意思の伝達が可能となる。 As described above, in view of the features of the average voice model, the difference between the learner average voice model and the native speaker average voice model can be expected to represent only the difference in the mastery of the target language. That is, it can be said that the conversion function representing the correspondence between the learner average voice model and the native speaker average voice model is a conversion function that reflects the acquired level of the target language in two directions with respect to the input speech. Therefore, when the learner and the native speaker speak, the voice of the speaker is converted into a voice that can be easily heard by the listener, so that smooth communication between the two parties can be achieved.
<構成>
図5を参照して、第2実施形態に係る音声変換関数学習装置11の構成例を詳細に説明する。音声変換関数学習装置11は、学習者モデル学習部111と母語話者モデル学習部116と学習者音声合成部121と母語話者音声合成部126と変換関数学習部131と学習者音声記憶部911と母語話者音声記憶部916と学習者平均声モデル記憶部921と母語話者平均声モデル記憶部926とテキスト記憶部931と学習者平均声合成音記憶部941と母語話者平均声合成音記憶部946と学習者音声変換関数記憶部951と母語話者音声変換関数記憶部956とを備える。学習者音声記憶部911と母語話者音声記憶部916と学習者平均声モデル記憶部921と母語話者平均声モデル記憶部926とテキスト記憶部931と学習者平均声合成音記憶部941と母語話者平均声合成音記憶部946と学習者音声変換関数記憶部951と母語話者音声変換関数記憶部956は、例えば、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)などの半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
<Configuration>
With reference to FIG. 5, a configuration example of the speech conversion
図6を参照して、第2実施形態に係る音声変換装置21の構成例を詳細に説明する。音声変換装置21は、収音手段201と発音手段202と学習者音声変換部211と母語話者音声変換部216と学習者音声変換関数記憶部951と母語話者音声変換関数記憶部956とを備える。学習者音声変換関数記憶部951および母語話者音声変換関数記憶部956は、音声変換関数学習装置11の備える学習者音声変換関数記憶部951および母語話者音声変換関数記憶部956と同様に構成される。
With reference to FIG. 6, the structural example of the
<第1実施形態との相違点>
この実施形態と第1実施形態との相違点について説明する。第1実施形態と第2実施形態では、基本的に音声変換関数学習処理と音声変換処理の内容は同様である。第2実施形態では、第1実施形態における第一話者を、ある言語を母語とせず、その言語の習得が十分でない話者である学習者とし、第2実施形態における第二話者を、その言語を母語とする話者である母語話者とする。ある言語の習得が十分でない学習者は、その言語の発音が適切でなく自身の母語の発音に近くなることが考えられるため、発音の傾向が近いグループとすることができる。また、ある言語を母語とする母語話者は、その言語の発音が適切であるため、同様に発音の傾向が近いグループとすることができる。例えば、対象言語を英語とすると、学習者を英語の習得が十分でない日本人として、母語話者を英語を母語とする米国人とすることが考えられる。
<Differences from the first embodiment>
Differences between this embodiment and the first embodiment will be described. In the first embodiment and the second embodiment, the contents of the voice conversion function learning process and the voice conversion process are basically the same. In the second embodiment, the first speaker in the first embodiment is a learner who is not a native language of a certain language and is not a sufficient speaker of the language, and the second speaker in the second embodiment is A native speaker who is a speaker whose native language is the language. A learner who does not learn a certain language can be considered as a group having a similar pronunciation tendency because the pronunciation of the language is not appropriate and may be close to the pronunciation of his / her mother tongue. In addition, native speakers whose native language is a language are appropriate to pronounce in that language, and thus can be grouped with similar pronunciation trends. For example, if the target language is English, it is conceivable that the learner is a Japanese who does not acquire English enough and the native speaker is an American who speaks English as a native language.
具体的には、学習者音声記憶部911に記憶される学習者音声と、母語話者音声記憶部916に記憶される母語話者音声と、テキスト記憶部931に記憶される任意のテキストは、いずれも母語話者が母語とし、学習者が母語としない対象言語で統一されていなければいけない。また、音声変換装置21の備える収集手段201からの入力音声も、同じ言語で発話されなければいけない。上記の例であれば、学習者音声と母語話者音声は英語で発話された音声でなければいけないし、音声変換装置21へ入力される発話者の音声は英語を発話したものでなければならない。
Specifically, the learner voice stored in the learner
<効果>
この実施形態では、音声変換関数学習装置11が、学習者平均声モデルと母語話者平均声モデルとを用いて、同一のテキストをそれぞれ音声合成し、対応する合成音の対応関係を表す変換関数を学習する。音声変換装置21は、音声変換関数学習装置11が学習した変換関数を用いて、学習者の発話する音声を母語話者の発話する音声に類似する音声に変換し、母語話者の発話する音声を学習者の発話する音声に類似する音声に変換する。
<Effect>
In this embodiment, the speech conversion
このように構成することにより、ある言語を母語とせず、その言語の習得が十分でない学習者が発声した音声を、その言語を母語とする母語話者にとって聴取しやすい音声に、発話者の声質を維持したまま変換することができ、学習者がその言語を習得する初期段階であっても、学習者から母語話者への円滑な意思の伝達が可能となる。 By configuring in this way, the voice quality of the speaker is changed from a voice uttered by a learner who does not speak a language as a native language and is not sufficiently acquired by the language to a voice that is easy for a native speaker to speak the language. Therefore, even if the learner is in the initial stage of acquiring the language, smooth transmission of intention from the learner to the native speaker becomes possible.
また、ある言語を母語とする母語話者が発声した音声を、その言語を母語とせず、その言語の習得が十分でない学習者にとって聴取しやすい音声に、発話者の声質を維持したまま変換することができ、学習者がその言語を習得する初期段階であっても、母語話者から学習者への円滑な意思の伝達が可能となる。 In addition, the speech uttered by a native speaker who speaks a language as a native language is converted into a speech that is easy to hear for learners who do not have the language as a native language and who do not have sufficient language skills, while maintaining the voice quality of the speaker. Therefore, even if the learner is in the initial stage of acquiring the language, it is possible to smoothly transmit the intention from the native speaker to the learner.
[プログラム、記録媒体]
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[Program, recording medium]
The present invention is not limited to the above-described embodiment, and it goes without saying that modifications can be made as appropriate without departing from the spirit of the present invention. The various processes described in the above-described embodiments are not only executed in time series according to the order described, but may be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes.
また、上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。 When various processing functions in each device described in the above embodiment are realized by a computer, the processing contents of the functions that each device should have are described by a program. Then, by executing this program on a computer, various processing functions in each of the above devices are realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
10,11 音声変換関数学習装置
20,21 音声変換装置
110 第一話者モデル学習部 111 学習者モデル学習部
115 第二話者モデル学習部 116 母語話者モデル学習部
120 第一話者音声合成部 121 学習者音声合成部
125 第二話者音声合成部 126 母語話者音声合成部
130,131 変換関数学習部
201 収音手段 202 発音手段
210 第一話者音声変換部 211 学習者音声変換部
215 第二話者音声変換部 216 母語話者音声変換部
910 第一話者音声記憶部 911 学習者音声記憶部
915 第二話者音声記憶部 915 母語話者音声記憶部
920 第一話者平均声モデル記憶部 921 学習者平均声モデル記憶部
925 第二話者平均声モデル記憶部 926 母語話者平均声モデル記憶部
930,931 テキスト記憶部
940 第一話者平均声合成音記憶部 941 学習者平均声合成音記憶部
945 第二話者平均声合成音記憶部 946 母語話者平均声合成音記憶部
950 第一音声変換関数記憶部 951 学習者音声変換関数記憶部
955 第二音声変換関数記憶部 956 母語話者音声変換関数記憶部
10, 11 Speech conversion
Claims (8)
複数の前記第一話者が発話した第一話者音声を学習して生成した第一話者平均声モデルが記憶された第一話者平均声モデル記憶部と、
複数の前記第二話者が発話した第二話者音声を学習して生成した第二話者平均声モデルが記憶された第二話者平均声モデル記憶部と、
任意のテキストが記憶されたテキスト記憶部と、
前記第一話者平均声モデルを用いて前記テキストを音声合成し、第一話者平均声合成音を生成する第一話者音声合成部と、
前記第二話者平均声モデルを用いて前記テキストを音声合成し、第二話者平均声合成音を生成する第二話者音声合成部と、
前記第一話者平均声合成音と前記第二話者平均声合成音とを用いて、前記第一話者音声から前記第二話者音声への対応関係を学習して、前記第一話者が発話した音声を入力として前記第二話者が発話した音声に類似する第二話者類似音声を出力する第一音声変換関数を生成し、前記第一話者平均声合成音と前記第二話者平均声合成音とを用いて、前記第二話者音声から前記第一話者音声への対応関係を学習して、前記第二話者が発話した音声を入力として前記第一話者が発話した音声に類似する第一話者類似音声を出力する第二音声変換関数を生成する変換関数学習部と、
を備えることを特徴とする音声変換関数学習装置。 Multiple speakers are grouped according to their pronunciation tendency, and the speech uttered by the first speaker belonging to one group is converted into speech similar to the speech uttered by the second speaker belonging to the other group. A speech conversion function learning device for learning a speech conversion function for converting speech uttered by two speakers into speech similar to the speech uttered by the first speaker,
A first speaker average voice model storage unit storing a first speaker average voice model generated by learning a first speaker voice uttered by the plurality of first speakers;
A second speaker average voice model storage unit storing a second speaker average voice model generated by learning a second speaker voice uttered by the plurality of second speakers;
A text storage unit in which arbitrary text is stored;
A first speaker voice synthesizer that synthesizes the text using the first speaker average voice model and generates a first speaker average voice synthesized sound;
A second speaker voice synthesizer that synthesizes the text using the second speaker average voice model and generates a second speaker average voice synthesized sound;
Learning the correspondence from the first speaker voice to the second speaker voice using the first speaker average voice synthesized sound and the second speaker average voice synthesized sound, Generating a first speech conversion function that outputs a second speaker-similar speech similar to the speech uttered by the second speaker using the speech uttered by the speaker, and the first speaker average voice synthesized sound and the first speaker The correspondence between the second speaker voice and the first speaker voice is learned using the two-speaker average voice synthesized sound, and the first talk is input using the voice uttered by the second speaker. A conversion function learning unit that generates a second speech conversion function that outputs a first speaker-similar voice similar to a voice uttered by a speaker;
A speech conversion function learning device comprising:
前記第一話者平均声合成音および前記第二話者平均声合成音は、特徴量ベクトルの確率分布が多次元混合正規分布でモデル化され、
前記変換関数学習部は、
前記第一話者平均声合成音を入力として、前記第一話者平均声合成音と前記第二話者平均声合成音との結合特徴量ベクトルを用いて、前記第一音声変換関数のパラメータを推定し、前記第二話者平均声合成音を入力として、前記結合特徴量ベクトルを用いて、前記第二音声変換関数のパラメータを推定する
ことを特徴とする音声変換関数学習装置。 The speech conversion function learning device according to claim 1,
In the first speaker average voice synthesized sound and the second speaker average voice synthesized sound, the probability distribution of the feature vector is modeled by a multidimensional mixed normal distribution,
The conversion function learning unit
Using the first speaker average voice synthesized sound as an input and using a combined feature vector of the first speaker average voice synthesized sound and the second speaker average voice synthesized sound, parameters of the first speech conversion function The speech conversion function learning device is characterized by estimating the parameters of the second speech conversion function using the combined feature vector using the second speaker average voice synthesized sound as an input.
前記第一話者が発話した音声を入力として前記第二話者が発話した音声に類似する第二話者類似音声を出力する第一音声変換関数が記憶された第一音声変換関数記憶部と、
前記第二話者が発話した音声を入力として前記第一話者が発話した音声に類似する第一話者類似音声を出力する第二音声変換関数が記憶された第二音声変換関数記憶部と、
入力音声が前記第一話者の発話した音声であれば、前記第一音声変換関数を実行することにより、前記入力音声を前記第二話者類似音声に変換する第一話者音声変換部と、
前記入力音声が前記第二話者の発話した音声であれば、前記第二音声変換関数を実行することにより、前記入力音声を前記第一話者類似音声に変換する第二話者音声変換部と、
を備え、
前記第一音声変換関数は、複数の前記第一話者が発話した第一話者音声を学習して生成した第一話者平均声モデルと複数の前記第二話者が発話した第二話者音声を学習して生成した第二話者平均声モデルとを用いて、前記第一話者音声から前記第二話者音声への対応関係を学習されたものであり、
前記第二音声変換関数は、前記第一話者平均声モデルと前記第二話者平均声モデルとを用いて、前記第二話者音声から前記第一話者音声への対応関係を学習されたものである
ことを特徴とする音声変換装置。 Multiple speakers are grouped according to their pronunciation tendency, and the speech uttered by the first speaker belonging to one group is converted into speech similar to the speech uttered by the second speaker belonging to the other group. A speech conversion device that converts speech uttered by two speakers into speech similar to the speech uttered by the first speaker,
A first speech conversion function storage unit storing a first speech conversion function that outputs a second speaker-similar speech similar to a speech uttered by the second speaker by using the speech uttered by the first speaker; ,
A second speech conversion function storage unit that stores a second speech conversion function that outputs a first speaker-similar speech similar to a speech uttered by the first speaker by using speech uttered by the second speaker; ,
If the input speech is speech uttered by the first speaker, a first speaker speech conversion unit that converts the input speech into the second speaker similar speech by executing the first speech conversion function; ,
If the input speech is speech uttered by the second speaker, a second speaker speech conversion unit that converts the input speech into the first speaker similar speech by executing the second speech conversion function When,
With
The first voice conversion function includes a first speaker average voice model generated by learning a first speaker voice uttered by a plurality of the first speakers, and a second episode uttered by the plurality of second speakers. A correspondence relationship from the first speaker voice to the second speaker voice is learned using a second speaker average voice model generated by learning a speaker voice,
The second voice conversion function uses the first speaker average voice model and the second speaker average voice model to learn the correspondence from the second speaker voice to the first speaker voice. An audio conversion device characterized by that.
前記第一音声変換関数は、前記第一話者平均声モデルを用いて任意のテキストを音声合成した第一話者平均声合成音と前記第二話者平均声モデルを用いて前記テキストを音声合成した第二話者平均声合成音とを用いて、前記第一話者音声から前記第二話者音声への対応関係を学習されたものであり、
前記第二音声変換関数は、前記第一話者平均声合成音と前記第二話者平均声合成音とを用いて、前記第二話者音声から前記第一話者音声への対応関係を学習されたものである
ことを特徴とする音声変換装置。 The voice conversion device according to claim 3,
The first speech conversion function includes: a first speaker average voice synthesized sound obtained by synthesizing arbitrary text using the first speaker average voice model; and the second speaker average voice model. Using the synthesized second speaker average voice synthesized sound, the correspondence relationship from the first speaker voice to the second speaker voice is learned,
The second voice conversion function uses the first speaker average voice synthesized sound and the second speaker average voice synthesized sound to determine a correspondence relationship from the second speaker voice to the first speaker voice. A voice conversion device characterized by being learned.
前記第一話者平均声合成音および前記第二話者平均声合成音は、確率分布が多次元混合正規分布でモデル化され、
前記第一音声変換関数は、前記第一話者平均声合成音を入力として前記第一話者平均声合成音と前記第二話者平均声合成音とを結合した結合特徴量ベクトルを用いて推定されたパラメータを用い、
前記第二音声変換関数は、前記第二話者平均声合成音を入力として前記結合特徴量ベクトルを用いて推定されたパラメータを用いる
ことを特徴とする音声変換装置。 The voice conversion device according to claim 4,
The first speaker average voice synthesized sound and the second speaker average voice synthesized sound have a probability distribution modeled by a multi-dimensional mixed normal distribution,
The first speech conversion function uses a combined feature vector obtained by combining the first speaker average voice synthesized sound and the second speaker average voice synthesized sound with the first speaker average voice synthesized sound as an input. Using the estimated parameters,
The second speech conversion function uses a parameter estimated using the combined feature vector with the second speaker average voice synthesized sound as an input.
複数の前記第一話者が発話した第一話者音声を学習して生成した第一話者平均声モデルを用いて任意のテキストを音声合成し、第一話者平均声合成音を生成する第一話者音声合成ステップと、
複数の前記第二話者が発話した第二話者音声を学習して生成した第二話者平均声モデルを用いて前記テキストを音声合成し、第二話者平均声合成音を生成する第二話者音声合成ステップと、
前記第一話者平均声合成音と前記第二話者平均声合成音とを用いて、前記第一話者音声から前記第二話者音声への対応関係を学習して、前記第一話者が発話した音声を入力として前記第二話者が発話した音声に類似する第二話者類似音声を出力する第一音声変換関数を生成し、前記第一話者平均声合成音と前記第二話者平均声合成音とを用いて、前記第二話者音声から前記第一話者音声への対応関係を学習して、前記第二話者が発話した音声を入力として前記第一話者が発話した音声に類似する第一話者類似音声を出力する第二音声変換関数を生成する変換関数学習ステップと、
を含むことを特徴とする音声変換関数学習方法。 Multiple speakers are grouped according to their pronunciation tendency, and the speech uttered by the first speaker belonging to one group is converted into speech similar to the speech uttered by the second speaker belonging to the other group. A speech conversion function learning method for learning a speech conversion function for converting speech uttered by two speakers into speech similar to the speech uttered by the first speaker,
Using the first speaker average voice model generated by learning the first speaker voice uttered by a plurality of the first speakers, speech synthesis is performed on any text and a first speaker average voice synthesized sound is generated. First speaker speech synthesis step;
A second speaker average voice synthesized sound is generated by synthesizing the text using a second speaker average voice model generated by learning a second speaker voice uttered by a plurality of the second speakers. A two-speaker speech synthesis step;
Learning the correspondence from the first speaker voice to the second speaker voice using the first speaker average voice synthesized sound and the second speaker average voice synthesized sound, Generating a first speech conversion function that outputs a second speaker-similar speech similar to the speech uttered by the second speaker using the speech uttered by the speaker, and the first speaker average voice synthesized sound and the first speaker The correspondence between the second speaker voice and the first speaker voice is learned using the two-speaker average voice synthesized sound, and the first talk is input using the voice uttered by the second speaker. A transformation function learning step for generating a second speech transformation function for outputting a first speaker-like speech similar to the speech uttered by the speaker;
A speech conversion function learning method comprising:
入力音声が前記第一話者の発話した音声であれば、前記第一話者が発話した音声を入力として前記第二話者が発話した音声に類似する第二話者類似音声を出力する第一音声変換関数を実行することにより、前記入力音声を前記第二話者類似音声に変換する第一話者音声変換ステップと、
前記入力音声が前記第二話者の発話した音声であれば、前記第二話者が発話した音声を入力として前記第一話者が発話した音声に類似する第一話者類似音声を出力する第二音声変換関数を実行することにより、前記入力音声を前記第一話者類似音声に変換する第二話者音声変換ステップと、
を含み、
前記第一音声変換関数は、複数の前記第一話者が発話した第一話者音声を学習して生成した第一話者平均声モデルと複数の前記第二話者が発話した第二話者音声を学習して生成した第二話者平均声モデルとを用いて、前記第一話者音声から前記第二話者音声への対応関係を学習されたものであり、
前記第二音声変換関数は、前記第一話者平均声モデルと前記第二話者平均声モデルとを用いて、前記第二話者音声から前記第一話者音声への対応関係を学習されたものである
ことを特徴とする音声変換方法。 Multiple speakers are grouped according to their pronunciation tendency, and the speech uttered by the first speaker belonging to one group is converted into speech similar to the speech uttered by the second speaker belonging to the other group. A speech conversion method for converting speech uttered by two speakers into speech similar to the speech uttered by the first speaker,
If the input speech is speech uttered by the first speaker, the second speaker-similar speech similar to the speech uttered by the second speaker is output using the speech uttered by the first speaker as input. A first speaker voice conversion step of converting the input voice into the second speaker similar voice by executing a voice conversion function;
If the input voice is a voice uttered by the second speaker, a voice similar to the voice uttered by the first speaker is output using the voice uttered by the second speaker as an input. A second speaker voice conversion step of converting the input voice into the first speaker-like voice by executing a second voice conversion function;
Including
The first voice conversion function includes a first speaker average voice model generated by learning a first speaker voice uttered by a plurality of the first speakers, and a second episode uttered by the plurality of second speakers. A correspondence relationship from the first speaker voice to the second speaker voice is learned using a second speaker average voice model generated by learning a speaker voice,
The second voice conversion function uses the first speaker average voice model and the second speaker average voice model to learn the correspondence from the second speaker voice to the first speaker voice. A voice conversion method characterized by the fact that
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012113439A JP5706368B2 (en) | 2012-05-17 | 2012-05-17 | Speech conversion function learning device, speech conversion device, speech conversion function learning method, speech conversion method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012113439A JP5706368B2 (en) | 2012-05-17 | 2012-05-17 | Speech conversion function learning device, speech conversion device, speech conversion function learning method, speech conversion method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013238819A JP2013238819A (en) | 2013-11-28 |
JP5706368B2 true JP5706368B2 (en) | 2015-04-22 |
Family
ID=49763857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012113439A Expired - Fee Related JP5706368B2 (en) | 2012-05-17 | 2012-05-17 | Speech conversion function learning device, speech conversion device, speech conversion function learning method, speech conversion method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5706368B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7040258B2 (en) * | 2018-04-25 | 2022-03-23 | 日本電信電話株式会社 | Pronunciation converter, its method, and program |
CN112382273A (en) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | Method, apparatus, device and medium for generating audio |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002244689A (en) * | 2001-02-22 | 2002-08-30 | Rikogaku Shinkokai | Synthesizing method for averaged voice and method for synthesizing arbitrary-speaker's voice from averaged voice |
JP3973492B2 (en) * | 2002-06-04 | 2007-09-12 | 日本電信電話株式会社 | Speech synthesis method and apparatus thereof, program, and recording medium recording the program |
WO2010142928A1 (en) * | 2009-06-10 | 2010-12-16 | Toshiba Research Europe Limited | A text to speech method and system |
JP2011028130A (en) * | 2009-07-28 | 2011-02-10 | Panasonic Electric Works Co Ltd | Speech synthesis device |
-
2012
- 2012-05-17 JP JP2012113439A patent/JP5706368B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013238819A (en) | 2013-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Barker et al. | The fifth'CHiME'speech separation and recognition challenge: dataset, task and baselines | |
EP3994683B1 (en) | Multilingual neural text-to-speech synthesis | |
US20220013106A1 (en) | Multi-speaker neural text-to-speech synthesis | |
CN105845125B (en) | Phoneme synthesizing method and speech synthetic device | |
CN106688034B (en) | Text-to-speech conversion with emotional content | |
CN108831437A (en) | A kind of song generation method, device, terminal and storage medium | |
WO2019116889A1 (en) | Signal processing device and method, learning device and method, and program | |
CN112102811B (en) | Optimization method and device for synthesized voice and electronic equipment | |
KR20200027331A (en) | Voice synthesis device | |
CN113205793B (en) | Audio generation method and device, storage medium and electronic equipment | |
JP6189818B2 (en) | Acoustic feature amount conversion device, acoustic model adaptation device, acoustic feature amount conversion method, acoustic model adaptation method, and program | |
CN112185342A (en) | Voice conversion and model training method, device and system and storage medium | |
CN116312471A (en) | Voice migration and voice interaction method and device, electronic equipment and storage medium | |
CN114360491B (en) | Speech synthesis method, device, electronic equipment and computer readable storage medium | |
CN113314096A (en) | Speech synthesis method, apparatus, device and storage medium | |
CN117351948A (en) | Training method of voice recognition model, voice recognition method, device and equipment | |
JP5706368B2 (en) | Speech conversion function learning device, speech conversion device, speech conversion function learning method, speech conversion method, and program | |
CN113851140A (en) | Voice conversion correlation method, system and device | |
Mirishkar et al. | CSTD-Telugu corpus: Crowd-sourced approach for large-scale speech data collection | |
WO2023197206A1 (en) | Personalized and dynamic text to speech voice cloning using incompletely trained text to speech models | |
JP5689774B2 (en) | Interactive information transmitting apparatus, interactive information transmitting method, and program | |
JP2005196020A (en) | Speech processing apparatus, method, and program | |
TWI725608B (en) | Speech synthesis system, method and non-transitory computer readable medium | |
JP4769086B2 (en) | Voice quality conversion dubbing system and program | |
JP6538944B2 (en) | Utterance rhythm conversion device, method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140703 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150224 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5706368 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |