JP2007192931A - Voice pattern conversion/dubbing system, and program - Google Patents
Voice pattern conversion/dubbing system, and program Download PDFInfo
- Publication number
- JP2007192931A JP2007192931A JP2006009161A JP2006009161A JP2007192931A JP 2007192931 A JP2007192931 A JP 2007192931A JP 2006009161 A JP2006009161 A JP 2006009161A JP 2006009161 A JP2006009161 A JP 2006009161A JP 2007192931 A JP2007192931 A JP 2007192931A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speaker
- conversion
- filter
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、声質変換を伴った吹替を行う声質変換吹替システム、及び、プログラムに関する。 The present invention relates to a voice quality conversion dubbing system and a program for performing a dubbing accompanied by voice quality conversion.
従来、ある話者(元話者)が発声した音声を、別の話者(目標話者)の音声に変換する声質変換技術が知られている(例えば、特許文献1参照)。特許文献1においては、ドラマを見ている人の音声を、ドラマの登場人物を演じている役者の音声に変換している。特許文献1では、元話者及び目標話者間で音声特徴パラメータをマッチングし、元話者の音声と時間軸が合うように目標話者の音声特徴パラメータから音声を合成する技術が用いられている。
海外映画や海外ドラマの中に登場している俳優の台詞を日本語音声化する場合には日本人の声優が吹替えを行うことが一般的に行われているが、日本人の声優の声質ではなく実際に演じている俳優の声質での吹替えを実現することも視聴者から要望されている。つまり、著名な海外の俳優は独特な声質がその俳優のキャラクターの一部となっていることが多いが、声優の吹替え声がその俳優の声質と一致せず大きくかけ離れている場合は視聴者に違和感を与えたり、失望させてしまうことになる。前述した従来の声質変換技術においては、目標話者と同一の台詞を発声した元話者の音声を目標話者の音声に変換するので、台詞を日本語音声化するためには、目標話者である海外の俳優に日本語の台詞を発声させることが必要となる。海外の俳優が日本語の台詞を発声すれば、その台詞の抑揚が不自然であっても、日本人の声優の抑揚に置き換えられるので、抑揚の不自然さは解消される。しかし、ほとんどの場合、海外の俳優は日本語を話さないし、仮に話すことができても台詞の全てを日本語で発声させることは現実的ではない。 When voices of actors appearing in overseas movies and dramas are converted into Japanese voices, Japanese voice actors are generally dubbed, but the voice quality of Japanese voice actors is There is also a demand from viewers to realize the dubbing with the voice quality of the actor who actually plays. In other words, famous foreign actors often have a unique voice quality as part of their character, but if the voice-over of the voice actor does not match the voice quality of the actor, It can make you feel uncomfortable or disappointing. In the conventional voice quality conversion technology described above, the voice of the former speaker who uttered the same dialogue as the target speaker is converted to the voice of the target speaker. It is necessary for foreign actors to speak Japanese lines. If an overseas actor speaks a Japanese line, even if the inflection of that line is unnatural, it will be replaced by an inflection of a Japanese voice actor, so the unnaturalness of the inflection is eliminated. However, in most cases, foreign actors do not speak Japanese, and even if they can speak, it is not practical to have all lines spoken in Japanese.
本発明は、以上のような従来の問題を解決するためになされたものであり、異なる言語間での、声質変換を伴った吹替えを行うことを可能とする声質変換吹替システム、及び、プログラムを提供する。 The present invention has been made in order to solve the conventional problems as described above. A voice quality conversion dubbing system and a program capable of performing dubbing with voice quality conversion between different languages are provided. provide.
上記課題を解決するために、第1の言語で発声された第1話者及び第2話者の音声に基づいて、前記第2話者の音声を前記第1話者の音声に変換するための第1話者変換フィルタを作成する変換フィルタ作成手段と、前記第2話者が前記第1の言語とは異なる第2の言語で発声した音声を、前記第1話者変換フィルタを用いて前記第1話者の音声に変換する声質変換手段とを備えることを特徴とする声質変換吹替システムを提供する。 In order to solve the above-described problem, based on the voices of the first speaker and the second speaker uttered in the first language, the voice of the second speaker is converted into the voice of the first speaker. Conversion filter creation means for creating the first speaker conversion filter, and voice uttered in a second language different from the first language by the second speaker using the first speaker conversion filter There is provided a voice quality conversion dubbing system comprising voice quality conversion means for converting the voice of the first speaker.
本発明によれば、第1の言語で発声された第1話者及び第2話者の音声を学習して第1話者変換フィルタを作成することで、第2話者が第2の言語で発声した音声を第1話者変換フィルタを用いて第1話者の音声に変換することが可能となる。このため、第1話者が第2の言語を話すことができなくても、第2話者が第1の言語と第2の言語とを話すことができれば、第2話者が第2の言語で発声した音声を第1話者の音声に容易に変換することができる。従って、異なる言語間での、声質変換を伴った吹替えを行うことが可能となる。
According to the present invention, the second speaker can create the first speaker conversion filter by learning the voices of the first speaker and the second speaker uttered in the first language, so that the second speaker can It is possible to convert the voice uttered in
請求項2に記載の発明は、請求項1に記載の声質変換吹替システムにおいて、前記変換フィルタ作成手段は、前記第2の言語で発声された前記第2話者及び第3話者の音声に基づいて、前記第3話者の音声を前記第2話者の音声に変換するための第2話者変換フィルタを作成し、前記声質変換手段は、前記第3話者が前記第2の言語で発声した音声を前記第2話者変換フィルタを用いて前記第2話者の音声に変換し、該第2話者の音声を前記第1話者変換フィルタを用いて前記第1話者の音声に変換することを特徴とする。 According to a second aspect of the present invention, in the voice quality conversion dubbing system according to the first aspect, the conversion filter creating means applies the voices of the second speaker and the third speaker uttered in the second language. A second speaker conversion filter for converting the third speaker's voice into the second speaker's voice based on the second speaker conversion filter; Is used to convert the voice of the first speaker using the second speaker conversion filter, and the voice of the second speaker is converted to the voice of the first speaker using the first speaker conversion filter. It is characterized by being converted to speech.
本発明によれば、第3話者が、第1話者が話す第1の言語とは異なる第2の言語しか話すことができなくても、また、第1話者が第2の言語を話すことができなくても、第1の言語で発声された第1話者及び第2話者の音声を学習することにより第1話者変換フィルタを作成し、第2の言語で発声された第2話者及び第3話者の音声を学習することにより第2話者変換フィルタを作成しておくことで、第3話者が第2の言語で発声した音声を第1話者の音声に変換することが可能となり、異なる言語間での、声質変換を伴った吹替えを行うことが可能となる。 According to the present invention, even if the third speaker can speak only a second language different from the first language spoken by the first speaker, the first speaker can also speak the second language. The first speaker conversion filter was created by learning the voices of the first and second speakers spoken in the first language, even though they could not speak, and were spoken in the second language The second speaker conversion filter is created by learning the voices of the second speaker and the third speaker, so that the voice of the third speaker uttered in the second language is the voice of the first speaker. It is possible to convert to voice, and to perform voice-over with voice quality conversion between different languages.
請求項3に記載の発明は、前記声質変換手段は、前記第2話者変換フィルタと前記第1話者変換フィルタとが合成された変換フィルタを用いて、前記第3話者が前記第2の言語で発声した音声を前記第1の話者の音声に変換することを特徴とする。
本発明によれば、合成された変換フィルタを用いて声質変換を行うことで、第2話者変換フィルタと第1話者変換フィルタとを用いて声質変換を行うよりも、変換処理の時間を短縮することができる。
According to a third aspect of the present invention, the voice conversion means uses the conversion filter obtained by synthesizing the second speaker conversion filter and the first speaker conversion filter, so that the third speaker is the second speaker. The voice uttered in the language is converted into the voice of the first speaker.
According to the present invention, by performing voice quality conversion using the synthesized conversion filter, it is possible to reduce the time for the conversion process compared to performing voice quality conversion using the second speaker conversion filter and the first speaker conversion filter. It can be shortened.
請求項4に記載の発明は、請求項1から3の何れか1項に記載の声質変換吹替システムにおいて、前記変換フィルタ作成手段はサーバ装置が備えており、前記声質変換手段はクライアント装置が備えていることを特徴とする。
本発明によれば、クライアント装置は、サーバ装置で作成された変換フィルタを用いて声質変換を行うことができる。
According to a fourth aspect of the present invention, in the voice quality conversion dubbing system according to any one of the first to third aspects, the conversion filter creation means is provided in a server device, and the voice quality conversion means is provided in a client device. It is characterized by.
According to the present invention, the client device can perform voice quality conversion using the conversion filter created by the server device.
請求項5に記載の発明は、コンピュータに、第1の言語で発声された第1話者及び第2話者の音声に基づいて、前記第2話者の音声を前記第1話者の音声に変換するための第1話者変換フィルタを作成する変換フィルタ作成ステップと、前記第2話者が前記第1の言語とは異なる第2の言語で発声した音声を、前記第1話者変換フィルタを用いて前記第1話者の音声に変換する声質変換ステップとを実行させるためのプログラムを提供する。 According to the fifth aspect of the present invention, the voice of the second speaker is converted to the voice of the first speaker based on the voices of the first speaker and the second speaker uttered in the first language. A conversion filter creating step for creating a first speaker conversion filter for converting into a first language, and a voice uttered in a second language different from the first language by the second speaker. There is provided a program for executing a voice quality conversion step of converting to the voice of the first speaker using a filter.
本発明によれば、コンピュータに前記プログラムを記憶させておくことで、異なる言語間での、声質変換を伴った吹替えを容易に行うことが可能となる。
請求項6に記載の発明は、請求項5に記載のプログラムにおいて、コンピュータに、前記変換フィルタ作成ステップにおいて、前記第2の言語で発声された前記第2話者及び第3話者の音声に基づいて、前記第3話者の音声を前記第2話者の音声に変換するための第2話者変換フィルタを作成する処理と、前記声質変換ステップにおいて、前記第3話者が前記第2の言語で発声した音声を前記第2の変換フィルタを用いて前記第2話者の音声に変換し、該第2話者の音声を前記第1の変換フィルタを用いて前記第1の話者の音声に変換する処理とをさらに実行させることを特徴とする。
According to the present invention, it is possible to easily perform dubbing with voice quality conversion between different languages by storing the program in a computer.
According to a sixth aspect of the present invention, in the program according to the fifth aspect, in the computer, the voice of the second speaker and the third speaker uttered in the second language in the conversion filter creating step. Based on the processing for creating a second speaker conversion filter for converting the third speaker's voice into the second speaker's voice, and the voice quality conversion step, the third speaker The voice uttered in the language is converted to the voice of the second speaker using the second conversion filter, and the voice of the second speaker is converted to the first speaker using the first conversion filter. And a process of converting the sound into a voice.
本発明によれば、コンピュータに前記プログラムを記憶させておくことで、第1の変換フィルタ及び第2の変換フィルタを作成することができ、これらの変換フィルタを用いて第3話者が第2の言語で発声した音声を第1の言語を話す第1話者の音声に変換することが可能となり、異なる言語間での、声質変換を伴った吹替えを行うことが可能となる。 According to the present invention, the first conversion filter and the second conversion filter can be created by storing the program in a computer, and the third speaker can use the conversion filter to generate the second conversion filter. It is possible to convert the voice uttered in the language of the first speaker into the voice of the first speaker who speaks the first language, and to perform dubbing with voice quality conversion between different languages.
本発明によれば、第1の言語で発声された第1話者及び第2話者の音声を学習して第1話者変換フィルタを作成することで、第2話者が第2の言語で発声した音声を第1話者変換フィルタを用いて第1話者の音声に変換することが可能となる。このため、第1話者が第2の言語を話すことができなくても、第2話者が第1の言語と第2の言語とを話すことができれば、第2話者が第2の言語で発声した音声を第1話者の音声に容易に変換することができる。従って、異なる言語間での、声質変換を伴った吹替えを行うことが可能となる。
According to the present invention, the second speaker can create the first speaker conversion filter by learning the voices of the first speaker and the second speaker uttered in the first language, so that the second speaker can It is possible to convert the voice uttered in
また、第3話者が、第1話者が話す第1の言語とは異なる第2の言語しか話すことができなくても、第1の言語で発声された第1話者及び第2話者の音声を学習することにより第1話者変換フィルタを作成し、第2の言語で発声された第2話者及び第3話者の音声を学習することにより第2話者変換フィルタを作成しておくことで、第3話者が第2の言語で発声した音声を第1話者の音声に変換することが可能となり、異なる言語間での、声質変換を伴った吹替えを行うことが可能となる。 In addition, even if the third speaker can speak only a second language different from the first language spoken by the first speaker, the first speaker and the second episode spoken in the first language The first speaker conversion filter is created by learning the voice of the speaker, and the second speaker conversion filter is created by learning the voices of the second and third speakers uttered in the second language. By doing so, it becomes possible to convert the voice uttered by the third speaker in the second language into the voice of the first speaker, and it is possible to perform dubbing with voice quality conversion between different languages. It becomes possible.
以下、図面を参照して、本発明に係る実施の形態について説明する。
(第1の実施の形態)
まず、本発明に係る第1の実施の形態について説明する。第1の実施の形態に係る声質変換吹替システム100は1又は複数の装置で構成されている。
図1には、声質変換吹替システム100の機能構成を示す。同図に示すように、声質変換吹替システム100は、音声収集部101と、変換フィルタ作成部102と、声質変換部103と、を含んで構成される。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(First embodiment)
First, a first embodiment according to the present invention will be described. The voice quality
In FIG. 1, the functional structure of the voice quality
音声収集部101はマイクロフォン及び録音装置を含んで構成されており、第1話者及び第2話者がそれぞれ同一の言語(第1の言語)で発声した音声をマイクロフォンで収集し、録音装置に音声データとして記録する。
変換フィルタ作成部102は、音声収集部101により収集された第1話者及び第2話者の音声データを用いて学習を行い、第2話者の音声を第1話者の音声に変換するための声質変換フィルタ1(第1話者変換フィルタ)を作成する。ここで、変換フィルタには、演算を行うための関数、変換テーブル等が含まれる。学習方法としては、例えば、公知の混合正規分布モデル(GMM;Gaussian Mixture Model)に基づく特徴量変換法を用いることができる。フィルタ1の作成方法はこれ以外にもあらゆる公知の手法を用いることが可能である。
The
The conversion
声質変換部103は、変換フィルタ作成部102により作成された声質変換フィルタ1を用いて、第2話者が第1の言語とは異なる言語(第2の言語)で発声した音声を第1話者の音声に変換する。
なお、これらの変換フィルタ作成部102及び声質変換部103の機能は、声質変換吹替システム100を構成する各装置が備えるCPUがメモリに記憶されているプログラムに従って処理を実行することにより実現される。
The voice
The functions of the conversion
次に、図2を参照して、本実施の形態に係る声質変換吹替システム100の動作例について説明する。ここでは、英語しか話せない俳優2(第1話者)の声色を目標の声色とし、バイリンガルの声優4(第2話者)を変換元の話者として、日本語の吹替音声データを作成する例で説明する。
まず、バイリンガルの声優4の音声を俳優2の音声に変換するための声質変換フィルタ1を作成する。
Next, with reference to FIG. 2, an operation example of the voice quality
First, the voice
具体的には、声質変換フィルタ1を作成するための英文を約50文用意し、俳優2にその英文を読み上げてもらい、音声収集部101はフィルタ用音声データ3を得る(ステップS101)。
ここで、カーネギーメロン大学(http://www.speech.cs.cmu.edu/cgi-bin/cmudict)の調べによると、英語の音素は図4に示されるように39種類あるとされている。一方、日本語の音素は図5に示されるように19種類あるとされ、図6に示されるように日本語の音素は英語の音素に対応付けられる。前記約50文の英文は、日本語の音素に対応付けられた英語の音素を全て含むように設計される。
Specifically, about 50 English sentences for preparing the voice
Here, according to a study by Carnegie Mellon University (http://www.speech.cs.cmu.edu/cgi-bin/cmudict), there are 39 types of English phonemes as shown in FIG. . On the other hand, there are 19 types of Japanese phonemes as shown in FIG. 5, and Japanese phonemes are associated with English phonemes as shown in FIG. The approximately 50 English sentences are designed to include all English phonemes associated with Japanese phonemes.
次に、英語も日本語も流暢に話せるバイリンガルの声優4に前記用意した英文を読み上げてもらい、音声収集部101はフィルタ用音声データ5を得る(ステップS102)。
次に、変換フィルタ作成部102は、混合正規分布モデル(GMM)に基づく特徴量変換法を用いて、フィルタ用音声データ5からフィルタ用音声データ3に声質を変換するための声質変換フィルタ1を作成する(ステップS103)。
Next, the bilingual voice actor 4 who can speak English and Japanese fluently reads out the prepared English sentence, and the
Next, the conversion
以下、混合正規分布モデル(GMM)に基づく特徴量変換法(例えば、A. Kain and M.W.Macon," Spectral voice conversion for text-to-speech synthesis," Proc.ICASSP,pp.285-288,Seattle,U.S.A.May,1998.参照)を用いた声質変換フィルタの作成方法について詳細に説明する。
時間領域においてフレームごとに対応付けられた、変換元となる話者の音声の特徴量xおよび変換先となる話者の音声の特徴量yを、それぞれ
Hereafter, a feature conversion method based on a mixed normal distribution model (GMM) (for example, A. Kain and MWMacon, “Spectral voice conversion for text-to-speech synthesis,” Proc.ICASSP, pp.285-288, Seattle, USAMay) , 1998.) will be described in detail.
The feature amount x of the voice of the speaker as the conversion source and the feature amount y of the voice of the speaker as the conversion destination, which are associated with each frame in the time domain,
学習にはテキストなどの言語情報は一切使用せず、特徴量の抽出やGMMの学習はコンピュータを用いて全て自動で行う。
Language information such as text is not used for learning, and feature extraction and GMM learning are all performed automatically using a computer.
次に、俳優2が話した台詞を日本語に翻訳した台詞を、声優4にそのまま日本語で読み上げてもらい、日本語に吹き替えた音声データ6を得る(ステップS104)。
声質変換部103は、吹き替えた音声データ6を声質変換フィルタ1に通して変換し、吹き替えた音声データ7を得る(ステップS105)。この吹き替えた音声データ7が英語しか話せない俳優2の声色に似せた日本語の吹き替え音声データである。
Next, the speech obtained by translating the speech spoken by the actor 2 into Japanese is directly read out by the voice actor 4 in Japanese, and the voice data 6 dubbed into Japanese is obtained (step S104).
The voice
以上のように、俳優2及び声優4の英語による音声データを用いて声質変換フィルタ1を作成することで、当該声質変換フィルタ1を用いて声優4が日本語で発声した音声を俳優2の音声に変換することが可能となる。このように、英語と日本語との両方の言語を話すことができる声優4を用意すれば、俳優2が日本語を話すことができなくても、声優4が日本語で発声した音声を俳優2の音声に変換することができる。つまり、異なる言語間での、声質変換を伴った吹替えを行うことが可能となる。
As described above, by creating the voice
(第2の実施の形態)
次に、本発明に係る第2の実施の形態について説明する。
第2の実施の形態に係る声質変換吹替システム100は、第1の実施の形態に係る声質変換吹替システム100と同様に、音声収集部101、変換フィルタ作成部102及び声質変換部103を備えている。
本実施の形態に係る音声収集部101は、第1の言語で発声された第1話者及び第2話者の音声と、第1の言語とは異なる第2の言語で発声された第2話者及び第3話者の音声とを収集する。
(Second Embodiment)
Next, a second embodiment according to the present invention will be described.
Similar to the voice quality
The
変換フィルタ作成部102は、第1の実施の形態に係る変換フィルタ作成部102が備える機能(声質変換フィルタ1を作成する機能)に加えて、第2の言語で発声された第2話者及び第3話者の音声に基づいて、第3話者の音声を第2話者の音声に変換するための声質変換フィルタ8(第2話者変換フィルタ)を作成する。
声質変換部103は、第3話者が第2の言語で発声した音声を声質変換フィルタ8を用いて第2話者の音声に変換し、当該第2話者の音声を声質変換フィルタ1を用いて第1話者の音声に変換する。
In addition to the function (the function of creating the voice quality conversion filter 1) included in the conversion
The voice
次に、図3を参照して、本実施の形態に係る声質変換吹替システム100の動作例について説明する。ここでは、英語しか話せない俳優2の声色を目標の声色とし、日本語しか話せない声優10を変換元話者として、日本語の吹替音声データを作成する例で説明する。
声質変換フィルタ1を作成する手順まで(上記ステップS103まで)は第1の実施の形態に同じである。
Next, with reference to FIG. 3, an operation example of the voice quality
Up to the procedure for creating the voice quality conversion filter 1 (up to step S103) is the same as that of the first embodiment.
次に、日本語しか話せない声優10の音声をバイリンガルの声優4の音声に変換するための声質変換フィルタ8を作成するために、日本語文を約50文用意する。バイリンガルの声優4にその日本語文を読み上げてもらい、音声収集部101はフィルタ用音声データ9を得る(ステップS201)。
次に、日本語しか話せない声優10に上記用意した日本語文を読み上げてもらい、音声収集部101はフィルタ用音声データ11を得る(ステップS202)。
Next, in order to create a voice quality conversion filter 8 for converting the voice of a
Next, the
次に、変換フィルタ作成部102は、混合正規分布モデル(GMM)に基づく特徴量変換法を用いて、フィルタ用音声データ11からフィルタ用音声データ9に声質を変換するための声質変換フィルタ8を作成する(ステップS203)。
次に、俳優2が話した台詞を日本語に翻訳した台詞を声優10に読み上げてもらい、吹き替えた音声データ12を得る(ステップS204)。
Next, the conversion
Next, the
声質変換部103は、吹き替えた音声データ12を声質変換フィルタ8に通し、さらに声質変換フィルタ1に通して、吹き替えた音声データ13を得る(ステップS205)。この吹き替えた音声データ13が、英語しか話せない俳優2の声色に似せた日本語の吹き替え音声データである。
このように、声優10が日本語しか話すことができなくても、声質変換吹替システム100において、俳優2及び声優4それぞれが英語で発声した音声を学習して声質変換フィルタ1を作成し、声優4及び声優10それぞれが日本語で発声した音声を学習して声質変換フィルタ8を作成することにより、これらの声質変換フィルタ1,8を用いて声優10が日本語で発声した音声を俳優2の音声に変換することが可能となり、異なる言語間での吹替を容易に行うことができる。
The voice
Thus, even if the
なお、声質変換フィルタ8と声質変換フィルタ1を合成して新たな声質変換フィルタを作成できることが知られており、この新たな声質変換フィルタを利用して声優10の音声を直接俳優2の音声に変換することができる。このような変換方法を採ることによって、変換処理時間を半分にすることが可能となる。
また、声質変換吹替システム100が備える機能(音声収集部101、変換フィルタ作成部102及び声質変換部103)の装置への配置の仕方については様々な態様を採ることができる。
It is known that the voice quality conversion filter 8 and the voice
Moreover, various aspects can be taken about the arrangement | positioning method to the apparatus of the voice quality conversion dubbing system 100 (the audio |
例えば、声質変換吹替システム100をサーバ装置及びクライアント装置で構成し、サーバ装置に変換フィルタ作成部102を配置し、クライアント装置に声質変換部103を配置することができる。このような構成とすることで、サーバ装置で作成した声質変換フィルタ1,8をクライアント装置にダウンロードして、クライアント装置で声質変換を行うことが可能となる。
For example, the voice quality
なお、上記第1及び第2の実施の形態では、一人の声優を変換元話者として日本語の吹替え音声データを作成したが、これに限らず、複数人の声優を変換元話者としてもよい。
この場合は、一人の第2話者に対して変換元話者である第3話者が複数人存在するので、変換元話者ごとに声質変換フィルタ8を作成する必要がある。音声収集部101で収集した変換元話者ごとのフィルタ用音声データを使用して、変換フィルタ作成部102は変換元話者ごとに声質変換フィルタ8を作成する。このように、英語と日本語との両方の言語を話すことができる声優4を一人用意し、声優10が行っていた日本語台詞の読み上げ作業を複数の声優で分担することで、声優一人あたりの読み上げ作業の所要時間短縮が可能となり、作業の効率化をはかることができる。
In the first and second embodiments, Japanese dubbing voice data is created using one voice actor as the conversion source speaker. However, the present invention is not limited to this, and a plurality of voice actors may be used as the conversion source speakers. Good.
In this case, since there are a plurality of third speakers who are conversion source speakers for one second speaker, it is necessary to create a voice quality conversion filter 8 for each conversion source speaker. Using the filter voice data for each conversion source speaker collected by the
以下、図1、図3、図7を参照して、変換元の話者を複数にした場合の声質変換吹替システム100の動作例について詳細に説明する。この場合は、図3に示す第3話者(声優10)が複数人存在することになる。ここで、図7は、変換関数F,Gを作成する際の学習過程及び変換関数F、Gを用いた声質変換過程を示す図である。
収録対象の話者から音声(音声サンプルデータ)を収録すると、変換フィルタ作成部102は、第3話者(元話者と呼ぶ)の音声と第2話者(中間話者と呼ぶ)の音声とに基づいて学習を行うことにより、元話者の音声を中間話者の音声に変換するための変換関数F(声質変換フィルタ8)を生成する。ここで、元話者の音声及び中間話者の音声は、予め元話者と中間話者とに同じ約50文(1セットの音声内容)の日本語を発声させ収録しておいたものを用いる。また、中間話者は1人(バイリンガルの声優4)であり、元話者が複数存在するので変換元話者ごとに変換関数Fを作成する。つまり、複数の元話者各々の音声と1つの中間話者の音声との学習をそれぞれ行う。そのために、1つの中間話者の音声が複数の元話者各々に対して共通に設けられている。学習の手法としては、例えば、上記第1及び第2の実施形態と同様に混合正規分布モデル(GMM)に基づく特徴量変換法を用いることができる。これ以外にも、あらゆる公知の手法を用いることが可能である。
Hereinafter, an example of the operation of the voice quality
When voice (voice sample data) is recorded from the recording target speaker, the conversion
次に、変換フィルタ作成部102は、中間話者の音声を第1話者(目標話者と呼ぶ)の音声に変換するための変換関数G(声質変換フィルタ1)を作成する。ここで、中間話者の音声及び目標話者の音声は、予め中間話者(バイリンガルの声優4)と目標話者(俳優2)とに同じ約50文(1セットの音声内容)の英語を発声させ収録しておいたものを用いる。
Next, the conversion
なお、変換関数F、Gの形式は数式に限らず、変換テーブルの形で表されていてもよい。
次に、図7を参照して、変換関数F、Gの学習過程及び変換関数F、Gを用いた変換過程を説明する。ここでは、元話者が2人であり、変換関数Fおよび変換関数Gの学習用音声のための文章がそれぞれ1セット分の日本語約50文(setA)および英語約50文(setB)であるとする。
Note that the format of the conversion functions F and G is not limited to a mathematical expression, and may be expressed in the form of a conversion table.
Next, the learning process of the conversion functions F and G and the conversion process using the conversion functions F and G will be described with reference to FIG. Here, there are two former speakers, and the sentences for learning speech of the conversion function F and the conversion function G are about 50 sentences (setA) in Japanese and about 50 sentences (setB) in English, respectively. Suppose there is.
まず、変換フィルタ作成部102は、図7に示すように、元話者(Src.1)の音声setAと中間話者(In.)の音声setAとに基づいて学習を行い、変換関数F(Src.1(A))を作成する(ステップS301)。同様に、変換フィルタ作成部102は、元話者(Src.2)の音声setAと中間話者(In.)の音声setAとに基づいて学習を行い、変換関数F(Src.2(A))を作成する(ステップS302)。
First, as shown in FIG. 7, the conversion
次に、変換フィルタ作成部102は、図7に示すように、中間話者(In.)の英語約50文(setB)の音声と目標話者(Tag.1)の音声setBとに基づいて学習を行い、変換関数G1(In.(B))を作成する(ステップS303)。
変換過程においては、声質変換部103は、図7に示すように、元話者(Src.1)の任意の日本語音声を変換関数F(Src.1(A))を用いて中間話者(In.)の音声に変換する(ステップS304)。次に、声質変換部103は、中間話者(In.)の音声を、変換関数G1(In.(B))を用いて、目標話者(Tag.1)の日本語音声へ変換する(ステップS305)。
Next, as shown in FIG. 7, the transform
In the conversion process, as shown in FIG. 7, the voice
同様に、声質変換部103は、図7に示すように、元話者(Src.2)の任意の日本語音声を変換関数F(Src.2(A))を用いて中間話者(In.)の音声に変換する(ステップS306)。次に、声質変換部103は、中間話者(In.)の音声を、変換関数G1(In.(B))を用いて、目標話者(Tag.1)の日本語音声へ変換する(ステップS307)。
Similarly, as shown in FIG. 7, the voice
なお、変換関数Fと変換関数Gとが合成された関数を用いて、元話者の音声を直接目標話者の音声に変換する機能を備えていてもよい。 Note that a function of directly converting the voice of the original speaker into the voice of the target speaker may be provided using a function in which the conversion function F and the conversion function G are combined.
目標話者が話す言語の種類に制約されることなく、異なる言語間での、声質変換を伴った吹替えに利用することができる。 Without being restricted by the type of language spoken by the target speaker, it can be used for dubbing with voice quality conversion between different languages.
100 声質変換吹替システム
101 音声収集部
102 変換フィルタ作成部
103 声質変換部
100 Voice quality
Claims (6)
前記第2話者が前記第1の言語とは異なる第2の言語で発声した音声を、前記第1話者変換フィルタを用いて前記第1話者の音声に変換する声質変換手段と
を備えることを特徴とする声質変換吹替システム。 A first speaker conversion filter for converting the voice of the second speaker into the voice of the first speaker based on the voices of the first speaker and the second speaker uttered in the first language. A conversion filter creation means to create;
Voice quality conversion means for converting the voice uttered by the second speaker in a second language different from the first language into the voice of the first speaker using the first speaker conversion filter. Voice quality conversion dubbing system characterized by that.
前記第2の言語で発声された前記第2話者及び第3話者の音声に基づいて、前記第3話者の音声を前記第2話者の音声に変換するための第2話者変換フィルタを作成し、
前記声質変換手段は、
前記第3話者が前記第2の言語で発声した音声を前記第2話者変換フィルタを用いて前記第2話者の音声に変換し、該第2話者の音声を前記第1話者変換フィルタを用いて前記第1話者の音声に変換することを特徴とする
請求項1に記載の声質変換吹替システム。 The conversion filter creating means includes
Second speaker conversion for converting the voice of the third speaker into the voice of the second speaker based on the voices of the second and third speakers uttered in the second language Create a filter
The voice quality conversion means includes
The voice of the third speaker uttered in the second language is converted to the voice of the second speaker using the second speaker conversion filter, and the voice of the second speaker is converted to the first speaker. The voice quality conversion dubbing system according to claim 1, wherein the voice conversion of the first speaker is converted using a conversion filter.
前記第2話者変換フィルタと前記第1話者変換フィルタとが合成された変換フィルタを用いて、前記第3話者が前記第2の言語で発声した音声を前記第1の話者の音声に変換することを特徴とする
請求項2に記載の声質変換吹替システム。 The voice quality conversion means includes
Using the conversion filter obtained by synthesizing the second speaker conversion filter and the first speaker conversion filter, the voice of the first speaker is expressed as the voice uttered by the third speaker in the second language. The voice quality conversion dubbing system according to claim 2, wherein the voice quality conversion dubbing system is performed.
前記声質変換手段はクライアント装置が備えていることを特徴とする
請求項1から3の何れか1項に記載の声質変換吹替システム。 The conversion filter creating means is provided in a server device,
The voice quality conversion dubbing system according to any one of claims 1 to 3, wherein the voice quality conversion means is provided in a client device.
第1の言語で発声された第1話者及び第2話者の音声に基づいて、前記第2話者の音声を前記第1話者の音声に変換するための第1話者変換フィルタを作成する変換フィルタ作成ステップと、
前記第2話者が前記第1の言語とは異なる第2の言語で発声した音声を、前記第1話者変換フィルタを用いて前記第1話者の音声に変換する声質変換ステップと
を実行させるためのプログラム。 On the computer,
A first speaker conversion filter for converting the voice of the second speaker into the voice of the first speaker based on the voices of the first speaker and the second speaker uttered in the first language. A conversion filter creation step to be created;
A voice quality conversion step of converting a voice uttered by the second speaker in a second language different from the first language into a voice of the first speaker using the first speaker conversion filter; Program to let you.
前記変換フィルタ作成ステップにおいて、
前記第2の言語で発声された前記第2話者及び第3話者の音声に基づいて、前記第3話者の音声を前記第2話者の音声に変換するための第2話者変換フィルタを作成する処理と、
前記声質変換ステップにおいて、
前記第3話者が前記第2の言語で発声した音声を前記第2の変換フィルタを用いて前記第2話者の音声に変換し、該第2話者の音声を前記第1の変換フィルタを用いて前記第1の話者の音声に変換する処理と
をさらに実行させるための請求項5に記載のプログラム。 On the computer,
In the conversion filter creation step,
Second speaker conversion for converting the voice of the third speaker into the voice of the second speaker based on the voices of the second and third speakers uttered in the second language The process of creating a filter,
In the voice quality conversion step,
The voice uttered by the third speaker in the second language is converted to the voice of the second speaker using the second conversion filter, and the voice of the second speaker is converted to the first conversion filter. The program according to claim 5, further executing a process of converting to the voice of the first speaker using a voice.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006009161A JP4769086B2 (en) | 2006-01-17 | 2006-01-17 | Voice quality conversion dubbing system and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006009161A JP4769086B2 (en) | 2006-01-17 | 2006-01-17 | Voice quality conversion dubbing system and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007192931A true JP2007192931A (en) | 2007-08-02 |
JP4769086B2 JP4769086B2 (en) | 2011-09-07 |
Family
ID=38448700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006009161A Expired - Fee Related JP4769086B2 (en) | 2006-01-17 | 2006-01-17 | Voice quality conversion dubbing system and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4769086B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007309979A (en) * | 2006-05-16 | 2007-11-29 | Advanced Telecommunication Research Institute International | Voice processing apparatus and program |
JP2009122667A (en) * | 2007-10-26 | 2009-06-04 | Advanced Telecommunication Research Institute International | Dialogue voice generating device, uttering voice recording device and computer program |
JP2012063501A (en) * | 2010-09-15 | 2012-03-29 | Yamaha Corp | Voice processor |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01211799A (en) * | 1988-02-19 | 1989-08-24 | A T R Jido Honyaku Denwa Kenkyusho:Kk | Regular synthesizing device for multilingual voice |
JPH04240900A (en) * | 1991-01-25 | 1992-08-28 | Sony Corp | Speech converter |
JPH1185194A (en) * | 1997-09-04 | 1999-03-30 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | Voice nature conversion speech synthesis apparatus |
JP2005266349A (en) * | 2004-03-18 | 2005-09-29 | Nec Corp | Device, method, and program for voice quality conversion |
JP2007178686A (en) * | 2005-12-27 | 2007-07-12 | Matsushita Electric Ind Co Ltd | Speech converter |
JP2008537600A (en) * | 2005-03-14 | 2008-09-18 | ボクソニック, インコーポレイテッド | Automatic donor ranking and selection system and method for speech conversion |
-
2006
- 2006-01-17 JP JP2006009161A patent/JP4769086B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01211799A (en) * | 1988-02-19 | 1989-08-24 | A T R Jido Honyaku Denwa Kenkyusho:Kk | Regular synthesizing device for multilingual voice |
JPH04240900A (en) * | 1991-01-25 | 1992-08-28 | Sony Corp | Speech converter |
JPH1185194A (en) * | 1997-09-04 | 1999-03-30 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | Voice nature conversion speech synthesis apparatus |
JP2005266349A (en) * | 2004-03-18 | 2005-09-29 | Nec Corp | Device, method, and program for voice quality conversion |
JP2008537600A (en) * | 2005-03-14 | 2008-09-18 | ボクソニック, インコーポレイテッド | Automatic donor ranking and selection system and method for speech conversion |
JP2007178686A (en) * | 2005-12-27 | 2007-07-12 | Matsushita Electric Ind Co Ltd | Speech converter |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007309979A (en) * | 2006-05-16 | 2007-11-29 | Advanced Telecommunication Research Institute International | Voice processing apparatus and program |
JP2009122667A (en) * | 2007-10-26 | 2009-06-04 | Advanced Telecommunication Research Institute International | Dialogue voice generating device, uttering voice recording device and computer program |
JP2012063501A (en) * | 2010-09-15 | 2012-03-29 | Yamaha Corp | Voice processor |
Also Published As
Publication number | Publication date |
---|---|
JP4769086B2 (en) | 2011-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111785261B (en) | Cross-language voice conversion method and system based on entanglement and explanatory characterization | |
JP4478939B2 (en) | Audio processing apparatus and computer program therefor | |
EP3438972B1 (en) | Information processing system and method for generating speech | |
EP3994683B1 (en) | Multilingual neural text-to-speech synthesis | |
US7472065B2 (en) | Generating paralinguistic phenomena via markup in text-to-speech synthesis | |
US20220013106A1 (en) | Multi-speaker neural text-to-speech synthesis | |
KR102306844B1 (en) | Method and apparatus for translating speech of video and providing lip-synchronization for translated speech in video | |
CN112823380A (en) | Matching mouth shapes and actions in digital video with substitute audio | |
US20070061145A1 (en) | Methods and apparatus for formant-based voice systems | |
US11894008B2 (en) | Signal processing apparatus, training apparatus, and method | |
JP2012518207A (en) | Multi-language speech recognition | |
JP2018146803A (en) | Voice synthesizer and program | |
Campbell | Developments in corpus-based speech synthesis: Approaching natural conversational speech | |
JP2018005048A (en) | Voice quality conversion system | |
WO2019163848A1 (en) | Device for learning speech conversion, and device, method, and program for converting speech | |
JP4769086B2 (en) | Voice quality conversion dubbing system and program | |
US20230186937A1 (en) | Audio source separation and audio dubbing | |
Kumar et al. | Towards building text-to-speech systems for the next billion users | |
CN116312471A (en) | Voice migration and voice interaction method and device, electronic equipment and storage medium | |
JP2007178686A (en) | Speech converter | |
JP4011844B2 (en) | Translation apparatus, translation method and medium | |
JP5706368B2 (en) | Speech conversion function learning device, speech conversion device, speech conversion function learning method, speech conversion method, and program | |
Reddy et al. | Speech-to-Text and Text-to-Speech Recognition Using Deep Learning | |
Hu et al. | A real-time voice cloning system with multiple algorithms for speech quality improvement | |
Xu et al. | Two-pathway style embedding for arbitrary voice conversion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081224 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110315 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110614 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110617 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140624 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
LAPS | Cancellation because of no payment of annual fees |