JP5137031B2

JP5137031B2 - 台詞音声作成装置、発話音声収録装置、及びコンピュータプログラム

Info

Publication number: JP5137031B2
Application number: JP2008273704A
Authority: JP
Inventors: 真一川本; 達夫四倉; 哲中村; 吉広足立
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2007-10-26
Filing date: 2008-10-24
Publication date: 2013-02-06
Anticipated expiration: 2028-10-24
Also published as: JP2009122667A

Description

この発明は映画、アニメーション等、出演者がシナリオにしたがって発話するマルチメディア製作物等における台詞音声作成装置に関し、特に、所定のシナリオにあわせて台詞を効率的に収録し、再生することが可能な台詞音声作成装置およびそのための発話音声収録装置に関する。

コンピュータ技術、特に映像及び音響処理技術が発達することにより、利用者を参加させたマルチメディア製作物をごく短時間に製作することが可能なシステムが実用化されつつある。たとえば、博覧会のアトラクションとして、そのようなシステムを導入し、博覧会を訪れた参加者を登場人物とする映画をその場で製作し上映するようなアトラクションが実現できると、より多くの訪問者をひきつけるような効果が期待できる。

そうしたアトラクションシステムが、特許文献１に開示されている。特許文献１に開示されたシステムは、参加者の立体的顔画像を撮影する複数の３次元スキャナ及び画像処理パーソナルコンピュータ（以下単に「ＰＣ」と呼ぶ。）と、予め準備された映画のシナリオを登場人物の画像、背景画像等とともに記憶するためのシナリオ保存サーバと、これら３次元スキャナによって撮影された参加者の立体的顔画像に基づき、シナリオ保存サーバに保存されている映画の登場人物の顔を参加者の顔画像に入替えることにより、参加者が登場人物として登場する映画を生成するためのアトラクション映像生成装置と、生成された映画を映写するための映像送出装置とを含む。

複数の参加者はそれぞれ、映画の中の所望の登場人物を指定することでその登場人物として映画の中に登場することができる。
特開２００５−１１５７４０号公報

しかし、上記したシステムでは、登場人物の顔画像を参加者の顔画像に入替えることはできても、声までを入替えることはできない。これは、顔画像の場合には３次元スキャナで参加者の顔画像を撮影することにより、どのようなシーンでもその顔画像を利用することができるのに比べ、音声の場合にはそのようなことができないためである。

音声の場合には、シナリオにあわせ、かつ映像にあわせて台詞を読上げる作業をする必要がある。こうした作業は単に難しいだけではなく、長時間を有する作業であるという問題点がある。限られた時間しかないアトラクションの参加者にそのような作業を強いることはできず、結果として上記したアトラクションシステムにおいて参加者の声を使用することができなかった。

こうしたことは、映画に限らず他の場面でも起こりうる。たとえば音声のみを使用したラジオドラマのようなものを作成する場合にも、参加者がさくことのできる時間が短ければ、参加者の声を利用して長時間のドラマを作成することは困難である。また、アニメーションを吹替える場合、又は実写の動物に人間の声をあてはめるための吹替えをする場合にも同様の問題が生じる。

また、こうした問題はアトラクションの参加者のように一時的に来訪している人の声を使用する場合だけではなく、いわゆる声優のように吹替えを職業としている人の場合にも生じえる。ある長さのシナリオの全てを声優の声で吹替える場合には、最低限必要な時間が決まってしまい、利用可能な時間が非常に限定されているときには吹替えを完全に行なうことが不可能な場合さえ生じ得る。

仮に、既に他人の声で台詞が多数録音されている場合には、もしかしたら参加者の声とよく似た人物の声を使用して吹替えを行なうことができるかもしれない。しかしそのためには、男女、年齢、声の質等を考慮して、できるだけ多数の人物の声を収録しておかなければならず、それは非常に困難である。

それ故に本発明の目的は、登場人物の台詞が分かっているマルチメディア製作物を製作するために、登場人物の音声をユーザの声で容易に短時間で置換することが可能な台詞音声作成装置を提供することである。

本発明の他の目的は、登場人物の台詞が分かっているマルチメディア製作物を製作するために、登場人物の音声をユーザの声に近い声質で容易に短時間で置換することが可能な台詞音声作成装置を提供することである。

本発明のさらに他の目的は、登場人物の台詞が分かっているマルチメディア製作物を製作するために、登場人物の音声をユーザの声に近い声質で容易に短時間で置換することが可能なように、多数のユーザの声を収集し、それらを音声の置換において利用できる台詞音声作成装置を提供することである。

本発明の別の目的は、発話者のみで容易に品質の高い台詞の発話を収録できる発話音声収録装置を提供することである。

本発明の第１の局面に係る台詞音声作成装置は、各々、発話のタイミング、その長さ、及び発話者が予め定められている複数の台詞の音声を作成するための台詞音声作成装置であって、複数の台詞の各々の発話タイミング、発話内容の台詞、及び発話時間を特定する台詞情報を記憶するための台詞情報記憶手段と、ある発話者に割当てられている台詞の少なくとも一部を当該ある発話者に発話させ、その発話音声を収録するための発話音声収録手段と、発話音声収録手段により収録された発話音声に基づき、ある発話者に割当てられている台詞の全てについて、発話のタイミング及びその長さが台詞情報記憶手段に記憶された台詞情報に合致するように台詞音声を作成するための台詞音声作成手段とを含む。

ある発話者の台詞に対し、発話音声収録手段によってその一部しか収録されなくても、台詞音声作成手段によって、その発話者に割当てられている台詞の全てについて、台詞情報に合致した台詞音声を作成することができる。その結果、台詞の吹替え等に経験の浅い発話者で、録音時間が十分でなく、台詞の一部しか録音しなかった場合にも台詞音声の全てを作成できる。その結果、登場人物の台詞が分かっているマルチメディア製作物において、登場人物の音声をユーザの声で容易に短時間で置換することが可能な台詞音声作成装置を提供できる。また、発話者の音声を効率よく収集することができる。

好ましくは、台詞音声作成手段は、各々、発話音声収録手段により収録された発話音声に基づいて、発話のタイミング及びその長さが台詞情報による指定と合致するようにある発話者の台詞音声を生成するための複数の台詞音声生成手段と、複数の台詞の各々について、複数の台詞音声生成手段について台詞ごとに予め定められた優先順位と、発話音声収録手段により発話音声が収録されたか否かにしたがって、複数の台詞音声生成手段のいずれかを選択して台詞音声を生成するための選択手段とを含む。複数の台詞音声生成手段は、発話音声収録手段により収録された発話音声を、発話のタイミング及びその長さが台詞情報記憶手段に記憶された台詞情報による指定と合致するように加工して、対応する台詞の台詞音声を生成するための台詞音声加工手段と、台詞の少なくとも一部の発話音声に基づき、任意の台詞について、ある発話者の音声ではなく、ある発話者の音声と類似した声質の台詞音声を生成するための手段とを含む。

台詞音声加工手段は、発話音声収録手段により収録された音声を加工して台詞音声を生成する。この場合、発話者の音声の特徴はほとんどそのまま維持されるので、音質の劣化は少ないが、一部しか発話音声が収録されなかった場合には、生成できない台詞音声が発生する。一方、台詞音声を生成するための手段は、その発話者ではなく、その発話者の音声と類似した声質の台詞音声を生成する。一般に、この場合には台詞音声の品質は落ちるが、全ての台詞音声を生成することができる。選択手段が、優先順位と、発話音声収録手段により発話音声が収録されたか否かによって台詞音声生成手段を選択するので、全ての台詞音声を、発話者の音声に近い品質で簡単に作成することができる。

さらに好ましくは、台詞音声作成装置は、複数の台詞の各々について、対応する台詞音声に加えるべき音響効果を指定する音響効果情報を記憶するための音響効果情報記憶手段と、台詞音声作成手段により作成された台詞音声の各々に対し、音響効果情報記憶手段に記憶された音響効果情報により指定される音響効果を実現するための音響処理を行なうための音響処理手段とをさらに含む。

映画、ラジオドラマ、テレビドラマ等では、シーンにより発話者の環境が変わる。そのため、シーンにあわせて音声についても環境による音響的な変化を反映する必要がある。この台詞音声作成装置では、台詞の各々について、音響効果を指定する音響効果情報を記憶しておき、音響処理手段が、台詞の各々について、音響効果情報にしたがった音響効果を台詞音声に加える。そのため、シーンの変化にあわせた臨場的な台詞音声を簡単に短時間で作成できる。

台詞音声作成装置は、台詞音声作成手段により、複数の発話者の各々に対して作成された台詞音声を、台詞情報記憶手段に記憶された台詞情報にしたがったタイミングで順番に再生するための音声再生手段をさらに含んでもよい。

音声再生手段が、一連の台詞音声を、それぞれ所定のタイミングで順番に再生する。そのため、たとえば予め登場人物が発言する時間が決まっている映画、テレビドラマ、ラジオドラマ等の製品の音声を、この台詞音声作成装置により容易に実現することができる。

発話音声収録手段は、表示装置一体型のタッチパネルと、各台詞が発話される場面の映像を、台詞ごとに、台詞とともにタッチパネル上に繰返し再生して表示するための表示手段と、発話者の直前の所定時間分の発話音声を録音するための発話録音手段と、発話者による録音停止の指示に応答して、発話録音手段を停止させ、発話録音手段により録音された発話音声のうち、指示の直前に録音された、映像の持続時間分の録音音声を、当該映像に対応する台詞に対する発話者の発話音声として保存するための保存手段と、表示手段、発話録音手段、及び保存手段を、対象となる台詞を順次変えながら繰返して動作するように制御するための繰返し制御手段とを含んでもよい。

表示手段は、各台詞が発話される場面の映像を、台詞ごとに、台詞と共にタッチパネル上に繰返して再生して表示する。発話者は、この繰返しのリズムにあわせて台詞を発話することができる。発話録音手段は、直前の所定時間分の発話音声を録音している。録音停止の指示があると、保存手段が、映像の持続時間分の直前の録音音声を、その映像に対応する台詞に対する発話者の発話音声として保存する。繰返し制御手段により、上記処理が各台詞に対して行なわれることにより、複数の台詞の全てに対して発話者の発話音声を収録できる。

映像を繰返し表示することによって、発話者は発話のタイミングを捉えやすくなり、台詞の発声に失敗する危険性が小さくなる。さらに、発話を繰返し、発話者がよく発話できたと思う発話を簡単な操作で収録音声として保存できるため、映像によく合致した発話を、アシスタントなしでも簡単に収録することが可能になる。

好ましくは、発話音声収録手段はさらに、表示手段による映像の表示時に、発話者が発話のタイミングを定めるための補助となるタイミング補助情報を映像に重畳して表示するためのタイミング補助情報重畳手段を含む。

発話のタイミング補助情報が映像に重畳して表示されるため、発話者は発話のタイミングをさらに捉えやすくなり、台詞の発話タイミングを逃すおそれが小さくなる。

より好ましくは、発話音声収録手段はさらに、複数の台詞ごとに、予め録音された音声を記憶するための音声記憶手段と、表示手段による映像の表示ごとに、表示される映像に対応する台詞の音声を音声記憶手段から読出し、映像の表示に同期して再生するための音声再生手段とを含む。

映像とともに、その映像に対応する台詞の音声が再生される。発話者はこの音声を参考にして発話することができる。その結果、発話者のみにより、映像中の登場キャラクタの発話画像とタイミングが一致した、品質の高い発話音声容易に収録することが可能になる。

さらに好ましくは、発話音声収録手段はさらに、発話者の発話時の音声レベルを測定するための音声レベル測定手段と、音声レベル測定手段により測定された音声レベルを示す補助情報を表示手段による映像の表示に重畳して表示するための音声レベル補助情報重畳手段とを含む。

発話者の音声レベルを示す補助情報が映像に重畳して表示される。発話レベルが大きすぎたり、小さすぎたりするという失敗の危険性を小さくでき、アシスタントなしで、発話者のみによって品質の高い発話音声を容易に収録することができる。

本願発明の第２の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、複数の台詞の各々の発話タイミング、発話内容の台詞、及び発話時間を特定する台詞情報を記憶するための台詞情報記憶手段と、ある発話者に割当てられている台詞の少なくとも一部を当該ある発話者に発話させ、その発話音声を収録するための発話音声収録手段と、発話音声収録手段により収録された発話音声に基づき、ある発話者に割当てられている台詞の全てについて、発話のタイミング及びその長さが台詞情報に合致するように台詞音声を作成するための台詞音声作成手段として機能させる。

この発明の第３の局面に係る発話音声収録装置は、各々、発話のタイミング、その長さ、及び発話者が予め定められている複数の台詞の音声を発話者に発話させ、その発話音声を収録するための発話音声収録装置であって、表示装置一体型のタッチパネルと、各台詞が発話される場面の映像を、台詞ごとに、台詞とともにタッチパネル上に繰返し再生して表示するための表示手段と、発話者の直前の所定時間分の発話音声を録音するための発話録音手段と、発話者による録音停止の指示に応答して、発話録音手段を停止させ、発話録音手段により録音された発話音声のうち、指示の直前に録音された、映像の持続時間分の録音音声を、当該映像に対応する台詞に対する発話者の発話音声として保存するための保存手段と、表示手段、発話録音手段、及び保存手段を、対象となる台詞を順次変えながら繰返して動作するように制御するための繰返し制御手段とを含む。

好ましくは、発話音声収録装置はさらに、表示手段による映像の表示時に、発話者が発話音声のタイミングを定めるための補助となるタイミング補助情報を映像に重畳して表示するためのタイミング補助情報重畳手段を含む。

さらに好ましくは、発話音声収録装置はさらに、複数の台詞ごとに、予め録音された音声を記憶するための音声記憶手段と、表示手段による映像の表示ごとに、表示される映像に対応する台詞の音声を音声記憶手段から読出し、映像の表示に同期して再生するための音声再生手段とを含む。

発話音声収録装置はさらに、発話者の発話時の音声レベルを測定するための音声レベル測定手段と、音声レベル測定手段により測定された音声レベルを示す補助情報を表示手段による映像の表示に重畳して表示するための音声レベル補助情報重畳手段とを含んでもよい。

この発明の第４の局面に係るコンピュータプログラムは、表示装置一体型のタッチパネルが接続されるコンピュータにより実行されると、当該コンピュータを、各々、発話のタイミング、その長さ、及び発話者が予め定められている複数の台詞の音声を発話者に発話させ、その発話音声を収録するための発話音声収録装置として機能させるためのコンピュータプログラムである。このコンピュータプログラムは、コンピュータを、各台詞が発話される場面の映像を、台詞ごとに、台詞とともにタッチパネル上に繰返し再生して表示するための表示手段と、発話者の直前の所定時間分の発話音声を録音するための発話録音手段と、発話者による録音停止の指示に応答して、発話録音手段を停止させ、発話録音手段により録音された発話音声のうち、指示の直前に録音された、映像の持続時間分の録音音声を、当該映像に対応する台詞に対する発話者の発話音声として保存するための保存手段と、表示手段、発話録音手段、及び保存手段を、対象となる台詞を順次変えながら繰返して動作するように制御するための繰返し制御手段として機能させる。

以下、本発明の台詞音声作成装置の実施の形態に係るマルチメディア製作システムについて説明する。以下の説明及び図面において、同一の部品には同一の名称及び参照番号を付してある。それらの機能も同一である。したがってそれらについての詳細な説明は繰返さない。

［第１の実施の形態］
図１に、本発明の第１の実施の形態に係るマルチメディア製作システム５０のブロック図を示す。図１を参照して、マルチメディア製作システム５０は、特許文献１に記載されたものと同様の複数の３次元スキャナからなる三次元スキャナ群６０と、三次元スキャナ群６０により撮影された参加者の顔画像の三次元モデルを作成するための画像処理ＰＣ６２と、映画のシナリオを登場人物（以下「キャラクタ」と呼ぶ。）の顔画像及びその他の画像とともに記憶するための図示しないシナリオ保存サーバと、画像処理ＰＣ６２により生成された参加者の顔画像を用い、シナリオ保存サーバに保存されているキャラクタの顔画像を置換して、参加者の顔を持つ人物が登場する映像を生成し映像データ６６として出力するための映像生成装置６４と、この映像データ６６を保存するための映像データ記憶装置とを含む。

マルチメディア製作システム５０はさらに、最終的な映像データ６６を作成するための映像素材を記憶するための映像素材ＤＢ（データベース）７０と、この映画のキャラクタの中で、参加者による吹替えの対象となるキャラクタの台詞に関する台詞情報を記憶するための台詞情報記憶部７２と、映画の中のキャラクタの台詞を標準的な音声で発話した標準音声を記憶するための標準音声記憶部７４と、映画の中の各台詞がどのようなシーンで発話されているか、それにより台詞の音声にどのような音響効果を加えるべきかを示すカット情報を記憶するためのカット情報記憶部７６とを含む。

マルチメディア製作システム５０はさらに、映像素材ＤＢ７０に記憶された映像、台詞情報記憶部７２に記憶された台詞情報、標準音声記憶部７４に記憶された標準音声による台詞の発話データ、及びカット情報記憶部７６に記憶されたカット情報を用い、参加者（ユーザ）の音声を収録してその音声に基づき、映画の特定のキャラクタの台詞の音声をユーザの音声に入替える処理（いわゆる「吹替え」と同様の処理）を実行し、ユーザの音声により台詞を発話した音声からなる台詞音声データ８６と、台詞音声データ８６の中の台詞の発話開始時間、発話時間、対応する音声ファイル名等をテーブルとして記憶するための台詞音声テーブル８８とを出力するための台詞音声データ作成部９０とを含む。

台詞音声データ作成部９０は、三次元スキャナ群６０と同様、複数のユーザの音声を処理することが可能なように構成されている。各ユーザは後述するように識別子（ＩＤ）によって区別され、三次元スキャナ群６０、画像処理ＰＣ６２、及び映像生成装置６４からなる映像処理系と、台詞音声データ作成部９０とで同じユーザについては同じＩＤを割当てて管理する。こうすることにより、映画の複数のキャラクタの顔と音声とを同時に特定のユーザの顔と音声とにより入替えることが可能になる。

マルチメディア製作システム５０はさらに、台詞音声データ作成部９０がユーザの音声からキャラクタの台詞音声を作成する際に、どのような手法を用いるかを示す情報を台詞ごとに記憶した手法リストテーブル７８と、ユーザによる発話の収録ができなかった台詞について、台詞音声データ作成部９０がユーザの発話に代えて台詞音声データの作成に使用する、予めこの映画の各台詞を種々の声優の音声により発話した音声データを記憶した声優音声ＤＢ８０と、台詞音声データ作成部９０がユーザの発話に代えて音声合成によりユーザの声に似た性質の台詞音声データを生成する際に使用する音声素片を、それらの特徴量データとともに記憶した素片ＤＢ８２とを含む。

マルチメディア製作システム５０はさらに、映像生成装置６４から出力された映像データ６６と、台詞音声データ作成部９０から出力された台詞音声データ８６とを台詞音声テーブル８８を使用して互いに同期させて再生することにより、キャラクタの一部の顔画像及び音声がユーザの顔画像及び音声に入替えられたマルチキャラクタ製作物を上演するための映像・音声再生装置９２を含む。

前述したとおり、台詞音声データ作成部９０は、複数のユーザの音声を収録し、それらに基づき、別々のキャラクタの台詞音声を生成する機能を持つ。そのために台詞音声データ作成部９０は、各々が処理対象のユーザに関する識別情報、性別、氏名、年齢、吹替え対象となるキャラクタを特定する情報等を含むユーザ情報の入力を受けるための複数のユーザ情報入力部１００，１００Ａ，…，１００Ｎと、これらユーザ情報入力部１００，１００Ａ，…，１００Ｎが受けたユーザ情報に基づいて、各々が対応するユーザの音声を収録し、収録した音声に基づいて種々の手法によりユーザの音声の声質で対応するキャラクタの台詞音声を生成し出力するための複数のキャラクタ音声作成部１０２，１０２Ａ，…，１０２Ｎと、複数のキャラクタ音声作成部１０２，１０２Ａ，…，１０２Ｎの出力する、ユーザ音声の声質に置換えられた種々のキャラクタの台詞音声を、台詞情報記憶部７２に記載された台詞情報に基づいて１つのマルチメディア製作物の音声を構成するように台詞の番号順にしたがって統合し、台詞音声データ８６及び台詞音声テーブル８８として出力するための音声統合部１０４とを含む。

なお、ユーザ情報入力部１００，１００Ａ，…，１００Ｎにより入力されたユーザ情報は、画像処理ＰＣ６２にも与えられ、ユーザの顔画像の管理にも用いられる。

複数のキャラクタ音声作成部１０２，１０２Ａ，…，１０２Ｎの構成はいずれも同じである。したがって以下では、キャラクタ音声作成部１０２の構成を代表として説明する。

図２は、キャラクタ音声作成部１０２の機能的ブロック図である。図２を参照して、キャラクタ音声作成部１０２は、ユーザ情報を受けて、映像素材ＤＢ７０に格納されている映像素材、台詞情報記憶部７２に記憶されている台詞情報、及び標準音声記憶部７４に記憶されている標準音声による台詞音声を利用して、ユーザによる吹替え対象となるキャラクタの台詞音声をユーザに発話させ、その発話音声をユーザ音声ＤＢ１２０に収録するための音声収録部１１４と、音声収録部１１４における発話の収録を制御するためにアテンダントが音声収録部１１４を操作するため、及びユーザによる発話の補助を行なうために使用する入出力装置１１２とを含む。

ところで、一般的に、１つの映画を構成する台詞は多数あり、あるキャラクタの台詞のみに限ってもユーザによるその台詞の発話音声の収録にはかなりの時間を要することが予測される。映画の音声の発話となると、キャラクタの動きにあわせて発話を行なう必要があり、この収録にはさらに時間がかかる可能性が高い。特に、アトラクション等では、時間的制限もあって、全ての発話音声の収録を行なうことが難しい場合が多い。また、収録できたとしても発話時間が短すぎたり長すぎたりすることも多く、そのまま収録音声を用いることができない場合が多い。そこで本実施の形態に係るキャラクタ音声作成部１０２では、あるキャラクタの台詞のうち、ユーザによる発話を収録できた分、及びできなかった分の双方に対して、それぞれ所定の音声生成手法を用いて、台詞音声をできるだけユーザの声質に近い声質で生成することを目標としている。手法リストテーブル７８には、台詞ごとにどのような手法をどのような優先順位で使用するかを示す台詞ごとの手法リストが記憶されており、キャラクタ音声作成部１０２は音声生成にこの手法リストテーブル７８を使用する。

キャラクタ音声作成部１０２はさらに、音声収録部１１４によってユーザ音声ＤＢ１２０に記憶されたユーザ音声に対し、手法リストテーブル７８を参照して、ユーザの吹替え対象のキャラクタの台詞ごとに条件に合致した手法を決定するための合成手法決定部１１６と、合成手法決定部１１６によって決定された手法を用いてキャラクタの台詞音声をユーザの声質にあわせて作成し、台詞ごとに音声ファイル１１０として出力するための音声作成部１１８とを含む。音声作成部１１８はこの合成の際に、手法によって声優音声ＤＢ８０、ユーザ音声ＤＢ１２０、素片ＤＢ８２、標準音声記憶部７４等に記憶された音声を適宜利用する。また音声作成部１１８は、生成された台詞の発話音声に対し、カット情報記憶部７６に記憶されたカット情報に基づいて決定される音響効果を加えて最終的な音声ファイル１１０を出力する。

キャラクタ音声作成部１０２はさらに、ユーザ音声ＤＢ１２０に格納されたユーザの音声を声優音声ＤＢ８０に新たな声優音声として登録する処理を行なう音声ＤＢ更新部１２２と、ユーザ音声ＤＢ１２０に記憶されたユーザ音声を音素片（素片）に分解し、それらの所定の音響特徴量データ、音素ラベル、及びユーザＩＤとともに素片ＤＢ８２に追加するための素片ＤＢ更新部１２４とを含む。素片ＤＢ更新部１２４による音声の素片への分解においては、音声認識技術を利用し、台詞情報記憶部７２に記憶された台詞情報にあわせてユーザ音声ＤＢ１２０に記憶されたユーザの音声を細分化するセグメンテーションを行なう。

図３は、台詞情報記憶部７２に記憶される台詞情報テーブルの構成を示す。図３を参照して、台詞情報記憶部７２は、作成対象となる映画の台詞の全てを通し番号（Ｎｏ）で管理するためのものである。各台詞情報は、その台詞の通し番号（以下「台詞番号」と呼ぶ。）と、その台詞を発話する映画のキャラクタを識別するキャラクタＩＤと、台詞の内容であるテキストデータと、その台詞を標準音声で発話したものを記録した、標準音声記憶部７４内の音声ファイルのファイル名と、映画の進行経過の中でその台詞の発話が開始される時点を示す開始時刻と、その発話の継続時間を示す発話時間とを含む。台詞情報記憶部７２の台詞情報テーブルがこのような構成を有しているため、同じキャラクタＩＤの台詞を抽出することにより、あるキャラクタの台詞を全てリスト化することができる。また、ある台詞について、ユーザによる音声が利用できないときに、対応する標準音声を音声ファイル名により示される音声ファイルから得ることができる。

図４に、本実施の形態に係るマルチメディア製作システム５０における、ユーザによる録音状況としてあり得るいくつかの場合を示す。なお、たとえば図４（Ａ）を参照して、あるユーザについて録音すべき発話全体が発話集合１４０を形成するものとする。この発話集合１４０は、音声合成、声質変換等のために必要で、必ず収録すべき発話からなる必須発話部分１４２と、対応するキャラクタの台詞全体からなる台詞部分１４４とからなる。ユーザの収録にかかる時間、ユーザの発話の巧拙等により、必須発話部分１４２はともかく、台詞部分１４４については、全て収録できる場合、一部のみしか収録できないとき、全く収録できないとき、の３通りがあり得る。図４には、それらの場合を分けて、収録できた部分に斜線を付し、収録できなかった部分は白抜きのままで例示してある。

たとえば図４（Ａ）には、発話集合１４０の全てを収録できた場合を示す。図４（Ｂ）には、必須発話部分１４２と、一部の台詞部分１４６のみが収録でき、残りの部分１４８が収録できなかった場合を示す。図４（Ｃ）には、必須発話部分１４２の部分のみが収録でき、他の台詞部分１５０が全く収録できなかった場合を示す。

図４（Ａ）に示す場合には、基本的にはユーザの音声のみを用いて台詞音声を作成することができる。ただしこの場合にも、ユーザの巧拙によって話速を変換したり、発話レベルを調整したりする加工が必要なときがある。それらは台詞ごとに異なる。

図４（Ｂ）に示す場合には、収録できた台詞部分１４６については、図４（Ａ）に示す場合と同様に処理できるが、収録できなかった台詞部分１４８については何らかの手法を用いてユーザの音声以外からユーザの音声に似た台詞音声を生成する必要がある。

図４（Ｃ）に示す場合には、台詞部分１５０の全てについて台詞音声を生成する必要がある。その場合、たとえば必須発話部分１４２からユーザの声質を表す特徴量を抽出し、声優音声ＤＢから類似の声質の声優の台詞音声を抽出したり、標準音声の声質をユーザの声質に近くなるように変換したりする処理（声質変換）を行なったりする必要がある。

図２に示す手法リストテーブル７８には、台詞ごとに、どのような優先順位でそうした手法を使用するかが示されている。本実施の形態では、９種類の手法を用いて台詞音声を生成する。それら手法の詳細については後述する。

図５及び図６は、図２に示す音声収録部１１４で行なわれる音声収録処理を、コンピュータハードウェア上で実現するコンピュータプログラムのフローチャートである。既に述べたように、映画のキャラクタの台詞の吹替えを行なうことは難しい。たとえばある台詞について、決められた時間で明瞭に発話する必要がある。通常、発話時間が長すぎても短すぎても吹替えとして不適当になる場合がある。ましてや、声優ではないユーザに台詞の吹替えを間違いなく行なわせるのは困難である。そこで、本実施の形態では、様々な方策を講じてできるだけ正確に所望の台詞音声を収録することができるようにしている。たとえば、図７に示されるように、台詞音声収録時にユーザに提示される入出力装置１１２の画面に、台詞の発話時の映像２４６と、発話すべき台詞のテキスト２４０とを表示し、発話の進行にあわせて伸びるプログレスバー２４２を表示したり、台詞のテキスト２４０のうち、発話が終了しているべき部分２４４の色を、これから発話すべき部分の色と違う色で表示したりする、という方法を採用する。

図５を参照して、このプログラムは、ユーザ情報をユーザ情報入力部１００から受信し所定の記憶領域に保存するステップ１７０と、ステップ１７０に続き、受信したユーザ情報にしたがって、処理対象のユーザに対し、指定されたキャラクタを割当てるステップ１７２と、ステップ１７２に続き、共通の練習用台詞及び対応する標準音声、ステップ１７２で割当てられたキャラクタの台詞及び対応する標準音声を図２に示す台詞情報記憶部７２及び標準音声記憶部７４から抽出するステップ１７４と、ステップ１７４に続き、ユーザ音声テーブルと呼ばれる、ユーザの台詞音声を管理するためのテーブルを生成し、全ての台詞について未収録状態に初期化するステップ１７６とを含む。

ユーザ音声テーブルは、図２に示すユーザ音声ＤＢ１２０の一部を構成する。図８を参照して、ユーザ音声ＤＢ１２０は、ユーザの発話を台詞ごとに収録した音声ファイルを記憶するユーザ音声記憶部２６２と、ユーザ音声記憶部２６２に記憶された音声ファイルの管理を行なうためのユーザ音声テーブル２６０とを含む。

ユーザ音声テーブル２６０は、ユーザが吹替えを行なうキャラクタの台詞と、対応するユーザ音声とを管理するためのものであって、先頭にはユーザＩＤが付され、さらに、このキャラクタの台詞の各々について、抽出された台詞の台詞番号と、ユーザによるその台詞の発話の収録が完了したか否かを示す録音フラグと、収録した発話音声データを格納した音声ファイルの名称と、その発話時間とを記憶するためのものである。録音フラグは、１のときに発話音声が収録済であることを示し、０のときには未収録であることを示す。なお、実際には発話開始時間、発話時間等は１秒よりも細かい単位で管理する必要があるが、以下の説明及び図面では、理解を容易にするため、これら時間は秒単位で管理するものとする。

再び図５を参照して、ステップ１７６では、上記したユーザ音声テーブル２６０が新たに作成され、台詞番号には抽出された台詞に付されている通し番号が、録音フラグには全て０が、音声ファイル名には全て空白が、発話時間には全て０が、それぞれ代入される。

このプログラムはさらに、ステップ１７６に続き、収録に要した時間を測定するためのタイマを起動するステップ１７８と、ユーザ音声テーブル２６０内の先頭の台詞を選択するステップ１８０と、直前のステップで選択された台詞のテキストをユーザの前に置かれたモニタに表示するステップ１８２と、この台詞に対応する標準音声を標準音声記憶部７４から取出し、再生するステップ１８４とを含む。ステップ１８２及び１８４においても、図７に示したような表示が行なわれる。

このプログラムはさらに、ステップ１８４に続いて、ユーザの発話練習の時間として設けられたステップ１８６と、ステップ１８２に戻って再度練習を行なうか、次のステップに進んでもよいかをアテンダントが判定して入力する判定結果にしたがい、制御の流れを分岐させるステップ１８８とを含む。ステップ１８８での判定結果が再度練習を行なうべきことを示すときには、制御はステップ１８２に戻る。

このプログラムはさらに、ステップ１８８で練習を終了しても良いことを示す入力がされたことに応答して実行され、選択中の台詞を再度表示するステップ１９０と、選択中の台詞の通常の発話速度にしたがって変化するプログレスバーの表示を開始するステップ１９２とを含む。

続いて図６を参照して、このプログラムは、ステップ１９２の次に配置され、ユーザの発話する台詞音声を録音するステップ１９４と、ステップ１９４で録音された台詞音声を再生するステップ１９６と、ステップ１９６で再生された台詞音声の発話時間、発話の明瞭さ及び自然さ等に基づいて、この台詞の収録を完了するか否かについてアテンダントが判定して入力した結果にしたがい、制御の流れを分岐させるステップ１９８と、ステップ１９８においてこの台詞の収録を完了することを示す入力が行なわれたことに応答して実行され、ステップ１９４で録音された音声を音声ファイルとしてユーザ音声記憶部２６２内に保存し、ユーザ音声テーブル２６０内の当該台詞の音声ファイル名欄にその音声ファイル名を、発話時間欄に録音音声の持続時間を、それぞれ代入するステップ２００と、収録フラグに「１」を代入するステップ２０１とを含む。

このプログラムはさらに、ステップ２００の後、対象のキャラクタの次の台詞の選択を試みるステップ２０２と、ステップ２０２で選択を試みた次の台詞が存在しているか否か、すなわち対象のキャラクタの台詞を全て処理したか否かを判定し、その判定結果にしたがって制御の流れを分岐させるステップ２０４と、ステップ２０４においてまだ台詞が残っていると判定されたことに応答して、タイマを参照し、録音開始から所定時間が経過したか否かを判定し、判定結果にしたがって制御の流れを分岐させるステップ２１２とを含む。ステップ２１２においてまだ所定時間が経過していないと判定された場合には、制御は図５のステップ１８２に戻る。

このプログラムはさらに、ステップ２０４で対象のキャラクタの全台詞について収録が完了したと判定された場合、及びステップ２１２において所定時間が経過したと判定されたことに応答して実行され、録音した全音声を、対応する台詞のテキストに基づいてセグメンテーションし、音声素片に分解するステップ２０６と、ステップ２０６で生成された素片の各々について、Ｆ０，スペクトル分布等、所定の音響特徴量を算出するステップ２０８と、ステップ２０６で作成された素片を、ステップ２０８で算出された音響特徴量、対応する音素のラベル、及び話者のＩＤとともに素片ＤＢ８２に追加して処理を終了するステップ２１０とを含む。

このプログラムはさらに、ステップ１９８において、録音をやり直すことを示す入力がアテンダントにより行なわれたことに応答して実行され、ステップ１９４で録音された音声データを破棄するステップ２１４と、ステップ２１４の後に配置され、タイマの時間を参照して所定時間が経過したか否かを判定し、判定結果にしたがって制御の流れを分岐させるステップ２１６と、ステップ２１６においてまだ所定時間が経過していないと判定されたときに実行され、どこから処理を再開するかを決めるアテンダントの入力にしたがって、台詞音声の収録から再開するときにはステップ１９０に、発話の練習から再開するときにはステップ１８２に、それぞれ制御の流れを分岐させるステップ２２０と、ステップ２１６で既に所定時間が経過していると判定されたことに応答して実行され、現在収録中の台詞が必須部分であればステップ２２０に、それ以外であればステップ２０６に、それぞれ制御を分岐させるステップ２１８とを含む。

図９は、図２に示す音声作成部１１８のより詳細なブロック図を示す。図９を参照して、音声作成部１１８は、それぞれ第１〜第９の手法によって台詞音声を生成するための第１〜第９の音声生成部３００，３０２，３０４，３０６，３０８，３１０，３１２，３１４，及び３１６と、合成手法決定部１１６によって決定された手法にしたがって、第１〜第９の音声生成部３００，３０２，３０４，３０６，３０８，３１０，３１２，３１４，及び３１６のいずれかを選択的に能動化し、ユーザ音声を与えて指定した手法で音声を生成させる分岐部２８０と、合成手法決定部１１６によって決定された手法にしたがい、分岐部２８０によって選択された音声生成部の出力である台詞音声データを選択して共通の出力に出力する合流部２９２と、合流部２９２により出力される台詞音声データに対し、カット情報記憶部７６に記憶されたカット情報にしたがって指定される音響効果を付加して出力する音声信号処理部３２０とを含む。

第１の音声生成部３００は、ある台詞についてユーザの台詞音声を収録することができたときの手法である。この場合には、原則として収録した音声をそのまま使用する。

第２の音声生成部３０２も、ある台詞についてユーザの台詞音声を収録することができたときの手法である。ただし、この手法では、収録した台詞音声の発話速度を調整して台詞音声を生成する。

第３の音声生成部３０４は、台詞のうち、一部についてユーザの台詞音声を収録することができなかったときにも有効な手法である。この手法では、収録することができた台詞についてはユーザの台詞音声の話速変換をして台詞音声を生成する。収録することができなかった台詞については、ユーザの音声を使用せず、標準音声記憶部７４に記憶された標準音声のうち、ユーザ情報に合致した台詞音声（性、年齢等）を用いる。

第４の音声生成部３０６も、台詞のうち、一部についてユーザの台詞音声を収録することができなかったときにも有効な手法である。この手法では、収録することができた台詞についてはユーザの台詞音声の話速変換をして台詞音声を生成する。収録することができなかった台詞については、声優音声ＤＢ８０に記憶されている声優による台詞音声のうち、ユーザの音声にもっとも近い声質を持つ声優の台詞音声が採用される。このときの声優音声の決定には、練習用台詞か得られたユーザ音声の所定の特徴量（基本周波数、スペクトル分布等）を用いた声質間の距離比較が用いられる。

第５の音声生成部３０８も、台詞のうち、一部についてユーザの台詞音声を収録することができなかったときにも有効な手法である。この手法では、収録することができた台詞についてはユーザの台詞音声の話速変換をして台詞音声を生成する。収録することができなかった台詞については、声優音声ＤＢ８０に記憶されている声優による台詞音声のうち、ユーザ音声と声質がもっとも類似のものを特定し、その台詞音声にさらにユーザの性質を反映させた声質変換を行なって台詞音声とする。

第６の音声生成部３１０も、台詞のうち、一部についてユーザの台詞音声を収録することができなかったときにも有効な手法である。この手法では、収録することができた台詞についてはユーザの台詞音声の話速変換をして台詞音声を生成する。収録することができなかった台詞については、収録できたユーザ音声から生成した音声素片のうち、母音の音声素片と、素片ＤＢ８２に記憶されている全子音の音声素片のうち、ユーザの音声に類似した特徴量を持つ音声素片とを用いて音声合成をする。発話の個人的特徴は主として母音に現れるので、このような音声合成をすることによって、かなりユーザの音声に似た声質の合成音声を生成することができる。

第７の音声生成部３１２は、必須発話部分以外の台詞音声が全く収録できなかったときに採用される手法である。この手法では、声優音声ＤＢ８０に記憶されている声優音声のうち、ユーザ音声と最も声質が類似した音声が台詞音声として使用される。このときの声質の類似の判定には、必須発話部分の音声から抽出される特徴量が使用される。

第８の音声生成部３１４も、必須発話部分以外の台詞音声が全く収録できなかったときに有効な手法である。この手法では、声優音声ＤＢ８０に記憶されている声優音声のうち、ユーザ音声と最も声質が類似した音声を用い、その声優音声にさらにユーザ音声の声質を用いた声質変換を行なって台詞音声を生成する。

第９の音声生成部３１６も、必須発話部分以外の台詞音声が全く収録できなかったときに有効な手法である。この手法では、必須発話部分について収録したユーザ音声から生成した音声素片のうち、母音の音声素片と、素片ＤＢ８２に記憶されている子音の音声素片のうち、ユーザの音声に類似した特徴量を持つ音声素片とを用いて音声合成をする。前述のとおり、このような音声合成をすることによって、かなりユーザの音声に似た性質の合成音声を生成することができる。

以上の各手法の説明から明らかなように、台詞情報記憶部７２に記憶された台詞情報は第１〜第９の音声生成部３００，３０２，３０４，３０６，３０８，３１０，３１２，３１４，及び３１６の全てにより参照される。標準音声記憶部７４に記憶された標準音声は、第３の音声生成部３０４に参照される。声優音声ＤＢ８０に記憶された声優音声は、第４の音声生成部３０６、第５の音声生成部３０８、第７の音声生成部３１２、及び第８の音声生成部３１４により参照される。素片ＤＢ８２は、第６の音声生成部３１０、及び第９の音声生成部３１６により参照される。

図１０は、図２に示す合成手法決定部１１６で行なわれる音声の生成手法の決定処理を、コンピュータハードウェア上で実現するコンピュータプログラムのフローチャートである。図１０を参照して、このプログラムは、以下の繰返しを制御するための変数ｉに０を代入するステップ３４０と、変数ｉに１を加算するステップ３４２と、変数ｉの値が台詞の数ＭＡＸを超えたか否かを判定し、超えた場合には処理を終了するステップ３４４と、ステップ３４４で変数ｉの値がＭＡＸ以下であると判定されたことに応答して実行され、台詞番号がｉの台詞（以下これを「台詞（ｉ）」と書く。）に対応する手法リストを手法リストテーブル７８から読出し、作業用のリスト変数ＷＬＩＳＴに格納するステップ３４６とを含む。

手法リストテーブル７８の詳細を図１１に示す。図１１を参照して、手法リストテーブル７８は、台詞番号ごとに、利用可能な手法の識別子をリストした手法リストを含む。通常は、この手法リストにリストされた手法のいずれかを用いれば必ず台詞を処理できるように手法リストテーブル７８は予め作成されている。ただし、手法リストの中に、利用可能なものが含まれない場合も含めて、たとえば標準音声の台詞音声を出力する、というデフォルトの手法が予め準備されている。

再び図１０を参照して、このプログラムはさらに、ステップ３４６の後に配置され、リスト変数ＷＬＩＳＴの要素数を変数ＣＭＡＸに代入するステップ３４８と、ステップ３４８に続き、以下の繰返しを制御する変数ｊに０を代入するステップ３５０とを含む。なお、一般的にリスト変数の要素のインデックスは０から始まる。

このプログラムはさらに、ステップ３５０に続き、ｊ＋１がＣＭＡＸの値を超えたか否かを判定し、判定結果にしたがって制御の流れを分岐させるステップ３５２と、ステップ３５２においてｊ＋１がＣＭＡＸ以下であると判定されたことに応答して実行され、リスト変数ＷＬＩＳＴのうち、リスト要素ＷＬＩＳＴ［ｊ］によって示される手法が、与えられたユーザ音声によって実現可能か否かを判定し、判定結果にしたがって制御を分岐させるステップ３５４とを含む。これら手法の各々について採用できるか否かは、処理対象の台詞音声の収録状況により異なる。基本的には、第１の手法と第２の手法とについては対応の台詞音声の収録がされていなければ利用できないが、それ以外の手法は対応の台詞音声の収録がされていなくても利用可能である。その理由については各手法の説明から明らかとなるであろう。

このプログラムはさらに、ステップ３５４においてリスト要素ＷＬＩＳＴ［ｊ］によって示される手法が利用可能でないと判定されたことに応答して実行され、変数ｊの値に１を加算してステップ３５２に制御を戻すステップ３５６と、ステップ３５４においてリスト要素ＷＬＩＳＴ［ｊ］によって示される手法が利用可能であると判定されたことに応答して実行され、台詞（ｉ）をＷＬＩＳＴ［ｊ］により示される手法を用いて処理し、制御をステップ３４２に戻すステップ３５８と、ステップ３５２においてｊ＋１の値がＣＭＡＸより大きいと判定されたことに応答して実行され、台詞（ｉ）をデフォルトの手法で処理し、制御をステップ３４２に戻すステップ３６０とを含む。

図１２は、図２に示すカット情報記憶部７６の構成を示す。図１２を参照して、カット情報記憶部７６は、台詞ごとに、台詞番号と、その台詞に対して適用すべき音響効果を列挙した音響効果リストとを記憶している。ある台詞について音響効果を加えようとする場合、音声信号処理部３２０は、このカット情報記憶部７６の、処理対象の台詞番号に対応する音響効果リストを調べ、それを順に先頭から実行する。

図１３は、図９に示す第１の音声生成部３００を実現するプログラムのフローチャートである。図１３を参照して、このプログラムは、ユーザ音声ＤＢから台詞音声（ｉ）を読出すステップ３８０を含む。ステップ３８０によってこの処理は終了する。読出された台詞音声（ｉ）は、音声信号処理部３２０に与えられ、処理される。音声信号処理部３２０の処理の詳細は図２３を参照して後述する。

この第１の手法は、対象となる台詞についてユーザの音声を収録することができたときの手法であり、台詞音声としてユーザの音声をそのまま使用する。

図１４は図９に示す第２の音声生成部３０２を実現するためのプログラムの制御構造を示すフローチャートである。図１４を参照して、このプログラムは、ユーザ音声ＤＢ１２０からユーザの台詞音声（ｉ）とその発話時間とを読出すステップ４１０と、ステップ４１０に続き、台詞情報テーブルから台詞（ｉ）の発話時間Ｔｉを読出すステップ４１２と、ステップ４１０で読出した発話時間ｔｉとステップ４１２で読出した発話時間Ｔｉとを用い、ユーザの台詞音声（ｉ）の発話時間がｔｉからＴｉとなるように話速変換を行なって処理を終了するステップ４１４とを含む。

図１５は、図９に示す第３の音声生成部３０４を実現するためのプログラムのフローチャートである。図１５を参照して、このプログラムは、ユーザ音声ＤＢ１２０のユーザ音声テーブル２６０から録音フラグ（ｉ）を読出すステップ４４０と、ステップ４４０において読出された録音フラグの値が１か否かを判定し、その結果に応じて制御の流れを分岐させるステップ４４２とを含む。

このプログラムはさらに、ステップ４４２において録音フラグが１でない（すなわちこの台詞についてユーザ音声の収録ができなかった）と判定されたことに応答して実行され、標準音声記憶部７４から台詞（ｉ）の標準音声を読出し、台詞音声（ｉ）として出力し、処理を終了するステップ４４４と、ステップ４４２において録音フラグが１であると判定されたことに応答して実行され、ユーザ音声ＤＢ１２０から台詞音声（ｉ）と発話時間ｔｉとを読出すステップ４４６と、台詞情報記憶部７２に記憶された台詞情報テーブルから台詞（ｉ）の発話時間Ｔｉを読出すステップ４４８と、ステップ４４６及び４４８でそれぞれ読出された発話時間ｔｉ及びＴｉを用いて、ユーザの台詞音声（ｉ）の発話時間がＴｉとなるように、話速変換を行なって出力し、処理を終了するステップ４５０とを含む。

図１６は、図９に示す第４の音声生成部３０６を実現するためのプログラムの制御構造を示すフローチャートである。図１６を参照して、このプログラムは、ユーザ音声ＤＢ１２０のユーザ音声テーブル２６０からｉ番目の台詞音声に対する録音フラグ（ｉ）を読出すステップ４７０と、ステップ４７０で読出された録音フラグ（ｉ）の値が１か否かによって制御の流れを分岐させるステップ４７２と、ステップ４７２において録音フラグ（ｉ）の値が１でない（すなわち０である。）と判定されたことに応答して実行され、声優音声ＤＢ８０中に記憶されている台詞（ｉ）の声優音声のうち、ユーザ音声と最も声質が類似したものを読出して台詞音声（ｉ）として出力し、処理を終了するステップ４７４とを含む。

このプログラムはさらに、ステップ４７２において録音フラグが１であると判定されたことに応答して実行され、ユーザ音声ＤＢ１２０から台詞音声（ｉ）と発話時間ｔｉとを読出すステップ４７６と、ステップ４７６に続き、台詞情報記憶部７２の台詞情報テーブルから台詞（ｉ）の発話時間Ｔｉを読出すステップ４７８と、発話時間ｔｉ及びＴｉを用い、ステップ４７６で読出されたユーザの台詞音声（ｉ）の発話時間がｔｉからＴｉとなるように、話速変換を行なって、台詞音声（ｉ）として出力し、処理を終了するステップ４８０とを含む。

図１７は、図９に示す第５の音声生成部３０８を実現するプログラムの制御構造を示すフローチャートである。図５を参照して、このプログラムは、ユーザ音声ＤＢ１２０から録音フラグ（ｉ）を読出すステップ５００と、読出された録音フラグの値が１か否かを判定し、判定結果に応じて制御の流れを分岐させるステップ５０２と、ステップ５０２において録音フラグの値が１ではないと判定されたことに応答して実行され、声優音声ＤＢ８０に格納されている台詞（ｉ）の声優音声のうち、ユーザの声質に最も類似したものを特定するステップ５０４と、ステップ５０４で特定された台詞（ｉ）の声優音声を、ユーザ音声の特徴を用いて声質変換し、台詞音声（ｉ）として出力し処理を終了するステップ５０６とを含む。

このプログラムはまた、ステップ５０２において録音フラグが１であると判定されたことに応答して実行され、ユーザ音声ＤＢ１２０から台詞音声（ｉ）と発話時間ｔｉとを読出すステップ５０８と、台詞情報記憶部７２の台詞情報テーブルから台詞（ｉ）の発話時間Ｔｉを読出すステップ５１０と、ユーザの台詞音声（ｉ）の発話時間がｔｉからＴｉになるように話速変換を行なって、台詞音声（ｉ）として出力し処理を終了するステップ５１２とを含む。

図１８は、図９に示す第６の音声生成部３１０を実現するためのプログラムのフローチャートである。図１８を参照して、このプログラムは、ユーザ音声ＤＢ１２０から録音フラグ（ｉ）を読出すステップ５３０と、この録音フラグの値が１か否かを判定し、判定結果にしたがって制御の流れを分岐させるステップ５３２と、ステップ５３２において録音フラグの値が１でないと判定されたことに応答して実行され、台詞（ｉ）、ユーザ音声の特徴量、ユーザの母音の音声素片、素片ＤＢ８２の子音の音声素片を使用して音声合成を行なって台詞音声（ｉ）を生成し出力するステップ５３４とを含む。

このプログラムはさらに、ステップ５３２において録音フラグ＝１であると判定されたことに応答して実行され、ユーザ音声ＤＢ１２０から台詞音声（ｉ）と発話時間ｔｉとを読出すステップ５３６と、台詞情報記憶部７２の台詞情報テーブルから台詞（ｉ）の発話時間Ｔｉを読出すステップ５３８と、ユーザの台詞音声（ｉ）の発話時間がｔｉからＴｉとなるようにユーザの台詞音声（ｉ）の話速変換を行なって台詞音声（ｉ）として出力するステップ５４０とを含む。

図１９は、図９に示す第７の音声生成部３１２を実現するプログラムの制御構造を示すフローチャートである。図１９を参照して、このプログラムは、声優音声ＤＢ８０の台詞（ｉ）の音声の中で、ユーザ音声の声質と最も類似した音声を読出し、台詞音声（ｉ）として出力し、処理を終了するステップ５６０を含む。

図２０は、図９に示す第８の音声生成部３１４を実現するプログラムの制御構造を示すフローチャートである。図２０を参照して、このプログラムは、声優音声ＤＢ８０に記憶されている、台詞（ｉ）の声優音声のうち、ユーザ音声の声質と最もよく類似した音声を特定し読出すステップ５８０と、ステップ５８０で読出された音声（ｉ）を、ユーザの発話必須部分の音声の特徴を用いて、ユーザの声質に近い声質に声質変換することにより、ユーザの台詞音声（ｉ）を生成し出力するステップ５８２とを含む。

図２１は、図９に示す第９の音声生成部３１６を実現するためのプログラムのフローチャートである。図２１を参照して、このプログラムは、台詞（ｉ）、ユーザ音声の特徴量、ユーザの母音の音声素片、及び素片ＤＢ８２に記憶された全子音の素片を用いて、台詞（ｉ）の音声合成を行ない、台詞音声（ｉ）として出力し処理を終了するステップ６００を含む。

図２２は、図９に示す音声信号処理部３２０を実現するプログラムのフローチャートである。音声信号処理部３２０は、合流部２９２の出力する台詞音声（ｉ）に対し、以下のような処理を行なう。すなわち、このプログラムは、カット情報記憶部７６から台詞（ｉ）の音響効果リストＥＬＩＳＴを読出すステップ３８２と、ステップ３８２の後、音響効果リストＥＬＩＳＴの要素数を変数ＥＭＡＸに代入するステップ３８４と、ステップ３８４の後、以後の繰返しを制御するための変数ｋに０を代入するステップ３８６と、ステップ３８６に続いて配置され、ステップ３８８に続き、ｋ＋１の値がＥＭＡＸより大きいか否かを判定し、判定結果にしたがって制御を分岐させるステップ３９０と、ステップ３９０においてｋ＋１の値がＥＭＡＸ以下であると判定されたことに応答して実行され、台詞音声（ｉ）にＥＬＩＳＴ［ｋ］の音響効果を付与するステップ３９２と、ステップ３９２の後、変数ｋの値に１を加算してステップ３９０に制御を戻すステップ３８８とを含む。

このプログラムはさらに、ステップ３９０においてｋ＋１の値がＥＭＡＸより大きいと判定されたことに応答して実行され、台詞音声（ｉ）を音声ファイルに書き出すステップ３９４と、ステップ３９４の後、台詞音声テーブル８８の台詞（ｉ）の音声ファイル名を新たなファイル名で更新して処理を終了するステップ３９６とを含む。

ステップ３９６で更新される台詞音声テーブル８８の構成を図２４に示す。図２４を参照して、台詞音声テーブル８８は、台詞番号と、台詞の再生開始時刻と、台詞の再生（発話）時間と、その台詞の音声（台詞音声）が格納された台詞音声データ８６中のファイル名と、再生フラグとを含む。台詞の再生開始時刻は、作成される映画の先頭を所定の時刻とし、その時刻を基準として台詞の再生を開始するように定められる時刻である。再生時間は台詞の再生の継続時間をさす。再生ファイル名は、すでに述べたように台詞音声データ８６中で、台詞音声を格納したファイルのファイル名である。再生フラグは、０であれば映画の再生時に音声を再生することを示し、１であれば再生しないことを示す。この再生フラグは、後述するように音声の重なり（二人以上の登場人物が同時に発話すること）を実現するために用いられる。その手法については後述する。

図２３は、本実施の形態に係るマルチメディア製作システム５０によって作成された映画を再生する再生システムのブロック図である。図２３を参照して、この再生システムは、映像データ６６から映像信号と映像・同期信号と効果音の音声信号とを出力するための映像信号再生部６２０と、映像信号再生部６２０により再生された映像信号を再生して映像を表示するための表示装置６２２と、映像信号再生部６２０が出力する効果音の音声信号を音声に変換して出力するための効果音出力装置６２４と、映像の再生に先立って、台詞音声データ８６及び台詞音声テーブル８８を入力として受け、台詞音声テーブル８８に記憶された各台詞の発話開始時刻及び発話時間に基づいて互いに同じ時間に重なって発話されるべき台詞の組合せを検出し、それらの音声ファイルの音声を合成して新たな音声ファイルを作成して、重なりが検出された台詞の内の１つの音声ファイルと入替え、さらにそれ以外の台詞音声の発話フラグを「１」に更新することによって、同時に発話する台詞音声が統合されるように台詞音声データ８６及び台詞音声テーブル８８を更新するための同時音声統合処理部６３２とを含む。

再生システムはさらに、再生時に映像信号再生部６２０からの同期信号を受け、台詞音声テーブル８８を参照して、同期信号により示される時刻と一致する発話開始時刻の台詞音声であって、かつ対応する再生フラグが「０」であるものを検出して台詞音声データ８６から読出し、再生して音声信号を出力するための同期再生部６３８と、同期再生部６３８の出力する音声信号を音声に変換して出力するための台詞音声出力装置６４０とを含む。

すなわち、この再生システムは、効果音と、台詞音声とを完全に分離して生成し、台詞音声をその発話開始時間の順番にしたがって、順に再生する。そのため、効果音を活かしながら、登場人物の音声と顔画像とをユーザのものに置換した映画を再生できる。

図２４は、前述したとおり、台詞音声テーブル８８の構成を示す。図２５は、図２４に示す台詞音声テーブル８８のうち、発話時間が重なっている台詞（台詞１，２，３）を同時音声統合処理部６３２によって統合した後の台詞音声テーブル８８の構成を示す。

図２５を参照して、台詞音声テーブル８８の構成自体は更新前と同様である。異なっているのは、台詞１の再生時間が７秒から１１秒に増加していること、台詞１の再生ファイル名が「ｗａｖｅ０００１．ｗａｖ」から「ｃｏｍｂ０００１．ｗａｖ」に変更されていること、及び台詞２及び３の再生フラグが「０」から「１」に変更されていることである。これは以下の理由による。

図２４に示す台詞音声テーブル８８において、台詞１の再生開始時刻は０時０分３秒、再生時間が７秒であるから、再生終了時刻は０時０分１０秒である。一方、台詞２の再生開始時刻は０時０分８秒、再生時間は５秒であるから再生終了時刻は０時０分１３秒となる。すると、台詞１の発話時間と台詞２の発話時間とは、一部において互いに重なっている。本実施の形態では、このように互いに発話の時間帯が重なっている台詞については、それらの音声を統合して新たな音声ファイルとし、一方の台詞の音声ファイル（通常は再生開示時間の早い方）の音声ファイルと入替え、その発話時間も新たな音声ファイルの発話時間で更新する。そして、他方の台詞の音声ファイルについては再生フラグを１とする。

図２４に示す例では、台詞１，２、及び３の再生時刻が重なっていたために、これらが統合され、最終的に図２５に示すように台詞１の再生時間が１１秒、台詞２及び台詞３の再生フラグが１（すなわち再生せず）となっている。

図２６は、この同時音声統合処理部６３２を実現するためのプログラムのフローチャートである。図２６を参照して、このプログラムは、処理中の台詞の台詞番号を表す変数Ｘに初期値として０を代入するステップ６６０と、この変数Ｘに１を加算するステップ６６２と、ステップ６６２の処理結果を受け、Ｘ番目の台詞（Ｘ）の台詞音声が存在するか否か（すなわち全ての台詞音声を処理し終わったか否か）を判定し、判定結果に応じて制御を分岐させるステップ６６４とを含む。ステップ６６４では、全ての台詞音声を処理し終わっていれば処理を終了する。

このプログラムはさらに、ステップ６６４において台詞音声（Ｘ）が存在すると判定されたことに応答して実行され、台詞音声テーブル８８のその台詞音声（Ｘ）の再生フラグの値が０か否かを判定し、判定結果に応じて制御を分岐させるステップ６６６を含む。ステップ６６６において再生フラグが０でないと判定された場合、台詞音声（Ｘ）を再生する必要はない。したがってこの場合、制御はステップ６６２に戻り、次の台詞音声の処理に移る。

このプログラムはさらに、ステップ６６６で台詞音声（Ｘ）の発話フラグの値が０であると判定されたことに応答して実行され、台詞音声（Ｘ）と音声が重なっているか否かを判定する台詞音声の台詞番号を示す変数ＹにＸの値を代入するステップ６６８と、ステップ６６８の後、この変数Ｙの値に１を加算するステップ６７０と、ステップ６７０の処理結果を受け、台詞音声（Ｙ）が存在するか否か、すなわち全ての台詞音声について台詞音声（Ｘ）との重なりを調べる処理が完了したか否かを判定し、判定結果にしたがって制御の流れを分岐させるステップ６７２とを含む。ステップ６７２においてＹ番目の台詞が存在していないと判定された場合、制御はステップ６６２に戻る。

このプログラムはさらに、ステップ６７２においてＹ番目の台詞音声が存在すると判定されたことに応答して実行され、台詞音声（Ｙ）の再生フラグの値が０か否かを判定し、判定結果に応じて制御の流れを分岐させるステップ６７４を含む。ステップ６７４で台詞音声（Ｙ）の再生フラグの値が０でないと判定されたときには、制御はステップ６７０に戻り、次の台詞音声に対して台詞音声（Ｘ）との重なりを調べる処理に移る。

このプログラムはさらに、ステップ６７４において台詞音声（Ｙ）の再生フラグの値が０であると判定されたことに応答して実行され、台詞音声テーブル８８に記憶された双方の台詞音声の発話開始時間及び発話時間の値に基づき、台詞（Ｘ）と台詞（Ｙ）との発話時間の少なくとも一部が重なっているか否かを判定し、判定結果に応じて制御を分岐させるステップ６７６を含む。ステップ６７６で発話時間が重なっていないと判定された場合には、制御はステップ６７０に戻る。

このプログラムはさらに、ステップ６７６において台詞（Ｘ）と台詞（Ｙ）との発話時間の少なくとも一部が重なっていると判定されたことに応答して実行され、台詞音声（Ｘ）と台詞音声（Ｙ）とを混合して新たな台詞音声を作成し、台詞音声（Ｘ）として台詞音声データ８６を更新するステップ６７８と、この新たな台詞音声（Ｘ）の発話時間ｔを、重複修正前の台詞音声（Ｘ）の発話時間ｔｘと台詞音声（Ｙ）の発話時間ｔｙとの間で、以下のようにして計算して求め、これを新たな台詞音声（Ｘ）の発話時間ｔｘとして台詞音声テーブル８８を更新するステップ６８０と、ステップ６８０に続き、台詞音声テーブル８８の、台詞音声（Ｙ）の再生フラグの値を「１」に更新し、制御をステップ６７０に戻すステップ６８２とを含む。

図２７は、図２３に示す同期再生部６３８を実現するためのプログラムのフローチャートである。図２７を参照して、このプログラムは、図２３に示す映像信号再生部６２０から与えられる同期信号を読込むステップ７００と、ステップ７００で読込んだ同期信号により示される時刻が、台詞音声テーブル８８に格納されたいずれかの台詞であって、かつその再生フラグが０であるものの発話開始時刻に達したか否かを判定し、判定結果にしたがって制御の流れを分岐させるステップ７０２とを含む。ステップ７０２において、同期信号により示される時刻がいずれの台詞音声の再生開始時間にもなっていないと判定されたときには、制御はステップ７００に戻り、再度、同期信号を読込む。

このプログラムはさらに、ステップ７０２において、同期信号により示される時刻がいずれかの台詞音声の発話開始時刻になったと判定されたことに応答して実行され、その台詞音声の再生を開始し、制御をステップ７００に戻すステップ７０４とを含む。

図２８は、音声信号処理部３２０が実行する音響効果処理のうち、話速変換と音量正規化処理の内容を説明するための図である。

図２８（Ａ）を参照して、話速変換処理とは、台詞の発話時間の基準となる参照音声７２０での発話時間と比較して、収録音声７２２の収録時間が図２８（Ａ）に示されるように短すぎたり、逆に長すぎたりした場合に、この収録音声７２２の話速を変換して参照音声７２０の発話時間と等しい発話時間の補正音声７２４を生成する処理のことである。話速変換には、既存の話速変換技術を使用することができる。

図２８（Ｂ）は、音量正規化を示す。参照音声７４０の平均レベルＬ０と比較して、収録音声７４２の平均レベルＬ１が図２８（Ｂ）に示すように低すぎたり、逆に高すぎたりしたときに、収録音声のレベルを補正して、ほぼ平均レベルＬ０と等しい平均レベルＬ３とするのが音量正規化処理である。このような音量正規化処理は、複数のユーザによって収録される音声の大きさにばらつきがあってはいけなかったり、逆に場面によってはユーザにより音声の大きさに差をつけたりする必要があるために行なわれる。この音量正規化についても、既存の技術を使用することができる。

［コンピュータによる実現］
図２９は、このマルチメディア製作システム５０においてユーザの音声を収録するための台詞音声データ作成部９０のハードウェアの外観図を示す。図２９を参照して、台詞音声データ作成部９０は、実質的にはコンピュータシステム８３０からなる。図３０は、このコンピュータシステム８３０の内部構成を示す。

図２９を参照して、コンピュータシステム８３０は、リムーバブルメモリ用のメモリポート８５２及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＭｅｍｏｒｙ）ドライブ８５０を有するコンピュータ８４０と、文字情報及びコマンド操作の入力を行なうためのキーボード８４６と、ポインティングデバイスであるマウス８４８と、２台のモニタ８４２及び８４４と、２台のマイクロフォン８６８及び８７０と、２組のスピーカセット８７２及び８７４とを含む。これらのうち、モニタ８４４、スピーカセット８７４、及びマイクロフォン８６８は、コンピュータシステム８３０の本体部分と分離して図２９に示すようにユーザの録音用ブースに設置されており、ユーザの台詞音声の録音時にユーザとの入出力インタフェースとして用いられる。

図３０を参照して、コンピュータ８４０は、メモリポート８５２と、ＤＶＤドライブ８５０と、マイクロフォン８６８及び８７０と、スピーカセット８７２及び８７４とに加えて、ＣＰＵ（中央処理装置）８５６と、ＣＰＵ８５６、メモリポート８５２及びＤＶＤドライブ８５０に接続されたバス８６６と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）３５８と、バス８６６に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）８６０と、バス８６６、マイクロフォン８６８及び８７０、並びにスピーカセット８７２及び８７４に接続されるサウンドボード８８４とを含む。

コンピュータ８４０はさらに、他のコンピュータと通信を行なうためのローカルエリアネットワーク（ＬＡＮ）８７６への接続を提供するネットワークインターフェイスカード（ＮＩＣ）８７８を含む。

コンピュータシステム８３０にマルチメディア製作システム５０としての動作を行なわせるための、上記した各種のコンピュータプログラムは、ＤＶＤドライブ８５０又はメモリポート８５２に挿入されるＤＶＤ８６２又はリムーバブルメモリ８６４に記憶され、さらにハードディスク８５４に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ８４０に送信されハードディスク８５４に記憶されてもよい。プログラムは実行の際にＲＡＭ８６０にロードされる。ＤＶＤ８６２から、リムーバブルメモリ８６４から、又はネットワーク８７６を介して、直接にＲＡＭ８６０にプログラムをロードしてもよい。

これらのプログラムは、コンピュータ８４０にこの実施の形態のマルチメディア製作システム５０としての動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ８４０上で動作するオペレーティングシステム（ＯＳ）若しくはサードパーティのプログラム、又はコンピュータ８４０にインストールされる音声処理及び統計モデル処理用の各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られる様に制御されたやり方で適切な機能又は「ツール」を呼出す事により、上記した台詞音声作成装置としての動作を実行する命令のみを含んでいればよい。コンピュータシステム８３０の動作は周知であるので、ここでは繰返さない。

なお、図１に示されるシステムのうち、台詞音声データ作成部９０はユーザごとの収録をするための、いずれもコンピュータシステム８３０と同様の構成の複数のコンピュータシステムと、音声統合部１０４を実現するための１つのコンピュータシステムとを含む。音声統合部１０４を実現するコンピュータシステムも、ハードウェア構成はコンピュータシステム８３０と同様であるが、マイクロフォン及びスピーカ等は必要ない。

また、本実施の形態では、図２３に示す映像・音声再生装置９２のうち、映像信号再生部６２０は１つのコンピュータシステムにより実現され、同時音声統合処理部６３２及び同期再生部６３８はそれとは別の１つのコンピュータシステムにより実現される。

本システムで使用されるコンピュータシステムは、いずれもネットワーク８７６を介して互いに通信を行ない、最終的に映像データ６６、台詞音声データ８６、及び台詞音声テーブル８８を映像・音声再生装置９２のハードディスクに作成し、そこから再生を行なう。

［動作］
以上に構成を説明したマルチメディア製作システム５０は以下のように動作する。

図１を参照して、複数のユーザがマルチメディア製作システム５０を利用するものとして、予め各ユーザには識別情報が割当てられているものとする。また各ユーザには、映画の登場人物の誰と入替わるかが決定されているものとする。

マルチメディア製作システム５０では、予め映像素材ＤＢ７０には映像素材が、台詞情報記憶部７２には台詞情報が、標準音声記憶部７４には各台詞に対し、男性、女性、年齢に応じた標準音声が、カット情報記憶部７６には音響効果情報が、それぞれ格納されている。また、声優音声ＤＢ８０には各台詞を複数の声優がそれぞれ発話したものが台詞別、声優別に格納されているものとする。各声優の音声については、予め音響分析が行なわれており、それぞれの声質を表す音響特徴量が算出されている。また素片ＤＢ８２には、標準音声及び声優音声をセグメンテーションすることによって作成された音声素片が格納されている。各音声素片には、対応する音素の音素ラベルと、音響特徴量と、元の音声の識別子と、発話者の識別子とが付されている。

各ユーザのユーザ情報が、ユーザ情報入力部１００，１００Ａ，…，１００Ｎで入力され、画像処理ＰＣ６２及び複数のキャラクタ音声作成部１０２，１０２Ａ，…，１０２Ｎのうち、対応するものに送られる。

三次元スキャナ群６０は、各ユーザの顔をスキャンし、画像処理ＰＣ６２に３次元スキャンデータを送る。以下、画像処理ＰＣ６２はユーザの３次元スキャンデータを用いてユーザの三次元顔モデルを作成し、さらに任意の角度からの３次元顔画像を作成して映像生成装置６４に与える。映像生成装置６４は、登場人物の顔画像を、画像処理ＰＣ６２で作成されたユーザの顔画像で置換し、映像データ６６として出力する。なお、映像データ６６には、音声との同期をとるための同期信号再生用のデータが含まれている。

一方、複数のキャラクタ音声作成部１０２，１０２Ａ，…，１０２Ｎは、いずれも、以下のようにして対応するユーザの台詞音声を収録し、この収録音声に基づいて、第１の音声生成部３００〜第９の音声生成部３１６を用いてユーザの声を活かした映画用の音声データを作成し、出力する。このときの第１の音声生成部３００〜第９の音声生成部３１６の処理はいずれも同様である。以下では、キャラクタ音声作成部１０２の動作について説明する。

図２を参照して、音声収録部１１４は、ユーザ情報をユーザ情報入力部１００から受信し（図５のステップ１７０）、以後の処理ではこのユーザ情報を用いる。続いて、ユーザに割当てられたキャラクタに関する情報が入力される（図５のステップ１７２）。音声収録部１１４は、入力されたキャラクタの台詞に関する台詞情報を台詞情報記憶部７２から読出し、対応する標準音声を標準音声記憶部７４から、対応する映像がもしあれば映像素材ＤＢ７０から、それぞれ読出す（図５のステップ１７４）。音声収録部１１４はさらに、ユーザ音声テーブル２６０を作成し、全ての台詞情報の録音フラグを０に初期化する。

音声収録部１１４は、続いてタイマをスタートさせ（ステップ１７８）、台詞の収録を開始する。台詞の収録では、発話対象の台詞を選択し（ステップ１８０）、映像と、台詞情報の表示とを行ない（ステップ１８２）、同時に標準音声の再生を開始する。その結果、入出力装置１１２の画面（モニタ８４４の画面）に図７に示すような表示が行なわれる。この後、ユーザが標準音声をまねて、練習としてその発話を行なう（ステップ１８６）。

コンピュータシステム８３０を操作しながらユーザの発話を聞いているアテンダントが、その発話についての練習を終了してよいか否かを判断し（ステップ１８８）、もし練習をさらにする必要があれば（ステップ１８８においてＮＯ）、その発話について再度同じ処理を繰返す操作を行なう。練習を終了してよいと判定されると（ステップ１８８においてＹＥＳ）、再度選択した台詞と、対応する映像とを表示し（ステップ１９０）、プログレスバーの表示を開始し（ステップ１９２）、ユーザの音声を収録する（ステップ１９４）。

もしも収録した音声が正しい内容で、発声内容も明瞭で、発話時間も許容範囲内であれば、アテンダントは収録した音声を音声ファイルとしてユーザ音声記憶部２６２に保存し、図８に構成を示すユーザ音声テーブル２６０の処理中の台詞の行の音声ファイル名の欄にユーザ音声記憶部２６２に保存した音声ファイルの名称を代入し、発話時間の欄にユーザの台詞音声の実際の発話時間（ｔｉ）を代入する（ステップ２００）。さらに音声収録部１１４は、その行の録音フラグを１に更新し（ステップ２０１）、次の台詞を選択する（ステップ２０２）。もしも全ての台詞についてのユーザの台詞音声の収録が完了していれば（ステップ２０４でＹＥＳ）、収録されたユーザの全発話を音素にセグメンテーションして素片化し（ステップ２０６）、各音声素片の音響特徴量を算出して（ステップ２０８）、素片ＤＢ８２に追加する。

もしもステップ２０４でまだ全ての台詞についての台詞音声の収録が終わっていないと判定されると、ステップ２１２でタイマを参照し、予め収録時間として定められていた時間を超過しているか否かを判定する。もしも超過していれば、ステップ２０６に進み、以後は全ての台詞について収録を完了した場合と同様の処理が行なわれる。もしもまだ所定時間に達していいなければ、図５のステップ１８２に戻り、このユーザに対応するキャラクタの次の台詞について、上述した処理を繰返す。

仮にステップ１９８で、収録された音声が好ましくないもの（たとえば内容が本来の発話テキストと著しく異なっているもの、発話が不明瞭なもの、発話時間が許容範囲外のもの）であるとアテンダントが判定したときには、ステップ２１４でその収録音声が破棄される。続いてタイマをチェックすることで、収録のための時間を超過しているか否かを判定する（ステップ２１６）。時間が超過していなければ、処理中の台詞の標準音声による発声（ステップ１８２）からやり直すか、単にユーザによる発話の収録（ステップ１９０）からやり直すかをアテンダントが判定し、判定結果にしたがって指示を入力する。音声収録部１１４は、その指示にしたがって制御を分岐させ（ステップ２２０）、その結果、ステップ１８２又はステップ１９０から処理が再開される。

一方、ステップ２１６ですでに収録に要した時間が、所定の時間を超過していると判定された場合には、ステップ２１８で現在収録中の台詞が必須部分の台詞か否かを判定する。必須部分であれば、この収録は必ずする必要があるため、制御はステップ２２０に進み、アテンダントの判定にしたがって、収録を再開する。もしも必須部分でなければ、収録作業を終了すべきであるから、制御はステップ２０６に進む。以後、全ての台詞の収録が完了したときと同様の動作がステップ２０６，２０８及び２１０で実行される。

こうして、音声収録部１１４によって、図８に示すユーザ音声記憶部２６２には、あるキャラクタの台詞についてのユーザの台詞音声の音声ファイルが格納され、ユーザ音声テーブル２６０には各台詞について、録音できたか否かを示す録音フラグと、ユーザ音声記憶部２６２中の対応する音声ファイルの名称と、ユーザによる発話時間とが記録される。

複数のキャラクタ音声作成部１０２，１０２Ａ，…，１０２Ｎの各々が上記した処理を実行する結果、これらからはそれぞれのキャラクタの台詞音声がユーザ音声ＤＢ１２０（ユーザ音声テーブル２６０とユーザ音声記憶部２６２）の形で出力される。音声統合部１０４は、これら種々のキャラクタのユーザの台詞音声を台詞情報記憶部７２に記憶された台詞情報に基づいて所定の順番で読出せるよう統合し、台詞音声データ８６及び台詞音声テーブル８８を出力する。音声収録部１１４は、このようにして、対象のユーザについての音声の収録が完了すると合成手法決定部１１６に対し、台詞音声の生成を開始するよう指示を出す。

この指示に応答して、対応の合成手法決定部１１６は以下のような処理を実行する。図１０を参照して、ステップ３４０〜ステップ３４４によって、処理すべき台詞のうち、先頭の台詞を選択する。そして、その台詞の台詞番号をキーに、手法リストテーブル７８を検索し、その台詞に対する手法リストＷＬＩＳＴを入手する。

続いてステップ３４８〜３５４の処理により、手法リストＷＬＩＳＴに記載された手法について、先頭から順番に調べ、利用可能な手法で最初に発見された手法を用い、処理対象の台詞をその手法で処理することを決定し、その手法を特定する情報を音声作成部１１８に与え、処理させる。手法リストは必ずその中に利用可能なものがあるように作成するが、仮にない場合でもデフォルトの手法を用いて台詞音声の生成ができるようにしておく。

このようにして処理対象の中の最初の台詞について、ユーザの収録音声に基づいて、音声作成部１１８の第１〜第９の中で、選択された手法に対応するものに対し、台詞音声の生成を指示する。このとき合成手法決定部１１６は、分岐部２８０を制御して、選択された音声生成部にユーザ音声を与え、その出力する台詞音声を選択して出力するように合流部２９２を制御する。こうして、先頭の台詞について台詞音声の生成を開始させると、合成手法決定部１１６は再度ステップ３４２から処理を再開し、次の台詞について台詞音声生成の手法を決定し、対応する音声生成部に台詞音声を生成させる。こうして対象となるキャラクタの台詞について全て台詞音声の生成が完了すると、合成手法決定部１１６の処理は終了である。

図９を参照して、音声作成部１１８は以下のように動作する。分岐部２８０は、合成手法決定部１１６からの指示にしたがい、指定された音声生成部を能動化し、ユーザ音声を与える。第１の音声生成部３００〜第９の音声生成部３１６のうち、能動化されたものは、与えられたユーザ音声に基づき、それぞれの手法を用いて台詞音声を生成する。出力される台詞音声は合流部２９２によって選択され、音声信号処理部３２０に与えられる。

ここで、第１の手法が選択された場合、図９に示す第１の音声生成部３００は、ユーザ音声ＤＢ１２０から台詞音声（ｉ）を読出す（ステップ３８０）。ステップ３８０によってこの処理は終了する。

第２の手法が選択された場合、図９に示す第２の音声生成部３０２は以下のように動作する。図１４を参照して、まず、第２の音声生成部３０２は、ユーザ音声ＤＢ１２０からユーザの台詞音声（ｉ）とその発話時間ｔｉとを読出す（ステップ４１０）。第２の音声生成部３０２は続いて、台詞情報テーブル台詞（ｉ）の発話時間Ｔｉを読出す（ステップ４１２）。さらに、第２の音声生成部３０２は、ステップ４１０で読出した発話時間ｔｉとステップ４１２で読出した発話時間Ｔｉとを用い、ユーザの台詞音声（ｉ）の発話時間がｔｉからＴｉとなるように話速変換を行なう（ステップ４１４）。

第３の手法が選択された場合、図９に示す第３の音声生成部３０４は以下のように動作する。図１５を参照して、第３の音声生成部３０４は、まずユーザ音声ＤＢ１２０のユーザ音声テーブル２６０から録音フラグ（ｉ）を読出す（ステップ４４０）。次に第３の音声生成部３０４は、読出された録音フラグの値が１か否かを判定し、録音フラグが１でないときには標準音声記憶部７４から台詞（ｉ）の標準音声を読出し、台詞音声（ｉ）として出力し、処理を終了する（ステップ４４４）。ステップ４４２において録音フラグが１であると判定された場合には、ユーザ音声ＤＢ１２０から台詞音声（ｉ）と発話時間ｔｉとを読出し（ステップ４４６）、台詞情報記憶部７２に記憶された台詞情報テーブルから台詞（ｉ）の発話時間Ｔｉを読出す（ステップ４４８）。そして、ステップ４４６及び４４８でそれぞれ読出された発話時間ｔｉ及びＴｉを用いて、ユーザの台詞音声（ｉ）の発話時間がＴｉとなるように、話速変換を行なって出力する（ステップ４５０）。

第４の手法が選択された場合、図９に示す第４の音声生成部３０６は以下のように動作する。図１６を参照して、第４の音声生成部３０６は、ユーザ音声ＤＢ１２０のユーザ音声テーブル２６０からｉ番目の台詞音声に対する録音フラグ（ｉ）を読出す（ステップ４７０）。次に、ステップ４７０で読出された録音フラグ（ｉ）の値が１でない場合、声優音声ＤＢ８０中に記憶されている台詞（ｉ）の声優音声のうち、ユーザ音声と最も声質が類似したものを読出して台詞音声（ｉ）として出力する（ステップ４７４）。ステップ４７２において録音フラグが１であると判定されれば、第３の音声生成部３０４は、ユーザ音声ＤＢ１２０から台詞音声（ｉ）と発話時間ｔｉとを読出す（ステップ４７６）。次に、台詞情報記憶部７２の台詞情報テーブルから台詞（ｉ）の発話時間Ｔｉを読出し（ステップ４７８）、発話時間ｔｉ及びＴｉを用い、読出されたユーザの台詞音声（ｉ）の発話時間がｔｉからＴｉとなるように、話速変換を行なって、台詞音声（ｉ）として出力する（ステップ４８０）。

第５の手法が選択された場合、図９に示す第５の音声生成部３０８は以下のように動作する。図１７を参照して、第５の音声生成部３０８は、ユーザ音声ＤＢ１２０から録音フラグ（ｉ）を読出す（ステップ５００）。読出された録音フラグの値が１ではない場合、声優音声ＤＢ８０に格納されている台詞（ｉ）の声優音声のうち、ユーザの声質に最も類似したものを特定し（ステップ５０４）、ステップ５０４で特定された台詞（ｉ）の声優音声を、ユーザ音声の特徴を用いて声質変換し、台詞音声（ｉ）として出力し処理を終了する（ステップ５０６）。ステップ５０２において録音フラグが１である場合、第５の音声生成部３０８は、ユーザ音声ＤＢ１２０から台詞音声（ｉ）と発話時間ｔｉとを読出す（ステップ５０８）。次に、台詞情報記憶部７２の台詞情報テーブルから台詞（ｉ）の発話時間Ｔｉを読出す（ステップ５１０）。最後に、ユーザの台詞音声（ｉ）の発話時間がｔｉからＴｉになるように話速変換を行なって、台詞音声（ｉ）として出力し処理を終了する（ステップ５１２）。

第６の手法が選択された場合、図９に示す第６の音声生成部３１０は以下のように動作する。図１８を参照して、第６の音声生成部３１０は、ユーザ音声ＤＢ１２０から録音フラグ（ｉ）を読出す（ステップ５３０）。この録音フラグの値が１でなければ、台詞（ｉ）、ユーザ音声の特徴量、ユーザの母音の音声素片、素片ＤＢ８２の子音の音声素片を使用して音声合成を行なって台詞音声（ｉ）を生成し出力する（ステップ５３４）。録音フラグ＝１であれば、第６の音声生成部３１０は、ユーザ音声ＤＢ１２０から台詞音声（ｉ）と発話時間ｔｉとを読出す（ステップ５３６）。次に、台詞情報記憶部７２の台詞情報テーブルから台詞（ｉ）の発話時間Ｔｉを読出す（ステップ５３８）。最後に、ユーザの台詞音声（ｉ）の発話時間がｔｉからＴｉとなるようにユーザの台詞音声（ｉ）の話速変換を行なって台詞音声（ｉ）として出力する（ステップ５４０）。

第７の手法が選択された場合、図９に示す第７の音声生成部３１２は以下のように動作する。図１９を参照して、第７の音声生成部３１２は、声優音声ＤＢ８０の台詞（ｉ）の音声の中で、ユーザ音声の声質と最も類似した音声を読出し、台詞音声（ｉ）として出力し、処理を終了する（ステップ５６０）。

第８の手法が選択された場合、第８の音声生成部３１４は以下のように動作する。図２０を参照して、第８の音声生成部３１４は、声優音声ＤＢ８０に記憶されている、台詞（ｉ）の声優音声のうち、ユーザ音声の声質と最もよく類似した音声を特定し読出す（ステップ５８０）。次に、ステップ５８０で読出された音声（ｉ）を、ユーザの発話必須部分の音声の特徴を用いて、ユーザの声質に近い声質に声質変換することにより、ユーザの台詞音声（ｉ）を生成し出力する（ステップ５８２）。

第９の手法が選択された場合、図９に示す第９の音声生成部３１６は以下のように動作する。図２１を参照して、第９の音声生成部３１６は、台詞（ｉ）、ユーザ音声の特徴量、ユーザの母音の音声素片、及び素片ＤＢ８２に記憶された子音の素片を用いて、台詞（ｉ）の音声合成を行ない、台詞音声（ｉ）として出力し処理を終了する（ステップ６００）。

合流部２９２から出力される台詞音声には、いずれも図９に示す音声信号処理部３２０により以下のようにしてカット情報記憶部７６により指定される音響効果が追加される。すなわち、図２２を参照して、音声信号処理部３２０は、合流部２９２の出力する台詞音声（ｉ）に対し、カット情報記憶部７６から台詞（ｉ）の音響効果リストＥＬＩＳＴを読出す（ステップ３８２）。音声信号処理部３２０はさらに、音響効果リストＥＬＩＳＴの要素を順番に調べ、それらの要素により特定される音響効果を台詞音声（ｉ）に全て加え、その後、音響効果が加えられた台詞音声（ｉ）を音声ファイルに書き出す（ステップ３９４）。このとき、音量正規化処理（図２８（Ｂ））等の処理も同時に実行する。音声信号処理部３２０は、この後、台詞音声テーブル８８の台詞（ｉ）の音声ファイル名を新たなファイル名で更新して処理を終了する（ステップ３９６）。

この音声信号処理部３２０の機能により、図２４に示すような台詞音声テーブル８８と、音響効果が加えられた台詞音声データ８６とが生成される。

このようにして、全てのキャラクタの全ての台詞について台詞音声が作成され、それらに対応する台詞音声データ８６と台詞音声テーブル８８とが作成されると、映像データ６６とあわせて映像・音声再生装置９２により映画を再生することができる。このときには、図２３に示す映像信号再生部６２０、同時音声統合処理部６３２、及び同期再生部６３８は以下のように動作する。

最初に、同時音声統合処理部６３２は、図２６に示すような制御構造を持つプログラムにより、互いに重なっている台詞の音声を１つのファイルに統合し、それにあわせて台詞音声テーブル８８の音声ファイル名称を更新し、さらに統合により再生不要となった音声ファイルに対応する再生フラグを１とする処理を実行する。この処理により最終的に再生可能な台詞音声データ８６及び台詞音声テーブル８８が生成される。このときの台詞音声テーブル８８の各台詞の再生開始時刻には、各台詞の再生を開始する時刻が記録されている。

映画の再生が開始されると、映像信号再生部６２０は映像信号と背景音等の効果音を示す音声信号を再生し、表示装置６２２及び効果音出力装置６２４にそれぞれ与える。表示装置６２２はこの映像信号を再生し、映像を表示する。効果音出力装置６２４は効果音の音声信号を音声に変換する。この映画の登場人物の顔画像は、ユーザの顔画像と入替えられている。

一方、映像信号再生部６２０は、映像信号の再生と同期して映像データ中に記録されている同期データに基づいて、同期信号を生成し同期再生部６３８に与える。

同期再生部６３８は、この同期信号を常に監視し、同期信号により表される時刻が台詞音声テーブル８８に記憶されている台詞音声の再生開始時刻と一致すると、その台詞音声を再生し台詞音声出力装置６４０に与える。台詞音声出力装置６４０はこの音声を再生する。台詞音声は、上記したいずれかの手法にしたがって再生又は合成された音声である。この音声は、基本的には各ユーザの音声そのままか、それが話速変換されたものか、又はできるだけユーザの音声の声質に似るように選択され、又は合成された音声である。もちろん、中には標準音声をそのまま再生する場合もあり得るが、台詞の全体を見ると、それぞれのキャラクタの声は、対応するユーザの声質に似たものに感じられる。

［第２の実施の形態］
以下、本発明の第２の実施の形態に係るマルチメディア製作システムの構成及び動作について説明する。この第２の実施の形態に係るシステムは、第１の実施の形態に係るマルチメディア製作システム５０の構成のうち、音声収録部１１４を以下に説明する音声収録部で置き換えた構成を有する。それ以外の部分の構成は、マルチメディア製作システム５０のものと同じである。したがって、以下では第２の実施の形態に係るシステムの音声収録部のみについてその構成及び動作を説明する。

第１の実施の形態では、ユーザ音声収録時には、アシスタントによる補助作業が必要であった。できればそのようなアシスタントの介在なしにユーザの音声を効率よく収録できると好ましい。第２の実施の形態の音声収録部は、アシスタントなしで、ユーザが効率よく映画の登場人物の台詞を効率よく収録できるようにするための種々の機能を備えたものである。そのために本実施の形態では、音声収録部にタッチパネルを使用する。そして、同じ映像を繰返し表示しながらユーザが台詞を繰返して発声し、うまく発声できたと思われる音声のみを収録音声として保存する。

図３１は、第２の実施の形態におけるシステムの音声収録部で使用されるタッチパネル９００の画面とその表示例とを示す模式図である。図３１を参照して、このタッチパネル９００の画面には、音声の収録対象となる映画のシーンが繰返して表示される映像表示領域９０２と、映像表示領域９０２に表示されているシーンでユーザが発話すべき台詞９１４を映像と収録時刻の進行とにあわせて同期して表示するための台詞表示領域９０４と、ユーザにより入力された音声のレベルを示すレベルメータ９０６と、映像の表示とともに、予め準備されている標準音声による台詞の再生を行なうか否かを指定するボイスオーバボタン９１０と、繰返して台詞を発声するユーザが、うまく発声できたと思ったときに押すことにより、直前に収録された音声を保存するようにシステムに指示するために操作するストップボタン９０８とが表示される。映像表示領域９０２の右上には、シーンの進行にあわせた時間情報画像９１２がリアルタイムで表示される。

レベルメータ９０６はユーザにより入力された音声のレベルをバー形式で表示するものである。レベルメータ９０６の各ブロックのうち、下側の複数個のブロックは、適正範囲の音声レベルを緑色で表示するためのものである。上の２つのブロックは、音声レベルが適正範囲を超えたことを赤色で表示するためのものである。レベルメータ９０６の表示を見ることで、ユーザは、自分の発声が適正なレベルか否かをリアルタイムで判定することができる。

ボイスオーバボタン９１０は、映像ファイル９４６の各シーンごとに予め準備された音声ファイルを映像の再生と同時に再生するか否かをシステムに指示するためのものである。このように映像の再生と同時に台詞の再生を行なうことを「ボイスオーバ（ＶＯ）」と呼ぶ。ボイスオーバボタン９１０のうち「ＯＮ」ボタンを押せばボイスオーバフラグがセットされ、「ＯＦＦ」ボタンを押せばボイスオーバフラグがリセットされる。

図３２は、この実施の形態に係るマルチメディア製作システムで使用される音声収録部９３０のブロック図である。図３２を参照して、音声収録部９３０は、タッチパネル９００に加え、映画の映像を複数個のシーンに分割したものをそれぞれ保持した複数個の映像ファイル９４６と、映画の台詞を、映像ファイル９４６の各映像ファイルのシーンに対応して予め分割してテキストファイルとして格納した複数個の台詞ファイル９４８と、映像表示領域９０２に表示される映像の、表示開始からの経過時間を計時するためのタイマ９５０と、ヘッドセット９４４と、ヘッドセット９４４が接続されたサウンドボード８８４と、サウンドボード８８４にヘッドセット９４４から入力された音声信号のレベルを測定し、レベル信号を出力するレベル測定部９５２と、映像ファイル９４６、台詞ファイル９４８、タイマ９５０、及びレベル測定部９５２の出力に接続され、図１に示すような表示画面をリアルタイムで作成しタッチパネル９００に表示させるための表示作成部９３２とを含む。

音声収録部９３０はさらに、タッチパネル９００に対する利用者のタッチ操作を検出して、利用者による命令を判定し対応する命令信号を出力したり、入力された情報を出力したりするＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）部９３６と、サウンドボード８８４がヘッドセット９４４から受信する音声信号に対する録音のための処理をするための録音処理部９４２と、録音処理部９４２により処理される音声信号の直近の所定時間分を記憶するためのリングバッファ９６２と、映画の台詞の音声を、映像ファイル９４６の各映像ファイルのシーンに対応して予め分割して保持する複数の音声ファイル９６０と、音声ファイル９６０のうち、表示作成部９３２によって表示されているシーンに対応するものを読出し、再生してサウンドボード８８４を介してヘッドセット９４４に与え、音声として出力させるための音声再生部９４０とを含む。

音声収録部９３０はさらに、ＧＵＩ部９３６から与えられる信号、タイマ９５０の出力にしたがって、表示作成部９３２、音声再生部９４０及び録音処理部９４２を繰返し制御して音声収録処理を実行し、ストップボタン９０８（図３１参照）が操作されたときに、リングバッファ９６２に記憶されている音声のうち、収録中のシーンの長さに相当する時間分を取出して保存する処理を各台詞に対して実行するための制御部９３８と、制御部９３８により使用される、ボイスオーバがオンかオフかを示すＶＯフラグを記憶するためのＶＯフラグ記憶部９５４と、音声収録の対象となっている利用者が選択する対象となる、映画のキャラクタ情報を記憶するためのキャラクタ情報記憶部９５６と、制御部９３８により保存される音声をシーンごとに記憶する複数の録音ファイル９６４と、ネットワークに対するアクセスを提供するＮＩＣ８７８とを含む。

映像ファイル９４６、台詞ファイル９４８、音声ファイル９６０及び録音ファイル９６４は、本実施の形態ではハードディスクに記憶される。ＶＯフラグ記憶部９５４、キャラクタ情報記憶部９５６、リングバッファ９６２等の領域はＲＡＭ中に設けられる。

制御部９３８、表示作成部９３２、音声再生部９４０及び録音処理部９４２は実質的には一つのマイクロプロセッサにより実行される複数のプロセスによって実現される。これらプロセスは、図３２中には図示しないメモリに記憶された、後述する制御構造を有するプログラムをマイクロプロセッサが実行することにより実現される。これら機能のうち、音声再生部９４０及び録音処理部９４２についてはその構成は周知であるので、ここではそれらについての詳細な説明は行なわない。

図３３は、音声収録部９３０のうち、制御部９３８の機能を実現するためにマイクロプロセッサが実行するプログラムの主要部の制御構造を示すフローチャートである。図３３を参照して、このプログラムは、音声収録部９３０の電源が投入されることにより実行を開始し、所定の初期画面をタッチパネル９００上に表示するステップ１７０を含む。初期画面は図示しないが、映画の中のどのキャラクタを選択するかに関する入力欄、利用者に関する情報の入力欄、音声収録のスタートボタン、及び図３１に示すボイスオーバボタン９１０と同様のボイスオーバボタンを含んでいる。この画面はタッチパネル９００の画面に表示され、ＧＵＩ部９３６を通じて利用者の入力及び指示が制御部９３８に与えられる。

このプログラムはさらに、ステップ１７０に続き、利用者の入力に基づいて利用者に映画のキャラクタを割当て、その情報をキャラクタ情報記憶部９５６に記憶するステップ１７２と、ステップ１７２で利用者に割当てられたキャラクタに応じた台詞（キャラクタ台詞）及び音声と、他のキャラクタと共通に割当てられた台詞及び音声とをＮＩＣ８７８を介してサーバに記憶された、処理対象の映画に関する情報から抽出しキャラクタ情報記憶部９５６、映像ファイル９４６、台詞ファイル９４８、及び音声ファイル９６０に書込むステップ１７４と、ステップ１７４の後、図３２に示す録音ファイル９６４及びリングバッファ９６２を未収録状態に初期化するステップ１７６とを含む。

このプログラムはさらに、ＧＵＩ部９３６の出力に基づいて、収録処理の開始を指示するスタートキー（図示せず）が押されたか否かを判定し、判定結果に応じて制御の流れを分岐させるステップ９７０と、ステップ９７０においてスタートキーが押されていないと判定されたときに実行され、ボイスオーバボタンのいずれかが押されたか否かを判定し、判定結果に応じて制御を分岐させるステップ９７２と、ステップ９７２でボイスオーバボタンが押されたと判定されたときに、ＶＯフラグ記憶部９５４に記憶されたＶＯフラグの値を利用者の指示に応じて更新し、制御をステップ９７０に戻すステップ９７４とを含む。ステップ９７２でボイスオーバボタンが押されていないと判定されたときには制御はステップ９７０にもどる。

このプログラムはさらに、ステップ９７０でスタートボタンが押されたと判定されたことに応答して実行され、最初の映像シーン、台詞、音声を選択し、それぞれ映像ファイル９４６、台詞ファイル９４８、及び音声ファイル９６０から対応するファイルを読出すステップ９７５と、ステップ９７５の後、読出された映像ファイル、台詞ファイル、及び音声ファイルを使用して図３１に示すような表示を行なうことにより、収録対象のシーンを所定時間ごとに繰返し再生する処理を開始させるステップ９７６とを含む。本実施の形態では、所定時間ごとにタッチパネル９００の画面を更新する処理を、図３３に示すものとは別のプログラムスレッドで実行する。

なお、図３１に示す例では、映像表示領域９０２には選択されたシーンの映像がムービーとしてストップボタン９０８が押されるまで繰返し表示される。台詞９１４は、映像の表示が開始されると表示されるが、台詞の進行にあわせて台詞９１４の文字の色を左から順番に変えながら表示される。このためには、いわゆるカラオケで使用されている歌詞表示の技術を使用すればよい。

このプログラムはさらに、ステップ９７６に続いて実行され、録音処理部９４２に指示して利用者の音声をリングバッファ９６２に録音する処理を開始させるステップ９７８と、ステップ９７８に続き、図１に示すボイスオーバボタン９１０のいずれかが押されたか否かを判定するステップ９８０と、ボイスオーバボタン９１０のいずれかが押されたときに実行され、押されたボタンにしたがってＶＯフラグの値を更新するステップ９８２と、ステップ９８０でボイスオーバボタン９１０が押されていないと判定されたときに、ストップボタン９０８が押されたか否かを判定するステップ９８４とを含む。

ステップ９８４でストップボタン９０８が押されていないと判定された場合には制御はステップ９８０に戻る。

このプログラムはさらに、ステップ９８４でストップボタン９０８が押されたと判定されたときに実行され、録音処理部９４２に指示してリングバッファ９６２への追加の録音を終了させるステップ９８８と、ステップ９８８の後、リングバッファ９６２に格納された音声のうち、直前に再生されていたシーンの持続時間に相当する時間分だけさかのぼった部分までを取り出し、録音ファイル９６４としてハードディスクに追加して格納するステップ９９０と、ステップ９９０に続いて再生処理を停止させるステップ９９１と、ステップ９９１に続き、次のシーンを選択するステップ９９２と、ステップ９９２に続き、ステップ９９２で全てのシーンに関する音声の収録が終了したか否かを判定し、終了していない場合にはステップ９７６に制御を分岐させるステップ９９４と、ステップ９９４で全シーンの音声の収録が終了していると判定されたことに応答して、収録された録音ファイル９６４を利用者に関する情報とともにサーバに送信するステップ９９４とを含む。サーバでは、これら音声を素片に分解し、素片ＤＢに組込む。

図３４は、図３２の表示作成部９３２に相当する処理をプロセッサにより実現するための、プロセッサによって実行されるプログラムの制御構造を示すフローチャートである。このプログラムがプロセッサによって実行されるときには、音声収録処理のプロセスとは別プロセスとして実行され、音声収録処理から表示作成処理を終了する指示をプロセッサ間通信によって受けるまで、同じ映像ファイル、台詞ファイル、及び音声ファイルの再生を繰返して実行する。

図３４を参照して、このプログラムは、音声収録処理によって起動され、音声収録処理によって指定された映像ファイル、台詞ファイル、及び音声ファイルをオープンするステップ１１００と、ステップ１１００に続き、映像ファイル及び台詞ファイルの続き（最初の場合には先頭）のレコードを読出すステップ１１０１と、ステップ１１０１に続き、指定された映像ファイルの終わりに達したか否かを判定し、判定結果に応じて制御の流れを分岐させるステップ１１０２と、ステップ１１０２で映像ファイルの終わりに達したと判定されたときに実行され、現在開いている映像ファイル及び台詞ファイルの読出位置を先頭レコードに戻して読出すステップ１１０４と、ステップ１１０２でファイルの終りに達していないと判定された場合、及びステップ１１０４の処理実行後に実行され、ステップ１１０１又はステップ１１０４で読出されたファイル内容に対してデコード等の処理をした上で、映像メモリに映像として書込むステップ１１０６とを含む。

このプログラムはさらに、ステップ１１０６に続き、図３２に示すレベル測定部９５２から出力される、利用者からの音声の音声レベル信号を入力ポートから読むステップ１１１４と、読出した音声レベルにしたがって音声レベルメールの画像を作成し、映像メモリに書込むステップ１１１６と、ステップ１１１６の後、タイマ９５０から時刻情報を読出すステップ１１１８と、ステップ１１１８に続き、読出した時刻情報にしたがって時間情報画像９１２を生成し、映像メモリに書込むステップ１１２０と、映像メモリの内容をタッチパネル９００の表示用フレームメモリに転送するステップ１１２２とを含む。

このプログラムはさらに、ステップ１１２２に続き、ＶＯフラグがセットされているか否かを判定して、判定結果に応じて制御の流れを分岐させるステップ１１３０と、ステップ１１３０でＶＯフラグがセットされていると判定されたときに実行され、音声収録プログラムによって指定された音声ファイルのレコードの続きを読出すステップ１１３２と、ステップ１１３２の結果、読出位置が音声ファイルの終りに到達したか否かを判定し、判定結果に応じて制御を分岐させるステップ１１３４と、ステップ１１３４で読出位置が音声ファイルの終りに到達したと判定されたときに実行され、音声ファイルの読出位置をその先頭位置に戻してその内容を読出すステップ１１３６と、ステップ１１３０、又はステップ１１３６で読出された音声ファイルのレコードをデコードして音声の出力ポートに順次出力する処理を実行し、レコードの終りまでデータを処理すると制御をステップ１１０１に戻すステップ１１３８とを含む。

［動作］
この第２の実施の形態に係る音声収録部９３０は以下のように動作する。音声収録部９３０の電源が投入されると、音声収録部９３０の内部は初期化され、タッチパネル９００の画面には初期画面が表示される（図３３、ステップ１７０）。この初期画面では、利用者へのキャラクタの割当て、ユーザ情報の入力等が行なわれる（ステップ１７２）。利用者にキャラクタが割当てられると、ＮＩＣ８７８を介してサーバをアクセスし、割当てられたキャラクタに関する台詞及び音声、並びに共通の台詞及び音声のファイルをサーバから抽出し、映像ファイル９４６、台詞ファイル９４８、及び音声ファイル９６０として音声収録部９３０内に保存する。

音声収録部９３０はさらに、音声収録部９３０内の録音ファイル９６４及びリングバッファ９６２の内容をクリアし、音声収録部９３０を未収録状態に初期化する（ステップ１７６）。この処理により、収録対象となる音声以外の音声がリングバッファ９６２に残っていたりして、収録対象となる音声を正しく収録できないという事態を避けることができる。

続いて利用者によりスタートボタン又はボイスオーバボタンが押されるまで待機し、ボイスオーバボタンが押されたら押されたボタンにしたがってＶＯフラグ記憶部９５４の値を更新する。スタートボタンが押されると、音声の収録が開始される。

表示作成部９３２は、音声収録の対象となっている映画のうち、最初のシーンを選択し（ステップ９７５）、そのシーンを指定して表示作成処理を開始させる（ステップ９７６）。この処理により、図３４に示す表示作成プログラムの実行が開始される。この表示作成プログラムは音声収録プログラムと並行して実行される。まず、表示作成プログラムにより表示作成処理がどのように行なわれるかを説明する。

図３４を参照して、ステップ１１００で、音声収録処理により指定されたシーンの映像ファイル及び台詞ファイルの先頭のレコードを読出す。ファイルの終りではないので、それらのレコードの内容を画像メモリに書込む（ステップ１１０６）。さらにレベル測定部９５２から利用者の入力音声レベルを示す信号を読み（ステップ１１１４）、その値にしたがってレベルメータ画像を生成し、画像メモリ中の所定位置に書き込む（ステップ１１１６）。続いてタイマの出力を読み（ステップ１１１８）、タイマ画像を生成して画像メモリに書込み、さらに、タイマ出力に応じ、時間が経過した部分までの台詞の文字を、ステップ１１０６と異なる色で画像メモリに書き込む（ステップ１１２０）。ステップ１１２２で画像メモリの内容をタッチパネル９００に転送して画像を表示させる。

続いてＶＯフラグがセットされているか否かを判定し（ステップ１１３０）、セットされていなければ、この繰返し処理が開始してから所定時間が経過するのを待って制御をステップ１１０１に戻す。ＶＯフラグがセットされていれば、処理中のシーンに対応する音声ファイルを読出し（ステップ１１３２〜１１３６）、音声の再生を行なって（ステップ１１３８）からステップ１１０１に制御を戻す。

このように、表示作成処理プログラムは、所定時間ごとに各ファイルの内容を読出し、再生する処理を繰返す。表示作成処理プログラムは、図３３のステップ９９１で再生終了処理が実行されるまで、上記した処理を繰返して実行する。

再び図３３を参照して、ステップ９７８で録音処理部９４２を制御して録音処理を開始する。録音処理部９４２は独立した処理であり、この音声収録処理とは別プロセスで並列に実行を続ける。

このようにして、音声収録処理では、処理対象のシーンの映像が繰返して再生される。その映像においては、台詞がシーンの進行時刻に応じて変化する色で表示され、同時にシーンの進行時刻に関する時刻情報が映像の左上に重ねてリアルタイムで表示される。ＶＯフラグがセットされていれば、そのシーンに対応する台詞が標準的な音声で再生される。ＶＯフラグは、音声収録処理の実行中であれば、いつでもボイスオーバボタン９１０を操作することによりオンにもオフにも設定することができる。また、利用者の音声レベルを示すレベルメータ９０６（図３１参照）が表示されるので、利用者は自分の音声が大きすぎるのか、小さすぎるのかをリアルタイムで把握することができる。

利用者は、このようにして、同じシーンの映像を繰返して再生させながら、そのシーンの台詞を台詞９１４を見ながら行なう。このような繰返しを行なうことにより、利用者には、どのタイミングで、どのような大きさで発声をすればよいかについての感覚をつかむことが容易になり、好ましい発声を行なうことが可能になる。この音声収録処理では、一旦スタートボタンを押すと常に最新の所定時間の利用者の発話が繰返し録音され、リングバッファ９６２に格納される。

利用者が、上記した繰返しの中で、うまく台詞を発音できたと思ったときには、利用者は図３１に示すストップボタン９０８を押す。これに応答して、録音が終了され（ステップ９８８）、リングバッファ９６２に録音されている音声のうち、処理中のシーンに対応する、直前の所定時間の音声がリングバッファ９６２から取り出され、新たな録音ファイル９６４としてハードディスクに追加格納される（ステップ９９０）。

音声収録部９３０は、次のシーンを選択する（ステップ９９２）。全てのシーンに対して音声収録が完了したら（ステップ９９４でＹＥＳ）、録音ファイル９６４の全てを利用者情報とともにサーバに転送して（ステップ９９８）、初期画面を再表示し（ステップ１８０）、次のユーザの処理開始を待つ。次のシーンが残っていれば（ステップ９９４でＮＯ）、そのシーンに対して表示作成処理及び録音処理を開始し（ステップ９７６，９７８）、利用者がストップボタンを押すまで、そのシーンを繰返し表示しながら利用者の発声を繰返し録音する。

このようにして、ある利用者について、全てのシーンに対する台詞の発話を収録することができる。

この実施の形態の音声収録部９３０では、収録のためのアシスタントが不要である。利用者のみで、タッチパネル９００を用いた簡単な操作で全ての台詞を録音することができる。しかもこの場合、上に述べたように同じシーンを繰返して表示しながら、同じ台詞を繰返し発声させるようにすると、そのリズムによって、利用者が容易に適切な発話をすることが可能となる。音声レベルも表示されるため、利用者は適切な音量で発声することができ、録音の失敗を少なくすることができる。シーンの進行に伴い台詞の色を代えて表示したり、画面に時刻情報を表示したりすることによっても発話のタイミングを知ることができ、利用者は、適切な台詞音声の発声を容易に行なうことができる。また、ボイスオーバを行なうこともできるので、利用者は、標準的な発話音声を聞きながら、それにあわせて台詞の発話を行なうことができる。

以上のように、この第２の実施の形態に係る音声収録部９３０では、利用者が適切なタイミングでアシスタントなしに適切な台詞音声の収録を行なうことができるように、様々な補助情報を利用している。それらのうち、あるものについてはオンしたりオフしたりすることができ、利用者にとってもやりやすい形で台詞の音声収録ができる。特に、複数個の補助情報が表示されるので、利用者は自分が最も利用しやすいと思った補助情報を使用して台詞の発声を行なうことができ、失敗が少ないという特徴がある。また、同じシーンの台詞の収録を繰返し行ない、その中で利用者がうまくいったと思う発話を選択して収録できるため、収録の失敗が極めて少ないという特徴がある。また、同じシーンを繰返しながら発話するので、利用者はリズムをつかんで適切な速さ及びタイミングで発話することが容易になるという効果がある。

なお、第２の実施の形態では、利用者が台詞を発話しやすいように複数の補助情報を利用している。この補助情報の組合せは、第２の実施の形態において説明したものに限定されず、第２の実施の形態の説明で利用したもの以外のものを利用してもよいし、一部を利用しないようにしてもよいことはいうまでもない。

なお、上の実施の形態の説明では、ユーザの音声を素片化し、素片ＤＢ８２に追加している。しかし本発明はそのような実施の形態には限定されない。例えば、ユーザの音声のうち、高品質に録音できた台詞音声は、声優音声ＤＢ８０に登録するようにしてもよい。こうすることで、多数のユーザの音声を声優音声ＤＢ８０に追加することが可能になり、さまざまな音声を効率よく収集することが可能になる。

したがって、マルチメディア製作システム５０によって、予め準備された映画の登場人物の顔画像だけでなく、その台詞まで、ユーザの音声に置換えたかのような映画を作成し、上映することができる。その結果、登場人物の台詞が分かっているマルチメディア製作物において、登場人物の音声をユーザの声で容易に短時間で置換することが可能になる。また、登場人物の音声をユーザの声に近い声質で容易に短時間で置換することが可能になる。さらに、登場人物の音声をユーザの声に近い声質で容易に短時間で置換することが可能なように、多数のユーザの声を収集し、それらを音声の置換において利用することが可能になる。

上記した実施の形態は、映画を製作するためのマルチメディア製作システムに本発明を適用したものであった。本発明が適用可能なシステムはこれには限らず、たとえばテレビジョン番組、ラジオドラマ等、一般に台詞を発話するタイミング、その長さ、等が発話者ごとに決まったシナリオにしたがって進行するものであればどのようなものにも適用することができる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

本発明の第１の実施の形態に係るマルチメディア製作システム５０の機能ブロック図である。キャラクタ音声作成部１０２の機能ブロック図である。台詞情報記憶部７２に記憶される台詞情報テーブルの構成を示す図である。録音終了時の台詞音声の録音状態の例を示す図である。図２に示す音声収録部１１４で行なわれる音声収録処理を、コンピュータハードウェア上で実現するコンピュータプログラムの前半部分のフローチャートである。図２に示す音声収録部１１４で行なわれる音声収録処理を、コンピュータハードウェア上で実現するコンピュータプログラムの後半部分のフローチャートである。ユーザ情報入力部１００がユーザの音声収録時に入出力装置１１２の画面上に表示する表示の一例を示す図である。ユーザ音声ＤＢ１２０の構成を示すブロック図である。音声作成部１１８の構成を示す機能ブロック図である図２に示す合成手法決定部１１６で行なわれる音声の生成手法の決定処理を、コンピュータハードウェア上で実現するコンピュータプログラムのフローチャートである。手法リストテーブル７８の構成を示す図である。カット情報記憶部７６に記憶された音響効果リストテーブルの構成を示す模式図である。図９に示す第１の音声生成部３００を実現するプログラムのフローチャートである。図９に示す第２の音声生成部３０２を実現するためのプログラムの制御構造を示すフローチャートである。図９に示す第３の音声生成部３０４を実現するためのプログラムのフローチャートである。図９に示す第４の音声生成部３０６を実現するためのプログラムの制御構造を示すフローチャートである。図９に示す第５の音声生成部３０８を実現するプログラムの制御構造を示すフローチャートである。図９に示す第６の音声生成部３１０を実現するためのプログラムのフローチャートである。図９に示す第７の音声生成部３１２を実現するプログラムの制御構造を示すフローチャートである。図９に示す第８の音声生成部３１４を実現するプログラムの制御構造を示すフローチャートである。図９に示す第９の音声生成部３１６を実現するためのプログラムのフローチャートである。図９に示す音声信号処理部３２０を実現するプログラムのフローチャートである。マルチメディア製作システム５０によって作成された映画を再生する再生システムのブロック図である。台詞音声テーブル８８の例示的構成を模式的に示す図である。図２３に示す同時音声統合処理部６３２による同時音声統合処理後の台詞音声テーブル８８の例示的構成を示す図である。同時音声統合処理部６３２を実現するためのプログラムのフローチャートである。図２３に示す同期再生部６３８を実現するためのプログラムのフローチャートである。音声信号処理部３２０が実行する音響効果処理のうち、話速変換と音量正規化処理の内容を説明するための図である。マルチメディア製作システム５０においてユーザの音声を収録するための台詞音声データ作成部９０を実現するコンピュータ８４０のハードウェア構成の外観図である。コンピュータ８４０の内部構成を示すブロック図である。本発明の第２の実施の形態に係るマルチメディア製作システムにおける音声収録部で使用されるタッチパネル９００の表示形態を模式的に示す図である。第２の実施の形態に係るマルチメディア製作システムで使用される音声収録部９３０の機能ブロック図である。第２の実施の形態に係るマルチメディア製作システムの音声収録部９３０において実行される、音声収録処理を実現するためのプログラムの制御構造を示すフローチャートである。音声収録部９３０において実行される、表示作成処理を実現するためのプログラムの制御構造を示すフローチャートである。

符号の説明

５０マルチメディア製作システム
６０三次元スキャナ群
６２画像処理ＰＣ
６４映像生成装置
６６映像データ
７０映像素材ＤＢ
７２台詞情報記憶部
７４標準音声記憶部
７６カット情報記憶部
７８手法リストテーブル
８０声優音声ＤＢ
８２素片ＤＢ
８６台詞音声データ
８８台詞音声テーブル
９０台詞音声データ作成部
９２映像・音声再生装置
１００〜１００Ｎユーザ情報入力部
１０２〜１０２Ｎキャラクタ音声作成部
１０４音声統合部
１１２入出力装置
１１４，９３０音声収録部
１１６合成手法決定部
１１８音声作成部
１２０ユーザ音声ＤＢ
１２２音声ＤＢ更新部
１２４素片ＤＢ更新部
２８０分岐部
２９２合流部
３００〜３１６第１の音声生成部〜第９の音声生成部
３２０音声信号処理部
６２０映像信号再生部
６２２表示装置
６２４効果音出力装置
６３２同時音声統合処理部
６３８同期再生部
６４０台詞音声出力装置
９００タッチパネル
９０２映像表示領域
９０４台詞表示領域
９０６レベルメータ
９０８ストップボタン
９１０ボイスオーバボタン
９１２時間情報画像
９１４台詞
９３０音声収録部
９３２表示作成部
９３６ＧＵＩ部
９３８制御部
９４０音声再生部
９４２録音処理部
９４４ヘッドセット
９４６映像ファイル
９４８台詞ファイル
９５２レベル測定部
９５４ＶＯフラグ記憶部
９５６キャラクタ情報記憶部
９６０音声ファイル
９６２リングバッファ
９６４録音ファイル

Claims

各々、発話のタイミング、その長さ、及び発話者が予め定められている複数の台詞の音声を作成するための台詞音声作成装置であって、
前記複数の台詞の各々の発話タイミング、発話内容の台詞、及び発話時間を特定する台詞情報を記憶するための台詞情報記憶手段と、
ある発話者に割当てられている台詞の少なくとも一部を当該ある発話者に発話させ、その発話音声を収録するための発話音声収録手段と、
前記発話音声収録手段により収録された発話音声に基づき、前記ある発話者に割当てられている台詞の全てについて、発話のタイミング及びその長さが前記台詞情報記憶手段に記憶された前記台詞情報に合致するように台詞音声を作成するための台詞音声作成手段とを含み、
前記台詞音声作成手段は、
各々、前記発話音声収録手段により収録された前記発話音声に基づいて、発話のタイミング及びその長さが前記台詞情報による指定と合致するように前記ある発話者の台詞音声を生成するための複数の台詞音声生成手段と、
前記複数の台詞の各々について、前記複数の台詞音声生成手段について台詞ごとに予め定められた優先順位と、前記発話音声収録手段により発話音声が収録されたか否かにしたがって、前記複数の台詞音声生成手段のいずれかを選択して台詞音声を生成するための選択手段とを含み、
前記複数の台詞音声生成手段は、
前記発話音声収録手段により収録された前記発話音声を、発話のタイミング及びその長さが前記台詞情報記憶手段に記憶された前記台詞情報による指定と合致するように加工して、対応する台詞の台詞音声を生成するための台詞音声加工手段と、
前記台詞の少なくとも一部の発話音声に基づき、任意の台詞について、前記ある発話者の音声ではなく、前記ある発話者の音声と類似した声質の台詞音声を生成するための手段とを含む、台詞音声作成装置。
前記複数の台詞の各々について、対応する台詞音声に加えるべき音響効果を指定する音響効果情報を記憶するための音響効果情報記憶手段と、
前記台詞音声作成手段により作成された前記台詞音声の各々に対し、前記音響効果情報記憶手段に記憶された音響効果情報により指定される音響効果を実現するための音響処理を行なうための音響処理手段とをさらに含む、請求項１に記載の台詞音声作成装置。
前記台詞音声作成手段により、複数の発話者の各々に対して作成された台詞音声を、前記台詞情報記憶手段に記憶された台詞情報にしたがったタイミングで順番に再生するための音声再生手段をさらに含む、請求項１又は請求項２に記載の台詞音声作成装置。
前記発話音声収録手段は、
表示装置一体型のタッチパネルと、
各台詞が発話される場面の映像を、台詞ごとに、台詞とともに前記タッチパネル上に繰返し再生して表示するための表示手段と、
発話者の直前の所定時間分の発話音声を録音するための発話録音手段と、
発話者による録音停止の指示に応答して、前記発話録音手段を停止させ、前記発話録音手段により録音された発話音声のうち、前記指示の直前に録音された、前記映像の持続時間分の録音音声を、当該映像に対応する台詞に対する前記発話者の発話音声として保存するための保存手段と、
前記表示手段、前記発話録音手段、及び前記保存手段を、対象となる台詞を順次変えながら繰返して動作するように制御するための繰返し制御手段とを含む、請求項１〜請求項３のいずれかに記載の台詞音声作成装置。
前記発話音声収録手段はさらに、前記表示手段による映像の表示時に、発話者が発話音声のタイミングを定めるための補助となるタイミング補助情報を前記映像に重畳して表示するためのタイミング補助情報重畳手段を含む、請求項４に記載の発話音声収録装置。
前記発話音声収録手段はさらに、
前記複数の台詞ごとに、予め録音された音声を記憶するための音声記憶手段と、
前記表示手段による映像の表示ごとに、表示される映像に対応する台詞の音声を前記音声記憶手段から読出し、前記映像の表示に同期して再生するための音声再生手段とを含む、請求項４又は請求項５に記載の発話音声収録装置。
前記発話音声収録手段はさらに、
発話者の発話時の音声レベルを測定するための音声レベル測定手段と、
前記音声レベル測定手段により測定された音声レベルを示す補助情報を前記表示手段による映像の表示に重畳して表示するための音声レベル補助情報重畳手段とを含む、請求項４〜請求項６のいずれかに記載の発話音声収録装置。
コンピュータにより実行されると、当該コンピュータを、
複数の台詞の各々の発話タイミング、発話内容の台詞、及び発話時間を特定する台詞情報を記憶するための台詞情報記憶手段と、
ある発話者に割当てられている台詞の少なくとも一部を当該ある発話者に発話させ、その発話音声を収録するための発話音声収録手段と、
前記発話音声収録手段により収録された発話音声に基づき、前記ある発話者に割当てられている台詞の全てについて、発話のタイミング及びその長さが前記台詞情報に合致するように台詞音声を作成するための台詞音声作成手段として機能させる、コンピュータプログラムであって、
前記台詞音声作成手段は、
各々、前記発話音声収録手段により収録された前記発話音声に基づいて、発話のタイミング及びその長さが前記台詞情報による指定と合致するように前記ある発話者の台詞音声を生成するための複数の台詞音声生成手段と、
前記複数の台詞の各々について、前記複数の台詞音声生成手段について台詞ごとに予め定められた優先順位と、前記発話音声収録手段により発話音声が収録されたか否かにしたがって、前記複数の台詞音声生成手段のいずれかを選択して台詞音声を生成するための選択手段とを含み、
前記複数の台詞音声生成手段は、
前記発話音声収録手段により収録された前記発話音声を、発話のタイミング及びその長さが前記台詞情報記憶手段に記憶された前記台詞情報による指定と合致するように加工して、対応する台詞の台詞音声を生成するための台詞音声加工手段と、
前記台詞の少なくとも一部の発話音声に基づき、任意の台詞について、前記ある発話者の音声ではなく、前記ある発話者の音声と類似した声質の台詞音声を生成するための手段とを含む、コンピュータプログラム。