JP6170604B1

JP6170604B1 - 音声生成装置

Info

Publication number: JP6170604B1
Application number: JP2016183211A
Authority: JP
Inventors: 善樹山東
Original assignee: Capcom Co Ltd
Current assignee: Capcom Co Ltd
Priority date: 2016-09-20
Filing date: 2016-09-20
Publication date: 2017-07-26
Anticipated expiration: 2036-09-20
Also published as: JP2018049069A

Abstract

【課題】自由度の高い内容の音声を表情豊かに生成できる音声再生装置を提供する。【解決手段】複数のテキストデータを記憶するテキスト記憶部、複数の録音音声を記憶する録音音声記憶部、選択されたテキストデータを音声信号に合成する音声合成部、録音音声を記憶部から読み出す録音音声読出部、および、音声信号を再生する音声再生部を備える。録音音声読出部は、音声合成部が合成音声の生成に要する時間を推定し、この推定された時間分の録音音声を前音声として読み出す。音声再生部は、音声合成部が合成音声を生成している間に前音声を再生し、その後合成音声を再生する。録音音声は、テキストデータの感情を表情豊かに表現した人声などからなる。【選択図】図７

Description

この発明は、テキストに基づいて合成された音声を含む音声を再生する音声生成装置に関する。

ビデオゲームなどで、場面に応じた音声を生成(generate)する場合、テキストデータに基いて音声波形を合成する音声合成（特許文献１参照）や、予め録音しておいた音声を再生する音声再生などが用いられる。

特開２００１−０３４２８２

音声合成は、どのような文でもテキストデータに基いて音声を合成できるため、自由度が高く、臨機応変な文の音声化が可能である。その反面、音声信号波形の合成に時間が掛かるため、即座の音声の生成ができない。また、人工的に合成された音声波形であるため単調で感情表現が十分できないという欠点がある。

一方、録音音声の再生は、メモリから音声データを読みだすだけで再生できるため、即座の再生が可能であるとともに、録音音声として感情を込めた音を録音しておけば、感情豊かな表情のある音声の生成が可能である。その一方で、予め録音された音声しか再生できないため、自由度が低く臨機応変な内容を生成できないという欠点がある。

この発明の目的は、自由度の高い内容の音声を表情豊かに生成できる音声再生装置を提供することにある。

本発明の音声生成装置は、仮想的な話者であるキャラクタを表示する表示部と、ユーザからの入力を受け付ける操作部と、操作部に入力された語句を記憶する語句記憶部と、テキストデータを作成し、該作成されたテキストデータに基づいて音声信号を合成して合成音声を生成する音声合成部と、音声信号である録音音声を記憶部に予め記憶する録音音声記憶部と、録音音声を、記憶部から読み出す録音音声読出部と、キャラクタが発する音声として、音声信号および録音音声を再生する音声再生部と、を備える。音声合成部は、語句記憶部に記憶されている語句を含むテキストデータを作成し、録音音声読出部は、音声合成部が合成音声の生成に要する時間を推定し、この推定された時間に応じた録音音声を前音声として読み出す。音声再生部は、音声合成部が合成音声を生成している間に前音声を再生する。音声再生部が前音声の再生を終了したとき、音声合成部による合成音声の生成が完了していなかった場合、録音音声読出部は、さらに録音音声を追加前音声として読み出し、音声再生部は、音声合成部が合成音声を生成している間に該追加前音声を再生し、そののち合成音声を再生する。

上記発明において、録音音声読出部が、推定された合成音声の生成に要する時間に応じて複数の録音音声を前音声として読み出し、音声再生部は音声合成部が前記合成音声を成している間に複数の前音声を順次再生してもよい。また、この場合に、録音音声読出部は、複数の前音声として同一の録音音声を繰り返し読み出してもよい。

上記発明において、複数のテキストデータをカテゴリ別に記憶するテキスト記憶部をさらに備え、録音音声記憶部が複数の録音音声をカテゴリ別に記憶してもよい。音声合成部は、テキスト記憶部に記憶されている複数のテキストデータからテキストデータを選択して音声信号を合成し、音声読出部は、テキストデータと同じまたは類似のカテゴリの録音音声を選択して読み出すようにしてもよい。

上記発明において、音声合成部、録音音声記憶部、録音音声読出部および音声再生部はビデオゲームを実行する制御部によって実現されてもよい。そして、テキストデータは、ゲーム上のキャラクタがユーザに対して発声する会話文であり、キャラクタにはゲームの進行に応じて変化する連続的または段階的な感情パラメータが設定され、カテゴリはキャラクタの感情パラメータに基づいて設定されてもよい。

この発明によれば、テキストデータに基づく自由度の高い音声を録音音声で表情づけして生成することが可能になる。

本発明の実施形態である音声生成装置のブロック図である。音声生成装置による音声生成の手順を説明する図である。ゲーム装置のブロック図である。ゲーム装置のメモリ構成図である。ゲーム装置で実行されるゲームの進行手順を説明する図である。ゲーム装置制御部のゲームにおける会話処理を示すフローチャートである。長い会話文に対応した会話処理を示すフローチャートである。長い文の音声を分割して生成する場合の音声生成の手順を説明する図である。

図面を参照してこの発明の実施形態である音声生成装置(generator)１００について説明する。図１は音声生成装置１００の機能ブロック図である。図２は、音声生成装置１００による音声生成の手順を示す図である。この音声生成装置１００は、テキストデータ（以下、単にテキストと呼ぶ。）１１０に基いて音声データを合成(synthesize)する音声合成部１０１、および、音声データを再生(playback)する音声再生部１０４を備えている。

音声再生部１０４は、予め録音された音声データ（録音音声）１１１、および、音声合成部１０１が合成した音声データ（合成音声）１１２の両方を再生する。音声合成部１０１がテキスト１１０に基づく音声を合成するとき、音声再生部１０４が、図２に示すように、その合成音声１１２を再生する前後に、予め録音されていた録音音声１１１（前音声１１１Ａ、後音声１１１Ｂ）を再生する。

録音音声は、たとえば声優などが表情豊かに発声した音声（生声）である。これにより、人工的に合成されて表情が乏しい合成音声１１２を録音音声で補完することができる。

音声合成部１０１に供給されるテキスト１１０は、例えば、何らかの感情（例えば喜びや驚き）を伴ったものである。録音音声メモリ１０３には、種々の感情に対応し、その感情を表現する複数の録音音声が記憶されている。前音声１１１Ａおよび後音声１１１Ｂは、供給されるテキストの感情と同じような感情を表現するもの（同じようなカテゴリに分類されるもの（図４参照））が選択される。

テキスト１１０を音声合成して出力するプロセスがスタートすると、まず、前音声１１１Ａがメモリ１０３から読み出され、これを音声再生部１０４で再生する。前音声１１１Ａが再生されている間に、音声合成部１０１は、供給されたテキスト１１０を音声化（音声合成）する。音声合成部１０１によって合成された合成音声１１２は合成バッファ１０２に記憶され、前音声１１１Ａの再生が終了したのち、前音声１１１Ａに続いて再生される。合成音声１１２の再生中に後音声１１１Ｂが読み出される。合成音声１１２の再生が終了すると、音声再生部１０４は、これに続けて後音声１１１Ｂを再生する。

後音声１１１Ｂも前音声１１１Ａと同様に、メモリ１０３に記憶されている録音音声１１１のなかから、音声合成部１０１に供給されるテキスト１１０（音声合成部１０１で合成された合成音声１１２）に対応するものが選択される。なお、後音声１１１Ｂのメモリ１０３からの読み出しは、前音声１１１Ａの読み出しと同時に行われてもよい。

後音声１１１Ｂは前音声１１１Ａとは別のものが選択されるのが好ましいが、同じものであってもよい。前音声１１１Ａと合成音声１１２との間、および、合成音声１１２と後音声１１１Ｂとの間は、完全に連続していてもいなくてもよいが、ユーザが聴覚的に一連の発声として聞こえる程度の間隔（たとえば１秒以内）で連続して再生されることが好ましい。図２に示した前音声１１１Ａ、後音声１１１Ｂは、両方再生されてもよいが前音声１１１Ａのみでもよい。

図１、図２に説明した音声生成装置１００は、音声を合成する種々の装置に適用可能である。例えば、ビデオゲームにおけるキャラクタの会話音声の生成に用いてもよい。以下、音声生成装置１００の適用例として携帯ゲーム機およびこの携帯ゲーム装置で実行されるゲームについて説明する。

以下一例として説明するゲームは、ゲーム中のキャラクタ（女の子）とユーザ（ゲームのプレイヤ）が会話をしながら、キャラクタ（ＡＩ）の知識を増やしてゆく育成ゲームである。キャラクタは、ユーザと会話する言葉を発する。この言葉の生成機能を上述の音声生成装置１００が担当する。

図３は、上記音声生成装置１００の機能がプログラムとの協働で実現されるゲーム装置１のブロック図である。図４において、ゲーム装置１は、バス２６上に、制御部２０、操作部３０、ゲームメディアインタフェース３１、ＳＤカードインタフェース３２、無線通信回路部３３およびマイクインタフェース３４を有している。制御部２０は、ＣＰＵ２１、ＲＯＭ（フラッシュメモリ）２２、ＲＡＭ２３、画像プロセッサ２４および音声プロセッサ２５を含んでいる。

画像プロセッサ２４には、ビデオＲＡＭ（ＶＲＡＭ）４０が接続され、ＶＲＡＭ４０には表示部４１が接続されている。表示部４１は、上述の上部ディスプレイ１０および下部ディスプレイ１１を含む。音声プロセッサ２５には、Ｄ／Ａコンバータを含むアンプ４２が接続され、アンプ４２にはスピーカ１６およびイヤホン端子１７が接続されている。

操作部３０は、上述のタッチパネル１２、ボタン群１３およびスライドパッド１４を含み、それぞれユーザの操作を受け付けて、その操作内容に応じた操作信号を発生する。この操作信号はＣＰＵ２１によって読み取られる。マイクインタフェース３４は、Ａ／Ｄコンバータを内蔵している。マイクインタフェース３４には、マイク１８が接続されている。マイクインタフェース３４は、マイク１８が集音した音声をデジタル信号に返還して制御部２０に入力する。

ゲームメディアインタフェース３１はメディアスロット３１Ａを含み、メディアスロット３１Ａにセットされたゲームメディア５に対するリード／ライトを行う。ゲームメディア５は、専用の半導体メモリであり、内部にゲームデータおよびゲームプログラムが記憶されている。ゲームデータは、キャラクタが話す会話文のテキスト１１０、および、前音声、後音声として用いられる録音音声１１１などを含んでいる。また、ゲームメディア５は、ゲーム履歴データ記憶エリア５０を有している。

ゲーム履歴データは、ユーザがこのゲームにおいて入力した語句などを含む。ゲームが一旦終了されたとき、そのときのゲームの状態を示すゲーム履歴データがＲＡＭ２３からゲーム履歴データ記憶エリア５０に保存される。その後、ゲームが再開されるとき、ゲーム履歴データ記憶エリア５０からＲＡＭ２３に転送される。なお、ゲームメディア５は、専用の半導体メモリに限定されず、汎用の半導体メモリ、光ディスクなどでも構わない。

ＳＤカードインタフェース３２にはＳＤカード６が接続される。ＳＤカード６は、マイクロＳＤカードであり、下部筐体１Ｂに内蔵されている。ＳＤカード６には、ダウンロードされたゲームプログラムなどが記憶される。

ＲＡＭ２３には、ゲームメディア５から読み込まれたゲームプログラムおよびゲームデータを記憶するロードエリア、および、ＣＰＵ２１がゲームプログラムを実行する際に使用されるワークエリアが設定される。したがって、ＲＡＭ２３には、会話文テキスト１１０や録音音声１１１を記憶する記憶エリア６１や、初期設定やキャラクタとの会話においてユーザが入力した語句を記憶する入力語句記憶エリア６０が設けられている。また、図１の合成音声バッファ１０２もＲＡＭ２３内に設けられる。ＲＯＭ２２は、フラッシュメモリで構成され、ゲーム装置１がゲームメディア５からゲームプログラムを読み込んでゲームを実行するための基本プログラムが設定される。

画像プロセッサ２４は、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ，グラフィックス・プロセッシング・ユニット）を有し、上述の上部ディスプレイ１０に表示されるキャラクタの画像や下部ディスプレイ１１に表示される文字パネルの画像などを形成しＶＲＡＭ４０上に描画する。

音声プロセッサ２５は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ，デジタル・シグナル・プロセッサ）を有し、ゲーム音声を生成する。このゲームにおいて、ゲーム音声には、キャラクタがユーザと会話する音声が含まれており、図１に示した音声生成装置１００は、ゲーム装置１の制御部２０（特に音声プロセッサ２５）およびゲームプログラムの協働によって実現される。アンプ４２は、音声プロセッサ２５によって音声信号を増幅してスピーカ１６およびイヤホン端子１７に出力する。

無線通信回路部３３は、２．４ＧＨｚ帯のデジタル通信回路を備えており、無線アクセスポイントを介したインターネット通信を行うとともに、直接他のゲーム装置１と通信を行う。無線通信回路部３３は、インターネット通信を行う場合にはＩＥＥＥ８０２．１１ｇ（いわゆるＷｉ−Ｆｉ）規格で通信を行い、ローカル通信を行う場合にはＩＥＥＥ８０２．１１ｂ規格のアドホックモードまたは独自の規格で通信を行う。

なお、図１の音声合成部１０１および音声再生部１０４は、制御部２０とゲームプログラムとの協働で実現される。

図４は、ゲームデータの一部である会話文のテキスト１１０と録音音声１１１の記憶形態を説明する図である。図４（Ａ）は、テキスト１１０および録音音声１１１の記憶エリア６１の構成を示す図である。記憶エリア６１は、複数のカテゴリに区分され、各カテゴリは複数のサブカテゴリに区分されている。

カテゴリは、たとえば、「よろこび」、「通常」、「ドッキリ」などの大雑把な感情の分類である。サブカテゴリは、カテゴリ（大雑把な感情）中の具体的な感情を表している。たとえば、「よろこび」カテゴリは、「うれしい」、「満足」、「しあわせ」、「気楽」、「リラックス」などのサブカテゴリを含んでいる。また、「通常」カテゴリは、「確認」、「否定」、「思いつき」、「ひとりごと」などのサブカテゴリを含んでいる。

各サブカテゴリに、１または複数の会話文のテキスト（会話文データ）、および、１または複数の録音音声が記憶される。所定の会話のタイミングにゲームの進行状況に応じたカテゴリおよび会話文１１０が選択され、このカテゴリに対応する録音音声が前音声１１１Ａ、後音声１１１Ｂとして選択される。

図４（Ｂ）は、音声生成データ記憶領域の一部の具体例を示した図である。この図は、「よろこび」カテゴリの記憶エリアの例を示した図である。「よろこび」カテゴリには「うれしい」、「満足」、「しあわせ」、「気楽」、「リラックス」のサブカテゴリを含み、それぞれのサブカテゴリ領域には１または複数の会話文および録音音声が記憶されている。

会話文としては、「○○をもらってうれしいです。」や「○○おいしそう。」などの文が記憶される。文中の「○○」は空欄を示し、この箇所にユーザによって入力された語句が当てはめられる。

録音音声としては「うわ〜」、「わーい」、「やった！」など「うれしい」の感情を表現する短い音声が記憶される。この記憶されている会話文および録音音声に基づいて「うわ〜、プレゼントをもらってうれしいです。やった！」などのキャラクタの発言が生成される。

また、記憶された一部または全部の録音音声を複数のカテゴリに共通のものとしてもよい。たとえば、「え〜」、「う〜ん」、「あ〜」などの会話の間をつなぐ言葉または「ははは」「うふ」「キャ」などの笑い声などを共通の録音音声として記憶してもよい。これらの録音音声が、全てのカテゴリで共通に用いられてもよく、一部の（複数の）カテゴリで共通に用いられてもよい。

また、同じ言葉、たとえば「う〜ん」などが複数のカテゴリで用いられる場合、各カテゴリ毎に録音音声として記憶されてもよい。この場合、それぞれそのカテゴリに応じた表情づけで発音されたものが録音されればよい。

なお、制御部２０は、会話文への語句の当てはめを、意味を考慮せずにランダムに行ってもよい。たとえば、「え〜、そのゲームって美味しそうですね。う〜ん。」などの通常とは異なる用法で入力語句が使用されてもよい。このゲームでは、この語句の間違った用法により、キャラクタの可愛さや学習レベルを演出している。

また、制御部２０は、キャラクタに「え〜、そのゲームって美味しそうですね。う〜ん。」との会話をさせたあと、たとえば、「ゲームってどんな味ですか？」とユーザに質問させる。このとき、ユーザが「ゲームは食べ物ではない。」と返答をすると、制御部２０は、ゲームが食べ物ではないことを記憶する（学習する）。制御部２０は、質問と並行して複数の回答用選択肢を表示し、ユーザに適当な選択肢を選択させることで、ユーザの返答を得るようにしてもよい。なお、制御部２０（キャラクタ）の学習については後述する。

また、会話文中に設けられる空欄は複数であってもよい。たとえば、「○○さんは、△△が好きなんですか？」などである。○○、△△のところに、たとえばユーザの名前やユーザによって登録された語句が当てはめられる。

図５はゲーム装置１の制御部２０およびユーザによって行われる会話の順序・流れを示す図である。ゲームのスタート時に、ユーザがゲーム装置１に対してプロファイルや好みを登録する（Ｓ１００）。そして、入力された内容を制御部２０が入力語句記憶エリア６０に記憶する（Ｓ１０１）。

その後、ユーザとキャラクタがゲーム中で一緒に旅に出るゲームを開始させる（Ｓ１１０）。そして、制御部２０は、旅の途中の場面ごとにキャラクタとユーザが会話するイベントを実行する（Ｓ１２０）。

会話は以下の手順で行われる。まず、制御部２０はキャラクタがユーザに質問するイベントを実行させ（Ｓ１２１）、これに対するユーザの回答を受け付ける（Ｓ１２２）。

キャラクタは、ユーザによって登録された語句を会話文に当てはめることで会話を行う。これに対するユーザの会話の入力は、下画面に表示される文字パレットで文字を選択することで行われる。

制御部２０は、ユーザによって入力された回答を記憶し、その内容（質問に対する回答）を更新（学習）する。この会話イベントを繰り返すことで、入力語句記憶エリア６０に記憶される語句が増加し、且つ、その語句の属性（意味）を蓄積する。これにより、キャラクタが成長する様子を表現することができる。

図６は、キャラクタの発言を作成する制御部２０の動作を示すフローチャートである。この処理は、定期的なトリガに応じて実行される。まず、現在のゲームの状況を判断する（Ｓ１０）。このゲームの状況に基いて今が会話タイミングか否かを決定する（Ｓ１１）。タイミングでない場合には（Ｓ１１でＮＯ）そのまま動作を終了する。

会話のタイミングであると判断された場合は（Ｓ１１でＹＥＳ）、現在のゲームの状況に基づき生成する会話のカテゴリや会話文を選択する（Ｓ１２）。なお、このカテゴリ、会話文の選択はランダムに行われてもよい。

次に、選択された会話文の空欄に当てはめる語句を入力語句記憶エリア６０から選択する（Ｓ１３）。これで会話文のテキスト１１０が完成する。そして、この会話文と同じカテゴリに分類されている録音音声１１１のなかから、前音声１１１Ａおよび後音声１１１Ｂを選択する（Ｓ１４）。

完成した会話文のテキストを音声合成部１０１に出力して音声データの合成を指示するとともに（Ｓ１５）、前音声１１１Ａを音声再生部１０４に入力して再生させる（Ｓ１６）。前音声１１１Ａの再生は１〜２秒程度継続し、この間に音声合成部１０１は会話文の音声を合成する。

前音声１１１Ａの再生が終了すると（Ｓ１７）、音声合成部１０１によって合成された合成音声１１２を音声再生部１０４に再生させる（Ｓ１８）。合成音声１１２の再生が終了すると（Ｓ１９）、後音声１１１Ｂを音声再生部１０４に再生させる（Ｓ２０）。この再生とともに、ユーザによる回答の入力を受け付ける（Ｓ２１）。入力された回答の語句を入力語句記憶エリア６０に記憶する（Ｓ２２）。

上の実施形態では、図２、図６に示したように、会話文（合成音声）１１２の前後に録音音声１１１（前音声１１１Ａ、後音声１１１Ｂ）を付加した、すなわち、会話文を録音音声で挟んだ。これに代えて、会話文の前のみに録音音声を付加するようにしてもよい。

会話文のテキストが長い場合には、前音声１１１Ａを長くすればよい。ただし、録音音声は、たとえば「うわ〜」、「わーい」、「やった！」などの短い音声が多いため、前音声１１１Ａを長くする場合には、複数の録音音声を組み合わせたり、同じ録音音声を繰り返したものを前音声１１１Ａとして再生すればよい。たとえば、「わーい、やった、やった！」などである。

また、前音声１１１Ａの再生が終了したときに、会話文の音声合成が完了していなかった場合、前音声１１１Ａを追加して再生してもよい。この場合、先に再生した前音声１１１Ａを繰り返してもよく、新たな前音声１１１Ａを選択してもよい。

図７は、会話文の音声合成の所要時間に応じて前音声１１１Ａの長さを調整する場合の制御部２０の動作を示すフローチャートである。この処理は、定期的なトリガに応じて実行される。まず、現在のゲームの状況を判断する（Ｓ３０）。このゲームの状況に基いて今が会話タイミングか否かを決定する（Ｓ３１）。タイミングでない場合には（Ｓ３１でＮＯ）そのまま動作を終了する。

会話のタイミングであると判断された場合は（Ｓ３１でＹＥＳ）、現在のゲームの状況に基づき生成する会話のカテゴリや会話文を選択する（Ｓ３２）。次に、選択された会話文の空欄に当てはめる語句を入力語句記憶領域６０から選択する（Ｓ３３）。これで会話文のテキストが完成する。完成した会話文のテキストを音声合成部１０１に出力して音声データの合成を指示する（Ｓ３４）。制御部２０は、会話文の長さ等に基づいて音声合成に必要な時間を推定する（Ｓ３５）。推定された合成時間に基づいて、前音声１１１Ａとする録音音声を１または複数選択し、および／または、選択した録音音声の繰り返し回数を設定する（Ｓ３６）。前音声１１１Ａは、会話文と同じカテゴリに分類されている録音音声のなかから選択されればよい。選択された録音音声を設定された回数再生するように音声再生部１０４に指示する（Ｓ３７）。これにより、音声再生部１０４は前音声１１１Ａの再生を開始する。

音声合成に必要な時間は、テキストの文字数、合成エンジンの能力、他の実行中のゲーム処理の負荷等に基づいて推定される。時間の指標は、秒（ミリ秒）にかぎらず、映像フレーム数やＣＰＵ２１の処理スロット数などの値で算出されればよい。

Ｓ３９で前音声１１１Ａの再生が終了するまで待機する（Ｓ３８）。前音声の再生が終了すると（Ｓ３８でＹＥＳ）、音声合成部１０１による音声合成が完了しているかを判断する（Ｓ３９）。音声合成が完了している場合には（Ｓ３９でＹＥＳ）、音声再生部１０４に対して合成音声の再生を指示する（Ｓ４１）。

一方、Ｓ３５で推定した以上に音声合成に時間が掛かり、前音声１１１Ａの再生が終了しても音声合成が完了していない場合には（Ｓ３９でＮＯ）、再生が終了した前音声１１１Ａを再度再生するよう音声再生部１０４に指示し（Ｓ４０）、Ｓ３８に戻る。なお、このとき新たな録音音声を再度選択および読み出して再生してもよい。

処理がＳ４１に進んだ場合、合成音声の再生が終了するまでに後音声１１１Ｂを選択する（Ｓ４２）。なお、後音声の選択は、Ｓ３２以後、合成音声の再生が終了するまでの間のいつ行ってもよい。Ｓ４１で再生を開始した合成音声１１２の再生が終了すると（Ｓ４３でＹＥＳ）、後音声１１１Ｂを音声再生部１０４に再生させる（Ｓ４４）。この再生とともに、ユーザによる回答の入力を受け付ける（Ｓ４５）。入力された回答の語句を入力語句記憶領域６０に記憶する（Ｓ４６）。

また、会話文のテキストが長い場合、会話文を複数のフレーズに分割してもよい。この場合、フレーズごとに音声合成して再生し、各フレーズの間にも録音音声を挿入すればよい。挿入された録音音声の再生中にその直後のフレーズの音声合成をすればよい。また、複数の会話文を連続して合成する場合にも同様に、会話文と会話文との間に録音音声を挿入して、この録音音声の再生中に後の会話文の音声合成を合成するようにすればよい。

図８は、会話文を２つのフレーズに分割し、フレーズ毎に音声合成する場合の手順を示した図である。音声合成装置としては、図１に示したものが適用可能である。

テキスト１１０を音声合成して出力するプロセスがスタートすると、まず、前音声１１１Ａがメモリ１０３から読み出され、これを音声再生部１０４で再生する。前音声１１１Ａが再生されている間に、音声合成部１０１は、供給されたテキスト（会話文の前半）を音声化（音声合成）する。音声合成部１０１によって合成された合成音声１１２Ａは合成バッファ１０２に記憶され、前音声１１１Ａの再生が終了したのち、前音声１１１Ａに続いて再生される。合成音声１１２Ａの再生中にフレーズ間で再生される録音音声である中音声１１１Ｃが読み出される。合成音声１１２Ａの再生が終了すると、音声再生部１０４は、これに続けて中音声１１１Ｃを再生する。なお、中音声１１１Ｃの読み出しは、前音声１１１Ａの読み出し後、合成音声１１２Ａの生成終了までであればいつでもよい。

中音声１１１Ｃも前音声１１１Ａと同様に、メモリ１０３に記憶されている録音音声１１１のなかから、会話文と同じカテゴリのものを選択すればよい。中音声１１１Ｃが再生されている間に、音声合成部１０１は会話文の後半を音声合成する。音声合成部１０１によって合成された後半の合成音声１１２Ｂは合成バッファ１０２に記憶され、中音声１１１Ｃの再生が終了したのち、中音声１１１Ｃに続いて再生される。後半の合成音声１１２Ｂの再生中に後音声１１１Ｂが読み出される。合成音声１１２Ｂの再生が終了すると、音声再生部１０４は、これに続けて後音声１１１Ｂを再生する。

このように、会話文を複数のフレーズに分割し、その間に生声である録音音声１１１を挿入することにより、長い合成音声で表情が不足する場合でも、途中で表情のある録音音声１１１を挿入して表情を豊かにすることができる。また、長い会話文を音声合成するには長い時間が必要であるが、会話文を複数のフレーズに分割することで、それぞれのフレーズを短時間で合成し、合成時間を録音音声でカバーすることが可能になる。

さらに長い会話文を複数フレーズに分割する場合、または、複数の会話文を連続して音声合成する場合には、図８に示したように、それぞれのフレーズまたは会話文ごとに合成・再生し、且つ、各フレーズまたは会話文の前に、図７のフローチャートに示したように、音声合成時間に合わせた長さの前音声１１１Ａを再生するようにすればよい。

なお、音声合成部１０１は、会話文の内容やゲームの状況に応じて、合成される音声１１２の速さ、ピッチ、音量などを変化させてもよい。その場合、そのパラメータが音声再生部１０４に提供され、音声再生部１０４は、合成音声１１２に合わせた速さ、ピッチ、音量で録音音声１１１を再生する。また、音声合成部１０１は通常の速さ、ピッチ、音量で音声を合成し、音声再生部１０４が、会話文の内容やゲームの状況に応じて、合成音声１１２、録音音声１１１の両方の速さ、ピッチ、音量を調整して再生するようにしてもよい。

なお、後音声１１１Ｂの語尾を、キャラクタの性格、キャラクタの成長度合い、キャラクタの服装などに応じて変化させてもよい。すなわち、「〜にゃ」、「〜でございます。」などの語を選択された後音声の語尾に付加して再生してもよい。また、予め「○○にゃ」、「○○でございます。」（○○は語句）の音声を録音音声として記憶しておいてもよい。

また、ゲーム上の場所に応じて、生成する音声（キャラクタが喋る音声）の音量や音質を変化させてもよい。例えば、場所が電車内の場合にはヒソヒソ声、青空の下では元気な声の音声を生成してもよい。

１ゲーム装置
５ゲームメディア
２０制御部
２１ＣＰＵ
２２ＲＯＭ（フラッシュメモリ）
５０ゲーム履歴データ記憶エリア
６０入力語句記憶エリア
６１（会話文、録音音声の）記憶エリア
１００音声生成装置
１０１音声合成部
１０４音声再生部

Claims

仮想的な話者であるキャラクタを表示する表示部と、
ユーザからの入力を受け付ける操作部と、
前記操作部に入力された語句を記憶する語句記憶部と、
テキストデータを作成し、該作成されたテキストデータに基づいて音声信号を合成して合成音声を生成する音声合成部と、
音声信号である録音音声を記憶部に予め記憶する録音音声記憶部と、
前記録音音声を、前記記憶部から読み出す録音音声読出部と、
前記キャラクタが発する音声として、前記音声信号および前記録音音声を再生する音声再生部と、
を備え、
前記音声合成部は、前記語句記憶部に記憶されている語句を含むテキストデータを作成し、
前記録音音声読出部は、前記音声合成部が前記合成音声の生成に要する時間を推定し、該推定された時間に応じた録音音声を前音声として読み出し、
前記音声再生部は、前記音声合成部が前記合成音声を生成している間に前記前音声を再生し、
前記音声再生部が前記前音声の再生を終了したとき、前記音声合成部による前記合成音声の生成が完了していなかった場合、
前記録音音声読出部は、さらに録音音声を追加前音声として読み出し、
前記音声再生部は、前記音声合成部が前記合成音声を生成している間に該追加前音声を再生し、そののち前記合成音声を再生する
音声生成装置。
前記録音音声読出部は、前記推定された合成音声の生成に要する時間に応じて複数の録音音声を前記前音声として読み出し、
前記音声再生部は、前記音声合成部が前記合成音声を生成している間に前記複数の前音声を順次再生する
請求項１に記載の音声生成装置。
前記録音音声読出部は、前記複数の前音声として同一の録音音声を繰り返し読み出す請求項２に記載の音声生成装置。
複数の前記テキストデータをカテゴリ別に記憶するテキスト記憶部を備え、
前記録音音声記憶部は、複数の前記録音音声をカテゴリ別に記憶しており、
前記音声合成部は、前記テキスト記憶部に記憶されている複数の前記テキストデータからテキストデータを選択して音声信号を合成し、
前記音声読出部は、前記テキストデータと同じまたは類似のカテゴリの録音音声を選択して読み出す
請求項１乃至請求項３のいずれかに記載の音声生成装置。
前記音声合成部、前記録音音声記憶部、前記録音音声読出部、および、前記音声再生部は、ビデオゲームを実行する制御部によって実現され、
前記テキストデータは、前記ゲーム上のキャラクタがユーザに対して発声する会話文であり、
前記キャラクタには前記ゲームの進行に応じて変化する連続的または段階的な感情パラメータが設定され、
前記カテゴリは、前記キャラクタの前記感情パラメータに基づいて設定される、
請求項４に記載の音声生成装置。