JP6185136B1

JP6185136B1 - 音声生成プログラムおよびゲーム装置

Info

Publication number: JP6185136B1
Application number: JP2016216134A
Authority: JP
Inventors: 善樹山東
Original assignee: Capcom Co Ltd
Current assignee: Capcom Co Ltd
Priority date: 2016-11-04
Filing date: 2016-11-04
Publication date: 2017-08-23
Anticipated expiration: 2036-11-04
Also published as: JP2018072764A

Abstract

【課題】自由度の高い内容の音声を表情豊かに生成できる音声生成プログラムを提供する。【解決手段】音声生成プログラムは、コンピュータを、テキストデータを複数のフレーズに分割するテキスト分割手段、テキストデータに基づく音声信号である合成音声を生成する音声合成手段、合成音声を分割された各フレーズ毎に順次再生する第１音声再生手段、第１音声再生手段による各フレーズの合成音声の再生の境目に、予め録音された音声信号である録音音声を再生する第２音声再生手段として機能させる。録音音声は、テキストデータの感情を表情豊かに表現した人声などからなる。【選択図】図７

Description

この発明は、テキストに基づいて合成された音声を含む音声を再生する音声生成プログラムおよびゲーム装置に関する。

ビデオゲームなどで、場面に応じた音声を生成(generate)する場合、テキストデータに基いて音声波形を合成する音声合成（特許文献１参照）や、予め録音しておいた音声を再生する音声再生などが用いられる。

特開２００１−０３４２８２

音声合成は、どのような文でもテキストデータに基いて音声を合成できるため、自由度が高く、臨機応変な文の音声化が可能である。その反面、音声信号波形の合成に時間が掛かるため、即座の音声の生成ができない。また、人工的に合成された音声波形であるため単調で感情表現が十分できないという欠点がある。

一方、録音音声の再生は、メモリから音声データを読みだすだけで再生できるため、即座の再生が可能であるとともに、録音音声として感情を込めた音を録音しておけば、感情豊かな表情のある音声の生成が可能である。その一方で、予め録音された音声しか再生できないため、自由度が低く臨機応変な内容を生成できないという欠点がある。

この発明の目的は、自由度の高い内容の音声を表情豊かに生成できる音声生成プログラムおよびゲーム装置を提供することにある。

本発明の音声生成プログラムは、表示部、操作部および記憶部を備えたコンピュータを、表示部に仮想的な話者であるキャラクタを表示するキャラクタ表示手段、操作部から入力された語句を記憶部に記憶させる語句記憶手段、語句記憶手段に記憶された語句を含むテキストデータを生成するテキストデータ生成手段、テキストデータ生成手段が生成したテキストデータに基づく音声信号である合成音声を生成する音声合成手段、音声合成手段に供給するテキストデータの長さを判定し、音声合成に要する時間が所定時間を超えると予想される場合、このテキストデータを第１および第２のフレーズを含む複数のフレーズに分割するテキスト分割手段、音声合成手段によって合成された合成音声を再生する第１音声再生手段、予め録音された音声信号である録音音声を再生する第２音声再生手段として機能させ、
テキストデータが複数のフレーズに分割されなかった場合、第１音声再生手段および第２音声再生手段は、キャラクタが発する音声として、第１の録音音声、テキストデータの合成音声、および、第２の録音音声の順に音声を再生し、
テキストデータが複数のフレーズに分割された場合、第１音声再生手段および第２音声再生手段は、キャラクタが発する音声として、第１の録音音声、第１のフレーズの合成音声、第２の録音音声、第２のフレーズの合成音声、および、第３の録音音声の順に音声を再生することを特徴とする。

上記発明において、音声合成手段は、第２音声再生手段が録音音声を再生している間に、その次に第１音声再生手段によって再生されるフレーズの合成音声を生成してもよい。

また、上記発明において、音声合成手段は、第１音声再生手段による再生前に、テキストデータ全体を合成音声に生成し、第１音声再生手段は、生成された合成音声を、各フレーズ毎に読み出して再生してもよい。

上記発明において、音声合成手段は、複数カテゴリから選択された１のカテゴリのテキストデータに基づいて合成音声を生成し、第２音声再生手段は、テキストデータと同一カテゴリの録音音声を再生してもよい。

本発明のゲーム装置は、上記音声生成プログラムを記憶する記憶部と、該音声生成プログラムを実行する制御部と、を備える。キャラクタにはゲームの進行に応じて変化する連続的または段階的な感情パラメータが設定され、カテゴリは、キャラクタの感情パラメータに基づいて設定される。

この発明によれば、テキストデータに基づく自由度の高い音声を録音音声で表情づけして生成することが可能になる。

本発明が適用される音声生成装置のブロック図である。音声生成装置による音声生成の手順を説明する図である。ゲーム装置のブロック図である。ゲーム装置のメモリ構成図である。ゲーム装置で実行されるゲームの進行手順を説明する図である。ゲーム装置制御部のゲームにおける会話処理を示すフローチャートである。合成音声の生成を分割し、途中に録音音声を挿入する場合の音声生成の手順を説明する図である。合成音声の再生を分割し、途中に録音音声を挿入する場合の音声生成の手順を説明する図である。

図面を参照してこの発明が適用される音声生成装置(generator)１００について説明する。図１は音声生成装置１００の機能ブロック図である。図２は、音声生成装置１００による音声生成の基本的な手順を示す図である。この音声生成装置１００は、テキストデータ（以下、単にテキストと呼ぶ。）１１０に基いて音声データを合成(synthesize)する音声合成部１０１、および、音声データを再生(playback)する音声再生部１０４を備えている。

音声再生部１０４は、予め録音された音声データ（録音音声）１１１、および、音声合成部１０１が合成した音声データ（合成音声）１１２の両方を再生する。音声合成部１０１がテキスト１１０に基づく音声を合成するとき、音声再生部１０４が、図２に示すように、その合成音声１１２を再生する前後に、予め録音されていた録音音声１１１（前音声１１１Ａ、後音声１１１Ｂ）を再生する。

録音音声は、たとえば声優などが表情豊かに発声した音声（生声）である。これにより、人工的に合成されて表情が乏しい合成音声１１２を録音音声で補完することができる。

音声合成部１０１に供給されるテキスト１１０は、例えば、何らかの感情（例えば喜びや驚き）を伴ったものである。録音音声メモリ１０３には、種々の感情に対応し、その感情を表現する複数の録音音声が記憶されている。前音声１１１Ａおよび後音声１１１Ｂは、供給されるテキストの感情と同じような感情を表現するもの（同じようなカテゴリに分類されるもの（図４参照））が選択される。

テキスト１１０を音声合成して出力するプロセスがスタートすると、まず、前音声１１１Ａがメモリ１０３から読み出され、これを音声再生部１０４で再生する。前音声１１１Ａが再生されている間に、音声合成部１０１は、供給されたテキスト１１０を音声化（音声合成）する。音声合成部１０１によって合成された合成音声１１２は合成バッファ１０２に記憶され、前音声１１１Ａの再生が終了したのち、前音声１１１Ａに続いて再生される。合成音声１１２の再生中に後音声１１１Ｂが読み出される。合成音声１１２の再生が終了すると、音声再生部１０４は、これに続けて後音声１１１Ｂを再生する。

後音声１１１Ｂも前音声１１１Ａと同様に、メモリ１０３に記憶されている録音音声１１１のなかから、音声合成部１０１に供給されるテキスト１１０（音声合成部１０１で合成された合成音声１１２）に対応するものが選択される。なお、後音声１１１Ｂのメモリ１０３からの読み出しは、前音声１１１Ａの読み出しと同時に行われてもよい。

後音声１１１Ｂは前音声１１１Ａとは別のものが選択されるのが好ましいが、同じものであってもよい。前音声１１１Ａと合成音声１１２との間、および、合成音声１１２と後音声１１１Ｂとの間は、完全に連続していてもいなくてもよいが、ユーザが聴覚的に一連の発声として聞こえる程度の間隔（たとえば１秒以内）で連続して再生されることが好ましい。図２に示した前音声１１１Ａ、後音声１１１Ｂは、両方再生されてもよいが前音声１１１Ａのみでもよい。

図１、図２に説明した音声生成装置１００は、音声を合成する種々の装置に適用可能である。例えば、ビデオゲームにおけるキャラクタの会話音声の生成に用いてもよい。以下、音声生成装置１００の適用例として携帯ゲーム機およびこの携帯ゲーム装置で実行されるゲームについて説明する。

以下一例として説明するゲームは、ゲーム中のキャラクタ（女の子）とユーザ（ゲームのプレイヤ）が会話をしながら、キャラクタ（ＡＩ）の知識を増やしてゆく育成ゲームである。キャラクタは、ユーザと会話する言葉を発する。この言葉の生成機能を上述の音声生成装置１００が担当する。

図３は、上記音声生成装置１００の機能がプログラムとの協働で実現されるゲーム装置１のブロック図である。図３において、ゲーム装置１は、バス２６上に、制御部２０、操作部３０、ゲームメディアインタフェース３１、ＳＤカードインタフェース３２、無線通信回路部３３およびマイクインタフェース３４を有している。制御部２０は、ＣＰＵ２１、ＲＯＭ（フラッシュメモリ）２２、ＲＡＭ２３、画像プロセッサ２４および音声プロセッサ２５を含んでいる。

画像プロセッサ２４には、ビデオＲＡＭ（ＶＲＡＭ）４０が接続され、ＶＲＡＭ４０には表示部４１が接続されている。表示部４１は、上述の上部ディスプレイ１０および下部ディスプレイ１１を含む。音声プロセッサ２５には、Ｄ／Ａコンバータを含むアンプ４２が接続され、アンプ４２にはスピーカ１６およびイヤホン端子１７が接続されている。

操作部３０は、上述のタッチパネル１２、ボタン群１３およびスライドパッド１４を含み、それぞれユーザの操作を受け付けて、その操作内容に応じた操作信号を発生する。この操作信号はＣＰＵ２１によって読み取られる。マイクインタフェース３４は、Ａ／Ｄコンバータを内蔵している。マイクインタフェース３４には、マイク１８が接続されている。マイクインタフェース３４は、マイク１８が集音した音声をデジタル信号に返還して制御部２０に入力する。

ゲームメディアインタフェース３１はメディアスロット３１Ａを含み、メディアスロット３１Ａにセットされたゲームメディア５に対するリード／ライトを行う。ゲームメディア５は、専用の半導体メモリであり、内部にゲームデータおよびゲームプログラムが記憶されている。ゲームデータは、キャラクタが話す会話文のテキスト１１０、および、前音声、後音声として用いられる録音音声１１１などを含んでいる。また、ゲームメディア５は、ゲーム履歴データ記憶エリア５０を有している。

ゲーム履歴データは、ユーザがこのゲームにおいて入力した語句などを含む。ゲームが一旦終了されたとき、そのときのゲームの状態を示すゲーム履歴データがＲＡＭ２３からゲーム履歴データ記憶エリア５０に保存される。その後、ゲームが再開されるとき、ゲーム履歴データ記憶エリア５０からＲＡＭ２３に転送される。なお、ゲームメディア５は、専用の半導体メモリに限定されず、汎用の半導体メモリ、光ディスクなどでも構わない。

ＳＤカードインタフェース３２にはＳＤカード６が接続される。ＳＤカード６は、マイクロＳＤカードであり、下部筐体１Ｂに内蔵されている。ＳＤカード６には、ダウンロードされたゲームプログラムなどが記憶される。

ＲＡＭ２３には、ゲームメディア５から読み込まれたゲームプログラムおよびゲームデータを記憶するロードエリア、および、ＣＰＵ２１がゲームプログラムを実行する際に使用されるワークエリアが設定される。したがって、ＲＡＭ２３には、会話文テキスト１１０や録音音声１１１を記憶する記憶エリア６１や、初期設定やキャラクタとの会話においてユーザが入力した語句を記憶する入力語句記憶エリア６０が設けられている。また、図１の合成音声バッファ１０２もＲＡＭ２３内に設けられる。ＲＯＭ２２は、フラッシュメモリで構成され、ゲーム装置１がゲームメディア５からゲームプログラムを読み込んでゲームを実行するための基本プログラムが設定される。

画像プロセッサ２４は、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ，グラフィックス・プロセッシング・ユニット）を有し、上述の上部ディスプレイ１０に表示されるキャラクタの画像や下部ディスプレイ１１に表示される文字パネルの画像などを形成しＶＲＡＭ４０上に描画する。

音声プロセッサ２５は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ，デジタル・シグナル・プロセッサ）を有し、ゲーム音声を生成する。このゲームにおいて、ゲーム音声には、キャラクタがユーザと会話する音声が含まれており、図１に示した音声生成装置１００は、ゲーム装置１の制御部２０（特に音声プロセッサ２５）およびゲームプログラムの協働によって実現される。アンプ４２は、音声プロセッサ２５によって音声信号を増幅してスピーカ１６およびイヤホン端子１７に出力する。

無線通信回路部３３は、２．４ＧＨｚ帯のデジタル通信回路を備えており、無線アクセスポイントを介したインターネット通信を行うとともに、直接他のゲーム装置１と通信を行う。無線通信回路部３３は、インターネット通信を行う場合にはＩＥＥＥ８０２．１１ｇ（いわゆるＷｉ−Ｆｉ）規格で通信を行い、ローカル通信を行う場合にはＩＥＥＥ８０２．１１ｂ規格のアドホックモードまたは独自の規格で通信を行う。

なお、図１の音声合成部１０１および音声再生部１０４は、制御部２０とゲームプログラムとの協働で実現される。

図４は、ゲームデータの一部である会話文のテキスト１１０と録音音声１１１の記憶形態を説明する図である。図４（Ａ）は、テキスト１１０および録音音声１１１の記憶エリア６１の構成を示す図である。記憶エリア６１は、複数のカテゴリに区分され、各カテゴリは複数のサブカテゴリに区分されている。

カテゴリは、たとえば、「よろこび」、「通常」、「ドッキリ」などの大雑把な感情の分類である。サブカテゴリは、カテゴリ（大雑把な感情）中の具体的な感情を表している。たとえば、「よろこび」カテゴリは、「うれしい」、「満足」、「しあわせ」、「気楽」、「リラックス」などのサブカテゴリを含んでいる。また、「通常」カテゴリは、「確認」、「否定」、「思いつき」、「ひとりごと」などのサブカテゴリを含んでいる。

各サブカテゴリに、１または複数の会話文のテキスト（会話文データ）、および、１または複数の録音音声が記憶される。所定の会話のタイミングにゲームの進行状況に応じたカテゴリおよび会話文１１０が選択され、このカテゴリに対応する録音音声が前音声１１１Ａ、後音声１１１Ｂとして選択される。

図４（Ｂ）は、音声生成データ記憶領域の一部の具体例を示した図である。この図は、「よろこび」カテゴリの記憶エリアの例を示した図である。「よろこび」カテゴリには「うれしい」、「満足」、「しあわせ」、「気楽」、「リラックス」のサブカテゴリを含み、それぞれのサブカテゴリ領域には１または複数の会話文および録音音声が記憶されている。

会話文としては、「○○をもらってうれしいです。」や「○○おいしそう。」などの文が記憶される。文中の「○○」は空欄を示し、この箇所にユーザによって入力された語句が当てはめられる。

録音音声としては「うわ〜」、「わーい」、「やった！」など「うれしい」の感情を表現する間投詞などの短い音声が記憶される。この記憶されている会話文および録音音声に基づいて「うわ〜、プレゼントをもらってうれしいです。やった！」などのキャラクタの発言が生成される。

また、記憶された一部または全部の録音音声を複数のカテゴリに共通のものとしてもよい。たとえば、「え〜」、「う〜ん」、「あ〜」などの会話の間をつなぐ言葉または「ははは」「うふ」「キャ」などの笑い声などを共通の録音音声として記憶してもよい。これらの録音音声が、全てのカテゴリで共通に用いられてもよく、一部の（複数の）カテゴリで共通に用いられてもよい。

また、同じ言葉、たとえば「う〜ん」などが複数のカテゴリで用いられる場合、各カテゴリ毎に録音音声として記憶されてもよい。この場合、それぞれそのカテゴリに応じた表情づけで発音されたものが録音されればよい。

なお、制御部２０は、会話文への語句の当てはめを、意味を考慮せずにランダムに行ってもよい。たとえば、「え〜、そのゲームって美味しそうですね。う〜ん。」などの通常とは異なる用法で入力語句が使用されてもよい。このゲームでは、この語句の間違った用法により、キャラクタの可愛さや学習レベルを演出している。

また、制御部２０は、キャラクタに「え〜、そのゲームって美味しそうですね。う〜ん。」との会話をさせたあと、たとえば、「ゲームってどんな味ですか？」とユーザに質問させる。このとき、ユーザが「ゲームは食べ物ではない。」と返答をすると、制御部２０は、ゲームが食べ物ではないことを記憶する（学習する）。制御部２０は、質問と並行して複数の回答用選択肢を表示し、ユーザに適当な選択肢を選択させることで、ユーザの返答を得るようにしてもよい。なお、制御部２０（キャラクタ）の学習については後述する。

また、会話文中に設けられる空欄は複数であってもよい。たとえば、「○○さんは、△△が好きなんですか？」などである。○○、△△のところに、たとえばユーザの名前やユーザによって登録された語句が当てはめられる。

図５はゲーム装置１の制御部２０およびユーザによって行われる会話の順序・流れを示す図である。ゲームのスタート時に、ユーザがゲーム装置１に対してプロファイルや好みを登録する（Ｓ１００）。そして、入力された内容を制御部２０が入力語句記憶エリア６０に記憶する（Ｓ１０１）。

その後、ユーザとキャラクタがゲーム中で一緒に旅に出るゲームを開始させる（Ｓ１１０）。そして、制御部２０は、旅の途中の場面ごとにキャラクタとユーザが会話するイベントを実行する（Ｓ１２０）。

会話は以下の手順で行われる。まず、制御部２０はキャラクタがユーザに質問するイベントを実行させ（Ｓ１２１）、これに対するユーザの回答を受け付ける（Ｓ１２２）。

キャラクタは、ユーザによって登録された語句を会話文に当てはめることで会話を行う。これに対するユーザの会話の入力は、下画面に表示される文字パレットで文字を選択することで行われる。

制御部２０は、ユーザによって入力された回答を記憶し、その内容（質問に対する回答）を更新（学習）する。この会話イベントを繰り返すことで、入力語句記憶エリア６０に記憶される語句が増加し、且つ、その語句の属性（意味）を蓄積する。これにより、キャラクタが成長する様子を表現することができる。

図６は、キャラクタの発言を作成する制御部２０の動作を示すフローチャートである。この処理は、定期的なトリガに応じて実行される。まず、現在のゲームの状況を判断する（Ｓ１０）。このゲームの状況に基いて今が会話タイミングか否かを決定する（Ｓ１１）。タイミングでない場合には（Ｓ１１でＮＯ）そのまま動作を終了する。

会話のタイミングであると判断された場合は（Ｓ１１でＹＥＳ）、現在のゲームの状況に基づき生成する会話のカテゴリや会話文を選択する（Ｓ１２）。なお、このカテゴリ、会話文の選択はランダムに行われてもよい。

次に、選択された会話文の空欄に当てはめる語句を入力語句記憶エリア６０から選択する（Ｓ１３）。これで会話文のテキスト１１０が完成する。そして、この会話文と同じカテゴリに分類されている録音音声１１１のなかから、前音声１１１Ａおよび後音声１１１Ｂを選択する（Ｓ１４）。

完成した会話文のテキストを音声合成部１０１に出力して音声データの合成を指示するとともに（Ｓ１５）、前音声１１１Ａを音声再生部１０４に入力して再生させる（Ｓ１６）。前音声１１１Ａの再生は１〜２秒程度継続し、この間に音声合成部１０１は会話文の音声を合成する。

前音声１１１Ａの再生が終了すると（Ｓ１７）、音声合成部１０１によって合成された合成音声１１２を音声再生部１０４に再生させる（Ｓ１８）。合成音声１１２の再生が終了すると（Ｓ１９）、後音声１１１Ｂを音声再生部１０４に再生させる（Ｓ２０）。この再生とともに、ユーザによる回答の入力を受け付ける（Ｓ２１）。入力された回答の語句を入力語句記憶エリア６０に記憶する（Ｓ２２）。

図７、図８は、本発明の実施形態である音声生成の手順を説明する図である。この実施形態では、会話文を複数（この例では２つ）のフレーズに分割し、フレーズとふれーずの境目に「え〜」、「あ〜」、「んと〜」などの短い録音音声を挿入する。これにより、会話文の表情付けをより効率的に行う。なお、図７、図８はテキストを２つに分割した場合を例示しているが、分割数は２に限定されない。

図７は、会話文を２つのフレーズに分割し、フレーズ毎に音声合成する場合の手順を示した図である。音声合成装置としては、図１に示したものが適用可能である。

テキスト１１０を音声合成して出力するプロセスがスタートすると、まず、前音声１１１Ａがメモリ１０３から読み出され、これを音声再生部１０４で再生する。前音声１１１Ａが再生されている間に、音声合成部１０１は、供給されたテキスト１１０をスキャンして分割箇所を決定する。一般的に、テキストの句読点や文節の切れ目が分割箇所とされる。分割箇所が決定されると前半のフレーズ（会話文の前半）を音声化（音声合成）する。音声合成部１０１によって合成された合成音声１１２Ａは合成バッファ１０２に記憶され、前音声１１１Ａの再生が終了したのち、前音声１１１Ａに続いて再生される。合成音声１１２Ａの再生中にフレーズ間で再生される録音音声である中音声１１１Ｃが読み出される。合成音声１１２Ａの再生が終了すると、音声再生部１０４は、これに続けて中音声１１１Ｃを再生する。なお、中音声１１１Ｃの読み出しは、前音声１１１Ａの読み出し後、合成音声１１２Ａの生成終了までであればいつでもよい。

中音声１１１Ｃとしては、たとえば上述したような「え〜」、「あ〜」、「んと〜」など、次の言葉を考える場合に発せられるような音声が選択される。また、中音声１１１Ｃとして、咳払い、息継ぎなどの声でない音声を用いてもよい。中音声１１１Ｃも前音声１１１Ａと同様に、メモリ１０３に記憶されている録音音声１１１のなかから、会話文と同じカテゴリのものを選択すればよい。中音声１１１Ｃが再生されている間に、音声合成部１０１は後半のフレーズ（会話文の後半）を音声合成する。音声合成部１０１によって合成された後半の合成音声１１２Ｂは合成バッファ１０２に記憶され、中音声１１１Ｃの再生が終了したのち、中音声１１１Ｃに続いて再生される。後半の合成音声１１２Ｂの再生中に後音声１１１Ｂが読み出される。合成音声１１２Ｂの再生が終了すると、音声再生部１０４は、これに続けて後音声１１１Ｂを再生する。

このように、会話文を複数のフレーズに分割し、その間に生声である録音音声１１１を挿入することにより、長い合成音声で表情が不足する場合でも、途中で表情のある録音音声１１１を挿入して表情を豊かにすることができる。また、長い会話文を音声合成するには長い時間が必要であるが、会話文を複数のフレーズに分割することで、それぞれのフレーズを短時間で合成し、合成時間を録音音声でカバーすることが可能になる。

図７の例では、テキスト１１０を２つのフレーズに分割し、前半のフレーズを前音声１１１Ａの再生中に合成し、後半のフレーズを中音声１１１Ｃの再生中に合成したが、テキスト１１０を前音声１１１Ａの再生中に全部合成し、その再生を前半・後半に分割してもよい。

図８は、テキスト１１０を前音声１１１Ａの再生中に全部合成し、その再生を前半・後半に分割する場合の手順を示した図である。以下、図７の手順と異なる部分のみ説明する。前音声１１１Ａが再生されている間に、音声合成部１０１は、供給されたテキスト１１０をスキャンして分割箇所を決定する。この分割箇所の決定と平行して音声合成部１０１がテキスト１１０を音声化（音声合成）する。音声合成部１０１によって合成された合成音声１１２は合成バッファ１０２に記憶される。前音声１１１Ａの再生が終了したのち、合成バッファ１０２に記憶された合成音声１１２のうち、前半のフレーズにあたる部分が前半の合成音声１１２Ａとして再生される。合成音声１１２Ａの再生中にフレーズ間で再生される録音音声である中音声１１１Ｃが読み出される。中音声１１１Ｃの再生が終了したのち、合成バッファ１０２に記憶された合成音声１１２のうち、後半のフレーズにあたる部分が後半の合成音声１１２Ｂとして再生される。

上述したように中音声１１１Ｃは、「え〜」、「あ〜」、「んと〜」など短い言葉である場合が多いので、テキスト１１０全体を先に音声合成しておく手順も有効である。選択されたテキスト１１０、および、前音声１１１Ａ、中音声１１１Ｂの長さなどに応じて、図７の手順と図８の手順を併用してもよい。

たとえば、「テキスト１１０の文字数が所定数（例えば５０字）を超える場合は、音声合成を図７のように前後に分けて行う。音声合成に掛かる時間が所定時間（例えば１０秒）を超える場合は、音声合成を図７のように前後に分けて行う。合成音声の再生時間が所定時間（例えば１０秒）を超える場合は、音声合成を図７のように前後に分けて行う。これら以外の場合は、音声合成を図８のように一括して行う。」などの方式で併用が可能である。

以上の実施形態では、図７、図８に示したように、会話文（合成音声）１１２の前後に録音音声１１１（前音声１１１Ａ、後音声１１１Ｂ）を付加した、すなわち、会話文を録音音声で挟んでいる。これら前音声１１１Ａ、後音声１１１Ｂは無くてもよく、また、いずれか一方のみ付加されていてもよい。

また、テキスト１１０が３以上のフレーズに分割される場合には、各フレーズの境目に中音声１１０Ｃが挿入される（再生される）ようにすればよい。

なお、音声合成部１０１は、会話文の内容やゲームの状況に応じて、合成される音声１１２の速さ、ピッチ、音量などを変化させてもよい。その場合、そのパラメータが音声再生部１０４に提供され、音声再生部１０４は、合成音声１１２に合わせた速さ、ピッチ、音量で録音音声１１１を再生する。また、音声合成部１０１は通常の速さ、ピッチ、音量で音声を合成し、音声再生部１０４が、会話文の内容やゲームの状況に応じて、合成音声１１２、録音音声１１１の両方の速さ、ピッチ、音量を調整して再生するようにしてもよい。

なお、後音声１１１Ｂの語尾を、キャラクタの性格、キャラクタの成長度合い、キャラクタの服装などに応じて変化させてもよい。すなわち、「〜にゃ」、「〜でございます。」などの語を選択された後音声の語尾に付加して再生してもよい。また、予め「○○にゃ」、「○○でございます。」（○○は語句）の音声を録音音声として記憶しておいてもよい。

また、ゲーム上の場所に応じて、生成する音声（キャラクタが喋る音声）の音量や音質を変化させてもよい。例えば、場所が電車内の場合にはヒソヒソ声、青空の下では元気な声の音声を生成してもよい。

１ゲーム装置
５ゲームメディア
２０制御部
２１ＣＰＵ
２２ＲＯＭ（フラッシュメモリ）
５０ゲーム履歴データ記憶エリア
６０入力語句記憶エリア
６１（会話文、録音音声の）記憶エリア
１００音声生成装置
１０１音声合成部
１０４音声再生部

Claims

表示部、操作部および記憶部を備えたコンピュータを、
前記表示部に、仮想的な話者であるキャラクタを表示するキャラクタ表示手段、
前記操作部から入力された語句を前記記憶部に記憶させる語句記憶手段、
前記語句記憶手段に記憶された語句を含むテキストデータを生成するテキストデータ生成手段、
前記テキストデータ生成手段が生成したテキストデータに基づく音声信号である合成音声を生成する音声合成手段、
前記音声合成手段に供給するテキストデータの長さを判定し、音声合成に要する時間が所定時間を超えると予想される場合、このテキストデータを第１および第２のフレーズを含む複数のフレーズに分割するテキスト分割手段、
前記音声合成手段によって合成された合成音声を再生する第１音声再生手段、
予め録音された音声信号である録音音声を再生する第２音声再生手段、
として機能させ、
前記テキストデータが複数のフレーズに分割されなかった場合、前記第１音声再生手段および前記第２音声再生手段は、前記キャラクタが発する音声として、第１の録音音声、テキストデータの合成音声、および、第２の録音音声の順に音声を再生し、
前記テキストデータが複数のフレーズに分割された場合、前記第１音声再生手段および前記第２音声再生手段は、前記キャラクタが発する音声として、第１の録音音声、第１のフレーズの合成音声、第２の録音音声、第２のフレーズの合成音声、および、第３の録音音声の順に音声を再生する音声生成プログラム。
前記音声合成手段は、前記第２音声再生手段が録音音声を再生している間に、その次に第１音声再生手段によって再生されるフレーズの合成音声を生成する請求項１に記載の音声生成プログラム。
前記音声合成手段は、前記第１音声再生手段による再生前に、テキストデータ全体を合成音声に生成し、
前記第１音声再生手段は、前記生成された合成音声を、各フレーズ毎に読み出して再生する
請求項１に記載の音声生成プログラム。
前記音声合成手段は、複数カテゴリから選択された１のカテゴリのテキストデータに基づいて合成音声を生成し、
前記第２音声再生手段は、前記テキストデータと同一カテゴリの録音音声を再生する
請求項１乃至請求項３のいずれかに記載の音声生成プログラム。
請求項４に記載の音声生成プログラムを記憶する記憶部と、該音声生成プログラムを実行する制御部と、を備え、
前記キャラクタには前記ゲームの進行に応じて変化する連続的または段階的な感情パラメータが設定され、
前記カテゴリは、前記キャラクタの前記感情パラメータに基づいて設定される、
ゲーム装置。