JP2018072765A

JP2018072765A - 音声生成プログラムおよびゲーム装置

Info

Publication number: JP2018072765A
Application number: JP2016216135A
Authority: JP
Inventors: 善樹山東; Yoshiki Santo
Original assignee: Capcom Co Ltd
Current assignee: Capcom Co Ltd
Priority date: 2016-11-04
Filing date: 2016-11-04
Publication date: 2018-05-10
Anticipated expiration: 2036-11-04
Also published as: JP6134043B1

Abstract

【課題】自由度の高い内容の音声を表情豊かに生成できる音声生成プログラムを提供する。【解決手段】音声生成プログラムは、記憶部を備えたコンピュータを、ユーザによって入力された語句を記憶部に記憶する第１手段、所定のテキストデータに、記憶部から読み出された当該テキストデータの関連語句を挿入する第２手段、このテキストデータを音声合成して再生する第３手段として機能させる。さらに、第２手段は、所定の条件が成立した場合、関連語句とは異なる他の語句をテキストデータに挿入する。これにより、合成される音声に間違いを生じさせてリアルな会話にすることができる。【選択図】図７

Description

この発明は、テキストに基づいて合成された音声を含む音声を再生する音声生成プログラムおよびゲーム装置に関する。

ビデオゲームなどで、場面に応じた音声を生成(generate)する場合、テキストデータに基いて音声波形を合成する音声合成（特許文献１参照）や、予め録音しておいた音声を再生する音声再生などが用いられる。

特開２００１−０３４２８２

音声合成は、どのような文でもテキストデータに基いて音声を合成できるため、自由度が高く、臨機応変な文の音声化が可能である。その反面、音声信号波形の合成に時間が掛かるため、即座の音声の生成ができない。また、人工的に合成された音声波形であるため単調で感情表現が十分できないという欠点がある。

一方、録音音声の再生は、メモリから音声データを読みだすだけで再生できるため、即座の再生が可能であるとともに、録音音声として感情を込めた音を録音しておけば、感情豊かな表情のある音声の生成が可能である。その一方で、予め録音された音声しか再生できないため、自由度が低く臨機応変な内容を生成できないという欠点がある。

この発明の目的は、自由度の高い内容の音声を表情豊かに生成できる音声生成プログラムおよびゲーム装置を提供することにある。

本発明の音声生成プログラムは、記憶部を備えたコンピュータを、ユーザによって入力された語句を記憶部に記憶する第１手段、所定のテキストデータに、記憶部から読み出された該テキストデータの関連語句を挿入する第２手段、このテキストデータを音声合成して再生する第３手段として機能させる。さらに、第２手段は、所定の条件が成立した場合、関連語句とは異なる他の語句をテキストデータに挿入する。
として機能させる音声生成プログラム。

上記発明において、他の語句は、ユーザによって入力された語句の少なくとも一音を変更した語句であってもよい。

上記発明において、第２手段は、所定のテキストデータとして語句に対するユーザへの質問文を生成してもよい。この場合、コンピュータを、質問文に対するユーザの回答を受け付け、入力された回答を語句に関連付けて記憶する第４手段としてさらに機能させればよい。

上記発明において、コンピュータを、完成したテキストデータを挿入された語句の直後で複数のフレーズに分割するテキスト分割手段としてさらに機能させ、第３手段は、合成音声を分割された各フレーズ毎に順次再生する第１音声再生手段、および、第１音声再生手段による各フレーズの合成音声の再生の境目に予め録音された音声信号である録音音声を再生する第２音声再生手段を含んでいてもよい。

上記発明において、第２音声再生手段は、第２手段が関連する語句とは異なる他の語句をテキストデータに挿入した場合、録音音声として、語句を間違ったことに対応する間投詞の音声を選択してもよい。

本発明のゲーム装置は、上記音声生成プログラム、および、テキストデータを記憶する記憶部と、入力操作部と、音声生成プログラムを実行する制御部と、を備える。テキストデータは、ゲーム上の仮想的な話者がユーザに対して発声する会話文であり、挿入される語句は、ユーザが入力操作部を用いて仮想的な話者に対して入力した語句であることを特徴とする。

この発明によれば、テキストデータに基づく自由度の高い音声を録音音声で表情づけして生成することが可能になる。

本発明が適用される音声生成装置のブロック図である。音声生成装置による音声生成の手順を説明する図である。ゲーム装置のブロック図である。ゲーム装置のメモリ構成図である。ゲーム装置で実行されるゲームの進行手順を説明する図である。ゲーム装置の制御部のゲームにおける会話処理を示すフローチャートである。テキストデータに間違った語句を挿入し、その直後で分割して中音声を再生する場合のゲーム装置の制御部の動作を示すフローチャートである。合成音声の再生を分割し、途中に録音音声を挿入する場合の音声生成の手順を説明する図である。合成音声の生成を分割し、途中に録音音声を挿入する場合の音声生成の手順を説明する図である。

図面を参照してこの発明が適用される音声生成装置(generator)１００について説明する。図１は音声生成装置１００の機能ブロック図である。図２は、音声生成装置１００による音声生成の基本的な手順を示す図である。この音声生成装置１００は、テキストデータ（以下、単にテキストと呼ぶ。）１１０に基いて音声データを合成(synthesize)する音声合成部１０１、および、音声データを再生(playback)する音声再生部１０４を備えている。

音声再生部１０４は、予め録音された音声データ（録音音声）１１１、および、音声合成部１０１が合成した音声データ（合成音声）１１２の両方を再生する。音声合成部１０１がテキスト１１０に基づく音声を合成するとき、音声再生部１０４が、図２に示すように、その合成音声１１２を再生する前後に、予め録音されていた録音音声１１１（前音声１１１Ａ、後音声１１１Ｂ）を再生する。

録音音声は、たとえば声優などが表情豊かに発声した音声（生声）である。これにより、人工的に合成されて表情が乏しい合成音声１１２を録音音声で補完することができる。

音声合成部１０１に供給されるテキスト１１０は、例えば、何らかの感情（例えば喜びや驚き）を伴ったものである。録音音声メモリ１０３には、種々の感情に対応し、その感情を表現する複数の録音音声が記憶されている。前音声１１１Ａおよび後音声１１１Ｂは、供給されるテキストの感情と同じような感情を表現するもの（同じようなカテゴリに分類されるもの（図４参照））が選択される。

テキスト１１０を音声合成して出力するプロセスがスタートすると、まず、前音声１１１Ａがメモリ１０３から読み出され、これを音声再生部１０４で再生する。前音声１１１Ａが再生されている間に、音声合成部１０１は、供給されたテキスト１１０を音声化（音声合成）する。音声合成部１０１によって合成された合成音声１１２は合成バッファ１０２に記憶され、前音声１１１Ａの再生が終了したのち、前音声１１１Ａに続いて再生される。合成音声１１２の再生中に後音声１１１Ｂが読み出される。合成音声１１２の再生が終了すると、音声再生部１０４は、これに続けて後音声１１１Ｂを再生する。

後音声１１１Ｂも前音声１１１Ａと同様に、メモリ１０３に記憶されている録音音声１１１のなかから、音声合成部１０１に供給されるテキスト１１０（音声合成部１０１で合成された合成音声１１２）に対応するものが選択される。なお、後音声１１１Ｂのメモリ１０３からの読み出しは、前音声１１１Ａの読み出しと同時に行われてもよい。

後音声１１１Ｂは前音声１１１Ａとは別のものが選択されるのが好ましいが、同じものであってもよい。前音声１１１Ａと合成音声１１２との間、および、合成音声１１２と後音声１１１Ｂとの間は、完全に連続していてもいなくてもよいが、ユーザが聴覚的に一連の発声として聞こえる程度の間隔（たとえば１秒以内）で連続して再生されることが好ましい。図２に示した前音声１１１Ａ、後音声１１１Ｂは、両方再生されてもよいが前音声１１１Ａのみでもよい。

図１、図２に説明した音声生成装置１００は、音声を合成する種々の装置に適用可能である。例えば、ビデオゲームにおけるキャラクタの会話音声の生成に用いてもよい。以下、音声生成装置１００の適用例として携帯ゲーム機およびこの携帯ゲーム装置で実行されるゲームについて説明する。

以下一例として説明するゲームは、ゲーム中のキャラクタ（女の子）とユーザ（ゲームのプレイヤ）が会話をしながら、キャラクタ（ＡＩ）の知識を増やしてゆく育成ゲームである。キャラクタは、ユーザと会話する言葉を発する。この言葉の生成機能を上述の音声生成装置１００が担当する。

図３は、上記音声生成装置１００の機能がプログラムとの協働で実現されるゲーム装置１のブロック図である。図３において、ゲーム装置１は、バス２６上に、制御部２０、操作部３０、ゲームメディアインタフェース３１、ＳＤカードインタフェース３２、無線通信回路部３３およびマイクインタフェース３４を有している。制御部２０は、ＣＰＵ２１、ＲＯＭ（フラッシュメモリ）２２、ＲＡＭ２３、画像プロセッサ２４および音声プロセッサ２５を含んでいる。

画像プロセッサ２４には、ビデオＲＡＭ（ＶＲＡＭ）４０が接続され、ＶＲＡＭ４０には表示部４１が接続されている。表示部４１は、上述の上部ディスプレイ１０および下部ディスプレイ１１を含む。音声プロセッサ２５には、Ｄ／Ａコンバータを含むアンプ４２が接続され、アンプ４２にはスピーカ１６およびイヤホン端子１７が接続されている。

操作部３０は、上述のタッチパネル１２、ボタン群１３およびスライドパッド１４を含み、それぞれユーザの操作を受け付けて、その操作内容に応じた操作信号を発生する。この操作信号はＣＰＵ２１によって読み取られる。マイクインタフェース３４は、Ａ／Ｄコンバータを内蔵している。マイクインタフェース３４には、マイク１８が接続されている。マイクインタフェース３４は、マイク１８が集音した音声をデジタル信号に返還して制御部２０に入力する。

ゲームメディアインタフェース３１はメディアスロット３１Ａを含み、メディアスロット３１Ａにセットされたゲームメディア５に対するリード／ライトを行う。ゲームメディア５は、専用の半導体メモリであり、内部にゲームデータおよびゲームプログラムが記憶されている。ゲームデータは、キャラクタが話す会話文のテキスト１１０、および、前音声、後音声として用いられる録音音声１１１などを含んでいる。また、ゲームメディア５は、ゲーム履歴データ記憶エリア５０を有している。

ゲーム履歴データは、ユーザがこのゲームにおいて入力した語句などを含む。ゲームが一旦終了されたとき、そのときのゲームの状態を示すゲーム履歴データがＲＡＭ２３からゲーム履歴データ記憶エリア５０に保存される。その後、ゲームが再開されるとき、ゲーム履歴データ記憶エリア５０からＲＡＭ２３に転送される。なお、ゲームメディア５は、専用の半導体メモリに限定されず、汎用の半導体メモリ、光ディスクなどでも構わない。

ＳＤカードインタフェース３２にはＳＤカード６が接続される。ＳＤカード６は、マイクロＳＤカードであり、下部筐体１Ｂに内蔵されている。ＳＤカード６には、ダウンロードされたゲームプログラムなどが記憶される。

ＲＡＭ２３には、ゲームメディア５から読み込まれたゲームプログラムおよびゲームデータを記憶するロードエリア、および、ＣＰＵ２１がゲームプログラムを実行する際に使用されるワークエリアが設定される。したがって、ＲＡＭ２３には、会話文テキスト１１０や録音音声１１１を記憶する記憶エリア６１や、初期設定やキャラクタとの会話においてユーザが入力した語句を記憶する入力語句記憶エリア６０が設けられている。また、図１の合成音声バッファ１０２もＲＡＭ２３内に設けられる。ＲＯＭ２２は、フラッシュメモリで構成され、ゲーム装置１がゲームメディア５からゲームプログラムを読み込んでゲームを実行するための基本プログラムが設定される。

画像プロセッサ２４は、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ，グラフィックス・プロセッシング・ユニット）を有し、上述の上部ディスプレイ１０に表示されるキャラクタの画像や下部ディスプレイ１１に表示される文字パネルの画像などを形成しＶＲＡＭ４０上に描画する。

音声プロセッサ２５は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ，デジタル・シグナル・プロセッサ）を有し、ゲーム音声を生成する。このゲームにおいて、ゲーム音声には、キャラクタがユーザと会話する音声が含まれており、図１に示した音声生成装置１００は、ゲーム装置１の制御部２０（特に音声プロセッサ２５）およびゲームプログラムの協働によって実現される。アンプ４２は、音声プロセッサ２５によって音声信号を増幅してスピーカ１６およびイヤホン端子１７に出力する。

無線通信回路部３３は、２．４ＧＨｚ帯のデジタル通信回路を備えており、無線アクセスポイントを介したインターネット通信を行うとともに、直接他のゲーム装置１と通信を行う。無線通信回路部３３は、インターネット通信を行う場合にはＩＥＥＥ８０２．１１ｇ（いわゆるＷｉ−Ｆｉ）規格で通信を行い、ローカル通信を行う場合にはＩＥＥＥ８０２．１１ｂ規格のアドホックモードまたは独自の規格で通信を行う。

なお、図１の音声合成部１０１および音声再生部１０４は、制御部２０とゲームプログラムとの協働で実現される。

図４は、ゲームデータの一部である会話文のテキスト１１０と録音音声１１１の記憶形態を説明する図である。図４（Ａ）は、テキスト１１０および録音音声１１１の記憶エリア６１の構成を示す図である。記憶エリア６１は、複数のカテゴリに区分され、各カテゴリは複数のサブカテゴリに区分されている。

カテゴリは、たとえば、「よろこび」、「通常」、「ドッキリ」などの大雑把な感情の分類である。サブカテゴリは、カテゴリ（大雑把な感情）中の具体的な感情を表している。たとえば、「よろこび」カテゴリは、「うれしい」、「満足」、「しあわせ」、「気楽」、「リラックス」などのサブカテゴリを含んでいる。また、「通常」カテゴリは、「確認」、「否定」、「思いつき」、「ひとりごと」などのサブカテゴリを含んでいる。

各サブカテゴリに、１または複数の会話文のテキスト（会話文データ）、および、１または複数の録音音声が記憶される。所定の会話のタイミングにゲームの進行状況に応じたカテゴリおよび会話文１１０が選択され、このカテゴリに対応する録音音声が前音声１１１Ａ、後音声１１１Ｂとして選択される。

図４（Ｂ）は、音声生成データ記憶領域の一部の具体例を示した図である。この図は、「よろこび」カテゴリの記憶エリアの例を示した図である。「よろこび」カテゴリには「うれしい」、「満足」、「しあわせ」、「気楽」、「リラックス」のサブカテゴリを含み、それぞれのサブカテゴリ領域には１または複数の会話文および録音音声が記憶されている。

会話文としては、「○○をもらってうれしいです。」や「○○おいしそう。」などのテキストが記憶される。テキストの一部の「○○」は空欄を示し、この箇所にユーザによって入力された語句（入力語句）が当てはめられる（挿入される）。

録音音声としては「うわ〜」、「わーい」、「やった！」など「うれしい」の感情を表現する間投詞などの短い音声が記憶される。この記憶されている会話文および録音音声に基づいて「うわ〜、プレゼントをもらってうれしいです。やった！」などのキャラクタの発言が生成される。

また、記憶された一部または全部の録音音声を複数のカテゴリに共通のものとしてもよい。たとえば、「え〜」、「う〜ん」、「あ〜」などの会話の間をつなぐ言葉または「ははは」「うふ」「キャ」などの笑い声などを共通の録音音声として記憶してもよい。これらの録音音声が、全てのカテゴリで共通に用いられてもよく、一部の（複数の）カテゴリで共通に用いられてもよい。

また、同じ言葉、たとえば「う〜ん」などが複数のカテゴリで用いられる場合、各カテゴリ毎に録音音声として記憶されてもよい。この場合、それぞれそのカテゴリに応じた表情づけで発音されたものが録音されればよい。

また、会話文中に設けられる空欄は複数であってもよい。たとえば、「○○さんは、△△が好きなんですか？」などである。○○、△△のところに、たとえばユーザの名前やユーザによって登録された語句が当てはめられる。

図５はゲーム装置１の制御部２０およびユーザによって行われる会話の順序・流れを示す図である。制御部２０は、ゲームのスタート時に、ユーザがゲーム装置１に対してプロファイルや好みを登録する（Ｓ１００）。そして、制御部２０は、入力された内容を制御部２０が入力語句記憶エリア６０に記憶する（Ｓ１０１）。

その後、制御部２０は、ユーザとキャラクタがゲーム中で一緒に旅に出るゲームを開始させる（Ｓ１１０）。そして、制御部２０は、旅の途中の場面ごとにキャラクタとユーザが会話するイベントを実行する（Ｓ１２０）。

会話は以下の手順で行われる。まず、制御部２０はキャラクタがユーザに質問するイベントを実行させ（Ｓ１２１）、これに対するユーザの回答を受け付ける（Ｓ１２２）。

キャラクタは、ユーザによって登録された語句を会話文に当てはめることで会話を行う。これに対するユーザの会話の入力は、下画面に表示される文字パレットで文字を選択することで行われる。

制御部２０は、ユーザによって入力された回答を記憶し、その内容（質問に対する回答）を更新（学習）する。この会話イベントを繰り返すことで、入力語句記憶エリア６０に記憶される語句が増加し、且つ、その語句の属性（意味）を蓄積する。これにより、キャラクタが成長する様子を表現することができる。

図６は、キャラクタの発言を作成する制御部２０の動作を示すフローチャートである。この処理は、定期的なトリガに応じて実行される。まず、制御部２０は、現在のゲームの状況を判断する（Ｓ１０）。制御部２０は、このゲームの状況に基いて今が会話タイミングか否かを決定する（Ｓ１１）。制御部２０は、このゲームの状況に基いて今が会話タイミングでない場合には（Ｓ１１でＮＯ）そのまま動作を終了する。

制御部２０は、このゲームの状況に基いて今が会話のタイミングであると判断された場合は（Ｓ１１でＹＥＳ）、現在のゲームの状況に基づき生成する会話のカテゴリや会話文を選択する（Ｓ１２）。なお、このカテゴリ、会話文の選択はランダムに行われてもよい。

次に、制御部２０は、選択された会話文の空欄に当てはめる語句を入力語句記憶エリア６０から選択する（Ｓ１３）。これで会話文のテキスト１１０が完成する。そして、制御部２０は、この会話文と同じカテゴリに分類されている録音音声１１１のなかから、前音声１１１Ａおよび後音声１１１Ｂを選択する（Ｓ１４）。

制御部２０は、完成した会話文のテキストを音声合成部１０１に出力して音声データの合成を指示するとともに（Ｓ１５）、前音声１１１Ａを音声再生部１０４に入力して再生させる（Ｓ１６）。前音声１１１Ａの再生は１〜２秒程度継続し、この間に制御部２０は、音声合成部１０１は会話文の音声を合成する。

前音声１１１Ａの再生が終了すると（Ｓ１７）、制御部２０は、音声合成部１０１によって合成された合成音声１１２を音声再生部１０４に再生させる（Ｓ１８）。合成音声１１２の再生が終了すると（Ｓ１９）、制御部２０は、後音声１１１Ｂを音声再生部１０４に再生させる（Ｓ２０）。制御部２０は、この再生とともに、ユーザによる回答の入力を受け付ける（Ｓ２１）。制御部２０は、入力された回答の語句を入力語句記憶エリア６０に記憶する（Ｓ２２）。

なお、制御部２０は、会話文への語句の当てはめを、意味を考慮せずにランダムに行ってもよい。たとえば、ユーザの操作入力によって、記憶部に「カプコン」と「ケーキ」という語句が記憶されていた場合、通常「え〜、その（カプコン）って頑張ってますね。う〜ん。」との用法、または、「え〜、その（ケーキ）って美味しそうですね。う〜ん。」との用法で入力語句が使用されるところ、「え〜、その（カプコン）って美味しそうですね。う〜ん。」などの通常とは異なる用法で入力語句が使用されてもよい。

この会話文中で、「え〜」および「う〜ん」が前音声および後音声であり、かっこで囲まれた「カプコン」が挿入された語句である。すなわちこの会話文は、「その○○って美味しそうですね。」のテキストデータに、「カプコン」の語句（ミスマッチ語句）が、食べ物ではないという情報とは無関係に挿入された例である。このゲームでは、この語句の間違った用法により、キャラクタの可愛さや学習レベルを演出している。

また、制御部２０は、キャラクタに「え〜、そのカプコンって美味しそうですね。う〜ん。」との会話をさせたあと、たとえば、「カプコンってどんな味ですか？」とユーザに質問させる。このとき、ユーザが「カプコンは食べ物ではない。」と返答（入力）をすると、制御部２０は、カプコンが食べ物ではないことを記憶部に記憶する（学習する）。制御部２０は、質問と並行して複数の回答用選択肢を表示し、ユーザに適当な選択肢を選択させることで、ユーザの返答を得るようにしてもよい。

語句を間違えさせる形態は例えば以下のようである。
（１）語句の意味を間違えさせる。例、「昨日私はタイヤを食べました。」
（２）語句の音を間違えさせる。例、「野球（ヤキュウ）」を「ヤギュウ」と音声合成する。
（３）語句の語順を間違えさせる。例、「山本（ヤマモト）」を「ヤマトモ」と音声合成する。
（４）スムーズに発音させない（かませる）。例、「メソポタミア」を「メソポポ、ポタミア」と音声合成する。
などである。

「タイヤ」、「野球」、「山本」、「メソポタミア」は、ユーザの操作入力によって記憶部に記憶された入力語句である。一方、「ヤギュウ」、「ヤマトモ」、「メソポポ、ポタミア」は、これらの入力語句の記憶に伴って、ミスマッチ語句として記憶部に記憶された語句である。制御部２０は、ユーザによって操作入力された語句の一部を補正することでミスマッチ語句を生成する。

なお、制御部２０は、ミスマッチ語句は、間違った用法で生成する際に、語句の一部を補正することで生成してもよい。入力語句を新規に登録するときに、並行してミスマッチ語句も記憶していてもよいし、会話文の生成時にミスマッチ語句を生成してもよい。

ゲームにおいて、ユーザはキャラクタと会話をすることでこのキャラクタに語句を教える。一方、キャラクタはこの語句を覚えた直後は、語句の意味や発音に関する情報を得ないまま使用する。すなわち、制御部２０は、あらかじめ記憶部に記憶されたテキストデータの一部に入力語句をランダムに挿入して使用する。そして、制御部２０は、会話によって入力語句の情報を蓄積させ、適切な会話となるようにテキストデータに基づいた語句を選択する。

また、制御部２０は、所定の条件が成立すると、入力語句の発音を異ならせたり、語順を入れ換えたりして、入力語句に変えてミスマッチ語句を選択する。たとえば、入力語句を初めて使用場合や使用回数が１０回以内の場合（言葉の意味をよく理解していない状態を表現)、ランダム（うっかり間違いを表現）、または、入力語句が１００回使用されている場合（ふざけている状態を表現）などを所定の条件とすることができる。これにより、キャラクタが言葉の意味を理解していなかったり、うっかり間違ったり、ふざけていることを会話で表現することができる。

また、会話文で上のように語句を間違えさせ、間違えた語句の直後に録音音声を発生させてもよい。たとえば、間違えた直後に「テヘッ」など照れ隠しの語句を録音音声で挿入してもよい。さらに、そのあとに、制御部２０は、正しい用法で使用された語句を含むテキストを音声合成してもよい。

図７は、本発明の実施形態である音声生成の手順を説明する図である。この実施形態では、制御部２０は、会話文にミスマッチ語句を挿入し、ミスマッチ語句を再生した後で会話文の再生を中断して、「テヘッ」、「あっ」などの短い録音音声を中音声として再生する。これにより、会話文の表情付けをより効率的に行う。

図７は、会話文にミスマッチ語句を挿入し、ミスマッチ語句を再生した後に録音音声を中音声として再生する場合の制御部２０の動作を示すフローチャートである。また、図８は、音声生成装置１００による音声生成の手順を示す図である。この処理は、定期的なトリガに応じて実行される。まず、制御部２０は、現在のゲームの状況を判断する（Ｓ３０）。制御部２０は、このゲームの状況に基いて今が会話タイミングか否かを決定する（Ｓ３１）。制御部２０は、タイミングでない場合には（Ｓ３１でＮＯ）そのまま動作を終了する。

制御部２０は、会話のタイミングであると判断した場合は（Ｓ３１でＹＥＳ）、現在のゲームの状況に基づき生成する会話のカテゴリや会話文を選択する（Ｓ３２）。次に、制御部２０は、選択された会話文の空欄に当てはめる語句を入力語句記憶領域６０から選択する（Ｓ３３）。このとき、制御部２０は、会話文と語句との対応を無視してランダムに語句を選択してもよい。また、制御部２０は、選択された語句の発音や語順を変更して間違えた語句にする（Ｓ３４）。Ｓ３３の語句の選択間違いとＳ３４の発音の間違いは、いずれか一方を適用してもよく、両方を適用してもよい。また、間違える語句の直後を会話文の分割箇所とする。

制御部２０は、選択された会話文と同じカテゴリに分類されている録音音声のなかから前音声１１１Ａ、後音声１１１Ｂを選択するとともに、間違えた語句の直後に再生される中音声１１１Ｃを選択する（Ｓ３５）。間違えた語句の直後に再生される中音声１１１Ｃは、カテゴリ毎に分類されていてもよく、会話文のカテゴリとは別に間違え対応の録音音声に分類されていてもよい。

こののち、制御部２０は、会話文のテキストを音声合成部１０１に出力して音声データの合成を指示するとともに（Ｓ３６）、前音声１１１Ａの再生を指示する（Ｓ３７）。制御部２０は、Ｓ３８で前音声１１１Ａの再生が終了するまで待機し、前音声の再生が終了すると（Ｓ３８でＹＥＳ）、音声合成部１０１によって合成された合成音声のうち、語句を間違えた箇所までの前半部分１１２Ａを音声再生部１０４に入力して再生させる（Ｓ４０）。

制御部２０は、合成音声の前半１１２Ａの再生が終了すると（Ｓ４１でＹＥＳ）、「テヘッ」、「あっ」などの中音声１１１Ｃを音声再生部１０４に再生する（Ｓ４２）。制御部２０は、中音声１１１Ｃの再生が終了すると（Ｓ４３でＹＥＳ）、合成音声の後半１１２Ｂを音声再生部１０４に再生する（Ｓ４４）。そして、制御部２０は、合成音声の後半１１２Ｂの再生が終了すると（Ｓ４５でＹＥＳ）、後音声１１１Ｂを音声再生部１０４に再生する（Ｓ４６）。制御部２０は、この再生とともに、ユーザによる回答の入力を受け付ける（Ｓ４７）。制御部２０は、入力された回答の語句を入力語句記憶領域６０に記憶する（Ｓ４８）。

また、会話文のテキストが長い場合、会話文を複数のフレーズに分割してもよい。この場合、フレーズごとに音声合成して再生し、各フレーズの間にも録音音声を挿入すればよい。挿入された録音音声の再生中にその直後のフレーズの音声合成をすればよい。また、複数の会話文を連続して合成する場合にも同様に、会話文と会話文との間に録音音声を挿入して、この録音音声の再生中に後の会話文の音声合成を合成するようにすればよい。

図８、図９は、ミスマッチ語句を挿入する場合（中音声を発生させる場合の）音声生成の手順を説明する図である。ここでは、会話文を複数（この例では２つ）のフレーズに分割し、フレーズとふれーずの境目に「テヘッ」、「あっ」などの短い録音音声を挿入する。これにより、語句を間違えた場合の表情付けをより効率的に行う。

このように、会話文中の語句を間違えさせ、その直後に生声である録音音声１１１を挿入することにより、よりリアルに表情を豊かにすることができる。

図７、図８の例では、テキスト１１０を前音声１１１Ａの再生中に合成したが、テキストの前半（合成音声１１２Ａに対応）を前音声１１１Ａの再生中に合成し、後半（合成音声１１２Ｂに対応）を中音声１１１Ｃの再生中に合成してもよい。

図９は、会話文を間違え箇所で２つのフレーズに分割し、フレーズ毎に音声合成する場合の手順を示した図である。

間違い箇所のあるテキスト１１０が決定され、音声合成して出力するプロセスがスタートすると、まず、前音声１１１Ａがメモリ１０３から読み出され、これを音声再生部１０４で再生する。前音声１１１Ａが再生されている間に、音声合成部１０１は、間違え箇所までの前半のフレーズ（会話文の前半）を音声化（音声合成）する。音声合成部１０１によって合成された合成音声１１２Ａは合成バッファ１０２に記憶され、前音声１１１Ａの再生が終了したのち、前音声１１１Ａに続いて再生される。合成音声１１２Ａの再生中にフレーズ間で再生される録音音声である中音声１１１Ｃが読み出される。合成音声１１２Ａの再生が終了すると、音声再生部１０４は、これに続けて中音声１１１Ｃを再生する。なお、中音声１１１Ｃの読み出しは、前音声１１１Ａの読み出し後、合成音声１１２Ａの生成終了までであればいつでもよい。

中音声１１１Ｃとしては、たとえば上述したような「テヘッ」、「あっ」など、間違いの照れ隠しのような音声が選択される。中音声１１１Ｃが再生されている間に、音声合成部１０１は後半のフレーズ（会話文の後半）を音声合成する。音声合成部１０１によって合成された後半の合成音声１１２Ｂは合成バッファ１０２に記憶され、中音声１１１Ｃの再生が終了したのち、中音声１１１Ｃに続いて再生される。後半の合成音声１１２Ｂの再生中に後音声１１１Ｂが読み出される。合成音声１１２Ｂの再生が終了すると、音声再生部１０４は、これに続けて後音声１１１Ｂを再生する。

以上の実施形態では、図７〜図９に示したように、会話文（合成音声）１１２の前後に録音音声１１１（前音声１１１Ａ、後音声１１１Ｂ）を付加した、すなわち、会話文を録音音声で挟んでいる。これら前音声１１１Ａ、後音声１１１Ｂは無くてもよく、また、いずれか一方のみ付加されていてもよい。

なお、音声合成部１０１は、会話文の内容やゲームの状況に応じて、合成される音声１１２の速さ、ピッチ、音量などを変化させてもよい。その場合、そのパラメータが音声再生部１０４に提供され、音声再生部１０４は、合成音声１１２に合わせた速さ、ピッチ、音量で録音音声１１１を再生する。また、音声合成部１０１は通常の速さ、ピッチ、音量で音声を合成し、音声再生部１０４が、会話文の内容やゲームの状況に応じて、合成音声１１２、録音音声１１１の両方の速さ、ピッチ、音量を調整して再生するようにしてもよい。

なお、後音声１１１Ｂの語尾を、キャラクタの性格、キャラクタの成長度合い、キャラクタの服装などに応じて変化させてもよい。すなわち、「〜にゃ」、「〜でございます。」などの語を選択された後音声の語尾に付加して再生してもよい。また、予め「○○にゃ」、「○○でございます。」（○○は語句）の音声を録音音声として記憶しておいてもよい。

また、ゲーム上の場所に応じて、生成する音声（キャラクタが喋る音声）の音量や音質を変化させてもよい。例えば、場所が電車内の場合にはヒソヒソ声、青空の下では元気な声の音声を生成してもよい。

１ゲーム装置
５ゲームメディア
２０制御部
２１ＣＰＵ
２２ＲＯＭ（フラッシュメモリ）
５０ゲーム履歴データ記憶エリア
６０入力語句記憶エリア
６１（会話文、録音音声の）記憶エリア
１００音声生成装置
１０１音声合成部
１０４音声再生部

本発明の音声合成プログラムは、記憶部を備えたコンピュータを、ユーザによって入力された語句を記憶部に記憶する第１手段、所定のテキストデータに、記憶部から読み出された当該テキストデータと関連する語句を挿入し、所定の条件が成立した場合、この関連する語句とは異なる他の語句をテキストデータに挿入する第２手段、このテキストデータを挿入された語句の直後で複数のフレーズに分割するテキスト分割手段、このテキストデータを音声合成する第３手段、この合成音声を分割された各フレーズ毎に順次再生する第１音声再生手段、および、第１音声再生手段による各フレーズの合成音声の再生の境目に、予め録音された音声信号である録音音声を再生する第２音声再生手段、として機能させる。

Claims

記憶部を備えたコンピュータを、
ユーザによって入力された語句を前記記憶部に記憶する第１手段、
所定のテキストデータに、前記記憶部から読み出された当該テキストデータと関連する語句を挿入する第２手段、
このテキストデータを音声合成して再生する第３手段、
として機能させ、
前記第２手段は、所定の条件が成立した場合、前記関連する語句とは異なる他の語句を前記テキストデータに挿入する
として機能させる音声生成プログラム。
前記他の語句は、前記ユーザによって入力された語句の少なくとも一音を変更した語句である請求項１に記載の音声生成プログラム。
前記第２手段は、前記所定のテキストデータとして、前記語句に対する前記ユーザへの質問文を生成し、
前記コンピュータを、前記質問文に対する前記ユーザの回答を受け付け、入力された回答を前記語句に関連付けて記憶する第４手段、としてさらに機能させる請求項１または請求項２に記載の音声生成プログラム。
コンピュータを、前記テキストデータを前記挿入された語句の直後で複数のフレーズに分割するテキスト分割手段としてさらに機能させ、
前記第３手段は、
前記合成音声を、前記分割された各フレーズ毎に順次再生する第１音声再生手段、
前記第１音声再生手段による各フレーズの合成音声の再生の境目に、予め録音された音声信号である録音音声を再生する第２音声再生手段、
を含む請求項１乃至請求項３のいずれかに記載の音声生成プログラム。
前記第２音声再生手段は、前記第２手段が前記関連する語句とは異なる他の語句を前記テキストデータに挿入した場合、前記録音音声として、語句を間違ったことに対応する間投詞の音声を選択する請求項４に記載の音声生成プログラム。
請求項１乃至請求項５のいずれかに記載の音声生成プログラム、および、前記テキストデータを記憶する記憶部と、入力操作部と、該音声生成プログラムを実行する制御部と、を備え、
前記テキストデータは、前記ゲーム上の仮想的な話者がユーザに対して発声する会話文であり、
前記挿入される語句は、前記ユーザが前記入力操作部を用いて前記仮想的な話者に対して入力した語句である、
ゲーム装置。