JP2018072765A - 音声生成プログラムおよびゲーム装置 - Google Patents

音声生成プログラムおよびゲーム装置 Download PDF

Info

Publication number
JP2018072765A
JP2018072765A JP2016216135A JP2016216135A JP2018072765A JP 2018072765 A JP2018072765 A JP 2018072765A JP 2016216135 A JP2016216135 A JP 2016216135A JP 2016216135 A JP2016216135 A JP 2016216135A JP 2018072765 A JP2018072765 A JP 2018072765A
Authority
JP
Japan
Prior art keywords
voice
phrase
text data
user
game
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016216135A
Other languages
English (en)
Other versions
JP6134043B1 (ja
Inventor
善樹 山東
Yoshiki Santo
善樹 山東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Capcom Co Ltd
Original Assignee
Capcom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Capcom Co Ltd filed Critical Capcom Co Ltd
Priority to JP2016216135A priority Critical patent/JP6134043B1/ja
Application granted granted Critical
Publication of JP6134043B1 publication Critical patent/JP6134043B1/ja
Publication of JP2018072765A publication Critical patent/JP2018072765A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】自由度の高い内容の音声を表情豊かに生成できる音声生成プログラムを提供する。【解決手段】音声生成プログラムは、記憶部を備えたコンピュータを、ユーザによって入力された語句を記憶部に記憶する第1手段、所定のテキストデータに、記憶部から読み出された当該テキストデータの関連語句を挿入する第2手段、このテキストデータを音声合成して再生する第3手段として機能させる。さらに、第2手段は、所定の条件が成立した場合、関連語句とは異なる他の語句をテキストデータに挿入する。これにより、合成される音声に間違いを生じさせてリアルな会話にすることができる。【選択図】図7

Description

この発明は、テキストに基づいて合成された音声を含む音声を再生する音声生成プログラムおよびゲーム装置に関する。
ビデオゲームなどで、場面に応じた音声を生成(generate)する場合、テキストデータに基いて音声波形を合成する音声合成(特許文献1参照)や、予め録音しておいた音声を再生する音声再生などが用いられる。
特開2001−034282
音声合成は、どのような文でもテキストデータに基いて音声を合成できるため、自由度が高く、臨機応変な文の音声化が可能である。その反面、音声信号波形の合成に時間が掛かるため、即座の音声の生成ができない。また、人工的に合成された音声波形であるため単調で感情表現が十分できないという欠点がある。
一方、録音音声の再生は、メモリから音声データを読みだすだけで再生できるため、即座の再生が可能であるとともに、録音音声として感情を込めた音を録音しておけば、感情豊かな表情のある音声の生成が可能である。その一方で、予め録音された音声しか再生できないため、自由度が低く臨機応変な内容を生成できないという欠点がある。
この発明の目的は、自由度の高い内容の音声を表情豊かに生成できる音声生成プログラムおよびゲーム装置を提供することにある。
本発明の音声生成プログラムは、記憶部を備えたコンピュータを、ユーザによって入力された語句を記憶部に記憶する第1手段、所定のテキストデータに、記憶部から読み出された該テキストデータの関連語句を挿入する第2手段、このテキストデータを音声合成して再生する第3手段として機能させる。さらに、第2手段は、所定の条件が成立した場合、関連語句とは異なる他の語句をテキストデータに挿入する。
として機能させる音声生成プログラム。
上記発明において、他の語句は、ユーザによって入力された語句の少なくとも一音を変更した語句であってもよい。
上記発明において、第2手段は、所定のテキストデータとして語句に対するユーザへの質問文を生成してもよい。この場合、コンピュータを、質問文に対するユーザの回答を受け付け、入力された回答を語句に関連付けて記憶する第4手段としてさらに機能させればよい。
上記発明において、コンピュータを、完成したテキストデータを挿入された語句の直後で複数のフレーズに分割するテキスト分割手段としてさらに機能させ、第3手段は、合成音声を分割された各フレーズ毎に順次再生する第1音声再生手段、および、第1音声再生手段による各フレーズの合成音声の再生の境目に予め録音された音声信号である録音音声を再生する第2音声再生手段を含んでいてもよい。
上記発明において、第2音声再生手段は、第2手段が関連する語句とは異なる他の語句をテキストデータに挿入した場合、録音音声として、語句を間違ったことに対応する間投詞の音声を選択してもよい。
本発明のゲーム装置は、上記音声生成プログラム、および、テキストデータを記憶する記憶部と、入力操作部と、音声生成プログラムを実行する制御部と、を備える。テキストデータは、ゲーム上の仮想的な話者がユーザに対して発声する会話文であり、挿入される語句は、ユーザが入力操作部を用いて仮想的な話者に対して入力した語句であることを特徴とする。
この発明によれば、テキストデータに基づく自由度の高い音声を録音音声で表情づけして生成することが可能になる。
本発明が適用される音声生成装置のブロック図である。 音声生成装置による音声生成の手順を説明する図である。 ゲーム装置のブロック図である。 ゲーム装置のメモリ構成図である。 ゲーム装置で実行されるゲームの進行手順を説明する図である。 ゲーム装置の制御部のゲームにおける会話処理を示すフローチャートである。 テキストデータに間違った語句を挿入し、その直後で分割して中音声を再生する場合のゲーム装置の制御部の動作を示すフローチャートである。 合成音声の再生を分割し、途中に録音音声を挿入する場合の音声生成の手順を説明する図である。 合成音声の生成を分割し、途中に録音音声を挿入する場合の音声生成の手順を説明する図である。
図面を参照してこの発明が適用される音声生成装置(generator)100について説明する。図1は音声生成装置100の機能ブロック図である。図2は、音声生成装置100による音声生成の基本的な手順を示す図である。この音声生成装置100は、テキストデータ(以下、単にテキストと呼ぶ。)110に基いて音声データを合成(synthesize)する音声合成部101、および、音声データを再生(playback)する音声再生部104を備えている。
音声再生部104は、予め録音された音声データ(録音音声)111、および、音声合成部101が合成した音声データ(合成音声)112の両方を再生する。音声合成部101がテキスト110に基づく音声を合成するとき、音声再生部104が、図2に示すように、その合成音声112を再生する前後に、予め録音されていた録音音声111(前音声111A、後音声111B)を再生する。
録音音声は、たとえば声優などが表情豊かに発声した音声(生声)である。これにより、人工的に合成されて表情が乏しい合成音声112を録音音声で補完することができる。
音声合成部101に供給されるテキスト110は、例えば、何らかの感情(例えば喜びや驚き)を伴ったものである。録音音声メモリ103には、種々の感情に対応し、その感情を表現する複数の録音音声が記憶されている。前音声111Aおよび後音声111Bは、供給されるテキストの感情と同じような感情を表現するもの(同じようなカテゴリに分類されるもの(図4参照))が選択される。
テキスト110を音声合成して出力するプロセスがスタートすると、まず、前音声111Aがメモリ103から読み出され、これを音声再生部104で再生する。前音声111Aが再生されている間に、音声合成部101は、供給されたテキスト110を音声化(音声合成)する。音声合成部101によって合成された合成音声112は合成バッファ102に記憶され、前音声111Aの再生が終了したのち、前音声111Aに続いて再生される。合成音声112の再生中に後音声111Bが読み出される。合成音声112の再生が終了すると、音声再生部104は、これに続けて後音声111Bを再生する。
後音声111Bも前音声111Aと同様に、メモリ103に記憶されている録音音声111のなかから、音声合成部101に供給されるテキスト110(音声合成部101で合成された合成音声112)に対応するものが選択される。なお、後音声111Bのメモリ103からの読み出しは、前音声111Aの読み出しと同時に行われてもよい。
後音声111Bは前音声111Aとは別のものが選択されるのが好ましいが、同じものであってもよい。前音声111Aと合成音声112との間、および、合成音声112と後音声111Bとの間は、完全に連続していてもいなくてもよいが、ユーザが聴覚的に一連の発声として聞こえる程度の間隔(たとえば1秒以内)で連続して再生されることが好ましい。図2に示した前音声111A、後音声111Bは、両方再生されてもよいが前音声111Aのみでもよい。
図1、図2に説明した音声生成装置100は、音声を合成する種々の装置に適用可能である。例えば、ビデオゲームにおけるキャラクタの会話音声の生成に用いてもよい。以下、音声生成装置100の適用例として携帯ゲーム機およびこの携帯ゲーム装置で実行されるゲームについて説明する。
以下一例として説明するゲームは、ゲーム中のキャラクタ(女の子)とユーザ(ゲームのプレイヤ)が会話をしながら、キャラクタ(AI)の知識を増やしてゆく育成ゲームである。キャラクタは、ユーザと会話する言葉を発する。この言葉の生成機能を上述の音声生成装置100が担当する。
図3は、上記音声生成装置100の機能がプログラムとの協働で実現されるゲーム装置1のブロック図である。図3において、ゲーム装置1は、バス26上に、制御部20、操作部30、ゲームメディアインタフェース31、SDカードインタフェース32、無線通信回路部33およびマイクインタフェース34を有している。制御部20は、CPU21、ROM(フラッシュメモリ)22、RAM23、画像プロセッサ24および音声プロセッサ25を含んでいる。
画像プロセッサ24には、ビデオRAM(VRAM)40が接続され、VRAM40には表示部41が接続されている。表示部41は、上述の上部ディスプレイ10および下部ディスプレイ11を含む。音声プロセッサ25には、D/Aコンバータを含むアンプ42が接続され、アンプ42にはスピーカ16およびイヤホン端子17が接続されている。
操作部30は、上述のタッチパネル12、ボタン群13およびスライドパッド14を含み、それぞれユーザの操作を受け付けて、その操作内容に応じた操作信号を発生する。この操作信号はCPU21によって読み取られる。マイクインタフェース34は、A/Dコンバータを内蔵している。マイクインタフェース34には、マイク18が接続されている。マイクインタフェース34は、マイク18が集音した音声をデジタル信号に返還して制御部20に入力する。
ゲームメディアインタフェース31はメディアスロット31Aを含み、メディアスロット31Aにセットされたゲームメディア5に対するリード/ライトを行う。ゲームメディア5は、専用の半導体メモリであり、内部にゲームデータおよびゲームプログラムが記憶されている。ゲームデータは、キャラクタが話す会話文のテキスト110、および、前音声、後音声として用いられる録音音声111などを含んでいる。また、ゲームメディア5は、ゲーム履歴データ記憶エリア50を有している。
ゲーム履歴データは、ユーザがこのゲームにおいて入力した語句などを含む。ゲームが一旦終了されたとき、そのときのゲームの状態を示すゲーム履歴データがRAM23からゲーム履歴データ記憶エリア50に保存される。その後、ゲームが再開されるとき、ゲーム履歴データ記憶エリア50からRAM23に転送される。なお、ゲームメディア5は、専用の半導体メモリに限定されず、汎用の半導体メモリ、光ディスクなどでも構わない。
SDカードインタフェース32にはSDカード6が接続される。SDカード6は、マイクロSDカードであり、下部筐体1Bに内蔵されている。SDカード6には、ダウンロードされたゲームプログラムなどが記憶される。
RAM23には、ゲームメディア5から読み込まれたゲームプログラムおよびゲームデータを記憶するロードエリア、および、CPU21がゲームプログラムを実行する際に使用されるワークエリアが設定される。したがって、RAM23には、会話文テキスト110や録音音声111を記憶する記憶エリア61や、初期設定やキャラクタとの会話においてユーザが入力した語句を記憶する入力語句記憶エリア60が設けられている。また、図1の合成音声バッファ102もRAM23内に設けられる。ROM22は、フラッシュメモリで構成され、ゲーム装置1がゲームメディア5からゲームプログラムを読み込んでゲームを実行するための基本プログラムが設定される。
画像プロセッサ24は、GPU(Graphics Processing Unit,グラフィックス・プロセッシング・ユニット)を有し、上述の上部ディスプレイ10に表示されるキャラクタの画像や下部ディスプレイ11に表示される文字パネルの画像などを形成しVRAM40上に描画する。
音声プロセッサ25は、DSP(Digital Signal Processor,デジタル・シグナル・プロセッサ)を有し、ゲーム音声を生成する。このゲームにおいて、ゲーム音声には、キャラクタがユーザと会話する音声が含まれており、図1に示した音声生成装置100は、ゲーム装置1の制御部20(特に音声プロセッサ25)およびゲームプログラムの協働によって実現される。アンプ42は、音声プロセッサ25によって音声信号を増幅してスピーカ16およびイヤホン端子17に出力する。
無線通信回路部33は、2.4GHz帯のデジタル通信回路を備えており、無線アクセスポイントを介したインターネット通信を行うとともに、直接他のゲーム装置1と通信を行う。無線通信回路部33は、インターネット通信を行う場合にはIEEE802.11g(いわゆるWi−Fi)規格で通信を行い、ローカル通信を行う場合にはIEEE802.11b規格のアドホックモードまたは独自の規格で通信を行う。
なお、図1の音声合成部101および音声再生部104は、制御部20とゲームプログラムとの協働で実現される。
図4は、ゲームデータの一部である会話文のテキスト110と録音音声111の記憶形態を説明する図である。図4(A)は、テキスト110および録音音声111の記憶エリア61の構成を示す図である。記憶エリア61は、複数のカテゴリに区分され、各カテゴリは複数のサブカテゴリに区分されている。
カテゴリは、たとえば、「よろこび」、「通常」、「ドッキリ」などの大雑把な感情の分類である。サブカテゴリは、カテゴリ(大雑把な感情)中の具体的な感情を表している。たとえば、「よろこび」カテゴリは、「うれしい」、「満足」、「しあわせ」、「気楽」、「リラックス」などのサブカテゴリを含んでいる。また、「通常」カテゴリは、「確認」、「否定」、「思いつき」、「ひとりごと」などのサブカテゴリを含んでいる。
各サブカテゴリに、1または複数の会話文のテキスト(会話文データ)、および、1または複数の録音音声が記憶される。所定の会話のタイミングにゲームの進行状況に応じたカテゴリおよび会話文110が選択され、このカテゴリに対応する録音音声が前音声111A、後音声111Bとして選択される。
図4(B)は、音声生成データ記憶領域の一部の具体例を示した図である。この図は、「よろこび」カテゴリの記憶エリアの例を示した図である。「よろこび」カテゴリには「うれしい」、「満足」、「しあわせ」、「気楽」、「リラックス」のサブカテゴリを含み、それぞれのサブカテゴリ領域には1または複数の会話文および録音音声が記憶されている。
会話文としては、「○○をもらってうれしいです。」や「○○おいしそう。」などのテキストが記憶される。テキストの一部の「○○」は空欄を示し、この箇所にユーザによって入力された語句(入力語句)が当てはめられる(挿入される)。
録音音声としては「うわ〜」、「わーい」、「やった!」など「うれしい」の感情を表現する間投詞などの短い音声が記憶される。この記憶されている会話文および録音音声に基づいて「うわ〜、プレゼントをもらってうれしいです。やった!」などのキャラクタの発言が生成される。
また、記憶された一部または全部の録音音声を複数のカテゴリに共通のものとしてもよい。たとえば、「え〜」、「う〜ん」、「あ〜」などの会話の間をつなぐ言葉または「ははは」「うふ」「キャ」などの笑い声などを共通の録音音声として記憶してもよい。これらの録音音声が、全てのカテゴリで共通に用いられてもよく、一部の(複数の)カテゴリで共通に用いられてもよい。
また、同じ言葉、たとえば「う〜ん」などが複数のカテゴリで用いられる場合、各カテゴリ毎に録音音声として記憶されてもよい。この場合、それぞれそのカテゴリに応じた表情づけで発音されたものが録音されればよい。
また、会話文中に設けられる空欄は複数であってもよい。たとえば、「○○さんは、△△が好きなんですか?」などである。○○、△△のところに、たとえばユーザの名前やユーザによって登録された語句が当てはめられる。
図5はゲーム装置1の制御部20およびユーザによって行われる会話の順序・流れを示す図である。制御部20は、ゲームのスタート時に、ユーザがゲーム装置1に対してプロファイルや好みを登録する(S100)。そして、制御部20は、入力された内容を制御部20が入力語句記憶エリア60に記憶する(S101)。
その後、制御部20は、ユーザとキャラクタがゲーム中で一緒に旅に出るゲームを開始させる(S110)。そして、制御部20は、旅の途中の場面ごとにキャラクタとユーザが会話するイベントを実行する(S120)。
会話は以下の手順で行われる。まず、制御部20はキャラクタがユーザに質問するイベントを実行させ(S121)、これに対するユーザの回答を受け付ける(S122)。
キャラクタは、ユーザによって登録された語句を会話文に当てはめることで会話を行う。これに対するユーザの会話の入力は、下画面に表示される文字パレットで文字を選択することで行われる。
制御部20は、ユーザによって入力された回答を記憶し、その内容(質問に対する回答)を更新(学習)する。この会話イベントを繰り返すことで、入力語句記憶エリア60に記憶される語句が増加し、且つ、その語句の属性(意味)を蓄積する。これにより、キャラクタが成長する様子を表現することができる。
図6は、キャラクタの発言を作成する制御部20の動作を示すフローチャートである。この処理は、定期的なトリガに応じて実行される。まず、制御部20は、現在のゲームの状況を判断する(S10)。制御部20は、このゲームの状況に基いて今が会話タイミングか否かを決定する(S11)。制御部20は、このゲームの状況に基いて今が会話タイミングでない場合には(S11でNO)そのまま動作を終了する。
制御部20は、このゲームの状況に基いて今が会話のタイミングであると判断された場合は(S11でYES)、現在のゲームの状況に基づき生成する会話のカテゴリや会話文を選択する(S12)。なお、このカテゴリ、会話文の選択はランダムに行われてもよい。
次に、制御部20は、選択された会話文の空欄に当てはめる語句を入力語句記憶エリア60から選択する(S13)。これで会話文のテキスト110が完成する。そして、制御部20は、この会話文と同じカテゴリに分類されている録音音声111のなかから、前音声111Aおよび後音声111Bを選択する(S14)。
制御部20は、完成した会話文のテキストを音声合成部101に出力して音声データの合成を指示するとともに(S15)、前音声111Aを音声再生部104に入力して再生させる(S16)。前音声111Aの再生は1〜2秒程度継続し、この間に制御部20は、音声合成部101は会話文の音声を合成する。
前音声111Aの再生が終了すると(S17)、制御部20は、音声合成部101によって合成された合成音声112を音声再生部104に再生させる(S18)。合成音声112の再生が終了すると(S19)、制御部20は、後音声111Bを音声再生部104に再生させる(S20)。制御部20は、この再生とともに、ユーザによる回答の入力を受け付ける(S21)。制御部20は、入力された回答の語句を入力語句記憶エリア60に記憶する(S22)。
なお、制御部20は、会話文への語句の当てはめを、意味を考慮せずにランダムに行ってもよい。たとえば、ユーザの操作入力によって、記憶部に「カプコン」と「ケーキ」という語句が記憶されていた場合、通常「え〜、その(カプコン)って頑張ってますね。う〜ん。」との用法、または、「え〜、その(ケーキ)って美味しそうですね。う〜ん。」との用法で入力語句が使用されるところ、「え〜、その(カプコン)って美味しそうですね。う〜ん。」などの通常とは異なる用法で入力語句が使用されてもよい。
この会話文中で、「え〜」および「う〜ん」が前音声および後音声であり、かっこで囲まれた「カプコン」が挿入された語句である。すなわちこの会話文は、「その○○って美味しそうですね。」のテキストデータに、「カプコン」の語句(ミスマッチ語句)が、食べ物ではないという情報とは無関係に挿入された例である。このゲームでは、この語句の間違った用法により、キャラクタの可愛さや学習レベルを演出している。
また、制御部20は、キャラクタに「え〜、そのカプコンって美味しそうですね。う〜ん。」との会話をさせたあと、たとえば、「カプコンってどんな味ですか?」とユーザに質問させる。このとき、ユーザが「カプコンは食べ物ではない。」と返答(入力)をすると、制御部20は、カプコンが食べ物ではないことを記憶部に記憶する(学習する)。制御部20は、質問と並行して複数の回答用選択肢を表示し、ユーザに適当な選択肢を選択させることで、ユーザの返答を得るようにしてもよい。
語句を間違えさせる形態は例えば以下のようである。
(1)語句の意味を間違えさせる。例、「昨日私はタイヤを食べました。」
(2)語句の音を間違えさせる。例、「野球(ヤキュウ)」を「ヤギュウ」と音声合成する。
(3)語句の語順を間違えさせる。例、「山本(ヤマモト)」を「ヤマトモ」と音声合成する。
(4)スムーズに発音させない(かませる)。例、「メソポタミア」を「メソポポ、ポタミア」と音声合成する。
などである。
「タイヤ」、「野球」、「山本」、「メソポタミア」は、ユーザの操作入力によって記憶部に記憶された入力語句である。一方、「ヤギュウ」、「ヤマトモ」、「メソポポ、ポタミア」は、これらの入力語句の記憶に伴って、ミスマッチ語句として記憶部に記憶された語句である。制御部20は、ユーザによって操作入力された語句の一部を補正することでミスマッチ語句を生成する。
なお、制御部20は、ミスマッチ語句は、間違った用法で生成する際に、語句の一部を補正することで生成してもよい。入力語句を新規に登録するときに、並行してミスマッチ語句も記憶していてもよいし、会話文の生成時にミスマッチ語句を生成してもよい。
ゲームにおいて、ユーザはキャラクタと会話をすることでこのキャラクタに語句を教える。一方、キャラクタはこの語句を覚えた直後は、語句の意味や発音に関する情報を得ないまま使用する。すなわち、制御部20は、あらかじめ記憶部に記憶されたテキストデータの一部に入力語句をランダムに挿入して使用する。そして、制御部20は、会話によって入力語句の情報を蓄積させ、適切な会話となるようにテキストデータに基づいた語句を選択する。
また、制御部20は、所定の条件が成立すると、入力語句の発音を異ならせたり、語順を入れ換えたりして、入力語句に変えてミスマッチ語句を選択する。たとえば、入力語句を初めて使用場合や使用回数が10回以内の場合(言葉の意味をよく理解していない状態を表現)、ランダム(うっかり間違いを表現)、または、入力語句が100回使用されている場合(ふざけている状態を表現)などを所定の条件とすることができる。これにより、キャラクタが言葉の意味を理解していなかったり、うっかり間違ったり、ふざけていることを会話で表現することができる。
また、会話文で上のように語句を間違えさせ、間違えた語句の直後に録音音声を発生させてもよい。たとえば、間違えた直後に「テヘッ」など照れ隠しの語句を録音音声で挿入してもよい。さらに、そのあとに、制御部20は、正しい用法で使用された語句を含むテキストを音声合成してもよい。
図7は、本発明の実施形態である音声生成の手順を説明する図である。この実施形態では、制御部20は、会話文にミスマッチ語句を挿入し、ミスマッチ語句を再生した後で会話文の再生を中断して、「テヘッ」、「あっ」などの短い録音音声を中音声として再生する。これにより、会話文の表情付けをより効率的に行う。
図7は、会話文にミスマッチ語句を挿入し、ミスマッチ語句を再生した後に録音音声を中音声として再生する場合の制御部20の動作を示すフローチャートである。また、図8は、音声生成装置100による音声生成の手順を示す図である。この処理は、定期的なトリガに応じて実行される。まず、制御部20は、現在のゲームの状況を判断する(S30)。制御部20は、このゲームの状況に基いて今が会話タイミングか否かを決定する(S31)。制御部20は、タイミングでない場合には(S31でNO)そのまま動作を終了する。
制御部20は、会話のタイミングであると判断した場合は(S31でYES)、現在のゲームの状況に基づき生成する会話のカテゴリや会話文を選択する(S32)。次に、制御部20は、選択された会話文の空欄に当てはめる語句を入力語句記憶領域60から選択する(S33)。このとき、制御部20は、会話文と語句との対応を無視してランダムに語句を選択してもよい。また、制御部20は、選択された語句の発音や語順を変更して間違えた語句にする(S34)。S33の語句の選択間違いとS34の発音の間違いは、いずれか一方を適用してもよく、両方を適用してもよい。また、間違える語句の直後を会話文の分割箇所とする。
制御部20は、選択された会話文と同じカテゴリに分類されている録音音声のなかから前音声111A、後音声111Bを選択するとともに、間違えた語句の直後に再生される中音声111Cを選択する(S35)。間違えた語句の直後に再生される中音声111Cは、カテゴリ毎に分類されていてもよく、会話文のカテゴリとは別に間違え対応の録音音声に分類されていてもよい。
こののち、制御部20は、会話文のテキストを音声合成部101に出力して音声データの合成を指示するとともに(S36)、前音声111Aの再生を指示する(S37)。制御部20は、S38で前音声111Aの再生が終了するまで待機し、前音声の再生が終了すると(S38でYES)、音声合成部101によって合成された合成音声のうち、語句を間違えた箇所までの前半部分112Aを音声再生部104に入力して再生させる(S40)。
制御部20は、合成音声の前半112Aの再生が終了すると(S41でYES)、「テヘッ」、「あっ」などの中音声111Cを音声再生部104に再生する(S42)。制御部20は、中音声111Cの再生が終了すると(S43でYES)、合成音声の後半112Bを音声再生部104に再生する(S44)。そして、制御部20は、合成音声の後半112Bの再生が終了すると(S45でYES)、後音声111Bを音声再生部104に再生する(S46)。制御部20は、この再生とともに、ユーザによる回答の入力を受け付ける(S47)。制御部20は、入力された回答の語句を入力語句記憶領域60に記憶する(S48)。
また、会話文のテキストが長い場合、会話文を複数のフレーズに分割してもよい。この場合、フレーズごとに音声合成して再生し、各フレーズの間にも録音音声を挿入すればよい。挿入された録音音声の再生中にその直後のフレーズの音声合成をすればよい。また、複数の会話文を連続して合成する場合にも同様に、会話文と会話文との間に録音音声を挿入して、この録音音声の再生中に後の会話文の音声合成を合成するようにすればよい。
図8、図9は、ミスマッチ語句を挿入する場合(中音声を発生させる場合の)音声生成の手順を説明する図である。ここでは、会話文を複数(この例では2つ)のフレーズに分割し、フレーズとふれーずの境目に「テヘッ」、「あっ」などの短い録音音声を挿入する。これにより、語句を間違えた場合の表情付けをより効率的に行う。
このように、会話文中の語句を間違えさせ、その直後に生声である録音音声111を挿入することにより、よりリアルに表情を豊かにすることができる。
図7、図8の例では、テキスト110を前音声111Aの再生中に合成したが、テキストの前半(合成音声112Aに対応)を前音声111Aの再生中に合成し、後半(合成音声112Bに対応)を中音声111Cの再生中に合成してもよい。
図9は、会話文を間違え箇所で2つのフレーズに分割し、フレーズ毎に音声合成する場合の手順を示した図である。
間違い箇所のあるテキスト110が決定され、音声合成して出力するプロセスがスタートすると、まず、前音声111Aがメモリ103から読み出され、これを音声再生部104で再生する。前音声111Aが再生されている間に、音声合成部101は、間違え箇所までの前半のフレーズ(会話文の前半)を音声化(音声合成)する。音声合成部101によって合成された合成音声112Aは合成バッファ102に記憶され、前音声111Aの再生が終了したのち、前音声111Aに続いて再生される。合成音声112Aの再生中にフレーズ間で再生される録音音声である中音声111Cが読み出される。合成音声112Aの再生が終了すると、音声再生部104は、これに続けて中音声111Cを再生する。なお、中音声111Cの読み出しは、前音声111Aの読み出し後、合成音声112Aの生成終了までであればいつでもよい。
中音声111Cとしては、たとえば上述したような「テヘッ」、「あっ」など、間違いの照れ隠しのような音声が選択される。中音声111Cが再生されている間に、音声合成部101は後半のフレーズ(会話文の後半)を音声合成する。音声合成部101によって合成された後半の合成音声112Bは合成バッファ102に記憶され、中音声111Cの再生が終了したのち、中音声111Cに続いて再生される。後半の合成音声112Bの再生中に後音声111Bが読み出される。合成音声112Bの再生が終了すると、音声再生部104は、これに続けて後音声111Bを再生する。
以上の実施形態では、図7〜図9に示したように、会話文(合成音声)112の前後に録音音声111(前音声111A、後音声111B)を付加した、すなわち、会話文を録音音声で挟んでいる。これら前音声111A、後音声111Bは無くてもよく、また、いずれか一方のみ付加されていてもよい。
なお、音声合成部101は、会話文の内容やゲームの状況に応じて、合成される音声112の速さ、ピッチ、音量などを変化させてもよい。その場合、そのパラメータが音声再生部104に提供され、音声再生部104は、合成音声112に合わせた速さ、ピッチ、音量で録音音声111を再生する。また、音声合成部101は通常の速さ、ピッチ、音量で音声を合成し、音声再生部104が、会話文の内容やゲームの状況に応じて、合成音声112、録音音声111の両方の速さ、ピッチ、音量を調整して再生するようにしてもよい。
なお、後音声111Bの語尾を、キャラクタの性格、キャラクタの成長度合い、キャラクタの服装などに応じて変化させてもよい。すなわち、「〜にゃ」、「〜でございます。」などの語を選択された後音声の語尾に付加して再生してもよい。また、予め「○○にゃ」、「○○でございます。」(○○は語句)の音声を録音音声として記憶しておいてもよい。
また、ゲーム上の場所に応じて、生成する音声(キャラクタが喋る音声)の音量や音質を変化させてもよい。例えば、場所が電車内の場合にはヒソヒソ声、青空の下では元気な声の音声を生成してもよい。
1 ゲーム装置
5 ゲームメディア
20 制御部
21 CPU
22 ROM(フラッシュメモリ)
50 ゲーム履歴データ記憶エリア
60 入力語句記憶エリア
61 (会話文、録音音声の)記憶エリア
100 音声生成装置
101 音声合成部
104 音声再生部
本発明の音声合成プログラムは、記憶部を備えたコンピュータを、ユーザによって入力された語句を記憶部に記憶する第1手段、所定のテキストデータに、記憶部から読み出された当該テキストデータと関連する語句を挿入し、所定の条件が成立した場合、この関連する語句とは異なる他の語句をテキストデータに挿入する第2手段、このテキストデータを挿入された語句の直後で複数のフレーズに分割するテキスト分割手段、このテキストデータを音声合成する第3手段、この合成音声を分割された各フレーズ毎に順次再生する第1音声再生手段、および、第1音声再生手段による各フレーズの合成音声の再生の境目に、予め録音された音声信号である録音音声を再生する第2音声再生手段、として機能させる

Claims (6)

  1. 記憶部を備えたコンピュータを、
    ユーザによって入力された語句を前記記憶部に記憶する第1手段、
    所定のテキストデータに、前記記憶部から読み出された当該テキストデータと関連する語句を挿入する第2手段、
    このテキストデータを音声合成して再生する第3手段、
    として機能させ、
    前記第2手段は、所定の条件が成立した場合、前記関連する語句とは異なる他の語句を前記テキストデータに挿入する
    として機能させる音声生成プログラム。
  2. 前記他の語句は、前記ユーザによって入力された語句の少なくとも一音を変更した語句である請求項1に記載の音声生成プログラム。
  3. 前記第2手段は、前記所定のテキストデータとして、前記語句に対する前記ユーザへの質問文を生成し、
    前記コンピュータを、前記質問文に対する前記ユーザの回答を受け付け、入力された回答を前記語句に関連付けて記憶する第4手段、としてさらに機能させる請求項1または請求項2に記載の音声生成プログラム。
  4. コンピュータを、前記テキストデータを前記挿入された語句の直後で複数のフレーズに分割するテキスト分割手段としてさらに機能させ、
    前記第3手段は、
    前記合成音声を、前記分割された各フレーズ毎に順次再生する第1音声再生手段、
    前記第1音声再生手段による各フレーズの合成音声の再生の境目に、予め録音された音声信号である録音音声を再生する第2音声再生手段、
    を含む請求項1乃至請求項3のいずれかに記載の音声生成プログラム。
  5. 前記第2音声再生手段は、前記第2手段が前記関連する語句とは異なる他の語句を前記テキストデータに挿入した場合、前記録音音声として、語句を間違ったことに対応する間投詞の音声を選択する請求項4に記載の音声生成プログラム。
  6. 請求項1乃至請求項5のいずれかに記載の音声生成プログラム、および、前記テキストデータを記憶する記憶部と、入力操作部と、該音声生成プログラムを実行する制御部と、を備え、
    前記テキストデータは、前記ゲーム上の仮想的な話者がユーザに対して発声する会話文であり、
    前記挿入される語句は、前記ユーザが前記入力操作部を用いて前記仮想的な話者に対して入力した語句である、
    ゲーム装置。
JP2016216135A 2016-11-04 2016-11-04 音声生成プログラムおよびゲーム装置 Active JP6134043B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016216135A JP6134043B1 (ja) 2016-11-04 2016-11-04 音声生成プログラムおよびゲーム装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016216135A JP6134043B1 (ja) 2016-11-04 2016-11-04 音声生成プログラムおよびゲーム装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017083274A Division JP6625089B2 (ja) 2017-04-20 2017-04-20 音声生成プログラムおよびゲーム装置

Publications (2)

Publication Number Publication Date
JP6134043B1 JP6134043B1 (ja) 2017-05-24
JP2018072765A true JP2018072765A (ja) 2018-05-10

Family

ID=58745777

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016216135A Active JP6134043B1 (ja) 2016-11-04 2016-11-04 音声生成プログラムおよびゲーム装置

Country Status (1)

Country Link
JP (1) JP6134043B1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000066696A (ja) * 1998-08-21 2000-03-03 Victor Co Of Japan Ltd 音声合成装置
JP2001154685A (ja) * 1999-11-30 2001-06-08 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP2004037910A (ja) * 2002-07-04 2004-02-05 Denso Corp 対話システム及び対話型しりとりシステム
JP2004118004A (ja) * 2002-09-27 2004-04-15 Asahi Kasei Corp 音声合成装置
JP2005157602A (ja) * 2003-11-25 2005-06-16 Aruze Corp 会話制御装置、会話制御方法並びにこれらのプログラム
JP2006268428A (ja) * 2005-03-24 2006-10-05 Kenwood Corp 情報呈示装置、情報呈示方法、および、情報呈示用プログラム
JP2010190995A (ja) * 2009-02-16 2010-09-02 Toshiba Corp 音声処理装置、音声処理方法及び音声処理プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000066696A (ja) * 1998-08-21 2000-03-03 Victor Co Of Japan Ltd 音声合成装置
JP2001154685A (ja) * 1999-11-30 2001-06-08 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP2004037910A (ja) * 2002-07-04 2004-02-05 Denso Corp 対話システム及び対話型しりとりシステム
JP2004118004A (ja) * 2002-09-27 2004-04-15 Asahi Kasei Corp 音声合成装置
JP2005157602A (ja) * 2003-11-25 2005-06-16 Aruze Corp 会話制御装置、会話制御方法並びにこれらのプログラム
JP2006268428A (ja) * 2005-03-24 2006-10-05 Kenwood Corp 情報呈示装置、情報呈示方法、および、情報呈示用プログラム
JP2010190995A (ja) * 2009-02-16 2010-09-02 Toshiba Corp 音声処理装置、音声処理方法及び音声処理プログラム

Also Published As

Publication number Publication date
JP6134043B1 (ja) 2017-05-24

Similar Documents

Publication Publication Date Title
US10789937B2 (en) Speech synthesis device and method
JP2021516787A (ja) オーディオ合成方法、並びにそのコンピュータプログラム、コンピュータ装置及びコンピュータ装置により構成されるコンピュータシステム
JP2001209820A (ja) 感情表出装置及びプログラムを記録した機械読み取り可能な記録媒体
CN108369804A (zh) 语音交互设备和语音交互方法
CN107851436A (zh) 语音交互方法和语音交互设备
JP6170604B1 (ja) 音声生成装置
JP2010140278A (ja) 音声情報可視化装置及び音声情報可視化プログラム
JP6134043B1 (ja) 音声生成プログラムおよびゲーム装置
JP6625089B2 (ja) 音声生成プログラムおよびゲーム装置
JP6190030B1 (ja) 音声生成プログラム
JP6185136B1 (ja) 音声生成プログラムおよびゲーム装置
JP2018159779A (ja) 音声再生態様決定装置、および音声再生態様決定プログラム
WO2010084830A1 (ja) 音声処理装置、チャットシステム、音声処理方法、情報記憶媒体、ならびに、プログラム
JP2018025706A (ja) 音声生成装置
JP4651168B2 (ja) 合成音声出力装置およびその方法並びに記録媒体
JP2005024815A (ja) 言語学習システムとその装置、方法、プログラム、及びこのプログラムを記録する記録媒体
Holmes Defining voice design in video games
JP2001314649A (ja) 音声遊技方法、装置および記録媒体
KR102025903B1 (ko) 언어 학습을 위한 장치 및 그 제어방법
JP6583756B1 (ja) 音声合成装置、および音声合成方法
JP2009000248A (ja) ゲーム機
JP6911398B2 (ja) 音声対話方法、音声対話装置およびプログラム
JP3740149B2 (ja) ゲーム装置及びプログラム
JP6922306B2 (ja) 音声再生装置、および音声再生プログラム
Székely et al. Off the cuff: Exploring extemporaneous speech delivery with TTS

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170321

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170420

R150 Certificate of patent or registration of utility model

Ref document number: 6134043

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S802 Written request for registration of partial abandonment of right

Free format text: JAPANESE INTERMEDIATE CODE: R311802

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250