JP2018025706A - Voice generator - Google Patents
Voice generator Download PDFInfo
- Publication number
- JP2018025706A JP2018025706A JP2016158389A JP2016158389A JP2018025706A JP 2018025706 A JP2018025706 A JP 2018025706A JP 2016158389 A JP2016158389 A JP 2016158389A JP 2016158389 A JP2016158389 A JP 2016158389A JP 2018025706 A JP2018025706 A JP 2018025706A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- unit
- recorded
- audio
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
この発明は、テキストに基づいて合成された音声を含む音声を再生する音声生成装置に関する。 The present invention relates to an audio generation apparatus that reproduces audio including audio synthesized based on text.
ビデオゲームなどで、場面に応じた音声を生成(generate)する場合、テキストデータに基いて音声波形を合成する音声合成(特許文献1参照)や、予め録音しておいた音声を再生する音声再生などが用いられる。 When generating a sound according to a scene in a video game or the like, a voice synthesis that synthesizes a voice waveform based on text data (see Patent Document 1), or a voice playback that plays back a previously recorded voice. Etc. are used.
音声合成は、どのような文でもテキストデータに基いて音声を合成できるため、自由度が高く、臨機応変な文の音声化が可能である。その反面、音声信号波形の合成に時間が掛かるため、即座の音声の生成ができない。また、人工的に合成された音声波形であるため単調で感情表現が十分できないという欠点がある。 Since speech synthesis can synthesize speech based on text data for any sentence, it has a high degree of freedom and can make speech of a sentence flexible. On the other hand, since it takes time to synthesize an audio signal waveform, it is not possible to immediately generate audio. In addition, since the speech waveform is artificially synthesized, there is a drawback in that it is monotonous and cannot express emotion sufficiently.
一方、録音音声の再生は、メモリから音声データを読みだすだけで再生できるため、即座の再生が可能であるとともに、録音音声として感情を込めた音を録音しておけば、感情豊かな表情のある音声の生成が可能である。その一方で、予め録音された音声しか再生できないため、自由度が低く臨機応変な内容を生成できないという欠点がある。 On the other hand, the recorded voice can be played back simply by reading the voice data from the memory, so it can be played back immediately, and if you record the sound with emotion as the recorded voice, A certain voice can be generated. On the other hand, since only pre-recorded sound can be reproduced, there is a drawback that it is not possible to generate flexible contents with low flexibility.
この発明の目的は、自由度の高い内容の音声を表情豊かに生成できる音声再生装置を提供することにある。 An object of the present invention is to provide an audio reproducing apparatus capable of generating a highly expressive audio with rich expression.
本発明の音声生成装置は、テキストデータに基づいて音声信号を合成して合成音声を生成する音声合成部と、音声信号である録音音声を記憶部に予め記憶する録音音声記憶部と、録音音声を、記憶部から読み出す録音音声読出部と、音声信号および録音音声を再生する音声再生部と、を備え、音声再生部は、合成音声を再生する場合、この合成音声を再生する前に再生する録音音声である前音声、合成音声を再生した後に再生する録音音声である後音声、および、合成音声の再生中に再生する中音声のうち、少なくとも一つをさらに再生することを特徴とする。 The speech generation device of the present invention includes a speech synthesizer that synthesizes speech signals based on text data to generate synthesized speech, a recorded speech storage unit that pre-stores recorded speech that is speech signals in a storage unit, and recorded speech Are recorded from the storage unit, and a sound reproduction unit that reproduces the sound signal and the recorded sound. The sound reproduction unit reproduces the synthesized sound before reproducing the synthesized sound. It is characterized in that at least one of the previous voice that is the recorded voice, the subsequent voice that is the recorded voice that is played after the synthesized voice is played back, and the middle voice that is played back during the playback of the synthesized voice is further played back.
上記発明において、音声再生部が前音声を再生する場合、録音音声読出部は、音声合成部が合成音声を生成する前に記憶部から前音声を読み出し、音声再生部は、音声合成部による合成音声の生成中に前音声を再生するようにしてもよい。 In the above invention, when the voice reproduction unit reproduces the previous voice, the recorded voice reading unit reads the previous voice from the storage unit before the voice synthesis unit generates the synthesized voice, and the voice reproduction unit performs the synthesis by the voice synthesis unit. The previous sound may be played back during the sound generation.
上記発明において、音声再生部が後音声を再生する場合、録音音声読出部は、音声再生部が合成音声を生成している間に記憶部から前記後音声を読み出すようにしてもよい。 In the above invention, when the audio reproducing unit reproduces the post-sound, the recorded sound reading unit may read the post-sound from the storage unit while the sound reproducing unit is generating the synthesized sound.
上記発明において、音声再生部が中音声を再生する場合、録音音声読出部は、音声再生部が合成音声の前半を生成している間に記憶部から中音声を読み出し、音声再生部は、合成音声の前半の再生後且つ合成音声の後半の再生前に中音声を再生するようにしてもよい。 In the above invention, when the sound reproduction unit reproduces medium sound, the recorded sound reading unit reads medium sound from the storage unit while the sound reproduction unit generates the first half of the synthesized sound, and the sound reproduction unit The middle voice may be played after the first half of the voice and before the second half of the synthesized voice.
上記発明において、複数のテキストデータをカテゴリ別に記憶するテキスト記憶部をさらに備え、録音音声記憶部が複数の録音音声をカテゴリ別に記憶してもよい。音声合成部は、テキスト記憶部に記憶されている複数のテキストデータからテキストデータを選択して音声信号を合成し、音声読出部は、テキストデータと同じまたは類似のカテゴリの録音音声を選択して読み出すようにしてもよい。 In the above invention, a text storage unit that stores a plurality of text data for each category may be further provided, and the recorded voice storage unit may store a plurality of recorded voices for each category. The speech synthesizer selects text data from a plurality of text data stored in the text storage unit to synthesize a speech signal, and the speech read unit selects a recorded voice of the same or similar category as the text data You may make it read.
上記発明において、音声合成部、録音音声記憶部、録音音声読出部および音声再生部はビデオゲームを実行する制御部によって実現されてもよい。そして、テキストデータは、ゲーム上の仮想的な話者がユーザに対して発声する会話文であり、仮想的な話者にはゲームの進行に応じて変化する連続的または段階的な感情パラメータが設定され、カテゴリは仮想的な話者の感情パラメータに基づいて設定されてもよい。 In the above invention, the voice synthesis unit, the recorded voice storage unit, the recorded voice reading unit, and the voice playback unit may be realized by a control unit that executes a video game. The text data is a conversational sentence spoken to the user by a virtual speaker on the game, and the virtual speaker has continuous or stepwise emotion parameters that change as the game progresses. The category may be set based on a virtual speaker emotion parameter.
この発明によれば、テキストデータに基づく自由度の高い音声を録音音声で表情づけして生成することが可能になる。 According to the present invention, it is possible to generate a voice with a high degree of freedom based on text data by expressing it with the recorded voice.
図面を参照してこの発明の実施形態である音声生成装置(generator)100について説明する。図1は音声生成装置100の機能ブロック図である。図2は、音声生成装置100による音声生成の手順を示す図である。この音声生成装置100は、テキストデータ(以下、単にテキストと呼ぶ。)110に基いて音声データを合成(synthesize)する音声合成部101、および、音声データを再生(playback)する音声再生部104を備えている。
An
音声再生部104は、予め録音された音声データ(録音音声)111、および、音声合成部101が合成した音声データ(合成音声)112の両方を再生する。音声合成部101がテキスト110に基づく音声を合成するとき、音声再生部104が、図2に示すように、その合成音声112を再生する前後に、予め録音されていた録音音声111(前音声111A、後音声111B)を再生する。
The
録音音声は、たとえば声優などが表情豊かに発声した音声(生声)である。これにより、人工的に合成されて表情が乏しい合成音声112を録音音声で補完することができる。
The recorded voice is, for example, voice (live voice) uttered by a voice actor or the like with rich expression. As a result, the synthesized
音声合成部101に供給されるテキスト110は、例えば、何らかの感情(例えば喜びや驚き)を伴ったものである。録音音声メモリ103には、種々の感情に対応し、その感情を表現する複数の録音音声が記憶されている。前音声111Aおよび後音声111Bは、供給されるテキストの感情と同じような感情を表現するもの(同じようなカテゴリに分類されるもの(図4参照))が選択される。
The
テキスト110を音声合成して出力するプロセスがスタートすると、まず、前音声111Aがメモリ103から読み出され、これを音声再生部104で再生する。前音声111Aが再生されている間に、音声合成部101は、供給されたテキスト110を音声化(音声合成)する。音声合成部101によって合成された合成音声112は合成バッファ102に記憶され、前音声111Aの再生が終了したのち、前音声111Aに続いて再生される。合成音声112の再生中に後音声111Bが読み出される。合成音声112の再生が終了すると、音声再生部104は、これに続けて後音声111Bを再生する。
When the process of synthesizing and outputting the
後音声111Bも前音声111Aと同様に、メモリ103に記憶されている録音音声111のなかから、音声合成部101に供給されるテキスト110(音声合成部101で合成された合成音声112)に対応するものが選択される。なお、後音声111Bのメモリ103からの読み出しは、前音声111Aの読み出しと同時に行われてもよい。
Similarly to the
後音声111Bは前音声111Aとは別のものが選択されるのが好ましいが、同じものであってもよい。前音声111Aと合成音声112との間、および、合成音声112と後音声111Bとの間は、完全に連続していてもいなくてもよいが、ユーザが聴覚的に一連の発声として聞こえる程度の間隔(たとえば1秒以内)で連続して再生されることが好ましい。図2に示した前音声111A、後音声111Bは、両方再生されてもよいが一方のみでもよい。
The
図1、図2に説明した音声生成装置100は、音声を合成する種々の装置に適用可能である。例えば、ビデオゲームにおけるキャラクタの会話音声の生成に用いてもよい。以下、音声生成装置100の適用例として携帯ゲーム機およびこの携帯ゲーム装置で実行されるゲームについて説明する。
The
以下一例として説明するゲームは、ゲーム中のキャラクタ(女の子)とユーザ(ゲームのプレイヤ)が会話をしながら、キャラクタ(AI)の知識を増やしてゆく育成ゲームである。キャラクタは、ユーザと会話する言葉を発する。この言葉の生成機能を上述の音声生成装置100が担当する。
The game described below as an example is a breeding game in which the character (AI) in the game and the user (game player) increase the knowledge of the character (AI) while having a conversation. The character utters words that speak to the user. The
図3は、上記音声生成装置100の機能がプログラムとの協働で実現されるゲーム装置1のブロック図である。図4において、ゲーム装置1は、バス26上に、制御部20、操作部30、ゲームメディアインタフェース31、SDカードインタフェース32、無線通信回路部33およびマイクインタフェース34を有している。制御部20は、CPU21、ROM(フラッシュメモリ)22、RAM23、画像プロセッサ24および音声プロセッサ25を含んでいる。
FIG. 3 is a block diagram of the
画像プロセッサ24には、ビデオRAM(VRAM)40が接続され、VRAM40には表示部41が接続されている。表示部41は、上述の上部ディスプレイ10および下部ディスプレイ11を含む。音声プロセッサ25には、D/Aコンバータを含むアンプ42が接続され、アンプ42にはスピーカ16およびイヤホン端子17が接続されている。
A video RAM (VRAM) 40 is connected to the
操作部30は、上述のタッチパネル12、ボタン群13およびスライドパッド14を含み、それぞれユーザの操作を受け付けて、その操作内容に応じた操作信号を発生する。この操作信号はCPU21によって読み取られる。マイクインタフェース34は、A/Dコンバータを内蔵している。マイクインタフェース34には、マイク18が接続されている。マイクインタフェース34は、マイク18が集音した音声をデジタル信号に返還して制御部20に入力する。
The
ゲームメディアインタフェース31はメディアスロット31Aを含み、メディアスロット31Aにセットされたゲームメディア5に対するリード/ライトを行う。ゲームメディア5は、専用の半導体メモリであり、内部にゲームデータおよびゲームプログラムが記憶されている。ゲームデータは、キャラクタが話す会話文のテキスト110、および、前音声、後音声として用いられる録音音声111などを含んでいる。また、ゲームメディア5は、ゲーム履歴データ記憶エリア50を有している。
The
ゲーム履歴データは、ユーザがこのゲームにおいて入力した語句などを含む。ゲームが一旦終了されたとき、そのときのゲームの状態を示すゲーム履歴データがRAM23からゲーム履歴データ記憶エリア50に保存される。その後、ゲームが再開されるとき、ゲーム履歴データ記憶エリア50からRAM23に転送される。なお、ゲームメディア5は、専用の半導体メモリに限定されず、汎用の半導体メモリ、光ディスクなどでも構わない。
The game history data includes words and the like input by the user in this game. When the game is once ended, game history data indicating the state of the game at that time is stored in the game history
SDカードインタフェース32にはSDカード6が接続される。SDカード6は、マイクロSDカードであり、下部筐体1Bに内蔵されている。SDカード6には、ダウンロードされたゲームプログラムなどが記憶される。
The SD card 6 is connected to the
RAM23には、ゲームメディア5から読み込まれたゲームプログラムおよびゲームデータを記憶するロードエリア、および、CPU21がゲームプログラムを実行する際に使用されるワークエリアが設定される。したがって、RAM23には、会話文テキスト110や録音音声111を記憶する記憶エリア61や、初期設定やキャラクタとの会話においてユーザが入力した語句を記憶する入力語句記憶エリア60が設けられている。また、図1の合成音声バッファ102もRAM23内に設けられる。ROM22は、フラッシュメモリで構成され、ゲーム装置1がゲームメディア5からゲームプログラムを読み込んでゲームを実行するための基本プログラムが設定される。
In the
画像プロセッサ24は、GPU(Graphics Processing Unit,グラフィックス・プロセッシング・ユニット)を有し、上述の上部ディスプレイ10に表示されるキャラクタの画像や下部ディスプレイ11に表示される文字パネルの画像などを形成しVRAM40上に描画する。
The
音声プロセッサ25は、DSP(Digital Signal Processor,デジタル・シグナル・プロセッサ)を有し、ゲーム音声を生成する。このゲームにおいて、ゲーム音声には、キャラクタがユーザと会話する音声が含まれており、図1に示した音声生成装置100は、ゲーム装置1の制御部20(特に音声プロセッサ25)およびゲームプログラムの協働によって実現される。アンプ42は、音声プロセッサ25によって音声信号を増幅してスピーカ16およびイヤホン端子17に出力する。
The
無線通信回路部33は、2.4GHz帯のデジタル通信回路を備えており、無線アクセスポイントを介したインターネット通信を行うとともに、直接他のゲーム装置1と通信を行う。無線通信回路部33は、インターネット通信を行う場合にはIEEE802.11g(いわゆるWi−Fi)規格で通信を行い、ローカル通信を行う場合にはIEEE802.11b規格のアドホックモードまたは独自の規格で通信を行う。
The wireless
なお、図1の音声合成部101および音声再生部104は、制御部20とゲームプログラムとの協働で実現される。
Note that the
図4は、ゲームデータの一部である会話文のテキスト110と録音音声111の記憶形態を説明する図である。図4(A)は、テキスト110および録音音声111の記憶エリア61の構成を示す図である。記憶エリア61は、複数のカテゴリに区分され、各カテゴリは複数のサブカテゴリに区分されている。
FIG. 4 is a diagram for explaining a storage form of the
カテゴリは、たとえば、「よろこび」、「通常」、「ドッキリ」などの大雑把な感情の分類である。サブカテゴリは、カテゴリ(大雑把な感情)中の具体的な感情を表している。たとえば、「よろこび」カテゴリは、「うれしい」、「満足」、「しあわせ」、「気楽」、「リラックス」などのサブカテゴリを含んでいる。また、「通常」カテゴリは、「確認」、「否定」、「思いつき」、「ひとりごと」などのサブカテゴリを含んでいる。 The category is, for example, a rough classification of emotions such as “joy”, “normal”, and “crisp”. The subcategory represents a specific emotion in the category (rough feeling). For example, the “joyful” category includes subcategories such as “happy”, “satisfied”, “happy”, “easy”, and “relaxed”. The “normal” category includes subcategories such as “confirmation”, “denial”, “conceived”, and “everyone”.
各サブカテゴリに、1または複数の会話文のテキスト(会話文データ)、および、1または複数の録音音声が記憶される。所定の会話のタイミングにゲームの進行状況に応じたカテゴリおよび会話文110が選択され、このカテゴリに対応する録音音声が前音声111A、後音声111Bとして選択される。
In each subcategory, text of one or more conversation sentences (conversation sentence data) and one or more recorded voices are stored. A category and a
図4(B)は、音声生成データ記憶領域の一部の具体例を示した図である。この図は、「よろこび」カテゴリの記憶エリアの例を示した図である。「よろこび」カテゴリには「うれしい」、「満足」、「しあわせ」、「気楽」、「リラックス」のサブカテゴリを含み、それぞれのサブカテゴリ領域には1または複数の会話文および録音音声が記憶されている。 FIG. 4B is a diagram showing a specific example of a part of the voice generation data storage area. This figure shows an example of the storage area of the “joyful” category. The “joyful” category includes subcategories of “happy”, “satisfied”, “happiness”, “easy”, and “relaxed”, and each subcategory area stores one or more conversation sentences and recorded voices. .
会話文としては、「○○をもらってうれしいです。」や「○○おいしそう。」などの文が記憶される。文中の「○○」は空欄を示し、この箇所にユーザによって入力された語句が当てはめられる。 As a conversational sentence, sentences such as “I am glad to receive XX” and “Looks good” are stored. “XX” in the sentence indicates a blank, and the phrase inputted by the user is applied to this place.
録音音声としては「うわ〜」、「わーい」、「やった!」など「うれしい」の感情を表現する短い音声が記憶される。この記憶されている会話文および録音音声に基づいて「うわ〜、プレゼントをもらってうれしいです。やった!」などのキャラクタの発言が生成される。 As a recorded voice, short voices expressing emotions of “happy” such as “Wow ~”, “Wow”, “I did it!” Are stored. Based on the stored conversational sentence and the recorded voice, a utterance of a character such as “Wow, I am glad to receive a present. I did it!” Is generated.
また、記憶された一部または全部の録音音声を複数のカテゴリに共通のものとしてもよい。たとえば、「え〜」、「う〜ん」、「あ〜」などの会話の間をつなぐ言葉または「ははは」「うふ」「キャ」などの笑い声などを共通の録音音声として記憶してもよい。これらの録音音声が、全てのカテゴリで共通に用いられてもよく、一部の(複数の)カテゴリで共通に用いられてもよい。 Further, some or all of the recorded voices stored may be common to a plurality of categories. For example, memorize words such as “haha”, “um”, “hah”, or laughter such as “hahaha”, “ufu”, “ca”, etc. Also good. These recorded voices may be used in common for all categories, or may be used in common for some (a plurality of) categories.
また、同じ言葉、たとえば「う〜ん」などが複数のカテゴリで用いられる場合、各カテゴリ毎に録音音声として記憶されてもよい。この場合、それぞれそのカテゴリに応じた表情づけで発音されたものが録音されればよい。 In addition, when the same word, for example, “U” is used in a plurality of categories, it may be stored as a recorded voice for each category. In this case, it is only necessary to record what is pronounced with an expression according to the category.
なお、制御部20は、会話文への語句の当てはめを、意味を考慮せずにランダムに行ってもよい。たとえば、「え〜、そのゲームって美味しそうですね。う〜ん。」などの通常とは異なる用法で入力語句が使用されてもよい。このゲームでは、この語句の間違った用法により、キャラクタの可愛さや学習レベルを演出している。
Note that the
また、制御部20は、キャラクタに「え〜、そのゲームって美味しそうですね。う〜ん。」との会話をさせたあと、たとえば、「ゲームってどんな味ですか?」とユーザに質問させる。このとき、ユーザが「ゲームは食べ物ではない。」と返答をすると、制御部20は、ゲームが食べ物ではないことを記憶する(学習する)。制御部20は、質問と並行して複数の回答用選択肢を表示し、ユーザに適当な選択肢を選択させることで、ユーザの返答を得るようにしてもよい。なお、制御部20(キャラクタ)の学習については後述する。
In addition, the
また、会話文中に設けられる空欄は複数であってもよい。たとえば、「○○さんは、△△が好きなんですか?」などである。○○、△△のところに、たとえばユーザの名前やユーザによって登録された語句が当てはめられる。 Further, a plurality of blanks may be provided in the conversation sentence. For example, “Do you like △△? For example, the user's name or the words registered by the user are applied to OO and △ Δ.
図5はゲーム装置1の制御部20およびユーザによって行われる会話の順序・流れを示す図である。ゲームのスタート時に、ユーザがゲーム装置1に対してプロファイルや好みを登録する(S100)。そして、入力された内容を制御部20が入力語句記憶エリア60に記憶する(S101)。
FIG. 5 is a diagram illustrating the order and flow of conversations performed by the
その後、ユーザとキャラクタがゲーム中で一緒に旅に出るゲームを開始させる(S110)。そして、制御部20は、旅の途中の場面ごとにキャラクタとユーザが会話するイベントを実行する(S120)。
Then, the game which a user and a character go on a journey together in a game is started (S110). And the
会話は以下の手順で行われる。まず、制御部20はキャラクタがユーザに質問するイベントを実行させ(S121)、これに対するユーザの回答を受け付ける(S122)。
The conversation is conducted in the following procedure. First, the
キャラクタは、ユーザによって登録された語句を会話文に当てはめることで会話を行う。これに対するユーザの会話の入力は、下画面に表示される文字パレットで文字を選択することで行われる。 The character performs a conversation by applying a phrase registered by the user to the conversation sentence. In response to this, the user's conversation is input by selecting a character from the character palette displayed on the lower screen.
制御部20は、ユーザによって入力された回答を記憶し、その内容(質問に対する回答)を更新(学習)する。この会話イベントを繰り返すことで、入力語句記憶エリア60に記憶される語句が増加し、且つ、その語句の属性(意味)を蓄積する。これにより、キャラクタが成長する様子を表現することができる。
The
図6は、キャラクタの発言を作成する制御部20の動作を示すフローチャートである。この処理は、定期的なトリガに応じて実行される。まず、現在のゲームの状況を判断する(S10)。このゲームの状況に基いて今が会話タイミングか否かを決定する(S11)。タイミングでない場合には(S11でNO)そのまま動作を終了する。
FIG. 6 is a flowchart showing the operation of the
会話のタイミングであると判断された場合は(S11でYES)、現在のゲームの状況に基づき生成する会話のカテゴリや会話文を選択する(S12)。なお、このカテゴリ、会話文の選択はランダムに行われてもよい。 If it is determined that it is the timing of the conversation (YES in S11), a conversation category or conversation sentence to be generated is selected based on the current game situation (S12). Note that the selection of the category and the conversation sentence may be performed randomly.
次に、選択された会話文の空欄に当てはめる語句を入力語句記憶エリア60から選択する(S13)。これで会話文のテキスト110が完成する。そして、この会話文と同じカテゴリに分類されている録音音声111のなかから、前音声111Aおよび後音声111Bを選択する(S14)。
Next, a phrase to be applied to the blank of the selected conversation sentence is selected from the input phrase storage area 60 (S13). This completes the
完成した会話文のテキストを音声合成部101に出力して音声データの合成を指示するとともに(S15)、前音声111Aを音声再生部104に入力して再生させる(S16)。前音声111Aの再生は1〜2秒程度継続し、この間に音声合成部101は会話文の音声を合成する。
The text of the completed conversation sentence is output to the
前音声111Aの再生が終了すると(S17)、音声合成部101によって合成された合成音声112を音声再生部104に再生させる(S18)。合成音声112の再生が終了すると(S19)、後音声111Bを音声再生部104に再生させる(S20)。この再生とともに、ユーザによる回答の入力を受け付ける(S21)。入力された回答の語句を入力語句記憶エリア60に記憶する(S22)。
When the reproduction of the
上の実施形態では、図2、図6に示したように、会話文(合成音声)112の前後に録音音声111(前音声111A、後音声111B)を付加した、すなわち、会話文を録音音声で挟んだ。これに代えて、会話文の前または後のみに録音音声を付加するようにしてもよい。
In the above embodiment, as shown in FIG. 2 and FIG. 6, the recorded voice 111 (the
会話文のテキストが長い場合には、会話文を複数のフレーズに分割する。そして、フレーズごとに音声合成して再生し、各フレーズの間にも録音音声を挿入すればよい。挿入された録音音声の再生中にその直後のフレーズの音声合成をすればよい。また、複数の会話文を連続して合成する場合にも同様に、会話文と会話文との間に録音音声を挿入して、この録音音声の再生中に後の会話文の音声合成を合成するようにすればよい。 When the text of the conversation sentence is long, the conversation sentence is divided into a plurality of phrases. Then, it is possible to synthesize and reproduce voices for each phrase, and to insert a recorded voice between each phrase. What is necessary is just to synthesize | combine the audio | voice of the phrase immediately after that during the reproduction | regeneration of the recorded audio | voice inserted. Similarly, when synthesizing multiple conversation sentences in succession, a recorded voice is inserted between the conversation sentences and the conversation sentence is synthesized during playback of the recorded voice. You just have to do it.
図7は、会話文を2つのフレーズに分割し、フレーズ毎に音声合成する場合の手順を示した図である。音声合成装置としては、図1に示したものが適用可能である。 FIG. 7 is a diagram showing a procedure for dividing a conversation sentence into two phrases and synthesizing speech for each phrase. As the speech synthesizer, the one shown in FIG. 1 can be applied.
テキスト110を音声合成して出力するプロセスがスタートすると、まず、前音声111Aがメモリ103から読み出され、これを音声再生部104で再生する。前音声111Aが再生されている間に、音声合成部101は、供給されたテキスト(会話文の前半)を音声化(音声合成)する。音声合成部101によって合成された合成音声112Aは合成バッファ102に記憶され、前音声111Aの再生が終了したのち、前音声111Aに続いて再生される。合成音声112Aの再生中にフレーズ間で再生される録音音声である中音声111Cが読み出される。合成音声112Aの再生が終了すると、音声再生部104は、これに続けて中音声111Cを再生する。なお、中音声111Cの読み出しは、前音声111Aの読み出し後、合成音声112Aの生成終了までであればいつでもよい。
When the process of synthesizing and outputting the
中音声111Cも前音声111Aと同様に、メモリ103に記憶されている録音音声111のなかから、会話文と同じカテゴリのものを選択すればよい。中音声111Cが再生されている間に、音声合成部101は会話文の後半を音声合成する。音声合成部101によって合成された後半の合成音声112Bは合成バッファ102に記憶され、中音声111Cの再生が終了したのち、中音声111Cに続いて再生される。後半の合成音声112Bの再生中に後音声111Bが読み出される。合成音声112Bの再生が終了すると、音声再生部104は、これに続けて後音声111Bを再生する。
Similarly to the
このように、会話文を複数のフレーズに分割し、その間に生声である録音音声111を挿入することにより、長い合成音声で表情が不足する場合でも、途中で表情のある録音音声111を挿入して表情を豊かにすることができる。また、長い会話文を音声合成するには長い時間が必要であるが、会話文を複数のフレーズに分割することで、それぞれのフレーズを短時間で合成し、合成時間を録音音声でカバーすることが可能になる。
In this way, by dividing a conversation sentence into a plurality of phrases and inserting a recorded
また、長い会話文(または複数の会話文)を一気に音声合成して再生する場合には、前音声111Aを長くすればよい。ただし、録音音声は、たとえば「うわ〜」、「わーい」、「やった!」などの短い音声が多いため、前音声111Aを長くする場合には、複数の録音音声を組み合わせたり、同じ録音音声を繰り返したものを前音声111Aとして再生すればよい。たとえば、「わーい、やった、やった!」などである。
When a long conversation sentence (or a plurality of conversation sentences) is voice-synthesized and reproduced at once, the
また、前音声111Aの再生が終了したときに、会話文の音声合成が完了していなかった場合、前音声111Aを追加して再生してもよい。この場合、先に再生した前音声111Aを繰り返してもよく、新たな前音声111Aを選択してもよい。
Further, when the speech synthesis of the conversation sentence is not completed when the playback of the
図8は、会話文の音声合成の所要時間に応じて前音声111Aの長さを調整する場合の制御部20の動作を示すフローチャートである。この処理は、定期的なトリガに応じて実行される。まず、現在のゲームの状況を判断する(S30)。このゲームの状況に基いて今が会話タイミングか否かを決定する(S31)。タイミングでない場合には(S31でNO)そのまま動作を終了する。
FIG. 8 is a flowchart showing the operation of the
会話のタイミングであると判断された場合は(S31でYES)、現在のゲームの状況に基づき生成する会話のカテゴリや会話文を選択する(S32)。次に、選択された会話文の空欄に当てはめる語句を入力語句記憶領域60から選択する(S33)。これで会話文のテキストが完成する。完成した会話文のテキストを音声合成部101に出力して音声データの合成を指示する(S34)。会話文の長さ等に基づいて音声合成に必要な時間を推定する(S35)。推定された合成時間に基づいて、前音声111Aとする録音音声を1または複数選択し、および/または、選択した録音音声の繰り返し回数を設定する(S36)。前音声111Aは、会話文と同じカテゴリに分類されている録音音声のなかから選択されればよい。選択された録音音声を設定された回数再生するように音声再生部104に指示する(S37)。
If it is determined that it is a conversation timing (YES in S31), a conversation category or conversation sentence to be generated is selected based on the current game situation (S32). Next, a phrase to be applied to the blank of the selected conversation sentence is selected from the input phrase storage area 60 (S33). This completes the text of the conversation. The text of the completed conversation sentence is output to the
S39で前音声111Aの再生が終了するまで待機する(S38)。前音声の再生が終了すると(S38でYES)、音声合成部101による音声合成が完了しているかを判断する(S39)。音声合成が完了している場合には(S39でYES)、音声再生部104に対して合成音声の再生を指示する(S41)。
The process waits until the reproduction of the
一方、前音声111Aの再生が終了しても、音声合成が完了していない場合には(S39でNO)、再生が終了した前音声111Aを再度再生するよう音声再生部104に指示し(S40)、S38に戻る。なお、このとき新たな録音音声を再度選択して再生してもよい。
On the other hand, if the speech synthesis is not completed even after the playback of the
処理がS41に進んだ場合、合成音声の再生が終了するまでに後音声111Bを選択する(S42)。なお、後音声の選択は、S32以後、合成音声の再生が終了するまでの間のいつ行ってもよい。S41で再生を開始した合成音声112の再生が終了すると(S43でYES)、後音声111Bを音声再生部104に再生させる(S44)。この再生とともに、ユーザによる回答の入力を受け付ける(S45)。入力された回答の語句を入力語句記憶領域60に記憶する(S46)。
When the process proceeds to S41, the post-sound 111B is selected until the reproduction of the synthesized speech is completed (S42). Note that the selection of the post-sound may be performed at any time after S32 until the reproduction of the synthesized sound is finished. When the reproduction of the
長い会話文(または複数の会話文)は、図8に示したように、分割して合成・再生してもよく、図9に示したように、前音声111Aを音声合成に十分な時間を取れるように長くしてもよい。
As shown in FIG. 8, a long conversation sentence (or a plurality of conversation sentences) may be divided and synthesized / reproduced. As shown in FIG. 9, the
なお、音声合成部101は、会話文の内容やゲームの状況に応じて、合成される音声112の速さ、ピッチ、音量などを変化させてもよい。その場合、そのパラメータが音声再生部104に提供され、音声再生部104は、合成音声112に合わせた速さ、ピッチ、音量で録音音声111を再生する。また、音声合成部101は通常の速さ、ピッチ、音量で音声を合成し、音声再生部104が、会話文の内容やゲームの状況に応じて、合成音声112、録音音声111の両方の速さ、ピッチ、音量を調整して再生するようにしてもよい。
Note that the
なお、後音声111Bの語尾を、キャラクタの性格、キャラクタの成長度合い、キャラクタの服装などに応じて変化させてもよい。すなわち、「〜にゃ」、「〜でございます。」などの語を選択された後音声の語尾に付加して再生してもよい。また、予め「○○にゃ」、「○○でございます。」(○○は語句)の音声を録音音声として記憶しておいてもよい。 Note that the ending of the post-speech 111B may be changed according to the character of the character, the degree of character growth, the character's clothes, and the like. That is, after selecting a word such as “~ nya” or “It is ~”, it may be added to the end of the voice and reproduced. In addition, voices of “XX Nya” and “It is XX” (XX is a phrase) may be stored in advance as recorded voices.
また、ゲーム上の場所に応じて、生成する音声(キャラクタが喋る音声)の音量や音質を変化させてもよい。例えば、場所が電車内の場合にはヒソヒソ声、青空の下では元気な声の音声を生成してもよい。 Further, the volume and sound quality of the generated sound (sound that the character speaks) may be changed according to the location on the game. For example, you may generate a voice with a guilloche voice when the place is on a train, and a voice with a cheerful voice under the blue sky.
1 ゲーム装置
5 ゲームメディア
20 制御部
21 CPU
22 ROM(フラッシュメモリ)
50 ゲーム履歴データ記憶エリア
60 入力語句記憶エリア
61 (会話文、録音音声の)記憶エリア
100 音声生成装置
101 音声合成部
104 音声再生部
DESCRIPTION OF
22 ROM (flash memory)
50 game history
本発明の音声生成装置は、仮想的な話者であるキャラクタを表示する表示部と、ユーザからの入力を受け付ける操作部と、操作部に入力された語句を記憶する語句記憶部と、テキストデータを作成し、該作成されたテキストデータに基づいて音声信号を合成して合成音声を生成する音声合成部と、音声信号である録音音声を記憶部に予め記憶する録音音声記憶部と、録音音声を、記憶部から読み出す録音音声読出部と、キャラクタが発する音声として、音声信号および録音音声を再生する音声再生部と、を備え、音声合成部は、語句記憶部に記憶されている語句を含むテキストデータを作成し、音声再生部は、合成音声を再生する場合、この合成音声を再生する前に再生する録音音声である前音声、および、合成音声を再生した後に再生する録音音声であって前音声とは異なる後音声をさらに再生することを特徴とする。 The speech generation device of the present invention includes a display unit that displays a character that is a virtual speaker, an operation unit that receives input from a user, a phrase storage unit that stores a phrase input to the operation unit, and text data. A voice synthesizer that generates a synthesized voice by synthesizing a voice signal based on the created text data, a recorded voice storage unit that stores a recorded voice that is a voice signal in a storage unit, and a recorded voice Is recorded from the storage unit , and a voice reproduction unit that reproduces the voice signal and the recorded voice as the voice uttered by the character , and the voice synthesis unit includes a phrase stored in the phrase storage unit create a text data, sound reproduction unit, when reproducing synthesized speech, speech before a recorded sound to be played before playing the synthesized speech, and to play after play synthesized speech It characterized by further reproducing the different succeeding note voice before and voice a sound voice.
上記発明において、音声再生部が後音声を再生する場合、録音音声読出部は、音声再生部が合成音声を再生している間に記憶部から前記後音声を読み出すようにしてもよい。 In the above invention, when the voice playback unit to play back sound, recorded speech reading unit may read the speech after the from the storage unit while the audio reproduction unit is reproducing the synthesized speech.
上記発明において、音声合成部、録音音声記憶部、録音音声読出部および音声再生部はビデオゲームを実行する制御部によって実現されてもよい。そして、テキストデータは、ゲーム上のキャラクタがユーザに対して発声する会話文であり、キャラクタにはゲームの進行に応じて変化する連続的または段階的な感情パラメータが設定され、カテゴリはキャラクタの感情パラメータに基づいて設定されてもよい。 In the above invention, the voice synthesis unit, the recorded voice storage unit, the recorded voice reading unit, and the voice playback unit may be realized by a control unit that executes a video game. Then, the text data is a sentence that character on the game is spoken to the user, the character set continuously or stepwise emotion parameter changes according to the progress of the game, the category of character emotion It may be set based on a parameter.
Claims (6)
音声信号である録音音声を記憶部に予め記憶する録音音声記憶部と、
前記録音音声を、前記記憶部から読み出す録音音声読出部と、
前記音声信号および前記録音音声を再生する音声再生部と、
を備え、
前記音声再生部は、前記合成音声を再生する場合、該合成音声を再生する前に再生する録音音声である前音声、当該合成音声を再生した後に再生する録音音声である後音声、および、当該合成音声の再生途中に再生する中音声のうち、少なくとも一つをさらに再生する
音声生成装置。 A speech synthesizer that synthesizes speech signals based on text data to generate synthesized speech;
A recording voice storage unit that stores in advance a recording voice that is an audio signal in the storage unit;
A recorded voice reading unit for reading the recorded voice from the storage unit;
An audio reproduction unit for reproducing the audio signal and the recorded audio;
With
The audio playback unit, when playing back the synthesized speech, the pre-speech that is the recorded speech to be played before playing the synthesized speech, the post-speech that is the recorded speech to be played after playing the synthesized speech, and the An audio generation device that further reproduces at least one of the intermediate sounds reproduced during the reproduction of the synthesized sound.
前記録音音声読出部は、前記音声合成部が前記合成音声を生成する前に、前記記憶部から前記前音声を読み出し、
前記音声再生部は、前記音声合成部による前記合成音声の生成中に、前記前音声を再生する
請求項1に記載の音声生成装置。 When the audio reproduction unit reproduces the previous audio,
The recorded voice reading unit reads the previous voice from the storage unit before the voice synthesizing unit generates the synthesized voice.
The audio generation device according to claim 1, wherein the audio reproduction unit reproduces the previous audio during the generation of the synthesized audio by the audio synthesis unit.
前記録音音声読出部は、前記音声再生部が前記合成音声を生成している間に、前記記憶部から前記後音声を読み出す
請求項1または請求項2に記載の音声生成装置。 When the audio reproduction unit reproduces the post audio,
The voice generation device according to claim 1, wherein the recorded voice reading unit reads the post-voice from the storage unit while the voice reproduction unit is generating the synthesized voice.
前記録音音声読出部は、前記音声再生部が前記合成音声の前半を生成している間に、前記記憶部から前記中音声を読み出し、
前記音声再生部は、前記合成音声の前半の再生後、且つ前記合成音声の後半の再生前に、前記中音声を再生する
請求項1乃至請求項3のいずれかに記載の音声生成装置。 When the audio reproduction unit reproduces the medium audio,
The recorded voice reading unit reads the middle voice from the storage unit while the voice reproduction unit generates the first half of the synthesized voice,
The sound generation device according to any one of claims 1 to 3, wherein the sound reproduction unit reproduces the middle sound after the first half of the synthesized speech is reproduced and before the second half of the synthesized speech is reproduced.
前記録音音声記憶部は、複数の前記録音音声をカテゴリ別に記憶しており、
前記音声合成部は、前記テキスト記憶部に記憶されている複数の前記テキストデータからテキストデータを選択して音声信号を合成し、
前記音声読出部は、前記テキストデータと同じまたは類似のカテゴリの録音音声を選択して読み出す
請求項1乃至請求項4のいずれかに記載の音声生成装置。 A text storage unit for storing a plurality of the text data by category;
The recorded voice storage unit stores a plurality of the recorded voices by category,
The speech synthesizer selects text data from the plurality of text data stored in the text storage unit to synthesize a speech signal,
The voice generation device according to any one of claims 1 to 4, wherein the voice reading unit selects and reads a recorded voice of the same or similar category as the text data.
前記テキストデータは、前記ゲーム上の仮想的な話者がユーザに対して発声する会話文であり、
前記仮想的な話者には前記ゲームの進行に応じて変化する連続的または段階的な感情パラメータが設定され、
前記カテゴリは、前記仮想的な話者の前記感情パラメータに基づいて設定される、
請求項5に記載の音声生成装置。
The voice synthesis unit, the recorded voice storage unit, the recorded voice reading unit, and the voice playback unit are realized by a control unit that executes a video game,
The text data is a conversation sentence spoken to the user by a virtual speaker on the game,
The virtual speaker is set with continuous or stepwise emotion parameters that change as the game progresses,
The category is set based on the emotion parameter of the virtual speaker.
The voice generation device according to claim 5.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016158389A JP2018025706A (en) | 2016-08-12 | 2016-08-12 | Voice generator |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016158389A JP2018025706A (en) | 2016-08-12 | 2016-08-12 | Voice generator |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018025706A true JP2018025706A (en) | 2018-02-15 |
Family
ID=61195250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016158389A Pending JP2018025706A (en) | 2016-08-12 | 2016-08-12 | Voice generator |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018025706A (en) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62229198A (en) * | 1986-03-29 | 1987-10-07 | 株式会社東芝 | Voice responder |
JPH11109991A (en) * | 1997-10-08 | 1999-04-23 | Mitsubishi Electric Corp | Man machine interface system |
JPH11237971A (en) * | 1998-02-23 | 1999-08-31 | Nippon Telegr & Teleph Corp <Ntt> | Voice responding device |
JP2001209820A (en) * | 2000-01-25 | 2001-08-03 | Nec Corp | Emotion expressing device and mechanically readable recording medium with recorded program |
JP2002264052A (en) * | 2001-03-09 | 2002-09-18 | Japan Science & Technology Corp | Robot audio-visual system |
JP2006208964A (en) * | 2005-01-31 | 2006-08-10 | Yec Co Ltd | Conversation device |
JP2011013564A (en) * | 2009-07-03 | 2011-01-20 | Nissan Motor Co Ltd | Information presenting device and information presenting method |
JP2013161038A (en) * | 2012-02-08 | 2013-08-19 | Denso Corp | Speech output device and speech output system |
-
2016
- 2016-08-12 JP JP2016158389A patent/JP2018025706A/en active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62229198A (en) * | 1986-03-29 | 1987-10-07 | 株式会社東芝 | Voice responder |
JPH11109991A (en) * | 1997-10-08 | 1999-04-23 | Mitsubishi Electric Corp | Man machine interface system |
JPH11237971A (en) * | 1998-02-23 | 1999-08-31 | Nippon Telegr & Teleph Corp <Ntt> | Voice responding device |
JP2001209820A (en) * | 2000-01-25 | 2001-08-03 | Nec Corp | Emotion expressing device and mechanically readable recording medium with recorded program |
JP2002264052A (en) * | 2001-03-09 | 2002-09-18 | Japan Science & Technology Corp | Robot audio-visual system |
JP2006208964A (en) * | 2005-01-31 | 2006-08-10 | Yec Co Ltd | Conversation device |
JP2011013564A (en) * | 2009-07-03 | 2011-01-20 | Nissan Motor Co Ltd | Information presenting device and information presenting method |
JP2013161038A (en) * | 2012-02-08 | 2013-08-19 | Denso Corp | Speech output device and speech output system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789937B2 (en) | Speech synthesis device and method | |
JP2021516787A (en) | An audio synthesis method, and a computer program, a computer device, and a computer system composed of the computer device. | |
US20010042057A1 (en) | Emotion expressing device | |
TW200426778A (en) | Voice/music piece reproduction apparatus and method | |
CN108369804A (en) | Interactive voice equipment and voice interactive method | |
WO2017006766A1 (en) | Voice interaction method and voice interaction device | |
CN104574478A (en) | Method and device for editing mouth shapes of animation figures | |
JP6170604B1 (en) | Speech generator | |
JP2006346284A (en) | After-recording experience device and after-recording experience program | |
JP2010140278A (en) | Voice information visualization device and program | |
JP6190030B1 (en) | Voice generation program | |
JP6185136B1 (en) | Voice generation program and game device | |
JP6134043B1 (en) | Voice generation program and game device | |
JP2018025706A (en) | Voice generator | |
JP6625089B2 (en) | Voice generation program and game device | |
JP6569588B2 (en) | Spoken dialogue apparatus and program | |
JP2018159779A (en) | Voice reproduction mode determination device, and voice reproduction mode determination program | |
JP4651168B2 (en) | Synthetic voice output apparatus and method, and recording medium | |
JP2001314649A (en) | Voice game method and apparatus, and recording medium | |
JP2017106988A (en) | Voice interactive device and program | |
Holmes | Defining voice design in video games | |
JP6922306B2 (en) | Audio playback device and audio playback program | |
JP2009000248A (en) | Game machine | |
JP6583756B1 (en) | Speech synthesis apparatus and speech synthesis method | |
KR102025903B1 (en) | Apparatus and method for language learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20171128 |