JP2006337468A - Device and program for speech synthesis - Google Patents
Device and program for speech synthesis Download PDFInfo
- Publication number
- JP2006337468A JP2006337468A JP2005159003A JP2005159003A JP2006337468A JP 2006337468 A JP2006337468 A JP 2006337468A JP 2005159003 A JP2005159003 A JP 2005159003A JP 2005159003 A JP2005159003 A JP 2005159003A JP 2006337468 A JP2006337468 A JP 2006337468A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech
- sound
- output
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、音声合成装置及び音声合成プログラムに関するものであり、詳細には、複数の声の音声を合成する音声合成装置及び音声合成プログラムに関するものである。 The present invention relates to a speech synthesizer and a speech synthesis program, and more particularly to a speech synthesizer and a speech synthesis program that synthesize a plurality of voices.
従来、音声合成技術において、その使用目的に合わせて、より効果的な音声が出力できるように、出力される音声に様々な演出を行う技術が提案されている。例えば、特許文献1に記載の発明のゲーム装置では、出力される最後の文字に対応した一音を再度低音量で音声出力することにより、出力される音声に余韻を残したり、各文字の発音ごとにそれぞれ、同一音量波形でそれよりも順次音量を下げたものを一定時間だけ順次遅らせてミックスさせて音声出力することにより、出力される音声につながりと残響を付加してエコー効果を持たせたりしている。また、特許文献2に記載の発明の音声読み上げ装置では、利用者により「繰り返し指定」が行われると、出力された音声のうち重要部分(数字を含む部分)が復唱される。
2. Description of the Related Art Conventionally, in a speech synthesis technique, a technique for performing various effects on output sound has been proposed so that a more effective sound can be output in accordance with the purpose of use. For example, in the game device of the invention described in
また、音声合成の演出のひとつとして、複数の音声を合成するということが行われている。特許文献3に記載の発明の歌声音声合成装置では、複数のパートに分かれた歌声を合わせて合唱させる場合には、歌声信号生成部で生成された各パートの音声合成波形である歌声信号を合唱信号生成部で加算して、合唱信号を作成して、アナログ信号に変換後歌声として出力されている。また、特許文献4に記載の発明の歌声合成装置では、特許文献1に記載の発明の歌声合成装置のように、各パートの歌声合成部で生成された音声を合唱生成部で合唱音声を生成したり、異なるパートの音声を別々の出力部から出力したり、歌声合成部で先に合成されたパートの歌声を一旦外部記憶装置に記憶し、後で別のパートの歌声が合成された際に、先に合成されたパートの歌声を取り出して合成して合唱の音声として出力したりしている。
しかしながら、特許文献1に記載の発明のゲーム装置では、一種類の音声を用いて音声に余韻を持たせたり、エコー効果を持たせたりしているのみであり、特許文献2に記載の発明の音声読み上げ装置では、はじめに出力された音声と同じ音声で復唱しているのみであり、複数の種類の音声を用いて出力音声の演出を行っているものではない。また、特許文献3や特許文献4に記載の音声合成装置において、複数のパートの音声をすべて生成した後に、それらの音声を合成して出力する場合には、パートの数が多ければ多いほど、全ての音声を生成するのに時間が係るため、音声の生成を開始してから出力が開始されるまでに時間がかかってしまうという問題点があった。また、特許文献4に記載の音声合成装置のように、異なるパートの音声を別々の出力部から出力する為には、音声の種類だけ出力部を設ける必要があるという問題点があった。
However, in the game device of the invention described in
本発明は、上述の問題点を解決するためになされたものであり、複数の声の音声を合成する音声合成装置及び音声合成プログラムを提供することを目的とする。 The present invention has been made to solve the above-described problems, and an object thereof is to provide a speech synthesizer and a speech synthesis program for synthesizing a plurality of voices.
上記課題を解決するため、請求項1に係る発明の音声合成装置では、音声を音響パラメータ列に分析した音韻データから作られた音韻モデルと音声を分析した基本周波数データから作られた韻律モデルとを少なくとも含む音響モデルの集合である音響辞書を複数の音声種類ごとに記憶する音響辞書記憶手段と、音声を生成する文を入力する文入力手段と、前記文入力手段により入力された前記音声を生成する文を単語に分解して品詞を決定し、アクセント句ごとにそのアクセント位置を示すアクセント型を決定し、かつ当該音声を生成する文の読みを決定する言語解析手段と、当該言語解析手段により解析された解析結果を記憶する解析結果記憶手段と、前記音響辞書記憶手段に記憶されている前記音響辞書のうちの1つ又は複数の前記音声種類を指定する音声種類指定手段と、前記解析結果記憶手段に記憶されている前記解析結果及び前記音声種類指定手段で指定された前記音声種類に基づいて前記音響辞書から前記音響モデルを選択する音響モデル選択手段と、当該音響モデル選択手段により選択された前記音響モデルをもとに音声を生成する音声生成手段とを備えたことを特徴とする。 In order to solve the above-described problem, in the speech synthesizer according to the first aspect of the present invention, a phoneme model created from phoneme data obtained by analyzing speech into an acoustic parameter sequence and a prosody model created from fundamental frequency data obtained by analyzing speech Acoustic dictionary storage means for storing an acoustic dictionary that is a set of acoustic models at least for each of a plurality of voice types, sentence input means for inputting a sentence for generating voice, and the voice input by the sentence input means Language analysis means for determining a part of speech by decomposing a sentence to be generated, determining an accent type indicating an accent position for each accent phrase, and determining a reading of a sentence for generating the speech; and the language analysis means Analysis result storage means for storing the analysis result analyzed by one or more of the acoustic dictionaries stored in the acoustic dictionary storage means Sound type designation means for designating a class, and sound for selecting the acoustic model from the acoustic dictionary based on the analysis result stored in the analysis result storage means and the voice type designated by the voice type designation means It is characterized by comprising model selection means and sound generation means for generating sound based on the acoustic model selected by the acoustic model selection means.
また、請求項2に係る発明の音声合成装置では、請求項1に記載の発明の構成に加えて、前記音声生成手段は、前記音響モデル選択手段により選択された前記音響モデルをもとにアクセント句、単語、形態素、又は、文字ごとに音声を生成することを特徴とする。
Further, in the speech synthesizer according to the invention of
また、請求項3に係る発明の音声合成装置では、請求項1又は2に記載の発明の構成に加えて、前記音声種類指定手段は、前記音声を生成する文の全体について1つ又は複数の前記音声種類を指定する全体音声種類指定手段を備えていることを特徴とする。
Moreover, in the speech synthesizer of the invention according to
また、請求項4に係る発明の音声合成装置では、請求項1乃至3のいずれかに記載の発明の構成に加えて、前記音声種類指定手段は、前記音声を生成する文におけるアクセント句ごとに1つ又は複数の前記音声種類を指定するアクセント句別音声指定手段を備えていることを特徴とする。
Moreover, in the speech synthesizer of the invention according to
また、請求項5に係る発明の音声合成装置では、請求項1乃至4のいずれかに記載の発明の構成に加えて、前記音声種類指定手段は、第1パート及び第2パートの2つパートの前記音声種類をそれぞれ指定するパート別音声種類指定手段を備え、前記音声生成手段は、前記音声を生成する文の所定のブロックごとに前記第1パートで指定されている前記音声種類の音声が出力された後に前記第2パートで指定されている前記音声種類の音声を出力して、前記第1パートの音声を前記第2パートの音声が復唱するように音声を合成する復唱音声生成手段を備えたことを特徴とする。
Further, in the speech synthesizer of the invention according to
また、請求項6に係る発明の音声合成装置では、請求項1乃至5のいずれかに記載の発明の構成に加えて、前記音声種類指定手段は、複数のパートの前記音声種類をそれぞれ指定する複数パート音声種類指定手段と、前記複数のパートの中で音声を出力する順番を指定する順番指定手段とを備え、前記音声生成手段は、まず前記順番指定手段に指定された順番が1番目の前記パートの前記音声を生成する文の所定のブロックの音声を出力し、前記順番が2番目以降の前記パートは前記順番が1つ前のパートの1番目のブロックの音声の出力が完了した時点で音声の出力を開始させるように、前記順番指定手段により指定されている順番に前記各パートの音声が輪唱するように音声を合成する輪唱音声生成手段を備えたことを特徴とする。
In the speech synthesizer of the invention according to
また、請求項7に係る発明の音声合成装置では、請求項5又は6に記載の発明の構成に加えて、前記ブロックは、所定の記号で区切られた文、アクセント句、単語、又は、文字のうちの少なくとも1つであることを特徴とする。
Further, in the speech synthesizer of the invention according to
また、請求項8に係る発明の音声合成装置では、請求項3乃至7のいずれかに記載の発明の構成に加えて、前記音声種類指定手段は、前記アクセント句別音声指定手段、前記全体音声種類指定手段、前記パート別音声種類指定手段、及び、前記複数パート音声種類指定手段のうちから1つの手段を選択する指定方法選択手段を備えたことを特徴とする。
Further, in the speech synthesizer of the invention according to
また、請求項9に係る発明の音声合成プログラムでは、請求項1乃至8のいずれかに記載の音声合成装置の各種処理手段としてコンピュータを機能させる構成となっている。 According to a ninth aspect of the present invention, there is provided a speech synthesis program that causes a computer to function as various processing means of the speech synthesis apparatus according to any one of the first to eighth aspects.
請求項1に係る発明の音声合成装置では、音響辞書記憶手段は、音声を音響パラメータ列に分析した音韻データから作られた音韻モデルと音声を分析した基本周波数データから作られた韻律モデルとを少なくとも含む音響モデルの集合である音響辞書を複数の音声種類ごとに記憶し、文入力手段は、音声を生成する文を入力し、言語解析手段は、文入力手段により入力された音声を生成する文を単語に分解して品詞を決定し、アクセント句ごとにそのアクセント位置を示すアクセント型を決定し、かつ音声を生成する文の読みを決定し、解析結果記憶手段は、言語解析手段により解析された解析結果を記憶し、音声種類指定手段は、音響辞書記憶手段に記憶されている音響辞書のうちの1つ又は複数の音声種類を指定し、音響モデル選択手段は、解析結果記憶手段に記憶されている解析結果及び音声種類指定手段で指定された音声種類に基づいて音響辞書から音響モデルを選択し、音声生成手段は、音響モデル選択手段により選択された音響モデルをもとに音声を生成することができる。したがって、出力したい音声の種類を指定できるので、音声種類の組み合わせにより多様な音声を出力することができる。
In the speech synthesizer of the invention according to
また、請求項2に係る発明の音声合成装置では、請求項1に記載の発明の効果に加えて、音声生成手段は、音響モデル選択手段により選択された音響モデルをもとにアクセント句、単語、形態素、又は、文字ごとに音声を生成することができる。したがって、音声出力する全文の音声を生成してから音声を出力するのではないので、音声の合成を開始してから音声が出力されるまでの時間が短く、音声出力に遅延がなくスムースな出力をすることができる。
In the speech synthesizer of the invention according to
また、請求項3に係る発明の音声合成装置では、請求項1又は2に記載の発明の効果に加えて、音声種類指定手段の全体音声種類指定手段は、音声を生成する文の全体について1つ又は複数の音声種類を指定することができる。したがって、文全体を複数の人で発声しているような効果を得ることができる。
In the speech synthesizer of the invention according to
また、請求項4に係る発明の音声合成装置では、請求項1乃至3のいずれかに記載の発明の効果に加えて、音声種類指定手段のアクセント句別音声指定手段は、音声を生成する文におけるアクセント句ごとに1つ又は複数の音声種類を指定することができる。したがって、一部分のみ複数の人で発声しているようにもすることができるので多様な演出を行うことができる。
In the speech synthesizer of the invention according to
また、請求項5に係る発明の音声合成装置では、請求項1乃至4のいずれかに記載の発明の効果に加えて、音声種類指定手段のパート別音声種類指定手段は、第1パート及び第2パートの2つパートの音声種類をそれぞれ指定することができる。また、音声生成手段の復唱音声生成手段は、音声を生成する文の所定のブロックごとに第1パートで指定されている音声種類の音声が出力された後に第2パートで指定されている音声種類の音声を出力して、第1パートの音声を第2パートの音声が復唱するように音声を合成することができるので、好みの音声種類で復唱をさせることができる。
In the speech synthesizer of the invention according to
また、請求項6に係る発明の音声合成装置では、請求項1乃至5のいずれかに記載の発明の効果に加えて、音声種類指定手段の複数パート音声種類指定手段は、複数のパートの音声種類をそれぞれ指定し、順番指定手段は、複数のパートの中で音声を出力する順番を指定することができる。また、音声生成手段の輪唱音声生成手段は、まず順番指定手段に指定された順番が1番目のパートの音声を生成する文の所定のブロックの音声を出力し、順番が2番目以降のパートは順番が1つ前のパートの1番目のブロックの音声の出力が完了した時点で音声の出力を開始させるように、順番指定手段により指定されている順番に各パートの音声が輪唱するように音声を合成することができる。したがって、好みの音声種類の音声を好みの順序で出力することができ、多様な演出を行うことができる。
Further, in the speech synthesizer of the invention according to
また、請求項7に係る発明の音声合成装置では、請求項5又は6に記載の発明の効果に加えて、ブロックは、所定の記号で区切られた文、アクセント句、単語、又は、文字のうちの少なくとも1つとすることができるので、短いサイクルで音声出力を行うことができ、音声出力に遅延がなくスムースな出力をすることができる。
In the speech synthesizer of the invention according to
また、請求項8に係る発明の音声合成装置では、請求項3乃至7のいずれかに記載の発明の効果に加えて、音声種類指定手段の指定方法選択手段は、アクセント句別音声指定手段、全体音声種類指定手段、パート別音声種類指定手段、及び、複数パート音声種類指定手段のうちから1つの手段を選択することができるので、様々な演出で複数の音声種類を出力することができる。
In addition, in the speech synthesizer of the invention according to
また、請求項9に係る発明の音声合成プログラムでは、請求項1乃至8のいずれかに記載の音声合成装置の各種処理手段としてコンピュータを機能させることができる。
In the speech synthesis program of the invention according to
以下、本発明の実施の形態を図面を参照して説明する。本発明の音声合成装置及び音声合成プログラムでは、音声出力したい文章(テキスト)について、「全文選択モード」にて「一斉」,「復唱」,「輪唱」の指定をし、出力される音声種類を指定することができる。または、「アクセント句モード」にてアクセント句ごとに出力される音声種類を指定することができる。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the speech synthesizer and the speech synthesis program of the present invention, for the sentence (text) to be output as speech, “simultaneous”, “return”, and “rotation” are designated in the “full text selection mode”, and the output speech type is set. Can be specified. Alternatively, the type of sound output for each accent phrase can be specified in the “accent phrase mode”.
「全文選択モード」の「一斉」では、指定された音声種類の音声が複数であれば、複数の音声を同時に出力して、複数の人が同時にテキストを読み上げているように音声が出力される。なお、指定された音声種類が一種類であれば、一種類の音声で一人がテキストを読み上げているように音声が出力される。また、「全文選択モード」の「復唱」では、アクセント句ごとに、先導する音声として指定された音声種類(以下、「先導音声種類」とする)で出力をした後に、復唱する音声として指定された音声種類(以下、「復唱音声種類」とする)を出力して、アクセント句ごとに先導音声種類の音声で出力されたテキストを復唱音声種類の音声が復唱するように音声が出力される。なお、復唱音声種類の音声が複数指定されている場合には、同時に出力される。また、「全文選択モード」の「輪唱」では、指定された音声種類について、指定された順番に、ひとつ前の音声種類の1番目のアクセント句の出力が終了した後に音声出力が開始され、合唱における「輪唱」と同様に複数の人が前の人に続いて読みあげを行っているように音声が出力される。 In "Batch" of "Full text selection mode", if there are multiple voices of the specified voice type, multiple voices are output at the same time, and the voice is output as if multiple people are reading the text simultaneously . If there is only one designated voice type, the voice is output as if one person is reading a text with one type of voice. In “Repeat” in “Full text selection mode”, each accent phrase is designated as the voice to be repeated after being output with the voice type designated as the leading voice (hereinafter referred to as “leading voice type”). The voice type (hereinafter referred to as “repeated voice type”) is output, and the voice is output so that the voice of the repeated voice type repeats the text output with the voice of the leading voice type for each accent phrase. In addition, when a plurality of repetitive voice types are designated, they are output simultaneously. Also, in the “full text selection mode” “ring”, voice output is started after the output of the first accent phrase of the previous voice type in the specified order for the specified voice type, In the same way as in “Ring”, voice is output as if a plurality of people are reading aloud following the previous person.
また、「アクセント句モード」では、アクセント句ごとに指定されている音声種類の音声を出力して、アクセント句ごとに別の人が読み上げているように音声が出力されたり、アクセント句ごとに読み上げている人数が変わるように音声が出力されたりする。なお、本実施の形態の音声合成装置及び音声合成プログラムでは、「全文選択モード」において選択がされている場合には、「アクセント句モード」において音声種類の指定はできないように制御されている。 In the “accent phrase mode”, the voice type specified for each accent phrase is output, and the voice is output as if another person is speaking for each accent phrase, or is read for each accent phrase. Sound is output so that the number of people who are changing. Note that, in the speech synthesizer and the speech synthesis program of the present embodiment, when the “full sentence selection mode” is selected, control is performed so that the speech type cannot be specified in the “accent phrase mode”.
まず、図1を参照して、本実施の形態の音声合成装置である携帯電話機1について説明する。図1は、携帯電話機1の外観図であり、図2は、携帯電話機1の電気的構成を示すブロック図である。そして、図3は、RAM22の構成を示す模式図であり、図4は、RAM22の一斉情報記憶エリア224の構成を示す模式図であり、図5は、RAM22の復唱情報記憶エリア225の構成を示す模式図であり、図6は、RAM22の輪唱情報記憶エリア226の構成を示す模式図であり、図7は、RAM22のアクセント句モード情報記憶エリア227の構成を示す模式図である。
First, a
図1に示すように、携帯電話機1には、表示画面2と、テン・キー入力部3と、4方向のボタン及び決定ボタンを備えたマルチボタン4と、通話開始ボタン5と、通話終了ボタン6と、マイク7と、スピーカ8と、機能選択ボタン9,10と、アンテナ12(図2参照)とが設けられている。尚、テン・キー入力部3、マルチボタン4、通話開始ボタン5、通話終了ボタン6、機能選択ボタン9,10によりキー入力部38(図2参照)が構成される。
As shown in FIG. 1, the
また、図2に示すように、携帯電話機1には、マイク7からの音声信号の増幅及びスピーカ8から出力する音声の増幅等を行うアナログフロントエンド36と、アナログフロントエンド36で増幅された音声信号のデジタル信号化及びモデム部34から受け取ったデジタル信号をアナログフロントエンド36で増幅できるようにアナログ信号化する音声コーディック部35と、変復調を行うモデム部34と、アンテナ12から受信した電波の増幅及び検波を行い、また、キャリア信号をモデム部34から受け取った信号により変調し、増幅する送受信部33が設けられている。
As shown in FIG. 2, the
さらに、携帯電話機1には、携帯電話機1全体の制御を行う制御部20が設けられ、制御部20には、CPU21と、データを一時的に記憶するRAM22と、時計機能部23とが内蔵されている。また、制御部20には、文字等を入力するキー入力部38と、表示画面2と、プログラムや各種音声種類の音響辞書を記憶した不揮発メモリ30と、着信音を発生するメロディ発生器32が接続されている。メロディ発生器32には、メロディ発生器32で発生した着信音を発声するスピーカ37が接続されている。
Further, the
なお、本実施の形態では、「男性」,「女性」,「男の子」,「女の子」,「アニメ」の5種類の音声種類を用い、男性を1番目の音声種類、女性を2番目の音声種類、男の子を3番目の音声種類、女の子を4番目の音声種類、アニメを5番目の音声種類とする。不揮発メモリ30の音響辞書には、これらの5種類の音声種類の音声を生成する為の5種類の音響辞書が記憶されている。
In this embodiment, five types of voices of “male”, “female”, “boy”, “girl”, and “animation” are used, with male being the first voice type and female being the second voice. Kind, boy is the third voice type, girl is the fourth voice type, and animation is the fifth voice type. The acoustic dictionary of the
また、図3に示すように、RAM22には、音声合成の処理を行う際に使用される変数や生成データを記憶する種々の記憶エリアが設けられている。例えば、テキスト記憶エリア221には、音声合成を行う指示のされたテキストが記憶される。また、解析結果記憶エリア222には、形態素解析処理及びアクセント句形成処理により解析された結果が記憶されている。また、パラメータ情報記憶エリア223には、「全文選択モード」,「アクセント句モード」で指定された設定の情報が記憶されている。具体的には、「全文選択モード」の設定がされている場合には、「一斉」が選択されていれば「1」、「復唱」が選択されていれば「2」、「輪唱」が選択されていれば「3」がセットされ、「アクセント句モード」で各アクセント句に音声種類が設定されていれば「9」がセットされる。なお、初期値は「0」である。
Also, as shown in FIG. 3, the
そして、一斉情報記憶エリア224は、「全文選択モード」で「一斉」が選択されている場合に使用される記憶エリアであり、復唱情報記憶エリア225は、「全文選択モード」で「復唱」が選択されている場合に使用される記憶エリアであり、輪唱情報記憶エリア226は、「全文選択モード」で「輪唱」が選択されている場合に使用される記憶エリアである。そして、アクセント句モード情報記憶エリア227は、「アクセント句モード」が指定されている場合に使用される記憶エリアである。また、合成音声記憶エリア228は、複数の音声の音声データが加算された結果が記憶される記憶エリアである。
The simultaneous
図4に示すように、RAM22の一斉情報記憶エリア224には、1番目から5番目までの音声種類ごとに、設定欄及び音声データ欄が設けられている。設定欄にはそれぞれの音声種類が出力される音声として設定されているか否かの情報が記憶される。なお、本実施の形態では出力される音声として設定されている場合には「1」、設定されていない場合には「0」を記憶するものとする。そして、音声データ欄には、各音声種類で生成された音声データ(音源信号)が記憶される。ここに記憶された音声データが合成されて、合成音声が出力されることとなる。尚、「m」は後述する一斉処理(図13参照)において、音声種類をカウントする際に使用される変数である。
As shown in FIG. 4, the simultaneous
図5に示すように、RAM22の復唱情報記憶エリア225には、先導音声種類、1個目の復唱音声種類、2個目の復唱音声種類、3個目の復唱音声種類、4個目の復唱音声種類ごとに、設定欄及び音声データ欄が設けられている。そして、復唱人数欄が設けられている。それぞれの設定欄には、音声種類を示す番号がセットされる。また、復唱人数欄には、復唱音声種類として指定されている音声種類の数がセットされる。たとえば、先導音声種類が「男性」であり、復唱音声種類が「女性」と「アニメ」であれば、先導音声種類情報の設定欄に「1」、復唱音声種類欄の1個目の設定欄に「2」、2個目の設定欄に「5」、復唱人数欄には「2」がセットされる。そして、音声データ欄には、各音声種類で生成された音声データ(音源信号)が記憶される。ここに記憶された音声データが合成されて、合成音声が出力されることとなる。尚、「p」は後述する復唱処理(図14参照)において、復唱音声種類をカウントする際に使用される変数である。
As shown in FIG. 5, in the repetition
図6に示すように、RAM22の輪唱情報記憶エリア226には、輪唱を行う音声種類の順番ごとに、音声種類欄及び形態素ごとの音声データ欄が設けられている。そして、輪唱人数欄及び1番目のアクセント句の形態素数欄が設けられている。音声種類欄には、各順番で出力される音声種類を示す番号がセットされ、輪唱人数欄には、輪唱する音声種類として指定されている音声種類の数がセットされ、1番目のアクセント句の形態素数欄には、後述する輪唱処理(図15参照)で1番目のアクセント句の形態素の数が算出されて記憶される。たとえば、「女性」が1番、「女の子」が2番、「アニメ」が3番として輪唱の順序が指定されている場合には、1番目の音声種類欄に「2」、2番目の音声種類欄に「4」、3番目の音声種類欄に「5」がセットされ、輪唱人数欄には「3」がセットされる。また、形態素ごとの音声データ欄には、各音声種類の形態素ごとの音声データ(音源信号)がセットされる。なお、本実施の形態では5種類の音声種類を用いているので、形態素の記憶エリアも5つ設けられており、(順番,形態素)として音声データ欄を示すとすると、1つの形態素について生成された音声データは、(q,q+最初のアクセント句の形態素数×(q−1))に記憶される。なお、「q」は後述する輪唱処理(図15参照)において、輪唱の順番をカウントするための変数である。そして、音声を出力する際には、(1,1)、(2,1)、(3,1)、(4,1)、(5,1)に記憶されている音声データが出力される。
As shown in FIG. 6, in the singing
図7に示すように、RAM22のアクセント句モード情報記憶エリア227には、音声種類ごとにアクセント句ごとの設定欄及びアクセント句ごとの音声データ欄が設けられている。アクセント句ごとの設定欄には、音声種類ごとに音声合成を行うテキストのアクセント句の数だけ設定を記憶できるようになっており、その音声種類の音声をそのアクセント句で出力するか否かの情報がセットされる。本実施の形態では、出力すると設定されている場合には「1」、設定されていない場合には「0」を記憶するものとする。また、アクセント句ごとの音声データ欄では、音声種類ごとにアクセント句の数だけ音声データ(音源信号)を記憶できるようになっており、出力すると設定されている音声種類について生成された音声データが記憶される。尚、「m」は後述するアクセント句処理(図16参照)において、音声種類をカウントする際に使用される変数であり、「n」はアクセント句をカウントする際に使用される変数である。
As shown in FIG. 7, the accent phrase mode
次に、図8乃至図11を参照して、音声出力を行うテキストを入力する画面、「全文選択モード」及び「アクセント句モード」の選択を行う際に表示される画面について説明する。図8は、メイン画面290のイメージ図であり、図9は、音声出力画面200のイメージ図であり、図10は、全文選択モード画面210のイメージ図であり、図11は、アクセント句モード画面230のイメージ図である。
Next, with reference to FIG. 8 to FIG. 11, a screen for inputting text for voice output and a screen displayed when selecting “full sentence selection mode” and “accent phrase mode” will be described. 8 is an image diagram of the
図8に示すメイン画面290は、携帯電話機1を操作して、音声合成プログラムを起動させると表示される画面であり、音声出力を行うテキストを入力するテキスト入力欄291と、参照ボタン292,OKボタン,キャンセルボタンが設けられている。テキスト入力欄291を選択すると、キー入力部38の操作によりテキストを入力することができる。また、参照ボタン292を選択すると、携帯電話機1の不揮発メモリ30に記憶されているメールの文章やインターネットに接続して表示した画面に記載されている文章からテキスト入力欄291に入力するテキストを選択することができる。そして、OKボタンが選択されると、テキスト入力欄291に入力されているテキストが音声出力をするテキストとして、RAM22のテキスト記憶エリア221に記憶される。なお、キャンセルボタンが選択されると、音声合成の処理は終了する。
A
図9に示す音声出力画面200は、メイン画面290でOKボタンが選択されると表示される画面であり、「全文選択モード」及び「アクセント句モード」の選択を行うことができる。音声出力画面200には、テキスト表示欄201,出力ボタン,キャンセルボタンが設けられており、テキスト表示欄201には、メイン画面290のテキスト入力欄291に入力され、音声合成されるテキストとしてテキスト記憶エリア221に記憶されているテキストに、モード選択用のタグ「◇」、「▽」が挿入されて表示されている。テキスト表示欄201が選択されている場合には、カーソル202が表示されており、マルチボタン4の4方向のボタンを操作して、タグ上にカーソルを移動させ、選択ボタンで選択すると、各タグに対応したモードの画面が表示される。◇タグは「全文選択モード」の設定タグであり、▽タグは「アクセント句モード」の設定タグである。
The
図9に示す例では、テキスト表示欄201には「◇▽運動会の▽思い出。▽手作りの▽応援用ハッピを▽着て、▽一所懸命▽踊った事。」が表示されている。
In the example shown in FIG. 9, the
◇タグが選択されると、図10に示す全文選択モード画面210が表示される。全文選択モード画面210には、モード選択欄211,音声種類選択欄212,順序指定欄213,OKボタン,キャンセルボタンが設けられている。モード選択欄211はラジオボタンになっており、「一斉」,「復唱」,「輪唱」のうちの1つを選択できるようになっている。また、音声種類選択欄212はチェックボックスになっており、「男性」,「女性」,「男の子」,「女の子」,「アニメ」から1つ以上の音声種類が選択できるようになっている。また、順序指定欄213では、数値を入力可能になっており、「復唱」では「1」と入力された音声種類の音声が先導音声種類とされる。また、「輪唱」ではここに入力された数字の順番に輪唱が行われる。なお、「一斉」では順序指定欄213に数値が入力されていても使用されず、「復唱」及び「輪唱」では、数値が入力されていても音声種類選択欄212で選択されていない音声の値は使用されない。なお、OKボタンが選択されると、入力されたモードにしたがって設定内容がRAM22の所定の記憶エリアに記憶され、音声出力画面200へ戻る。また、キャンセルボタンが選択されると、入力された内容は記憶されずに音声出力画面200へ戻る。
When the tag is selected, a full text
また、音声出力画面200において、▽タグが選択されると、図11に示すアクセント句モード画面230が表示される。アクセント句モード画面230では、音声種類選択欄231,OKボタン,キャンセルボタンが設けられている。音声種類選択欄231はチェックボックスになっており、「男性」,「女性」,「男の子」,「女の子」,「アニメ」から1つ以上の音声種類が選択できるようになっている。そして、OKボタンが選択されると、入力された内容にしたがって設定内容がRAM22のアクセント句モード情報記憶エリア227に記憶され、音声出力画面200へ戻る。また、キャンセルボタンが選択されると、入力された内容は記憶されずに音声出力画面200へ戻る。
When the ▽ tag is selected on the
次に、図12乃至図16のフローチャートを参照して、音声合成処理について説明する。図12は、本実施の形態での音声合成プログラムのメイン処理のフローチャートであり、図13は、メイン処理の中で行われる一斉処理のフローチャートであり、図14は、メイン処理の中で行われる復唱処理のフローチャートであり、図15は、メイン処理の中で行われる輪唱処理のフローチャートであり、図16は、メイン処理の中で行われるアクセント句処理のフローチャートである。 Next, the speech synthesis process will be described with reference to the flowcharts of FIGS. FIG. 12 is a flowchart of the main process of the speech synthesis program in the present embodiment, FIG. 13 is a flowchart of the simultaneous process performed in the main process, and FIG. 14 is performed in the main process. FIG. 15 is a flowchart of a repetitive process performed in the main process, and FIG. 16 is a flowchart of an accent phrase process performed in the main process.
図12に示すメイン処理は、携帯電話機1において音声合成の処理を行う指示がなされた際に開始される。まず、初期処理として各種記憶エリアのクリア等が行われる(S1)。そして、音声合成処理のメイン画面290が表示され、音声出力する文章が取得されたら(S2)、形態素解析処理が行われ(S3)、アクセント句形成処理が行われる(S4)。
The main process shown in FIG. 12 is started when an instruction to perform a voice synthesis process is given in the
S2では、メイン画面290が表示され、テキスト入力欄291にキー入力部38の操作により文字を入力したり、携帯電話機1の不揮発メモリ30に記憶されているメールの文章やインターネットに接続して表示した画面に記載されている文章を挿入したりして音声出力を行うテキストが入力され、メイン画面290においてOKボタンが選択されたら、RAM22のテキスト記憶エリア221に記憶されることにより、出力文章が取得される。
In S2, the
また、形態素解析処理では、品詞情報、読み情報、接続情報、アクセント情報等をもつ言語辞書(図示外)が参照されて周知の最長一致法で形態素解析が行われ、テキスト記憶エリア221に記憶されているテキストが形態素(品詞)に解析される。そして、アクセント句形成処理では、言語辞書の接続情報が参照されて、形態素がアクセント句にまとめられる。さらに、アクセント句形成処理では、アクセント位置も言語辞書のアクセント情報から割り出される。そして、複合語にまとめられる際に、アクセント位置の移動がある語については、アクセント位置の変更処理も行われる。そして、最後に、言語情報の読み情報が参照されて、文字列がカタカナの文字列に置き換えられ、「一週間ばかり、ニューヨークを取材した。」というようなテキストであれば、「イッシューカンバカリ(6)|ニューヨークヲ(3)シュザイシタ(0)」という解析結果が出力される。ここで「|」は呼気段落区切りを示し、()はアクセント句の区切りを示し、()内の数字がアクセント句のアクセント位置を示している。なお、形態素解析処理(S3)及び、アクセント句形成処理(S4)の結果は、解析結果記憶エリア222に記憶される。また、ここで、音声出力するテキストのアクセント句数が算出され、解析結果記憶エリア222に記憶される。
In the morphological analysis process, a language dictionary (not shown) having part-of-speech information, reading information, connection information, accent information, and the like is referred to, morphological analysis is performed by a known longest match method, and stored in the
そして、パラメータ選択処理が行われる(S5)。このパラメータ選択処理では、音声出力画面200(図9参照)が表示画面2に表示され、◇タグ及び▽タグを選択することにより全文選択モード画面210(図10参照),アクセント句モード画面230(図11参照)が表示されて、音声出力についての各種設定が行われる。音声出力画面200において出力ボタンが選択されたら、「全文選択モード」のモード選択欄211に選択があれば、RAM22パラメータ情報記憶エリア223に「1」〜「3」がモード選択欄211での選択にしたがって記憶され、「全文選択モード」のモード選択欄211に選択がなく、「アクセント句モード」に設定があれば「9」が記憶される。なお、両モード共に設定がない場合には、初期値である「0」のままである。そして、いずれかのモードが設定されている場合には、設定内容がRAM22の各記憶エリアに記憶され、パラメータ選択処理は終了する。
Then, parameter selection processing is performed (S5). In this parameter selection process, the audio output screen 200 (see FIG. 9) is displayed on the
そして、RAM22パラメータ情報記憶エリア223に記憶されている値が読み出される(S6)。読み出された値が「1」,「2」,「3」,「9」であり、モード設定がされていれば(S7:YES)、複数の人数による音声出力のある可能性があるので、S8へ進む。また、これらの値以外でなくモード設定がされていなければ(S7:NO)、一種類の音声種類による音声の出力なので、形態素解析処理及びアクセント句形成処理の結果に基づいて、全文についてケプストラム分析処理が行われて音源信号が生成され(S11)、音源信号がMLSAフィルターを介して音声として出力される(S12)。そして、処理は終了する。
Then, the value stored in the
このケプストラム分析処理では、形態素解析された結果に基づいて、不揮発メモリ30に記憶されている音響辞書(本実施の形態では、1番目の音声種類「男性」の音響辞書を用いることとする)に記憶されている音韻モデルが選択されて音韻列が生成され、各音素の音韻モデルが結合されてメルケプストラム列と有声/無声情報列(以下、mcep列とする)が生成される。なお、音響辞書には、「a,b,by,ch,cl,d,dy,e,f,fy,g,gy,h,hy,i,j,k,ky,m,my,n,N,ny,o,p,pau,py,r,ry,s,sh,t,ts,ty,u,w,y,z」の38種の音韻モデルのリストが記憶されている。尚、これ以外に前後の音韻環境、韻律環境を考慮する場合もある。この音韻モデルは、自然音声をメルケプストラム分析することによって得られるものであり、各音韻モデルはその継続時間をフレーム(1フレームは10msとする)で分割され、フレームごとにメルケプストラム係数が記憶されている。また、その他にフレームごとに有声か無声かの情報が記憶されている。尚、「pau」はポーズを示している。 In this cepstrum analysis processing, an acoustic dictionary stored in the nonvolatile memory 30 (in this embodiment, the acoustic dictionary of the first speech type “male” is used) based on the result of morphological analysis. A stored phoneme model is selected to generate a phoneme sequence, and a phoneme model of each phoneme is combined to generate a mel cepstrum sequence and a voiced / unvoiced information sequence (hereinafter referred to as a mcep sequence). The acoustic dictionary includes “a, b, by, ch, cl, d, dy, e, f, fy, g, gy, h, hy, i, j, k, ky, m, my, n, N, ny, o, p, pau, py, r, ry, s, sh, t, ts, ty, u, w, y, z ”are stored in a list of 38 phoneme models. In addition, there are cases where the phoneme environment and the prosodic environment before and after are considered. This phonological model is obtained by performing mel cepstrum analysis on natural speech. Each phonological model is divided into frames (one frame is 10 ms), and a mel cepstrum coefficient is stored for each frame. ing. In addition, voiced or unvoiced information is stored for each frame. Note that “pau” indicates a pause.
また、S4のアクセント句形成処理により解析されたアクセント区切り、アクセント型に該当する韻律モデル列が音響辞書の韻律モデルから選択され、韻律モデル列が生成される。「一週間ばかり、ニューヨークを取材した。」の例では、「(9,6)、pau、(6,3)、(5,0)」という韻律モデル列が生成される。これは、9モーラ(拍)のアクセント型6の韻律モデルの次に、ポーズがあり、その後に6モーラのアクセント型3、5モーラのアクセント型0となることを示している。次いで、生成された韻律モデル列が接続されてpitch列が生成される。ただし、接続時に音韻モデル列の各音韻の長さに合わせて、モーラ長を伸縮して音韻モデルとの同期が取られる。
Also, the prosodic model sequence corresponding to the accent delimiter and accent type analyzed by the accent phrase forming process of S4 is selected from the prosodic model of the acoustic dictionary, and the prosodic model sequence is generated. In the example of “I covered New York for only a week”, a prosodic model sequence of “(9, 6), pau, (6, 3), (5, 0)” is generated. This indicates that there is a pose after the prosody model of the
そして、生成されたmcep列の有声/無声情報、及び生成されたpitch列に基づいて音源信号が生成される。音源信号は、pitch列に基づいて有声部にはパルス列信号が生成され、無声部には雑音信号が生成される。 Then, a sound source signal is generated based on the voiced / unvoiced information of the generated msep sequence and the generated pitch sequence. As for the sound source signal, a pulse train signal is generated in the voiced portion and a noise signal is generated in the unvoiced portion based on the pitch sequence.
また、RAM22パラメータ情報記憶エリア223から読み出された値が「1」,「2」,「3」,「9」であり、モード設定がされていれば(S7:YES)、「全文選択モード」の指定があるか否かの判断が行われ(S8)、「1」,「2」,「3」でなく、「全文選択モード」の指定がなければ(S8:NO)、「アクセント句モード」の指定があるということなので、アクセント句処理が行われ(S13,図16参照)、処理は終了する。また、「全文選択モード」の指定があり(S8:YES)、読み出された値が「1」であり、「一斉」が選択されている場合には(S9:YES)、一斉処理が行われる(S14、図13参照)。そして、読み出された値が「2」であり、「復唱」が選択されている場合には(S9:NO,S10:YES)、復唱処理が行われる(S15、図14参照)。また、読み出された値が「3」であり、「輪唱」が選択されている場合には(S9:NO,S10:NO)、輪唱処理が行われる(S16、図15参照)。そして、処理は終了する。
If the values read from the
ここで、一斉処理について、図13のフローチャートを参照して説明する。まず、アクセント句をカウントするための変数nに初期値の「1」がセットされる(S21)。そして、n番目のアクセント句の解析結果が解析結果記憶エリア222から読み込まれる(S22)。そして、音声種類をカウントするための変数mに初期値の「1」がセットされ(S23)、m番目の音声種類が出力される音声として設定されているか否かの判断が行われる(S24)。これは、一斉情報記憶エリア224のm番目の音声種類の設定欄に「1」が記憶されているか否かにより判断される。
Here, the simultaneous processing will be described with reference to the flowchart of FIG. First, an initial value “1” is set in a variable n for counting accent phrases (S21). Then, the analysis result of the nth accent phrase is read from the analysis result storage area 222 (S22). Then, an initial value “1” is set to the variable m for counting the voice type (S23), and it is determined whether or not the mth voice type is set as the output voice (S24). . This is determined by whether or not “1” is stored in the m-th audio type setting field of the simultaneous
設定欄に「1」が記憶されており、出力される音声として設定されていれば(S24:YES)、m番目の音声種類でn番目のアクセント句についてケプストラム処理が行われ、音源信号が生成され、一斉情報記憶エリア224のm番目の音声種類の音声データ欄に記憶される(S25)。そして、音声種類のカウント用変数mに「1」が加算され(S26)、S27へ進む。また、設定欄に「1」が記憶されておらず、出力される音声として設定されていなければ(S24:NO)、音声データ(音源信号)は生成する必要はないので、何もせずにS27へ進む。 If “1” is stored in the setting column and it is set as an output sound (S24: YES), cepstrum processing is performed for the nth accent phrase in the mth sound type, and a sound source signal is generated. Then, it is stored in the audio data column of the mth audio type in the simultaneous information storage area 224 (S25). Then, “1” is added to the voice type count variable m (S26), and the process proceeds to S27. Further, if “1” is not stored in the setting column and it is not set as the output sound (S24: NO), it is not necessary to generate the sound data (sound source signal), so nothing is done in S27. Proceed to
そして、S27では、変数mの値が「5(本実施の形態の音声種類の数)」より大きいか否かにより、全ての音声種類について処理を行ったか否かの判断が行われる。「5」より大きくなければ、まだ全ての音声種類についての処理が終了していないので(S27:NO)、S24へ戻り、次の音声種類についての処理が行われる。S24〜S27の処理が繰り返され、変数mの値が「5」より大きくなったら(S27:YES)、一斉情報記憶エリア224の音声データ欄に記憶されている全ての音声データ(音源信号)が加算されて、レベル補正により波形加工が行われて、合成音声記憶エリア228へ記憶され(S28)、音声が出力される(S29)。
In S27, it is determined whether or not the processing has been performed for all voice types depending on whether or not the value of the variable m is larger than “5 (the number of voice types in the present embodiment)”. If it is not greater than “5”, the processing for all the voice types has not been completed yet (S27: NO), so the process returns to S24, and the processing for the next voice type is performed. When the processing of S24 to S27 is repeated and the value of the variable m becomes larger than “5” (S27: YES), all the audio data (sound source signal) stored in the audio data column of the simultaneous
そして、アクセント句をカウントする変数nに「1」が加算され(S30)、変数nの値が、解析結果記憶エリア222に記憶されている出力テキストのアクセント句の数より大きくなっていなければ(S31:NO)、S22へ戻り、次のアクセント句の処理が行われる(S22〜S31)。そして、S22〜S31の処理が繰り返されて、全てのアクセント句の処理が終了したら(S31:YES)、一斉処理は終了し、メイン処理へ戻り、メイン処理も終了する。 Then, “1” is added to the variable n for counting the accent phrases (S30), and the value of the variable n is not larger than the number of accent phrases of the output text stored in the analysis result storage area 222 ( (S31: NO), the process returns to S22, and the next accent phrase is processed (S22 to S31). Then, when the processes of S22 to S31 are repeated and all the accent phrases have been processed (S31: YES), the simultaneous process ends, the process returns to the main process, and the main process also ends.
このようにして、「全文選択モード」で「一斉」が選択され、指定されている音声種類の音声が複数であれば、複数の人が同じ文章を読み上げているような効果が得られる。また、アクセント句ごとにケプストラム処理を行って、音声を出力するので、複数の音声種類の出力を同時にする場合であっても、使用者が音声出力の指示を行ってから音声が出力するまでの間に時間がかからず、スムースな音声出力ができる。 In this way, if “simultaneous” is selected in the “full-text selection mode” and there are a plurality of voices of the designated voice type, the effect is obtained that a plurality of people read the same sentence. In addition, since cepstrum processing is performed for each accent phrase and the sound is output, even when multiple sound types are output at the same time, the user outputs instructions until the sound is output. Smooth audio output is possible without taking time.
次に、復唱処理について、図14のフローチャートを参照して説明する。まず、アクセント句をカウントするための変数nに初期値の「1」がセットされる(S42)。そして、n番目のアクセント句の解析結果が解析結果記憶エリア222から読み込まれ(S43)、復唱情報記憶エリア225の先導音声種類に設定されている音声種類の音響辞書が参照されて、n番目のアクセント句についてケプストラム処理が行われ、音源信号が生成され、復唱情報記憶エリア225の先導音声種類の音声データ欄に記憶される(S44)。そして、音声が出力される(S45)。
Next, the repetition process will be described with reference to the flowchart of FIG. First, an initial value “1” is set in a variable n for counting accent phrases (S42). Then, the analysis result of the nth accent phrase is read from the analysis result storage area 222 (S43), and the sound type acoustic dictionary set as the lead sound type in the repetitive
次いで、復唱音声種類をカウントするための変数pに初期値の「1」がセットされ(S46)、p個目の設定欄に記憶されている値の示す音声種類で、n番目のアクセント句についてケプストラム処理が行われ、音源信号が生成され、復唱情報記憶エリア225の復唱音声種類のp個目の音声データ欄に記憶される(S47)。そして、変数pに「1」が加算され(S48)。変数pが復唱人より大きくなり、全ての復唱音声種類について処理が行われたか否かの判断が行われる(S49)。全ての復唱音声種類について処理が行われていなければ(S49:NO)、S47へ戻り、次の復唱音声種類についてケプストラム分析処理が行われる(S47)。そして、S47〜S49の処理が繰り返し行われ、全ての復唱音声について処理が終了したら(S49:YES)、復唱音声種類情報の音声データ欄に記憶されている音声データ(音源信号)が加算されて、レベル補正により波形加工が行われて、合成音声記憶エリア228へ記憶され(S50)、音声が出力される(S51)。 Next, an initial value “1” is set in the variable p for counting the type of repetitive voice (S46), and the voice type indicated by the value stored in the p-th setting field is used for the nth accent phrase. A cepstrum process is performed, a sound source signal is generated, and stored in the p-th audio data column of the repetitive audio type in the repetitive information storage area 225 (S47). Then, “1” is added to the variable p (S48). It is determined whether or not the variable p is larger than that of the repeater and processing has been performed for all the types of readback voice (S49). If processing has not been performed for all the repetitive voice types (S49: NO), the process returns to S47, and cepstrum analysis processing is performed for the next repetitive voice type (S47). Then, when the processing of S47 to S49 is repeated and the processing is completed for all the repetitive voices (S49: YES), the voice data (sound source signal) stored in the voice data column of the repetitive voice type information is added. Then, waveform processing is performed by level correction, and it is stored in the synthesized voice storage area 228 (S50), and voice is output (S51).
そして、アクセント句をカウントする変数nに「1」が加算され(S52)、変数nの値がアクセント句の数より大きくなっていなければ(S53:NO)、S43へ戻り、次のアクセント句の処理が行われる(S43〜S53)。そして、S43〜S53の処理が繰り返されて、全てのアクセント句の処理が終了したら(S53:YES)、復唱処理は終了し、メイン処理へ戻り、メイン処理も終了する。 Then, “1” is added to the variable n for counting the accent phrase (S52), and if the value of the variable n is not larger than the number of accent phrases (S53: NO), the process returns to S43 and the next accent phrase is determined. Processing is performed (S43 to S53). When the processes of S43 to S53 are repeated and all the accent phrases have been processed (S53: YES), the repeat process is ended, the process returns to the main process, and the main process is also ended.
このようにして、「全文選択モード」で「復唱」が選択されている場合には、先導音声種類として指定された音声により、1つのアクセント句の音声が出力されてから、復唱音声種類として指定された音声により、同じアクセント句の音声が続けて出力される。ここでも、アクセント句ごとにケプストラム処理を行って、音声を出力するので、複数の音声種類の出力を同時にする場合であっても、使用者が音声出力の指示を行ってから音声が出力するまでの間に時間がかからず、スムースな音声出力ができる。 In this way, when “repeat” is selected in “full-text selection mode”, the sound of one accent phrase is output by the sound designated as the lead speech type, and then designated as the type of repetitive speech The voice of the same accent phrase is continuously output by the generated voice. Again, because cepstrum processing is performed for each accent phrase and audio is output, even if multiple audio types are output simultaneously, until the user outputs audio after the user issues an audio output instruction Smooth audio output is possible without taking time.
次に、輪唱処理について、図15のフローチャートを参照して説明する。まず、1番目のアクセント句の形態素数が算出され、輪唱情報記憶エリア226の1番目のアクセント句の形態素数欄にセットされる(S61)。そして、形態素をカウントするための変数sに初期値の「1」がセットされ(S62)、s番目の形態素の解析結果が解析結果記憶エリア222から読み込まれ(S63)、輪唱の順番をカウントする変数qに初期値の「1」がセットされる(S64)。そして、輪唱情報記憶エリア226のq番目の音声種類欄にセットされている値の示す音声種類で、s番目の形態素についてケプストラム処理が行われ、音源信号が生成され(S65)、輪唱情報記憶エリア226のq番目の形態素ごとの音声データ欄の(q+最初のアクセント句の形態素数×(q−1))番目の欄に記憶される(S66)。
Next, the singing process will be described with reference to the flowchart of FIG. First, the morpheme number of the first accent phrase is calculated and set in the morpheme number field of the first accent phrase in the ring information storage area 226 (S61). Then, an initial value “1” is set to the variable s for counting morphemes (S62), the analysis result of the sth morpheme is read from the analysis result storage area 222 (S63), and the order of singing is counted. The initial value “1” is set in the variable q (S64). Then, cepstrum processing is performed on the s-th morpheme with the voice type indicated by the value set in the q-th voice type field of the ring
そして、輪唱の順番をカウントする変数qに「1」が加算され(S67)、変数qの値が輪唱人数より大きくなっているか否かにより、最後の音声種類まで処理が終了したか否かの判断が行われる(S68)。まだ最後まで処理が終了していなければ(S68:NO)、S65へ戻り次の順番の音声種類についての処理が行われる(S65〜S68)。そして、S65〜S68の処理が繰り返され、最後の音声種類まで処理が終了したら(S68:YES)、形態素ごとの音声データ欄の(1,1)、(2,1)、(3,1)、(4,1)、(5,1)に記憶されている音声データ(音源信号)が加算されて、レベル補正により波形加工が行われて、合成音声記憶エリア228へ記憶され(S69)、音声が出力される(S70)。そして、形態素ごとの音声データ欄の情報がシフトされる(S71)。具体的には、音声出力された(1,1)、(2,1)、(3,1)、(4,1)、(5,1)の音声データが削除される。そして、(1,2)の音声データが(1,1)へ記憶され、(2,2)の音声データが(2,1)へ記憶され、(3,2)の音声データが(3,1)へ記憶され、(4,2)の音声データが(4,1)へ記憶され、(5,2)の音声データが(5,1)へ記憶される。そして、(1,3)の音声データが(1,2)へ記憶され、(2,3)の音声データが(2,2)へ記憶され、(3,3)の音声データが(3,2)へ記憶され、(4,3)の音声データが(4,2)へ記憶され、(5,3)の音声データが(5,2)へ記憶されるというように、音声データの記憶されている欄のデータは一つ前の欄へシフトされる。 Then, “1” is added to the variable q that counts the order of singing (S67), and whether or not the processing has been completed up to the last voice type depending on whether or not the value of the variable q is larger than the number of singers. A determination is made (S68). If the process has not been completed to the end (S68: NO), the process returns to S65 and the process for the next type of sound is performed (S65 to S68). Then, the processes of S65 to S68 are repeated, and when the process is completed up to the last voice type (S68: YES), (1, 1), (2, 1), (3, 1) in the voice data column for each morpheme. , (4,1), (5,1) are added to the sound data (sound source signal), the waveform is processed by level correction, and stored in the synthesized sound storage area 228 (S69), Audio is output (S70). Then, the information in the voice data column for each morpheme is shifted (S71). Specifically, the audio data (1, 1), (2, 1), (3, 1), (4, 1), and (5, 1) output as audio are deleted. The audio data (1, 2) is stored in (1, 1), the audio data (2, 2) is stored in (2, 1), and the audio data (3, 2) is (3, 3). 1), (4,2) audio data is stored in (4,1), and (5,2) audio data is stored in (5,1). Then, (1,3) audio data is stored in (1,2), (2,3) audio data is stored in (2,2), and (3,3) audio data is (3,3). 2), audio data of (4, 3) is stored in (4, 2), audio data of (5, 3) is stored in (5, 2), etc. The data in the current column is shifted to the previous column.
そして、形態素をカウントするための変数sに「1」が加算される(S72)。そして、変数sの値が全ての形態素数より大きいか否かにより、全ての形態素の処理を終了したか否かの判断が行われる(S73)。変数sの値が形態素数の数より大きくなっていなければ(S73:NO)、S63へ戻り、次の形態素の処理が行われる(S63〜S73)。そして、S63〜S73の処理が繰り返されて、全ての形態素の処理が終了したら(S73:YES)、輪唱処理は終了し、メイン処理へ戻り、メイン処理も終了する。 Then, “1” is added to the variable s for counting morphemes (S72). Then, depending on whether or not the value of the variable s is larger than all the morpheme numbers, it is determined whether or not the processing of all the morphemes has been completed (S73). If the value of the variable s is not larger than the number of morphemes (S73: NO), the process returns to S63, and the next morpheme is processed (S63 to S73). And if the process of S63-S73 is repeated and the process of all the morphemes is complete | finished (S73: YES), a ring process will be complete | finished, it will return to a main process and a main process will also be complete | finished.
このようにして、指定された順番に、ひとつ前の音声種類の1番目のアクセント句の出力が終了した後に音声出力が開始され、合唱における「輪唱」と同様に複数の人が前の人に続いて読みあげを行っているように音声が出力される。ここでは、形態素ごとにケプストラム処理を行って、音声を出力するので、複数の音声種類の出力を同時にする場合であっても、使用者が音声出力の指示を行ってから音声が出力するまでの間に時間がかからず、スムースな音声出力ができる。 In this way, in the designated order, the audio output is started after the output of the first accent phrase of the immediately preceding audio type is completed, and a plurality of people are assigned to the previous person in the same way as in “chorus” in chorus. The sound is then output as if reading out. Here, since cepstrum processing is performed for each morpheme and the sound is output, even when a plurality of sound types are output at the same time, the sound is output after the user instructs the sound output. Smooth audio output is possible without taking time.
次に、アクセント句処理について、図16のフローチャートを参照して説明する。まず、アクセント句をカウントする変数nに初期値の「1」がセットされる(S81)。そして、n番目のアクセント句の解析結果が解析結果記憶エリア222から読み込まれる(S82)。そして、音声種類をカウントするための変数mに初期値の「1」がセットされ(S83)、m番目の音声種類が出力される音声として設定されているか否かの判断が行われる(S84)。これは、アクセント句モード情報記憶エリア227のm番目の音声種類のn番目のアクセント句ごとの設定欄に「1」が記憶されているか否かにより判断される。
Next, accent phrase processing will be described with reference to the flowchart of FIG. First, an initial value “1” is set in a variable n for counting accent phrases (S81). Then, the analysis result of the nth accent phrase is read from the analysis result storage area 222 (S82). Then, an initial value “1” is set to the variable m for counting the voice type (S83), and it is determined whether or not the mth voice type is set as the output voice (S84). . This is determined by whether or not “1” is stored in the setting field for each nth accent phrase of the mth speech type in the accent phrase mode
設定欄に「1」が記憶されており、出力される音声として設定されていれば(S84:YES)、m番目の音声種類でn番目のアクセント句についてケプストラム処理が行われ、音源信号が生成され(S85)、アクセント句モード情報記憶エリア227のm番目の音声種類のn番目のアクセント句ごとの音声データ欄に記憶される(S86)。そして、音声種類のカウント用変数mに「1」が加算され(S87)、S88へ進む。また、設定欄に「1」が記憶されておらず、出力される音声として設定されていなければ(S84:NO)、音声データ(音源信号)は生成する必要はないので、何もせずにS87へ進み、音声種類のカウント用変数mに「1」が加算され(S87)、S88へ進む。 If “1” is stored in the setting column and it is set as an output sound (S84: YES), cepstrum processing is performed for the nth accent phrase in the mth sound type, and a sound source signal is generated. (S85) and stored in the voice data column for each nth accent phrase of the mth voice type in the accent phrase mode information storage area 227 (S86). Then, “1” is added to the voice type count variable m (S87), and the process proceeds to S88. Further, if “1” is not stored in the setting column and it is not set as the output sound (S84: NO), it is not necessary to generate the sound data (sound source signal), so nothing is done in S87. Then, “1” is added to the voice type count variable m (S87), and the process proceeds to S88.
そして、S88では、変数mの値が「5(本実施の形態の音声種類の数)」より大きいか否かにより、全ての音声種類について処理を行ったか否かの判断が行われる。「5」より大きくなければ、まだ全ての音声種類についての処理が終了していないので(S88:NO)S84へ戻り、次の音声種類についての処理が行われる。S84〜S88の処理が繰り返され、変数mの値が「5」より大きくなったら(S88:YES)、アクセント句モード情報記憶エリア227のn番目のアクセント句の音声データ欄に記憶されている全ての音声データ(音源信号)が加算されて、レベル補正により波形加工が行われて、合成音声記憶エリア228へ記憶され(S89)、音声が出力される(S90)。
In S88, it is determined whether or not the processing has been performed for all voice types depending on whether or not the value of the variable m is larger than “5 (number of voice types in the present embodiment)”. If it is not greater than “5”, the processing for all voice types has not been completed yet (S88: NO), the process returns to S84, and the processing for the next voice type is performed. When the processing of S84 to S88 is repeated and the value of the variable m becomes larger than “5” (S88: YES), all the data stored in the voice data column of the nth accent phrase in the accent phrase mode
そして、アクセント句をカウントする変数nに「1」が加算され(S91)、変数nの値がアクセント句の数より大きくなっていなければ(S92:NO)、S82へ戻り、次のアクセント句の処理が行われる(S82〜S92)。そして、S82〜S92の処理が繰り返されて、全てのアクセント句の処理が終了したら(S92:YES)、アクセント句処理は終了し、メイン処理へ戻り、メイン処理も終了する。 Then, “1” is added to the variable n for counting the accent phrase (S91), and if the value of the variable n is not larger than the number of accent phrases (S92: NO), the process returns to S82 and the next accent phrase is determined. Processing is performed (S82 to S92). Then, when the processes of S82 to S92 are repeated and the processing of all accent phrases is completed (S92: YES), the accent phrase process is terminated, the process returns to the main process, and the main process is also terminated.
このようにして、アクセント句ごとに指定されている音声種類の音声データを作成して、アクセント句ごとに異なる音声種類、異なる音声種類数で音声を出力することができる。ここでも、アクセント句ごとにケプストラム処理を行って、音声を出力するので、複数の音声種類の出力を同時にする場合であっても、使用者が音声出力の指示を行ってから音声が出力するまでの間に時間がかからず、スムースな音声出力ができる。 In this way, voice data of a voice type designated for each accent phrase can be created, and voices can be output with different voice types and different voice types for each accent phrase. Again, because cepstrum processing is performed for each accent phrase and audio is output, even if multiple audio types are output simultaneously, until the user outputs audio after the user issues an audio output instruction Smooth audio output is possible without taking time.
また、上記実施の形態における不揮発メモリ30の音響辞書を記憶している記憶エリアが「音響辞書記憶手段」に該当し、RAM22の解析結果記憶エリア222が「解析結果記憶手段」に該当する。また、メイン画面290のテキスト入力欄291が「文入力手段」に該当し、音声出力画面200及び全文選択モード画面210及びアクセント句モード画面230が「音声種類指定手段」に該当し、音声出力画面200及び全文選択モード画面210が「全体音声種類指定手段」に該当し、音声出力画面200及びアクセント句モード画面230が「アクセント句別音声指定手段」に該当し、音声出力画面200及び全文選択モード画面210が「パート別音声種類指定手段」に該当し、音声出力画面200及び全文選択モード画面210が「複数パート音声種類指定手段」に該当し、音声出力画面200及び全文選択モード画面210が「順番指定手段」に該当する。
In addition, the storage area storing the acoustic dictionary of the
そして、図12に示すメイン処理のS3、S4の処理を行うCPU21が「言語解析手段」に相当し、図12に示すメイン処理のS11,図13に示す一斉処理のS25,図14に示す復唱処理のS44,S47,図15に示す輪唱処理のS65,図16に示すアクセント句処理のS85の処理を行うCPU21が「音響モデル選択手段」に該当する。そして、図12に示すメイン処理のS11,図13に示す一斉処理のS25,図14に示す復唱処理のS44,S47,図15に示す輪唱処理のS65,図16に示すアクセント句処理のS85の処理を行うCPU21が「音声生成手段」に該当し、図14に示す復唱処理を行うCPU21が「復唱音声生成手段」に該当し、図15に示す輪唱処理を行うCPU21が「輪唱音声生成手段」に該当する。音声出力画面200のテキスト表示欄201のタグ、全文選択モード画面210のモード選択欄211が「指定方法選択手段」に該当する。
The
尚、本発明の音声合成装置及び音声合成プログラムは、上記した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。上記実施の形態では、音声合成装置を携帯電話機1としたが、音声合成装置は携帯電話機に限らず、音声合成用の専用端末機やパーソナルコンピュータ等その他の装置であってもよいことは言うまでもない。また、上記実施の形態では、携帯電話機1において全ての処理が完結しているが、利用者が音声出力の処理の実施を指示する「文入力手段」及び「音声種類指定手段」を備えた装置と、出力する音声データを生成する「言語解析手段」、「解析結果記憶手段」、「音響モデル選択手段」、「音声生成手段」を備えた装置は、同じ装置である必要はなく、インターネットやLANなどのネットワークでこれらの装置を接続して、データの送受信を可能にし、本発明の音声合成装置を構成してもよい。
Note that the speech synthesizer and speech synthesis program of the present invention are not limited to the above-described embodiments, and various changes can be made without departing from the scope of the present invention. In the above embodiment, the voice synthesizer is the
また、一斉処理、復唱処理、輪唱処理、アクセント句処理の制御は上記実施の形態に限らず、同様の効果を得られる制御であればよい。また、上記実施の形態では、アクセント句ごとに音声種類の選択を行ったが、このブロックはアクセント句に限らず、所定の記号(たとえば、#,*,/,○,●,◎など)で区切られた文、単語、文字、形態素(品詞)などの区切りであってもよい。また、一斉処理、復唱処理では、アクセント句ごとにケプストラム処理を行って、音声出力を行っているが、この処理のサイクルもアクセント句に限らず、所定の記号(たとえば、#,*,/,○,●,◎など)で区切られた文、単語、文字、形態素(品詞)などの区切りであってもよい。なお、所定の記号は音声出力する文章(テキスト)を入力した際に、使用者が入力を行う。 Control of simultaneous processing, repetitive processing, ring processing, and accent phrase processing is not limited to the above-described embodiment, and may be any control that can obtain the same effect. In the above embodiment, the voice type is selected for each accent phrase. However, this block is not limited to the accent phrase, and a predetermined symbol (for example, #, *, /, ○, ●, ◎, etc.) is used. It may be a sentence, word, character, morpheme (part of speech), or the like. In the simultaneous processing and the repetitive processing, cepstrum processing is performed for each accent phrase and voice output is performed. However, the cycle of this processing is not limited to the accent phrase, and a predetermined symbol (for example, #, *, /, It may be a sentence, word, character, morpheme (part of speech), etc. The user inputs a predetermined symbol when a sentence (text) to be output is input.
また、上記実施の形態では、「復唱」において先導音声種類を一種類の音声のみとしたが、先導音声種類も複数の音声を指定できるようにしてもよいことはいうまでもない。 In the above embodiment, only one type of voice is used as the lead voice type in “repeating”, but it is needless to say that a plurality of voices may be designated as the lead voice type.
また、上記実施の形態では、「輪唱処理」として、音楽での「輪唱」と同様に、1つ前の音声種類の1番目のアクセント句の音声出力が終了すると、次の音声種類の音声の出力を開始し、文章の終わりまで継続して音声出力を行っているが、複数の音声を順番にずらして出力する方法はこれに限らない。例えば、1番目の音声種類の1番目のアクセント句の音声出力が終了した後に、1番目の音声種類の2番目のアクセント句と2番目の音声種類の1番目の音声種類をアクセント句の開始位置を揃えて出力し、短い方のアクセント句は足りない分の時間をポーズで補い、この音声出力が終了した後には、1番目の音声種類の3番目のアクセント句と2番目の音声種類の2番目の音声種類と3番目の音声種類の1番目の音声種類とをアクセント句の開始位置を揃えて出力し、短い方のアクセント句は足りない分の時間をポーズで補い、音声出力するといったように、アクセント句ごとにずらして音声出力するようにしてもよい。この場合には、全文の音源信号を作成して音声出力するのではなく、アクセント句ごとに音源信号を作成して、音声出力をすると効率的であり、リアルタイムな音声出力を行うことができる。 Further, in the above embodiment, as the “rotation process”, as in the case of “rotation” in music, when the audio output of the first accent phrase of the previous audio type is completed, the audio of the next audio type is output. The output is started and the voice is continuously output until the end of the sentence. However, the method of outputting a plurality of voices in order is not limited to this. For example, after the voice output of the first accent phrase of the first voice type is finished, the second accent phrase of the first voice type and the first voice type of the second voice type are changed to the start position of the accent phrase. The short accent phrase is compensated for by the pause, and after this voice output is completed, the third accent phrase of the first voice type and 2 of the second voice type are output. The first voice type and the first voice type of the third voice type are output with the start position of the accent phrase aligned, and the shorter accent phrase is supplemented with the pause time for the shortest accent phrase, and so on. In addition, the voice may be output with a shift for each accent phrase. In this case, it is efficient to create a sound source signal for each accent phrase and output the sound instead of creating a full-text sound source signal and outputting the sound, and real-time sound output can be performed.
本発明の音声合成装置及び音声合成プログラムは、複数の音声の合成を行う音声合成装置及び音声合成プログラムに適応可能である。 The speech synthesizer and speech synthesis program of the present invention can be applied to a speech synthesizer and speech synthesis program that synthesize a plurality of speech.
1 携帯電話機
2 表示画面
21 CPU
22 RAM
30 不揮発メモリ
38 キー入力部
200 音声出力画面
210 全文選択モード画面
221 テキスト記憶エリア
222 解析結果記憶エリア
223 パラメータ情報記憶エリア
224 一斉情報記憶エリア
225 復唱情報記憶エリア
226 輪唱情報記憶エリア
227 アクセント句モード情報記憶エリア
230 アクセント句モード画面
290 メイン画面
m 音声種類カウント用変数
n アクセント句カウント用変数
p 復唱音声種類カウント用変数
q 輪唱の順番カウント用変数
s 形態素カウント用変数
1
22 RAM
30 Non-volatile memory 38
Claims (9)
音声を生成する文を入力する文入力手段と、
前記文入力手段により入力された前記音声を生成する文を単語に分解して品詞を決定し、アクセント句ごとにそのアクセント位置を示すアクセント型を決定し、かつ当該音声を生成する文の読みを決定する言語解析手段と、
当該言語解析手段により解析された解析結果を記憶する解析結果記憶手段と、
前記音響辞書記憶手段に記憶されている前記音響辞書のうちの1つ又は複数の前記音声種類を指定する音声種類指定手段と、
前記解析結果記憶手段に記憶されている前記解析結果及び前記音声種類指定手段で指定された前記音声種類に基づいて前記音響辞書から前記音響モデルを選択する音響モデル選択手段と、
当該音響モデル選択手段により選択された前記音響モデルをもとに音声を生成する音声生成手段と
を備えたことを特徴とする音声合成装置。 An acoustic dictionary, which is a set of acoustic models including at least a phonological model created from phoneme data analyzed from speech into acoustic parameter sequences and a prosodic model created from fundamental frequency data analyzed from speech, is stored for each type of speech. Acoustic dictionary storage means for
A sentence input means for inputting a sentence for generating speech;
The sentence that generates the speech input by the sentence input unit is decomposed into words to determine the part of speech, the accent type indicating the accent position is determined for each accent phrase, and the sentence that generates the speech is read Language analysis means to determine;
Analysis result storage means for storing the analysis result analyzed by the language analysis means;
Voice type designation means for designating one or a plurality of the voice types of the acoustic dictionary stored in the acoustic dictionary storage means;
Acoustic model selection means for selecting the acoustic model from the acoustic dictionary based on the analysis result stored in the analysis result storage means and the voice type designated by the voice type designation means;
A speech synthesizer comprising: speech generation means for generating speech based on the acoustic model selected by the acoustic model selection means.
前記音声生成手段は、前記音声を生成する文の所定のブロックごとに前記第1パートで指定されている前記音声種類の音声が出力された後に前記第2パートで指定されている前記音声種類の音声を出力して、前記第1パートの音声を前記第2パートの音声が復唱するように音声を合成する復唱音声生成手段を備えたことを特徴とする請求項1乃至4のいずれかに記載の音声合成装置。 The voice type designation means includes part-by-part voice type designation means for designating the voice types of the first part and the second part, respectively.
The voice generating means outputs the voice type specified in the second part after the voice of the voice type specified in the first part is output for each predetermined block of the sentence that generates the voice. 5. The apparatus according to claim 1, further comprising: a repetitive sound generating unit that outputs a sound and synthesizes the sound so that the sound of the second part repeats the sound of the first part. Voice synthesizer.
複数のパートの前記音声種類をそれぞれ指定する複数パート音声種類指定手段と、
前記複数のパートの中で音声を出力する順番を指定する順番指定手段とを備え、
前記音声生成手段は、
まず前記順番指定手段に指定された順番が1番目の前記パートの前記音声を生成する文の所定のブロックの音声を出力し、前記順番が2番目以降の前記パートは前記順番が1つ前のパートの1番目のブロックの音声の出力が完了した時点で音声の出力を開始させるように、前記順番指定手段により指定されている順番に前記各パートの音声が輪唱するように音声を合成する輪唱音声生成手段を備えたことを特徴とする請求項1乃至5のいずれかに記載の音声合成装置。 The voice type designation means is
A multi-part audio type specifying means for specifying the audio types of a plurality of parts,
Order designating means for designating the order of outputting the sound among the plurality of parts,
The voice generation means includes
First, the sound of a predetermined block of the sentence that generates the sound of the first part in the order specified by the order specifying unit is output, and the second and subsequent parts of the part that are in the second order are the previous ones. Rotating to synthesize the sound so that the sound of each part circulates in the order specified by the order specifying means so that the sound output is started when the sound output of the first block of the part is completed. 6. The speech synthesis apparatus according to claim 1, further comprising speech generation means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005159003A JP2006337468A (en) | 2005-05-31 | 2005-05-31 | Device and program for speech synthesis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005159003A JP2006337468A (en) | 2005-05-31 | 2005-05-31 | Device and program for speech synthesis |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006337468A true JP2006337468A (en) | 2006-12-14 |
Family
ID=37558117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005159003A Pending JP2006337468A (en) | 2005-05-31 | 2005-05-31 | Device and program for speech synthesis |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006337468A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009025328A (en) * | 2007-07-17 | 2009-02-05 | Oki Electric Ind Co Ltd | Speech synthesizer |
CN106126165A (en) * | 2016-06-16 | 2016-11-16 | 广东欧珀移动通信有限公司 | A kind of audio stream processing method and mobile terminal |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61123899A (en) * | 1984-11-20 | 1986-06-11 | 富士通株式会社 | Voice synthesizer |
JPH09164263A (en) * | 1995-12-14 | 1997-06-24 | Sogo Joho Kiki Hanbai Kk | Broadcasting system for place of amusement |
JP2001242882A (en) * | 2000-02-29 | 2001-09-07 | Toshiba Corp | Method and device for voice synthesis |
JP2002202789A (en) * | 2000-12-28 | 2002-07-19 | Sharp Corp | Text-to-speech synthesizer and program-recording medium |
JP2002268664A (en) * | 2001-03-09 | 2002-09-20 | Ricoh Co Ltd | Voice converter and program |
JP2002287786A (en) * | 2001-03-27 | 2002-10-04 | Brother Ind Ltd | Voice synthesizer and voice synthesizing program |
JP2004077608A (en) * | 2002-08-12 | 2004-03-11 | Yamaha Corp | Apparatus and method for chorus synthesis and program |
-
2005
- 2005-05-31 JP JP2005159003A patent/JP2006337468A/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61123899A (en) * | 1984-11-20 | 1986-06-11 | 富士通株式会社 | Voice synthesizer |
JPH09164263A (en) * | 1995-12-14 | 1997-06-24 | Sogo Joho Kiki Hanbai Kk | Broadcasting system for place of amusement |
JP2001242882A (en) * | 2000-02-29 | 2001-09-07 | Toshiba Corp | Method and device for voice synthesis |
JP2002202789A (en) * | 2000-12-28 | 2002-07-19 | Sharp Corp | Text-to-speech synthesizer and program-recording medium |
JP2002268664A (en) * | 2001-03-09 | 2002-09-20 | Ricoh Co Ltd | Voice converter and program |
JP2002287786A (en) * | 2001-03-27 | 2002-10-04 | Brother Ind Ltd | Voice synthesizer and voice synthesizing program |
JP2004077608A (en) * | 2002-08-12 | 2004-03-11 | Yamaha Corp | Apparatus and method for chorus synthesis and program |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009025328A (en) * | 2007-07-17 | 2009-02-05 | Oki Electric Ind Co Ltd | Speech synthesizer |
CN106126165A (en) * | 2016-06-16 | 2016-11-16 | 广东欧珀移动通信有限公司 | A kind of audio stream processing method and mobile terminal |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4168621B2 (en) | Mobile phone device and mobile phone system using singing voice synthesis | |
JPH10153998A (en) | Auxiliary information utilizing type voice synthesizing method, recording medium recording procedure performing this method, and device performing this method | |
WO2004066271A1 (en) | Speech synthesizing apparatus, speech synthesizing method, and speech synthesizing system | |
WO2016152717A1 (en) | Sound control device, sound control method, and sound control program | |
JP3673471B2 (en) | Text-to-speech synthesizer and program recording medium | |
JP2009139677A (en) | Voice processor and program therefor | |
JPH11231885A (en) | Speech synthesizing device | |
JP2011028131A (en) | Speech synthesis device | |
JP4277697B2 (en) | SINGING VOICE GENERATION DEVICE, ITS PROGRAM, AND PORTABLE COMMUNICATION TERMINAL HAVING SINGING VOICE GENERATION FUNCTION | |
JP2006337468A (en) | Device and program for speech synthesis | |
JPH07181992A (en) | Device and method for reading document out | |
JP4841339B2 (en) | Prosody correction device, speech synthesis device, prosody correction method, speech synthesis method, prosody correction program, and speech synthesis program | |
JPH08335096A (en) | Text voice synthesizer | |
JPH05100692A (en) | Voice synthesizer | |
JP4026512B2 (en) | Singing composition data input program and singing composition data input device | |
JP4736524B2 (en) | Speech synthesis apparatus and speech synthesis program | |
JP2005242231A (en) | Device, method, and program for speech synthesis | |
JP4260071B2 (en) | Speech synthesis method, speech synthesis program, and speech synthesis apparatus | |
JP2642617B2 (en) | Speech synthesizer | |
JP5181578B2 (en) | Speech synthesis apparatus, speech synthesis method, and computer program | |
JPH05281984A (en) | Method and device for synthesizing speech | |
JP2703253B2 (en) | Speech synthesizer | |
KR100650071B1 (en) | Musical tone and human speech reproduction apparatus and method | |
JP5471138B2 (en) | Phoneme code converter and speech synthesizer | |
JP4366918B2 (en) | Mobile device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080219 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080317 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100915 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110121 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110816 |