JP5935815B2 - Speech synthesis apparatus and program - Google Patents
Speech synthesis apparatus and program Download PDFInfo
- Publication number
- JP5935815B2 JP5935815B2 JP2014004911A JP2014004911A JP5935815B2 JP 5935815 B2 JP5935815 B2 JP 5935815B2 JP 2014004911 A JP2014004911 A JP 2014004911A JP 2014004911 A JP2014004911 A JP 2014004911A JP 5935815 B2 JP5935815 B2 JP 5935815B2
- Authority
- JP
- Japan
- Prior art keywords
- note
- period
- graphic
- pitch
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title description 23
- 238000003786 synthesis reaction Methods 0.000 title description 22
- 238000012545 processing Methods 0.000 claims description 49
- 230000002194 synthesizing effect Effects 0.000 claims description 8
- 238000012790 confirmation Methods 0.000 description 83
- 239000011295 pitch Substances 0.000 description 67
- 230000004048 modification Effects 0.000 description 23
- 238000012986 modification Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 13
- 238000000034 method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 7
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Description
本発明は、音声合成に関する。 The present invention relates to speech synthesis.
歌詞等の文字列、並びに複数の音符(以下「音符列」という)の音高および音長がデータとして入力されると、その文字列および音に応じて、歌唱音の音声を合成する技術が知られている(例えば特許文献1)。 A technology for synthesizing voice of a singing sound according to a character string and sound when a character string such as lyrics and pitches and lengths of a plurality of notes (hereinafter referred to as “note string”) are input as data. Known (for example, Patent Document 1).
特許文献1において、自分の意図どおりに文字列および音符列が入力されたか確認するには、ユーザは、歌詞を入力した後で、合成された音声を再生するための操作を行う必要があり煩雑であった。
これに対し本発明は、新たに入力された音符とその音符に割り当てられた文字とに応じた音声の確認を、より容易にする技術を提供する。
In Patent Document 1, in order to check whether a character string and a note string are input as intended, the user needs to perform an operation for reproducing the synthesized voice after inputting lyrics. Met.
On the other hand, the present invention provides a technique that makes it easier to check a voice according to a newly input note and a character assigned to the note.
本発明は、文字列を記憶する文字列記憶手段と、複数の音符の各々について、当該音符の発音期間の始期、音高、および音長、並びに前記文字列のうち当該音符に割り当てられた文字を含む属性を記憶する属性記憶手段と、音高を表す第1軸および時間を表す第2軸を有する座標系に従って、前記複数の音符の各々の発音期間の始期、音高、および音長を表す図形を表示手段の画面に表示させる表示制御手段と、前記画面において指定された、新たな音符の音高および発音期間の始期を取得する取得手段と、前記取得手段により取得された前記発音期間の始期と、前記属性記憶手段に記憶されている複数の音符の発音期間の始期との前後関係に基づいて、前記文字列記憶手段に記憶されている文字列の一部を前記新たな音符に割り当てるように前記属性記憶手段に記憶されている属性を書き替える割り当て手段と、前記割り当て手段により前記新たな音符に割り当てられた文字列および前記取得手段により取得された音高に応じた音声を確認音として合成する音声合成手段と、前記音声合成手段により合成された前記確認音を、前記取得手段が前記発音期間の始期を取得したタイミングに応じて、音声出力手段から出力させる確認音出力手段とを有する音声合成装置を提供する。 The present invention relates to a character string storage means for storing a character string, and for each of a plurality of notes, the beginning of the pronunciation period, the pitch and the length of the note, and the character assigned to the note among the character string In accordance with a coordinate system having attribute storage means for storing attributes including a first axis that represents pitch and a second axis that represents time, the beginning, pitch, and length of the pronunciation period of each of the plurality of notes are determined. Display control means for displaying a figure to be displayed on the screen of the display means, acquisition means for acquiring the pitch of a new note and the beginning of the pronunciation period designated on the screen, and the pronunciation period acquired by the acquisition means And a part of the character string stored in the character string storage means as the new note based on the context of the beginning of the pronunciation period of the plurality of notes stored in the attribute storage means. To assign An assigning means for rewriting the attribute stored in the attribute storage means, a character string assigned to the new note by the assigning means, and a sound corresponding to the pitch obtained by the obtaining means is synthesized as a confirmation sound. And a confirmation sound output means for outputting the confirmation sound synthesized by the speech synthesis means from the sound output means in accordance with the timing at which the acquisition means acquires the beginning of the pronunciation period. A synthesizer is provided.
好ましい態様において、前記取得手段は、前記発音期間の始期を取得した後で、前記新たな音符の発音期間の終期を取得し、前記取得手段により前記新たな音符の発音期間の終期が取得される前に、前記取得手段により取得される前記新たな音符の音高が変更をされた場合、前記音声合成手段は前記変更後の音高に応じた音声を前記確認音として合成し、前記確認音出力手段は、前記変更後の音高に応じた前記確認音を前記音声出力手段から出力させてもよい。 In a preferred aspect, the acquisition means acquires the end of the new note pronunciation period after acquiring the start of the sound generation period, and the acquisition means acquires the end of the new note generation period. When the pitch of the new note acquired by the acquisition unit is changed before, the voice synthesis unit synthesizes a voice according to the changed pitch as the confirmation sound, and the confirmation sound The output means may cause the sound output means to output the confirmation sound according to the changed pitch.
別の好ましい態様において、前記音声合成手段は、前記確認音として、前記新たな音符を含む複数の音に割り当てられている文字列および指定されている音高に応じた音声を確認音として合成してもよい。 In another preferred embodiment, the voice synthesizing unit synthesizes, as the confirmation sound, a sound corresponding to a character string assigned to a plurality of sounds including the new note and a designated pitch as the confirmation sound. May be.
さらに別の好ましい態様において、前記取得手段は、前記新たな音符の発音期間の終期をさらに取得し、前記音声合成手段は、前記確認音として、前記発音期間の終期と前記発音期間の始期との差に応じた音長を有する音声を合成してもよい。 In still another preferred embodiment, the acquisition means further acquires the end of the pronunciation period of the new note, and the speech synthesis means uses the confirmation period as the end of the pronunciation period and the start of the pronunciation period. You may synthesize | combine the audio | voice which has the sound length according to the difference.
また、本発明は、コンピュータを、文字列を記憶する文字列記憶手段と、複数の音符の各々について、当該音符の発音期間の始期、音高、および音長、並びに前記文字列のうち当該音符に割り当てられた文字を含む属性を記憶する属性記憶手段と、音高を表す第1軸および時間を表す第2軸を有する座標系に従って、前記複数の音符の各々の発音期間の始期、音高、および音長を表す図形を表示手段の画面に表示させる表示制御手段と、前記画面において指定された、新たな音符の音高および発音期間の始期を取得する取得手段と、前記取得手段により取得された前記発音期間の始期と、前記属性記憶手段に記憶されている複数の音符の発音期間の始期との前後関係に基づいて、前記文字列記憶手段に記憶されている文字列の一部を前記新たな音符に割り当てるように前記属性記憶手段に記憶されている属性を書き替える割り当て手段と、前記割り当て手段により前記新たな音符に割り当てられた文字列および前記取得手段により取得された音高に応じた音声を確認音として合成する音声合成手段と、前記音声合成手段により合成された前記確認音を、前記取得手段が前記発音期間の始期を取得したタイミングに応じて、音声出力手段から出力させる確認音出力手段として機能させるためのプログラムを提供する。 Further, the present invention provides a computer, a character string storage means for storing a character string, and for each of a plurality of notes, the beginning of the sound generation period, the pitch and the length of the note, and the note of the character string. According to a coordinate system having attribute storage means for storing attributes including characters assigned to and a first axis representing pitch and a second axis representing time. , And a display control means for displaying a graphic representing the sound length on the screen of the display means, an acquisition means for acquiring the pitch of the new note and the beginning of the pronunciation period specified on the screen, and acquired by the acquisition means A part of the character string stored in the character string storage means based on the context of the start time of the generated sound period and the start time of the sound generation period of the plurality of notes stored in the attribute storage means. The new An assigning means for rewriting the attribute stored in the attribute storage means so as to assign it to a note; a character string assigned to the new note by the assigning means; and a sound corresponding to the pitch obtained by the obtaining means Voice confirmation means for synthesizing as a confirmation sound, and a confirmation sound output for outputting the confirmation sound synthesized by the voice synthesis means from the voice output means according to the timing at which the acquisition means acquires the beginning of the pronunciation period A program for functioning as a means is provided.
本発明によれば、発音期間の始期を取得したタイミングに応じて確認音を出力する構成を有さない場合と比較して、ユーザは、新たに入力された音符とその音符に割り当てられた文字とに応じた音声を、より容易に確認することができる。 According to the present invention, compared with a case where the confirmation sound is not output according to the timing at which the beginning of the pronunciation period is acquired, the user can input the newly input note and the character assigned to the note. It is possible to more easily confirm the sound corresponding to the above.
1.構成
図1は、一実施形態に係る音声合成装置1の機能構成を示すブロック図である。音声合成装置1は、文字列および音符列を含む楽譜データに基づいて音声を合成し、合成された音声を出力する装置である。音声合成装置1は、大別すると、楽譜データを編集する機能と、楽譜データに基づいて音声を合成する機能とを有する。より詳細には、音声合成装置1は、記憶手段11と、表示制御手段12と、表示手段13と、取得手段14と、割り当て手段15と、音声合成手段16と、確認音出力手段17と、音声出力手段18とを有する。記憶手段11は、素片ライブラリと、歌詞(文字列)と、楽譜データとを記憶する。楽譜データは、複数の音符の各々について、その音符の発音期間の始期、音高、および音長、並びに文字列のうちその音符に割り当てられた文字を含む属性を有する。表示制御手段12は、音高を表す第1軸および時間を表す第2軸を有する座標系に従って、複数の音符の各々の発音期間の始期、音高、および音長を表す図形を表示手段13の画面に表示させる。表示手段13は、表示制御手段12の制御下で画像を表示する。取得手段14は、表示される画面において指定された、新たな音符の音高および発音期間の始期を取得する。割り当て手段15は、取得手段14により取得された発音期間の始期と、記憶手段11に記憶されている複数の音符の発音期間の始期との前後関係に基づいて、記憶手段11に記憶されている文字列の一部を新たな音符に割り当てるように記憶手段11に記憶されている属性を書き替える。音声合成手段16は、割り当て手段15により新たな音符に割り当てられた文字列および取得手段14により取得された音高に応じた音声を確認音として合成する。確認音出力手段17は、音声合成手段16により合成された確認音を、取得手段14が発音期間の始期を取得したタイミングに応じて、音声出力手段18から出力させる。音声出力手段18は、音声を出力する。
1. Configuration FIG. 1 is a block diagram showing a functional configuration of a speech synthesizer 1 according to an embodiment. The speech synthesizer 1 is a device that synthesizes speech based on musical score data including a character string and a note string and outputs the synthesized speech. The speech synthesizer 1 roughly has a function of editing score data and a function of synthesizing speech based on the score data. More specifically, the speech synthesizer 1 includes a storage unit 11, a
図2は、素片ライブラリを例示する図である。素片ライブラリは、例えば人間の声からサンプリングした音楽素片(歌声の断片)を含むデータベースである。素片ライブラリは、複数の歌唱者の各々に対応した個人別データベースに分かれている。図2に示される例では、素片ライブラリはそれぞれ3人の歌唱者に対応する個人別データベース303a〜cを含んでいる。各歌唱者に対応した個人別データベース303には、その歌唱者の歌唱音声波形から採取された素片データが複数含まれている。素片データとは、歌唱音声波形から、音声学的な特徴部分を切り出して符号化した音声データである。
FIG. 2 is a diagram illustrating a fragment library. The segment library is a database including musical segments (singing voice fragments) sampled from, for example, a human voice. The segment library is divided into individual databases corresponding to each of a plurality of singers. In the example shown in FIG. 2, the segment library includes
ここで、素片データについて、「さいた」という歌詞を歌唱する場合を例として説明する。「さいた」という歌詞は発音記号で「saita」と表される。発音記号「saita」で表される音声の波形を特徴により分析すると、「s」の音の立ち上がり部分→「s」の音→「s」の音から「a」の音への遷移部分→「a」の音・・・と続き、「a」の音の減衰部分で終わる。それぞれの素片データは、これらの音声学的な特徴部分に対応する音声データである。 Here, the case of singing the lyrics of “sai” with respect to the segment data will be described as an example. The lyrics “Saita” are expressed by phonetic symbols “saita”. When analyzing the waveform of the sound represented by the phonetic symbol “saita”, the rising portion of the sound of “s” → the sound of “s” → the transition portion from the sound of “s” to the sound of “a” → “ The sound of “a” is continued, and ends with the attenuation part of the sound of “a”. Each piece of data is audio data corresponding to these phonetic features.
以下の説明において、ある発音記号で表される音の立ち上がり部分に対応する素片データを、その発音記号の前に「#」を付けて、「#s」のように表す。また、ある発音記号で表される音の減衰部分に対応する素片データを、その発音記号の後に「#」を付けて、「a#」のように表す。また、ある発音記号で表される音から他の発音記号で表される音への遷移部分に対応する素片データを、それらの発音記号の間に「−」を入れて、「s−a」のように表す。素片ライブラリの素片データ群3030には、歌唱者が通常に歌唱した場合の歌唱音声波形から採取された、あらゆる音および音の組み合わせに関する素片データが格納されている。素片データ群3031H〜Lには、それぞれ、歌唱者が強いアクセント、中程度のアクセント、および弱いアクセントを付加して歌唱した場合の歌唱音声波形から採取された、あらゆる音および音の組み合わせに関する素片データが格納されている。素片データ群3032H〜Lには、それぞれ、歌唱者が強いレガート、中程度のレガート、および弱いレガートを付加して歌唱した場合の歌唱音声波形から採取された、あらゆる音および音の組み合わせに関する素片データが格納されている。
In the following description, segment data corresponding to a rising portion of a sound represented by a phonetic symbol is represented as “#s” by adding “#” in front of the phonetic symbol. The segment data corresponding to the sound attenuation part represented by a phonetic symbol is represented as “a #” by adding “#” after the phonetic symbol. Also, segment data corresponding to a transition portion from a sound represented by a certain phonetic symbol to a sound represented by another phonetic symbol is inserted between those phonetic symbols, and “sa” is entered. ". The
図3は、楽譜データを例示する図である。楽譜データには、歌唱演奏を表すパートデータが、1または複数含まれている。楽譜データには、このパートデータの他に、演奏で用いられる拍子およびテンポを示すデータ、および分解能を示すデータが含まれている。パートデータは、複数の音符のそれぞれにつき、基本属性および付加属性を示すデータの組であるノートデータを含んでいる。基本属性データは、音の発音を指示するにあたり不可欠な属性を示すデータであり、音高、発音期間(発音期間の始期および終期)、および発音記号を含んでいる。付加属性データは、音に対し表情付け等の指示、すなわち音楽的な修飾を与えるためのデータであり、この例では、音符と歌詞との対応関係、音の強さ、アクセントの強さ、レガートの強さ、ビブラートの強さ、ビブラート期間を含んでいる。 FIG. 3 is a diagram illustrating score data. The score data includes one or more part data representing a singing performance. In addition to the part data, the musical score data includes data indicating the time and tempo used in the performance, and data indicating the resolution. The part data includes note data which is a set of data indicating basic attributes and additional attributes for each of a plurality of notes. The basic attribute data is data indicating attributes indispensable for instructing sound generation, and includes a pitch, a sound generation period (the start and end of the sound generation period), and a sound generation symbol. The additional attribute data is data for giving an expression to the sound, such as giving a musical modification. In this example, the correspondence between the note and the lyrics, the strength of the sound, the strength of the accent, the legato Strength, vibrato strength, and vibrato duration.
次に、音声合成手段16による音声合成処理の概要を説明する。ここでは、楽譜データに含まれる「sakura」という発音記号列に対する処理を例として説明する。音声合成手段16は、発音記号列を素片データの単位に分解する。例えば、「sakura」は、「#s」、「s」、「s−a」、「a」、「a−k」、「k」、「k−u」、「u」、「u−r」、「r」、「r−a」、「a」、および「a#」に分解される。音声合成手段16は、分解された発音記号列のそれぞれに対応する素片データを、素片データ群3030から読み出す。音声合成手段16は、読み出した素片データに対し、各音符により示される音高に基づき、音高調整を行う。さらに音声合成手段16は、素片データに対し、付加属性データに応じた加工を施す。音声合成手段16は、音高調整を行った素片データに対し、音符列により示される発音期間に基づき、素片の継続時間の調整を施す。音声合成手段16は、継続時間の調整を行った素片データに対し、音量調節を行う。音声合成手段16は、音量調節を行った素片データを順番に接合し、合成音声データを生成する。音声合成手段16は、生成した合成音声データを、記憶手段11に記憶する。
Next, the outline of the speech synthesis process by the
ユーザが楽曲の再生指示を入力し、取得手段14がこれを取得すると、音声出力手段18は、記憶手段11に記憶されている合成音声データを読み出し、これに応じた音声を出力する。その結果、ユーザは楽譜データにより示される歌唱演奏を聴くことができる。
When the user inputs a music playback instruction and the
図4は、音声合成装置1のハードウェア構成を示す図である。この例で、音声合成装置1はコンピュータであり、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、記憶部104と、入力部105と、表示部106と、DAC(Digital Analog Converter)107と、アンプ108と、スピーカ109とを有する。CPU101は汎用的なデータ処理を行うマイクロプロセッサである。ROM102はBIOS(Basic Input/Output System)等の制御用プログラムを格納する不揮発性メモリである。RAM103はデータを記憶する揮発性メモリである。記憶部104は、不揮発性の記憶装置、例えばHDD(Hard Disk Drive)またはフラッシュメモリである。記憶部104は、OS(Operating System)、アプリケーションプログラム、および各種のデータを記憶する。CPU101は、BIOS、OS、またはアプリケーションプログラムに従い、音声合成装置1の他の構成部を制御する。
FIG. 4 is a diagram illustrating a hardware configuration of the speech synthesizer 1. In this example, the speech synthesizer 1 is a computer, a CPU (Central Processing Unit) 101, a ROM (Read Only Memory) 102, a RAM (Random Access Memory) 103, a
入力部105は、指示またはデータを入力するための装置、例えばタッチパネル(タッチスクリーン)、キーパッド、またはマウスである。表示部106は、液晶ディスプレイまたは有機EL(Electro-Luminescence)ディスプレイ等の表示装置と、表示装置を駆動する駆動回路とを有し、文字および図形等を表示する。DAC107は、合成音声データ等の音声データを取得し、これをアナログ音声信号に変換する。DAC107は、アナログ音声信号をアンプ108に出力する。アンプ108は、アナログ音声信号を増幅し、スピーカ109に出力する。スピーカ109は、アナログ音声信号に応じた音波を出力する。
The
この例で、記憶部104は、コンピュータを音声合成装置として機能させるためのアプリケーションプログラム(以下このプログラムを「音声合成アプリケーション」という)を記憶している。CPU101がこの音声合成アプリケーションを実行することにより、音声合成装置1に図1に示される機能が実装される。音声合成アプリケーションを実行しているCPU101は、表示制御手段12、取得手段14、割り当て手段15、音声合成手段16、および確認音出力手段17の一例である。ROM102、RAM103、または記憶部104は、記憶手段11の一例である。CPU101の制御下にある表示部106は、表示手段13の一例である。CPU101の制御下にあるDAC107、アンプ108、およびスピーカ109は、音声出力手段18の一例である。
In this example, the
図5は、音声合成装置1の外観を例示する図である。この例で、音声合成装置1はタッチパネル式の情報表示装置であり、筐体110と、タッチパネル111とを有する。筐体110にはスピーカ109およびタッチパネル111が設けられている。タッチパネル111は、表示装置の画面上に光透過性のタッチセンサが積層された構造を有している。ユーザは、表示されている画像を見ながらタッチパネル111に指を触れたり、タッチパネル111上を指でなぞったりすることにより、音声合成装置1に対して指示を入力する。すなわち、タッチパネル111は、入力部105と表示部106とを一体としたものである。
FIG. 5 is a diagram illustrating the appearance of the speech synthesizer 1. In this example, the speech synthesizer 1 is a touch panel type information display device, and includes a
2.動作
図6は、音声合成アプリケーションが実行されているときの画面を例示する図である。この画面は、入力ボックス201、ウインドウ202、ガイド図形203、ノート図形204、ノート図形205、ノート図形206、ノート図形207、ノート図形208、再生ボタン209、および停止ボタン210を含む。入力ボックス201は、歌詞を入力および表示するための領域である。この例では、「あさがくるひるがくるよるがくる」という文字列が歌詞として入力されている。ウインドウ202は、音高を表す第1軸(この例では縦軸)および時間を表す第2軸(横軸)を有する座標系に従って、音符列を入力および表示するための領域である。音高軸は、図6において上向きが正方向(音が高くなる)である。時間軸は、図6において右向きが正方向(時間が後になる)である。ガイド図形203は、音高を示す図形であり、ウインドウ202の音高軸に沿って表示される。この例では、ガイド図形203としてピアノの鍵盤を模した図形が用いられる。このことから、ウインドウ202を用いた音符列の表示を「ピアノロール表示」という。ガイド図形203は、音高を特定する画像(この例では、「C3」および「C4」という文字)を含む。ノート図形204−208は、音符列を構成する各音符を示す図形である。この例でノート図形204−208は、長方形の形状を有しており、左端が発音期間の始期を、右端が発音期間の終期を示している。ノート図形204−208の縦方向の位置は音高を示している。ノート図形204−208の内部には、その音符に割り当てられた文字(歌詞の一部)が表示されている。この例で、ノート図形204−208が示す音符には、それぞれ、「あ」、「さ」、「が」、「く」、および「る」という文字が割り当てられている。再生ボタン209は、ピアノロール表示されている楽曲の再生を指示するためのボタンである。停止ボタン210は、楽曲の再生を停止するためのボタンである。
2. Operation FIG. 6 is a diagram illustrating a screen when the speech synthesis application is being executed. This screen includes an
図7は、音声合成装置1の動作を示すフローチャートである。図7のフローは、例えば、音声合成アプリケーションの起動がユーザにより指示されたことを契機として開始する。ステップS100において、CPU101は、ユーザによるタッチパネル111の操作に応じて、歌詞を示す文字列を取得する。すなわち、ユーザは、タッチパネル111を操作して歌詞を入力する。CPU101は、歌詞として取得した文字列を記憶部104に記憶する。ここでは、図6に示したように「あさがくるひるがくるよるがくる」という歌詞がユーザにより入力された場合を例として説明する。
FIG. 7 is a flowchart showing the operation of the speech synthesizer 1. The flow in FIG. 7 starts, for example, in response to an instruction from the user to start the speech synthesis application. In step S <b> 100, the
ステップS110において、CPU101は、新たな音符の入力が検出されたか、すなわち、新たな音符を取得したか判断する。より詳細には、CPU101は、新たな音符の発音期間の始期を取得したか判断する。新たな音符の始期が入力されたと判断された場合(S110:YES)、CPU101は、処理をステップS120に移行する。新たな音符の始期が入力されていないと判断された場合(S110:NO)、CPU101は、新たな音符の始期が入力されるまで待機する。この例で音声合成装置1はタッチパネル式の情報表示装置であるから、新たな音符の始期の入力はタッチパネル111を介して行われる。
In step S110, the
図8は、新たな音符を入力する様子を例示する図である。ユーザは、ウインドウ202において、新たな音符を追加したい位置、より詳細には、新たな音符の音高および発音期間の始期に相当する位置をタッチすることにより、新たな音符を入力する。図8には、ユーザが、時間軸においてノート図形204およびノート図形205の間に位置し、音高軸において「D3」に相当する位置を指Fでタッチした例が示されている。このとき、タッチパネル111は、ユーザがタッチした位置を示す信号をCPU101に出力する。CPU101は、ウインドウ202内のある位置がタッチされたことがタッチパネル111からの信号により示された場合、新たな音符が入力されたと判断する。このときCPU101は、新たな音符を示すノート図形211を、ウインドウ202内においてユーザがタッチしている位置に応じた位置に表示する。新たな音符のノート図形の時間軸方向の幅は、決められた初期値(例えば四分音符)に設定される。以下、この新たな音符を必要に応じて「処理対象音符」という。
FIG. 8 is a diagram illustrating a state in which a new note is input. In the
再び図7を参照する。ステップS120において、CPU101は、処理対象音符に対して歌詞を割り当てる。詳細には以下のとおりである。まず、CPU101は、処理対象音符の時間軸上の位置、特に他の音符との前後関係に基づいて、処理対象音符の順番を特定する。図8の例では、処理対象音符の位置がノート図形204およびノート図形205の間に指定されているので、CPU101は、処理対象音符が第2音であると特定する。次に、CPU101は、特定された順番に基づいて、処理対象音符に割り当てるべき文字を決定する。この例で、処理対象音符は第2音なので、CPU101は、歌詞「あさがくるひるがくるよるがくる」のうち2文字目「さ」を処理対象音符に割り当てる。さらに、CPU101は、新たな文字の割り当てに伴って、他の音符への文字の割り当てを変更する。処理対象音符が第2音になったので、従前の第2音は第3音となり、以下順番が1つずつ繰り下がる。この例では、ノート図形205が示す音に割り当てられる文字が「さ」から「が」に変更される。他の音符についても同様である。CPU101は、この変更後の、音符と歌詞との対応関係を示すデータをRAM103に記憶する。
Refer to FIG. 7 again. In step S120, the
ステップS130において、CPU101は、確認音を音声合成する。ここで、「確認音」とは、処理対象音符の音高およびその音符に割り当てられた文字に応じて合成された音声をいう。ここでは図8のノート図形211(「さ」が割り当てられている)により示される音符が処理の対象となる場合を例として説明する。CPU101は、この音符に割り当てられた文字を発音記号に変換する。記憶部104は平仮名を発音記号に変換するためのデータベースを記憶しており、CPU101はこのデータベースを参照して変換を行う。この例では、「さ」が「sa」に変換される。CPU101は、発音記号を素片データの単位に分解する。この例では、「sa」が「#s」、「s」、「s−a」、「a」および「a#」に分解される。CPU101は、分解された発音記号列のそれぞれに対応する素片データを、記憶部104に記憶されている素片データベースの素片データ群3030から読み出す。CPU101は、読み出した素片データに対し、音符により示される音高に基づき、音高調整を行う。この例では、音高が「D3」となるように素片データが調整される。CPU101は、音高調整を行った素片データに対し、発音期間の初期値(例えば四分音符)に基づき、素片の継続時間を調整する。CPU101は、継続時間を調整した素片データに対し、音量の調整を行う。CPU101は、音量を調整した素片データを順番に接合し、確認音を示す確認音データを生成する。CPU101は、生成した確認音データをRAM103に記憶する。
In step S130, the
ステップS140において、CPU101は、スピーカ109から確認音を出力させる。すなわち、CPU101は、確認音を出力するように、DAC107を制御する。DAC107は、RAM103から確認音データを読み出し、アナログ音声信号に変換してアンプ108に出力する。アンプ108は、このアナログ音声信号を増幅してスピーカ109に出力する。スピーカ109は、このアナログ音声信号に応じた音波を出力する。こうして、スピーカ109から「さ」という音声が出力される。この音声は、ノート図形211により示される音高に相当する音高と、あらかじめ決められた初期値(例えば四分音符)に相当する発音期間を有する。
In step S140, the
この後、発音期間の終期を確定する操作(例えば、タッチしていた指をタッチパネル111から離す操作)が検出された場合、CPU101は、音符列に対する歌詞の割り当てを確定する。すなわち、CPU101は、RAM103に記憶されている、音符と歌詞との対応関係に基づいて、記憶部104に記憶されている楽譜データを書き替える。この例では、音高が「D3」で、発音期間の始期がノート図形211により示される時間であり、発音期間の終期が四分音符に相当する時間である音符のデータが、第2音として追加される。さらに、従前の第2音以降の音は順番が繰り下げられ、割り当てられている発音記号も変更される。
Thereafter, when an operation for determining the end of the pronunciation period (for example, an operation for releasing the touched finger from the touch panel 111) is detected, the
このように、音声合成装置1によれば、ユーザがウインドウ202をタッチすると、タッチした位置に応じたノート図形が表示される。このとき、タッチした位置およびその音符に割り当てられた文字に応じた確認音が出力される。ユーザは、新たに入力された音符について、音高および割り当てられた文字に応じた音声を容易に確認することができる。
Thus, according to the speech synthesizer 1, when the user touches the
タッチパネル111において再生ボタン209に相当する位置をユーザがタッチすると、CPU101は、記憶部104に記憶されている楽譜データに従って音声を合成し、合成した音声をスピーカ109から出力させる。タッチパネル111において停止ボタン210に相当する位置をユーザがタッチすると、CPU101は、音声の再生を停止する。
When the user touches a position corresponding to the
3.他の実施形態
本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。以下、変形例をいくつか説明する。以下の変形例のうち2つ以上のものが組み合わせて用いられてもよい。
3. Other Embodiments The present invention is not limited to the above-described embodiments, and various modifications can be made. Hereinafter, some modifications will be described. Two or more of the following modifications may be used in combination.
3−1.変形例1
確認音の音長は、ユーザの操作に応じて動的に決められてもよい。上述の実施形態では、確認音の音長はあらかじめ決められた値(四分音符)に設定された。しかし、確認音は、ユーザがタッチパネル111にタッチし続けている間、継続的に出力されてもよい。ここでは実施形態と同様に、図8のノート図形211(「さ」が割り当てられている)により示される音符が処理の対象となる場合を例として説明する。発音記号への変換、発音記号の分解、素片データの読み出し、音高調整、継続時間の調整、および音量調整については既に説明したとおりである。次に、CPU101は、素片データを接合して確認音データを生成する。この例では、CPU101は、素片データのうち、順番が最後の素片データは含めず、確認音データを生成する。「#s」、「s」、「s−a」、「a」および「a#」の素片データのうち、確認音データは、「#s」、「s」、「s−a」、および「a」を含み、「a#」は含まない。CPU101は、生成した確認音データをRAM103に書き込む。
3-1. Modification 1
The length of the confirmation sound may be dynamically determined according to the user's operation. In the above embodiment, the length of the confirmation sound is set to a predetermined value (quarter note). However, the confirmation sound may be continuously output while the user continues to touch the
この例において、CPU101は、あらかじめ決められた時間間隔でタッチパネル111からの信号を監視している。タッチパネル111がタッチされていることが検出されている間、CPU101は、順番が最後から2番目の素片データ、この例では「a」の素片データを、引き続き出力される確認音データとして、繰り返しRAM103に書き込む。ユーザがタッチパネル111をタッチし続けている間、「a」の素片データが繰り返し書き込まれ続けるので、スピーカ109からは、「さーーーー」というように長音が発せられる。ユーザがタッチパネル111から指を離す等、終了条件が満たされると、CPU101は、順番が最後の素片データ、この例では「a#」の素片データを、次に出力される確認音データとしてRAM103に書き込む。すなわち、ユーザがタッチパネル111から指を離すと、「さーーーー」という音声の出力が停止する。
In this example, the
3−2.変形例2
変形例1の別の例として、ユーザがタッチパネル111をタッチし続けている間、あらかじめ決められた音長(例えば四分音符)の確認音が、繰り返し出力されてもよい。この場合、ユーザがタッチパネル111をタッチし続けている間、スピーカ109からは、「ささささささ」というように、確認音が繰り返し出力される。
3-2. Modification 2
As another example of the first modification, while the user continues to touch the
3−3.変形例3
確認音を出力するタイミングは、実施形態で説明したものに限定されない。上述の実施形態では、ユーザがタッチパネル111に触ったときに、すなわち、処理対象音符の発音期間の始期が指定されたときに、確認音が出力された。しかし、確認音は、これとは異なるタイミング、たとえば、処理対象音符の発音期間の終期が指定されたときに出力されてもよい。
3-3. Modification 3
The timing for outputting the confirmation sound is not limited to that described in the embodiment. In the above-described embodiment, the confirmation sound is output when the user touches the
図9は、処理対象音符について発音期間の終期を指定する様子を例示する図である。この例では、処理対象音符が生成された後、指をタッチパネル111にタッチしたままの状態で横に動かす(いわゆる「ドラッグ」する)と、指でタッチした軌跡に応じて、ノート図形が変化する。この例では、発音期間の始期が固定されたまま、発音期間の終期がドラッグに応じて変化する。すなわち、CPU101は、処理対象音符の入力を検出した後は、タッチされている部分の軌跡に応じて発音期間の終期を変化させ、その変化に応じたノート図形を表示する。図9には、図8の状態からノート図形211を右方向(時間軸正方向)にドラッグした様子が例示されている。この場合、指の軌跡に応じて、ノート図形211は時間軸方向に伸びている。ユーザがタッチパネル111から指を離すと、音符の長さが確定する。すなわち、CPU101は、ユーザの指がタッチパネルから離れたことを検出すると、処理対象音符の音長を確定する。音長が確定した後で、CPU101は、音声合成をして確認音データを生成し、生成した確認音データをRAM103に書き込む。
FIG. 9 is a diagram illustrating a state in which the end of the pronunciation period is specified for the processing target note. In this example, after the processing target note is generated, if the finger is moved sideways (so-called “dragging”) while touching the
この例では、音長が確定した後で、確認音が出力される。したがって、ユーザは、新たに入力した音符について、音高、音長および割り当てられた文字に応じた音声を容易に確認することができる。なお、発音期間の終期が確定する前に始期が確定しているから、音長が確定した後で確認音を出力する場合も、「発音期間の始期を取得したタイミングに応じて」確認音を出力しているといえる。 In this example, the confirmation sound is output after the sound length is determined. Therefore, the user can easily confirm the sound corresponding to the pitch, the sound length, and the assigned character for the newly input note. In addition, since the start period is determined before the end of the pronunciation period is confirmed, even when a confirmation sound is output after the sound length has been confirmed, the confirmation sound is `` according to the timing when the start period of the pronunciation period is acquired ''. It can be said that it is outputting.
3−4.変形例4
ユーザがノート図形をドラッグしたときの処理は、変形例2で説明したものに限定されない。この例では、ノート図形をドラッグすると、音長が一定のまま、発音期間の始期がドラッグに応じて変化する。すなわち、CPU101は、処理対象音符の入力を検出した後は、タッチされている部分の軌跡に応じて発音期間の始期を変化させ、その変化に応じたノート図形を表示する。音長を一定に保つため、CPU101は、発音期間の始期の変化に応じて終期も変化させる。始期は、あらかじめ決められた解像度(例えば八分音符)を単位として変化する。CPU101は、発音期間の始期が変化するたびに、他の音との時間軸方向の位置関係を確認し、必要に応じて歌詞の割り当てを変更する。
3-4. Modification 4
The processing when the user drags the note graphic is not limited to that described in the second modification. In this example, when the note graphic is dragged, the start time of the sound generation period changes according to the dragging while the sound length remains constant. That is, after detecting the input of the processing target note, the
図10は、変形例4に係る、ノート図形をドラッグしたときの処理を例示する図である。図10には、図8の状態からノート図形211を右方向(時間軸正方向)にドラッグした様子が例示されている。この場合、CPU101は、ノート図形211を基準として、移動方向(時間軸正方向)において次に登場する音符を監視対象音符として特定する。図8の状態から右方向に移動を開始した直後においては、ノート図形205により示される音符が、監視対象音符として特定される。CPU101は、処理対象音符の発音期間の始期が、監視対象音符の発音期間の始期以降となったか判断する。処理対象音符の発音期間の始期が、監視対象音符の発音期間の始期以降となったと判断された場合、CPU101は、処理対象音符と監視対象音符との間で、割り当てられている文字を入れ替える。図10には、ノート図形211がノート図形205よりも後ろに移動され、図8の状態から、ノート図形211およびノート図形205に割り当てられている文字が入れ替わっている様子が示されている。ユーザがタッチパネル111から指を離すと、発音期間の始期および割り当てられる文字が確定する。すなわち、CPU101は、ユーザの指がタッチパネルから離れたことを検出すると、割り当てられる文字を確定する。割り当てられる文字が確定した後で、CPU101は、音声合成をして確認音データの生成を行い、生成した確認音データをRAM103に書き込む。
FIG. 10 is a diagram illustrating processing when a note graphic is dragged according to the fourth modification. FIG. 10 illustrates a state where the
この例では、発音期間の始期を移動可能な構成において、始期が確定した後で、確認音が出力される。したがって、ユーザは、新たに入力した音符について、音高および割り当てられた文字に応じた音声を容易に確認することができる。 In this example, in a configuration in which the start of the sound generation period can be moved, a confirmation sound is output after the start is confirmed. Therefore, the user can easily confirm the sound corresponding to the pitch and the assigned character for the newly input note.
3−5.変形例5
ノート図形をドラッグできる方向は、時間軸方向に限定されない。この例では、ノート図形を音高軸方向にドラッグすると、音長が一定のまま、音高がドラッグに応じて変化する。すなわち、CPU101は、処理対象音符の入力を検出した後は、タッチされている部分の軌跡に応じて音高を変化させ、その変化に応じたノート図形を表示する。音高軸方向のドラッグの間、発音期間の始期および音長は一定に保たれる。
3-5. Modification 5
The direction in which the note graphic can be dragged is not limited to the time axis direction. In this example, when a note graphic is dragged in the pitch axis direction, the pitch changes according to the dragging while the pitch is kept constant. That is, after detecting the input of the processing target note, the
図11は、ノート図形を音高軸方向にドラッグしたときの処理を例示する図である。図11には、図8の状態からノート図形211を上方向(音高軸正方向)にドラッグした様子が例示されている。図11には、ノート図形211が高音側に移動され、図8の状態から、音高が「D3」から「E3」に変化した様子が示されている。ユーザがタッチパネル111から指を離すと、音高が確定する。すなわち、CPU101は、ユーザの指がタッチパネルから離れたことを検出すると、音高を確定する。この間、変形例1で説明したように、ユーザがタッチパネル111に触れている間は確認音が出力され続ける。すなわち、CPU101は、音高が変化するたびに、既に読み出されている素片データについて、音高調整、継続時間の調整、および確認音データの生成を行い、生成した確認音データをRAM103に書き込む。この例によれば、ユーザが音高「D3」に相当する位置をタッチし、指をタッチしたまま音高を「D3」から「D#3」へ、さらに「D#3」から「E3」へとドラッグすると、音高が「D3」から「D#3」に変わったタイミングで音高「D#3」に相当する確認音が出力され、さらに音高が「D#3」から「E3」に変わったタイミングで音高「E3」に相当する確認音が出力される。別の例で、変形例2で説明したように確認音がある単位で繰り返し出力され、その音高が、ドラッグに応じて変化してもよい。
FIG. 11 is a diagram illustrating processing when a note graphic is dragged in the pitch axis direction. FIG. 11 illustrates a state where the note graphic 211 is dragged upward (pitch axis positive direction) from the state of FIG. FIG. 11 shows a state in which the note graphic 211 is moved to the treble side and the pitch is changed from “D3” to “E3” from the state of FIG. When the user removes his / her finger from
3−6.変形例6
処理対象音符の発音期間の始期および終期を指定する方法は、実施形態で説明したものに限定されない。タッチパネル111が複数の位置を同時に検出可能な、いわゆるマルチタッチ可能な装置である場合、2本の指を用いて発音期間の始期および終期が同時に指定されてもよい。この場合、CPU101は、タッチパネル111から2点の座標を取得する。CPU101は、取得した2つの座標のうち、小さい時間軸座標を有する点を始期として、大きい時間軸座標を有する点を終期として処理をする。ユーザがタッチパネル111から指を離すと、発音期間の始期および終期が確定する。この場合、CPU101は、変形例1および変形例2のようにタッチを検出している間は継続的に確認音を出力してもよいし、変形例3および変形例4のように発音期間の始期および終期が確定した後で確認音を出力してもよい。例えば、ユーザがまず人差し指(第1の指)をタッチして発音期間の始期を入力し、その後、中指(第2の指)をタッチして発音期間の終期を入力する場合、CPU101は、人指し指のタッチを検出したタイミングで確認音を出力してもよいし、中指のタッチを検出したタイミングで確認音を出力してもよい。人指し指のタッチを検出したタイミングで確認音を出力する場合、CPU101は、中指のタッチを検出したタイミングで確認音の出力を停止してもよいし、中指のタッチを検出した後も確認音の出力を継続してもよい。中指のタッチを検出した後も確認音の出力を継続する場合、CPU101は、人指し指または中指のタッチを検出しなくなったタイミングで確認音の出力を停止してもよい。
3-6. Modification 6
The method of designating the start and end of the sound generation period of the processing target note is not limited to that described in the embodiment. When the
3−7.変形例7
確認音として出力される音声は、実施形態で説明したものに限定されない。処理対象音符を含む複数の音符およびこれらに割り当てられている文字列に応じた音声が、確認音として合成され出力されてもよい。例えば、CPU101は、処理対象音符を基準として前後ある数の音符(例えば前後1音ずつ)の音符列を用いて、確認音データを生成する。例えば図8において、ノート図形211が処理対象音符として入力されると、CPU101は、前後1音を含めた計3音(「あ」、「さ」、および「が」)の確認音データを生成する。この場合、スピーカ109から「あさが」という音声が出力され、ユーザは、前後の音符との関係も含めて、新たに入力した音符について、音高および割り当てられた文字に応じた音声を容易に確認することができる。歌唱合成の確認においては、前後の音との繋がりを確認することが重要である。例えば、歌詞「さ」が割り当てられた処理対象音符一音のみを確認音として出力する場合、「#s」、「s」、「s−a」、「a」、および「a#」の素片データが用いられるが、実際の曲を再生するときには「#s」および「a#」の素片データに変わって、前後の歌詞との組み合わせに対応する素片データが用いられる。このため、本変形例のように、処理対象音符を含む複数の音符列を用いて確認音を生成することにより、より正確な合成音を確認することができる。
3-7. Modification 7
The sound output as the confirmation sound is not limited to that described in the embodiment. A plurality of notes including the processing target note and a sound corresponding to the character string assigned to them may be synthesized and output as a confirmation sound. For example, the
3−8.変形例8
処理対象音符の音高および発音期間の始期を指定する方法、すなわち入力インターフェースは、実施形態で説明したものに限定されない。例えば、図6のピアノロール表示において、ユーザはガイド図形203をタッチすることにより音高を指定し、そのままウインドウ202までドラッグして発音期間の始期を指定してもよい。また、ガイド図形203は、ピアノの鍵盤を模した図形に限定されない。音高を示すものであれば、どのような図形が用いられてもよい。
3-8. Modification 8
The method for designating the pitch of the processing target note and the start of the sound generation period, that is, the input interface is not limited to that described in the embodiment. For example, in the piano roll display of FIG. 6, the user may specify the pitch by touching the guide graphic 203 and drag to the
3−9.変形例9
上述の実施形態において新たな音符が処理対象音符となる例を説明したが、処理対象音符は新たな音符に限定されない。既に入力済みの音符が処理対象音符として処理されてもよい。例えば図6の例で、ノート図形205に相当する位置へのタッチが検出された場合、CPU101は、ノート図形205が示す音符を処理対象音符として確認音を生成してもよい。この場合、処理対象音符の音長は確定しているので、CPU101は、楽譜データに記録されている音長により示される長さの確認音を合成および出力する。あるいは別の例で、入力済みの音符を編集する編集モードで音声合成装置1が動作している場合において、音長が確定していないものとして、実施形態または変形例で説明したように確認音が合成および出力されてもよい。より詳細には、編集モードにおいて発音期間の終期をドラッグにより変更可能な場合に、実施形態で説明したようにタッチが検出されたタイミングで確認音を出力してもよいし、発音期間の終期が確定した後で確認音を出力してもよい。タッチが検出されたタイミングで確認音を出力する場合には、決められた音長の確認音が出力されてもよいし、タッチが検出されなくなるまで確認音が継続して出力され続けてもよい。
3-9. Modification 9
Although an example in which a new note is a processing target note has been described in the above-described embodiment, the processing target note is not limited to a new note. Already input notes may be processed as processing target notes. For example, in the example of FIG. 6, when a touch to a position corresponding to the note graphic 205 is detected, the
3−10.他の変形例
音声合成装置1は、タッチパネル111を有していなくてもよい。例えば、音声合成装置1は、入力部105としてマウス、キーパッド、またはペンタブレットを有していてもよい。また、音声合成装置1は、タッチパネル式の情報表示装置に限定されない。音声合成装置1は、パーソナルコンピュータ、携帯電話機、携帯ゲーム機、携帯音楽プレーヤ、または電子ブックリーダであってもよい。
3-10. Other Modifications The speech synthesizer 1 may not have the
音声合成装置1のハードウェア構成は、図4で説明したものに限定されない。図1に示される機能を実装できるものであれば、音声合成装置1はどのようなハードウェア構成を有していてもよい。例えば、音声合成装置1は、図1に示される機能要素の各々に対応する専用のハードウェア(回路)を有していてもよい。別の例で、図4で例示した音声合成装置1のハードウェア構成要素の一部は、いわゆる外付けの装置であってもよい。例えば、表示部106またはスピーカ109は外付けの装置であってもよい。
The hardware configuration of the speech synthesizer 1 is not limited to that described with reference to FIG. As long as the functions shown in FIG. 1 can be implemented, the speech synthesizer 1 may have any hardware configuration. For example, the speech synthesizer 1 may have dedicated hardware (circuit) corresponding to each of the functional elements shown in FIG. In another example, some of the hardware components of the speech synthesizer 1 illustrated in FIG. 4 may be a so-called external device. For example, the display unit 106 or the
文字列は平仮名に限定されない。アルファベットまたは発音記号等が、歌詞を示す文字列として用いられてもよい。
ピアノロール表示においてノート図形内に表示される文字は実施形態で説明したものに限定されない。歌詞の一部である平仮名に加え、対応する発音記号が併せて表示されてもよい。
楽譜データの構造は、図3で例示したものに限定されない。音符と歌詞との対応関係、および音符の属性を特定できるものであれば、どのような構造のデータが用いられてもよい。また、実施形態において歌詞(文字列)と楽譜データとが別のデータセットである例を説明したが、歌詞は楽譜データの一部であってもよい。
音声合成処理の詳細は、実施形態で説明したものに限定されない。音符と発音記号(文字)とが与えられたときに、その音符および発音記号に応じた音声を合成するものであれば、どのような処理が用いられてもよい。
確認音を合成および出力する機能は、ユーザの指示によりオン・オフが切り替えられてもよい。
The character string is not limited to hiragana. An alphabet or a phonetic symbol may be used as a character string indicating lyrics.
The characters displayed in the note graphic in the piano roll display are not limited to those described in the embodiment. In addition to hiragana, which is part of the lyrics, a corresponding phonetic symbol may be displayed together.
The structure of the score data is not limited to that illustrated in FIG. Data having any structure may be used as long as the correspondence between the notes and the lyrics and the attributes of the notes can be specified. In the embodiment, the example in which the lyrics (character string) and the score data are separate data sets has been described. However, the lyrics may be a part of the score data.
Details of the speech synthesis process are not limited to those described in the embodiment. As long as a note and a phonetic symbol (character) are given, any processing may be used as long as it synthesizes a sound corresponding to the note and the phonetic symbol.
The function of synthesizing and outputting the confirmation sound may be switched on / off according to a user instruction.
上述の実施形態で説明した音声合成プログラムは、磁気記録媒体(磁気テープ、磁気ディスク(HDD、FD(Flexible Disk))など)、光記録媒体(光ディスク(CD(Compact Disk)、DVD(Digital Versatile Disk))など)、光磁気記録媒体、半導体メモリ(フラッシュROMなど)などのコンピュータ読取り可能な記録媒体に記憶した状態で提供されてもよい。また、このプログラムは、インターネットのようなネットワーク経由でダウンロードされてもよい。 The speech synthesis program described in the above embodiment includes a magnetic recording medium (magnetic tape, magnetic disk (HDD, FD (Flexible Disk)), etc.), an optical recording medium (optical disk (CD (Compact Disk)), DVD (Digital Versatile Disk). )), Etc.), a magneto-optical recording medium, and a computer-readable recording medium such as a semiconductor memory (flash ROM or the like). The program may be downloaded via a network such as the Internet.
1…音声合成装置、11…記憶手段、12…表示制御手段、13…表示手段、14…取得手段、15…割り当て手段、16…音声合成手段、17…確認音出力手段、18…音声出力手段、101…CPU、102…ROM、103…RAM、104…記憶部、105…入力部、106…表示部、107…DAC、108…アンプ、109…スピーカ、110…筐体、111…タッチパネル、201…入力ボックス、202…ウインドウ、203…ガイド図形、204…ノート図形、205…ノート図形、206…ノート図形、207…ノート図形、208…ノート図形、209…再生ボタン、210…停止ボタン、211…ノート図形、303…個人別データベース、3030…素片データ群 DESCRIPTION OF SYMBOLS 1 ... Speech synthesizer, 11 ... Memory | storage means, 12 ... Display control means, 13 ... Display means, 14 ... Acquisition means, 15 ... Assignment means, 16 ... Speech synthesis means, 17 ... Confirmation sound output means, 18 ... Voice output means , 101 ... CPU, 102 ... ROM, 103 ... RAM, 104 ... storage unit, 105 ... input unit, 106 ... display unit, 107 ... DAC, 108 ... amplifier, 109 ... speaker, 110 ... housing, 111 ... touch panel, 201 ... Input box, 202 ... Window, 203 ... Guide figure, 204 ... Note figure, 205 ... Note figure, 206 ... Note figure, 207 ... Note figure, 208 ... Note figure, 209 ... Play button, 210 ... Stop button, 211 ... Notebook figure, 303 ... Individual database, 3030 ... Segment data group
Claims (5)
複数の音符の各々について、当該音符の発音期間の始期、音高、および音長、並びに前記文字列のうち当該音符に割り当てられた文字を含む属性を記憶する属性記憶手段と、
音高を表す第1軸および時間を表す第2軸を有する座標系に従って、前記複数の音符の各々の発音期間の始期、音高、および音長を表す図形を表示手段の画面に表示させる表示制御手段と、
前記画面において新たに追加することが指定された、処理対象音符の発音期間の始期を取得する取得手段と、
前記取得手段により取得された前記発音期間の始期と、前記属性記憶手段に記憶されている複数の音符の発音期間の始期との前後関係に基づいて、前記文字列記憶手段に記憶されている文字列の一部を前記処理対象音符に割り当てるように前記属性記憶手段に記憶されている属性を書き替える割り当て手段と
を有する音声合成装置。 A character string storage means for storing a character string;
Attribute storage means for storing, for each of a plurality of notes, an attribute including a character assigned to the note in the character string, and an initial period, a pitch, and a tone length of the note generation period;
A display for displaying on the screen of the display means a graphic representing the beginning, pitch, and length of the pronunciation period of each of the plurality of notes according to a coordinate system having a first axis representing pitch and a second axis representing time. Control means;
Acquisition means for acquiring the start of the pronunciation period of the processing target note designated to be newly added in the screen;
Characters stored in the character string storage unit based on the context of the start period of the pronunciation period acquired by the acquisition unit and the start period of the pronunciation period of a plurality of notes stored in the attribute storage unit A speech synthesizer comprising: an assigning unit that rewrites an attribute stored in the attribute storage unit so that a part of a sequence is assigned to the processing target note.
複数の音符の各々について、当該音符の発音期間の始期、音高、および音長、並びに前記文字列のうち当該音符に割り当てられた文字を含む属性を記憶する属性記憶手段と、
音高を表す第1軸および時間を表す第2軸を有する座標系に従って、前記複数の音符の各々の発音期間の始期、音高、および音長を表す図形を表示手段の画面に表示させる表示制御手段と、
前記画面において指定された、処理対象音符の発音期間の始期を取得する取得手段と、
前記取得手段により取得された前記発音期間の始期と、前記属性記憶手段に記憶されている複数の音符の発音期間の始期との前後関係に基づいて、前記文字列記憶手段に記憶されている文字列の一部を前記処理対象音符に割り当てるように前記属性記憶手段に記憶されている属性を書き替える割り当て手段と、
前記割り当て手段により文字が割り当てられた複数の音符のうち第1音符を表す第1図形について、当該第1音符の音長を一定に保ったまま前記画面上において当該第1図形を移動させる指示を入力する入力手段と
を有し、
前記表示制御手段は、前記入力手段により入力された指示に従って前記第1図形を移動させ、
前記第1図形が、当該第1図形の次に位置する第2図形により表される第2音符の発音期間の始期に相当する位置を越えた場合、前記割り当て手段は、当該第1図形に割り当てられた文字と当該第2図形に割り当てられた文字とを入れ換える
ことを特徴とする音声合成装置。 A character string storage means for storing a character string;
Attribute storage means for storing, for each of a plurality of notes, an attribute including a character assigned to the note in the character string, and an initial period, a pitch, and a tone length of the note generation period;
A display for displaying on the screen of the display means a graphic representing the beginning, pitch, and length of the pronunciation period of each of the plurality of notes according to a coordinate system having a first axis representing pitch and a second axis representing time. Control means;
Obtaining means for obtaining the start of the pronunciation period of the note to be processed, designated on the screen;
Characters stored in the character string storage unit based on the context of the start period of the pronunciation period acquired by the acquisition unit and the start period of the pronunciation period of a plurality of notes stored in the attribute storage unit Assigning means for rewriting the attribute stored in the attribute storage means so as to assign a part of the column to the processing target note;
An instruction to move the first figure on the screen while keeping the length of the first note constant for the first figure representing the first note among the plurality of notes to which characters are assigned by the assigning means. Input means for inputting, and
The display control means moves the first graphic according to an instruction input by the input means,
If the first graphic exceeds a position corresponding to the beginning of the pronunciation period of the second note represented by the second graphic positioned next to the first graphic, the assigning means assigns the first graphic to the first graphic. features and to Ruoto voice synthesizing apparatus that replacing the character and the corresponding letter assigned to the second graphic that is.
ことを特徴とする請求項1または2に記載の音声合成装置。 The operation according to claim 1 or 2, wherein when an operation for determining the end of the pronunciation period is detected for the processing target note, the assigning unit allocates a part of the character string to the processing target note. Voice synthesizer.
文字列を記憶する文字列記憶手段と、
複数の音符の各々について、当該音符の発音期間の始期、音高、および音長、並びに前記文字列のうち当該音符に割り当てられた文字を含む属性を記憶する属性記憶手段と、
音高を表す第1軸および時間を表す第2軸を有する座標系に従って、前記複数の音符の各々の発音期間の始期、音高、および音長を表す図形を表示手段の画面に表示させる表示制御手段と、
前記画面において新たに追加することが指定された、処理対象音符の発音期間の始期を取得する取得手段と、
前記取得手段により取得された前記発音期間の始期と、前記属性記憶手段に記憶されている複数の音符の発音期間の始期との前後関係に基づいて、前記文字列記憶手段に記憶されている文字列の一部を前記処理対象音符に割り当てるように前記属性記憶手段に記憶されている属性を書き替える割り当て手段と
して機能させるためのプログラム。 Computer
A character string storage means for storing a character string;
Attribute storage means for storing, for each of a plurality of notes, an attribute including a character assigned to the note in the character string, and an initial period, a pitch, and a tone length of the note generation period;
A display for displaying on the screen of the display means a graphic representing the beginning, pitch, and length of the pronunciation period of each of the plurality of notes according to a coordinate system having a first axis representing pitch and a second axis representing time. Control means;
Acquisition means for acquiring the start of the pronunciation period of the processing target note designated to be newly added in the screen;
Characters stored in the character string storage unit based on the context of the start period of the pronunciation period acquired by the acquisition unit and the start period of the pronunciation period of a plurality of notes stored in the attribute storage unit A program for functioning as an assigning means for rewriting an attribute stored in the attribute storage means so as to assign a part of a row to the processing target note.
文字列を記憶する文字列記憶手段と、
複数の音符の各々について、当該音符の発音期間の始期、音高、および音長、並びに前記文字列のうち当該音符に割り当てられた文字を含む属性を記憶する属性記憶手段と、
音高を表す第1軸および時間を表す第2軸を有する座標系に従って、前記複数の音符の各々の発音期間の始期、音高、および音長を表す図形を表示手段の画面に表示させる表示制御手段と、
前記画面において指定された、処理対象音符の発音期間の始期を取得する取得手段と、
前記取得手段により取得された前記発音期間の始期と、前記属性記憶手段に記憶されている複数の音符の発音期間の始期との前後関係に基づいて、前記文字列記憶手段に記憶されている文字列の一部を前記処理対象音符に割り当てるように前記属性記憶手段に記憶されている属性を書き替える割り当て手段と、
前記割り当て手段により文字が割り当てられた複数の音符のうち第1音符を表す第1図形について、当該第1音符の音長を一定に保ったまま前記画面上において当該第1図形を移動させる指示を入力する入力手段と
して機能させ、
前記表示制御手段は、前記入力手段により入力された指示に従って前記第1図形を移動させ、
前記第1図形が、当該第1図形の次に位置する第2図形により表される第2音符の発音期間の始期に相当する位置を越えた場合、前記割り当て手段は、当該第1図形に割り当てられた文字と当該第2図形に割り当てられた文字とを入れ換える
ことを特徴とするプログラム。 Computer
A character string storage means for storing a character string;
Attribute storage means for storing, for each of a plurality of notes, an attribute including a character assigned to the note in the character string, and an initial period, a pitch, and a tone length of the note generation period;
A display for displaying on the screen of the display means a graphic representing the beginning, pitch, and length of the pronunciation period of each of the plurality of notes according to a coordinate system having a first axis representing pitch and a second axis representing time. Control means;
Obtaining means for obtaining the start of the pronunciation period of the note to be processed, designated on the screen;
Characters stored in the character string storage unit based on the context of the start period of the pronunciation period acquired by the acquisition unit and the start period of the pronunciation period of a plurality of notes stored in the attribute storage unit Assigning means for rewriting the attribute stored in the attribute storage means so as to assign a part of the column to the processing target note;
An instruction to move the first figure on the screen while keeping the length of the first note constant for the first figure representing the first note among the plurality of notes to which characters are assigned by the assigning means. Function as an input means to input,
The display control means moves the first graphic according to an instruction input by the input means,
If the first graphic exceeds a position corresponding to the beginning of the pronunciation period of the second note represented by the second graphic positioned next to the first graphic, the assigning means assigns the first graphic to the first graphic. A program characterized by exchanging the assigned character with the character assigned to the second graphic.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014004911A JP5935815B2 (en) | 2014-01-15 | 2014-01-15 | Speech synthesis apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014004911A JP5935815B2 (en) | 2014-01-15 | 2014-01-15 | Speech synthesis apparatus and program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010229844A Division JP5549521B2 (en) | 2010-10-12 | 2010-10-12 | Speech synthesis apparatus and program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015215546A Division JP6149917B2 (en) | 2015-11-02 | 2015-11-02 | Speech synthesis apparatus and speech synthesis method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014089475A JP2014089475A (en) | 2014-05-15 |
JP5935815B2 true JP5935815B2 (en) | 2016-06-15 |
Family
ID=50791359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014004911A Active JP5935815B2 (en) | 2014-01-15 | 2014-01-15 | Speech synthesis apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5935815B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6728754B2 (en) * | 2015-03-20 | 2020-07-22 | ヤマハ株式会社 | Pronunciation device, pronunciation method and pronunciation program |
JP6634897B2 (en) * | 2016-03-09 | 2020-01-22 | ヤマハ株式会社 | Lyric generation apparatus and lyrics generation method |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3250559B2 (en) * | 2000-04-25 | 2002-01-28 | ヤマハ株式会社 | Lyric creating apparatus, lyrics creating method, and recording medium storing lyrics creating program |
JP3823928B2 (en) * | 2003-02-27 | 2006-09-20 | ヤマハ株式会社 | Score data display device and program |
JP4415573B2 (en) * | 2003-06-13 | 2010-02-17 | ソニー株式会社 | SINGING VOICE SYNTHESIS METHOD, SINGING VOICE SYNTHESIS DEVICE, PROGRAM, RECORDING MEDIUM, AND ROBOT DEVICE |
JP4929604B2 (en) * | 2005-03-11 | 2012-05-09 | ヤマハ株式会社 | Song data input program |
JP4736483B2 (en) * | 2005-03-15 | 2011-07-27 | ヤマハ株式会社 | Song data input program |
JP4858173B2 (en) * | 2007-01-05 | 2012-01-18 | ヤマハ株式会社 | Singing sound synthesizer and program |
-
2014
- 2014-01-15 JP JP2014004911A patent/JP5935815B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014089475A (en) | 2014-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10354627B2 (en) | Singing voice edit assistant method and singing voice edit assistant device | |
US9928817B2 (en) | User interfaces for virtual instruments | |
US9196234B2 (en) | Intelligent keyboard interface for virtual musical instrument | |
US8626324B2 (en) | Altering sound output on a virtual music keyboard | |
US9355634B2 (en) | Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon | |
JP5549521B2 (en) | Speech synthesis apparatus and program | |
JP2013137520A (en) | Music data editing device | |
WO2016060254A1 (en) | Musical performance assistance device and method | |
JP2015163982A (en) | Voice synthesizer and program | |
JP5935815B2 (en) | Speech synthesis apparatus and program | |
JP2013231872A (en) | Device for singing synthesis, and program | |
JP5589741B2 (en) | Music editing apparatus and program | |
JP6149917B2 (en) | Speech synthesis apparatus and speech synthesis method | |
JP5429840B2 (en) | Speech synthesis apparatus and program | |
JP4613817B2 (en) | Fingering display device and program | |
JP3843953B2 (en) | Singing composition data input program and singing composition data input device | |
JP6950180B2 (en) | Musical tone data processing method and musical tone data processing device | |
US8912420B2 (en) | Enhancing music | |
KR101427666B1 (en) | Method and device for providing music score editing service | |
JP7350555B2 (en) | Score editing device and score editing program | |
WO2024122278A1 (en) | Object placement method, sound reproduction method, object placement device, sound reproduction device, and performance device | |
US11694724B2 (en) | Gesture-enabled interfaces, systems, methods, and applications for generating digital music compositions | |
WO2024024105A1 (en) | Sound reproduction device, program, and reproduction control method | |
JP6583756B1 (en) | Speech synthesis apparatus and speech synthesis method | |
JP7107720B2 (en) | fingering display program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150316 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150901 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151102 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160412 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160425 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5935815 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |