JP2017097332A - Voice synthesizer and voice synthesizing method - Google Patents

Voice synthesizer and voice synthesizing method Download PDF

Info

Publication number
JP2017097332A
JP2017097332A JP2016165467A JP2016165467A JP2017097332A JP 2017097332 A JP2017097332 A JP 2017097332A JP 2016165467 A JP2016165467 A JP 2016165467A JP 2016165467 A JP2016165467 A JP 2016165467A JP 2017097332 A JP2017097332 A JP 2017097332A
Authority
JP
Japan
Prior art keywords
parameter
series
parameter series
speech synthesizer
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016165467A
Other languages
Japanese (ja)
Inventor
恵一 徳田
Keiichi Tokuda
恵一 徳田
圭一郎 大浦
Keiichiro Oura
圭一郎 大浦
和寛 中村
Kazuhiro Nakamura
和寛 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Techno Speech Inc
Original Assignee
Techno Speech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Techno Speech Inc filed Critical Techno Speech Inc
Priority to JP2016165467A priority Critical patent/JP2017097332A/en
Publication of JP2017097332A publication Critical patent/JP2017097332A/en
Pending legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To improve operability when editing an addition parameter generated from a configuration parameter.SOLUTION: A voice synthesizer comprises: a storage section which preliminarily stores an acoustic model including an acoustic parameter learned through a statistical method; a parameter generation section which receives input of a musical score generated from the acoustic parameter and generates both a first parameter series representing a change in the acoustic parameter value corresponding to the musical score and a second parameter series generated from the first parameter; a parameter presentation section which presents at least the second parameter series in an editable form to a user; and a synthesis section which synthesizes singing voice using at least either respective acoustic parameter values included in the first parameter series or respective acoustic parameter values included in the second parameter series. When the second parameter series is edited, the parameter generation section regenerates the first parameter series using the edited second parameter series.SELECTED DRAWING: Figure 10

Description

本発明は、音声合成の技術に関する。   The present invention relates to a speech synthesis technique.

従来から、自然な音声をコンピュータによって合成する装置が種々提案されている。こうした音声合成を可能とする方式としては、波形接続方式や、隠れマルコフモデル(HMM、Hidden Markov Model)を用いた方式が知られている。   Conventionally, various devices for synthesizing natural speech by a computer have been proposed. As a method for enabling such speech synthesis, a waveform connection method and a method using a hidden Markov model (HMM) are known.

音声合成のうち、特に歌声を合成する歌声合成においては、ピッチ(音高)やボリューム(音の大きさ)を変動させることで聴感的に自然な合成音を生成できることが知られている。従来、ピッチやボリュームを変動させる方法として、ピッチやボリュームを構成する種々のパラメータ(例えば、基本周波数パラメータ、ビブラート等の歌唱表現のパラメータ、以降「構成パラメータ」とも呼ぶ。)をGUI(Graphical User Interface)により編集可能とした装置が知られている(例えば、特許文献1)。このような装置では、使用者は、GUIを用いて構成パラメータを変更することによってピッチやボリュームを変動させることができる。   Among voice synthesis, in particular, in singing voice synthesis for synthesizing a singing voice, it is known that an acoustically natural synthesized sound can be generated by changing the pitch (pitch) and volume (volume of sound). Conventionally, as a method of changing the pitch and volume, various parameters constituting the pitch and volume (for example, fundamental frequency parameters, parameters of singing expression such as vibrato, hereinafter also referred to as “configuration parameters”) are GUI (Graphical User Interface). ) Is known (for example, Patent Document 1). In such an apparatus, the user can change the pitch and volume by changing the configuration parameters using the GUI.

特開2015−049253号公報Japanese Patent Laying-Open No. 2015-049253

しかし、上述した従来の技術では、ピッチやボリュームの変動は、あくまで構成パラメータの変更に追随して起こるに過ぎない。すなわち、従来の技術では、使用者がピッチやボリュームを直接編集することができず、直感的な操作ができないという課題があった。なお、このような課題は、ピッチとボリュームの何れか一方を変動させようとする場合と、ピッチとボリュームの両方を変動させようとする場合と、に共通する課題であった。また、このような課題は、ピッチやボリュームに限らず、構成パラメータから生成される各種パラメータ(以降「加算パラメータ」とも呼ぶ。)に共通する課題であった。   However, in the above-described conventional technique, the change in pitch and volume only follows the change of the configuration parameter. That is, the conventional technique has a problem that the user cannot directly edit the pitch and volume and cannot perform intuitive operations. Such a problem is common to the case where either one of the pitch and the volume is to be changed and the case where both the pitch and the volume are to be changed. Further, such a problem is not limited to the pitch and volume, and is a problem common to various parameters generated from the configuration parameters (hereinafter also referred to as “addition parameters”).

本発明は、構成パラメータから生成される加算パラメータを編集する際の操作性を向上させることを目的とする。   An object of the present invention is to improve operability when editing an addition parameter generated from a configuration parameter.

本発明は、上述の課題の少なくとも一部を解決するためになされたものであり、以下の形態として実現することが可能である。   SUMMARY An advantage of some aspects of the invention is to solve at least a part of the problems described above, and the invention can be implemented as the following forms.

(1)本発明の一形態によれば、音声合成装置が提供される。この音声合成装置は;統計的手法により学習された音響パラメータを含む音響モデルを予め記憶する記憶部と;パラメータ生成部であって;記憶されている前記音響パラメータから生成される第1のパラメータ系列であって、入力された楽譜に対応した音響パラメータ値の変化を表す第1のパラメータ系列と;前記第1のパラメータ系列から生成される第2のパラメータ系列と、をそれぞれ生成するパラメータ生成部と;少なくとも前記第2のパラメータ系列を、編集可能な態様で使用者に提示するパラメータ提示部と;前記第1のパラメータ系列に含まれる各音響パラメータ値と、前記第2のパラメータ系列に含まれる各音響パラメータ値と、の少なくとも一方を用いて歌声を合成する合成部と、を備え;前記パラメータ生成部は;前記第2のパラメータ系列が編集された場合、編集後の前記第2のパラメータ系列を用いて前記第1のパラメータ系列を再生成する。
この形態の音声合成装置によれば、入力された楽譜に対応した音響パラメータ値の変化を表す第1のパラメータ系列(すなわち構成パラメータ系列)と、第1のパラメータ系列から生成される第2のパラメータ系列(すなわち加算パラメータ系列)とが取り扱われる。本形態の音声合成装置によれば、第2のパラメータ系列(加算パラメータ系列)がパラメータ提示部により編集可能な態様で提示される。このため、使用者は、第2のパラメータ系列(加算パラメータ系列)中の各値を、直接、所望の値に編集することができるため、第2のパラメータ系列(加算パラメータ系列)を編集する際の操作性を向上させることができる。
(1) According to an aspect of the present invention, a speech synthesizer is provided. The speech synthesizer includes: a storage unit that stores in advance an acoustic model including an acoustic parameter learned by a statistical method; a parameter generation unit; a first parameter series generated from the stored acoustic parameter A parameter generation unit for generating a first parameter series representing a change in acoustic parameter value corresponding to the input score; and a second parameter series generated from the first parameter series; A parameter presenting unit that presents at least the second parameter series to the user in an editable manner; each acoustic parameter value included in the first parameter series; and each included in the second parameter series A synthesis unit that synthesizes a singing voice using at least one of acoustic parameter values; and the parameter generation unit; If the parameter sequence is edited to regenerate the first parameter sequence using said second parameter sequence after editing.
According to the speech synthesizer of this aspect, the first parameter series (that is, the constituent parameter series) representing the change in the acoustic parameter value corresponding to the input score, and the second parameter generated from the first parameter series A series (that is, an addition parameter series) is handled. According to the speech synthesizer of this embodiment, the second parameter series (addition parameter series) is presented in an editable manner by the parameter presentation unit. For this reason, the user can directly edit each value in the second parameter series (addition parameter series) to a desired value. Therefore, when editing the second parameter series (addition parameter series) The operability can be improved.

(2)上記形態の音声合成装置において;前記パラメータ提示部は;前記第2のパラメータ系列に加えてさらに、前記第1のパラメータ系列を使用者に提示し;前記第1のパラメータ系列が再生成された場合は、再生成後の前記第1のパラメータ系列を使用者に提示してもよい。
この形態の音声合成装置によれば、使用者は、第1,2のパラメータ系列の両方を確認することができ、かつ、再生成後の第1のパラメータ系列を確認することもできるため、使用者における利便性を向上させることができる。
(2) In the speech synthesizer according to the above aspect; the parameter presentation unit; further presents the first parameter series to the user in addition to the second parameter series; and the first parameter series is regenerated. If it has been done, the first parameter series after regeneration may be presented to the user.
According to the speech synthesizer of this embodiment, the user can check both the first and second parameter series, and can also check the first parameter series after regeneration. Convenience can be improved.

(3)上記形態の音声合成装置において;前記パラメータ提示部は;使用者が、前記第1のパラメータ系列と、前記第2のパラメータ系列とを同時に視認可能な態様で提示してもよい。
この形態の音声合成装置によれば、使用者は、第1,2のパラメータ系列を同時に確認することができるため、使用者における利便性をより向上させることができる。
(3) In the speech synthesizer according to the above aspect; the parameter presenting unit may present the first parameter series and the second parameter series in a manner in which the user can visually recognize the first parameter series and the second parameter series simultaneously.
According to the speech synthesizer of this embodiment, the user can confirm the first and second parameter series at the same time, and therefore the convenience for the user can be further improved.

(4)上記形態の音声合成装置において;前記パラメータ提示部は;前記第2のパラメータ系列の視認性を、前記第1のパラメータ系列と比較して高くした状態で、前記第1のパラメータ系列と前記第2のパラメータ系列とを提示してもよい。
この形態の音声合成装置によれば、使用者は、同時に提示される第1,2のパラメータ系列の間において、第2のパラメータ系列をより確認(視認)しやすくなる。このため、使用者は、第2のパラメータ系列が編集対象であるという旨を直感的に理解することができる。
(4) In the speech synthesizer according to the above aspect; the parameter presentation unit; and the first parameter series in a state where visibility of the second parameter series is higher than that of the first parameter series. The second parameter series may be presented.
According to the speech synthesizer of this form, the user can more easily confirm (view) the second parameter series between the first and second parameter series presented simultaneously. Therefore, the user can intuitively understand that the second parameter series is an editing target.

(5)上記形態の音声合成装置において;前記パラメータ提示部は、前記第2のパラメータ系列に加えてさらに、前記第1のパラメータ系列を編集可能な態様で使用者に提示し;前記パラメータ生成部は、さらに、前記第1のパラメータ系列が編集された場合、編集後の前記第1のパラメータ系列を用いて前記第2のパラメータ系列を再生成し;前記パラメータ提示部は、さらに、前記第2のパラメータ系列が再生成された場合は、再生成後の前記第2のパラメータ系列を使用者に提示してもよい。
この形態の音声合成装置によれば、使用者は、第1,2のパラメータ系列の両方を直接、所望の値に編集することができ、かつ、再生成後の第1,2のパラメータ系列を確認することもできる。即ち使用者は、第1,2のパラメータ系列を双方向に編集し、その結果をリアルタイムに確認することができるため、使用者における利便性をより向上させることができる。
(5) In the speech synthesizer of the above aspect; the parameter presentation unit presents the first parameter series to the user in an editable manner in addition to the second parameter series; the parameter generation unit Further, when the first parameter series is edited, the second parameter series is regenerated using the edited first parameter series; the parameter presenting unit further includes the second parameter series When the parameter series is regenerated, the second parameter series after regeneration may be presented to the user.
According to the speech synthesizer of this aspect, the user can directly edit both the first and second parameter series to desired values, and the first and second parameter series after regeneration can be edited. It can also be confirmed. That is, since the user can edit the first and second parameter series in both directions and check the result in real time, the convenience for the user can be further improved.

(6)上記形態の音声合成装置において、さらに;前記編集の内容を取得するパラメータ取得部を備え;前記パラメータ取得部は;予め割り当てられた第1の操作方法による操作を、前記第1のパラメータ系列に含まれる、あるパラメータ系列に対する編集内容として取得し;予め割り当てられた第2の操作方法であって、前記第1の操作方法とは異なる第2の操作方法による操作を、前記第1のパラメータ系列に含まれる、別のパラメータ系列に対する編集内容として取得してもよい。
この形態の音声合成装置によれば、使用者は、異なる操作方法を用いることによって、第1のパラメータ系列に含まれる種々のパラメータ系列の中から、編集を意図する1つのパラメータ系列を指定することができるため、使用者における利便性をより向上させることができる。
(6) In the speech synthesizer of the above aspect, further comprising: a parameter acquisition unit that acquires the contents of the editing; the parameter acquisition unit; performing an operation according to a first operation method assigned in advance as the first parameter Acquired as editing contents for a certain parameter series included in the series; a second operation method assigned in advance, wherein an operation by a second operation method different from the first operation method is performed by the first operation method; You may acquire as edit content with respect to another parameter series contained in a parameter series.
According to the speech synthesizer of this aspect, the user can designate one parameter series intended for editing from among various parameter series included in the first parameter series by using different operation methods. Therefore, convenience for the user can be further improved.

(7)上記形態の音声合成装置において、さらに;前記編集の内容を取得するパラメータ取得部を備え;前記パラメータ取得部は;予め割り当てられた第3の操作方法による操作を、前記第1のパラメータ系列に対する編集内容として取得し;予め割り当てられた第4の操作方法であって、前記第3の操作方法とは異なる第4の操作方法による操作を、前記第2のパラメータ系列に対する編集内容として取得してもよい。
この形態の音声合成装置によれば、使用者は、異なる操作方法を用いることによって、第1,2のパラメータ系列のうち、編集を意図するパラメータ系列を指定することができるため、使用者における利便性をより向上させることができる。
(7) In the speech synthesizer of the above aspect, further comprising: a parameter acquisition unit that acquires the contents of the editing; the parameter acquisition unit; performing an operation according to a third operation method assigned in advance as the first parameter Acquired as editing contents for a series; a fourth operation method assigned in advance, which is an operation according to a fourth operating method different from the third operating method, is acquired as editing contents for the second parameter series May be.
According to the speech synthesizer of this aspect, the user can designate a parameter series intended for editing from among the first and second parameter series by using different operation methods. The sex can be further improved.

(8)上記形態の音声合成装置において;前記第1のパラメータ系列には、少なくとも;音高のパラメータ値の変化を表す音高のパラメータ系列と;歌唱表現のパラメータ値の変化を表す歌唱表現パラメータ系列と;が含まれ;前記パラメータ提示部は;前記第1のパラメータ系列に含まれる全てのパラメータ系列を使用者に提示してもよい。
この形態の音声合成装置によれば、使用者は、第1のパラメータ系列に含まれる全てのパラメータ系列を確認することができるため、使用者における利便性をより向上させることができる。
(8) In the speech synthesizer of the above aspect; the first parameter series includes at least: a pitch parameter series representing a change in pitch parameter value; and a song expression parameter representing a change in parameter value of a song expression The parameter presenting unit may present all parameter series included in the first parameter series to the user.
According to the speech synthesizer of this aspect, the user can confirm all the parameter series included in the first parameter series, so that the convenience for the user can be further improved.

(9)上記形態の音声合成装置において;前記歌唱表現には、少なくとも、ビブラート、しゃくり、こぶし、アタック、リリースのうちの1つが含まれてもよい。 (9) In the speech synthesizer of the above aspect; the singing expression may include at least one of vibrato, sneeze, fist, attack, and release.

(10)上記形態の音声合成装置において;前記音声合成装置には、ポインティングデバイスを備える画像表示装置が接続され;前記パラメータ提示部は;グラフィカルユーザインタフェースを用い、かつ、前記ポインティングデバイスによる操作が可能な態様で、前記第2のパラメータ系列を前記画像表示装置に対して表示させてもよい。
この形態の音声合成装置によれば、使用者は、GUI表示された第2のパラメータ系列を、ポインティングデバイスを用いることによって簡単に編集することができる。
(10) In the speech synthesizer of the above form; an image display device including a pointing device is connected to the speech synthesizer; the parameter presenting unit is capable of being operated using the graphical user interface and the pointing device In this manner, the second parameter series may be displayed on the image display device.
According to the speech synthesizer of this form, the user can easily edit the second parameter series displayed on the GUI by using the pointing device.

(11)上記形態の音声合成装置において;第2のパラメータ系列には、少なくとも、音高に関するパラメータ系列と、音の大きさに関するパラメータ系列と、声の年齢に関するパラメータ系列と、音のかすれ具合に関するパラメータ系列と、のうちのいずれか1つを含んでもよい。 (11) In the speech synthesizer of the above aspect; the second parameter series includes at least a parameter series relating to pitch, a parameter series relating to loudness, a parameter series relating to voice age, and a blurring condition of sound. Any one of the parameter series may be included.

なお、本発明は、種々の態様で実現することが可能であり、例えば、歌声合成装置、歌声合成装置を利用した歌声合成システム、歌声合成装置や歌声合成システムの機能を実現するために情報処理装置において実行される方法、コンピュータプログラム、そのコンピュータプログラムを配布するためのサーバ装置、そのコンピュータプログラムを記憶した一時的でない記憶媒体等の形態で実現することができる。   The present invention can be realized in various modes. For example, a singing voice synthesizing apparatus, a singing voice synthesizing system using the singing voice synthesizing apparatus, a singing voice synthesizing apparatus, and a singing voice synthesizing system to realize the functions of the information processing system. The present invention can be realized in the form of a method executed in the apparatus, a computer program, a server apparatus for distributing the computer program, a non-temporary storage medium storing the computer program, and the like.

歌声合成装置の実施形態の概略構成図。The schematic block diagram of embodiment of a singing voice synthesizer. HMMを用いた音響モデルとその学習の原理を示す説明図。Explanatory drawing which shows the acoustic model using HMM, and the principle of the learning. 歌声合成準備ルーチンを示すフローチャート。The flowchart which shows a singing voice synthetic | combination preparation routine. データから抽出される代表的なパラメータを示す説明図。Explanatory drawing which shows the typical parameter extracted from data. 音響モデルを用いた学習の基本単位であるコンテキスト依存の音素を示す説明図。Explanatory drawing which shows the context-dependent phoneme which is a basic unit of learning using an acoustic model. HMMの状態の集合をクラスタリングする様子を示す説明図。Explanatory drawing which shows a mode that the set of the state of HMM is clustered. 状態継続長モデルと各パラメータの決定木の様子を示す説明図。Explanatory drawing which shows the mode continuation length model and the mode of decision tree of each parameter. 歌声合成ルーチンの手順を示すフローチャート。The flowchart which shows the procedure of a singing voice synthetic | combination routine. 編集画面の一例を示す図。The figure which shows an example of an edit screen. パラメータ系列の編集方法の第1の例を示す図。The figure which shows the 1st example of the editing method of a parameter series. パラメータ系列の編集方法の第2の例を示す図。The figure which shows the 2nd example of the editing method of a parameter series. パラメータ系列の編集方法の第3の例を示す図。The figure which shows the 3rd example of the editing method of a parameter series. パラメータ系列の編集方法の第4の例を示す図。The figure which shows the 4th example of the editing method of a parameter series. パラメータ系列の編集方法の第5の例を示す図。The figure which shows the 5th example of the editing method of a parameter series.

A.実施形態:
本発明のいくつかの実施形態について、図面を参照しながら説明する。
A. Embodiment:
Several embodiments of the present invention will be described with reference to the drawings.

A−1.歌声処理装置の構成:
図1は、本発明の歌声処理装置の第1実施形態を示す概略構成図である。本実施形態の歌声処理装置100は、統計的手法により学習された音響パラメータを含む音響モデルから歌声を合成する装置であって、使用者が、合成される音の高低(以降、「音高」または「ピッチ」とも呼ぶ)および音の大きさ(以降「ボリューム」とも呼ぶ)を編集する際の操作性を向上させた歌声処理装置100である。歌声処理装置100は、予め歌声を合成するための音響パラメータを学習する構成と、実際に歌声を合成する構成(即ち歌声合成装置としての構成)と、の両方を含んでいる。単に歌声の合成のみを行なうのであれば、前者の構成は必要ない。ここでは、両方を併せて説明するが、歌声合成のみを行なうのであれば、学習済みの音響モデルをハードディスクなどの記憶部に記憶しておき、この音響モデルを用いて音声合成を行なえばよい。
A-1. Composition of singing voice processing device:
FIG. 1 is a schematic configuration diagram showing a first embodiment of the singing voice processing apparatus of the present invention. The singing voice processing apparatus 100 of the present embodiment is a device that synthesizes a singing voice from an acoustic model including acoustic parameters learned by a statistical method, and a user can adjust the pitch of the synthesized sound (hereinafter, “pitch”). Alternatively, the singing voice processing apparatus 100 is improved in operability when editing the pitch and the volume of sound (hereinafter also referred to as “volume”). The singing voice processing apparatus 100 includes both a configuration for learning acoustic parameters for synthesizing a singing voice in advance and a configuration for actually synthesizing a singing voice (that is, a configuration as a singing voice synthesis device). If only singing voice synthesis is performed, the former configuration is not necessary. Here, both will be described together. However, if only singing voice synthesis is performed, a learned acoustic model may be stored in a storage unit such as a hard disk, and speech synthesis may be performed using this acoustic model.

図1に示した歌声処理装置100は、ネットワークNWを介して接続されたコンピュータPC1と、サーバ30およびサーバ30に接続されたもう一台のコンピュータPC2とから構成されている。歌声処理装置100は、一台のコンピュータによって構成することもできるし、ネットワーク上に分散して置かれた複数のコンピュータから構成することも可能である。   The singing voice processing apparatus 100 shown in FIG. 1 includes a computer PC1 connected via a network NW, and a server 30 and another computer PC2 connected to the server 30. The singing voice processing apparatus 100 can be configured by a single computer, or can be configured by a plurality of computers distributed on a network.

コンピュータPC1は、歌声を入力するために設けられており、楽譜入力部10および歌唱(歌声として音声)を入力するための音声入力部20とを備える。楽譜入力部10は一般にはキーボードが用いられ、音声入力部20としてはマイクが用いられる。歌い手が音声入力部20としてマイクに向かって歌い、その歌詞を含む楽譜を楽譜入力部10であるキーボードから入力すると、楽譜と歌声とが対応付けられて、コンピュータPC1内に保存される。楽譜を入力する場合、五線紙に記載された楽譜の形で入力しても良いが、鍵盤タイプのキーボードを用いて入力しても良い。後者の場合、楽譜入力部10として、テキスト入力用のキーボードの他に、ピアノ鍵盤タイプのキーボードを併用するものとし、鍵盤タイプのキーボードによる音程および音の長さの入力と、テキスト入力用のキーボードによる歌詞(日本語の場合は、各音に対応したかな文字列)の入力とを、対応付けながら行えば良い。歌唱の楽譜と歌声のデータは、一回当たり少なくとも数分蓄積される。後述するように、この楽譜と歌声のデータは、サーバ30内の音響パラメータ学習部により解析される。解析するためには、楽譜と歌声のデータに、全ての音素やその組み合わせ、全ての歌唱表現が含まれている必要はないが、統計的な学習が可能な程度の種類の音素とその組み合わせ、および種々の歌唱表現が含まれていることが望ましい。従って、一般に、おおよそ数分から数十分程度の歌声が必要とされる。   The computer PC1 is provided for inputting a singing voice and includes a score input unit 10 and a voice input unit 20 for inputting a singing (speech as voice). The score input unit 10 generally uses a keyboard, and the voice input unit 20 uses a microphone. When a singer sings into the microphone as the voice input unit 20 and inputs a score including the lyrics from the keyboard which is the score input unit 10, the score and the singing voice are associated with each other and stored in the computer PC1. When inputting a score, it may be input in the form of a score written on a staff, or may be input using a keyboard type keyboard. In the latter case, a piano keyboard type keyboard is used as the score input unit 10 in addition to a text input keyboard, and the keyboard and keyboard for inputting pitches and sound lengths using a keyboard type keyboard. The input of lyrics by Kana (in the case of Japanese, a kana character string corresponding to each sound) may be performed in association with each other. Singing sheet music and singing voice data are accumulated at least several minutes at a time. As will be described later, the musical score and singing voice data are analyzed by an acoustic parameter learning unit in the server 30. In order to analyze, not all phonemes and their combinations and all singing expressions need to be included in the score and singing voice data, but the types of phonemes and combinations that allow statistical learning, It is desirable that various singing expressions are included. Therefore, generally, a singing voice of about several minutes to several tens of minutes is required.

歌声入力用のコンピュータPC1をサーバ30と分離したのは、複数の歌い手のデータ入力を容易にするためである。コンピュータPC1は、マイクを備えたノートパソコンなどにより実現でき、簡易に持ち運んで、楽譜と歌声を採取・保存することができる。なお、この例では、歌声は、直接マイクなどの音声入力部20から入力するものとしたが、音源は生歌である必要はなく、CDやDVDなどに記録された歌声から採取するものとしても差し支えない。あるいはネットワークNWを介して入力するものとしても良い。   The reason why the computer PC1 for singing voice input is separated from the server 30 is to facilitate data input of a plurality of singers. The computer PC1 can be realized by a notebook personal computer equipped with a microphone, and can be easily carried to collect and store musical scores and singing voices. In this example, the singing voice is directly input from the voice input unit 20 such as a microphone. However, the sound source does not have to be a live song and may be collected from a singing voice recorded on a CD or DVD. There is no problem. Or it is good also as what inputs via network NW.

こうして採取・記録された歌声のデータは、ネットワークNWを介してサーバ30に送られ、サーバ30内のハードディスク31に保存される。サーバ30内には、楽譜解析部33と音響パラメータ学習部40と音響モデル記憶部50とが備えられている。音響モデル記憶部50は「記憶部」として機能する。サーバ30には、この他、パラメータ取得部55、パラメータ提示部56、楽譜解析部57、音声合成部60が設けられており、音響モデル記憶部50と共に、歌声合成装置を構成している。音声合成部60は「合成部」として機能する。   The singing voice data collected and recorded in this way is sent to the server 30 via the network NW and stored in the hard disk 31 in the server 30. In the server 30, a score analysis unit 33, an acoustic parameter learning unit 40, and an acoustic model storage unit 50 are provided. The acoustic model storage unit 50 functions as a “storage unit”. In addition to this, the server 30 is provided with a parameter acquisition unit 55, a parameter presentation unit 56, a score analysis unit 57, and a speech synthesis unit 60, and constitutes a singing voice synthesis apparatus together with the acoustic model storage unit 50. The speech synthesizer 60 functions as a “synthesizer”.

パラメータ取得部55とパラメータ提示部56と楽譜解析部57とは、コンピュータPC2との間でデータのやり取りを行なう。コンピュータPC2には、キーボード51、マウスなどのポインティングデバイス52、および表示部53が設けられている。キーボード51からは、主に合成しようとする歌声の楽譜のデータが入力される。また表示部53には、後述する音響パラメータを表すGUI(Graphical User Interface)が表示される。コンピュータPC2は、GUIを用い、ポインティングデバイス52により、この音響パラメータを指定あるいは修正することができる。詳細は後述する。   The parameter acquisition unit 55, the parameter presentation unit 56, and the score analysis unit 57 exchange data with the computer PC2. The computer PC2 is provided with a keyboard 51, a pointing device 52 such as a mouse, and a display unit 53. From the keyboard 51, mainly the musical score data of the singing voice to be synthesized is input. In addition, the display unit 53 displays a GUI (Graphical User Interface) representing an acoustic parameter described later. The computer PC2 can specify or modify this acoustic parameter by using the GUI and the pointing device 52. Details will be described later.

サーバ30内の学習部40について説明する。学習部は、ハードディスク31内に記憶された各楽譜と音声データとの組から、音響モデルを構築するための学習を行なう。この学習は、最終的に歌声の合成を行なうためになされるので、本実施形態で用いる歌声合成の手法について先にその概略を説明する。本実施形態では、人が歌声を生成するのに用いている声帯や口蓋などの諸器官を、音源(励振源)と所定の伝達特性を持ったフィルタであるとして捉え、これをデジタルフィルタにより模擬する。このとき、音声波形から抽出されたスペクトルパラメータ、基本周波数、周期/非周期情報からなる音響パラメータの時間軸に沿った列を用いる。これらの音響パラメータの列を、楽譜から推定することができれば、楽譜からそれに対応した音声を合成することができる。そこで、実際の歌声のデータと楽譜とから、音響パラメータの列とそれに対応する楽譜との関係を、所定の音響モデルを用いて学習するのである。こうした音響モデルとしては、本実施形態では、隠れマルコフモデル(HMM、Hidden Markov Model)を採用した場合を例示する。   The learning unit 40 in the server 30 will be described. The learning unit performs learning for constructing an acoustic model from a set of each score and voice data stored in the hard disk 31. Since this learning is performed in order to finally synthesize a singing voice, the outline of the technique of singing voice synthesis used in the present embodiment will be described first. In the present embodiment, various organs such as vocal cords and palate used by a person to generate a singing voice are regarded as a filter having a sound source (excitation source) and a predetermined transfer characteristic, and this is simulated by a digital filter. To do. At this time, a sequence along the time axis of the acoustic parameters including the spectral parameters extracted from the speech waveform, the fundamental frequency, and the period / non-period information is used. If these acoustic parameter strings can be estimated from the score, the corresponding speech can be synthesized from the score. Therefore, the relationship between the acoustic parameter sequence and the corresponding score is learned from the actual singing voice data and the score using a predetermined acoustic model. As such an acoustic model, in this embodiment, a case where a hidden Markov model (HMM, Hidden Markov Model) is employed is illustrated.

図2は、HMMを用いた音響モデルとその学習の原理を示す説明図である。図2では、音素を最小単位とし、この最小単位内において、観測系列の経時的変動を例として3つの状態で表しており、最初に位置する状態に「1」を、中央に位置する状態に「2」を、最後に位置する状態に「3」をそれぞれ付した。   FIG. 2 is an explanatory diagram showing an acoustic model using the HMM and the principle of learning thereof. In FIG. 2, the phoneme is a minimum unit, and within this minimum unit, the temporal variation of the observation sequence is shown as an example in three states, with “1” being the first position and “1” being the center position. “2” is added, and “3” is added to the last position.

図2において、aijは、遷移確率を示している。i=jの場合には、音素の同じ部分に留まる確率を示し、j=i+1の場合には、次の部分に遷移する確率を示す。このとき、観測系列oは、出力確率密度関数bq(o)により得られる値となる。このように、本実施形態では、楽譜と歌声データとから、コンテキストを考慮したHMMを学習するのであり、一旦、歌い手毎に学習されたHMMが出来上がれば、このHMMを用いて、楽譜から歌声を合成するのである。こうしたHMMで学習される状態遷移確率aijと出力確率密度関数bq(o)は、最尤推定法の1つである期待値最大化(EM)アルゴリズムを用いて推定することができる。 In FIG. 2, a ij indicates a transition probability. When i = j, it indicates the probability of staying in the same part of the phoneme, and when j = i + 1, it indicates the probability of transition to the next part. At this time, the observation sequence o has a value obtained by the output probability density function b q (o t ). As described above, in this embodiment, the HMM considering the context is learned from the score and the singing voice data. Once the HMM learned for each singer is completed, the singing voice is obtained from the score using the HMM. It is synthesized. The state transition probability a ij and the output probability density function b q (o t ) learned by such an HMM can be estimated using an expected value maximization (EM) algorithm which is one of the maximum likelihood estimation methods.

次に、HMMの学習で用いられる音響パラメータについて説明する。基本的に音響パラメータとして、音声波形から抽出されたスペクトルパラメータ、基本周波数、周期/非周期情報が想定されることは既に説明した。ここで、スペクトルパラメータとしてはメルケプストラムや線スペクトル対(LSP)などを用いる。本実施形態では、メルケプストラムを用いた。メルケプストラムとは、音声信号のフーリエ変換の対数を更に逆フーリエ変換したものに、人の聴覚特性に合わせて低周波数領域の情報を多く持つようにした情報である。基本周波数とは、一般に、対数を取った値を用いる。周期/非周期とは、母音のように周期的な音声か子音のように周期性のない音声かの区別である。この他、動的特徴と呼ばれるパラメータも用いられる。動的特徴とは、基本周波数やメルケプストラムなどのパラメータの時間方向の1次微分(デルタ)や二次微分(デルタデルタ)に対応するパラメータである。これらのパラメータは、HMMが時系列データの時間軸方向の相関関係をモデル化しにくいという点を補うために用いられる。動的特徴を扱うことで、音素列を合成する際のつなぎ目が滑らかになる。   Next, acoustic parameters used in HMM learning will be described. It has already been explained that spectral parameters, fundamental frequencies, and period / aperiodic information extracted from speech waveforms are basically assumed as acoustic parameters. Here, a mel cepstrum, a line spectrum pair (LSP), or the like is used as the spectrum parameter. In this embodiment, a mel cepstrum was used. The mel cepstrum is information obtained by further inversely Fourier transforming the logarithm of the Fourier transform of an audio signal and having a large amount of information in the low frequency region in accordance with human auditory characteristics. In general, a logarithmic value is used as the fundamental frequency. Period / non-period is a distinction between periodic speech such as vowels and non-periodic speech such as consonants. In addition, parameters called dynamic features are also used. The dynamic feature is a parameter corresponding to a first-order derivative (delta) or a second-order derivative (delta delta) in the time direction of parameters such as a fundamental frequency and a mel cepstrum. These parameters are used to compensate for the fact that the HMM is difficult to model the correlation in the time axis direction of time series data. By handling dynamic features, the joints when synthesizing phoneme sequences are smoothed.

ここまで、音響モデルは、スペクトルパラメータや基本周波数を用いたHMMであるとして説明したが、実際に用いられるモデルはもっと複雑である。以下、実際に導入されているモデルについて簡略に説明する。
(A)状態継続長モデル:歌声の中に含まれる各音素の長さは、歌唱スタイルなどによって変動することから、音声の時間的な構造(どれだけその音素が継続するか)をより精度良くモデル化するために、明示的な状態継続長分布を用いている。これは隠れセミマルコフモデルと呼ばれるモデルである。なお、本実施形態では、単に「HMM」というとき、状態継続長モデル付きのHMMを意味する。
(B)コンテキスト依存モデル:音声のスペクトルや基本周波数、継続長といった音響パラメータは、歌詞に含まれる言語的な情報や楽譜に基づく歌い方の影響を受けやすい。このため、歌詞の言語情報と、更に楽譜から得られる音高、テンポ、調性、拍子などのコンテキストを考慮してモデル化している。
(C)多空間確率分布HMM:音声には無声部があって、そこでは基本周波数の時系列データそのものが存在しない。本実施形態では、こうした特殊な時系列を扱うために、多空間確率分布HMM(MSD−HMM)を用いる。
Up to this point, the acoustic model has been described as being an HMM using spectral parameters and fundamental frequencies, but the model actually used is more complex. Hereinafter, the model actually introduced will be briefly described.
(A) State duration model: Since the length of each phoneme included in the singing voice varies depending on the singing style, etc., the temporal structure of the speech (how long the phoneme lasts) is more accurate. An explicit state duration distribution is used to model. This is a model called a hidden semi-Markov model. In the present embodiment, simply “HMM” means an HMM with a state duration model.
(B) Context-dependent model: Acoustic parameters such as speech spectrum, fundamental frequency, and duration are easily affected by linguistic information contained in the lyrics and how to sing based on the score. For this reason, modeling is performed in consideration of linguistic language information and contexts such as pitch, tempo, tonality, and time signature obtained from the score.
(C) Multi-spatial probability distribution HMM: The voice has a silent part, and there is no time-series data of the fundamental frequency. In the present embodiment, a multi-space probability distribution HMM (MSD-HMM) is used to handle such special time series.

(D)歌唱表現モデル:歌声には、楽譜から見た場合、様々なズレが存在する。これを広義の歌唱表現と呼ぶ。歌唱表現は、特定の歌唱スタイルによる歌唱を特徴付けるものとなっているため、これらも学習に使用される。以下、広義の歌唱表現に含まれるものを挙げる。歌唱表現には、これら全てが含まれる必要はない。
(1)タイミング:実際の歌声は、楽譜から計算される音符の時間軸上の位置から意図せずもしくは意図的にずれることがある。例えば、子音はその音符の開始タイミングより少し前で発声されることが多い。また「前ノリ」「後ノリ」「タメ」など、発声のタイミングを意図的にずらす歌唱表現が存在する。このため、楽譜から計算される絶対的な時間を基準とした実際の発声との時間的なズレを、音素単位でモデル化している。
(2)音高のビブラート:音高(ピッチ)のビブラートは、音高を周期的に揺らす歌唱表現である。歌声において音高のビブラートがかかるタイミングやその周期、振幅の変化は、歌唱スタイル毎に異なるため、歌唱スタイル毎の音響モデルの学習に用いられる。音高のビブラートは、更にその周期と振幅の2つのパラメータとして扱われ、音響モデルに組み込まれる。
(3)音の大きさのビブラート:音の大きさ(ボリューム)のビブラートは、音の大きさを周期的に揺らす歌唱表現である。音高のビブラートと同様に、歌声における音の大きさのビブラートがかかるタイミングやその周期、振幅の変化は歌唱スタイル毎に異なる。このため、音の大きさのビブラートも、歌唱スタイル毎の音響モデルの学習に用いられる。音の大きさのビブラートは、更にその周期と振幅の2つのパラメータとして扱われ、音響モデルに組み込まれる。
(4)その他の歌唱表現:上記のビブラート以外にも様々な歌唱表現が存在する。例えば、音高(ピッチ)に影響を与える歌唱表現として「しゃくり」「こぶし」などがある。ここで「しゃくり」には、しゃくり上げやしゃくり下げが含まれる。また、音の大きさ(ボリューム)に影響を与える歌唱表現として「アタック・リリース」などがある。こうした歌唱表現は、ピッチやボリュームの音符途中での変動量として扱うことができ、音響モデルに組み込まれる。
本明細書では、上述した各モデルを含めて、HMMと称する。なお、上述した音響モデルは、必ずしも全て使用される必要はなく、その一部を省略してもよい。
(D) Singing expression model: The singing voice has various deviations when viewed from the score. This is called broad singing expression. Since singing expressions characterize singing with a specific singing style, they are also used for learning. Hereafter, what is included in a broad sense of singing expression is listed. All of these need not be included in the singing expression.
(1) Timing: The actual singing voice may be unintentionally or intentionally deviated from the position on the time axis of the note calculated from the score. For example, a consonant is often uttered slightly before the start timing of the note. In addition, there are singing expressions that intentionally shift the timing of utterances, such as “before”, “after”, and “tame”. For this reason, the temporal deviation from the actual utterance based on the absolute time calculated from the score is modeled in units of phonemes.
(2) Pitch vibrato: Pitch vibrato is a singing expression that periodically fluctuates the pitch. The timing at which the pitch vibrato is applied to the singing voice, the period, and the change in amplitude differ for each singing style, and are therefore used for learning the acoustic model for each singing style. The pitch vibrato is further treated as two parameters of its period and amplitude, and is incorporated into the acoustic model.
(3) Sound loudness vibrato: Sound loudness (volume) vibrato is a singing expression that periodically fluctuates the loudness. Similar to the pitch vibrato, the timing at which the loudness vibrato in the singing voice is applied, the period, and the change in amplitude differ for each singing style. For this reason, the vibrato of the loudness is also used for learning the acoustic model for each singing style. The loudness vibrato is further treated as two parameters of its period and amplitude, and is incorporated into the acoustic model.
(4) Other singing expressions: There are various singing expressions other than the above-mentioned vibrato. For example, singing expressions that affect the pitch (pitch) include “shakuri” and “fist”. Here, “scribbing” includes raising and lowering. In addition, “attack release” is a singing expression that affects the volume of sound. Such a singing expression can be treated as a variation in the middle of a pitch or volume note, and is incorporated into an acoustic model.
In this specification, the above-mentioned models are referred to as HMMs. Note that it is not always necessary to use all the acoustic models described above, and some of them may be omitted.

図1に戻って、サーバ30内の構成について、更に説明する。上述したように、歌声合成のための音響モデルを学習するために、ハードディスク31に記憶された歌声のデータから、歌声の基本周波数やその微分(デルタパラメータ)を抽出するF0抽出部41、歌声に含まれるスペクトルパラメータやその微分(デルタパラメータ)を抽出するSP抽出部43、上述した広義の歌唱表現パラメータを抽出する歌唱P抽出部44、これらの抽出した音響パラメータを用いて、HMMを学習するHMM学習部45が含まれる。これらのパラメータは、図2を用いて説明したように、音素の配列である音素列データ(コンテキスト依存モデル)を基本として、学習される。   Returning to FIG. 1, the configuration in the server 30 will be further described. As described above, in order to learn the acoustic model for singing voice synthesis, the F0 extraction unit 41 that extracts the fundamental frequency of the singing voice and its derivative (delta parameter) from the singing voice data stored in the hard disk 31, the singing voice SP extraction unit 43 that extracts the included spectral parameters and their derivatives (delta parameters), singing P extraction unit 44 that extracts the above-described broad singing expression parameters, and an HMM that learns the HMM using these extracted acoustic parameters A learning unit 45 is included. As described with reference to FIG. 2, these parameters are learned based on phoneme string data (context-dependent model) that is an array of phonemes.

図3を用いて、歌声合成の準備のために実行される処理について説明する。図3に示した歌声合成準備ルーチンの前半(ステップS110〜S120)は、コンピュータPC1により実行される。後半(ステップS140〜S160)は、サーバにより実行される。   With reference to FIG. 3, processing executed for preparation for singing voice synthesis will be described. The first half (steps S110 to S120) of the singing voice synthesis preparation routine shown in FIG. 3 is executed by the computer PC1. The second half (steps S140 to S160) is executed by the server.

A−2.歌声合成準備ルーチン:
この歌声合成準備ルーチンが開始されると、まず歌声のデータの入力が行なわれる(ステップS110)。歌声のデータは、少なくとも数分分の歌唱を、マイクなどの音声入力部20を介して入力し、デジタルデータとして記憶することにより入力される。続いて楽譜入力部10により楽譜の入力が行なわれる(ステップS120)。歌声データに対して、入力された楽譜から抽出された音程と歌詞(発音)とが対応付けられる。
A-2. Singing voice synthesis preparation routine:
When this singing voice synthesis preparation routine is started, singing voice data is first input (step S110). The singing voice data is input by inputting at least a few minutes of singing through the voice input unit 20 such as a microphone and storing it as digital data. Subsequently, the score input unit 10 inputs a score (step S120). The pitch extracted from the inputted score and the lyrics (pronunciation) are associated with the singing voice data.

次にこの歌声データと楽譜とを受け取ったサーバ30において、データの解析が行なわれる(ステップS140)。データの解析は、ハードディスク31に記憶された歌声を順次取り出して行なわれる。データ解析には、楽譜解析部33を用いた楽譜の解析と、学習部40のF0抽出部41による基本周波数およびその関連パラメータの解析、SP抽出部43によるスペクトルパラメータ(SP)およびその関連パラメータの解析、更には、歌唱表現関連のパラメータの解析が含まれる。図4に、こうした解析により抽出される各種パラメータを例示した。   Next, the server 30 that receives the singing voice data and the score performs data analysis (step S140). Data analysis is performed by sequentially extracting singing voices stored in the hard disk 31. For data analysis, the score analysis using the score analysis unit 33, the analysis of the fundamental frequency and its related parameters by the F0 extraction unit 41 of the learning unit 40, the spectral parameter (SP) and its related parameters by the SP extraction unit 43, Analysis and further analysis of parameters related to singing expression are included. FIG. 4 illustrates various parameters extracted by such analysis.

基本周波数は、一般に対数基本周波数pとして扱われており、その関連パラメータとしては、有声/無声の区別、対数基本周波数の一次微分(Δp)や二次微分(Δ)が考えられる。これらは音源情報と呼ばれることがある。なお、無声部分は対数基本周波数pの値を持たない。このため、無声部分に所定の定数を入れる等の方法によって有声/無声の区別を行う。また、スペクトルパラメータとしては、メルケプストラムcやその一次微分(Δc)、二次微分(Δ)などがある。一時微分と二次微分とは、時間的変動を考慮するために使用される。これらは、スペクトル情報と呼ばれることがある。更に、こうした音源情報、スペクトル情報の他に、本実施形態では、歌唱表現情報を扱う。 Fundamental frequency, typically are handled as logarithmic fundamental frequency p t, as the related parameters, distinction between voiced / unvoiced, first derivative of the logarithmic fundamental frequency (Delta] p t) and second derivative (Δ 2 p t) is considered It is done. These are sometimes called sound source information. It should be noted that the silent portion does not have a value of logarithmic fundamental frequency p t. For this reason, the voiced / unvoiced distinction is made by a method such as putting a predetermined constant in the voiceless part. As the spectral parameter, cepstrum c t and its first derivative (.DELTA.c t), second derivative (Δ 2 c t), and the like. Temporary derivative and second derivative are used to take into account temporal variations. These are sometimes referred to as spectral information. Furthermore, in addition to such sound source information and spectrum information, in this embodiment, singing expression information is handled.

歌唱表現情報には、音高のビブラートの周期V1fおよび振幅V1aと、音の大きさのビブラートの周期V2fおよび振幅V2aと、しゃくりに関するパラメータセットS1〜S6と、アタック・リリースに関するパラメータセットAR1〜AR6とが、音素単位でモデル化されて含まれている。音高のビブラートの周期、音高のビブラートの振幅、音の大きさのビブラートの周期、音の大きさのビブラートの振幅については、それぞれに対応する一時微分(Δ)と、二次微分(Δ)とを持つ。図示の便宜上、図4ではこれら周期および振幅についての一時微分、二次微分の図示を省略している。本実施形態では、しゃくりとアタック・リリースに関しては、「長さ」「高さ」「急峻度」の3つのパラメータを音符の先頭と末尾に、それぞれ持っている。従って、それぞれ6つのパラメータからなる。しゃくりのパラメータ等の学習の手法は、後で説明する。上記パラメータのうち、メルケプストラムcを初めとする各パラメータの一次微分や二次微分は、時間変動を考慮するために用いられる。動的特徴を考慮することにより、歌声の合成時における音と音のつながりが滑らかなものとなる。動的特徴を用いた音声合成の手法については、説明を省略する。 The singing expression information, and the pitch of the vibrato of the period V1f t and amplitude V1a t, and the size of the vibrato of the period V2f t and amplitude V2a t of sound, a parameter set S1~S6 about jerking, parameters for the attack released The sets AR1 to AR6 are modeled and included in phonemes. The pitch vibrato period, the pitch vibrato amplitude, the loudness vibrato period, and the loudness vibrato amplitude are the temporary derivative (Δ) and secondary derivative (Δ 2 ) For convenience of illustration, in FIG. 4, illustration of temporary differentiation and secondary differentiation for these periods and amplitudes is omitted. In the present embodiment, the three parameters of “length”, “height”, and “steepness” are provided at the beginning and the end of the note, respectively, with respect to scrambling and attack / release. Therefore, each consists of six parameters. A method for learning parameters such as the parameters of scouring will be described later. Among the above parameters, first derivative and second derivative of each parameter including the mel cepstrum c t is used to account for time-varying. By considering the dynamic features, the connection between the sounds during the synthesis of the singing voice becomes smooth. Description of the speech synthesis method using dynamic features is omitted.

続いて、解析したデータを用いて、コンテキスト依存モデルを構築する(ステップS150)。コンテキスト依存モデルの構築は、抽出した各パラメータを用いて、隠れセミマルコフモデルを学習するものであり、概略以下の処理を行なう。上述したように、コンテキスト依存モデルの構築は、基の歌声データに含まれる音素毎に行なうが、音素を単独で扱うのではなく、音声合成において、音声変動を引き起こす多数の要因と共にHMM学習を行なう。合成しようとする音声に音声変動を引き起こする要因としては、例えばその音素の前後の音素の組み合わせ(前後の音素と当該音素の組合せである音素列トライフォンや、更にその前後の音素を考慮したクインフォンなど)や、楽譜情報や言語情報などがある。楽譜情報としては、前後の音素の音程や、休止符の長さなどがある。また言語情報としては、当該音素が属する語の品詞、活用形あるいはアクセントの位置、アクセント型など種々の情報がある。これらの要因をまとめて、コンテキストと呼ぶ。   Subsequently, a context-dependent model is constructed using the analyzed data (step S150). The context-dependent model is constructed by learning a hidden semi-Markov model using each extracted parameter. As described above, the context-dependent model is constructed for each phoneme included in the basic singing voice data. However, instead of handling the phoneme alone, HMM learning is performed together with many factors that cause speech fluctuations in speech synthesis. . Factors that cause speech fluctuations in the speech to be synthesized include, for example, a combination of phonemes before and after the phoneme (a phoneme triphone that is a combination of the phonemes before and after the phoneme and the phonemes before and after the phoneme) Phone), music score information and language information. The musical score information includes the pitches of the front and back phonemes, the length of rests, and the like. The language information includes various information such as the part of speech of the word to which the phoneme belongs, the utilization form or accent position, and the accent type. These factors are collectively referred to as context.

滑らかな音声合成を行なう場合、考慮すべき要因は多数に上るが、学習の手法を概説するために、図5では、コンテキスト付きの音素の一例として上記のトライフォンを示した。図5は、「さっぱりわからない」という歌声を例に、トライフォンを取り出す場合を示す説明図である。「さっぱりわからない」という音声データの中には、音素aは複数回出現するが、同じ音素であっても前後の音素等のコンテキストが異なると音声の音響的特徴が異なる。そのため、当該音素が同じaであっても、前後の音素を考慮したトライフォンとして別々にモデル化する。なお、特定の音素に着目したとき、これに先行あるいは後続する音素が存在しない場合もあることから、その場合は「sil」などの無音を表す音素があるものとする。ハードディスク31に記憶された歌声から、音素を、コンテキストを考慮した状態で順次取り出す。コンテキストが考慮された音素を、以下、コンテキスト依存音素と呼ぶ。数分から数十分の歌声から取り出されるコンテキスト依存音素の数は数百から数万に上る。ハードディスク31から取りだしたコンテキスト依存音素の全てに対して、図2に示した状態遷移確率aijと出力確率密度関数bq(o)を学習する。つまり、コンテキスト依存音素が属するフレーム毎に図4に示したパラメータを抽出し、各コンテキスト依存音素のHMMを学習するのである。 When performing smooth speech synthesis, there are many factors to be considered, but in order to outline the learning method, FIG. 5 shows the above triphone as an example of a phoneme with context. FIG. 5 is an explanatory diagram showing a case where a triphone is taken out, taking as an example a singing voice “I don't know at all”. In the voice data “I don't know at all”, the phoneme a appears a plurality of times, but even if it is the same phoneme, the acoustic characteristics of the voice will be different if the context of the phonemes before and after is different. Therefore, even if the phoneme is the same a, it is separately modeled as a triphone that considers the phonemes before and after. When attention is paid to a specific phoneme, there may be a case where there is no preceding or following phoneme. In this case, it is assumed that there is a phoneme representing silence such as “sil”. Phonemes are sequentially extracted from the singing voice stored in the hard disk 31 in consideration of the context. A phoneme in which context is taken into account is hereinafter referred to as a context-dependent phoneme. The number of context-dependent phonemes taken from minutes to tens of minutes of voices ranges from hundreds to tens of thousands. The state transition probability a ij and the output probability density function b q (o t ) shown in FIG. 2 are learned for all the context-dependent phonemes extracted from the hard disk 31. That is, the parameters shown in FIG. 4 are extracted for each frame to which the context-dependent phoneme belongs, and the HMM of each context-dependent phoneme is learned.

続いて、コンテキスト依存モデルをクラスタリングして、各クラスタ毎に代表的なガウス分布を求める(ステップS160)。具体的には、コンテキスト依存モデルの構築(ステップS150)で構築されたコンテキスト依存モデルを二分木によって分類していく。はじめにコンテキスト依存モデルの構築(ステップS150)で構築された全てのコンテキスト依存モデルを1つのクラスタとする。そのクラスタに対して予め準備されたコンテキストに関する質問のリストから最適な質問を選択し、当該質問を、クラスタ内のコンテキスト依存モデル(実際は状態番号が同じもの)に対して適用することでクラスタを2分割する。そして、分類されたクラスタに対して同様に質問を選択して適用し、更にクラスタを分割する。これを繰り返すことで分類を行う。クラスタリングがなされた決定木の一例を、図6に示した。図6において、太い矢印は、各二分木の分岐条件に対する判断が「YES」である場合を、細い矢印は各二分木における判断が「NO」であることを示している。このように、各クラスタ毎に代表的なガウス分布が求められれば、クラスタリングされたコンテキスト毎に音声合成が可能なモデル(コンテキスト依存モデル)が得られたことになる。換言すれば、クラスタリングは、音声合成に用いるコンテキスト依存モデルを選択するための決定木を構築するために行なう。音声合成の際には、可能であれば、コンテキストが同一のコンテキスト依存モデルを用いることが望ましい。しかし、限られた音声データからは、上述したように、全てのコンテキストの組み合わせに対応するコンテキスト依存音素が得られる訳ではなく、全てのコンテキストの組み合わせに対応したコンテキスト依存モデルを学習できる訳ではない。そこで、クラスタリングにより、決定木を作り、音声合成時に、最も適したコンテキスト依存モデルを選択できるように準備するのである。   Subsequently, the context-dependent model is clustered to obtain a representative Gaussian distribution for each cluster (step S160). Specifically, the context-dependent models constructed in the context-dependent model construction (step S150) are classified by binary trees. First, all the context-dependent models constructed in the construction of the context-dependent model (step S150) are defined as one cluster. Select the best question from the list of context questions prepared for that cluster in advance and apply that question to the context-dependent model in the cluster (actually the same state number) to To divide. A question is selected and applied to the classified clusters in the same manner, and the clusters are further divided. Classification is performed by repeating this. An example of a decision tree subjected to clustering is shown in FIG. In FIG. 6, a thick arrow indicates that the determination for the branch condition of each binary tree is “YES”, and a thin arrow indicates that the determination in each binary tree is “NO”. Thus, if a representative Gaussian distribution is obtained for each cluster, a model (context dependent model) capable of speech synthesis for each clustered context is obtained. In other words, clustering is performed to construct a decision tree for selecting a context-dependent model used for speech synthesis. In speech synthesis, it is desirable to use a context-dependent model with the same context if possible. However, as described above, context-dependent phonemes corresponding to all context combinations cannot be obtained from limited audio data, and context-dependent models corresponding to all context combinations cannot be learned. . Therefore, a decision tree is created by clustering and prepared so that the most suitable context-dependent model can be selected during speech synthesis.

クラスタリングと代表的なガウス分布を求める処理は、統計的に学習された全ての特徴について行なう。この様子を、図7に模式的に示した。1つのコンテキスト依存音素に着目すると、各状態は、状態継続長モデルにより、各状態が継続する長さが与えられる。多数のコンテキスト依存音素からこの状態継続長を決定する二分木が学習されている。これを状態継続長の決定木と呼ぶ。また、コンテキストを考慮したタイミングモデルから、楽譜の時間情報と実際の歌唱タイミングとのずれを決定する二分木が学習されている。これをタイミングの決定木と呼ぶ。同様に、しゃくり上げやしゃくり下げを含むしゃくりモデルからしゃくりの決定木が、アタック・リリースモデルからはアタック・リリースの決定木が学習されている。さらに、解析されたパラメータ毎に、メルケプストラムの決定木、基本周波数の決定木、および、各歌唱表現(音高のビブラート、音の大きさのビブラート等)の決定木などが構成される。   Clustering and a process for obtaining a representative Gaussian distribution are performed for all statistically learned features. This state is schematically shown in FIG. Focusing on one context-dependent phoneme, each state is given a length for which each state continues by a state duration model. A binary tree that determines this state duration is learned from a number of context-dependent phonemes. This is called a state continuation length decision tree. In addition, a binary tree that determines the difference between the time information of the score and the actual singing timing is learned from a timing model that considers the context. This is called a timing decision tree. Similarly, a decision tree of squealing is learned from a squealing model including squealing up and squeezing down, and an attack / release decision tree is learned from an attack / release model. Further, a mel cepstrum decision tree, a fundamental frequency decision tree, and a decision tree for each singing expression (pitch vibrato, sound loudness vibrato, etc.) are constructed for each analyzed parameter.

歌唱表現に関するモデルとその決定木の作り方について、しゃくりを例にして以下簡略に説明する。まずしゃくりのパラメータを無視して音響モデルを作り、これを用いて歌声合成を行なう。合成されたものは、しゃくりを含まない歌声である。そして、しゃくりを含むものとして予め記憶した音声データの基本周波数の系列を、しゃくりを含まない音響モデルから生成した歌声の基本周波数の系列と比較する。両者の差分は、しゃくりの有無であることから、各音符の先頭部分と末尾部分のそれぞれについてしゃくりの「高さ」「長さ」「急峻度」を抽出し、音符単位でコンテキスト依存モデルを作成することができる。そして、抽出したコンテキストを考慮したしゃくりモデルを構築し、コンテキストクラスタリングによりしゃくりの決定木を作る。アタック・リリースについては、ボリュームに関して差分をとる同様の処理を行ない、これからアタック・リリースモデルを構築し、アタック・リリースの決定木をつくる。このようにして、特定の歌唱スタイルの歌声データを基にして、これらの決定木の集合が求められるということが、結局その歌唱スタイルの音響モデルが学習されたことに他ならない。   The model for singing expression and how to make the decision tree will be briefly explained below using sukuri as an example. First, an acoustic model is created ignoring the parameters of squealing, and singing voice synthesis is performed using this model. What is synthesized is a singing voice that does not include sneezing. Then, the basic frequency sequence of the voice data stored in advance as including the screaming is compared with the basic frequency sequence of the singing voice generated from the acoustic model not including the screaming. Since the difference between the two is the presence or absence of squealing, the "height", "length", and "steepness" of squealing are extracted for each of the beginning and end of each note, and a context-dependent model is created for each note. can do. Then, a sneeze model is constructed considering the extracted context, and a sneeze decision tree is created by context clustering. For attack / release, the same processing is performed to obtain a difference with respect to the volume, and an attack / release model is constructed from this, and an attack / release decision tree is created. Thus, the fact that a set of these decision trees is obtained based on the singing voice data of a specific singing style is nothing other than the learning of the acoustic model of that singing style.

このようにして学習された音響モデルは、音響モデル記憶部50に記憶される。以上で、歌声合成のための準備が完了する。本実施形態では、音響モデルの準備から説明したが、予め準備された音響モデルを用いて歌声合成をおこなってもよい。音響モデルの学習は上記の手法に限らず、他の手法によってもよい。予め準備された音響モデルを用いて本実施形態の歌声合成を行う場合、図1のPC1、ハードディスク31、楽譜解析部33、FO抽出部41、SP抽出部43、歌唱P抽出部44、HMM学習部45については省略してもよい。   The acoustic model learned in this way is stored in the acoustic model storage unit 50. This completes the preparation for singing voice synthesis. Although the present embodiment has been described from the preparation of the acoustic model, singing voice synthesis may be performed using an acoustic model prepared in advance. The learning of the acoustic model is not limited to the above method, and other methods may be used. When performing the singing voice synthesis of this embodiment using an acoustic model prepared in advance, the PC 1, the hard disk 31, the score analysis unit 33, the FO extraction unit 41, the SP extraction unit 43, the singing P extraction unit 44, and the HMM learning in FIG. The part 45 may be omitted.

上述した歌声合成準備ルーチン(図3)が実行されると、サーバ30の音響モデル記憶部50には音響モデルが記憶された状態となる。歌声合成は、この音響モデルを用い、サーバ30とコンピュータPC2とを用いて行なう。サーバ30には、パラメータ取得部55、パラメータ提示部56、楽譜解析部57、音声合成部60が設けられている。パラメータ取得部55とパラメータ提示部56とは、使用者による音響パラメータの調整を可能とするために設けられている。詳細は後述する。楽譜解析部57は、合成しようする歌声を表した楽譜を解析して、合成すべき音素列(有声音の音程と音素の組み合わせ)を出力する。音声合成部60は、パラメータ取得部55と楽譜解析部57との出力を受けて音声の合成を行なう。   When the above-described singing voice synthesis preparation routine (FIG. 3) is executed, the acoustic model storage unit 50 of the server 30 is in a state where the acoustic model is stored. Singing voice synthesis is performed by using the acoustic model and the server 30 and the computer PC2. The server 30 includes a parameter acquisition unit 55, a parameter presentation unit 56, a score analysis unit 57, and a speech synthesis unit 60. The parameter acquisition unit 55 and the parameter presentation unit 56 are provided to enable the user to adjust the acoustic parameters. Details will be described later. The score analysis unit 57 analyzes a score representing a singing voice to be synthesized and outputs a phoneme string (combination of voiced pitch and phoneme) to be synthesized. The speech synthesizer 60 receives the outputs from the parameter acquisition unit 55 and the score analysis unit 57 and synthesizes speech.

音声合成部60は、パラメータ生成部61、音源生成部63、合成フィルタ65等を備える。パラメータ生成部61は、楽譜解析部57の出力を受け取り、学習済みの音響モデルから、基本周波数やメルケプストラムパラメータ、歌唱表現パラメータなどの各種の音響パラメータを生成する。音源生成部63は、基本周波数、音高のビブラート、しゃくり、こぶしなどの音高に関与するパラメータを受け取って、励振源パラメータを時間軸に沿って生成する。また、合成フィルタ65は、主にメルケプストラムにより音声を合成するフィルタである。こうしたフィルタとしては、例えばMLSAフィルタなどが知られている。歌唱表現パラメータのうち、音源生成部63での音源生成に関与しないパラメータは、メルケプストラムの一部として、合成フィルタ65に入力される。   The voice synthesis unit 60 includes a parameter generation unit 61, a sound source generation unit 63, a synthesis filter 65, and the like. The parameter generation unit 61 receives the output of the score analysis unit 57 and generates various acoustic parameters such as a fundamental frequency, a mel cepstrum parameter, and a song expression parameter from the learned acoustic model. The sound source generation unit 63 receives parameters related to the pitch, such as the fundamental frequency, pitch vibrato, shackle, and fist, and generates the excitation source parameter along the time axis. The synthesizing filter 65 is a filter that synthesizes speech mainly by a mel cepstrum. As such a filter, for example, an MLSA filter is known. Of the singing expression parameters, parameters not involved in sound source generation by the sound source generation unit 63 are input to the synthesis filter 65 as part of the mel cepstrum.

A−3.歌声合成ルーチン:
図8は、歌声合成ルーチンの手順を示すフローチャートである。歌声合成ルーチンは、音響モデル記憶部50に記憶されている音響モデルを用いて歌声を合成する処理である。歌声合成ルーチンは使用者の指示を契機として開始され、サーバ30とコンピュータPC2とが協働することにより実行される。
A-3. Singing voice synthesis routine:
FIG. 8 is a flowchart showing the procedure of the singing voice synthesis routine. The singing voice synthesis routine is a process for synthesizing a singing voice using the acoustic model stored in the acoustic model storage unit 50. The singing voice synthesis routine is started in response to a user instruction, and is executed by the cooperation of the server 30 and the computer PC2.

まず、サーバ30は、入力された楽譜を解析する(ステップS210)。使用者は、歌声を合成しようとする歌の楽譜をコンピュータPC2から入力する。具体的には、例えば、ピアノロール画面をコンピュータPC2の表示部53に表示させる。使用者は、ポインティングデバイス52を用いてピアノロール画面の所定部分をなぞることによって、音符および音の長さ(即ちメロディライン)を入力する。また、使用者は、キーボード51を用いてピアノロール画面に入力した音符に対して文字列を割り当てることで、各音符に対応した歌詞を入力する。なお、メロディラインの入力は、鍵盤タイプのキーボードを用いて行われてもよい。また、楽譜の入力は、所定形式の楽譜ファイルを読み込むことによって代替されてもよい。サーバ30は、このようにして入力された楽譜を取得し、取得した楽譜を楽譜解析部57により解析する。楽譜解析部57での解析によって、入力された楽譜に対応したコンテキスト依存音素列のデータ(図2)が生成される。なお、生成された音素列のデータには、音の高さの情報が含まれている。   First, the server 30 analyzes the input score (step S210). The user inputs the musical score of the song to be synthesized from the computer PC2. Specifically, for example, a piano roll screen is displayed on the display unit 53 of the computer PC2. The user inputs a note and a sound length (that is, a melody line) by tracing a predetermined portion of the piano roll screen using the pointing device 52. In addition, the user inputs lyrics corresponding to each note by assigning a character string to the note input on the piano roll screen using the keyboard 51. The melody line may be input using a keyboard type keyboard. The score input may be replaced by reading a score file in a predetermined format. The server 30 acquires the score inputted in this way, and the score analysis unit 57 analyzes the acquired score. By the analysis by the score analysis unit 57, context-dependent phoneme string data (FIG. 2) corresponding to the input score is generated. The generated phoneme string data includes pitch information.

次に、サーバ30は、構成パラメータ系列を生成する(ステップS220)。構成パラメータ系列の生成は、具体的には例えば、以下の手順a1〜a4によって実施できる。   Next, the server 30 generates a configuration parameter series (step S220). Specifically, the generation of the configuration parameter series can be performed by the following procedures a1 to a4, for example.

(a1)パラメータ生成部61は、音響モデル記憶部50に記憶されている音響モデルの中から、ステップS210で得られた各音素列に対応した音響モデルをそれぞれ取得する。
(a2)パラメータ生成部61は、手順a1で取得した音響モデルのうちの状態継続長モデルに従って、時間軸上における各音素の境界(すなわち各音素の区切り)を設定する。パラメータ生成部61は、手順a1で取得した音響モデルのうちのタイミングモデルに従って、時間軸上において設定した各音素の境界を前後に修正する。
(a3)パラメータ生成部61は、手順a1で取得した音響モデルに含まれる各種の音響パラメータ(図4)が格納されたフレームを、時間軸上に配置する。即ち「フレーム」とは、単位時間における各種の音響パラメータの集合を意味する。なお、パラメータ生成部61は、時間軸上にフレームを配置する際、手順a2で設定した各音素の境界に従う。
(A1) The parameter generation unit 61 acquires an acoustic model corresponding to each phoneme sequence obtained in step S210 from the acoustic models stored in the acoustic model storage unit 50.
(A2) The parameter generation unit 61 sets the boundary of each phoneme on the time axis (that is, the separation of each phoneme) according to the state duration model among the acoustic models acquired in step a1. The parameter generation unit 61 corrects the boundaries of each phoneme set on the time axis back and forth according to the timing model of the acoustic models acquired in step a1.
(A3) The parameter generation unit 61 arranges a frame storing various acoustic parameters (FIG. 4) included in the acoustic model acquired in the procedure a1 on the time axis. That is, “frame” means a set of various acoustic parameters per unit time. Note that the parameter generator 61 follows the boundary of each phoneme set in step a2 when arranging the frame on the time axis.

(a4)パラメータ生成部61は、構成パラメータ系列を生成する。具体的には、パラメータ生成部61は、手順a3で配置されたフレームに含まれる音響パラメータの1つ(例えば、基本周波数)について、動的特徴量を考慮して音素間におけるパラメータ値の変化を滑らかにしたパラメータ系列を生成する。即ち「パラメータ系列」とは、時間軸上におけるパラメータ値の変化を表す情報である。音声パラメータ生成部61は、手順a3で配置されたフレームに含まれる音響パラメータの全てに対して上述の処理を繰り返すことにより、音響パラメータの全てにそれぞれ対応するパラメータ系列をそれぞれ生成する。これにより、スペクトルパラメータ系列、基本周波数のパラメータ系列、歌唱表現パラメータのパラメータ系列などが生成される。歌唱表現パラメータのパラメータ系列には、例えば、音高のビブラートのパラメータ系列、音の大きさのビブラートのパラメータ系列、しゃくりのパラメータ系列、こぶしのパラメータ系列、アタック・リリースのパラメータ系列などが含まれる。以降、音響パラメータについてのパラメータ系列の集合を「構成パラメータ系列」とも呼ぶ。構成パラメータ系列は、「第1のパラメータ系列」として機能する。 (A4) The parameter generation unit 61 generates a configuration parameter series. Specifically, the parameter generation unit 61 changes the parameter value between phonemes in consideration of the dynamic feature amount for one of the acoustic parameters (for example, the fundamental frequency) included in the frame arranged in step a3. Generate a smoothed parameter series. In other words, the “parameter series” is information representing changes in parameter values on the time axis. The audio parameter generation unit 61 generates the parameter series respectively corresponding to all of the acoustic parameters by repeating the above-described processing for all of the acoustic parameters included in the frame arranged in the procedure a3. Thus, a spectrum parameter series, a fundamental frequency parameter series, a singing expression parameter series, and the like are generated. The parameter series of singing expression parameters includes, for example, a pitch vibrato parameter series, a sound loudness vibrato parameter series, a shawl parameter series, a fist parameter series, an attack release parameter series, and the like. Hereinafter, a set of parameter series for acoustic parameters is also referred to as a “configuration parameter series”. The configuration parameter series functions as a “first parameter series”.

次に、サーバ30は、構成パラメータ系列から、音高のパラメータ系列と、音の大きさのパラメータ系列とを生成する(ステップS230)。具体的には、パラメータ生成部61は、構成パラメータ系列のうち、音高に関係するパラメータ(例えば、基本周波数、音高のビブラート、しゃくり、こぶしなど)のパラメータ系列を加算することで、音高のパラメータ系列を生成する。また、パラメータ生成部61は、構成パラメータ系列のうち、音の大きさに関係するパラメータ(例えば、スペクトルパラメータ、音の大きさのビブラート、アタック・リリースなど)のパラメータ系列を加算することで、音の大きさのパラメータ系列を生成する。即ち、音高のパラメータ系列と音の大きさのパラメータ系列とは、構成パラメータ系列の各要素を加算することにより得られるパラメータ系列である。このため、音高のパラメータ系列と音の大きさのパラメータ系列とを総称して「加算パラメータ系列」とも呼ぶ。加算パラメータ系列は、「第2のパラメータ系列」として機能する。なお、ステップS230の「加算」には、列挙した各パラメータを単純に加算することと、列挙した各パラメータを対数領域で加算することとの両方を含む。   Next, the server 30 generates a pitch parameter series and a loudness parameter series from the constituent parameter series (step S230). Specifically, the parameter generation unit 61 adds the parameter series of the parameters related to the pitch (for example, fundamental frequency, pitch vibrato, shackle, fist, etc.) among the constituent parameter series, thereby adding the pitch. The parameter series of is generated. In addition, the parameter generation unit 61 adds the parameter series of the parameters related to the sound volume (for example, spectrum parameter, sound volume vibrato, attack / release, etc.) among the constituent parameter series, thereby generating the sound. A parameter series of the size of is generated. That is, the pitch parameter series and the loudness parameter series are parameter series obtained by adding the elements of the constituent parameter series. Therefore, the pitch parameter series and the loudness parameter series are collectively referred to as “addition parameter series”. The addition parameter series functions as a “second parameter series”. Note that “addition” in step S230 includes both simply adding each listed parameter and adding each listed parameter in a logarithmic domain.

図9は、編集画面の一例を示す図である。図9ではピアノロールの図示を省略している。歌声合成ルーチン(図8)においてサーバ30のパラメータ提示部56は、生成した各パラメータ系列を表した画面W1を生成し、コンピュータPC2の表示部53に表示させる(ステップS240)。   FIG. 9 is a diagram illustrating an example of the editing screen. In FIG. 9, the illustration of the piano roll is omitted. In the singing voice synthesis routine (FIG. 8), the parameter presentation unit 56 of the server 30 generates a screen W1 representing each generated parameter series and displays it on the display unit 53 of the computer PC2 (step S240).

図9に示す本実施形態では、画面W1は、加算パラメータ系列の編集に適した画面として構成されている。画面W1には、ツールバーTBと、2つのメインタブMT1、MT2と、メインウィンドウMWと、4つのサブタブST1〜ST4と、サブウィンドウSWと、が含まれている。   In the present embodiment shown in FIG. 9, the screen W1 is configured as a screen suitable for editing the addition parameter series. The screen W1 includes a toolbar TB, two main tabs MT1 and MT2, a main window MW, four sub tabs ST1 to ST4, and a sub window SW.

ツールバーTBには、各パラメータ系列を編集操作するために使用される種々のツールと、画面W1を操作するために使用される種々のツール(またはボタン)とが含まれている。例えば、図9の例では、ペンツールT1と、消しゴムツールT2と、選択ツールT3と、編集終了ボタンTnとが含まれている。ペンツールT1は、ポインティングデバイス52のドラッグによって各パラメータ系列の形状を描画するためのツールである。消しゴムツールT2は、描画内容を取り消すためツールである。選択ツールT3は、パラメータ系列の中の任意の点(または範囲)を選択するためのツールである。編集終了ボタンTnは、編集作業を終了し、画面W1に表示されている各パラメータ系列を用いた歌声の合成をサーバ30に指示するためのボタンである。なお、ツールバーTBには、例示以外の様々なツール(ボタン)が含まれ得る。   The tool bar TB includes various tools used for editing each parameter series and various tools (or buttons) used for operating the screen W1. For example, in the example of FIG. 9, a pen tool T1, an eraser tool T2, a selection tool T3, and an edit end button Tn are included. The pen tool T1 is a tool for drawing the shape of each parameter series by dragging the pointing device 52. The eraser tool T2 is a tool for canceling the drawing contents. The selection tool T3 is a tool for selecting an arbitrary point (or range) in the parameter series. The editing end button Tn is a button for instructing the server 30 to finish the editing operation and synthesize a singing voice using each parameter series displayed on the screen W1. The tool bar TB can include various tools (buttons) other than those illustrated.

メインタブMT1、MT2は、メインウィンドウMWに表示させる加算パラメータ系列を指定するために使用される。例えば、図9の例では、メインタブMT1には音高(ピッチ)、メインタブMT2には音の大きさ(ボリューム)が、それぞれ割り当てられている。   The main tabs MT1 and MT2 are used for designating an addition parameter series to be displayed on the main window MW. For example, in the example of FIG. 9, a pitch (pitch) is assigned to the main tab MT1, and a loudness (volume) is assigned to the main tab MT2.

メインウィンドウMWは、メインタブMT1、MT2によって選択されている加算パラメータ系列を表示するために使用される。図9の例では、メインタブMT1(音高(ピッチ))が選択された場合、メインウィンドウMWには音高のパラメータ系列が表示される。また、メインタブMT2(音の大きさ(ボリューム))が選択された場合、メインウィンドウMWには音の大きさのパラメータ系列が表示される。音高のパラメータ系列と、音の大きさのパラメータ系列とは、いずれも、ステップS230で生成されたものを使用できる。また、いずれの場合においても、メインウィンドウMWのパラメータ系列の背後には、楽譜のメロディラインと歌詞とを表すピアノロール画面が表示される。メロディラインと歌詞とは、ステップS210で取得したものを使用できる。   The main window MW is used to display the addition parameter series selected by the main tabs MT1 and MT2. In the example of FIG. 9, when the main tab MT1 (pitch (pitch)) is selected, a pitch parameter series is displayed in the main window MW. When the main tab MT2 (sound volume (volume)) is selected, a sound volume parameter series is displayed in the main window MW. As the pitch parameter series and the loudness parameter series, the one generated in step S230 can be used. In either case, a piano roll screen showing the melody line and lyrics of the score is displayed behind the parameter series in the main window MW. As the melody line and the lyrics, those acquired in step S210 can be used.

メインウィンドウMWに表示されているパラメータ系列におけるパラメータ値は、ツールバーTBにおいて選択されているツールでの編集方法(例えば、描画、削除など)に従って、キーボード51やポインティングデバイス52を使用して変更することができる。   The parameter value in the parameter series displayed on the main window MW is changed using the keyboard 51 or the pointing device 52 according to the editing method (for example, drawing, deleting, etc.) with the tool selected on the toolbar TB. Can do.

サブタブST1〜ST4は、サブウィンドウSWに表示させる構成パラメータ系列を指定するために使用される。例えば、図9の例では、サブタブST1には音高の基本データ(図9:基本)、サブタブST2にはビブラートの周期(図9:Vf)、サブタブST3にはビブラートの振幅(図9:Va)、サブタブST4にはしゃくり(S)が、それぞれ割り当てられている。なお、各サブタブに表示される項目、および、全サブタブの個数は、メインタブMT1、MT2において選択されている項目によって変動する。例えば、メインタブMT2(音の大きさ(ボリューム))が選択された場合、サブタブST1には音の大きさの基本データ、サブタブST2には音の大きさのビブラートの周期、サブタブST3には音の大きさのビブラートの振幅、サブタブST4にはアタック・リリースが、それぞれ割り当てられる。   The sub tabs ST1 to ST4 are used for designating a configuration parameter series to be displayed on the sub window SW. For example, in the example of FIG. 9, subtab ST1 has basic pitch data (FIG. 9: basic), subtab ST2 has a vibrato period (FIG. 9: Vf), and subtab ST3 has a vibrato amplitude (FIG. 9: Va). ) And scissors (S) are respectively assigned to the subtabs ST4. Note that the items displayed on each sub tab and the number of all sub tabs vary depending on the item selected in the main tabs MT1 and MT2. For example, when the main tab MT2 (sound volume (volume)) is selected, the subtab ST1 has basic sound volume data, the subtab ST2 has a sound volume vibrato period, and the subtab ST3 has a sound volume. An attack / release is assigned to each of the amplitudes of the vibrato and the sub tab ST4.

サブウィンドウSWは、サブタブST1〜ST4によって選択されている構成パラメータ系列を表示するために使用される。図9に示す本実施形態の例では、サブタブST1において基本データ(基本)が選択された場合、サブウィンドウSWには音高基本データのパラメータ系列が表示される。基本データとは、ビブラート等の歌唱表現を加えていない音高(ピッチ)を意味する。同様に、サブタブST2においてビブラートの周期(Vf)が選択された場合、サブウィンドウSWには音高のビブラートの周期のパラメータ系列が、サブタブST3においてビブラートの振幅(Va)が選択された場合、サブウィンドウSWには音高のビブラートの振幅のパラメータ系列が、サブタブST4においてしゃくり(S)が選択され場合、サブウィンドウSWにはしゃくりのパラメータが、それぞれ表示される。上述した各パラメータ系列は、いずれも、ステップS220で生成されたものを使用できる。なお、ボリュームのパラメータ系列は、スペクトルパラメータの一部としてモデル化されることが多く、スペクトルパラメータ系列(ステップS220)から取得することができる。   The sub window SW is used to display the configuration parameter series selected by the sub tabs ST1 to ST4. In the example of this embodiment shown in FIG. 9, when basic data (basic) is selected in the sub tab ST1, a parameter series of pitch basic data is displayed in the sub window SW. Basic data means a pitch (pitch) to which no singing expression such as vibrato is added. Similarly, when the vibrato period (Vf) is selected in the sub-tab ST2, the sub-window SW has a pitch vibrato period parameter series, and the sub-tab ST3 has the vibrato amplitude (Va) selected. Is the parameter series of the amplitude of the vibrato of the pitch, and when the chatter (S) is selected in the subtab ST4, the parameters of the chatter are displayed in the subwindow SW. Each of the parameter series described above can use the one generated in step S220. Note that the volume parameter series is often modeled as part of the spectral parameters, and can be obtained from the spectral parameter series (step S220).

図9に示す本実施形態の例では、サブウィンドウSWに表示されているパラメータ系列は、表示のみに使用され、変更できない。   In the example of this embodiment shown in FIG. 9, the parameter series displayed in the subwindow SW is used only for display and cannot be changed.

メインウィンドウMWとサブウィンドウSWは、それぞれ、横軸が時間軸上の前後方向を表しており、両者の時間単位は同一とされている。また、メインウィンドウMWおよびサブウィンドウSWの縦軸は、ウィンドウに表示されるパラメータ系列によって変化する。例えば、音高を表示するウィンドウである場合、縦軸は音の高さ(例えば対数Hz)となり、音の大きさを表示するウィンドウである場合、縦軸は音の大きさ(例えばdb)となる。   In the main window MW and the sub window SW, the horizontal axis represents the front-rear direction on the time axis, and the time units of both are the same. In addition, the vertical axes of the main window MW and the subwindow SW change depending on the parameter series displayed in the window. For example, in the case of a window that displays the pitch, the vertical axis is the pitch of the sound (for example, logarithmic Hz), and in the case of the window that displays the volume of the sound, the vertical axis is the volume of the sound (for example, db). Become.

図10は、パラメータ系列の編集方法の第1の例を示す図である。図10ではピアノロールの図示を省略している。上述の通り、使用者は、メインウィンドウMWに表示されているパラメータ系列(図10の例では、音高のパラメータ系列P1)を、コンピュータPC2の入力デバイスを用いて編集することができる。例えば、図10において(1)を付した矢印で表すように、使用者は、ペンツールT1を選択後、ポインティングデバイス52のドラッグ操作によって所望の軌跡を描くことで、音高のパラメータ系列P1中の各値を上昇、下降、時間を前後に移動することができる。   FIG. 10 is a diagram illustrating a first example of a parameter series editing method. In FIG. 10, the illustration of the piano roll is omitted. As described above, the user can edit the parameter series (pitch parameter series P1 in the example of FIG. 10) displayed in the main window MW using the input device of the computer PC2. For example, as shown by an arrow with (1) in FIG. 10, the user selects a pen tool T1 and then draws a desired trajectory by a drag operation of the pointing device 52. Each value can be moved up, down, and time back and forth.

歌声合成ルーチン(図8)においてサーバ30は、編集が終了したか否かを判定する(ステップS250)。具体的には、サーバ30は、画面W1の編集終了ボタンTnの押下を取得した場合に、編集が終了したと判定する。編集が終了した場合(ステップS250:YES)、サーバ30は処理をステップS280に遷移させる。詳細は後述する。   In the singing voice synthesis routine (FIG. 8), the server 30 determines whether or not the editing has been completed (step S250). Specifically, the server 30 determines that the editing has been completed when the pressing of the editing end button Tn on the screen W1 is acquired. When editing is completed (step S250: YES), the server 30 shifts the process to step S280. Details will be described later.

編集が終了していない場合(ステップS250:NO)、即ち編集終了ボタンTnの押下を検出していない場合、サーバ30は処理をステップS260に遷移させる。サーバ30のパラメータ取得部55は、画面W1のメインウィンドウMWにおいて行われた編集内容を取得する(ステップS260)。編集内容は、例えば、元のパラメータ系列からの変化量により特定できる。   If the editing has not ended (step S250: NO), that is, if the pressing of the editing end button Tn has not been detected, the server 30 shifts the process to step S260. The parameter acquisition unit 55 of the server 30 acquires the editing content performed in the main window MW of the screen W1 (step S260). The editing content can be specified by, for example, the amount of change from the original parameter series.

次に、サーバ30のパラメータ生成部61は、ステップS260により取得した編集内容(具体的には、元のパラメータ系列からの変化量)に従って、構成パラメータ系列を変更する(ステップS270)。その後、処理はステップS230に遷移される。この結果、変更後の構成パラメータ系列に基づいて、加算パラメータ系列が再生成され(ステップS230)、再生成された加算パラメータ系列が画面W1のメインウィンドウMWに表示されると共に、再生成された構成パラメータ系列が画面W1のサブウィンドウSWに表示される(ステップS240)。なお、ステップS240では、初回にステップS240を実施した際に表示した加算パラメータ系列および構成パラメータ系列の軌跡(即ちデフォルト値による各パラメータ系列の軌跡)を破線表記、色を変更した表記等により残しておくことが好ましい。   Next, the parameter generation unit 61 of the server 30 changes the configuration parameter series in accordance with the editing content acquired in step S260 (specifically, the amount of change from the original parameter series) (step S270). Thereafter, the process proceeds to step S230. As a result, the addition parameter series is regenerated based on the changed configuration parameter series (step S230), and the regenerated addition parameter series is displayed on the main window MW of the screen W1 and the regenerated configuration is displayed. The parameter series is displayed on the subwindow SW of the screen W1 (step S240). In step S240, the trajectory of the addition parameter series and the constituent parameter series (that is, the trajectory of each parameter series based on the default value) displayed when step S240 is executed for the first time is left in broken line notation, color changed notation, or the like. It is preferable to keep it.

この処理を図10の具体例に沿って説明する。使用者が音高のパラメータ系列P1に対する編集(図10:(1)を付した矢印)を施した後、パラメータ取得部55によって、音高のパラメータ系列P1に対する編集内容が取得される(ステップS260)。その後、パラメータ生成部61によって、編集内容に従った構成パラメータ系列の変更が行われる(ステップS270)。この際、ステップS270では、少なくとも音高に関する全ての構成パラメータ系列(基本データ、音高のビブラートの周期、音高のビブラートの振幅、しゃくり、こぶし)の中から、編集内容に応じた少なくとも一部の構成パラメータ系列の各値が変更される。さらに、変更後の構成パラメータ系列に基づいて、音高のパラメータ系列P1が再生成される。最後に、再生成された音高のパラメータ系列P1が画面W1のメインウィンドウMWに表示されると共に、再生成された構成パラメータ系列のうち、サブタブにおいて選択されている基本データのパラメータ系列P11が、画面W1のサブウィンドウSWに表示される(ステップS240)。このようにして、図10において(2)を付した矢印で表すように、音高のパラメータ系列P1に対する編集内容が、基本データのパラメータ系列P11に反映される。   This process will be described with reference to a specific example of FIG. After the user has edited the pitch parameter series P1 (FIG. 10: arrow with (1)), the parameter acquisition unit 55 acquires the edited content for the pitch parameter series P1 (step S260). ). Thereafter, the parameter generation unit 61 changes the configuration parameter series according to the edited content (step S270). At this time, in step S270, at least a part corresponding to the edited content is selected from at least all the constituent parameter series related to the pitch (basic data, pitch vibrato period, pitch vibrato amplitude, squeak, fist). Each value of the configuration parameter series is changed. Further, the pitch parameter series P1 is regenerated based on the changed configuration parameter series. Finally, the regenerated pitch parameter series P1 is displayed in the main window MW of the screen W1, and among the regenerated constituent parameter series, the parameter series P11 of the basic data selected in the sub tab is It is displayed on the subwindow SW of the screen W1 (step S240). In this way, as indicated by the arrow with (2) in FIG. 10, the edited content of the pitch parameter series P1 is reflected in the parameter series P11 of the basic data.

以上のように、歌声合成ルーチン(図8)において、加算パラメータ系列の生成(ステップS230)と、表示(ステップS240)と、編集内容の取得(ステップS260)と、編集内容の反映(ステップS270)とを繰り返すことによって、コンピュータPC2上の画面W1では、メインウィンドウMWに表示されているパラメータ系列(図9および図10の例では、音高のパラメータ系列P1)に対する編集内容が、サブウィンドウSWに表示されているパラメータ系列(図9および図10の例では、基本データのパラメータ系列P11)に対して、リアルタイムに反映される。   As described above, in the singing voice synthesis routine (FIG. 8), the generation of the addition parameter series (step S230), display (step S240), acquisition of the edited content (step S260), and reflection of the edited content (step S270). By repeating the above, on the screen W1 on the computer PC2, the edited content for the parameter series (pitch parameter series P1 in the examples of FIGS. 9 and 10) displayed in the main window MW is displayed in the subwindow SW. The reflected parameter series (in the example of FIGS. 9 and 10, the basic data parameter series P11) is reflected in real time.

歌声合成ルーチン(図8)において編集が終了した場合(ステップS250:YES)、サーバ30は、歌声を合成し、出力する(ステップS280)。具体的には、まず、サーバ30のパラメータ取得部55は、画面W1における最新の構成パラメータ系列および加算パラメータ系列を取得する。次にパラメータ生成部61は、取得された各パラメータ系列を用いて、音源生成部63と合成フィルタ65との設定を行う。その後、歌声処理装置100は、音源生成部63と合成フィルタ65とに設定された各パラメータ系列を用いて合成された歌声を、スピーカ70に出力する。この結果、スピーカ70からは、画面W1に表示されている各パラメータ系列を用いて合成された歌声が再生される。図8の例では、この後処理を終了させるが、使用者は、スピーカ70から再生された歌声が望んだものではない場合などに、処理をステップS230に遷移させて編集操作を継続してもよい。   When editing is completed in the singing voice synthesis routine (FIG. 8) (step S250: YES), the server 30 synthesizes and outputs the singing voice (step S280). Specifically, first, the parameter acquisition unit 55 of the server 30 acquires the latest configuration parameter series and addition parameter series on the screen W1. Next, the parameter generation unit 61 sets the sound source generation unit 63 and the synthesis filter 65 using the acquired parameter series. Thereafter, the singing voice processing apparatus 100 outputs the singing voice synthesized using the parameter series set in the sound source generation unit 63 and the synthesis filter 65 to the speaker 70. As a result, the singing voice synthesized using each parameter series displayed on the screen W1 is reproduced from the speaker 70. In the example of FIG. 8, the post-processing is ended. However, when the user does not desire the singing voice reproduced from the speaker 70, the user can continue the editing operation by changing the processing to step S <b> 230. Good.

図11は、パラメータ系列の編集方法の第2の例を示す図である。図11ではピアノロールの図示を省略している。図11において(1)を付した矢印で示すように、使用者は、選択ツールT3を選択後、ポインティングデバイス52のドラッグ操作によって加算パラメータ系列(図の例では、音高のパラメータ系列)中の任意の範囲を選択する。その後、使用者は、選択範囲内の任意の部分を左右にドラッグする。これにより使用者は、加算パラメータ系列の周期を変更することができる。また、この編集内容は、上述の処理により構成パラメータ系列にも反映され、構成パラメータ系列(図の例では、音高のビブラートの周期のパラメータ系列)も変更される。   FIG. 11 is a diagram illustrating a second example of a parameter series editing method. In FIG. 11, the illustration of the piano roll is omitted. As shown by the arrow with (1) in FIG. 11, after the user selects the selection tool T3, the user can drag the pointing device 52 in the addition parameter series (pitch parameter series in the example in the figure). Select any range. Thereafter, the user drags an arbitrary portion within the selection range left and right. Thereby, the user can change the cycle of the addition parameter series. The edited content is also reflected in the configuration parameter series by the above-described processing, and the configuration parameter series (the parameter series of the pitch vibrato period in the example in the figure) is also changed.

図12は、パラメータ系列の編集方法の第3の例を示す図である。図12ではピアノロールの図示を省略している。図12において(1)を付した矢印で示すように、使用者は、選択ツールT3を選択後、ポインティングデバイス52のドラッグ操作によって加算パラメータ系列(図の例では、音高のパラメータ系列)中の任意の範囲を選択する。その後、使用者は、選択範囲内の任意の部分を上下にドラッグする。これにより使用者は、加算パラメータ系列の振幅を変更することができる。また、この編集内容は、上述の処理により構成パラメータ系列にも反映され、構成パラメータ系列(図の例では、音高のビブラートの振幅のパラメータ系列)も変更される。   FIG. 12 is a diagram illustrating a third example of the parameter series editing method. In FIG. 12, the illustration of the piano roll is omitted. As shown by the arrow with (1) in FIG. 12, the user selects the selection tool T3 and then drags the pointing device 52 in the addition parameter series (pitch parameter series in the example in the figure). Select any range. Thereafter, the user drags an arbitrary part within the selection range up and down. As a result, the user can change the amplitude of the addition parameter series. The edited content is also reflected in the constituent parameter series by the above-described processing, and the constituent parameter series (the parameter series of the pitch vibrato amplitude in the example in the figure) is also changed.

図13は、パラメータ系列の編集方法の第4の例を示す図である。図13ではピアノロールの図示を省略している。図13において(1)を付した矢印で示すように、使用者は、選択ツールT3を選択後、ポインティングデバイス52のクリック操作によって加算パラメータ系列(図の例では、音高のパラメータ系列)中の任意の点を選択する。その後、使用者は、選択した点を左右にドラッグする。これにより使用者は、加算パラメータ系列の周期を変更することができる。また、この編集内容は、上述の処理により構成パラメータ系列にも反映され、構成パラメータ系列(図の例では、音高のビブラートの振幅のパラメータ系列)も変更される。   FIG. 13 is a diagram illustrating a fourth example of the parameter series editing method. In FIG. 13, the illustration of the piano roll is omitted. As shown by the arrow with (1) in FIG. 13, the user selects the selection tool T3 and then clicks on the pointing device 52, and then in the added parameter series (pitch parameter series in the example in the figure). Select an arbitrary point. Thereafter, the user drags the selected point left and right. Thereby, the user can change the cycle of the addition parameter series. The edited content is also reflected in the constituent parameter series by the above-described processing, and the constituent parameter series (the parameter series of the pitch vibrato amplitude in the example in the figure) is also changed.

図14は、パラメータ系列の編集方法の第5の例を示す図である。本実施形態の例では、音高のパラメータ系列を構成する「しゃくり」のパラメータ系列は、上述の通り音符単位でモデル化されている。このため、サブタブST4(しゃくり)が選択されている場合、サブウィンドウSWには、図示のように、各音符について、当該音符の先頭に対応した高さ、長さ、急峻度の各値と、当該音符の末尾に対応した高さ、長さ、急峻度の各値とが、それぞれ表示される。これらの点は、音の大きさのパラメータ系列を構成する「アタック・リリース」も同様である。   FIG. 14 is a diagram illustrating a fifth example of the parameter series editing method. In the example of the present embodiment, the parameter sequence of “shearing” constituting the pitch parameter sequence is modeled in note units as described above. For this reason, when the sub tab ST4 (shaking) is selected, as shown in the figure, the sub window SW displays, for each note, the height, length, and steepness values corresponding to the beginning of the note, The height, length, and steepness values corresponding to the end of the note are displayed. The same applies to the “attack release” that constitutes the parameter series of sound volume.

使用者は、選択ツールT3を選択後、ポインティングデバイス52のクリック操作によって、加算パラメータ系列中の、編集を所望する音符に対応した任意の点を選択する。その後、使用者は、選択した点を上下方向(図14:D1方向)にドラッグすることによって、当該音符に割り当てられている高さを変更することができる。同様に、使用者は、選択した点を左右方向(図14:D2方向)にドラッグすることによって、当該音符に割り当てられている長さを変更することができ、選択した点を斜め方向(図14:D3方向)にドラッグすることによって、当該音符に割り当てられている急峻度を変更することができる。また、この編集内容は、上述の処理により構成パラメータ系列にも反映され、構成パラメータ(図の例では、対応する音符のしゃくりのパラメータ)における各値も変更される。   After selecting the selection tool T3, the user selects an arbitrary point corresponding to the note desired to be edited in the addition parameter series by clicking the pointing device 52. Thereafter, the user can change the height assigned to the note by dragging the selected point in the vertical direction (FIG. 14: D1 direction). Similarly, the user can change the length assigned to the note by dragging the selected point in the left-right direction (FIG. 14: D2 direction). 14: D3 direction), the steepness assigned to the note can be changed. The edited content is also reflected in the configuration parameter series by the above-described processing, and each value in the configuration parameter (corresponding note scoring parameter in the example in the figure) is also changed.

なお、ツールバーTBを選択する操作に代えて、キーボード51に予め割り当てられている所定のキーを押下する操作を採用してもよい。この場合、例えば、キーを押下しないで行うポインティングデバイス52の操作を選択ツールT3による操作、Ctrlキーを押下しつつ行うポインティングデバイス52の操作をペンツールT1による操作、Altキーを押下しつつ行うポインティングデバイス52の操作を消しゴムツールT2による操作、等と使い分けることができ、操作性を向上させることができる。また、サブタブST1〜ST4を選択する操作を、キーボード51に予め割り当てられている所定のキーを押下する操作で実現してもよい。この場合、例えば、F1キー押下によりサブタブST1を選択、F2キー押下によりサブタブST2を選択等としてもよい。   Instead of the operation of selecting the toolbar TB, an operation of pressing a predetermined key assigned in advance to the keyboard 51 may be employed. In this case, for example, the pointing device 52 that is operated without pressing the key is operated by the selection tool T3, the pointing device 52 that is operated while the Ctrl key is pressed is operated by the pen tool T1, and the pointing device that is pressed while the Alt key is pressed. The operation 52 can be properly used with the eraser tool T2, etc., and the operability can be improved. Further, the operation of selecting the sub tabs ST1 to ST4 may be realized by an operation of pressing a predetermined key previously assigned to the keyboard 51. In this case, for example, the sub tab ST1 may be selected by pressing the F1 key, and the sub tab ST2 may be selected by pressing the F2 key.

また、メインウィンドウMWでの編集内容をどの構成パラメータ系列に反映させるかの指定を、キーボード51に予め割り当てられている所定のキーを押下する操作で実現してもよい。この場合、サブタブST1〜ST4を選択する操作は必要ない。例えば、利用者がCtrlキーを押下しつつメインウィンドウMWの音高のパラメータ系列を左右に動かした場合、当該操作は音高のビブラートの周期に対する編集として取得され、上下に動かした場合、当該操作は音高のビブラートの振幅に対する編集として取得される。また、例えば、利用者がキーを押下しないでメインウィンドウMWの音高のパラメータ系列上の曲線を操作した場合、当該操作は基本データのパラメータ系列に対する編集として取得される。なお、この場合、サブウィンドウSWに表示されるパラメータ系列(およびアクティブ状態となるサブタブST1〜ST4)も、利用者の操作に応じて自動的に切り替わってもよい。   In addition, the designation of which configuration parameter series the editing contents in the main window MW should be reflected may be realized by pressing a predetermined key assigned in advance to the keyboard 51. In this case, an operation for selecting the sub tabs ST1 to ST4 is not necessary. For example, when the user moves the pitch parameter series of the main window MW left and right while pressing the Ctrl key, the operation is acquired as an edit for the pitch vibrato cycle, and when the user moves up and down, the operation Is obtained as an edit to the amplitude of the vibrato of the pitch. Further, for example, when the user operates a curve on the parameter series of the pitch of the main window MW without pressing a key, the operation is acquired as editing for the parameter series of basic data. In this case, the parameter series displayed in the sub window SW (and the sub tabs ST1 to ST4 in the active state) may be automatically switched according to the user's operation.

さらに、利用者が、メインウィンドウMWに表示されている音高のパラメータ系列のうち、ビブラートがかかっている部分にポインティングデバイス52を合わせた場合、例えば矢印やアイコン等の案内画像が表示され、当該案内画像に従って(例えば、矢印画像のドラッグを音高のビブラートの周期や振幅に対する編集とする)、構成パラメータ系列の編集を行うことができるように構成してもよい。   Further, when the user places the pointing device 52 on a vibrato part of the pitch parameter series displayed on the main window MW, for example, a guide image such as an arrow or an icon is displayed. The configuration parameter series may be edited in accordance with the guidance image (for example, dragging the arrow image is editing with respect to the pitch or vibrato period of the pitch).

以上のように、上記実施形態の音声合成装置(歌声処理装置100)によれば、使用者は、音高(ピッチ)に関するパラメータ系列中の各値と、音の大きさ(ボリューム)に関するパラメータ系列中の各値と、のうち、パラメータ提示部56により編集可能な態様で提示(具体的には画面W1に表示)されている少なくとも一方を、例えば上述した各種の編集方法を用いて、直接、所望の値に編集することができる。このように使用者は、直感的な操作によってピッチやボリュームを変動させることができるため、上記実施形態の音声合成装置によれば、ピッチとボリュームとの少なくとも何れか一方を編集する際の操作性を向上させることができる。   As described above, according to the speech synthesizer (singing voice processing apparatus 100) of the above embodiment, the user can set each value in the parameter series related to the pitch (pitch) and the parameter series related to the loudness (volume). Among these values, at least one of the values presented in an editable manner by the parameter presentation unit 56 (specifically, displayed on the screen W1) is directly used, for example, by using the various editing methods described above. It can be edited to a desired value. As described above, the user can change the pitch and volume by an intuitive operation. Therefore, according to the speech synthesizer of the above embodiment, the operability when editing at least one of the pitch and the volume. Can be improved.

また、上記実施形態の音声合成装置(歌声処理装置100)によれば、使用者は、画面W1を用いて、第1,2のパラメータ系列の両方(即ち、構成パラメータ系列と、加算パラメータ系列の両方)を確認することができ、かつ、再生成後の第1のパラメータ系列(構成パラメータ系列)をリアルタイムに確認することもできるため、使用者における利便性を向上させることができる。   In addition, according to the speech synthesizer (singing voice processing apparatus 100) of the above embodiment, the user uses the screen W1 to display both the first and second parameter series (that is, the constituent parameter series and the addition parameter series). Both) can be confirmed, and the first parameter series (configuration parameter series) after regeneration can be confirmed in real time, so that convenience for the user can be improved.

さらに、上記実施形態の音声合成装置(歌声処理装置100)によれば、使用者は、画面W1を用いて、メインウィンドウMWにより第2のパラメータ系列(加算パラメータ系列)を、サブウィンドウSWにより第1のパラメータ系列(構成パラメータ系列)を、同時に確認することができるため、使用者における利便性をより向上させることができる。   Furthermore, according to the speech synthesizer (singing voice processing device 100) of the above embodiment, the user uses the screen W1 to display the second parameter series (addition parameter series) by the main window MW and the first by the subwindow SW. Since the parameter series (configuration parameter series) can be confirmed at the same time, the convenience for the user can be further improved.

さらに、上記実施形態の音声合成装置(歌声処理装置100)によれば、第2のパラメータ系列(加算パラメータ系列)が表示されるメインウィンドウMWは、第1のパラメータ系列(構成パラメータ系列)が表示されるサブウィンドウSWと比較して、画面上に占める表示領域が大きい(換言すれば、視認性が高い)。このため、使用者は、同時に提示される第1,2のパラメータ系列(即ち、構成パラメータ系列と、加算パラメータ系列)の間において、第2のパラメータ系列(加算パラメータ系列)をより確認しやすくなる。このため、使用者は、第2のパラメータ系列(加算パラメータ系列)が編集対象であるという旨を直感的に理解することができる。   Furthermore, according to the speech synthesis apparatus (singing voice processing apparatus 100) of the above embodiment, the first parameter series (configuration parameter series) is displayed in the main window MW in which the second parameter series (addition parameter series) is displayed. The display area occupied on the screen is large (in other words, the visibility is high) compared to the sub window SW. Therefore, the user can more easily confirm the second parameter series (addition parameter series) between the first and second parameter series (that is, the constituent parameter series and the addition parameter series) presented at the same time. . Therefore, the user can intuitively understand that the second parameter series (addition parameter series) is an editing target.

A−4.編集画面の変形:
上記実施形態において説明した編集画面は、以下に例示するような種々の変形が可能である。変形b1〜b8は、単独で採用されてもよく、組み合わせて採用されてもよい。また変形b1〜b8の採用の有無を、使用者からの指定によって切り替えてもよい。
A-4. Modified editing screen:
The editing screen described in the above embodiment can be variously modified as exemplified below. The deformations b1 to b8 may be employed alone or in combination. Moreover, you may switch the presence or absence of adoption of modification b1-b8 by the designation | designated from a user.

(b1)変形1:メインウィンドウとサブウィンドウを用いた双方向編集
上述した画面W1では、各サブウィンドウSWに表示されているパラメータ系列は表示のみに使用され、パラメータ値の変更ができないとした。しかし、各サブウィンドウSWに表示されているパラメータ系列に対しても、メインウィンドウMWと同様に、キーボード51やポインティングデバイス52を使用したパラメータ値の変更を可能にしてもよい。この場合、編集対象のウィンドウ(メインウィンドウMW/サブウィンドウSW)の指定を、キー割り当てにより実現できる。例えば、キーを押下しないで行うポインティングデバイス52の操作をメインウィンドウMWに対する操作とし、Shiftキーを押下しつつ行うポインティングデバイス52の操作をサブウィンドウSWに対する操作とすることができる。また、サブタブST1〜ST4のうち、どの項目に対する編集であるかの指定は、上述の通りキーボード51に予め割り当てられている所定のキーを押下する操作で実現できる。
(B1) Modification 1: Bidirectional editing using main window and subwindow In the screen W1 described above, the parameter series displayed in each subwindow SW is used only for display, and the parameter value cannot be changed. However, the parameter values displayed on each sub-window SW may be changed using the keyboard 51 and the pointing device 52 as in the main window MW. In this case, designation of the window to be edited (main window MW / subwindow SW) can be realized by key assignment. For example, an operation of the pointing device 52 that is performed without pressing a key can be an operation for the main window MW, and an operation of the pointing device 52 that is performed while the Shift key is pressed can be an operation for a sub window SW. Also, the designation of which item of the subtabs ST1 to ST4 is to be edited can be realized by pressing a predetermined key assigned in advance to the keyboard 51 as described above.

なお、サブウィンドウSWに表示されているパラメータ系列に対する編集内容は、歌声合成ルーチン(図8)において加算パラメータ系列の生成(ステップS230)〜編集内容の反映(ステップS270)が繰り返されることによって、上記実施形態と同様に、メインウィンドウMWに表示されている加算パラメータ系列と、サブウィンドウSWに表示されている構成パラメータ系列とに対して、リアルタイムに反映される。変形1によれば、使用者は、メインウィンドウMWとサブウィンドウSWとを用いて、加算パラメータ系列と構成パラメータ系列とを双方向に編集し、その結果をリアルタイムに確認することができる。この結果、使用者における利便性をより向上させることができる。   Note that the editing contents for the parameter series displayed in the sub-window SW are implemented by repeating the generation of the addition parameter series (step S230) to the reflection of the editing contents (step S270) in the singing voice synthesis routine (FIG. 8). Similar to the embodiment, the addition parameter series displayed in the main window MW and the configuration parameter series displayed in the sub window SW are reflected in real time. According to the first modification, the user can edit the addition parameter series and the configuration parameter series in both directions using the main window MW and the sub window SW, and check the result in real time. As a result, the convenience for the user can be further improved.

(b2)変形2:1つだけの加算パラメータ系列の編集
上述したメインタブMT1、MT2のいずれか一方は、省略してもよい。例えばメインタブMT2を省略する場合、歌声合成ルーチン(図8)における音の大きさのパラメータ系列に関する処理は、省略してもよい。例えばメインタブMT1を省略する場合、音声合成ルーチンにおける音高のパラメータ系列に関する処理は、省略してもよい。変形2によれば、音声合成ルーチンにおける処理を簡略化することができる。
(B2) Modification 2: Editing of only one addition parameter series One of the main tabs MT1 and MT2 described above may be omitted. For example, when the main tab MT2 is omitted, the processing related to the sound volume parameter series in the singing voice synthesis routine (FIG. 8) may be omitted. For example, when the main tab MT1 is omitted, the processing related to the pitch parameter series in the speech synthesis routine may be omitted. According to the modification 2, the process in the speech synthesis routine can be simplified.

(b3)変形3:3つ以上の加算パラメータ系列の編集
上述したメインタブMT1、MT2はあくまで一例であり、種々の態様を採用できる。例えば、以下に示すような新たなメインタブを備えていてもよい。
(B3) Modification 3: Editing Three or More Addition Parameter Series The main tabs MT1 and MT2 described above are merely examples, and various modes can be adopted. For example, a new main tab as shown below may be provided.

・「ジェンダー」タブ:ジェンダータブが選択された場合、加算パラメータがジェンダーパラメータ系列となる。ジェンダーパラメータ系列は、子供っぽい声であるか、大人っぽい声であるかを表すパラメータ系列である。ジェンダーパラメータ系列の構成要素(構成パラメータ系列)は、例えば、ジェンダーパラメータの基本データのパラメータ系列と、音符単位でモデル化された音符の先頭と末尾とのそれぞれに対する高さ、長さ、急峻度のパラメータである。 “Gender” tab: When the gender tab is selected, the addition parameter is a gender parameter series. The gender parameter series is a parameter series that indicates whether the voice is childish or adult. The components of the gender parameter series (constituent parameter series) include, for example, the parameter series of the basic data of gender parameters and the height, length, and steepness for the beginning and end of the notes modeled in note units. It is a parameter.

・「有声・無声比率」タブ:有声・無声比率タブが選択された場合、加算パラメータが有声・無声比率パラメータ系列となる。有声・無声比率パラメータ系列は、声のかすれ具合を表すパラメータ系列である。有声・無声比率パラメータ系列を実現するために、サーバ30の学習部40には、さらに「有声・無声比率抽出部」を備える構成とする。有声・無声比率抽出部は、歌声合成準備ルーチン(図3)のステップS140において、歌声に含まれる有声・無声比率と、その微分とを抽出する。この結果、解析により抽出される各種パラメータ(図4)には、上述の各パラメータに加えてさらに、有声・無声比率情報として、有声・無声比率の静的特徴量と、その一次微分と、二次微分とが含まれる。また、統計的に学習された音響モデル(図7)には、上述の各二分木に加えてさらに、有声・無声比率の決定木が含まれる。有声・無声比率パラメータ系列の構成要素(構成パラメータ系列)は、有声・無声比率の基本データ系列と、音符単位でモデル化された音符の先頭と末尾とのそれぞれに対する高さ、長さ、急峻度のパラメータである。 “Voice / unvoiced ratio” tab: When the voiced / unvoiced ratio tab is selected, the addition parameter is a voiced / unvoiced ratio parameter series. The voiced / unvoiced ratio parameter series is a parameter series representing the degree of voice fading. In order to realize the voiced / unvoiced ratio parameter series, the learning unit 40 of the server 30 is further configured to include a “voiced / unvoiced ratio extracting unit”. In step S140 of the singing voice synthesis preparation routine (FIG. 3), the voiced / unvoiced ratio extraction unit extracts the voiced / unvoiced ratio included in the singing voice and its derivative. As a result, in addition to the parameters described above, the various parameters extracted by the analysis (FIG. 4) further include, as voiced / unvoiced ratio information, a static feature quantity of voiced / unvoiced ratio, its first derivative, And second derivative. Further, the statistically learned acoustic model (FIG. 7) includes a voiced / unvoiced ratio decision tree in addition to the above-described binary trees. The constituent elements of the voiced / unvoiced ratio parameter series (constituent parameter series) are the height, length, and steepness of the basic data series of the voiced / unvoiced ratio and the beginning and end of the notes modeled in note units. Parameter.

変形3によれば、使用者は、上述した各メインタブを切り替えることによって、3つ以上の加算パラメータ系列を編集し、その結果をリアルタイムに確認することができる。この結果、使用者における利便性をより向上させることができる。   According to the third modification, the user can edit three or more addition parameter series by switching each main tab described above, and can check the result in real time. As a result, the convenience for the user can be further improved.

(b4)変形4:サブウィンドウの省略
画面W1において、サブタブST1〜ST4およびサブウィンドウSWを省略してもよい。この場合、サブウィンドウSWに対応した構成パラメータ系列の表示・再表示も省略可能である。また、画面W1において、サブタブST1〜ST4およびサブウィンドウSWの表示/非表示を切り替え可能としてもよい。変形4によれば、編集画面をシンプルにすることができる。
(B4) Modification 4: Omission of subwindow In the screen W1, the subtabs ST1 to ST4 and the subwindow SW may be omitted. In this case, display / redisplay of the configuration parameter series corresponding to the sub-window SW can be omitted. In addition, display / non-display of the sub tabs ST1 to ST4 and the sub window SW may be switched on the screen W1. According to the modification 4, the editing screen can be simplified.

(b5)変形5:サブウィンドウの省略
画面W1において、サブウィンドウSWを省略し、サブウィンドウSWに対応した構成パラメータ系列の表示を、全てメインウィンドウMW内に行ってもよい。この場合、メインウィンドウMWには、ピアノロールと、加算パラメータと、構成パラメータとの全ての項目が表示される。なお、この場合、メインウィンドウMW内において、加算パラメータの視認性を、構成パラメータと比較して高くすることが好ましい。視認性に差異を出す方法としては、例えば、描画された波形の線の太さ、色を変化させる方法が採用できる。変形5によれば、使用者は、1つのウィンドウで全ての項目を同時に確認することができる。
(B5) Modification 5: Omission of subwindow In the screen W1, the subwindow SW may be omitted, and the configuration parameter series corresponding to the subwindow SW may all be displayed in the main window MW. In this case, all items of the piano roll, the addition parameter, and the configuration parameter are displayed on the main window MW. In this case, it is preferable that the visibility of the addition parameter is higher in the main window MW than the configuration parameter. As a method of making a difference in visibility, for example, a method of changing the thickness and color of a drawn waveform line can be adopted. According to the modification 5, the user can confirm all items simultaneously in one window.

(b6)変形6:メインウィンドウとサブウィンドウとの異画面表示
メインウィンドウMWと、サブウィンドウSWとを別の画面として表示させてもよい。変形7によれば、使用者は、必要な画面のみを参照しつつ編集作業を行うことができる。
(B6) Modification 6: Different Screen Display of Main Window and Subwindow Main window MW and subwindow SW may be displayed as separate screens. According to the modification 7, the user can perform an editing operation while referring to only a necessary screen.

(b7)変形7:サブウィンドウ内での同時表示
画面W1において、サブタブST1〜ST4を省略してもよい。この場合、例えばサブウィンドウSW内に全ての構成パラメータが表示される。変形7によれば、使用者は、1つのサブウィンドウSWで全ての項目を同時に確認することができる。また、例えば、サブタブST1〜ST4を省略し、サブタブST1〜ST4にそれぞれ対応する4つのサブウィンドウSWを並べて同時に表示してもよい。
(B7) Modification 7: Simultaneous display in sub-window In the screen W1, the sub-tabs ST1 to ST4 may be omitted. In this case, for example, all the configuration parameters are displayed in the sub window SW. According to the modification 7, the user can confirm all items simultaneously in one sub-window SW. Further, for example, the subtabs ST1 to ST4 may be omitted, and four subwindows SW respectively corresponding to the subtabs ST1 to ST4 may be displayed side by side.

(b8)変形8:メインウィンドウでの構成パラメータの表示
上述した画面W1では、メインウィンドウMWには、ピアノロールと、加算パラメータ系列とを表示させるとした。しかし、メインウィンドウMWにおいて、構成パラメータ系列の一部をさらに表示させてもよい。この場合、例えば、加算パラメータ系列に対する編集に追従して変動する構成パラメータ系列(例えば、音高のパラメータ系列の周期が編集された場合は、音高のビブラートの周期のパラメータ系列)を、メインウィンドウMWに表示させる。使用者における視認性向上のために、メインウィンドウWM内における、加算パラメータ系列の表示態様と、構成パラメータ系列の表示態様とは、区別することが好ましい。例えば、加算パラメータ系列を実線(または太線、濃い色)とし、構成パラメータ系列を破線(または細線、薄い色)とすることが好ましい。変形8によれば、使用者は、メインウィンドウMW内において、加算パラメータ系列の変更によって影響を受ける構成パラメータ系列を確認することができる。
(B8) Modification 8: Display of Configuration Parameters in Main Window In the screen W1 described above, the main window MW displays the piano roll and the addition parameter series. However, a part of the configuration parameter series may be further displayed in the main window MW. In this case, for example, the constituent parameter series that fluctuates following the editing of the addition parameter series (for example, the parameter series of the pitch vibrato period when the pitch parameter series period is edited) is displayed in the main window. Display on MW. In order to improve visibility for the user, it is preferable to distinguish between the display mode of the addition parameter series and the display mode of the configuration parameter series in the main window WM. For example, it is preferable that the addition parameter series is a solid line (or thick line, dark color) and the constituent parameter series is a broken line (or thin line, light color). According to the modification 8, the user can confirm the configuration parameter series affected by the change of the addition parameter series in the main window MW.

B.変形例:
上記実施形態において、ハードウェアによって実現されるとした構成の一部をソフトウェアに置き換えるようにしてもよく、逆に、ソフトウェアによって実現されるとした構成の一部をハードウェアに置き換えるようにしてもよい。その他、以下のような変形も可能である。
B. Variations:
In the above embodiment, a part of the configuration realized by hardware may be replaced by software, and conversely, a part of the configuration realized by software may be replaced by hardware. Good. In addition, the following modifications are possible.

・変形例1:
上記実施形態では、歌声処理装置の構成を例示した。しかし、上記実施形態における歌声処理装置の構成はあくまで一例であり、任意の態様を採用することができる。例えば、その構成要素の一部を省略したり、更なる構成要素を付加したり、構成要素の一部を変更したりする変形が可能である。例えば、上述した歌声処理装置の各機能は、複数の装置が協働することによって実現されてもよい。例えば、音響モデルは、複数の装置に分散して記憶されていてもよい。
・ Modification 1:
In the said embodiment, the structure of the singing voice processing apparatus was illustrated. However, the configuration of the singing voice processing apparatus in the above embodiment is merely an example, and any aspect can be adopted. For example, the deformation | transformation which abbreviate | omits a part of the component, adds a further component, or changes a part of component is possible. For example, each function of the above-described singing voice processing device may be realized by cooperation of a plurality of devices. For example, the acoustic model may be distributed and stored in a plurality of devices.

上記実施形態において、HMM方式を採用した音声合成について説明したが、本発明は、任意の方式での音声合成に適用できる。具体的には、例えば、HMM方式に代えてDNN(Deep Neural Network)方式を採用してもよく、HMM方式に代えて波形接続方式を採用してもよい。   In the above embodiment, the speech synthesis employing the HMM method has been described. However, the present invention can be applied to speech synthesis using any method. Specifically, for example, a DNN (Deep Neural Network) method may be adopted instead of the HMM method, and a waveform connection method may be adopted instead of the HMM method.

・変形例2:
上記実施形態の歌声合成ルーチン(図8)において、構成パラメータ系列として例示した各パラメータ系列は、その一部を省略してもよく、他のパラメータ系列を追加してもよい。例えば、構成パラメータ系列の1つである「アタック」について、リリース(音符の最後に音量が小さくなる歌唱表現)を省略してもよい。また、アタックとリリースとのいずれか一方の歌唱表現を採用してもよい。同様に、加算パラメータ系列として例示した音高のパラメータ系列と、音の大きさのパラメータ系列とは、一方を省略してもよく、他のパラメータ系列を追加してもよい。例えば、音高/音の大きさのパラメータ系列に代えて、上述したジェンダーパラメータ系列や、有声・無声比率パラメータ系列を採用してもよい。
Modification 2
In the singing voice synthesis routine (FIG. 8) of the above embodiment, a part of each parameter series exemplified as the constituent parameter series may be omitted, or another parameter series may be added. For example, the release (singing expression in which the volume decreases at the end of a note) may be omitted for “attack” which is one of the constituent parameter series. Moreover, you may employ | adopt either singing expression of an attack and release. Similarly, one of the pitch parameter series and the loudness parameter series exemplified as the addition parameter series may be omitted, or another parameter series may be added. For example, the above-described gender parameter series or voiced / unvoiced ratio parameter series may be employed instead of the pitch / sound volume parameter series.

上記実施形態の歌声合成ルーチン(図8)では、音高のパラメータ系列と、音の大きさのパラメータ系列とを生成・編集の対象とした。ここで、「音高のパラメータ系列」には、音の高さそのものについてのパラメータ系列だけでなく、音高に関するパラメータ系列全般(例えば、音の高さの対数についてのパラメータ系列、音の高さに比例する変数についてのパラメータ系列など)を含み得る。同様に、「音の大きさのパラメータ」には、音の大きさそのものについてのパラメータ系列だけでなく、音の大きさに関するパラメータ系列全般を含み得る。   In the singing voice synthesizing routine (FIG. 8) of the above embodiment, the pitch parameter series and the loudness parameter series are targeted for generation and editing. Here, the “pitch parameter series” includes not only the parameter series for the pitch itself but also the overall parameter series for the pitch (for example, the parameter series for the logarithm of the pitch, the pitch of the pitch). Parameter series for variables proportional to Similarly, the “sound loudness parameter” may include not only a parameter series relating to the loudness itself but also a general parameter series relating to the loudness.

上記実施形態の歌声合成ルーチン(図8)では、キーボードやポインティングデバイスを利用した各パラメータ系列の編集方法の一例を示した。しかし、各パラメータ系列は、任意の方法で編集できる。例えば、入力デバイスとして、キーボードやポインティングデバイスに代えて、または、キーボードやポインティングデバイスと共に、タッチパッド、タブレット、マイク、無線通信等を採用できる。マイクを使用する場合、音声によるコマンドを用いて各パラメータ系列を編集できる。無線通信を使用する場合、受信コマンドを用いて各パラメータ系列を編集できる。また、上記実施形態において例示したポインティングデバイスの使用方法(ドラッグ、クリック)についても、任意の方法に変更できる。例えば、マウスホイールの押下、マウスに割り当てられたショートカット等を用いてもよい。   In the singing voice synthesizing routine (FIG. 8) of the above embodiment, an example of an editing method of each parameter series using a keyboard or a pointing device is shown. However, each parameter series can be edited by an arbitrary method. For example, as an input device, a touch pad, a tablet, a microphone, wireless communication, or the like can be employed instead of the keyboard or the pointing device or together with the keyboard or the pointing device. When a microphone is used, each parameter series can be edited using voice commands. When wireless communication is used, each parameter series can be edited using a reception command. Further, the use method (drag, click) of the pointing device exemplified in the above embodiment can be changed to any method. For example, a mouse wheel press or a shortcut assigned to the mouse may be used.

・変形例3:
以上本発明のいくつかの実施形態・変形例について説明したが、本発明はこうした実施形態に限定されるものではなく、本発明の要旨を変更しない範囲内において、種々なる態様で実施できることはもちろんである。例えば、歌声学習の機能がない歌声合成装置のみとして実施しても良い。また、歌声としては平均律に基づくものに限らず、民族音楽のように固有の音律に従うものを用いても良い。例えば日本における雅楽、謡曲、声明、お経や、ヨーロッパにおけるグレゴリオ聖歌などの平均律以前の音律に従う歌声などの合成に適用しても良い。
・ Modification 3:
Although several embodiments and modifications of the present invention have been described above, the present invention is not limited to these embodiments, and can of course be implemented in various modes within the scope not changing the gist of the present invention. It is. For example, it may be implemented only as a singing voice synthesizing device that does not have a singing voice learning function. Also, the singing voice is not limited to that based on the equal temperament, but may be one that follows a specific temperament such as folk music. For example, the present invention may be applied to synthesis of Japanese music, kyoku, statement, sutra, singing voice that follows the pre-equilibrium temperament such as Gregorian chant in Europe.

10…楽譜入力部
20…音声入力部
30…サーバ
31…ハードディスク
33…楽譜解析部
40…学習部
41…F0抽出部
43…SP抽出部
44…歌唱P抽出部
45…HMM学習部
50…音響モデル記憶部
51…キーボード
52…ポインティングデバイス
53…表示部
55…パラメータ取得部
56…パラメータ提示部
57…楽譜解析部
60…音声合成部
61…パラメータ生成部
63…音源生成部
65…合成フィルタ
100…歌声処理装置
DESCRIPTION OF SYMBOLS 10 ... Musical score input part 20 ... Voice input part 30 ... Server 31 ... Hard disk 33 ... Musical score analysis part 40 ... Learning part 41 ... F0 extraction part 43 ... SP extraction part 44 ... Singing P extraction part 45 ... HMM learning part 50 ... Acoustic model Storage unit 51 ... Keyboard 52 ... Pointing device 53 ... Display unit 55 ... Parameter acquisition unit 56 ... Parameter presentation unit 57 ... Score analysis unit 60 ... Speech synthesis unit 61 ... Parameter generation unit 63 ... Sound source generation unit 65 ... Synthesis filter 100 ... Singing voice Processing equipment

Claims (12)

音声合成装置であって、
統計的手法により学習された音響パラメータを含む音響モデルを予め記憶する記憶部と、
パラメータ生成部であって、
記憶されている前記音響パラメータから生成される第1のパラメータ系列であって、入力された楽譜に対応した音響パラメータ値の変化を表す第1のパラメータ系列と、
前記第1のパラメータ系列から生成される第2のパラメータ系列と、
をそれぞれ生成するパラメータ生成部と、
少なくとも前記第2のパラメータ系列を、編集可能な態様で使用者に提示するパラメータ提示部と、
前記第1のパラメータ系列に含まれる各音響パラメータ値と、前記第2のパラメータ系列に含まれる各音響パラメータ値と、の少なくとも一方を用いて歌声を合成する合成部と、
を備え、
前記パラメータ生成部は、
前記第2のパラメータ系列が編集された場合、編集後の前記第2のパラメータ系列を用いて前記第1のパラメータ系列を再生成する、音声合成装置。
A speech synthesizer,
A storage unit for storing in advance an acoustic model including acoustic parameters learned by a statistical method;
A parameter generator,
A first parameter series generated from the stored acoustic parameters, the first parameter series representing a change in acoustic parameter values corresponding to the input score;
A second parameter series generated from the first parameter series;
A parameter generator for generating
A parameter presenting unit that presents at least the second parameter series to the user in an editable manner;
A synthesis unit that synthesizes a singing voice using at least one of each acoustic parameter value included in the first parameter series and each acoustic parameter value included in the second parameter series;
With
The parameter generator is
A speech synthesizer that regenerates the first parameter series using the second parameter series after editing when the second parameter series is edited.
請求項1に記載の音声合成装置であって、
前記パラメータ提示部は、
前記第2のパラメータ系列に加えてさらに、前記第1のパラメータ系列を使用者に提示し、
前記第1のパラメータ系列が再生成された場合は、再生成後の前記第1のパラメータ系列を使用者に提示する、音声合成装置。
The speech synthesizer according to claim 1,
The parameter presentation unit
In addition to the second parameter series, further presenting the first parameter series to the user,
A speech synthesizer that presents the regenerated first parameter series to a user when the first parameter series is regenerated.
請求項2に記載の音声合成装置であって、
前記パラメータ提示部は、
使用者が、前記第1のパラメータ系列と、前記第2のパラメータ系列とを同時に視認可能な態様で提示する、音声合成装置。
The speech synthesizer according to claim 2,
The parameter presentation unit
A speech synthesizer in which a user presents the first parameter series and the second parameter series in a manner that can be viewed simultaneously.
請求項3に記載の音声合成装置であって、
前記パラメータ提示部は、
前記第2のパラメータ系列の視認性を、前記第1のパラメータ系列と比較して高くした状態で、前記第1のパラメータ系列と前記第2のパラメータ系列とを提示する、音声合成装置。
The speech synthesizer according to claim 3,
The parameter presentation unit
A speech synthesizer that presents the first parameter series and the second parameter series in a state in which the visibility of the second parameter series is higher than that of the first parameter series.
請求項1から請求項4のいずれか一項に記載の音声合成装置であって、
前記パラメータ提示部は、前記第2のパラメータ系列に加えてさらに、前記第1のパラメータ系列を編集可能な態様で使用者に提示し、
前記パラメータ生成部は、さらに、前記第1のパラメータ系列が編集された場合、編集後の前記第1のパラメータ系列を用いて前記第2のパラメータ系列を再生成し、
前記パラメータ提示部は、さらに、前記第2のパラメータ系列が再生成された場合は、再生成後の前記第2のパラメータ系列を使用者に提示する、音声合成装置。
The speech synthesizer according to any one of claims 1 to 4,
The parameter presentation unit presents the first parameter series to the user in an editable manner in addition to the second parameter series,
The parameter generation unit further regenerates the second parameter series using the edited first parameter series when the first parameter series is edited,
The parameter presenting unit further presents the second parameter series after regeneration to the user when the second parameter series is regenerated.
請求項1から請求項4のいずれか一項に記載の音声合成装置であって、さらに、
前記編集の内容を取得するパラメータ取得部を備え、
前記パラメータ取得部は、
予め割り当てられた第1の操作方法による操作を、前記第1のパラメータ系列に含まれる、あるパラメータ系列に対する編集内容として取得し、
予め割り当てられた第2の操作方法であって、前記第1の操作方法とは異なる第2の操作方法による操作を、前記第1のパラメータ系列に含まれる、別のパラメータ系列に対する編集内容として取得する、音声合成装置。
The speech synthesizer according to any one of claims 1 to 4, further comprising:
A parameter acquisition unit for acquiring the content of the edit;
The parameter acquisition unit
An operation according to the first operation method assigned in advance is acquired as an editing content for a certain parameter series included in the first parameter series,
An operation according to a second operation method that is assigned in advance and is different from the first operation method is acquired as editing content for another parameter sequence included in the first parameter sequence. A speech synthesizer.
請求項5に記載の音声合成装置であって、さらに、
前記編集の内容を取得するパラメータ取得部を備え、
前記パラメータ取得部は、
予め割り当てられた第3の操作方法による操作を、前記第1のパラメータ系列に対する編集内容として取得し、
予め割り当てられた第4の操作方法であって、前記第3の操作方法とは異なる第4の操作方法による操作を、前記第2のパラメータ系列に対する編集内容として取得する、音声合成装置。
The speech synthesizer according to claim 5, further comprising:
A parameter acquisition unit for acquiring the content of the edit;
The parameter acquisition unit
An operation according to the third operation method assigned in advance is acquired as an editing content for the first parameter series,
A speech synthesizer that acquires a fourth operation method that is assigned in advance and that is a fourth operation method that is different from the third operation method, as edit contents for the second parameter series.
請求項2から請求項7のいずれか一項に記載の音声合成装置であって、
前記第1のパラメータ系列には、少なくとも、
音高のパラメータ値の変化を表す音高のパラメータ系列と、
歌唱表現のパラメータ値の変化を表す歌唱表現パラメータ系列と、
が含まれ、
前記パラメータ提示部は、
前記第1のパラメータ系列に含まれる全てのパラメータ系列を使用者に提示する、音声合成装置。
The speech synthesizer according to any one of claims 2 to 7,
The first parameter series includes at least
A parameter series of pitches representing changes in pitch parameter values,
Singing expression parameter series representing changes in parameter values of singing expression,
Contains
The parameter presentation unit
A speech synthesizer that presents all parameter series included in the first parameter series to a user.
請求項8に記載の音声合成装置であって、
前記歌唱表現には、少なくとも、ビブラート、しゃくり、こぶし、アタック、リリースのうちの1つが含まれる、音声合成装置。
The speech synthesizer according to claim 8, wherein
The speech synthesizer in which the singing expression includes at least one of vibrato, shackle, fist, attack, and release.
請求項1から請求項9のいずれか一項に記載の音声合成装置であって、
前記音声合成装置には、ポインティングデバイスを備える画像表示装置が接続され、
前記パラメータ提示部は、
グラフィカルユーザインタフェースを用い、かつ、前記ポインティングデバイスによる操作が可能な態様で、前記第2のパラメータ系列を前記画像表示装置に対して表示させる、音声合成装置。
The speech synthesizer according to any one of claims 1 to 9,
An image display device including a pointing device is connected to the speech synthesizer,
The parameter presentation unit
A speech synthesizer that uses a graphical user interface and displays the second parameter series on the image display device in a manner that allows operation by the pointing device.
請求項1から請求項10のいずれか一項に記載の音声合成装置であって、
第2のパラメータ系列には、少なくとも、音高に関するパラメータ系列と、音の大きさに関するパラメータ系列と、声の年齢に関するパラメータ系列と、音のかすれ具合に関するパラメータ系列と、のうちのいずれか1つを含む、音声合成装置。
The speech synthesizer according to any one of claims 1 to 10,
The second parameter series includes at least one of a parameter series related to pitch, a parameter series related to loudness, a parameter series related to voice age, and a parameter series related to sound blur. A speech synthesizer.
音声合成方法であって、
予め記憶されている音響モデルに含まれる音響パラメータであって、統計的手法により学習された音響パラメータから、入力された楽譜に対応した音響パラメータ値の変化を表す第1のパラメータ系列を生成する工程と、
前記第1のパラメータ系列から第2のパラメータ系列を生成する工程と、
少なくとも前記第2のパラメータ系列を、編集可能な態様で使用者に提示する工程と、
前記第1のパラメータ系列に含まれる各音響パラメータ値と、前記第2のパラメータ系列に含まれる各音響パラメータ値と、の少なくとも一方を用いて歌声を合成する工程と、
を備え、
前記第1のパラメータ系列を生成する工程では、さらに、
前記第2のパラメータ系列が編集された場合、編集後の前記第2のパラメータ系列を用いて前記第1のパラメータ系列を再生成する、音声合成方法。
A speech synthesis method,
A step of generating a first parameter series representing a change in an acoustic parameter value corresponding to an input musical score, from acoustic parameters included in an acoustic model stored in advance and learned by a statistical method When,
Generating a second parameter series from the first parameter series;
Presenting at least the second parameter series to the user in an editable manner;
Synthesizing a singing voice using at least one of each acoustic parameter value included in the first parameter series and each acoustic parameter value included in the second parameter series;
With
In the step of generating the first parameter series,
A speech synthesis method in which, when the second parameter series is edited, the first parameter series is regenerated using the edited second parameter series.
JP2016165467A 2016-08-26 2016-08-26 Voice synthesizer and voice synthesizing method Pending JP2017097332A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016165467A JP2017097332A (en) 2016-08-26 2016-08-26 Voice synthesizer and voice synthesizing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016165467A JP2017097332A (en) 2016-08-26 2016-08-26 Voice synthesizer and voice synthesizing method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2015229428A Division JP6004358B1 (en) 2015-11-25 2015-11-25 Speech synthesis apparatus and speech synthesis method

Publications (1)

Publication Number Publication Date
JP2017097332A true JP2017097332A (en) 2017-06-01

Family

ID=58817744

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016165467A Pending JP2017097332A (en) 2016-08-26 2016-08-26 Voice synthesizer and voice synthesizing method

Country Status (1)

Country Link
JP (1) JP2017097332A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042056A (en) * 2018-09-06 2020-03-19 株式会社テクノスピーチ Voice synthesis device and voice synthesis method
WO2022172577A1 (en) * 2021-02-10 2022-08-18 ヤマハ株式会社 Sound generation method using machine learning model, method for training machine learning model, sound generation device, training device, sound generation program, and training program
WO2022172576A1 (en) * 2021-02-10 2022-08-18 ヤマハ株式会社 Sound generation method using machine learning model, method of training machine learning model, sound generation device, training device, sound generation program, and training program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042056A (en) * 2018-09-06 2020-03-19 株式会社テクノスピーチ Voice synthesis device and voice synthesis method
WO2022172577A1 (en) * 2021-02-10 2022-08-18 ヤマハ株式会社 Sound generation method using machine learning model, method for training machine learning model, sound generation device, training device, sound generation program, and training program
WO2022172576A1 (en) * 2021-02-10 2022-08-18 ヤマハ株式会社 Sound generation method using machine learning model, method of training machine learning model, sound generation device, training device, sound generation program, and training program

Similar Documents

Publication Publication Date Title
JP6004358B1 (en) Speech synthesis apparatus and speech synthesis method
US9818396B2 (en) Method and device for editing singing voice synthesis data, and method for analyzing singing
JP5293460B2 (en) Database generating apparatus for singing synthesis and pitch curve generating apparatus
JP2017107228A (en) Singing voice synthesis device and singing voice synthesis method
EP2680254B1 (en) Sound synthesis method and sound synthesis apparatus
US8423367B2 (en) Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
US9355634B2 (en) Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon
JP2007249212A (en) Method, computer program and processor for text speech synthesis
US20100066742A1 (en) Stylized prosody for speech synthesis-based applications
JP2017111372A (en) Voice synthesis method, voice synthesis control method, voice synthesis device, and voice synthesis controller
EP3975167A1 (en) Electronic musical instrument, control method for electronic musical instrument, and storage medium
JP2023015302A (en) Electronic apparatus, electronic musical instrument, method and program
JP2017097332A (en) Voice synthesizer and voice synthesizing method
JP5807921B2 (en) Quantitative F0 pattern generation device and method, model learning device for F0 pattern generation, and computer program
KR20220165666A (en) Method and system for generating synthesis voice using style tag represented by natural language
CN112712783B (en) Method and device for generating music, computer equipment and medium
JP6756151B2 (en) Singing synthesis data editing method and device, and singing analysis method
JP2013164609A (en) Singing synthesizing database generation device, and pitch curve generation device
JP2020204755A (en) Speech processing device and speech processing method
JP2020204651A (en) Speech processing device and speech processing method
JP6137708B2 (en) Quantitative F0 pattern generation device, model learning device for F0 pattern generation, and computer program
JP7186476B1 (en) speech synthesizer
JP6587308B1 (en) Audio processing apparatus and audio processing method
Thompson IV Creating Musical Scores Inspired by the Intersection of Human Speech and Music Through Model-Based Cross Synthesis
US20240087552A1 (en) Sound generation method and sound generation device using a machine learning model