JP6583756B1 - Speech synthesis apparatus and speech synthesis method - Google Patents
Speech synthesis apparatus and speech synthesis method Download PDFInfo
- Publication number
- JP6583756B1 JP6583756B1 JP2018166693A JP2018166693A JP6583756B1 JP 6583756 B1 JP6583756 B1 JP 6583756B1 JP 2018166693 A JP2018166693 A JP 2018166693A JP 2018166693 A JP2018166693 A JP 2018166693A JP 6583756 B1 JP6583756 B1 JP 6583756B1
- Authority
- JP
- Japan
- Prior art keywords
- speech
- parameter
- unit
- synthesized
- synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Auxiliary Devices For Music (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】リアルタイムに合成音声を編集可能な技術を提供する。【解決手段】音声合成装置は、合成する合成音声の発語対象を、予め定めた表示領域に表示する表示制御部と、発語対象を、指定されたパラメータを用いて音声合成する合成部と、予め用意されたデバイスを操作することによって選択される表示領域内における特定の位置を移動する指示入力部と、特定される位置の座標と移動速度と移動形状との少なくとも一つにより、パラメータを編集する編集部と、を備え、パラメータは発語対象の表現の態様に関するパラメータであり、発語対象の少なくとも発語の速度を調整する第1パラメータと発語対象の発語の速度以外の要素を調整する第2パラメータと、を含む。【選択図】図5A technique capable of editing synthesized speech in real time is provided. A speech synthesizer includes: a display control unit that displays a speech target of synthesized speech to be synthesized in a predetermined display area; and a synthesis unit that performs speech synthesis of the speech target using specified parameters. The parameter is set according to at least one of an instruction input unit that moves a specific position in a display area selected by operating a prepared device, a coordinate of the specified position, a moving speed, and a moving shape. An editing unit for editing, and the parameter is a parameter related to a mode of expression of the speech target, and is a first parameter that adjusts at least the speed of the speech target and an element other than the speed of the speech target speech And a second parameter for adjusting. [Selection] Figure 5
Description
本発明は、音声合成装置、および音声合成方法の技術に関する。 The present invention relates to a speech synthesis apparatus and a speech synthesis method.
従来の音声合成装置として、発語対象であるテキスト情報に基づいて音声合成を行うものが知られている(例えば、特許文献1)。この技術を用いて仮想的な歌い手がコンサートを行うといったライブ活動や、動画配信サイトを利用したライブ配信も行われている。 As a conventional speech synthesizer, a device that synthesizes speech based on text information to be spoken is known (for example, Patent Document 1). Live activities such as virtual singers performing concerts using this technology and live distribution using video distribution sites are also being carried out.
こうしたライブでは、環境や聴衆に合わせて歌い方や話し方を変えることで聴衆との一体感を生み、ライブならではの価値をもたらしている。しかしながら、リアルタイムで歌い方や話し方を変えるためにはパラメータ等の煩雑な編集が必要となり、実際にライブ等で音声合成を活用することは困難であった。そのため、リアルタイムに編集可能な音声合成技術が望まれていた。 Such live shows a sense of unity with the audience by changing the way of singing and speaking according to the environment and audience, bringing the value of live. However, in order to change the way of singing and speaking in real time, complicated editing of parameters and the like is required, and it has been difficult to actually use speech synthesis in live performances. Therefore, a voice synthesis technique that can be edited in real time has been desired.
本発明は、上述の課題を解決するためになされたものであり、以下の形態として実現することが可能である。本発明の一形態によれば、音声合成装置が提供される。この音声合成装置は、合成する合成音声の発語対象を、前記発語対象を構成する文字と前記文字を発話するための表記との少なくとも一方によって予め定めた表示領域に表示する表示制御部と、前記発語対象を、指定されたパラメータを用いて音声合成する合成部と、予め用意されたデバイスを操作することによって選択される前記表示領域内における特定の位置を移動する指示入力部と、前記特定される位置の座標と移動速度と移動形状とのうち少なくとも前記移動速度を含む一つ以上により、前記パラメータを編集する編集部と、前記合成音声を再生する再生部と、を備え、前記表示制御部は、予め定められたスクロール速度で前記発語対象をスクロールし、前記パラメータは前記発語対象の少なくとも発語の速度を調整する第1パラメータを含み、前記第1パラメータは、前記スクロール速度と前記移動速度との差に応じて定められ、前記合成部は、前記編集部より取得した前記デバイスによる操作を反映したパラメータを用いて逐次音声合成を行い、合成した前記合成音声を逐次前記再生部より再生する。この形態の音声合成装置によれば、例えば発語対象をなぞることで、リアルタイムに合成音声を編集、再生できる。本発明は以下の形態としても実現できる。 The present invention has been made to solve the above-described problems, and can be realized as the following forms. According to one aspect of the present invention, a speech synthesizer is provided. The speech synthesizer includes: a display control unit configured to display a speech target of a synthesized speech to be synthesized in a display area predetermined by at least one of a character constituting the speech target and a notation for speaking the character; A speech synthesis unit that synthesizes speech using a designated parameter; an instruction input unit that moves a specific position in the display area selected by operating a prepared device; wherein the one or more including at least the moving speed of the position of the coordinates specified moving speed and the moving shape, includes an editing section for editing the parameter, and a reproduction unit for reproducing the synthesized speech, the display control unit scrolls the onset word object scrolling a predetermined speed, the first parameter the parameter for adjusting the speed of at least speech of the calling language object Includes a motor, the first parameter is the determined in accordance with the difference between the scroll speed and the moving speed, the combining unit, sequentially speech using the parameters that reflects the operation by the device retrieved from the editing unit Synthesis is performed, and the synthesized speech synthesized is sequentially reproduced from the reproduction unit. According to the speech synthesizer of this embodiment, the synthesized speech can be edited and reproduced in real time by tracing the speech target, for example. The present invention can be realized in the following forms.
(1)本発明の一形態によれば、音声合成装置が提供される。この音声合成装置は、合成する合成音声の発語対象を、予め定めた表示領域に表示する表示制御部と;前記発語対象を、指定されたパラメータを用いて音声合成する合成部と;予め用意されたデバイスを操作することによって選択される前記表示領域内における特定の位置を移動する指示入力部と;前記特定される位置の座標と移動速度と移動形状との少なくとも一つにより、前記パラメータを編集する編集部と、を備え;前記パラメータは前記発語対象の少なくとも発語の速度を調整する第1パラメータを含む。この形態の音声合成装置によれば、例えば発語対象をなぞることで、リアルタイムに合成音声を編集できる。 (1) According to an aspect of the present invention, a speech synthesizer is provided. The speech synthesizer includes: a display control unit that displays a speech target of synthesized speech to be synthesized in a predetermined display area; a synthesis unit that performs speech synthesis of the speech target using a specified parameter; An instruction input unit for moving a specific position in the display area selected by operating a prepared device; and the parameter according to at least one of coordinates of the specified position, a moving speed, and a moving shape An editing unit that edits; the parameter includes a first parameter that adjusts at least a speed of the speech to be spoken. According to the speech synthesizer of this form, for example, the synthesized speech can be edited in real time by tracing the speech target.
(2)上記形態の音声合成装置において、前記合成部は、前記合成音声を統計的手法により音響パラメータを学習した音響モデルを用いて音声合成を行ってもよい。この形態の音声合成装置によれば、少ないデータ量で合成音声を生成する事ができる。 (2) In the speech synthesizer of the above aspect, the synthesizer may perform speech synthesis using an acoustic model obtained by learning acoustic parameters of the synthesized speech by a statistical method. According to the speech synthesizer of this embodiment, synthesized speech can be generated with a small amount of data.
(3)上記形態の音声合成装置において、更に、前記合成音声を再生する再生部を備え、前記合成部は、前記編集部より取得した前記デバイスによる操作を反映したパラメータを用いて逐次音声合成を行い、合成した前記合成音声を前記再生部より再生してもよい。この形態の音声合成装置によれば、リアルタイムに合成音声を編集・再生できる。 (3) The speech synthesizer according to the above aspect further includes a reproduction unit that reproduces the synthesized speech, and the synthesis unit sequentially synthesizes speech using a parameter that reflects the operation by the device acquired from the editing unit. And the synthesized speech synthesized may be reproduced from the reproduction unit. According to the speech synthesizer of this form, the synthesized speech can be edited and reproduced in real time.
(4)上記形態の音声合成装置において、前記表示制御部は、ポインタを表示可能で有り、前記指示入力部は、前記特定の位置の移動を前記ポインタの位置の移動として実現してもよい。この形態の音声合成装置によれば、より視覚的にパラメータを編集することができる。 (4) In the speech synthesizer of the above aspect, the display control unit may display a pointer, and the instruction input unit may realize the movement of the specific position as the movement of the pointer. According to this form of speech synthesizer, parameters can be edited more visually.
(5)上記形態の音声合成装置において、前記デバイスは、前記表示制御部に表示された前記ポインタを移動するポインティングデバイスとしてもよい。この形態の音声合成装置によれば、視覚的にパラメータを編集することができる。 (5) In the speech synthesizer of the above aspect, the device may be a pointing device that moves the pointer displayed on the display control unit. According to this form of the speech synthesizer, parameters can be visually edited.
(6)上記形態の音声合成装置において、前記デバイスは前記表示領域を有してもよい。この形態の音声合成装置によれば、例えば、接触した座標および感圧を取得できるタッチパネルを用いて合成音声を編集できる。 (6) In the speech synthesizer of the above aspect, the device may include the display area. According to the speech synthesizer of this embodiment, for example, the synthesized speech can be edited using a touch panel that can acquire the coordinates and pressure sensitivity that have been touched.
(7)上記形態の音声合成装置において、前記編集部は、前記デバイスの感圧に応じて、前記発語対象の表現の態様に関するパラメータであり、前記発語対象の発語の速度以外の要素を調整する第2パラメータを編集してもよい。この形態の音声合成装置によれば、複数のパラメータを同時に編集できるため、リアルタイムに合成音声を編集できる。 (7) In the speech synthesizer of the above aspect, the editing unit is a parameter related to the expression mode of the speech target according to pressure sensitivity of the device, and is an element other than the speed of the speech target speech You may edit the 2nd parameter which adjusts. According to the speech synthesizer of this aspect, since a plurality of parameters can be edited simultaneously, the synthesized speech can be edited in real time.
なお、本発明は、種々の態様で実現することが可能である。例えば、この形態の音声合成装置を利用した音声合成システム、音声合成装置や音声合成システムの機能を実現するために情報処理装置において実行される方法、コンピュータプログラム、そのコンピュータプログラムを配布するためのサーバ装置、そのコンピュータプログラムを記憶した一時的でない記憶媒体等の形態で実現することができる。 Note that the present invention can be realized in various modes. For example, a speech synthesis system using the speech synthesizer of this embodiment, a method executed in the information processing apparatus to realize the functions of the speech synthesizer and the speech synthesis system, a computer program, and a server for distributing the computer program The present invention can be realized in the form of a device, a non-temporary storage medium storing the computer program, and the like.
A.第1実施形態:
図1は、本発明の一実施形態における音声合成装置100の概要を示す説明図である。音声合成装置100は、合成部10と、再生部20と、表示制御部30と、指示入力部40と、編集部50と、制御部60と、を備える。
A. First embodiment:
FIG. 1 is an explanatory diagram showing an overview of a
合成部10は、音響モデル11と、合成エンジン12と、を含む。合成部10は、発語対象であるテキスト情報に基づいて音声合成を行う。本実施形態において、合成エンジン12は、統計的手法により音響パラメータを学習した音響モデル11と、後述する編集部50より編集されたパラメータ13とを用いて音声合成を行う。より具体的には、隠れマルコフモデル(以下、HMM(Hidden Markov Model)とも記載する)や、ディープニューラルネットワーク(以下、DNN(Deep Neural Network)とも記載する)を用いて、合成音声を生成する。音響モデルの学習に用いる音響パラメータの詳細については後述する。
The synthesizing
再生部20は、合成部10によって生成された合成音声をスピーカ70に出力する。
The
表示制御部30は、合成音声の発語対象を予め定めた表示領域31に表示する。図2は、表示制御部30により表示される表示領域31の一例である。表示領域31は、それぞれ発語対象の異なる表示領域31A、31B、31Cを含む。本実施形態において、表示領域31は予め用意されたデバイスであるタッチパネル80が有する。タッチパネル80は、タッチペン85が接触した座標および感圧を取得できる。なお、タッチパネル80が取得できる情報は、座標や感圧に限らず、例えばタッチペン85の傾きを取得出来るようにしてもよい。また、表示制御部30は、タッチパネル80に限らず、通常のディスプレイや、音声合成装置100が有するディスプレイに表示してもよい。本実施形態において、例えば、表示領域31Aに表示される発語対象は「こんにちは」であり、表示領域31Bに表示される発語対象は「ありがとう」であり、表示領域31Cに表示される発語対象は「さようなら」である。
The
指示入力部40は、予め用意されたデバイスであるタッチパネル80およびタッチペン85を操作することによって、表示領域31A〜31Cから選択される表示領域内における特定の位置を移動する。指示入力部40は、マウスや指による操作や、ハンドトラッキング等の非接触デバイスからの入力によって、選択される表示領域内における特定の位置を移動してもよい。なお、特定の位置は、表示領域内等にポインタなどを表示して視覚的に表してもよい。また、特定の位置の移動は、タッチペン85でなぞっている位置であるとして軌跡として表してもよい。
The
編集部50は、特定される位置に基づき、発語対象の表現の態様に関するパラメータを編集する。本実施形態において、パラメータは、発語対象の少なくとも発語の速度を調整する第1パラメータ(以下、「話速パラメータ」という)と、発語対象の発語の速度以外の要素である音量を調整する第2パラメータ(以下、「音量パラメータ」という)と、発語対象の発語の速度以外の要素である音高を調整する第3パラメータ(以下、「音高パラメータ」という)とを含む。なお、発語対象の発語の速度以外の要素のパラメータとしては、他にも、感情やくせ等の発話スタイル、ビブラートの深さや周期、話者補間比率、ジェンダーパラメータ(幼い女性的な声から老人男性的な声までの変化)等が挙げられる。パラメータは、話速パラメータを含むことが好ましい。また、発話対象を、表示領域31A〜31Cをまたいで特定される位置を移動させることにより、発話中であっても変更できるようにしてもよい。
The
制御部60は、CPUとメモリとを備えたコンピュータとして構成されている。CPUは、メモリに記憶された制御プログラムを実行することにより、合成部10、再生部20、表示制御部30、指示入力部40および編集部50を制御して、後述する音声合成処理を実現する。
The
図3は、音響モデルによりモデル化する各種の音響パラメータの一例を示す図である。基本周波数は、一般に対数基本周波数ptとして扱われており、その関連パラメータとしては、有声/無声の区別、対数基本周波数の一次微分(Δpt)や二次微分(Δ2pt)が考えられる。これらは音源情報と呼ばれることがある。なお、無声部分は対数基本周波数ptの値を持たない。このため、無声部分に所定の定数を入れる等の方法によって有声/無声の区別を行う。また、スペクトルパラメータとしては、メルケプストラムctやその一次微分(Δct)、二次微分(Δ2ct)などがある。これらは、スペクトル情報と呼ばれることがある。更に、こうした音源情報、スペクトル情報の他に、歌声を合成する場合には、歌唱表現情報を扱う。 FIG. 3 is a diagram illustrating an example of various acoustic parameters modeled by an acoustic model. The fundamental frequency is generally handled as a logarithmic fundamental frequency pt, and as related parameters, voiced / unvoiced discrimination, primary differential (Δpt) and secondary differential (Δ2pt) of the logarithmic fundamental frequency can be considered. These are sometimes called sound source information. The unvoiced part does not have a value of the logarithmic fundamental frequency pt. For this reason, the voiced / unvoiced distinction is made by a method such as putting a predetermined constant in the voiceless part. The spectral parameters include mel cepstrum ct, its first derivative (Δct), and second derivative (Δ2ct). These are sometimes referred to as spectral information. Furthermore, in addition to such sound source information and spectrum information, singing expression information is handled when a singing voice is synthesized.
歌唱表現情報には、音高のビブラートの周期V1ftおよび振幅V1atと、音の大きさのビブラートの周期V2ftおよび振幅V2atとが、音素やフレーム等の単位でモデル化されて含まれている。音高のビブラートの周期、音高のビブラートの振幅、音の大きさのビブラートの周期、音の大きさのビブラートの振幅についても、それぞれに対応する一次微分(Δ)と、二次微分(Δ2)とを持つが、図示の便宜上、図3ではこれら周期および振幅についての一次微分、二次微分の図示を省略している。上記パラメータのうち、メルケプストラムctを初めとする各パラメータの一次微分や二次微分は、時間変動を考慮するために用いられる。動的特徴を考慮することにより、音声の合成時における音と音のつながりが滑らかなものとなる。動的特徴を用いた音声合成の手法については、説明を省略する。 The singing expression information includes the vibrato period V1ft and amplitude V1at of the pitch, and the vibrato period V2ft and amplitude V2at of the loudness modeled in units of phonemes and frames. The pitch vibrato period, the pitch vibrato amplitude, the loudness vibrato period, and the loud vibrato amplitude also correspond to the primary differential (Δ) and the secondary differential (Δ2), respectively. However, for the sake of convenience of illustration, in FIG. 3, illustration of the first and second derivatives for the period and the amplitude is omitted. Of the above parameters, the first and second derivatives of each parameter including the mel cepstrum ct are used to take into account time variations. By taking into account the dynamic features, the connection between sounds during sound synthesis becomes smooth. Description of the speech synthesis method using dynamic features is omitted.
また、音響モデルとしてDNNを用いた場合には、メルケプストラムctの代わりにスペクトルをモデル化してもよいし、上記音響パラメータの代わりに音声波形を音響パラメータとしてモデル化してもよい。 When DNN is used as the acoustic model, a spectrum may be modeled instead of the mel cepstrum ct, or a voice waveform may be modeled as an acoustic parameter instead of the acoustic parameter.
図4は、本実施形態における音声合成装置100を用いたライブでの合成音声再生処理を表すフローチャートである。まず、制御部60は、再生するデータを取得する(ステップS100)。再生するデータとは、予め作成されている発語対象のテキストデータや楽曲の楽譜情報である。取得するデータは、ユーザが直接指定してもよく、また、演奏する曲や発話内容の一覧を順番に記したセットリストに基づいて、自動で取得されてもよい。なお、ステップS100の処理を省略し、その場で発語対象をキーボード等により入力してもよい。次に、制御部60は、指示入力部40を制御して、ステップS100で取得したデータを表示させる(ステップS110)。
FIG. 4 is a flowchart showing the synthesized speech reproduction process in live using the
続いて、制御部60は、データを表示させた後、音声合成処理を行う(ステップS120)。音声合成処理については後述する。最後に、制御部60は、ライブが終了したか否か判定する(ステップS130)。ライブの終了は、例えば、セットリストの最後の楽曲および発話内容が再生されたか否かで判定することが出来る。ライブ終了でないと判定した場合(ステップS130:NO)、ステップS100の処理に戻り、次のデータを取得する。
Subsequently, after displaying the data, the
図5は、本実施形態における音声合成処理を表すフローチャートである。音声合成処理は、ユーザによるタッチペン85の操作に応じて合成音声を合成するための処理である。より具体的には、タッチペン85を操作することによって表示領域31内において特定される位置の移動に応じて合成音声を合成するための処理である。指示入力部40は、まず、タッチペン85による操作があるか否か判定する(ステップS200)。タッチペン85による操作が無い場合(ステップS200:NO)、指示入力部40は、終了指示があったか否か判定する(ステップS240)。一方、タッチペン85による操作がある場合(ステップS200:YES)、指示入力部40は、表示領域31における特定の位置の移動とその移動軌跡の座標を取得する(ステップS210)。
FIG. 5 is a flowchart showing the speech synthesis process in this embodiment. The voice synthesis process is a process for synthesizing synthesized voice in accordance with the operation of the
図6および図7を用いて、表示領域31Aを例として説明する。軌跡は左から右へ矢印方向になぞられたものである。合成部10は、軌跡の矢印方向に発話するようパラメータを生成する。なお、逆方向に発語対象を指定した場合に、発語対象を逆再生されるようパラメータを生成してもよい。図6に示すように、軌跡L1は、「こ」が表示されている表示領域31Aの略矩形状の横幅に対して左から1/3程度の箇所から開始している。編集部50は、予め定められた「こ」の発話の長さに対して、発話開始より1/3程度再生した箇所より再生されるようパラメータを生成する。また、図7に示すように、指示入力部40が、軌跡L2をなぞった後に、軌跡L3をなぞっている場合、編集部50は、指示入力部40が一方向になぞって指定した発語対象である「おん」「ちは」を発話するようパラメータを生成する。
The
次に、編集部50は、ステップS210で取得した軌跡の座標から合成音声のパラメータを編集する(図5、ステップS220)。本実施形態では、編集部50は、特定される位置の座標に応じてパラメータを編集する発語対象を定め、特定される位置の移動速度に応じて話速パラメータを定め、特定される位置の移動形状に応じて音高パラメータを定め、タッチペン85のタッチパネル80を操作する接触の強さ(感圧)に応じて、音量パラメータを定める。より具体的には特定される位置の移動速度が早い場合には、遅い場合よりも短い時間で発話されるよう話速パラメータが設定される。また、特定される位置の移動形状が表示領域31の上下方向における上に向かって移動した場合は音高をあげていき、下に向かって移動した場合は音高を下げていくように音高パラメータが設定される。また、タッチパネル80の感圧が強い場合には、弱い場合よりも大きい音量で発話されるよう音量パラメータが設定される。なお、各パラメータの割り当ては、上述した例に限られず、例えば、編集部50は、特定される位置の移動形状によって話速パラメータや音量パラメータを定めてもよい。また、本実施形態において、編集部50は、特定される位置の移動速度や移動形状にかかわらず、表示領域31の上下方向における上部が選択された場合に、下部が選択された場合よりも音高を高く設定する。
Next, the
続いて、合成部10は、ステップS220で編集したパラメータを用いて合成音声を合成し、再生する(ステップS230)。最後に、合成部10は、終了指示があったか否か判定する(ステップS240)。終了指示は、例えば、ユーザによる終了ボタンの押下である、終了指示があった場合(ステップS240:YES)、合成部10は音声合成処理を終了する。一方、終了指示がない場合(ステップS240:NO)、合成部10は、ステップS200の処理に戻る。
Subsequently, the
以上で説明した本実施形態の音声合成装置100によれば、発語対象をなぞることで、話速パラメータと音高パラメータと音量パラメータを同時に編集できるため、リアルタイムに合成音声を編集できる。
According to the
また、本実施形態では、合成部10は、統計的手法により音響パラメータを学習した音響モデルを用いて音声合成を行っている。そのため、発語対象毎に音声を収録すること無く、合成音声を生成する事ができる。
In the present embodiment, the
また、本実施形態では、編集部50は、タッチペン85のタッチパネル80を操作する感圧に応じて音量パラメータを定めている。そのため、音の大きさを感覚的に編集することができる。
In the present embodiment, the
B.第2実施形態:
図8は、第2実施形態における音声合成装置100Aの概要を示す説明図である。図8に示す第2実施形態の音声合成装置100Aは、伴奏が記憶された記憶部90を備える点が第1実施形態と異なり、他の構成は同一である。記憶部90に記憶された伴奏は再生部20によって読み出され、スピーカ70に出力される。記憶部90に記憶された伴奏は、例えば、MIDI規格で作成された伴奏楽音の演奏データである。
B. Second embodiment:
FIG. 8 is an explanatory diagram showing an overview of the
図9は、第2実施形態における音声合成処理のフローチャートである。図8に示す第2実施形態の音声合成処理は、伴奏が再生されると同時に開始される点と、合成音声が歌声である点が第1実施形態と異なる。第2実施形態の音声合成装置の構成は、第1実施形態の音声合成装置の構成と同一であるため、音声合成装置の構成の説明は省略する。 FIG. 9 is a flowchart of speech synthesis processing in the second embodiment. The voice synthesis process of the second embodiment shown in FIG. 8 is different from the first embodiment in that the voice synthesis process is started at the same time as the accompaniment is reproduced and the synthesized voice is a singing voice. Since the configuration of the speech synthesizer of the second embodiment is the same as that of the speech synthesizer of the first embodiment, description of the configuration of the speech synthesizer is omitted.
音声合成装置100は、まず、記憶部90に記憶された伴奏を再生する(ステップS300)。第2実施形態における音声合成処理を開始するタイミングは、例えば、ユーザによる再生ボタンの押下を処理の開始の契機とし、伴奏の再生と同時に音声合成が再生されてもよい。伴奏の再生速度は、後述する合成音声の編集にかかわらず、予め定められた再生速度であることが好ましい。なお、伴奏の再生タイミングを予め発語対象の再生タイミングに対応付けることで、合成音声の話速パラメータの変化に応じて再生速度や再生タイミングを変化させて、合成音声と同期するように再生してもよい。また、伴奏の代わりに動画が再生されてもよい。次に、指示入力部40は、タッチペン85による操作があるか否か判定する(ステップS310)。タッチペン85による操作が無い場合(ステップS310:NO)、指示入力部40は、終了指示があったか否か判定する(ステップS350)。一方、タッチペン85による操作がある場合(ステップS310:YES)、指示入力部40は、表示領域31における特定の位置の座標および特定の位置の移動とその移動軌跡の座標を取得する(ステップS320)。
The
図10は、第2実施形態で表示制御部30により表示される表示領域31Dの一例である。本実施形態において、発語対象は「さいたさ」である。本実施形態の表示制御部30は、ポインタPを表示してもよく、指示入力部40は特定の位置の移動をポインタPの位置の移動とする。タッチペン85は、ポインタPを移動するポインティングデバイスである。表示領域31Dの発語対象は、合成音声の再生と同時に、テンポに応じた速度で左(矢印方向)にスクロールしていく。基準位置p0は予め定められたテンポで再生した場合の再生位置であり、固定されている。なお、スクロール速度をテンポによらず一定速度にして、表示領域31Dに表示される内容の幅を変更してもよい。
FIG. 10 is an example of a
次に、編集部50は、ステップS320で取得したポインタPの動作と座標から合成音声のパラメータを編集する(図9、ステップS330)。編集部50は、例えば、以下のポインタPの動作に応じて、パラメータを編集する。
Next, the
<動作1>ポインタPが特定の位置を選択する
<動作2>ポインタPが表示領域31Dを左方向になぞる
<動作3>ポインタPが表示領域31Dを右方向になぞる
<Operation 1> Pointer P selects a specific position <Operation 2> Pointer P traces
上述した動作1の場合、編集部50は、基準位置p0に対してポインタPで特定される位置(以下、特定位置p1)に応じて、再生位置を定める。より具体的には特定位置p1が基準位置p0より右にずれている場合には、ずれの大きさに応じて先にシークするよう再生位置が設定される。現在の再生箇所から特定位置p1に直接移動して再生してもよく、現在の再生箇所から特定位置p1までを補間してなめらかに発語対象が再生されるようパラメータを設定してもよい。また、現在の再生箇所から特定位置p1までの間の発語対象を不連続に再生してもよい。
In the case of the operation 1 described above, the
上述した動作2の場合、編集部50は、ポインタPが表示領域31Dを左方向に発語対象のスクロール速度より遅くなぞった場合には、予め定められたテンポより長い時間で発話されるよう話速パラメータを定める。また、発語対象のスクロール速度より早くなぞった場合には、逆再生されるよう話速パラメータを設定する。つまり、話速パラメータは、発語対象のスクロール速度とポインタPが左方向になぞる速度の差により定められる。
In the case of the operation 2 described above, when the pointer P traces the
上述した動作3の場合、編集部50は、ポインタPが表示領域31Dを右方向になぞった場合には、なぞる速度に応じて、予め定められたテンポより短い時間で発話されるよう話速パラメータを定める。
In the case of operation 3 described above, when the pointer P traces the
続いて、合成部10は、ステップS330で編集したパラメータを用いて合成音声を合成し、再生する(ステップS340)。合成部10は、終了指示があったか否か判定する(ステップS350)。終了指示は、例えば、ユーザによる終了ボタンの押下である。終了指示がない場合(ステップS350:NO)、合成部10は、伴奏の再生が完了したかどうか判定する(ステップS360)。再生が完了していない場合(ステップS360:NO)、ステップS310から処理を繰り返す。再生が完了した場合(ステップS360:YES)、音声合成処理は終了する。なお、合成部10は、ステップS360において伴奏の再生が完了したと判断した場合においても、指示入力部40への入力が続いている場合に、指示入力部40への入力がなくなるまで合成音声の再生を続けてもよい。例えば、合成音声の最後の歌詞をロングトーンで伸ばすような再生をしてもよい。
Subsequently, the
なお、本実施形態において、指示入力部40への入力をしていない間は、再生部20は、指示入力部40へ再度入力があるまで、合成音声を消音で再生するが、予め定められた話速パラメータを用いて再生させるよう音声合成を行ってもよい。また、合成部10は、合成音声の再生を途中で停止するよう音声合成を行ってもよい。例えば、合成部10は、指示入力部40への入力が予め定められた時間、無かった場合に、予定していた合成音声の再生が完了する前に、合成音声の再生を停止するようフェードアウトするように音声合成を行い、その後合成音声の再生を停止してもよい。また、再生部20は、予定していた合成音声の再生が完了する前に、消音で再生してもよい。なお、伴奏は再生を継続していてもよく、合成音声と同時に停止や消音で再生してもよい。
In the present embodiment, while the input to the
以上で説明した本実施形態の音声合成装置100によれば、再生している発語対象をなぞることで、話速パラメータを編集できるため、リアルタイムに合成音声を編集・再生できる。
According to the
C.その他の実施形態:
上記実施形態において、合成部10は、統計的手法により音響パラメータを学習した音響モデルを用いて音声合成を行っている。この代わりに、合成部10は、波形接続方式を用いて音声合成を行ってもよい。
C. Other embodiments:
In the above embodiment, the
また、上記実施形態において、合成部10は、生成したパラメータ値を記憶し、次回の合成音声の再生時には、記憶したパラメータ値を用いて音声合成を行い再生してもよい。ここで「次回」の合成音声の再生とは、音声合成処理を終えた以降に合成音声を再生する事を意味する。
In the above embodiment, the synthesizing
また、上記実施形態において、編集部50は、指示入力部40のなぞった軌跡の形状と速度と感圧に応じて、それぞれパラメータに含まれるパラメータ値を定めている。この代わりに、合成部10は、タッチペン85の傾きや予め用意したデバイスである外部コントローラ等の値を用いて、各パラメータに含まれるパラメータ値を定めてもよい。
In the above embodiment, the
また、上記実施形態において、表示制御部30は、発語内容や楽譜の各パートに対応するような音程が異なる複数の発語領域が表示されていてもよい。この形態によれば、各発語領域を指示入力部40により選択することで、様々な音声をずらしながら合成することができる。また、1つの発語領域への指示入力部40の入力を他の指示入力部40にも反映されてもよい。
Moreover, in the said embodiment, the
また、上記第2実施形態において、編集部50は、特定位置p1に応じて、再生位置を定めている。この代わりに、編集部50は、特定位置p1に応じて話速パラメータを定めてもよい。例えば、特定位置p1が基準位置p0より右にずれている場合には、ずれの大きさに応じて話速が早くなるように話速パラメータを設定してもよい。
In the second embodiment, the
また、上記第2実施形態において、編集部50は、ポインタPのなぞる速度に応じて、話速パラメータを定めているが、発語対象のスクロール速度を併せて変更してもよい。
In the second embodiment, the
本発明は、上述の実施形態に限られるものではなく、その趣旨を逸脱しない範囲において種々の構成で実現することができる。例えば発明の概要の欄に記載した各形態中の技術的特徴に対応する実施形態中の技術的特徴は、上述した課題を解決するために、あるいは上述の効果の一部又は全部を達成するために、適宜、差し替えや組み合わせを行うことが可能である。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜削除することが可能である。 The present invention is not limited to the above-described embodiment, and can be realized with various configurations without departing from the spirit of the present invention. For example, the technical features in the embodiments corresponding to the technical features in each embodiment described in the summary section of the invention are for solving the above-described problems or achieving some or all of the above-described effects. In addition, replacement and combination can be performed as appropriate. Further, if the technical feature is not described as essential in the present specification, it can be deleted as appropriate.
10…合成部、11…音響モデル、12…合成エンジン、13…パラメータ、20…再生部、30…表示制御部、31、31A、31B、31C、31D…表示領域、40…指示入力部、50…編集部、60…制御部、70…スピーカ、80…タッチパネル、85…タッチペン、90…記憶部、100、100A…音声合成装置、L1、L2、L3…軌跡、P…ポインタ、p0…基準位置、p1…特定位置
DESCRIPTION OF
Claims (10)
合成する合成音声の発語対象を、前記発語対象を構成する文字と前記文字を発話するための表記との少なくとも一方によって、予め定めた表示領域に表示する表示制御部と、
前記発語対象を、指定されたパラメータを用いて音声合成する合成部と、
予め用意されたデバイスを操作することによって選択される前記表示領域内における特定の位置を移動させる指示入力部と、
前記特定される位置の座標と移動速度と移動形状とのうち少なくとも前記移動速度を含む一つ以上により、前記パラメータを編集する編集部と、
前記合成音声を再生する再生部と、を備え、
前記表示制御部は、予め定められたスクロール速度で前記発語対象をスクロールし、
前記パラメータは前記発語対象の少なくとも発語の速度を調整する第1パラメータを含み、
前記第1パラメータは、前記スクロール速度と前記移動速度との差に応じて定められ、
前記合成部は、前記編集部より取得した前記デバイスによる操作を反映したパラメータを用いて逐次音声合成を行い、合成した前記合成音声を逐次前記再生部より再生する、音声合成装置。 A speech synthesizer,
A display control unit that displays a speech target of the synthesized speech to be synthesized in a predetermined display area by at least one of a character constituting the speech target and a notation for speaking the character;
A synthesizer that synthesizes the speech object using a designated parameter;
An instruction input unit for moving a specific position in the display area selected by operating a device prepared in advance;
An editing unit that edits the parameter according to one or more including at least the moving speed among the coordinates, moving speed, and moving shape of the specified position;
A playback unit for playing back the synthesized speech,
The display control unit scrolls the speech object at a predetermined scroll speed,
The parameter includes a first parameter that adjusts at least a speed of the speech of the speech target;
The first parameter is determined according to a difference between the scroll speed and the moving speed,
The speech synthesis apparatus, wherein the synthesis unit sequentially performs speech synthesis using parameters obtained from the editing unit and reflecting the operation by the device, and sequentially reproduces the synthesized speech from the playback unit.
前記合成部は、前記合成音声を統計的手法により音響パラメータを学習した音響モデルを用いて音声合成を行う音声合成装置。 The speech synthesizer according to claim 1,
The synthesis unit is a speech synthesizer that performs speech synthesis using an acoustic model obtained by learning acoustic parameters of the synthesized speech by a statistical method.
前記表示制御部は、ポインタを表示可能で有り、
前記指示入力部は、前記特定の位置の移動を前記ポインタの位置の移動として実現する、音声合成装置。 The speech synthesizer according to claim 1 or 2,
The display control unit can display a pointer,
The instruction input unit is a speech synthesizer that realizes movement of the specific position as movement of the position of the pointer.
前記デバイスは、前記表示制御部に表示された前記ポインタを移動させるポインティングデバイスである、音声合成装置。 The speech synthesizer according to claim 3,
The speech synthesizer, wherein the device is a pointing device that moves the pointer displayed on the display control unit.
前記デバイスは前記表示領域を有するタッチパネルである、音声合成装置。 The speech synthesizer according to any one of claims 1 to 3,
The speech synthesizer, wherein the device is a touch panel having the display area.
前記編集部は、前記デバイスの感圧に応じて、前記発語対象の表現の態様に関するパラメータであり、前記発語対象の発語の速度以外の要素を調整する第2パラメータを編集する、音声合成装置。 The speech synthesizer according to any one of claims 1 to 5,
The editing unit edits a second parameter that adjusts an element other than the speed of the speech target speech according to a pressure sensitivity of the device and adjusts elements other than the speed of the speech target speech. Synthesizer.
前記合成部は、前記再生部が伴奏を再生するのと並行して音声合成を行い、合成した前記合成音声を逐次前記再生部より再生する、音声合成装置。 The speech synthesizer according to any one of claims 1 to 6,
The speech synthesis apparatus, wherein the synthesis unit performs speech synthesis in parallel with the reproduction unit reproducing the accompaniment, and sequentially reproduces the synthesized speech synthesized from the reproduction unit.
前記表示制御部は、前記発語対象を、前記発語対象を構成する文字および前記文字を発話するための表記によって予め定めた表示領域に表示する、音声合成装置。 The speech synthesizer according to any one of claims 1 to 7,
The speech synthesizer, wherein the display control unit displays the utterance target in a display area predetermined by characters constituting the utterance target and a notation for speaking the character.
前記表示制御部は、前記発語対象を構成する各文字と前記文字を発話するための各表記との少なくとも一方を、発語させようとする時間に応じた長さによって、前記表示領域に表示する、音声合成装置。 The speech synthesizer according to any one of claims 1 to 8,
The display control unit displays, in the display area, at least one of each character constituting the speech object and each notation for speaking the character according to a length corresponding to the time to speak. A speech synthesizer.
合成する合成音声の発語対象を、前記発語対象を構成する文字と前記文字を発話するための表記との少なくとも一方によって予め定めた表示領域に表示する表示工程と、
前記発語対象を、指定されたパラメータを用いて音声合成する音声合成工程と、
予め用意されたデバイスを操作することによって選択される前記表示領域内における特定の位置を移動する移動工程と、
予め定められたスクロール速度で前記発語対象をスクロールするスクロール工程と、
前記特定される位置の座標と移動速度と移動形状とのうち少なくとも前記移動速度を含む一つ以上により、前記パラメータを編集する編集工程と、
前記音声合成工程において、前記編集工程で取得した前記デバイスによる操作を反映したパラメータを用いて逐次音声合成を行い、合成した前記合成音声を逐次再生する再生工程と、を備え、
前記パラメータは前記発語対象の少なくとも発語の速度を調整するパラメータを含み、前記第1パラメータは、前記スクロール速度と前記移動速度との差に応じて定められる、音声合成方法。 A speech synthesis method,
A display step of displaying a speech target of the synthesized speech to be synthesized in a predetermined display area by at least one of a character constituting the speech target and a notation for speaking the character;
A speech synthesis step of synthesizing the speech object using designated parameters;
A moving step of moving a specific position in the display area selected by operating a device prepared in advance;
A scrolling step of scrolling the speech object at a predetermined scrolling speed;
The above one including at least the moving speed of the movement trajectory and the coordinates and the moving speed of the position to be the specific, an editing step for editing the parameters,
In the speech synthesis step, a sequential speech synthesis is performed using parameters reflecting the operation by the device acquired in the editing step, and a playback step of sequentially reproducing the synthesized speech synthesized, and
The parameters observed contains a parameter for adjusting a speed of at least speech of the calling language object, the first parameter is determined according to the difference between the scroll speed and the moving speed, the speech synthesis method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018166693A JP6583756B1 (en) | 2018-09-06 | 2018-09-06 | Speech synthesis apparatus and speech synthesis method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018166693A JP6583756B1 (en) | 2018-09-06 | 2018-09-06 | Speech synthesis apparatus and speech synthesis method |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019151661A Division JP2020042258A (en) | 2019-08-22 | 2019-08-22 | Voice synthesis device and voice synthesis method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6583756B1 true JP6583756B1 (en) | 2019-10-02 |
JP2020042056A JP2020042056A (en) | 2020-03-19 |
Family
ID=68095268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018166693A Active JP6583756B1 (en) | 2018-09-06 | 2018-09-06 | Speech synthesis apparatus and speech synthesis method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6583756B1 (en) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09265299A (en) * | 1996-03-28 | 1997-10-07 | Secom Co Ltd | Text reading device |
JPH11203103A (en) * | 1998-01-16 | 1999-07-30 | Hitachi Ltd | Document reading aloud device |
JP2011053900A (en) * | 2009-09-01 | 2011-03-17 | Fujitsu Ltd | Method for setting oral reading condition of document data and information processing terminal to be used for the method |
JP5879682B2 (en) * | 2010-10-12 | 2016-03-08 | ヤマハ株式会社 | Speech synthesis apparatus and program |
JP6003195B2 (en) * | 2012-04-27 | 2016-10-05 | ヤマハ株式会社 | Apparatus and program for performing singing synthesis |
JP5895740B2 (en) * | 2012-06-27 | 2016-03-30 | ヤマハ株式会社 | Apparatus and program for performing singing synthesis |
JP6620462B2 (en) * | 2015-08-21 | 2019-12-18 | ヤマハ株式会社 | Synthetic speech editing apparatus, synthetic speech editing method and program |
JP2017097332A (en) * | 2016-08-26 | 2017-06-01 | 株式会社テクノスピーチ | Voice synthesizer and voice synthesizing method |
JP2017107228A (en) * | 2017-02-20 | 2017-06-15 | 株式会社テクノスピーチ | Singing voice synthesis device and singing voice synthesis method |
-
2018
- 2018-09-06 JP JP2018166693A patent/JP6583756B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020042056A (en) | 2020-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5895740B2 (en) | Apparatus and program for performing singing synthesis | |
JP6236765B2 (en) | Music data editing apparatus and music data editing method | |
US9355634B2 (en) | Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon | |
JP6728754B2 (en) | Pronunciation device, pronunciation method and pronunciation program | |
JP2017040867A (en) | Information processor | |
JP6507579B2 (en) | Speech synthesis method | |
JP5625321B2 (en) | Speech synthesis apparatus and program | |
JP5549521B2 (en) | Speech synthesis apparatus and program | |
JP6003195B2 (en) | Apparatus and program for performing singing synthesis | |
JP5423375B2 (en) | Speech synthesizer | |
JP2019066648A (en) | Method for assisting in editing singing voice and device for assisting in editing singing voice | |
JP6583756B1 (en) | Speech synthesis apparatus and speech synthesis method | |
JP6255744B2 (en) | Music display device and music display method | |
JP6179221B2 (en) | Sound processing apparatus and sound processing method | |
US11437016B2 (en) | Information processing method, information processing device, and program | |
JP5157922B2 (en) | Speech synthesizer and program | |
JP3807380B2 (en) | Score data editing device, score data display device, and program | |
JP2020042258A (en) | Voice synthesis device and voice synthesis method | |
JP4720974B2 (en) | Audio generator and computer program therefor | |
JP5106437B2 (en) | Karaoke apparatus, control method therefor, and control program therefor | |
JP6149917B2 (en) | Speech synthesis apparatus and speech synthesis method | |
JP7186476B1 (en) | speech synthesizer | |
JP2014089475A (en) | Voice synthesizer and program | |
JP5552797B2 (en) | Speech synthesis apparatus and speech synthesis method | |
JP7158331B2 (en) | karaoke device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181005 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20181005 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190314 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190604 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190813 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190822 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6583756 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |