JP2010026223A - Target parameter determination device, synthesis voice correction device and computer program - Google Patents
Target parameter determination device, synthesis voice correction device and computer program Download PDFInfo
- Publication number
- JP2010026223A JP2010026223A JP2008187035A JP2008187035A JP2010026223A JP 2010026223 A JP2010026223 A JP 2010026223A JP 2008187035 A JP2008187035 A JP 2008187035A JP 2008187035 A JP2008187035 A JP 2008187035A JP 2010026223 A JP2010026223 A JP 2010026223A
- Authority
- JP
- Japan
- Prior art keywords
- sample
- voice
- time
- speech
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、合成音声の韻律を決定する目標パラメータ決定装置、決定された韻律に従って合成音声を修正する合成音声修正装置、及びこれらのコンピュータプログラムに関する。 The present invention relates to a target parameter determination device that determines a prosody of a synthetic speech, a synthetic speech correction device that corrects a synthetic speech according to the determined prosody, and a computer program thereof.
合成音声の韻律は、その発話内容や前後の文脈などの言語情報に基づいて予測生成されることが多い。予測生成された韻律が不自然である場合には、合成音声の韻律を自然な韻律(以下、「目標韻律」という。)に修正する必要がある。
特許文献1には、韻律の修正を行なう修正者を補助するユーザインターフェースに関する技術が開示されている。特許文献1に開示された技術では、まず修正者が、合成音声の韻律を目標韻律に修正する処理に用いられるパラメータ(以下、「目標パラメータ」という。)の値を決定する。そして、利用者は、決定された目標パラメータの値に基づいて、画面に表示されたスライダーを操作し、各音節の韻律を修正する。
The prosody of a synthesized speech is often predicted and generated based on linguistic information such as the content of the utterance and the context before and after. When the predicted and generated prosody is unnatural, it is necessary to correct the prosody of the synthesized speech to a natural prosody (hereinafter referred to as “target prosody”).
また、特許文献2には、発話された音声を録音し、録音された音声から特徴パラメータを抽出する技術が開示されている。また、特許文献3には、韻律変換を行う技術が開示されている。この特許文献3に開示された技術では、韻律も含めた音声変換が、音声素片に対して行われる。また、非特許文献1にも、韻律変換を行う技術が開示されている。
しかしながら、目標パラメータの具体的な値を決定するには専門的な知識や経験を要するため、修正対象である合成音声(以下、「修正対象音声」という。)の修正後の韻律のイメージを修正者が持っていても、修正者が目標パラメータの具体的な値を決定することは困難であるという問題があった。さらには、このような専門的な知識や経験を有している修正者であっても、目標パラメータを決定する作業には多くの時間を要してしまうという問題があった。 However, since it takes technical knowledge and experience to determine the specific value of the target parameter, the image of the prosody after correction of the synthesized speech to be corrected (hereinafter referred to as “correction target speech”) is corrected. However, it is difficult for the corrector to determine a specific value of the target parameter. Furthermore, even a corrector having such specialized knowledge and experience has a problem that it takes a lot of time to determine a target parameter.
本発明は、上記事情を考慮して為されたものであり、目標パラメータを容易に決定することを可能とする目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラムを提供することを目的とするものである。 The present invention has been made in view of the above circumstances, and an object thereof is to provide a target parameter determination device, a synthesized speech correction device, and a computer program that can easily determine a target parameter. Is.
[1]上記の課題を解決するため、本発明の一態様による目標パラメータ決定装置は、音声と、前記音声の発話内容と、前記音声の基本周波数の時間変化情報と、前記音声に含まれる音素のタイミングを表す音素の時間情報とを対応付けて記憶する音声データ記憶部と、音声の基本周波数の時間変化情報と前記音声に含まれる音素のタイミングを表す音素の時間情報とを有する見本音声データを取得し、前記見本音声データの種別に応じて、音調の見本である音調見本データと音高の見本である音高見本データと音素タイミングの見本である時間見本データとを選択し、選択された前記音高見本データおよび前記音調見本データそれぞれの基本周波数の時間変化情報と、選択された前記音調見本データと前記時間見本データそれぞれの音素の時間情報とを取得する韻律選択部と、前記音調見本データが有する前記基本周波数の時間変化情報を、前記音高見本データが有する前記基本周波数の時間変化情報に応じて変更し、さらに前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる基本周波数の時間変化情報を決定するとともに、前記音調見本データが有する音素の時間情報を、前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる音素の時間情報を決定する目標パラメータ決定部と、を具備することを特徴とする。
ここで、基本周波数の時間変化情報は、基本周波数の値が経過時間毎に配列されたデータである。この基本周波数の値は、絶対的な音の高さに対応している。従って、上述の基本周波数の時間変化情報は、音の高さを含む。
この構成によれば、音調見本データと、音高見本データと、時間情報見本データとのそれぞれが、見本音声データの種別に応じて選択される。そして、音高見本の基本周波数の時間変化情報に応じて、音調見本の基本周波数の時間変化情報が変更され、さらに、時間見本データの音素の時間情報に合わせるように変更されることにより、目標となる基本周波数の時間変化情報が得られる。さらに、音調見本データの音素の時間情報を、時間見本データの音素の時間情報に合わせることによって、目標となる音素の時間変化情報が決定される。
[1] In order to solve the above-described problem, a target parameter determination apparatus according to an aspect of the present invention includes a voice, speech content of the voice, time change information of the fundamental frequency of the voice, and phonemes included in the voice. Audio data storage unit for storing the time information of the phonemes representing the timing of the sound, the time variation information of the basic frequency of the sound, and the time information of the phonemes representing the timing of the phonemes included in the sound In accordance with the type of the sample audio data, the tone sample data that is a sample of tone, the pitch sample data that is a sample of pitch, and the time sample data that is a sample of phoneme timing are selected and selected. Further, time change information of the fundamental frequency of each of the pitch sample data and the tone sample data, and the phoneme of each of the selected tone sample data and the time sample data Prosody selection unit for acquiring interval information, time change information of the fundamental frequency included in the tone sample data is changed according to time change information of the fundamental frequency included in the pitch sample data, and further the time sample The time change information of the fundamental frequency as a target parameter is determined by matching with the time information of the phoneme included in the data, and the time information of the phoneme included in the tone sample data is matched with the time information of the phoneme included in the time sample data. And a target parameter determination unit that determines time information of phonemes as target parameters.
Here, the time change information of the fundamental frequency is data in which the values of the fundamental frequency are arranged for each elapsed time. This fundamental frequency value corresponds to the absolute pitch of the sound. Therefore, the time change information of the fundamental frequency described above includes the pitch of the sound.
According to this configuration, each of the tone sample data, the pitch sample data, and the time information sample data is selected according to the type of the sample audio data. Then, according to the time change information of the fundamental frequency of the pitch sample, the time change information of the basic frequency of the tone sample is changed, and further changed to match the time information of the phoneme of the time sample data, so that the target The time change information of the fundamental frequency is obtained. Furthermore, the time change information of the target phoneme is determined by matching the time information of the phonemes of the tone sample data with the time information of the phonemes of the time sample data.
[2]また、本発明の一態様は、上記の目標パラメータ決定装置において、音声の入力を受け付ける音声入力部と、前記音声に対応する発話内容を取得する発話内容取得部と、前記音声入力部によって受け付けられた前記音声と前記発話内容とに基づき、当該音声の基本周波数の時間変化情報及び当該音声の音素の時間情報を算出する音声分析部と、をさらに具備し、前記韻律選択部は、前記音声分析部によって算出された前記基本周波数の時間変化情報及び前記音素の時間情報を有する前記音声を前記見本音声データとして取得する、ことを特徴とする。
この構成によれば、音声と当該音声の発話内容との入力を受け付け、この受け付けられた音声と発話内容を基に、音声の基本周波数の時間変化情報と音素の時間情報とを得て、見本音声データを得るようにした。これにより、入力される音声を音声見本音声データとして用いることが可能となる。
[2] Further, according to one aspect of the present invention, in the target parameter determination device, a voice input unit that receives voice input, an utterance content acquisition unit that acquires utterance content corresponding to the voice, and the voice input unit A speech analysis unit that calculates time change information of the fundamental frequency of the speech and time information of the phoneme of the speech based on the speech and the utterance content received by the voice, and the prosody selection unit, The voice having the time change information of the fundamental frequency and the time information of the phoneme calculated by the voice analysis unit is acquired as the sample voice data.
According to this configuration, the input of the voice and the utterance content of the voice is accepted, and the time change information of the fundamental frequency of the voice and the time information of the phoneme are obtained based on the received voice and the utterance content, and the sample is obtained. Audio data was obtained. This makes it possible to use the input voice as voice sample voice data.
[3]また、本発明の一態様は、上記の目標パラメータ決定装置において、見本音声データを選択する指示の入力を受け付ける見本音声指定部と、前記見本音声指定部が受け付けた指示に基づいて前記音声データ記憶部を検索することによって前記見本音声データを得る見本音声検索部をさらに具備し、前記韻律選択部は、前記見本音声検索部が得た見本音声データを取得する、ことを特徴とする。
この構成によれば、音声データ記憶部に記憶された音声データの中から、見本を選択する指示に応じた音声データを、見本音声データとして用いることができる。
[3] Further, according to an aspect of the present invention, in the target parameter determination device, the sample voice designation unit that receives an input of an instruction to select sample voice data, and the instruction received by the sample voice designation unit A sample voice search unit that obtains the sample voice data by searching a voice data storage unit is further provided, and the prosody selection unit acquires the sample voice data obtained by the sample voice search unit. .
According to this configuration, audio data corresponding to an instruction for selecting a sample from the audio data stored in the audio data storage unit can be used as the sample audio data.
[4]また、本発明の一態様は、上記の目標パラメータ決定装置において、修正対象となる修正対象音声を選択する指示の入力を受け付ける修正対象音声指定部と、前記音声データ記憶部を検索することによって前記修正対象音声の表記と同じ表記を有する見本音声を得る見本音声検索部をさらに具備し、前記韻律選択部は、前記見本音声検索部が得た見本音声データを取得する、ことを特徴とする。
この構成によれば、修正対象の音声の指定に応じて、音声に対応する発話内容を有する見本音声データが得られる。
[4] Further, according to one aspect of the present invention, in the target parameter determination device, a correction target voice designation unit that receives an input of an instruction to select a correction target voice to be corrected, and the voice data storage unit are searched. A sample voice search unit that obtains a sample voice having the same notation as the correction target voice, and the prosody selection unit acquires the sample voice data obtained by the sample voice search unit. And
According to this configuration, sample voice data having the utterance content corresponding to the voice is obtained in accordance with the designation of the voice to be corrected.
[5]また、本発明の一態様は、上記の目標パラメータ決定装置において、修正対象である音声を記憶する修正対象音声記憶部と、前記音声データ記憶部から、前記修正対象である音声の表記と異なる表記であって、かつ、音素数またはモーラ数が一致する見本音声データを得る見本音声検索部と、をさらに具備し、前記韻律選択部は、前記見本音声検索部が得た見本音声データを取得する、ことを特徴とする。 [5] Further, according to one aspect of the present invention, in the target parameter determination apparatus, a correction target voice storage unit that stores a voice that is a correction target and a notation of the voice that is the correction target from the voice data storage unit A sample voice search unit that obtains sample voice data having a different notation and the same phoneme number or mora number, and the prosody selection unit includes the sample voice data obtained by the sample voice search unit It is characterized by acquiring.
[6]また、本発明の一態様は、合成音声修正装置であって、上記の目標パラメータ決定装置と、修正対象である音声を記憶する修正対象音声記憶部(合成音声記憶部)と、前記修正対象音声を読み出し、前記目標パラメータ決定装置によって決定された前記基本周波数の時間変化情報及び音素の時間情報に基づいて前記修正対象音声を修正する修正部と、を具備することを特徴とする。
この構成によれば、見本音声データが指定されることのみによって、目標パラメータ決定装置が修正対象となる合成音声の目標パラメータが決定される。そして、決定された目標パラメータに基づいて、修正対象の音声データの韻律の修正が行われる。
[6] Moreover, one aspect of the present invention is a synthesized speech correction device, the target parameter determination device described above, a correction target speech storage unit (synthesized speech storage unit) that stores speech to be corrected, A correction unit that reads the correction target voice and corrects the correction target voice based on the time change information of the fundamental frequency and the time information of the phoneme determined by the target parameter determination device.
According to this configuration, the target parameter of the synthesized speech to be corrected by the target parameter determination device is determined only by specifying the sample voice data. Then, based on the determined target parameter, the prosody of the audio data to be corrected is corrected.
[7]また、本発明の一態様によるコンピュータプログラムは、音声と、前記音声の発話内容と、前記音声の基本周波数の時間変化情報と、前記音声に含まれる音素のタイミングを表す音素の時間情報とを対応付けて記憶する音声データ記憶部を有するコンピュータを、音声の基本周波数の時間変化情報と前記音声に含まれる音素のタイミングを表す音素の時間情報とを有する見本音声データを取得し、前記見本音声データの種別に応じて、音調の見本である音調見本データと音高の見本である音高見本データと音素のタイミングの見本である時間見本データとを選択し、選択された前記音高見本データおよび前記音調見本データそれぞれの基本周波数の時間変化情報と、選択された前記音調見本データと前記時間見本データそれぞれの音素の時間情報とを取得する韻律選択手段、前記音調見本データが有する前記基本周波数の時間変化情報を、前記音高見本データが有する前記基本周波数の時間変化情報に応じて変更し、さらに前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる基本周波数の時間変化情報を決定するとともに、前記音調見本データが有する音素の時間情報を、前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる音素の時間情報を決定する目標パラメータ決定手段、として機能させるためのコンピュータプログラムである。 [7] In addition, the computer program according to one aspect of the present invention provides a phoneme, utterance content of the speech, time change information of the fundamental frequency of the speech, and time information of phonemes indicating timing of phonemes included in the speech. A computer having a voice data storage unit that stores and associates with each other, obtains sample voice data having time change information of the fundamental frequency of voice and time information of phonemes representing the timing of phonemes included in the voice, According to the type of sample audio data, tone sample data that is a sample of tone, pitch sample data that is a sample of pitch, and time sample data that is a sample of phoneme timing are selected, and the selected pitch Time variation information of the fundamental frequency of each of the sample data and the tone sample data, and the phonemes of the selected tone sample data and the time sample data, respectively. Prosody selection means for acquiring time information, time change information of the fundamental frequency of the tone sample data is changed according to time change information of the fundamental frequency of the pitch sample data, and the time sample data The time change information of the fundamental frequency serving as a target parameter is determined by matching with the time information of the phoneme possessed by the phoneme, and the time information of the phoneme included in the tone sample data is matched with the time information of the phoneme included in the time sample data Is a computer program for functioning as target parameter determining means for determining time information of phonemes as target parameters.
本発明により、合成音声の韻律を目標韻律に修正する処理に用いるための目標パラメータの値を修正者が具体的に検討することなく、目標パラメータを容易に決定することが可能となる。 According to the present invention, it is possible to easily determine a target parameter without requiring the corrector to specifically examine the value of the target parameter to be used for processing for correcting the prosody of the synthesized speech to the target prosody.
[第1の実施の形態]
以下、本発明の複数の実施形態について、図面を参照しながら説明する。
図1は、第1の実施形態による目標パラメータ決定装置の機能構成を表すブロック図である。図示するように、目標パラメータ決定装置1は、音声データベース11と、修正対象音声指定部12と、合成音声記憶部13と、音声入力部14と、音声テキスト入力部15(発話内容取得部)と、音声分析部16と、見本音声指定部17と、見本音声検索部18と、韻律選択部19と、目標パラメータ決定部20とを含んで構成される。
[First Embodiment]
Hereinafter, a plurality of embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram illustrating a functional configuration of a target parameter determination device according to the first embodiment. As shown in the figure, the target
音声データベース11は、音声信号の振幅の時系列データである音声の音声信号データと、音声の韻律情報と、発話者識別情報とを含む音声データを記憶する。韻律情報は、基本周波数の時間変化情報と音素の時間情報とからなる。発話者識別情報は、音声を発声する発話者を識別する識別情報である。
音声データベース11は、ハードディスク装置や光磁気ディスク装置、半導体メモリ、
CD−ROM等の記録媒体、あるいはこれらの組み合わせにより構成される。
The
The
It is configured by a recording medium such as a CD-ROM or a combination thereof.
修正対象音声指定部12は、合成音声記憶部13に記憶される合成音声の中から、修正対象である合成音声を選択する指示の入力を受け付ける。修正対象音声指定部12は、合成音声データを指定する入力を、例えば、修正対象である合成音声データの発話内容を表すテキストデータによって受け付ける。修正対象音声指定部12には、例えば、キーボードやマウス等の入力装置が用いられる。
合成音声記憶部13は、音声の音声信号データと、音声の韻律情報と、発話内容(表記)と、発話者識別情報とを含む合成音声データを記憶する。
The correction target
The synthesized
音声入力部14は、マイクロフォン等を用いて、見本となる音声である見本音声の入力を受け付ける。
音声テキスト入力部15は、音声入力部14が受け付けた見本音声の発話内容を表すテキストデータの入力を受け付ける。この音声テキスト入力部15は、例えば、キーボードやマウス等の入力装置が用いられる。
The
The voice
音声分析部16は、音声テキスト入力部15が入力を受け付けたテキストデータに基づいて、音声入力部14から入力された見本音声を分析し、見本音声の韻律情報を生成する。具体的には、音声分析部16は、音声認識技術の強制アラインメントを実行することによって、音声信号データと音素ラベルとを有する音響モデルを用い、音声テキスト入力部15が入力を受け付けたテキストデータから得られる音素ラベルに対応する音響モデルを見本音声にそれぞれ当てはめ、隣り合う音素ラベルに対する時間軸方向の境界を検出して、音素毎の開始時点と終了時点を決定し、音素の時間情報を得る。
さらに、音声分析部16は、見本音声の基本周波数の時間変化情報を有声区間(声帯の振動を伴う音声である有声音声の区間)において生成し、生成された基本周波数の値に対し、有声区間の分析値を用いてスプライン関数などによりスムージングを行うことによって、変化が滑らかな基本周波数の時間変化情報を生成する。このとき、音声分析部16は、基本周波数の値を取得できない無声区間(声帯の振動を伴わない音声である無声音声の区間)については、この無声区間の前後の有声区間の基本周波数の値から内挿した値を用いて、無声区間の基本周波数を補間する。
The
Furthermore, the
見本音声指定部17は、音声データベース11に記憶される音声データのうち、修正を行う場合における見本となる音声(見本音声)の発話内容のテキストを、例えば、かな表記と漢字表記と音素ラベル表記とのいずれかによって受け付ける。具体的には、見本音声指定部17は、他語同話者音声と、他語他話者音声と、同語他話者音声とのいずれかの指定を受け付ける。他語同話者音声とは、修正対象音声と発話者識別情報が同一であり、且つ修正対象音声と発話内容が異なる音声である。他語他話者音声とは、修正対象音声と発話者識別情報が異なり、且つ修正対象音声と発話内容が異なる音声である。同語他話者音声とは、修正対象音声と発話者識別情報が異なり、且つ修正対象音声と発話内容が同一の音声である。例えば、見本音声指定部17には、キーボードやマウス等の入力装置が用いられる。
The sample
見本音声検索部18は、他語同話者音声と、他語他話者音声と、同語他話者音声との韻律情報とのうち少なくともいずれかを、音声データベース11から読み出す。
また、見本音声検索部18は、見本音声指定部17によって受け付けられた修正対象音声の、発話内容を表すテキストデータと発話者識別情報とをキーにして音声データベース11を検索し、その結果、見本音声を得る。
The sample
Further, the sample
韻律選択部19は、音声分析部16が生成した見本音声(他語同話者音声と他語他話者音声と同語他話者音声のうち少なくともいずれか1つ)の韻律情報と、見本音声検索部18が読み出した見本音声(他語同話者音声と他語他話者音声と同語他話者音声のうち少なくともいずれか1つ)の韻律情報と、または修正対象の合成音声の韻律情報との中から、目標パラメータ決定処理に用いられる音調見本(音調の見本である音調見本データ)、音高見本(音高の見本である音高見本データ)、及び時間情報見本(音素タイミングの見本である時間見本データ)をそれぞれ選択する韻律選択処理を行う。ここで、音高とは、音の高さであり、例えば、音声の基本周波数によって表される。例えば、音高は、基本周波数の時間変化情報に含まれる基本周波数の値の最大値や最小値や平均値が用いられる。なお、基本周波数とは、音声の調波成分の中で最も低い周波数である。音調とは、声の高さの配置(高さアクセント)であり、基本周波数の値の相対的または絶対的な変化の時系列によって表される。
韻律選択処理の詳細については、後で図面を参照しながら説明する。
The
Details of the prosody selection processing will be described later with reference to the drawings.
目標パラメータ決定部20は、韻律選択部19によって選択された音調見本、音高見本、及び時間情報見本それぞれの韻律情報に基づいて目標パラメータ決定処理を行い、目標パラメータを決定する。目標パラメータとは、目標となる韻律を有する基本周波数の時間変化情報と、目標となる韻律を有する音素の時間情報とからなる情報(韻律情報)である。
The target
音声データベース11に記憶される音声データについて、図2を用いてさらに詳細に説明する。図2は、音声データベース11に記憶される音声データの構成を表す概略図である。
音声データは、音声信号データと、韻律情報と、発話者識別情報と、漢字表記と、かな表記と、音素ラベル表記とを対応付けて、音声毎に保持するデータである。音声信号データは、音声の波形に対応するデータであって、例えば、振幅値の時系列による配列データである。韻律情報は、基本周波数の時間変化情報と音素の時間情報とからなる。基本周波数の時間変化情報は、基本周波数の値が経過時間毎に配列されたデータである。音素の時間情報は、音声の開始時点を時刻の基準として音素毎のその音素の開始時点と終了時点とを表す。音素については後述する。
発話者識別情報は、音声の発話者を識別する識別情報である。漢字表記は、音声の発話内容を表す漢字を発話の順に配列された情報である。かな表記は、音声の発話内容を表すかなを発話の順に配列された情報である。音素ラベル表記は、音声の発話内容を表す音素ラベルを発話の順に配列された情報である。
The voice data stored in the
The speech data is data that is stored for each speech in association with speech signal data, prosodic information, speaker identification information, kanji notation, kana notation, and phoneme label notation. The audio signal data is data corresponding to an audio waveform, for example, array data based on time series of amplitude values. The prosody information includes time change information of the fundamental frequency and time information of the phonemes. The time change information of the fundamental frequency is data in which values of the fundamental frequency are arranged for each elapsed time. The phoneme time information represents the start time and the end time of each phoneme with the start time of the speech as a time reference. The phoneme will be described later.
The speaker identification information is identification information for identifying a voice speaker. The kanji notation is information in which kanji representing speech utterance contents are arranged in the order of utterances. Kana notation is information in which kana representing the utterance content of speech is arranged in the order of utterances. The phoneme label notation is information in which phoneme labels representing speech utterance contents are arranged in the order of utterances.
例えば図2において、図中のデータの1行目は、音声信号データ“WAVE1”の音声の基本周波数の時間変化情報“FRQ1”と、音素の時間情報“TIME1”とが韻律情報として音声信号データに対応付けされているとともに、この音声の発話者識別情報が“A01”、この音声の発話内容の漢字表記が“北海道”、かな表記が“ほっかいどー”、この音声の発話内容の音素ラベル表記が“hoQkaido:”であることを表す。
また、図中のデータの4行目は、発話内容が1モーラである音声データを表しており、音声信号データ“WAVE4”の音声の基本周波数の時間変化情報“FRQ4”と、音素の時間情報“TIME4”とが韻律情報として音声信号データに対応付けされているとともに、この音声の発話者識別情報が“A01”、この音声の発話内容の漢字表記が無く(図2においては「−」と表す)、かな表記が“あ”、この音声の発話内容の音素ラベル表記が“a”であることを表す。
なお、音声データベース11は、音声データが新規に作成された場合には、新たに記憶することが可能であり、また、音声を作成する他の装置において作成された音声データを得て、新たに記憶することも可能である。
For example, in FIG. 2, the first line of the data in the figure is the audio signal data in which the time change information “FRQ1” of the basic frequency of the audio of the audio signal data “WAVE1” and the time information “TIME1” of the phoneme are prosodic information. , The speech identification information of this speech is “A01”, the kanji notation of the speech content of this speech is “Hokkaido”, the kana notation is “Hokkaido”, and the phoneme label of the speech content of this speech The notation is “hoQkaido:”.
Further, the fourth line of the data in the figure represents voice data whose utterance content is 1 mora, the time change information “FRQ4” of the fundamental frequency of the voice of the voice signal data “WAVE4”, and the time information of phonemes. “TIME4” is associated with the speech signal data as prosodic information, the speaker identification information of this speech is “A01”, and there is no kanji notation of the speech utterance content (“−” in FIG. 2). Kana notation is “A”, and the phoneme label notation of the utterance content of this voice is “a”.
The
図3は、音声信号の波形図である。図3の波形図における縦軸は振幅を表し、横軸は音声を開始した時点を基準として経過した時間を表す。音声信号の振幅の値が経過時間毎に配列されたデータが音声信号データである。具体的には、図3は、図2のデータの1行目におけるWAVE1である「ほっかいどー」が発話された場合の波形図である。 FIG. 3 is a waveform diagram of an audio signal. The vertical axis in the waveform diagram of FIG. 3 represents the amplitude, and the horizontal axis represents the time that has elapsed with reference to the time when the voice was started. Data in which the amplitude value of the audio signal is arranged for each elapsed time is the audio signal data. Specifically, FIG. 3 is a waveform diagram in a case where “Hokkaiido” which is WAVE1 in the first line of the data in FIG. 2 is spoken.
図4は、基本周波数の時間に応じた変化を表すグラフである。この基本周波数の時間変化情報は、基本周波数の値が経過時間毎に配列されたデータである。図4において、縦軸は基本周波数を表し、横軸は経過時間を表す。具体的には、図4は、図2のデータの1行目におけるFRQ1をグラフとして表したものでる。 FIG. 4 is a graph showing a change of the fundamental frequency according to time. This time change information of the fundamental frequency is data in which values of the fundamental frequency are arranged for each elapsed time. In FIG. 4, the vertical axis represents the fundamental frequency, and the horizontal axis represents the elapsed time. Specifically, FIG. 4 is a graph showing FRQ1 in the first row of the data in FIG.
図5は、音素の時間情報を表すテキストデータを示す概略図である。例えば図5において、1行目のTIME1は、音素の時間情報のデータの名称であり、2行目から11行目は、音素毎の音素の時間情報である。なお、音素とは音韻論上の音の最小単位であり、母音や子音それぞれが1音素に対応する。また、撥音や長音や促音もそれぞれが1音素に対応する。
2行目から11行目のデータにおいて、一列目は音声の開始時点を時刻の基準として各音素の開始時点までの時間を1万分の1秒単位で表し、二列目は音声の開始時点を時刻の基準として各音素の終了時点までの時間を1万分の1秒単位で表し、三列目は音素の音素ラベルを表す。例えば図5において、“0 4750 sil”は、音声の開始時点から0.475秒経過するまでの間が無声区間であることを表す。また、“4750 5100 h”は、音声の開始時点を基準として0.475秒経過した時点から0.51秒経過するまでの間の音素が“h”であることを表す。なお、音素ラベルsilは、音素がないことを表し、音素ラベルQは促音を表し、音素ラベルo:は「お」の長音を表す。なお、ここでは、時刻が1万分の1秒単位である場合を一例として説明したが、1千分の1秒単位(ミリ秒)など、他の単位で表すようにしてもよい。
FIG. 5 is a schematic diagram showing text data representing time information of phonemes. For example, in FIG. 5, TIME1 on the first line is the name of the time information data of phonemes, and the second to eleventh lines are the time information of phonemes for each phoneme. Note that a phoneme is a minimum unit of sound in phonology, and each vowel and consonant corresponds to one phoneme. In addition, each of the repellent sound, the long sound, and the prompt sound corresponds to one phoneme.
In the data from the second row to the eleventh row, the first column shows the time to the start time of each phoneme in units of 1 / 10,000 second with the start time of the voice as a time reference, and the second column shows the start time of the voice. The time until the end point of each phoneme is expressed in units of 1 / 10,000 second as a time reference, and the third column shows phoneme labels of phonemes. For example, in FIG. 5, “0 4750 sil” indicates that the period from when the voice starts until 0.475 seconds elapses is a silent section. Further, “4750 5100 h” represents that the phoneme from the time when 0.475 seconds elapses to the time when 0.51 seconds elapses with respect to the start time of the sound is “h”. Note that the phoneme label sil indicates that there is no phoneme, the phoneme label Q indicates a prompt sound, and the phoneme label o: indicates a long sound of “o”. Although the case where the time is in units of 1 / 10,000 seconds has been described as an example here, the time may be expressed in other units such as 1 / 1000th of a second (millisecond).
図6は、見本音声指定部17が入力を受け付ける他語音声を、利用者が選ぶ時の条件を説明する概念図である。
他語音声は、他語他話者音声と他語同話者音声との2つがある。他語音声であるか否かによって、音調見本と、音高見本と、時間情報見本とそれぞれ選択する際に、他語音声の韻律情報の優先順位が変わる。
他語音声を見本音声指定部17から指定する場合、利用者は、修正対象音声と発話内容のモーラ数が同じである音声を選択する。モーラとは、音の長さについての音韻論上の単位である。日本語では、概ね、拗音については仮名2文字が1モーラに対応し、拗音以外については、仮名1文字が1モーラに対応する。1モーラは、1または複数の音素により構成される。
図6(a)は、修正対象音声の具体例「あおいいえ」のモーラ区切り及び音素区切りを表す図であり、図6(b)は、他語音声の具体例「しろいいえ」のモーラ区切り及び音素区切りを表す図である。
図6の場合、「しろいいえ」のモーラ数は5であり、修正対象音声「あおいいえ」のモーラ数と一致する。従って、「しろいいえ」が修正対象音声とモーラ数が同じであるという条件を満たしており、利用者は他語音声として選択することが可能である。
FIG. 6 is a conceptual diagram for explaining conditions when the user selects another language voice for which the sample
There are two types of other language voices: another language other speaker's voice and another language same speaker's voice. The priority of prosodic information of other language speech changes when selecting a tone sample, a pitch sample, and a time information sample, depending on whether or not it is another language speech.
When the other language voice is designated from the sample
FIG. 6A is a diagram showing a mora delimiter and phoneme delimitation of a specific example “Ao No” of the speech to be corrected, and FIG. 6B is a mora delimiter of a specific example “Shiro No” of another language sound. It is a figure showing a phoneme division | segmentation.
In the case of FIG. 6, the number of mora of “Shiro No” is 5, which matches the number of mora of the correction target voice “Ao No”. Therefore, “Shiro No” satisfies the condition that the number of mora is the same as the correction target voice, and the user can select it as the other language voice.
なお、利用者は、他語音声について、修正対象音声と発話内容のモーラ数が同じであって、修正対象音声と音素数が異なる音声を選択することも可能である。例えば、図6に示すように、図6(b)に表される「しろいいえ」の音素数が7であり、図6(a)に表される修正対象音声「あおいいえ」の音素数が5であるため、音素数が一致しないが、上述したように「しろいいえ」はモーラ数が一致するので条件を満たす。従って、利用者は、修正対象音声とモーラ数が同じであって、且つ、音素数が異なる音声を他語音声として選択することができる。 Note that the user can also select a speech that has the same number of mora in the utterance content as the correction target speech and a different number of phonemes from the correction target speech. For example, as shown in FIG. 6, the number of phonemes of “Shiro No” shown in FIG. 6B is 7, and the number of phonemes of the correction target speech “Ao No” shown in FIG. The number of phonemes does not match because it is 5, but “Shiro No” satisfies the condition because the number of mora matches as described above. Therefore, the user can select a speech having the same number of mora as the correction target speech and a different number of phonemes as the other language speech.
図7は、韻律選択部19が見本音声を選択する優先順位の一例を表す概要図である。具体的に、図7においては、音調見本と、音高見本と、時間情報見本との組み合わせが、優先順位に対応付けられている。
音声の候補としては、例えば、以下の音声がある。下に列挙するものは音声の種別である。
(1)音声入力部が入力を受け付けた音声
(a)修正対象音声と同発話内容
(b)修正対象音声と異なる発話内容、同音素数
(c)修正対象音声と異なる発話内容、同モーラ数
(2)音声データベースに記憶された音声
(a)修正対象音声と異なる発話内容、同音素数、同話者
(b)修正対象音声と異なる発話内容、同モーラ数、同話者
(c)修正対象音声と異なる発話内容、同音素数、他話者
(d)修正対象音声と異なる発話内容、同モーラ数、他話者
(e)修正対象音声と同発話内容、他話者
(3)修正対象音声
FIG. 7 is a schematic diagram showing an example of a priority order in which the
Examples of voice candidates include the following voices. Listed below are the types of audio.
(1) Voice received by the voice input unit (a) Speech to be corrected and the same utterance content (b) Utterance content and number of same phonemes different from the correction target voice (c) 2) Speech stored in the speech database (a) Utterance content, same phoneme number, and speaker different from the correction target speech (b) Utterance content, same mora number, same speaker different from the correction target speech (c) Correction target speech Utterance content, same phoneme number, other speaker (d) utterance content, same mora number, other speaker different from correction target speech (e) correction target speech, same utterance content, other speaker (3) correction target speech
音調見本と、音高見本と、時間情報見本とには、それぞれ、上述の(1)(a)から(1)(c)と、(2)(a)から(2)(e)と、(3)とのうち、いずれか1つが選ばれる。
例えば、図7の1行目は、(2)(a)が音調見本であり、(3)が音高見本であり、(3)が時間情報見本である組み合わせが、優先順位1に対応付けされている。
また、図7の2行目は、(2)(a)が音調見本であり、(2)(b)が音高見本であり、(3)が時間情報見本である組み合わせが、優先順位2に対応付けされている。
ここでは、1が最も高い優先順位である。
For the tone sample, pitch sample, and time information sample, (1) (a) to (1) (c) and (2) (a) to (2) (e), respectively, Any one of (3) is selected.
For example, in the first line of FIG. 7, a combination in which (2) (a) is a tone sample, (3) is a pitch sample, and (3) is a time information sample is associated with
In the second line of FIG. 7, the combination (2) (a) is a tone sample, (2) (b) is a pitch sample, and (3) is a time information sample. Is associated with.
Here, 1 is the highest priority.
具体的に、韻律選択部19は、音調見本については、音声入力部14が入力を受け付けた見本音声または見本音声検索部18が音声データベース11から検索して得た見本音声から1つ選択する。また、韻律選択部19は、音高見本については、見本音声検索部18が音声データベース11から得た見本音声(修正対象音声と同話者の音声)、または合成音声記憶部13から得た修正対象音声のいずれかから1つ選択する。また、韻律情報選択部19は、音素の時間情報については、音声入力部14が受け付けた見本音声と、見本音声検索部18が音声データベース11から得た見本音声と、合成音声記憶部13から得た修正対象音声のいずれかから1つ選択する。
Specifically, the
韻律選択部19は、音調見本について選択した見本音声と、音高見本について選択した見本音声と、音素の時間情報について選択した見本音声との組み合わせのうち、取り得る組み合わせのそれぞれの優先順位に従って、優先順位のうち最も高い組み合わせを選択する。
The
例えば、音声入力部14から見本音声の入力を受け付けず、見本音声指定部17から(2)(a)、(2)(b)である見本音声の入力を受け付け、修正対象音声を記憶する合成音声記憶部13から(3)を受け付けた場合には、音調見本が(2)(a)、音高見本が(3)、時間情報見本が(3)である組み合わせに対応する優先順位が1であり、また、これらの見本音声の他の組み合わせに対応する優先順位が2、3、7であるので、韻律選択部19は、優先順位が1である組み合わせを選択する。
また、例えば、音声入力部14から(1)(a)である見本音声を受け付け、見本音声指定部17から(2)(b)である見本音声の入力を受け付け、修正対象音声を記憶する合成音声記憶部13から(3)を受け付けた場合には、音調見本が(1)(a)、音高見本が(3)、時間情報見本が(3)である組み合わせに対応する優先順位が4であり、音調見本が(1)(a)、音高見本が(2)(b)、時間情報見本が(3)である組み合わせに対応する優先順位が5であるので、韻律選択部19は、優先順位が4の組み合わせを選択する。
For example, the input of the sample voice is not received from the
Also, for example, a sample voice (1) (a) is received from the
なお、図7においては、図示した組み合わせに限られるものではなく、組み合わせを変えたり、優先順位を変えたりするようにしてもよい。
また、例えば、この図7に示す情報を予めハードディスク等の記憶装置に記憶しておき、韻律選択処理を行う場合、韻律選択部19は、この記憶装置を参照し、優先順位に従い、見本となる韻律情報を選択することが可能である。
In addition, in FIG. 7, it is not restricted to the combination shown in figure, You may make it change a combination and change a priority.
Further, for example, when the information shown in FIG. 7 is stored in advance in a storage device such as a hard disk and the prosody selection processing is performed, the
次に、目標パラメータ決定部20の詳細について説明する。
図8は、基本周波数の時間方向の平均値(以下、「時間平均値」という)を用いて、音調見本の基本周波数の時間変化情報を算出する場合について説明する説明図である。図8において、縦軸は基本周波数を表し、横軸は時間を表す。
Next, details of the target
FIG. 8 is an explanatory diagram for explaining a case where time change information of the fundamental frequency of the tone sample is calculated using an average value of the fundamental frequency in the time direction (hereinafter referred to as “time average value”). In FIG. 8, the vertical axis represents the fundamental frequency, and the horizontal axis represents time.
図8(a)と図8(b)は、音調見本の基本周波数の時間変化を表すグラフ(ア)、及び音高見本の基本周波数の時間変化を表すグラフ(イ)を示す。さらに、図8(b)は、音高見本の基本周波数の平均値と音調見本の基本周波数の平均値とに基づいて目標パラメータ決定部20によって算出される基本周波数の時間変化を表すグラフ(ウ)を示す。
基本周波数の時間平均値を用いて、音調見本の基本周波数の時間変化情報を算出する場合、目標パラメータ決定部20は、まず音調見本(図8(a)ア)の基本周波数の時間平均値と音高見本(図8(a)イ)の基本周波数の時間平均値とを算出する。そして、目標パラメータ決定部20は、音調見本(図8(b)ア)の基本周波数の時間平均値が、音高見本(図8(a)イ)の基本周波数の時間平均値と同じとなるような、音調見本の基本周波数の時間変化情報を算出する。具体的には、目標パラメータ決定部20は、音高見本の基本周波数の時間平均値と音調見本の基本周波数の時間平均値との差を算出し、算出された差を音調見本の基本周波数に加算した和の時系列のデータを算出する。この算出される音調見本の基本周波数の時間変化情報のグラフを図8(b)ウに示す。
このように、音高見本の基本周波数の平均値と同じになるような平均値を持つ音調見本の基本周波数を算出することにより、音高見本の音高に近づけた音調見本の基本周波数の時間変化情報が得られる。
FIG. 8A and FIG. 8B show a graph (a) showing the time change of the fundamental frequency of the tone sample and a graph (A) showing the time change of the fundamental frequency of the pitch sample. Further, FIG. 8B is a graph (C) showing the time change of the fundamental frequency calculated by the target
When calculating the time change information of the fundamental frequency of the tone sample using the time average value of the fundamental frequency, the target
Thus, by calculating the fundamental frequency of the tone sample having an average value that is the same as the average value of the fundamental frequency of the pitch sample, the time of the fundamental frequency of the tone sample close to the pitch of the pitch sample. Change information is obtained.
次に、図9を用いて、音調見本の音声素片の発話開始から発話終了までの全体の時間を合計した音調見本全体長に対する、音調見本の各音声素片の発話開始から発話終了までの時間の比(全体長に対する音声素片の比)を変えずに、音調見本全体長を変更する場合について説明する。ここで、音声素片は、合成音声を構成する音声波形のデータである。図9の例では、音声素片の単位がモーラである場合を説明する。
図9は、全体長に対する音声素片の比を変えずに、音調見本全体長を変更する場合について説明する概念図である。図9の上段は時間情報見本の音素の時間情報を表し、図9の中段は音調見本の音素の時間情報を表し、図9の下段は目標パラメータの音素の時間情報を示す。図9の横軸は、時間を示している。
全体長に対する音声素片の比を変えずに、音調見本全体長を変更する場合、目標パラメータ決定部20は、まず時間情報見本の各音声素片の発話開始から発話終了までの時間を合計した時間情報見本全体長と、音調見本全体長とを算出する。そして、目標パラメータ決定部20は、全体長に対する音声素片の比を変えることなく、音調見本の音素の時間情報を、時間情報見本全体長と音調見本全体長とが一致するように変更する。具体的には、目標パラメータ決定部20は、時間情報見本全体長と音調見本全体長とを算出する。そして、目標パラメータ決定部20は、全体長に対する音声素片の比を算出し、音調見本の音素の時間情報に対し、時間情報見本全体長に対する音調見本全体長の比を音調見本の各音素の時間情報に乗ずることによって変更し、時間情報見本全体長と音調見本全体長とが一致する音調見本の音素の時間情報を得る。目標パラメータ決定部20は、得られた音素の時間情報を、目標パラメータの音素の時間情報として決定する。
これにより、時間情報見本全体長と音調見本全体長とが異なる場合であっても、時間情報見本全体長に合わせた音調見本全体長を得ることができ、音調見本全体長の調整を行うことができる。
Next, with reference to FIG. 9, from the start of speech to the end of utterance of each speech unit of the tone sample, the total length of the tone sample totaling the total time from the start of speech to the end of speech of the tone sample of the tone sample A case will be described in which the overall length of the tone sample is changed without changing the time ratio (ratio of the speech segment to the overall length). Here, the speech segment is speech waveform data constituting the synthesized speech. In the example of FIG. 9, a case where the unit of the speech unit is a mora will be described.
FIG. 9 is a conceptual diagram illustrating a case where the overall length of the tone sample is changed without changing the ratio of the speech segment to the overall length. The upper part of FIG. 9 represents the time information of the phonemes of the time information sample, the middle part of FIG. 9 represents the time information of the phonemes of the tone sample, and the lower part of FIG. 9 represents the time information of the phonemes of the target parameters. The horizontal axis in FIG. 9 indicates time.
When changing the overall length of the tone sample without changing the ratio of the speech unit to the overall length, the target
As a result, even if the total length of the time information sample and the total length of the tone sample are different, it is possible to obtain the total length of the tone sample in accordance with the total length of the time information sample, and to adjust the total length of the tone sample. it can.
図10は、音調見本の音高が音高見本の音高に合わせて変更された音調見本の基本周波数の時間変化情報を、時間情報見本に従って変更する場合について説明する説明図である。音調見本の音高が音高見本の音高に合わせて変更された音調見本の基本周波数の時間変化情報を、時間情報見本に従って変更する場合、目標パラメータ決定部20は、音高見本の音高に近づけた音調見本の基本周波数の時間変化情報(図10(ウ))を、時間情報見本に従って、音高が変更された音調見本の基本周波数の時間変化情報の全体長と音素の時間情報の全体長とを一致させるように変更することによって、目標パラメータの基本周波数の時間変化情報を生成する。
具体的には、目標パラメータ決定部20は、時間情報見本の時間情報の全体長に対する、音高が変更された音調見本の時間情報の全体長の比を算出し、この算出された比を、音高が変更された音調見本の時間情報の全体長に乗ずることによって、音高が変更された音調見本の時間情報を更新する。例えば、図10(エ)は、音高見本の音高に近づけた音調見本の基本周波数の時間変化情報(図10(ウ))を、音素の時間情報の全体長と一致するように更新した後の基本周波数の時間変化情報を示す。
FIG. 10 is an explanatory diagram for explaining a case where the time change information of the fundamental frequency of the tone sample in which the pitch of the tone sample is changed in accordance with the pitch of the pitch sample is changed according to the time information sample. When the time change information of the fundamental frequency of the tone sample in which the pitch of the tone sample is changed according to the pitch of the pitch sample is changed according to the time information sample, the target
Specifically, the target
なお、目標パラメータ決定部20は、音高見本の基本周波数の平均値に代えて、音高見本の基本周波数の高低幅、最大値、又は最小値に基づいて音調見本の基本周波数を変更するようにしてもよい。また、目標パラメータ決定部20は、音高見本の基本周波数の平均値、最大値、及び最小値のいずれかと、音高見本の基本周波数の高低幅とに基づいて音調見本の基本周波数を変更しても良い。
The target
上述の音高見本の基本周波数の最大値、最小値、高低幅に基づいて音調見本の基本周波数を変更する場合について説明する。図11は、目標パラメータ決定部20が音高見本の基本周波数の最大値に基づいて音調見本の基本周波数の時間変化情報を算出する場合について説明する説明図である。音高見本の基本周波数の最大値に基づいて音調見本の基本周波数の時間変化情報を算出する場合、目標パラメータ決定部20は、まず音高見本の基本周波数の最大値を算出する。そして、目標パラメータ決定部20は、音調見本の基本周波数(図11(ア))の最大値と、音高見本の基本周波数の最大値とを算出し、音高見本の基本周波数(図11(イ))の最大値が同じ値となる音調高見本の基本周波数を算出する。具体的には、目標パラメータ決定部20は、音高見本の基本周波数の最大値と音調見本の基本周波数の最大値との差を算出し、算出された差に音調見本の各時点における基本周波数を加算した和の時系列のデータを生成する。
図11において、図11(ア)は音調見本の基本周波数を表すグラフであり、図11(イ)は音高見本の基本周波数を表すグラフであり、図11(ウ)は、音高見本の基本周波数の最大値と音調見本の基本周波数の最大値との差に、音調見本の各時点における基本周波数を加算した和のグラフである。
A case will be described in which the fundamental frequency of the tone sample is changed based on the maximum value, minimum value, and pitch range of the fundamental frequency of the above-described pitch sample. FIG. 11 is an explanatory diagram illustrating a case where the target
11 (a) is a graph showing the fundamental frequency of the tone sample, FIG. 11 (a) is a graph showing the fundamental frequency of the pitch sample, and FIG. 11 (c) is a graph of the pitch sample. It is a graph of the sum which added the fundamental frequency in each time of a tone sample to the difference of the maximum value of a fundamental frequency and the maximum value of the fundamental frequency of a tone sample.
次に、目標パラメータ決定部20が音高見本の基本周波数の最小値に基づいて音調見本の基本周波数の時間変化情報を算出する場合について説明する。音高見本の基本周波数の最小値に基づいて音調見本の基本周波数の時間変化情報を算出する場合、目標パラメータ決定部20は、まず音高見本の基本周波数の最小値と、音調見本の基本周波数の最小値とを算出する。そして、目標パラメータ決定部20は、音調見本の基本周波数の最小値と、音高見本の基本周波数の最小値とが同じ値となるような、音調見本の基本周波数を算出する。具体的には、目標パラメータ決定部20は、音高見本の基本周波数の最小値と音調見本の基本周波数の最小値との差を算出し、算出された差に音調見本の各時点における基本周波数を加算した和の時系列のデータを生成する。
Next, a case where the target
図12は、目標パラメータ決定部20が音高見本の基本周波数の高低幅及び平均値に基づいて音調見本の基本周波数を変更する場合を説明する説明図である。目標パラメータ決定部20が音高見本の基本周波数の高低幅及び平均値に基づいて音調見本の基本周波数を変更する場合、目標パラメータ決定部20は、まず音高見本の基本周波数の最大値と最小値との幅(値の差)と、音調見本の基本周波数の最大値と最小値との幅とを算出する。次に、目標パラメータ決定部20は、音調見本の基本周波数の最大値と最小値との幅が、先に算出された音高見本の基本周波数の最大値と最小値との幅と同じ値となるように、音調見本の基本周波数の時間変化情報を生成する。具体的には、目標パラメータ決定部20は、音調見本の基本周波数の最大値及び最小値の幅と、音高見本の基本周波数の最大値及び最小値の幅との比を算出し、音調見本の各時点における基本周波数にこの比を乗じた値の時系列のデータを生成する。
図12(a)は、音調見本の基本周波数のグラフを図12(a)アに、音調見本の基本周波数の最大値と最小値との幅と、同じになるような音調見本の基本周波数のグラフを図12(a)エに示す。
ここで、目標パラメータ決定部20は、得られた音調見本の基本周波数(図12(a)エ)の各時点における基本周波数に音高見本の基本周波数の平均値を加算した和の時系列のデータを算出する。このとき得られる音調見本の基本周波数のグラフを図12(b)ウに示す。
FIG. 12 is an explanatory diagram for explaining a case where the target
FIG. 12A is a graph of the fundamental frequency of the tone sample. FIG. 12A is a graph of the fundamental frequency of the tone sample that is the same as the width of the maximum value and the minimum value of the fundamental frequency of the tone sample. The graph is shown in FIG.
Here, the target
図13は、目標パラメータ決定部20が、時間情報見本の音声素片の長さと音調見本の音声素片の長さとが、対応する音声素片同士で一致するように、音調見本の音素の時間情報を変更する場合の処理概念を表す概念図である。音声素片の長さとは、1つの音声素片の発話開始から発話終了までの時間である。対応する音声素片とは、配列された音声素片のうち先頭から数えた順番が、時間情報見本と音調見本において一致する音声素片である。
図13の上段は音調見本のモーラの長さを表し、図13の中段は目標パラメータのモーラの長さを表し、図13の下段は時間情報見本のモーラの長さを表す。なお、モーラの長さは、そのモーラに含まれる音素の長さ(時間)の合計値である。図13の横軸は、時間を示している。
時間情報見本のモーラの長さと、対応する音調見本のモーラの長さとが一致するように、音調見本の音素の時間情報を変更する場合、目標パラメータ決定部20は、まず時間情報見本(下段)の各モーラの長さを算出する。そして、目標パラメータ決定部20は、音調見本(上段)のモーラの長さが、対応する時間情報見本(下段)のモーラの長さに一致するように変更する。例えば、目標パラメータ決定部20は、音調見本のモーラの長さを、対応する時間情報見本のモーラの長さに置き換えることによって一致させる。目標パラメータ決定部20は、この処理によって得られたモーラの長さに基づき、音調見本の音素の時間情報を変更する。即ち、目標パラメータ(中段)の音素の時間情報を得る。
FIG. 13 shows the time of the phoneme of the tone sample so that the target
The upper part of FIG. 13 represents the length of the mora of the tone sample, the middle part of FIG. 13 represents the length of the mora of the target parameter, and the lower part of FIG. 13 represents the length of the mora of the time information sample. The length of the mora is a total value of the lengths (time) of phonemes included in the mora. The horizontal axis in FIG. 13 indicates time.
When changing the time information of the phoneme of the tone sample so that the length of the time information sample mora matches the length of the corresponding tone sample mora, first, the target
なお、図8、図11から図12を用いて、音高見本に従って(1)基本周波数の時間平均値に基づいて音調見本の音高を変更する処理、(2)基本周波数の最大値に基づいて音調見本の音高を変更する処理、(3)基本周波数の最小値に基づいて音調見本の音高を変更する処理、(4)基本周波数の最大値と最小値の差に基づいて音調見本の音高を変更する処理、について説明したが、音高を変更する処理としては、この(1)から(4)のいずれか1つを、利用者の指示に従って適用するようにしてもよい。
また、図9、図13を用いて(5)各音声素片の比を変えずに全体長を変更する処理、(6)各音素の時間情報と時間情報見本の各音素の時間情報とが、対応する音声素片同士で一致するように変更することにより全体長を変更する処理、について説明したが、全体長を変更する処理としては、(5)と(6)とのいずれか1つを、利用者の指示に従って適用するようにしてもよい。
また、図10を用いて(7)音調見本の音高が、基本周波数の時間平均値に基づいて音高見本の音高に合わせて変更された音調見本の基本周波数の時間変化情報を、各音声素片の比を変えずに全体長を変更する処理、について説明した。この(7)において、音調見本の音高を変更する場合、基本周波数の時間平均値に基づいて変更するのではなく、上述の(2)、(3)、(4)のいずれかを行うようにしてもよい。また、(7)において、音高を変更した後の音調見本の全体長を変更する場合、(5)各音声素片の比を変えずに全体長を変更する場合について説明したが、(6)の各音素の時間情報と時間情報見本の各音素の時間情報とが、対応する音声素片同士で一致するように変更することにより、全体長を変更するようにしてもよい。このように、(1)から(4)のいずれかによって音高見本の音高に従って音調見本の音高を変更した後、(5)または(6)によって、音高が変更された音調見本の全体長を変更することができる。この(1)から(4)の処理と、(5)、(6)の処理とのうちいずれの処理を適用するかについては、利用者が選択するようにしてもよい。
8 and 11 to 12, according to the pitch sample, (1) a process for changing the pitch of the tone sample based on the time average value of the fundamental frequency, and (2) based on the maximum value of the fundamental frequency. Processing to change the pitch of the tone sample, (3) processing to change the pitch of the tone sample based on the minimum value of the fundamental frequency, and (4) tone sample based on the difference between the maximum value and the minimum value of the fundamental frequency. Although the processing for changing the pitch is described, as the processing for changing the pitch, any one of (1) to (4) may be applied in accordance with a user instruction.
9 and 13, (5) a process of changing the overall length without changing the ratio of each speech unit, and (6) the time information of each phoneme and the time information of each phoneme in the time information sample. The process of changing the overall length by changing the corresponding speech units to match each other has been described, but as the process of changing the overall length, one of (5) and (6) May be applied in accordance with user instructions.
In addition, using FIG. 10, (7) the time change information of the fundamental frequency of the tone sample in which the pitch of the tone sample is changed according to the pitch of the pitch sample based on the time average value of the fundamental frequency, The process of changing the overall length without changing the ratio of the speech segments has been described. In (7), when the pitch of the tone sample is changed, it is not changed based on the time average value of the fundamental frequency, but one of the above (2), (3), and (4) is performed. It may be. Further, in (7), the case where the overall length of the tone sample after changing the pitch is changed, and (5) the case where the overall length is changed without changing the ratio of each speech unit has been described. The total length may be changed by changing the time information of each phoneme and the time information of each phoneme in the time information sample so that the corresponding speech segments match each other. As described above, after changing the pitch of the tone sample according to the pitch of the pitch sample according to any one of (1) to (4), the pitch of the tone sample whose pitch is changed according to (5) or (6). The overall length can be changed. The user may select which of the processes (1) to (4) and the processes (5) and (6) to apply.
次に、目標パラメータ決定装置1全体の処理手順について説明する。
図14は、目標パラメータ決定装置1全体の処理手順を表すフローチャートである。
図示するように、ステップS01において、まず修正対象音声指定部12が、修正対象音声を指定する入力を受け付ける。具体的には、修正対象音声指定部12は、修正対象音声の発話内容及び発話者識別情報の入力を受け付けることによって、任意の修正対象音声の指定を受け付ける。
Next, a processing procedure of the entire target
FIG. 14 is a flowchart showing a processing procedure of the entire target
As shown in the figure, in step S01, the correction target
次に、ステップS03において、見本音声の指定が終了したか否かを判定する。見本音声の指定が終了した場合には、ステップS09に進み、見本音声の指定が終了していない場合には、ステップS04に進む。この判定は、例えば、ステップS04からS08のループを繰り返した回数(例えば、利用者によって指定された回数)、または指定終了命令の入力の有無のいずれかによって行う。 Next, in step S03, it is determined whether or not the designation of the sample voice has been completed. If the designation of the sample voice has been completed, the process proceeds to step S09. If the designation of the sample voice has not been completed, the process proceeds to step S04. This determination is performed by, for example, either the number of times the loop from step S04 to S08 is repeated (for example, the number specified by the user) or the presence / absence of a designation end command.
次に、ステップS04において、音声入力部14が見本音声の入力を受け付けたか否かを判定する。音声入力部14が見本音声の入力を受け付けた場合には、ステップS05に進み、音声テキスト入力部15が、音声入力部14が入力を受け付けた見本音声の発話内容を表すテキストデータの入力を受け付ける。次に、ステップS06において、音声分析部16が、入力された見本音声に対し音声分析処理を実行し、音声テキスト入力部15によって入力されたテキストデータに基づいて、入力された音声(同語音声又は他語音声)の韻律情報を生成し、ステップS03に進む。
一方、ステップS04において、音声入力部14が見本音声の入力を受け付けていない場合には、ステップS07において、見本音声指定部17が、見本音声を指定するテキストデータの入力を受け付けたか否かを判定する。見本音声指定部17が、見本音声を指定するテキストデータの入力を受け付けていない場合には、ステップS03に進み、見本音声指定部17が、見本音声を指定するテキストデータの入力を受け付けた場合には、ステップS08において、見本音声検索部18が、指定された見本音声(他語同話者音声、他語他話者音声、同語他話者音声のいずれか)の音声データを音声データベース11から読み出し、ステップS03に進む。
Next, in step S04, it is determined whether or not the
On the other hand, in step S04, if the
一方、ステップS03において、見本音声の指定が終了した場合(ステップS03:YES)には、ステップS09において、韻律情報選択部19は、修正対象音声指定部12が入力を受け付けた修正対象音声の韻律情報を合成音声記憶部13から読み出す。
On the other hand, when the designation of the sample voice is completed in step S03 (step S03: YES), the prosody
次に、ステップS10において、韻律選択部19が、目標パラメータ決定装置1全体の処理が開始してからステップS10の処理までの間に韻律情報が読み出された見本音声又は韻律情報が算出された見本音声の中から、音調見本、音高見本、時間情報見本のそれぞれに適した音声を、優先順位に従って選択する。
次に、ステップS11において、目標パラメータ決定部20が、音調見本の基本周波数の時間変化情報及び音高見本の基本周波数の時間変化情報に基づいて、音高見本の音高に合わせた音調見本の基本周波数の時間変化情報を算出する。
例えば、目標パラメータ決定部20は、音調見本の基本周波数の時間平均値と音高見本の基本周波数の時間平均値とを算出し、音高見本の基本周波数の時間平均値と音調見本の基本周波数の時間平均値との差を算出し、算出された差を音調見本の基本周波数に加算した和の時系列のデータを算出することによって、音高見本の音高に合わせた音調見本の基本周波数の時間変化情報を得る。
Next, in step S10, the
Next, in step S11, the target
For example, the target
次に、ステップS12において、目標パラメータ決定部20が、音調見本の音素の時間情報及び時間情報見本の音素の時間情報に基づいて、目標パラメータである音素の時間情報を算出して得る。
例えば、目標パラメータ決定部20は、音調見本の音素の時間情報に基づいて音調見本全体長と、時間情報見本の音素の時間情報に基づいて時間情報見本全体長とを算出する。そして、目標パラメータ決定部20は、全体長に対する音声素片の比を算出し、音調見本の音素の時間情報を、音調見本の各音素の時間情報に、時間情報見本全体長に対する音調見本全体長の比を乗ずることによって変更し、時間情報見本全体長と音調見本全体長とが一致する音調見本の音素の時間情報を得る。目標パラメータ決定部20は、得られた音素の時間情報を、目標パラメータの音素の時間情報として決定する。
Next, in step S12, the target
For example, the target
次に、ステップS13において、目標パラメータ決定部20が、音高見本の音高に合わせた音調見本の基本周波数の時間変化情報と、目標パラメータの音素の時間情報とに基づいて、目標パラメータである基本周波数の時間変化情報を算出して得る。
例えば、目標パラメータ決定部20は、時間情報見本の時間情報の全体長に対する、音高が変更された音調見本の時間情報の全体長の比を算出し、この算出された比を、音高が変更された音調見本の時間情報の全体長に乗ずることによって、音高が変更された音調見本の時間情報を更新し、目標パラメータとして得る。
音高が変更された音調見本の時間情報を更新して目標パラメータが得られると、このフローチャート全体の処理を終了する。
Next, in step S13, the target
For example, the target
When the target parameter is obtained by updating the time information of the tone sample whose pitch has been changed, the process of the entire flowchart is terminated.
このように構成された目標パラメータ決定装置1では、修正対象音声を修正する利用者が目標韻律を有する見本音声を音声入力部14へ発話したり、見本音声指定部17に指示を入力したりすることによって、目標パラメータが決定される。そのため、利用者は、目標パラメータの値について具体的に検討することなく、見本音声を発話又は選択する指示を入力するだけで、目標パラメータを容易に決定することができる。
In the target
また、目標パラメータ決定装置1では、他語同話者音声や他語他話者音声のように修正対象音声と発話内容が異なる音声であっても、音調見本、音高見本、及び時間情報見本として使用し目標パラメータを決定することができる。従って、目標パラメータ決定装置1では、修正者によって発話される音声又は音声データベース11の中から指定される音声は、必ずしも修正対象音声と発話内容が同じである必要が無くなる。そのため、修正者の発話又は音声データベース11における指定の自由度を向上させることができ、目標パラメータの決定がより容易となる。
Further, in the target
<変形例>
以上説明した第1の実施形態においては、韻律選択部19は、音素の時間情報については、同語音声、他語音声、他語他話者音声、他語同話者音声、同語他話者音声それぞれの音声(音声データベース11から得られた音声あるいは音声入力部14が入力を受け付けた音声)の音声区間の全体時間長を、修正対象音声の音声区間の全体時間長で正規化せずに選択する構成について説明したが、各音声区間の全体時間長を、修正対象音声の音声区間の全体時間長と一致するように正規化しておき、正規化された音素の時間情報から選択するようにしても良い。この正規化は、例えば、目標パラメータ決定部20が、修正対象音声の時間情報見本全体長と、正規化する対象である音声の全体長を算出する。そして目標パラメータ決定部20が、修正対象音声の全体長に対する音声素片の比を算出し、算出された比を正規化する対象である音声の音素の時間情報に乗ずることによって変更する。
このように正規化しておくことにより、修正対象の音声の全体長を変えずに、目標パラメータを得ることができる。
<Modification>
In the first embodiment described above, the
By normalizing in this way, the target parameter can be obtained without changing the overall length of the sound to be corrected.
[第2の実施の形態]
次に、本発明の第2の実施形態について説明する。
図15は、同実施形態による合成音声修正装置2の機能構成を表すブロック図である。図示するように、合成音声修正装置2は、図1に示す第1の実施形態である目標パラメータ決定装置1が有する各機能部と、修正部21とを含んで構成される。図1の目標パラメータ決定装置1の各機能部に対応する部分については、同一の符号を付し、その説明を省略する。
[Second Embodiment]
Next, a second embodiment of the present invention will be described.
FIG. 15 is a block diagram showing a functional configuration of the synthesized
修正部21は、目標パラメータ決定部20によって得られる目標パラメータに従って、見本の音声素片を選択し、その音声素片の音声信号データを選択し、修正対象音声の音声素片の音声信号データを、選択された音声信号データに置換することによって修正対象音声の韻律の修正を行い、目標韻律に近い韻律を有する合成音声を生成する。
具体的には、修正部21は、目標パラメータの基本周波数と、修正対象音声の基本周波数との差を、音声素片毎に算出し、この差が所定の閾値を超える音声素片(以下、「修正対象の音声素片」という)を検出する。
この修正対象の音声素片を検出する場合、修正部21は、(a)音声素片の開始時点における基本周波数の差、(b)音声素片の終了時点における基本周波数の差、(c)音声素片の開始から終了までの間の中間時点における基本周波数の差、(d)音声素片の開始から終了までの範囲における基本周波数の平均値の差、(e)音声素片の開始から終了までの時間を範囲における基本周波数の差分の絶対値の定積分値、のいずれかが所定の閾値を越えたか否かに基づいて検出する。
次に、修正部21は、(1)検出された修正対象の音声素片と音素ラベルが一致し、且つ、(2)目標パラメータの基本周波数の時間変化情報における修正対象区間(修正対象の音声素片の開始から終了までの時間に対応する区間)の基本周波数に最も近い基本周波数を有する、音声素片の音声信号データを音声データベース11から読み出す。そして、修正部21は、修正対象区間の音声信号データを、読み出された音声素片の音声信号データと、それに対応する韻律情報(基本周波数の時間変化情報と、音素の時間情報)とを、合成音声記憶部13に、合成音声として新たに登録する。
なお、修正部21は、新たに登録された合成音声全体の周波数分析をし直すことによって基本周波数の時間変化情報を得る。
The
Specifically, the
When detecting the speech unit to be corrected, the correcting unit 21 (a) a difference in fundamental frequency at the start time of the speech unit, (b) a difference in fundamental frequency at the end time of the speech unit, (c) Difference in fundamental frequency at an intermediate point between the start and end of a speech unit, (d) Difference in average value of fundamental frequencies in the range from start to end of speech unit, (e) From start of speech unit The time until the end is detected based on whether one of the definite integral values of the absolute value of the fundamental frequency difference in the range exceeds a predetermined threshold value.
Next, the correction unit 21 (1) the detected speech element to be corrected matches the phoneme label, and (2) the correction target section (the correction target speech in the time change information of the fundamental frequency of the target parameter). The speech signal data of the speech unit having the fundamental frequency closest to the fundamental frequency of the segment corresponding to the time from the start to the end of the segment is read from the
The
なお、修正部21は、上記(2)の条件を満たすか否かについて、より具体的には以下のように判定する。まず、修正部21は、目標韻律の同部分の基本周波数の平均値と、始端値と、終端値と、音素の時間情報とのうち、予め設定された1つ以上の指標を、誤差最小であることを評価する項を含む波形接続型音声合成のコスト関数を用い、誤差最小となる同種の音声素片を音声データベース11から検索して得る。そして、得られた音声素片の音声信号データを、(2)の条件を満たす音声信号データであると判定する。
そして、修正部21は、修正対象の音声素片の音声信号データを、選択された音声信号データに書き換えることによって、修正対象音声の韻律の修正を行う。
The
Then, the
図16は、修正前後の修正対象音声における基本周波数の時間変化情報の変化状態を表す説明図である。図16(a)の上段は基本周波数の時間変化情報を表し、図16(a)の下段は音素の時間情報を表す。図16(a)の上段の基本周波数の時間変化情報と、図16(a)の下段の音素の時間情報とは、同一の音声の情報である。図16(a)アは、修正対象音声の基本周波数の時間変化を表すグラフであり、図16(a)イは目標パラメータの基本周波数の時間変化を表すグラフである。
図16(a)において、修正部21は、修正対象音声の基本周波数の時間変化情報と目標パラメータの基本周波数の時間変化情報との差が所定以上である音声素片を検出し、この検出された音声素片(先頭(“あ”)から数えて4番目の音声素片(“い”))を、修正対象の音声素片であると判定する。次に、修正部21は、音声データベース11から、上述した条件を満たす音声素片の音声信号データと基本周波数の時間変化情報とを読み出す。そして、修正部21は、修正対象の音声素片の音声信号データを、上述した条件を満たす音声素片の音声信号データに書き換えるとともに、書き換えられた音声信号データを音声分析を行って韻律情報を作成し直す。
図16(b)アは修正後の合成音声の基本周波数の時間変化を表すグラフであり、図16(b)イは目標パラメータの基本周波数の時間変化を表すグラフである。このような修正処理によって、修正対象音声の基本周波数の時間変化情報が、目標パラメータの基本周波数の時間変化情報に近づくように修正される。
なお、合成音声の音素の時間情報の修正を行う場合、修正部21は、修正対象音声の修正対象となる音素の時間情報を、音声データベース11から得られた音素の時間情報に書き換えることによって修正を行う。
FIG. 16 is an explanatory diagram showing a change state of time change information of the fundamental frequency in the correction target voice before and after the correction. The upper part of FIG. 16A represents time change information of the fundamental frequency, and the lower part of FIG. 16A represents time information of phonemes. The time change information of the fundamental frequency in the upper part of FIG. 16A and the time information of the phonemes in the lower part of FIG. 16A are information of the same sound. FIG. 16A is a graph showing the time change of the fundamental frequency of the target speech, and FIG. 16A is a graph showing the time change of the fundamental frequency of the target parameter.
In FIG. 16A, the correcting
FIG. 16B is a graph showing the time change of the fundamental frequency of the synthesized speech after correction, and FIG. 16B is a graph showing the time change of the fundamental frequency of the target parameter. By such correction processing, the time change information of the basic frequency of the correction target voice is corrected so as to approach the time change information of the basic frequency of the target parameter.
When correcting the time information of the phoneme of the synthesized speech, the correcting
このように構成された合成音声修正装置2は、使用者が修正目標となる韻律を有する音声を指定することによって、目標パラメータを決定し、決定された目標パラメータに基づいて合成音声の修正を行う。そのため、使用者は、目標パラメータを具体的に検討することなく、容易に合成音声の修正を行うことが可能となる。
The synthesized
<変形例>
上述した第2の実施形態において修正部21は、修正対象音声の基本周波数と目標パラメータの基本周波数との差が、所定の閾値を越えた区間を対象として、音声信号データを更新することにより修正するようにしたが、この所定の閾値を越えた区間のみではなく、全ての区間を対象として、修正を行うようにしてもよいし、一部の区間(例えば、図16(a)ウに示す区間に対応する音声素片)を利用者が指定して、修正を行うようにしてもよい。また、上述のコスト関数の重みの大きさを、利用者から入力される指示に従って、任意に変更するように構成しても良い。
また、上記(1)、(2)の条件を満たす音声素片を選択する場合、同話者の音声データを選択するようにしてもよいし、他話者の音声データを選択するようにしてもよい。
なお、目標パラメータ決定部20が作成した目標韻律を用いずに音声合成を行う装置等、他の装置では、発話内容の言語解析から得られるアクセント情報に基づく音声素片選択等が行われる場合もある。
<Modification>
In the second embodiment described above, the
Further, when selecting speech segments that satisfy the conditions (1) and (2) above, the speech data of the same speaker may be selected, or the speech data of other speakers may be selected. Also good.
Note that in other devices such as a device that performs speech synthesis without using the target prosody created by the target
[第3の実施の形態]
次に、本発明の第3の実施形態について説明する。
図17は、同実施形態による合成音声修正装置3の機能構成を表すブロック図である。図示するように、合成音声修正装置3は、図1に示す第1の実施形態である目標パラメータ決定装置1が有する各機能部と、修正部31とを含んで構成される。図1の目標パラメータ決定装置1の各機能部に対応する部分については、同一の符号を付し、その説明を省略する。
[Third Embodiment]
Next, a third embodiment of the present invention will be described.
FIG. 17 is a block diagram showing a functional configuration of the synthesized
修正部31は、目標パラメータ決定部20で決定された目標パラメータを用いて、修正対象の合成音声を修正する。このとき、(1)修正対象の音声素片のみを韻律変換して置き換える方法と、(2)修正対象の合成音声全体を韻律変換して置き換える方法とがある。
The correcting
(1)の修正対象の音声素片のみを韻律変換して置き換える方法の場合、修正部31は、目標パラメータとして与えられた基本周波数の時間変化情報に基づき、修正対象の音声素片に対応する区間の、(a)基本周波数の時間変化情報か、(b)基本周波数の平均値(時間平均値)か、(c)基本周波数の最大値のいずれかを用いる。また、修正部31は、音声信号のパワーとして、(d)修正対象の音声素片の音声信号のパワーか、(e)上述した(d)の平均値か、(f)上述した(d)の最大値のいずれかを用いる。また、修正部31は、目標パラメータとして与えられた音素の時間情報に基づき、その時間情報の中から修正対象の音声素片のデータを取り出して用いる。そして、修正部31は、これらの値を用いて音声信号を変換する処理を行なう。なお、音声信号の変換処理自体には既存技術を用いる。なおここで、上記の(a)と(b)と(c)のどの値を用いるかは、予め記憶されている設定値に従う。また、上記の(d)と(e)と(f)のどの値を用いるかは、予め記憶されている設定値に従う。
In the case of the method of replacing only the speech unit to be modified in (1) by prosody conversion, the
(2)の修正対象の合成音声全体を韻律変換して置き換える方法の場合、修正部31は、目標パラメータとして与えられた基本周波数の時間変化情報に基づき、(a)その基本周波数の時間変化情報か、(b)その基本周波数の時間変化情報から算出される基本周波数の平均値(時間平均)のいずれかを用いる。また、修正部31は、修正後の音声信号のパワーとしては、修正対象音声のパワーを用いる。また、修正部31は、目標パラメータとして与えられた音素の時間情報をそのまま用いる。そして、修正部31は、これらの値を用いて音声信号を変換する処理を行なう。なお、音声信号の変換処理自体として既存技術を用いることは上の場合と同様である。なおここで、上記の(a)と(b)のどの値を用いるかは、予め記憶されている設定値に従う。
In the case of the method (2) of replacing the entire synthesized speech to be corrected by prosody conversion, the
修正部31は、上記の(1)または(2)のいずれかの方法で韻律変換して得られた音声信号データと、それに対応する韻律情報(基本周波数の時間変化情報と、音素の時間情報)とを、合成音声記憶部13に、合成音声として新たに登録する。
The correcting
図18は、修正対象の音声素片を韻律変換して置き換える場合を説明する概念図である。例えば、「あおいいえ」のうち、音声素片「い」を修正対象とし、上述の(1)の方法によって韻律変換が行われると、例えば、音声素片「い」に対応する基本周波数の時間変化情報が、図18(a)に示すグラフから図18(b)に示すグラフのように変わる。 FIG. 18 is a conceptual diagram illustrating a case where a speech unit to be corrected is replaced by prosody conversion. For example, when the speech unit “I” of “ANO” is targeted for correction and the prosody conversion is performed by the method (1) described above, for example, the time of the fundamental frequency corresponding to the speech unit “I” The change information changes from the graph shown in FIG. 18A to a graph shown in FIG.
このように構成された合成音声修正装置3は、第2の実施形態における合成音声修正装置2と同様に、使用者が修正目標となる韻律を有する音声を指定することによって、目標パラメータを決定し、決定された目標パラメータに基づいて合成音声の修正を行う。そのため、使用者は、目標パラメータを具体的に検討することなく、容易に合成音声の修正を行うことが可能となる。
The synthesized
なお、上述した実施形態における目標パラメータ決定装置1、合成音声修正装置2、及び合成音声修正装置3の一部又は全部の機能をコンピュータで実現する場合、これらの装置の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、この発明の実施形態を図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
In the case where a part or all of the functions of the target
As mentioned above, although embodiment of this invention was explained in full detail with reference to drawings, the concrete structure is not restricted to this embodiment, The design etc. of the range which does not deviate from the summary of this invention are included.
1 目標パラメータ決定装置
11 音声データベース
12 修正対象音声指定部
13 合成音声記憶部(修正対象音声記憶部)
14 音声入力部
15 音声テキスト入力部(発話内容取得部)
16 音声分析部
17 見本音声指定部
18 見本音声検索部
19 韻律選択部
20 目標パラメータ決定部
2,3 合成音声修正装置
21,31 修正部
DESCRIPTION OF
14
16
Claims (7)
音声の基本周波数の時間変化情報と前記音声に含まれる音素のタイミングを表す音素の時間情報とを有する見本音声データを取得し、前記見本音声データの種別に応じて、音調の見本である音調見本データと音高の見本である音高見本データと音素のタイミングの見本である時間見本データとを選択し、選択された前記音高見本データおよび前記音調見本データそれぞれの基本周波数の時間変化情報と、選択された前記音調見本データと前記時間見本データそれぞれの音素の時間情報とを取得する韻律選択部と、
前記音調見本データが有する前記基本周波数の時間変化情報を、前記音高見本データが有する前記基本周波数の時間変化情報に応じて変更し、さらに前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる基本周波数の時間変化情報を決定するとともに、前記音調見本データが有する音素の時間情報を、前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる音素の時間情報を決定する目標パラメータ決定部と、
を具備することを特徴とする目標パラメータ決定装置。 A voice data storage unit that stores voice, utterance content of the voice, time change information of the fundamental frequency of the voice, and time information of phonemes that represent the timing of phonemes included in the voice;
Sample tone data having time change information of the fundamental frequency of speech and time information of phonemes representing the timing of phonemes included in the speech is acquired, and a tone sample that is a sample of tone according to the type of the sample speech data Data and pitch sample data that is a sample of pitch and time sample data that is a sample of the timing of phonemes, and time variation information of the fundamental frequency of each of the selected pitch sample data and tone sample data; A prosody selection unit that acquires time information of the phonemes of the selected tone sample data and the time sample data;
By changing the time change information of the fundamental frequency included in the tone sample data according to the time change information of the basic frequency included in the pitch sample data, and further matching the time information of the phonemes included in the time sample data. While determining the time change information of the fundamental frequency as the target parameter, the time information of the phoneme as the target parameter is adjusted by matching the time information of the phoneme included in the tone sample data with the time information of the phoneme included in the time sample data. A target parameter determination unit to determine;
A target parameter determination device comprising:
音声の入力を受け付ける音声入力部と、
前記音声に対応する発話内容を取得する発話内容取得部と、
前記音声入力部によって受け付けられた前記音声と前記発話内容とに基づき、当該音声の基本周波数の時間変化情報及び当該音声の音素の時間情報を算出する音声分析部と、
をさらに具備し、
前記韻律選択部は、前記音声分析部によって算出された前記基本周波数の時間変化情報及び前記音素の時間情報を有する前記音声を前記見本音声データとして取得する、
ことを特徴とする目標パラメータ決定装置。 The target parameter determination device according to claim 1, wherein
A voice input unit that accepts voice input;
An utterance content acquisition unit for acquiring utterance content corresponding to the voice;
A voice analysis unit that calculates time change information of the fundamental frequency of the voice and time information of the phoneme of the voice based on the voice and the utterance content received by the voice input unit;
Further comprising
The prosody selection unit acquires the speech having the time change information of the fundamental frequency and the time information of the phoneme calculated by the speech analysis unit as the sample speech data.
A target parameter determination device characterized by that.
見本音声データを選択する指示の入力を受け付ける見本音声指定部と、
前記見本音声指定部が受け付けた指示に基づいて前記音声データ記憶部を検索することによって前記見本音声データを得る見本音声検索部をさらに具備し、
前記韻律選択部は、前記見本音声検索部が得た見本音声データを取得する、
ことを特徴とする目標パラメータ決定装置。 The target parameter determination device according to claim 1, wherein
A sample voice designation unit that accepts input of an instruction to select sample voice data;
A sample voice search unit for obtaining the sample voice data by searching the voice data storage unit based on an instruction received by the sample voice designation unit;
The prosody selection unit obtains sample voice data obtained by the sample voice search unit;
A target parameter determination device characterized by that.
修正対象となる修正対象音声を選択する指示の入力を受け付ける修正対象音声指定部と、
前記音声データ記憶部を検索することによって前記修正対象音声の表記と同じ表記を有する見本音声を得る見本音声検索部をさらに具備し、
前記韻律選択部は、前記見本音声検索部が得た見本音声データを取得する、
ことを特徴とする目標パラメータ決定装置。 The target parameter determination device according to claim 1, wherein
A correction target voice designation unit that receives an input of an instruction to select a correction target voice to be corrected;
A sample voice search unit that obtains a sample voice having the same notation as the correction target voice by searching the voice data storage unit;
The prosody selection unit obtains sample voice data obtained by the sample voice search unit;
A target parameter determination device characterized by that.
修正対象である音声を記憶する修正対象音声記憶部と、
前記音声データ記憶部から、前記修正対象である音声の表記と異なる表記であって、かつ、音素数またはモーラ数が一致する見本音声データを得る見本音声検索部と、
をさらに具備し、
前記韻律選択部は、前記見本音声検索部が得た見本音声データを取得する、
ことを特徴とする目標パラメータ決定装置。 The target parameter determination device according to claim 1, wherein
A correction target voice storage unit for storing a correction target voice;
A sample voice search unit that obtains sample voice data that is different from the notation of the voice to be corrected and has the same number of phonemes or mora from the voice data storage unit;
Further comprising
The prosody selection unit obtains sample voice data obtained by the sample voice search unit;
A target parameter determination device characterized by that.
修正対象である音声を記憶する修正対象音声記憶部と、
前記修正対象音声を読み出し、前記目標パラメータ決定装置によって決定された前記基本周波数の時間変化情報及び音素の時間情報に基づいて前記修正対象音声を修正する修正部と、
を具備することを特徴とする合成音声修正装置。 A target parameter determination device according to claim 1;
A correction target voice storage unit for storing a correction target voice;
A correction unit that reads out the correction target speech and corrects the correction target speech based on time change information of the fundamental frequency and time information of phonemes determined by the target parameter determination device;
A synthesized speech correction apparatus comprising:
音声の基本周波数の時間変化情報と前記音声に含まれる音素のタイミングを表す音素の時間情報とを有する見本音声データを取得し、前記見本音声データの種別に応じて、音調の見本である音調見本データと音高の見本である音高見本データと音素のタイミングの見本である時間見本データとを選択し、選択された前記音高見本データおよび前記音調見本データそれぞれの基本周波数の時間変化情報と、選択された前記音調見本データと前記時間見本データそれぞれの音素の時間情報とを取得する韻律選択手段、
前記音調見本データが有する前記基本周波数の時間変化情報を、前記音高見本データが有する前記基本周波数の時間変化情報に応じて変更し、さらに前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる基本周波数の時間変化情報を決定するとともに、前記音調見本データが有する音素の時間情報を、前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる音素の時間情報を決定する目標パラメータ決定手段、
として機能させるためのコンピュータプログラム。 A computer having a voice data storage unit that stores voice, speech utterance content, time change information of the fundamental frequency of the voice, and time information of phonemes representing timing of phonemes included in the voice in association with each other. ,
Sample tone data having time change information of the fundamental frequency of speech and time information of phonemes representing the timing of phonemes included in the speech is acquired, and a tone sample that is a sample of tone according to the type of the sample speech data Data and pitch sample data that is a sample of pitch and time sample data that is a sample of the timing of phonemes, and time variation information of the fundamental frequency of each of the selected pitch sample data and tone sample data; Prosody selection means for acquiring time information of each of the selected tone sample data and time sample data;
By changing the time change information of the fundamental frequency included in the tone sample data according to the time change information of the basic frequency included in the pitch sample data, and further matching the time information of the phonemes included in the time sample data. While determining the time change information of the fundamental frequency as the target parameter, the time information of the phoneme as the target parameter is adjusted by matching the time information of the phoneme included in the tone sample data with the time information of the phoneme included in the time sample data. Target parameter determining means for determining,
Computer program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008187035A JP2010026223A (en) | 2008-07-18 | 2008-07-18 | Target parameter determination device, synthesis voice correction device and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008187035A JP2010026223A (en) | 2008-07-18 | 2008-07-18 | Target parameter determination device, synthesis voice correction device and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010026223A true JP2010026223A (en) | 2010-02-04 |
Family
ID=41732119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008187035A Pending JP2010026223A (en) | 2008-07-18 | 2008-07-18 | Target parameter determination device, synthesis voice correction device and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010026223A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012037722A (en) * | 2010-08-06 | 2012-02-23 | Yamaha Corp | Data generator for sound synthesis and pitch locus generator |
WO2014017024A1 (en) * | 2012-07-27 | 2014-01-30 | 日本電気株式会社 | Speech synthesizer, speech synthesizing method, and speech synthesizing program |
JP2018077282A (en) * | 2016-11-07 | 2018-05-17 | ヤマハ株式会社 | Speech synthesis method |
CN112420015A (en) * | 2020-11-18 | 2021-02-26 | 腾讯音乐娱乐科技(深圳)有限公司 | Audio synthesis method, device, equipment and computer readable storage medium |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001166788A (en) * | 1999-12-07 | 2001-06-22 | Matsushita Electric Ind Co Ltd | Method and device for synthesizing voice |
JP2002258885A (en) * | 2001-02-27 | 2002-09-11 | Sharp Corp | Device for combining text voices, and program recording medium |
JP2007024960A (en) * | 2005-07-12 | 2007-02-01 | Internatl Business Mach Corp <Ibm> | System, program and control method |
-
2008
- 2008-07-18 JP JP2008187035A patent/JP2010026223A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001166788A (en) * | 1999-12-07 | 2001-06-22 | Matsushita Electric Ind Co Ltd | Method and device for synthesizing voice |
JP2002258885A (en) * | 2001-02-27 | 2002-09-11 | Sharp Corp | Device for combining text voices, and program recording medium |
JP2007024960A (en) * | 2005-07-12 | 2007-02-01 | Internatl Business Mach Corp <Ibm> | System, program and control method |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012037722A (en) * | 2010-08-06 | 2012-02-23 | Yamaha Corp | Data generator for sound synthesis and pitch locus generator |
WO2014017024A1 (en) * | 2012-07-27 | 2014-01-30 | 日本電気株式会社 | Speech synthesizer, speech synthesizing method, and speech synthesizing program |
JP2018077282A (en) * | 2016-11-07 | 2018-05-17 | ヤマハ株式会社 | Speech synthesis method |
CN112420015A (en) * | 2020-11-18 | 2021-02-26 | 腾讯音乐娱乐科技(深圳)有限公司 | Audio synthesis method, device, equipment and computer readable storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7739113B2 (en) | Voice synthesizer, voice synthesizing method, and computer program | |
JP4302788B2 (en) | Prosodic database containing fundamental frequency templates for speech synthesis | |
JP6266372B2 (en) | Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method, and program | |
JP2002511154A (en) | Extensible speech recognition system that provides audio feedback to the user | |
JP2017058513A (en) | Learning device, speech synthesis device, learning method, speech synthesis method, learning program, and speech synthesis program | |
KR20050098839A (en) | Intermediary for speech processing in network environments | |
JPH11143346A (en) | Method and device for evaluating language practicing speech and storage medium storing speech evaluation processing program | |
JP4829477B2 (en) | Voice quality conversion device, voice quality conversion method, and voice quality conversion program | |
JP2010020102A (en) | Speech recognition apparatus, speech recognition method and computer program | |
JP2007047412A (en) | Apparatus and method for generating recognition grammar model and voice recognition apparatus | |
JP2007248886A (en) | Reading correcting device | |
JP2010026223A (en) | Target parameter determination device, synthesis voice correction device and computer program | |
JP6013104B2 (en) | Speech synthesis method, apparatus, and program | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP3050832B2 (en) | Speech synthesizer with spontaneous speech waveform signal connection | |
JP5062178B2 (en) | Audio recording system, audio recording method, and recording processing program | |
JP5874639B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP2003186489A (en) | Voice information database generation system, device and method for sound-recorded document creation, device and method for sound recording management, and device and method for labeling | |
JP2975586B2 (en) | Speech synthesis system | |
GB2313530A (en) | Speech Synthesizer | |
KR20100111544A (en) | System for proofreading pronunciation using speech recognition and method therefor | |
US11393451B1 (en) | Linked content in voice user interface | |
JP3091426B2 (en) | Speech synthesizer with spontaneous speech waveform signal connection | |
JP2011197542A (en) | Rhythm pattern generation device | |
JP2013195928A (en) | Synthesis unit segmentation device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110128 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20110128 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110128 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120515 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120918 |