JP5301376B2 - Speech synthesis apparatus and program - Google Patents
Speech synthesis apparatus and program Download PDFInfo
- Publication number
- JP5301376B2 JP5301376B2 JP2009158626A JP2009158626A JP5301376B2 JP 5301376 B2 JP5301376 B2 JP 5301376B2 JP 2009158626 A JP2009158626 A JP 2009158626A JP 2009158626 A JP2009158626 A JP 2009158626A JP 5301376 B2 JP5301376 B2 JP 5301376B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- phoneme
- speaker
- storage unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、合成音声を生成する音声合成装置に関する。特に、本発明は、目的話者とは異なる他話者の音声を利用して合成音声を生成する音声合成装置に関する。 The present invention relates to a speech synthesizer that generates synthesized speech. In particular, the present invention relates to a speech synthesizer that generates synthesized speech using speech of another speaker different from the target speaker.
目的話者の音声素片を用いて合成音声を構成する際に、目的話者の声質の適切な音声素片が存在しなければ、音声素片を変換して用いることが考えられる。特許文献1には声質の変換について記載されている。
When a synthesized speech is composed using the speech unit of the target speaker, if there is no speech unit having an appropriate voice quality of the target speaker, it is possible to convert the speech unit for use.
しかしながら、変換量が大きいと、音声素片自体の音質が劣化してしまう場合がある。目的話者の音声素片のバリエーションが不足している場合に、他話者の音声素片を目的話者の声質に違和感を与えない範囲で、目的話者の音声素片と同等に利用できれば、音声素片の不足を補い、音声素片のバリエーションを拡大できることが考えられている。特許文献2には、他話者の音声素片のデータベースを用いて音声合成を行なう技術が記載されている。
However, if the amount of conversion is large, the sound quality of the speech segment itself may deteriorate. If there is not enough variation of the target speaker's speech segment, if the speech unit of the other speaker can be used in the same way as the target speaker's speech unit, as long as the target speaker's voice quality does not feel uncomfortable It is considered that the lack of speech segments can be compensated and the variation of speech segments can be expanded.
一方、他話者の音声素片の利用する場合には、目的話者の音声素片による文章中に他話者の音声素片を存在させる形で合成音声を構成するため、全体として不自然な音声にならないようにすることが望ましい。非特許文献1には、そのような場合に、他話者の音声素片の時間長が短い場合、あるいは他話者の音声素片の部分の基本周波数が低く韻律として目立たない場合には、他話者であることを気付きにくく、全体として自然な音声が得られることが記載されている。
On the other hand, when the speech unit of another speaker is used, the synthesized speech is formed in such a way that the speech unit of the other speaker is present in the sentence of the target speaker's speech unit. It is desirable not to make a sound. In
目的話者とは異なる他話者の音声素片を利用して合成音声を構成する場合に、利用する音声素片の特徴に応じて、全体としての音声における不自然さが目立つ場合と目立たない場合の両方が存在すると考えられる。しかしながら、総当り的なトライアンドエラーで他話者の音声素片を選択していては、合成音声を得るための効率が悪い。違和感なく利用できる他話者の音声素片を選択するにあたって、利用可能であるかどうかを所定の条件により効率よく選択できることが求められる。 When constructing synthesized speech using speech units of other speakers different from the target speaker, depending on the characteristics of the speech units used, the unnaturalness of the speech as a whole may or may not stand out. Both cases are considered to exist. However, if a speech unit of another speaker is selected by brute force trial and error, the efficiency for obtaining synthesized speech is poor. In selecting a speech unit of another speaker that can be used without a sense of incongruity, it is required that whether or not the speech unit is usable can be efficiently selected according to a predetermined condition.
本発明は上記のような課題を解決するために為されたものであり、主として目的話者の音声素片で構成する合成音声中に、目的話者の声質に違和感を与えない他話者の音声素片を利用し、高品質な合成音声を効率よく作成することのできる音声合成装置およびプログラムを提供することを目的とする。 The present invention has been made in order to solve the above-described problems, and it is intended for other speakers who do not give a sense of incongruity to the voice quality of the target speaker during the synthesized speech mainly composed of the speech unit of the target speaker. An object of the present invention is to provide a speech synthesizer and a program capable of efficiently creating high-quality synthesized speech using speech segments.
[1]上記の課題を解決するため、本発明の一態様による音声合成装置は、目的話者および他話者の音声素片を記憶する音声データベース記憶部と、目的とする合成音声に対応する表記データを記憶する表記データ記憶部と、複数の音声素片のそれぞれの特徴量に基づき、それら複数の音声素片の間の音素特徴量適合度を算出する音素特徴量適合度推定部と、前記表記データ記憶部から取得する表記データに基づいて、前記目的とする合成音声を構成する音声素片の候補を前記音声データベース記憶部の中から選択するとともに、選択された前記音声素片の候補のうち他話者の音声素片について、前記音素特徴量適合度推定部が算出した前記音素特徴量適合度に基づいて当該音声素片の候補を採用するか否かを決定し、その結果採用された前記音声素片によって構成された前記合成音声を出力する音声素片選択部と、を具備し、
前記音素特徴量適合度推定部は、前記他話者の音声素片と目的話者の任意の音声素片との間の音素特徴量適合度、又は前記他話者の音声素片と前記音声素片選択部によって選択されている前記音声素片の候補のうちの当該他話者の音声素片以外の音声素片との間の音素特徴量適合度を算出する、ことを特徴とする。
この構成によれば、算出された音素特徴量適合度に基づき、適合度の高い音声素片を採用した合成音声が出力される。
[1] In order to solve the above problems, a speech synthesizer according to an aspect of the present invention corresponds to a speech database storage unit that stores speech segments of a target speaker and other speakers, and a target synthesized speech. A notation data storage unit that stores notation data, a phoneme feature value fitness estimation unit that calculates phoneme feature value suitability between the plurality of speech units based on the feature values of the plurality of speech units, and Based on the notation data acquired from the notation data storage unit, a speech unit candidate constituting the target synthesized speech is selected from the speech database storage unit, and the selected speech unit candidate is selected. the speech unit sac Chi other speakers, to determine whether to adopt the candidates of the speech unit on the basis of the phonemic feature quantity matching degree of the phonemic feature quantity matching degree estimation unit is calculated, the result Before adopted Comprising a speech unit selection unit configured to output the synthesized speech constituted by speech segment, a,
The phoneme feature value fitness estimation unit is configured to determine the phoneme feature value match between the speech unit of the other speaker and an arbitrary speech unit of the target speaker, or the speech unit of the other speaker and the speech. A phoneme feature quantity matching degree with a speech unit other than the speech unit of the other speaker among the speech unit candidates selected by the unit selection unit is calculated .
According to this configuration, based on the calculated phoneme feature value matching degree, synthesized speech that employs speech segments having a high matching degree is output.
[2]また、本発明の一態様による音声合成装置は、上記の音声合成装置において、前記音声素片の音素の種類と、前記合成音声における当該音声素片の前後の音声素片の音素の種類とに少なくとも基づいて音素環境適合度を算出する音素環境推定部を更に具備し、前記音声素片選択部は、前記音声素片の候補のうち、他話者の音声素片についての音素環境適合度を前記音素環境推定部に算出させ、当該音素環境適合度にも基づいて当該音声素片の候補を採用するか否かを決定する、ことを特徴とするものである。
この構成によれば、採用候補となる音声素片の前後音素環境を判別し、その判別結果に基づく音素環境適合度が計算される。そして、音素環境適合度の高い音声素片を採用した合成音声が出力される。
なお、音素環境推定部が、更に、音素種類判別に基づき音素環境適合度を算出するようにしてもよい。
また、音素環境推定部が、更に、韻律環境判別に基づき音素環境適合度を算出するようにしてもよい。
[2] A speech synthesizer according to an aspect of the present invention is the speech synthesizer described above, wherein the type of phoneme of the speech unit and the phoneme of the speech unit before and after the speech unit in the synthesized speech A phoneme environment estimation unit that calculates a phoneme environment suitability based on at least the type, and the speech unit selection unit includes a phoneme environment for a speech unit of another speaker among the speech unit candidates The adaptability is calculated by the phoneme environment estimation unit, and it is determined whether to adopt the speech segment candidate based on the phoneme environment adaptability.
According to this configuration, the phoneme environment of the speech segment that is a candidate for adoption is determined, and the phoneme environment suitability based on the determination result is calculated. Then, synthesized speech using speech segments having a high phoneme environment suitability is output.
The phoneme environment estimation unit may further calculate a phoneme environment suitability based on phoneme type discrimination.
Further, the phoneme environment estimation unit may further calculate a phoneme environment suitability based on prosodic environment discrimination.
[3]また、本発明の一態様による音声合成装置は、上記の音声合成装置において、前記音素特徴量適合度推定部は、前記音声素片のスペクトル傾斜又はFFTケプストラム係数の1次の係数又は声帯音源の特性を表わす特徴量のいずれかの値を前記特徴量とする、ことを特徴とするものである。
なお、FFTケプストラム係数とは、FFT(高速フーリエ変換)を用いて求められたケプストラム係数である。この構成によれば、低周波数域から高周波数域にかけてのフォルマントの減衰度を特徴量として利用し、適合度の高い音声素片を採用した合成音声が出力される。
[3] Further, the speech synthesizer according to one aspect of the present invention is the speech synthesizer described above, wherein the phoneme feature value fitness estimator is a first-order coefficient of a spectral tilt of the speech segment or an FFT cepstrum coefficient, or Any one of the feature values representing the characteristics of the vocal cord sound source is used as the feature value.
The FFT cepstrum coefficient is a cepstrum coefficient obtained using FFT (Fast Fourier Transform). According to this configuration, synthesized speech that employs speech units with high fitness is output using the formant attenuation from the low frequency range to the high frequency range as a feature value.
[4]また、本発明の一態様による音声合成装置は、上記の音声合成装置において、前記音素特徴量適合度推定部は、前記音声素片の音声スペクトルのうち所定の周波数帯域におけるスペクトル重心の周波数を前記特徴量とする、ことを特徴とするものである。
この構成によれば、所定の周波数低域(例えば低周波数帯域)におけるスペクトル重心を特徴量として利用し、適合度の高い音声素片を採用した合成音声が出力される。
[4] Further, in the speech synthesizer according to one aspect of the present invention, in the speech synthesizer described above, the phoneme feature value fitness estimation unit may calculate a spectrum centroid in a predetermined frequency band of the speech spectrum of the speech segment. The frequency is used as the feature amount.
According to this configuration, synthesized speech using a speech unit having a high degree of fitness is output using the spectral centroid in a predetermined low frequency band (for example, a low frequency band) as a feature amount.
[5]また、本発明の一態様による音声合成装置は、上記の音声合成装置において、前記音素特徴量適合度推定部は、前記音声素片のフォルマント周波数およびフォルマントバンド幅を前記特徴量とする、ことを特徴とするものである。
この構成によれば、フォルマント周波数およびフォルマントバンド幅を特徴量として利用し、適合度の高い音声素片を採用した合成音声が出力される。
[5] Further, in the speech synthesizer according to one aspect of the present invention, in the speech synthesizer described above, the phoneme feature amount fitness estimation unit uses the formant frequency and formant bandwidth of the speech unit as the feature amount. It is characterized by that.
According to this configuration, synthesized speech that employs speech units having high fitness is output using formant frequency and formant bandwidth as feature quantities.
[6]また、本発明の一態様による音声合成装置は、上記の音声合成装置において、他話者の音声素片の数の比率の設定値を記憶する他話者比率設定記憶部を更に具備し、前記音声素片選択部は、前記合成音声を構成する音声素片のうち他話者の音声素片の比率が前記他話者比率設定記憶部から読み出した前記設定値以下になるように、算出した前記音素環境適合度が上位の他話者の音声素片を採用するとともに、その他の他話者の音声素片については前記音声データベース記憶部の中から再選した目的話者の音声素片で置き換える、ことを特徴とするものである。 [6] In addition, the speech synthesizer according to an aspect of the present invention further includes the other speaker ratio setting storage unit that stores a setting value of the ratio of the number of speech units of other speakers in the speech synthesizer described above. The speech unit selection unit is configured so that a ratio of speech units of other speakers out of the speech units constituting the synthesized speech is equal to or less than the set value read from the other speaker ratio setting storage unit. The speech unit of the other speaker with the calculated phoneme environment suitability is adopted, and the speech unit of the target speaker reselected from the speech database storage unit is used for the speech unit of the other speaker. It is characterized by being replaced with a piece.
[7]また、本発明の一態様によるコンピュータプログラムは、目的話者および他話者の音声素片を記憶する音声データベース記憶部と、目的とする合成音声に対応する表記データを記憶する表記データ記憶部と、を具備するコンピュータに、複数の音声素片のそれぞれの特徴量に基づき、それら複数の音声素片の間の音素特徴量適合度を算出する音素特徴量適合度推定過程と、前記表記データ記憶部から取得する表記データに基づいて、前記目的とする合成音声を構成する音声素片の候補を前記音声データベース記憶部の中から選択するとともに、選択された前記音声素片の候補のうち他話者の音声素片について、前記音素特徴量適合度推定過程で算出した前記音素特徴量適合度に基づいて当該音声素片の候補を採用するか否かを決定し、その結果採用された前記音声素片によって構成された前記合成音声を出力する音声素片選択過程と、の処理を実行させるプログラムであって、前記音素特徴量適合度推定過程は、前記他話者の音声素片と目的話者の任意の音声素片との間の音素特徴量適合度、又は前記他話者の音声素片と前記音声素片選択過程によって選択されている前記音声素片の候補のうちの当該他話者の音声素片以外の音声素片との間の音素特徴量適合度を算出する、ことを特徴とするものである。
[7] A computer program according to an aspect of the present invention includes a speech database storage unit that stores speech segments of a target speaker and other speakers, and notation data that stores notation data corresponding to a target synthesized speech. A phoneme feature quantity fitness estimation step for calculating a phoneme feature quantity suitability between the plurality of speech segments based on the feature quantities of the plurality of speech segments in a computer comprising the storage unit, and Based on the notation data acquired from the notation data storage unit, a speech unit candidate constituting the target synthesized speech is selected from the speech database storage unit, and the selected speech unit candidate is selected. the speech unit Urn Chi other speakers, to determine whether to adopt the candidates of the speech unit on the basis of the phonemic feature quantity matching degree calculated by the phonemic feature quantity matching degree estimation process, A result adopted speech unit selection step of outputting the synthesized speech constituted by the speech segment, a program for executing processing of the phoneme feature quantity matching degree estimation process, said other speakers Phoneme feature match between a speech unit of the target speaker and an arbitrary speech unit of the target speaker, or the speech unit selected by the speech unit and the speech unit selection process of the other speaker A phoneme feature amount matching degree between speech candidates other than the speech unit of the other speaker among the candidates is calculated.
本発明によれば、目的話者の音声素片の不足を補い、バリエーションを拡張するために、目的話者の音声素片と違和感なく利用できる他話者の音声素片を選択し利用することができ、合成音声の品質向上につながる。また、そのような他話者の音声素片の選択の処理の全部又は一部を自動的に行うことができ、他話者音声素片の選択の効率が上がる。 According to the present invention, in order to make up for the shortage of speech units of the target speaker and to expand variations, the speech unit of the other speaker that can be used without a sense of incongruity with the speech unit of the target speaker is selected and used. Can improve the quality of synthesized speech. Further, all or part of the process of selecting the speech unit of such other speaker can be automatically performed, and the efficiency of selecting the speech unit of the other speaker is increased.
以下、図面を参照しながら本発明の実施形態について説明する。
図1は、本実施形態による音声合成装置の機能構成を示すブロック図である。図示するように、音声合成装置10は、音声素片選択部110と、音素環境適合度推定部112と、音素特徴量適合度推定部113と、他話者音声素片箇所指定部120と、音声データベース記憶部130と、比較音素指定部140と、合成音声記憶部150と、テキスト記憶部155(表記データ記憶部)と、他話者比率設定記憶部160と、デフォルト設定記憶部170とを含んで構成される。
また、音声データベース記憶部130は、目的話者音声データベース131と他話者音声データベース132とを含む。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a functional configuration of the speech synthesizer according to the present embodiment. As shown in the figure, the
The voice
なお、音声素片選択部110、音素環境適合度推定部112、音素特徴量適合度推定部113、他話者音声素片箇所指定部120、比較音素指定部140は、電子回路等を用いた情報処理装置として実現される。また、音声データベース記憶部130、合成音声記憶部150、テキスト記憶部155、他話者比率設定記憶部160、デフォルト設定記憶部170は、例えば磁気ディスク装置や半導体メモリ等を用いて実現される。
これら各部の機能は、次に記載する通りである。
The speech
The function of each part is as described below.
音声素片選択部110は、テキスト記憶部155に格納されている表記データ(平仮名文や、漢字・仮名混じり文や、音素ラベル表記)に基づいて、目的とする合成音声を構成する音声素片の候補を音声データベース記憶部130の中から選択する。なお、表記データが平仮名文や漢字・仮名混じり文で記憶されている場合には、音声素片選択部110は、その表記データを適宜音素ラベル表記に変換してから、音声データベース記憶部130に記憶されている音声素片の候補を選択する。また、音声素片選択部110は、合成音声を構成するための音声素片の候補のうち、他話者の音声素片と比較対象となる音声素片との間の音素特徴量適合度を音素特徴量適合度推定部113に算出させ、当該音素特徴量適合度に基づいて当該音声素片の候補を採用するか否かを決定する。また、音声素片選択部110は、音声素片の候補のうち、他話者の音声素片についての音素環境適合度を音素環境推定部に算出させ、当該音素環境適合度にも基づいて当該音声素片の候補を採用するか否かを決定する。そして、音声素片選択部110は、その結果採用することとなった音声素片を利用して構成した合成音声を出力する。また、音声素片選択部110は、合成音声を構成する音声素片のうち他話者の音声素片の比率が他話者比率設定記憶部160から読み出した設定値以下になるように、算出した音素環境適合度が上位の他話者の音声素片を採用するとともに、その他の他話者の音声素片については再選した目的話者の音声素片で置き換える。
The speech
音素環境適合度推定部112は、音声素片の音素の種類と、合成音声における当該音声素片の前後の音声素片の音素の種類とに少なくとも基づいて音素環境適合度を算出する。更に、音素環境適合度推定部112は、当該音素の音素種類の判別や、韻律環境の判別にも基づいて音素環境適合度を算出するようにしても良い。
なおここで、音素の種類とは、(1)音素が母音か子音か、(2)音素が有声音か無声音か、(3)音素の調音方式(例えば、鼻子音など)、の(1)〜(3)のいずれか、あるいはこれらの組み合わせによって分類される種類である。
音素特徴量適合度推定部113は、与えられる複数の音声素片のそれぞれの特徴量に基づき、それら複数の音声素片の間の音素特徴量適合度を算出する。ここで、音声素片の特徴量とは、スペクトル傾斜、低域スペクトル重心、フォルマント(formant)周波数、フォルマントバンド幅などであるが、これらについては後で詳述する。
The phoneme environment
Here, the type of phoneme is (1) whether (1) the phoneme is a vowel or consonant, (2) whether the phoneme is voiced or unvoiced, and (3) the phoneme articulation method (for example, nasal consonant). It is a kind classified by any one of-(3), or these combination.
The phoneme feature quantity matching
他話者音声素片箇所指定部120は、ユーザーからの入力等に基づき、合成音声中で他話者音声素片を利用する箇所の指定と、音声素片を選択する音声データベースの範囲の指定とを行う。
音声データベース記憶部130は、目的話者および他話者の音声素片を記憶する。
比較音素指定部140は、音素特徴量適合度推定部によって比較される対象となる音声素片、すなわち基準となる音声素片を指定する。
The other-speaker speech segment
The speech
The comparison
合成音声記憶部150は、合成音声を構成するための複数の音声素片に関するデータを記憶する。音声素片選択部110が音声素片を選択したり棄却したりするときに、この合成音声記憶部150も適宜書き換えられる。
テキスト記憶部155は、目的とする合成音声に対応する表記データのテキストを記憶する。この表記データは、例えば、日本語の平仮名等のデータである。なお、音素に対応するラベルの列として、例えば音素ラベル表記など、平仮名以外の形のデータを用いても良い。
他話者比率設定記憶部160は、他話者の音声素片の数の比率の設定値を記憶する。
デフォルト設定記憶部170は、デフォルト設定値を記憶する。デフォルト設定値とは、例えば、合成音声中で他話者音声素片を利用する箇所や、音声素片を選択する音声データベースの範囲などである。
The synthesized
The
The other speaker ratio setting
The default
なお、音素とは、言語において意味の弁別に用いられる最小の音の単位である。例えば日本語においては、「a」、「i」、「u」、「e」、「o」といった母音と、「k」、「s」、「t」、「n」、「h」、「m」、・・・などといった子音が、それぞれ音素に対応する。
また、音声素片とは、合成音声を構成するための構成要素であり、予め用意された短い単位の音声データである。音声素片は、単一の音素に対応していても良いし、複数の音素の列に対応していても良い。
Note that a phoneme is a minimum unit of sound used for meaning discrimination in a language. For example, in Japanese, vowels such as “a”, “i”, “u”, “e”, “o”, “k”, “s”, “t”, “n”, “h”, “ Each consonant such as “m”,... corresponds to a phoneme.
A speech segment is a component for configuring synthesized speech, and is speech data in a short unit prepared in advance. The speech element may correspond to a single phoneme or may correspond to a plurality of phoneme strings.
また、基本周波数とは、音声信号の最も低い周期性のある周波数成分の周波数である。
また、フォルマントとは、音声の周波数スペクトルにおけるピークである。これらのピークのうち、周波数の低い方から順に第1フォルマント、第2フォルマント、第3フォルマント、・・・と呼ぶ。フォルマント周波数のパターンは、音素を特徴付ける要素である。
また、目的話者とは、合成音声を構成する際にターゲットとなる話者である。作成される合成音声を構成する音声素片の主要な話者は、目的話者である。
また、他話者とは、目的話者とは異なる話者である。本実施形態による音声合成装置10は、他話者の音声素片も一部に混在させながら、全体としては目的話者の音声であるように人が認識できる合成音声を作成する。
The fundamental frequency is the frequency of the frequency component having the lowest periodicity of the audio signal.
A formant is a peak in the frequency spectrum of speech. Among these peaks, they are called first formant, second formant, third formant,... In order from the lowest frequency. The formant frequency pattern is an element that characterizes phonemes.
The target speaker is a target speaker when composing synthesized speech. The main speaker of the speech segment constituting the synthesized speech to be created is the target speaker.
The other speaker is a speaker different from the target speaker. The
図2は、音声データベース記憶部130に記憶される音声データベース(目的話者音声データベース131および他話者音声データベース132)のデータ構成とデータ例を示す概略図である。図示するように、この音声データベースは表形式のデータであり、話者識別情報と、音声素片識別情報と、音素ラベル表記と、トライフォン(triphone)と、音声信号データと、スペクトル特徴量と、基本周波数情報の各項目を有している。
このデータの行は音声素片ごとに存在し、データの主キーは音声素片識別情報である。
話者識別情報は、話者を一意に識別するデータである。
FIG. 2 is a schematic diagram illustrating a data configuration and a data example of a voice database (target
This row of data exists for each speech unit, and the main key of the data is speech unit identification information.
The speaker identification information is data that uniquely identifies the speaker.
音声素片識別情報は、音声素片を一意に識別する情報である。
音素ラベル表記は、ローマ字を用いて当該音声素片の発音を表記したデータである。ここで、大文字の「Q」は促音を表わし、記号の「:」(コロン)は長音を表わす。従って、例えば、表中の音声素片識別情報が「B0001」の行における音素ラベル表記「hoQkaido:」は、「ほっかいどー」という発音を表わす。
トライフォンは、音素環境を表わす表記である。例えば、表中の音声素片識別情報が「B0009」の行におけるトライフォン「a−o+i」は、当該音声素片の音素「o」に先行する音素が「a」であって、後続する音素が「i」であることを表している。このトライフォンにおける表記「sil」は無音を表す。つまり、表中の音声素片識別情報が「B0007」の行におけるトライフォン「o−i+sil」は、当該音声素片の音素「i」に先行する音素が「o」であり、後続する音素が無音であることを表している。このように、例えば表中の音声素片識別情報が「B0004」の行と「B0005」の行とを比較すると、話者識別情報「A001」と音素ラベル表記「a」が共通であるが、トライフォンが異なっている。つまり、音声データベース記憶部130は、音素環境にも応じた音声素片を格納している。
音声信号データは、当該音声素片の音声信号そのものを表わすデータである。この音声信号データは、例えば、時系列の音圧レベルのデータとして表わされたり、所定の短い期間における周波数スペクトルのデータとして表わされたりする。
スペクトル特徴量は、当該音声素片の特徴量を表わすデータであり、例えばMFCC(メル周波数ケプストラム係数,Mel-Frequency Cepstrum Coefficient)などを用いる。
基本周波数情報は、当該音声素片の基本周波数を表わすデータであり、当該音声素片における基本周波数の代表的な値、又は基本周波数の時系列の値などを用いる。あるいは、基本周波数の範囲をH(High、高周波数)とL(Low、低周波数)で2値化し、この「H」または「L」の時系列の値を基本周波数情報としても良い。
なお、上記のスペクトル特徴量や基本周波数は、後述するように、音声素片の選択の際に用いられる。
The speech unit identification information is information for uniquely identifying a speech unit.
The phoneme label notation is data in which the pronunciation of the speech segment is expressed using Roman letters. Here, the capital letter “Q” represents a prompt sound, and the symbol “:” (colon) represents a long sound. Therefore, for example, the phoneme label notation “hoQkaido:” in the row of the speech unit identification information “B0001” in the table represents the pronunciation “Hokkaido”.
The triphone is a notation representing a phoneme environment. For example, the triphone “a−o + i” in the row of the speech unit identification information “B0009” in the table indicates that the phoneme preceding the phoneme “o” of the speech unit is “a” and the subsequent phoneme. Represents “i”. The notation “sil” in this triphone represents silence. That is, in the triphone “o−i + sil” in the row of the speech unit identification information “B0007” in the table, the phoneme preceding the phoneme “i” of the speech unit is “o”, and the subsequent phoneme is This means that there is no sound. Thus, for example, when comparing the line with the speech unit identification information “B0004” and the line with “B0005” in the table, the speaker identification information “A001” and the phoneme label notation “a” are common. The triphone is different. That is, the speech
The audio signal data is data representing the audio signal itself of the speech unit. This audio signal data is represented, for example, as time-series sound pressure level data or as frequency spectrum data in a predetermined short period.
The spectrum feature amount is data representing the feature amount of the speech unit, and for example, MFCC (Mel-Frequency Cepstrum Coefficient) is used.
The fundamental frequency information is data representing the fundamental frequency of the speech unit, and a representative value of the fundamental frequency in the speech unit or a time-series value of the fundamental frequency is used. Alternatively, the range of the fundamental frequency may be binarized with H (High, high frequency) and L (Low, low frequency), and the time series value of “H” or “L” may be used as the fundamental frequency information.
Note that the spectral feature amount and the fundamental frequency are used when selecting a speech unit, as will be described later.
なお、目的話者音声データベース131と他話者音声データベース132とを、個別のデータベーステーブルに格納しても良いし、共通のデータベーステーブルに格納しても良い。いずれの場合にも、話者識別情報をデータ内に保持しているため、目的話者の話者識別情報とデータベース上の話者識別情報を比較することにより、目的話者音声素片と他話者音声素片とを区別することができる。
また、図示したデータ項目のほかに、例えば音声ファイル番号や時間情報等を音声データベース記憶部上のテーブルの項目として保持するようにしても良い。ここで、音声ファイル番号は、テーブルの外部に記憶されており音声信号データ等を保持している音声ファイルを一意に識別するための番号である。また、時間情報は、音声信号データに含まれる対象の音素の時間情報(当該音素の開始点および終了点を先頭からの相対時刻で表した情報)である。
The target
In addition to the illustrated data items, for example, an audio file number, time information, and the like may be held as items in a table on the audio database storage unit. Here, the audio file number is a number for uniquely identifying an audio file stored outside the table and holding audio signal data or the like. The time information is time information of the target phoneme included in the audio signal data (information indicating the start point and the end point of the phoneme as relative time from the head).
図3は、合成音声記憶部150に記憶される合成音声データのデータ構成とデータ例を示す概略図である。図示するように、この音声データベースは表形式のデータであり、合成音声識別情報と、順序と、話者識別情報と、音声素片識別情報と、音素ラベル表記と、音声信号データの各項目を有する。なお、このデータにおいて、合成音声を構成する個々の音声素片ごとに行が存在する。
FIG. 3 is a schematic diagram illustrating a data configuration and a data example of the synthesized speech data stored in the synthesized
合成音声識別情報は、合成音声を一意に識別するデータである。
順序は、ある合成音声内での音声素片の順序を示す値である。
話者識別情報は、音声素片の話者を一意に識別するデータであり、音声データベース記憶部130に記憶される話者識別情報と同様のものである。
音声素片識別情報は、音声素片を一意に識別するデータである。
音素ラベル表記は、その音声素片の音素ラベルを表わすデータであり、音声データベース記憶部130に記憶される音素ラベル表記と同様のものである。
音声信号データは、当該音声素片の音声信号そのものを表わすデータであり、音声データベース記憶部130に記憶される音声信号データと同様のものである。
なお、同図に示すデータ例では、合成音声識別情報「C0001」によって識別される合成音声の1番目の音声素片の話者識別情報は「A001」であり、その音声素片識別情報は「B0002」であり、その音素ラベル表記は「to:kyo:」である。また、同合成音声の2番目の音声素片の話者識別情報は「A002」であり、その音声素片識別情報は「B0777」であり、その音素ラベル表記は「kara」である。3番目以降の音声素片についても同様である。
The synthesized speech identification information is data that uniquely identifies the synthesized speech.
The order is a value indicating the order of speech units within a certain synthesized speech.
The speaker identification information is data that uniquely identifies the speaker of the speech unit, and is the same as the speaker identification information stored in the speech
The speech unit identification information is data that uniquely identifies a speech unit.
The phoneme label notation is data representing the phoneme label of the speech segment, and is similar to the phoneme label notation stored in the speech
The voice signal data is data representing the voice signal itself of the voice unit, and is similar to the voice signal data stored in the voice
In the example of data shown in the figure, the speaker identification information of the first speech unit of the synthesized speech identified by the synthesized speech identification information “C0001” is “A001”, and the speech unit identification information is “A001”. “B0002”, and the phoneme label notation is “to: kyo:”. Further, the speaker identification information of the second speech unit of the synthesized speech is “A002”, the speech unit identification information is “B0777”, and the phoneme label notation is “kara”. The same applies to the third and subsequent speech segments.
次に、音声素片の適合度の推定について説明する。音声合成装置10は、音声素片の適合度として、音素環境適合度と音素特徴量適合度とを用いる。
Next, estimation of the fitness of speech segments will be described. The
音素環境適合度推定部112は、音素環境適合度を推定する。そのため、音素環境適合度推定部112は、音素種類の判別と、前後音素環境の判別と、韻律環境判別とを行う。
The phoneme environment
音素種類の判別においては、音素環境適合度推定部112は、(1)母音か子音かの判別、(2)有声音か無声音かの判別、(3)調音方式による判別を行う。
(1)母音/子音の判別
音素環境適合度推定部112は、母音と子音のそれぞれに対して予め定められた指標を記憶しており、適合度推定の対象となる音声素片が母音あるいは子音のいずれであるかに応じて、その指標値を当該音声素片の音素環境適合度の算出に用いる。なお、母音よりも子音の方が、音素環境適合度が高い(適合しやすい)。
(2)有声音/無声音の判別
音素環境適合度推定部112は、有声音と無声音のそれぞれに対して予め定められた指標を記憶しており、適合度推定の対象となる音声素片が有声音あるいは無声音のいずれであるかに応じて、その指標値を当該音声素片の音素環境適合度の算出に用いる。なお、有声音よりも無声音の方が、音素環境適合度が高い(適合しやすい)。
(3)調音方式の判別
調音方式とは、音声器官によって声道に閉鎖又は狭まりを形成する方式のことである。例えば、鼻にかかる音である「m」と「n」とは、共通の調音方式に属する。また、一旦口を閉じてから破裂する音である「p」と「t」と「k」とは、共通の調音方式に属する。音素環境適合度推定部112は、それぞれの調音方式に対して予め定められた指標を記憶しており、適合度推定の対象となる音声素片の調音方式がそれらのいずれであるかに応じて、その指標値を当該音声素片の音素環境適合度の算出に用いる。
In the determination of the phoneme type, the phoneme environment
(1) Discriminating vowels / consonants The phoneme environment
(2) Discrimination of voiced / unvoiced sound The phoneme environment
(3) Discrimination of articulation method The articulation method is a method in which the vocal tract is closed or narrowed by a voice organ. For example, “m” and “n”, which are sounds applied to the nose, belong to a common articulation method. Also, “p”, “t”, and “k”, which are sounds that burst after closing the mouth, belong to a common articulation method. The phoneme environment
前後音素環境の判別においては、音素環境適合度推定部112は、音素の種類ごと及びその話者ごとの前後音素環境の指標を予め記憶している。そして、音素環境適合度推定部112は、合成音声記憶部150に記憶されている順序のデータに基づいて対象の音声素片の前後の音声素片のデータを読み出し、当該対象の音声素片の前後の音素の種類およびその話者を判別する。そして、音素環境適合度推定部112は、判別した音素の種類およびその話者に応じた指標値を、音素環境適合度の算出に用いる。
上記の方法で算出される前後音素環境に基づく適合度は、前後の音のつながりの良さを表わす。
In the discrimination of the front and back phoneme environment, the phoneme environment
The fitness based on the front and back phoneme environment calculated by the above method represents the goodness of connection between the front and rear sounds.
韻律環境の判別においては、音素環境適合度推定部112は、音素時間長と、その音素の基本周波数の相対的な高さに応じた指標を予め記憶している。そして、対象の音素の音素時間長と、その音素の基本周波数の相対的な高さのそれぞれに応じた指標値を、音素環境適合度の算出に用いる。
なお、音素時間長が短い程、音素環境適合度が高い(適合しやすい)。また、音素時間長が所定の閾値よりも長い場合には、音素環境適合度が極端に低くなる(利用できない)。また、音素の基本周波数が低い程、音素環境適合度が高い(適合しやすい)。
In discrimination of the prosodic environment, the phoneme environment
Note that the shorter the phoneme duration, the higher the phoneme environment suitability (easy to adapt). When the phoneme time length is longer than a predetermined threshold, the phoneme environment suitability is extremely low (cannot be used). Moreover, the lower the fundamental frequency of the phoneme, the higher the phoneme environment suitability (easy to adapt).
なお、複数の音素を含む音声素片については、音素環境適合度推定部112は、そのそれぞれの音素についての音素環境適合度を算出する。
そして、音素環境適合度推定部112は、上で得られた各指標値の重み付総和により音素環境適合度を算出する。
Note that for a phoneme unit including a plurality of phonemes, the phoneme environment
Then, the phoneme environment
音素特徴量適合度推定部113は、音素特徴量適合度を推定する。そのため、音素特徴量適合度推定部113は、スペクトル特徴量を比較する処理を行う。ここで利用するスペクトル特徴量は、スペクトル傾斜、FFTケプストラム係数の1次の係数(C1)、声帯音源の特性(スペクトル特性)を表わす特徴量、スペクトルの低い周波数帯域のスペクトル重心(低域スペクトル重心)、フォルマント周波数、フォルマントバンド幅などである。
The phoneme feature value
図4は、音素特徴量適合度推定部113が求めるスペクトル傾斜を説明するための音声スペクトル包絡を示すグラフである。
同図において、横軸は周波数(単位はヘルツ)、縦軸は強度(単位はデシベル)である。また、図示する音声スペクトル包絡に現れるピーク点が、周波数の低い側から点P1,P2,P3,・・・である。また、同グラフにおける点P1,P2,P3の座標が、それぞれ、(f1、m1),(f2、m2),(f3、m3)である。この周波数f1,f2,f3は、それぞれ、第1、第2、第3フォルマント周波数である。
スペクトル傾斜とは、これら複数のピーク点のうちの所定の2つのピーク点を結ぶ直線の傾斜である。
スペクトル傾斜を算出するために、音素特徴量適合度推定部113は、音素の周波数スペクトルの包絡線を求め、その包絡線における複数のピーク点を求め、周波数の低い側から1番目のピークと3番目のピークとを結んだ直線の傾きを計算する。これがスペクトル傾斜であり、周波数の低域から高域にかけての減衰度合いを表わす特徴量である。
つまり、音素特徴量適合度推定部113は、下の式(1)によりスペクトル傾斜gを計算する。
FIG. 4 is a graph showing a speech spectrum envelope for explaining the spectrum inclination obtained by the phoneme feature value
In the figure, the horizontal axis represents frequency (unit: hertz) and the vertical axis represents intensity (unit: decibel). Also, the peak points appearing in the illustrated speech spectrum envelope are points P 1 , P 2 , P 3 ,... From the lower frequency side. In addition, the coordinates of the points P 1 , P 2 , and P 3 in the graph are (f 1 , m 1 ), (f 2 , m 2 ), and (f 3 , m 3 ), respectively. The frequencies f 1 , f 2 , and f 3 are the first, second, and third formant frequencies, respectively.
The spectrum inclination is an inclination of a straight line connecting two predetermined peak points among the plurality of peak points.
In order to calculate the spectrum inclination, the phoneme feature value
That is, the phoneme feature quantity matching
また、スペクトル傾斜を近似する値として、FFTケプストラム係数の1次の係数を特徴量として利用しても良い。 Further, as a value approximating the spectrum inclination, a first order coefficient of the FFT cepstrum coefficient may be used as the feature amount.
また、スペクトル傾斜は、声帯音源の特性と音声を発する時の放射特性の影響を受ける。そして、放射特性はほぼ一定と考えることができるため、スペクトル傾斜は声帯音源の特性によって変わると言える。そこで、この声帯音源の特性が影響する他の特徴量を、スペクトル傾斜の代わりに用いても良い。具体的には、声帯音源の特性を表わす特徴量としては、中高域の雑音成分の割合や、FFTスペクトルから得られる第1調波と第2調波のパワー(デシベル)差分や、FFTスペクトルから得られる第1調波とF3付近ピークのパワー(デシベル)差分のいずれかを用いることができる。 The spectral tilt is affected by the characteristics of the vocal cord sound source and the radiation characteristics when sound is emitted. Since the radiation characteristic can be considered to be almost constant, it can be said that the spectral tilt changes depending on the characteristics of the vocal cord sound source. Therefore, other feature quantities influenced by the characteristics of the vocal cord sound source may be used instead of the spectrum tilt. Specifically, the characteristic amount representing the characteristics of the vocal cord sound source includes a ratio of middle and high frequency noise components, a power (decibel) difference between the first harmonic and the second harmonic obtained from the FFT spectrum, and an FFT spectrum. Either the obtained first harmonic or the power (decibel) difference of the peak near F3 can be used.
図5は、音素特徴量適合度推定部113が求める低域スペクトル重心を説明するための音声スペクトル包絡を示すグラフである。
同図においても同じく、横軸は周波数(単位はヘルツ)、縦軸は強度(単位はデシベル)である。また、Lは、スペクトルの低い周波数帯域であり、この帯域Lの範囲は予め定められている。
そして、音素特徴量適合度推定部113は、下の式(2)により、低域スペクトル重心fW(スペクトル重心の周波数)を計算する。
FIG. 5 is a graph showing a speech spectrum envelope for explaining the low-frequency spectrum centroid obtained by the phoneme feature value
In the same figure, the horizontal axis represents frequency (unit: hertz) and the vertical axis represents intensity (unit: decibel). L is a frequency band having a low spectrum, and the range of the band L is determined in advance.
Then, the phoneme feature value
なお、式(2)におけるm(f)は、音声スペクトルにおける周波数fでの強度を表わす。 Note that m (f) in Equation (2) represents the intensity at the frequency f in the speech spectrum.
なお、フォルマント周波数は、音声スペクトルにおける複数のピーク(フォルマント)の周波数である。また、フォルマントバンド幅は、上記のフォルマントのバンド幅である。 The formant frequency is a frequency of a plurality of peaks (formant) in the voice spectrum. The formant band width is the band width of the above formant.
音素特徴量適合度推定部113は、上記のような特徴量を用いて、下の式(3)により、音素間(音素1と音素2)の適合度Mを算出する。
The phoneme feature amount matching
なお、式(3)において、t1,iは音素1のi番目の特徴量(スカラー又はベクトル)であり、t2,iは音素2のi番目の特徴量(スカラー又はベクトル)である。また、d(t1,i,t2,i)は、両特徴量間の距離に応じて定まる値(スカラー)である。また、wiは、i番目の特徴量に対応する重み値であり、この値は予め定められ音素特徴量適合度推定部113が記憶している。
d(t1,i,t2,i)の具体例としては、例えば、単純にこれら両特徴量間の距離を用いてよい。このときの適合度Mは、下の式(4)を用いて算出される。
In the equation (3), t 1, i is the i-th feature quantity of phonemes 1 (scalar or vector), t 2, i is the i-th feature value of the phoneme 2 (scalar or vector). Further, d (t 1, i , t 2, i ) is a value (scalar) determined according to the distance between both feature amounts. Further, w i is a weight value corresponding to the i-th feature value, and this value is determined in advance and stored in the phoneme feature value
As a specific example of d (t 1, i , t 2, i ), for example, a distance between these both feature amounts may be simply used. The fitness M at this time is calculated using the following equation (4).
なお、複数の音素を含む音声素片については、音素特徴量適合度推定部113は、そのそれぞれの音素についての音素特徴量適合度を算出する。
なお、音素特徴量適合度推定部113が比較の都度、上記の各特徴量を計算する代わりに、予め音声素片の特徴量を計算しておいてその値を音声データベース記憶部130に記憶させておき、比較する際に読み出して用いるようにしても良い。
Note that for a phoneme unit including a plurality of phonemes, the phoneme feature value
Note that instead of calculating each feature amount described above, the phoneme feature amount matching
図6は、音声合成装置10による音声合成の処理手順を示すフローチャートである。以下、このフローチャートに沿って、音声合成装置10の処理手順を説明する。
FIG. 6 is a flowchart showing the procedure of speech synthesis performed by the
なお、このフローチャートの処理に先立って、音声データベース130とテキスト記憶部155と他話者比率設定記憶部160とデフォルト設定記憶部170には所定のデータが記憶されている。
音声データベース130には、複数の話者の音声素片が予め蓄積されている。
テキスト記憶部155には、合成しようとする目的の音声に対応する表記のテキストが記憶されている。具体例としては、テキスト記憶部155には、「とーきょー から よこはま へ いきます」(平仮名文)や「東京 から 横浜 へ 行きます」(漢字・仮名混じり文)や「to:kyo kara yokohama e ikimasu」(音素ラベル表記)などといったテキストデータが記憶されている。
他話者比率設定記憶部160には、合成音声中の全音声素片数のうちの他話者音声素片数の比率の値(例えば、「15%」など)が設定値として記憶されている。
デフォルト設定記憶部170には、合成音声中で他話者音声素片を利用する箇所(例えば、「全箇所」。)、および音声素片を選択する音声データベースの範囲(選択対象とする話者の範囲。例えば、「全話者」。)が設定値として記憶されている。
Prior to the processing of this flowchart, predetermined data is stored in the
The
The
The other-speaker ratio setting
In the default setting
そして、まずステップS1において、他話者音声素片箇所指定部120は、ユーザーの操作(入力)に基づき、合成音声中で他話者音声素片を利用する箇所と、音声素片を選択する音声データベースの範囲の指定を受け付け、それらの情報を音声素片選択部110に渡す。このとき、合成音声中で他話者音声素片を利用する箇所については、他話者音声素片箇所指定部120は、個々の音声素片の単位で指定を受け付ける。例えば、他話者音声素片箇所指定部120は、合成音声記憶部150に記憶されている合成音声識別情報と順序とを一組として、その一組あるいは複数組のデータにより、他話者音声素片を利用する箇所の指定を受け付ける。また、音声素片を選択する音声データベースの範囲の指定としては、他話者音声素片箇所指定部120は、「目的話者音声データベースと他話者音声データベースの両方」又は「他話者音声データベースのみ」のいずれかを表わす情報を受け付ける。またこのとき、特定の単数又は複数の他話者の音声素片のみを選択する場合には、他話者音声素片箇所指定部120は、対象とする話者の話者識別情報の指定を受け付けることもできる。
また、このとき、ユーザーの操作により、合成音声中で他話者音声素片を利用する箇所を「全箇所」と指定することができ、また音声素片を選択する音声データベースの範囲(選択対象とする話者の範囲)を「全話者」と指定することもできる。
First, in step S1, the other-speaker speech unit
Also, at this time, the user's operation can specify “all locations” in the synthesized speech where the other-speaker speech segment is used, and the range of the speech database for selecting speech segments (selection target) Can be designated as “all speakers”.
なお、本ステップにおいて、ユーザーが具体的な指定を行う代わりに、デフォルト設定値を使用することを指定することもできる。デフォルト設定の使用が指定された場合には、音声素片選択部110は、デフォルト設定記憶部170から設定値を読み出して使用する。
例えば、デフォルト設定記憶部170に、合成音声中で他話者音声素片を利用する箇所が「全箇所」であり、また音声素片を選択する音声データベースの範囲(選択対象とする話者の範囲)が「全話者」であることが記憶されている場合には、音声素片選択部110は、その設定値を使用する。
In this step, it is possible to specify that the default setting value is used instead of a specific specification by the user. When the use of the default setting is designated, the speech
For example, in the default setting
なお、ユーザーの指定により、又はデフォルト設定記憶部170に設定されている値により、合成音声中で他話者音声素片を利用する箇所を「全箇所」とする場合には、つまり具体的な箇所の指定が行われない場合には、後述する方法により、他話者音声素片数が占める比率が他話者比率設定記憶部160に記憶されている比率より大きくならないように、他話者音声素片の適合度の上位の順に他話者音声素片を利用する箇所を決定する。
In addition, when the location where the other-speaker speech unit is used in the synthesized speech is set to “all locations” by the user's designation or the value set in the default setting
次にステップS2において、音声素片選択部110は、他話者比率設定記憶部160から比率値を読み出し、合成音声中で他話者音声素片を利用する箇所の比率が設定の範囲内か否かを確認する。具体的には、音声素片選択部110は、他話者音声素片箇所指定部120から渡された情報に基づき、(合成音声内で他話者音声素片を利用する音声素片数/当該合成音声内の全音声素片数)の値を計算し、この値が他話者比率設定記憶部160から読み出した比率値以下であるかどうかを確認する。計算された値が設定の比率値以下である場合(ステップS2:YES)には、次のステップS3に進む。計算された値が設定の比率値よりも大きい場合(ステップS2:NO)には、再度ユーザーからの操作に基づく指定を受けるためにステップS1に戻る。
なお、ステップS1において他話者音声素片を利用する箇所が具体的に指定されなかった場合には、本ステップにおける判定結果は常に「YES」となる。
Next, in step S2, the speech
In addition, when the location using the other-speaker speech unit is not specifically specified in step S1, the determination result in this step is always “YES”.
次にステップS3において、音声素片選択部110は、音声データベース記憶部130内の目的話者音声データベース131又は他話者音声データベース132から、必要な音声素片を選択する。なお、前のステップにおいて特定の箇所(単数又は複数)のみが指定されている場合には、該当する箇所のみについて、利用する音声素片の選択を行う。また、前のステップにおいて特定の話者(単数又は複数)が指定されている場合には、該当するデータベースの当該話者の音声素片の中から選択を行う。ここでの音声素片の選択自体は、従来技術の方法によるものであり、音素ラベルなどのマッチングとともに、音声データベース記憶部130に保持されているスペクトル特徴量および基本周波数のマッチングにより行われる選択である。
Next, in step S <b> 3, the speech
次にステップS4において、音声素片選択部110は、選択された他話者音声素片の数をカウントし、その箇所の比率が他話者比率設定記憶部160に設定されている比率の範囲内か否かを判定する。設定の範囲内である場合(ステップS4:YES)にはステップS6に飛び、設定の範囲を超えている場合(ステップS5:NO)には次のステップS5に進む。
なお、本ステップで判定結果が「NO」となり得るのは、ステップS1において具体的な箇所の指定がなく、ユーザーの指定により、又はデフォルト設定記憶部170に設定されている値により、「全箇所」が指定されていた場合のみである。
Next, in step S <b> 4, the speech
Note that the determination result in this step may be “NO” because there is no specific location designation in
ステップS5においては、音素環境適合度推定部112が他話者音声素片の音素環境の適合度を推定する。そして、音素環境適合度推定部112は、上で選択された音声素片について、適合度順に優先順位を決定する。そして、その結果、他話者比率設定記憶部160に設定されている比率の範囲内に入らなかった優先順位が下位の他話者音声素片については、その他話者音声素片を棄却し、音声素片選択部110が目的話者音声データベース131の中から代わりの目的話者音声素片を再選する。つまり、音声素片選択部は、優先順位が下位の他話者音声素片を、再選された目的話者音声素片で置き換える。なお、ここでの音声素片の再選の方法自体は、前述の通り、既存技術によるものである。
つまり、音素環境適合度推定部112は、他話者比率設定記憶部160に記憶されている設定値に基づいて、適合度が上位の音声素片のみを採用する。
In step S5, the phoneme environment
That is, the phoneme environment
次にステップS6において、音素特徴量適合度推定部113は、合成音声用に選択されている音声素片の特徴量と比較音素指定部140が指定する音声素片との特徴量とを比較し、合成音声用に選択されている音声素片の適合度を推定する。なおこのとき、比較音素指定部140が比較対象として指定する音声素片は、目標話者の任意の音素、又は音声素片選択部110によって選択されている音声素片のうちの、現在比較しようとしている当該音声素片以外のもののいずれかである。
Next, in step S <b> 6, the phoneme feature amount matching
そしてステップS7において、音声素片選択部110は、音素特徴量の適合度の低い音声素片が、選択されている音声素片の中に残っているか否かを判定する。この判定は、言い換えれば、比較すべきすべての他話者音声素片について、音素特徴量適合度推定部113による音素特徴量の適合度の推定が完了しており、且つその適合度が所定の閾値より低いものが存在するか否かによって行う。音素特徴量の適合度の低い音声素片が残っている場合(ステップS7:YES)にはステップS8へ進み、そのような音声素片が残っていない場合(ステップS7:NO)にはステップS9へ進む。
In step S <b> 7, the speech
ステップS8に進んだ場合、同ステップにおいては、音声素片選択部110は、音素特徴量適合度推定部113によって推定された音素特徴量適合度の低い他話者音声素片を棄却し、他の音声素片を再選する。なお、ここでの音声素片の再選の方法自体は、前述の通り、既存技術によるものである。そして、ステップS6の処理に戻る。
つまり、すべての音声素片の音素特徴量の適合度が前記の閾値より高くなるまで、音声素片の選択を繰り返す。
つまり、音声素片選択部110は、音素特徴量の適合度が高い音声素片を採用する。
When the process proceeds to step S8, in this step, the speech
That is, the selection of the speech unit is repeated until the matching degree of the phoneme feature amount of all the speech units becomes higher than the threshold value.
That is, the speech
ステップS9に進んだ場合、音声素片選択部110は、選択(採用)された音声素片からなる合成音声を出力し、そしてこのフローチャート全体の処理を終了する。
When the process proceeds to step S9, the speech
なお、上述した実施形態における音声合成装置10の一部又は全部をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
In addition, you may make it implement | achieve part or all of the
以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
例えば、上で述べた適合度(種々の音素環境適合度、および種々の音素特徴量適合度)の全部を利用せず、それらのうちの一部だけを利用して、音声素片選択部が音声素片の採用あるいは棄却等を決定するようにしても良い。
Although the embodiment has been described above, the present invention can also be implemented in the following modified example.
For example, the speech unit selection unit does not use all of the suitability (various phoneme environment suitability and various phoneme feature suitability) described above, but only a part of them. You may make it determine adoption of a speech segment or rejection.
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.
本発明は、不自然さがなく高品質な合成音声を効率よく生成する目的で利用できる。例えば、本発明は、テレビやラジオ等の放送や、音声による情報提供等の目的で利用することができる。 The present invention can be used for the purpose of efficiently generating high-quality synthesized speech without unnaturalness. For example, the present invention can be used for the purpose of broadcasting information such as television and radio, and providing information by voice.
10…音声合成装置
110…音声素片選択部
112…音素環境適合度推定部
113…音素特徴量適合度推定部
120…他話者音声素片箇所指定部
130…音声データベース記憶部
131…目的話者音声データベース
132…他話者音声データベース
140…比較音素指定部
150…合成音声記憶部
155…テキスト記憶部(表記データ記憶部)
160…他話者比率設定記憶部
170…デフォルト設定記憶部
DESCRIPTION OF
160 ... Other speaker ratio setting
Claims (7)
目的とする合成音声に対応する表記データを記憶する表記データ記憶部と、
複数の音声素片のそれぞれの特徴量に基づき、それら複数の音声素片の間の音素特徴量適合度を算出する音素特徴量適合度推定部と、
前記表記データ記憶部から取得する表記データに基づいて、前記目的とする合成音声を構成する音声素片の候補を前記音声データベース記憶部の中から選択するとともに、選択された前記音声素片の候補のうち他話者の音声素片について、前記音素特徴量適合度推定部が算出した前記音素特徴量適合度に基づいて当該音声素片の候補を採用するか否かを決定し、その結果採用された前記音声素片によって構成された前記合成音声を出力する音声素片選択部と、
を具備し、
前記音素特徴量適合度推定部は、前記他話者の音声素片と目的話者の任意の音声素片との間の音素特徴量適合度、又は前記他話者の音声素片と前記音声素片選択部によって選択されている前記音声素片の候補のうちの当該他話者の音声素片以外の音声素片との間の音素特徴量適合度を算出する、
ことを特徴とする音声合成装置。 A speech database storage unit for storing speech segments of the target speaker and other speakers;
A notation data storage unit for storing notation data corresponding to the target synthesized speech;
A phoneme feature value fitness estimation unit that calculates a phoneme feature value suitability between the plurality of speech units based on the feature values of the plurality of speech units;
Based on the notation data acquired from the notation data storage unit, a speech unit candidate constituting the target synthesized speech is selected from the speech database storage unit, and the selected speech unit candidate is selected. the speech unit sac Chi other speakers, to determine whether to adopt the candidates of the speech unit on the basis of the phonemic feature quantity matching degree of the phonemic feature quantity matching degree estimation unit is calculated, the result A speech unit selector for outputting the synthesized speech composed of the speech units employed;
Equipped with,
The phoneme feature value fitness estimation unit is configured to determine the phoneme feature value match between the speech unit of the other speaker and an arbitrary speech unit of the target speaker, or the speech unit of the other speaker and the speech. Calculating a phoneme feature value compatibility between speech units other than the speech unit of the other speaker among the speech unit candidates selected by the unit selection unit;
A speech synthesizer characterized by the above.
前記音声素片選択部は、前記音声素片の候補のうち、他話者の音声素片についての音素環境適合度を前記音素環境推定部に算出させ、当該音素環境適合度にも基づいて当該音声素片の候補を採用するか否かを決定する、
ことを特徴とする請求項1に記載の音声合成装置。 Further comprising a phoneme environment estimation unit that calculates a phoneme environment suitability based on at least a phoneme type of the speech unit and a phoneme type of a speech unit before and after the speech unit in the synthesized speech;
The speech unit selection unit causes the phoneme environment estimation unit to calculate a phoneme environment suitability for a speech unit of another speaker among the speech unit candidates, and based on the phoneme environment suitability Decide whether to adopt speech segment candidates,
The speech synthesizer according to claim 1.
ことを特徴とする請求項1または2のいずれか一項に記載の音声合成装置。 The phoneme feature quantity fitness estimation unit uses the value of either the spectral slope of the speech unit or the first order coefficient of the FFT cepstrum coefficient or the feature quantity representing the characteristics of the vocal cord sound source as the feature quantity.
The speech synthesizer according to any one of claims 1 and 2.
ことを特徴とする請求項1から3までのいずれか一項に記載の音声合成装置。 The phoneme feature amount fitness estimation unit uses the frequency of the spectrum centroid in a predetermined frequency band in the speech spectrum of the speech unit as the feature amount.
The speech synthesizer according to any one of claims 1 to 3, wherein
ことを特徴とする請求項1から4までのいずれか一項に記載の音声合成装置。 The phoneme feature value fitness estimator uses the formant frequency and formant bandwidth of the speech element as the feature value.
The speech synthesizer according to any one of claims 1 to 4, characterized in that:
前記音声素片選択部は、前記合成音声を構成する音声素片のうち他話者の音声素片の比率が前記他話者比率設定記憶部から読み出した前記設定値以下になるように、算出した前記音素環境適合度が上位の他話者の音声素片を採用するとともに、その他の他話者の音声素片については前記音声データベース記憶部の中から再選した目的話者の音声素片で置き換える、
ことを特徴とする請求項2に記載の音声合成装置。 A speaker ratio setting storage unit that stores a setting value of the ratio of the number of speech units of other speakers;
The speech unit selection unit calculates so that a ratio of speech units of other speakers out of speech units constituting the synthesized speech is equal to or less than the set value read from the other speaker ratio setting storage unit. The speech unit of the other speaker having the highest phoneme environment suitability is adopted, and the speech unit of the other speaker is selected by the speech unit of the target speaker reselected from the speech database storage unit. replace,
The speech synthesizer according to claim 2.
目的とする合成音声に対応する表記データを記憶する表記データ記憶部と、
を具備するコンピュータに、
複数の音声素片のそれぞれの特徴量に基づき、それら複数の音声素片の間の音素特徴量適合度を算出する音素特徴量適合度推定過程と、
前記表記データ記憶部から取得する表記データに基づいて、前記目的とする合成音声を構成する音声素片の候補を前記音声データベース記憶部の中から選択するとともに、選択された前記音声素片の候補のうち他話者の音声素片について、前記音素特徴量適合度推定過程で算出した前記音素特徴量適合度に基づいて当該音声素片の候補を採用するか否かを決定し、その結果採用された前記音声素片によって構成された前記合成音声を出力する音声素片選択過程と、
の処理を実行させるプログラムであって、
前記音素特徴量適合度推定過程は、前記他話者の音声素片と目的話者の任意の音声素片との間の音素特徴量適合度、又は前記他話者の音声素片と前記音声素片選択過程によって選択されている前記音声素片の候補のうちの当該他話者の音声素片以外の音声素片との間の音素特徴量適合度を算出する、
ことを特徴とするプログラム。 A speech database storage unit for storing speech segments of the target speaker and other speakers;
A notation data storage unit for storing notation data corresponding to the target synthesized speech;
In a computer equipped with
A phoneme feature value fitness estimation process for calculating a phoneme feature value suitability between the plurality of speech segments based on the feature values of the plurality of speech segments;
Based on the notation data acquired from the notation data storage unit, a speech unit candidate constituting the target synthesized speech is selected from the speech database storage unit, and the selected speech unit candidate is selected. the speech unit sac Chi other speakers, to determine whether to adopt the candidates of the speech unit on the basis of the phonemic feature quantity matching degree calculated by the phonemic feature quantity matching degree estimation process, as a result A speech segment selection process for outputting the synthesized speech composed of the speech segments employed;
A program for executing the processing,
The phoneme feature value fitness estimation process includes the phoneme feature value match between the speech unit of the other speaker and an arbitrary speech unit of the target speaker, or the speech unit of the other speaker and the speech. Calculating a phoneme feature value fitness between speech units other than the speech unit of the other speaker among the speech unit candidates selected by the unit selection process;
A program characterized by that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009158626A JP5301376B2 (en) | 2009-07-03 | 2009-07-03 | Speech synthesis apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009158626A JP5301376B2 (en) | 2009-07-03 | 2009-07-03 | Speech synthesis apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011013534A JP2011013534A (en) | 2011-01-20 |
JP5301376B2 true JP5301376B2 (en) | 2013-09-25 |
Family
ID=43592467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009158626A Expired - Fee Related JP5301376B2 (en) | 2009-07-03 | 2009-07-03 | Speech synthesis apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5301376B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5665780B2 (en) * | 2012-02-21 | 2015-02-04 | 株式会社東芝 | Speech synthesis apparatus, method and program |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6218600A (en) * | 1985-07-18 | 1987-01-27 | 日本電気株式会社 | Automatic voice interpreting apparatus |
JPH0836397A (en) * | 1994-07-21 | 1996-02-06 | Matsushita Electric Ind Co Ltd | Voice synthesizer |
JP3626398B2 (en) * | 2000-08-01 | 2005-03-09 | シャープ株式会社 | Text-to-speech synthesizer, text-to-speech synthesis method, and recording medium recording the method |
JP4759827B2 (en) * | 2001-03-28 | 2011-08-31 | 日本電気株式会社 | Voice segmentation apparatus and method, and control program therefor |
CN1842702B (en) * | 2004-10-13 | 2010-05-05 | 松下电器产业株式会社 | Speech synthesis apparatus and speech synthesis method |
JP4564416B2 (en) * | 2005-07-13 | 2010-10-20 | 日本放送協会 | Speech synthesis apparatus and speech synthesis program |
JP4769124B2 (en) * | 2006-05-25 | 2011-09-07 | 日本電信電話株式会社 | Speech synthesis method and apparatus with speaker selection function, speech synthesis program with speaker selection function |
JP4648878B2 (en) * | 2006-07-10 | 2011-03-09 | 日本電信電話株式会社 | Style designation type speech synthesis method, style designation type speech synthesis apparatus, program thereof, and storage medium thereof |
-
2009
- 2009-07-03 JP JP2009158626A patent/JP5301376B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011013534A (en) | 2011-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
US7809572B2 (en) | Voice quality change portion locating apparatus | |
JP4025355B2 (en) | Speech synthesis apparatus and speech synthesis method | |
US7603278B2 (en) | Segment set creating method and apparatus | |
US7979274B2 (en) | Method and system for preventing speech comprehension by interactive voice response systems | |
JP6266372B2 (en) | Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method, and program | |
JP4878538B2 (en) | Speech synthesizer | |
JP3910628B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
JP4586615B2 (en) | Speech synthesis apparatus, speech synthesis method, and computer program | |
US9147392B2 (en) | Speech synthesis device and speech synthesis method | |
JP5039865B2 (en) | Voice quality conversion apparatus and method | |
JP2012141354A (en) | Method, apparatus and program for voice synthesis | |
JP6013104B2 (en) | Speech synthesis method, apparatus, and program | |
JP6330069B2 (en) | Multi-stream spectral representation for statistical parametric speech synthesis | |
Toman et al. | Unsupervised and phonologically controlled interpolation of Austrian German language varieties for speech synthesis | |
JP5301376B2 (en) | Speech synthesis apparatus and program | |
JP4648878B2 (en) | Style designation type speech synthesis method, style designation type speech synthesis apparatus, program thereof, and storage medium thereof | |
JP5320341B2 (en) | Speaking text set creation method, utterance text set creation device, and utterance text set creation program | |
JP4841339B2 (en) | Prosody correction device, speech synthesis device, prosody correction method, speech synthesis method, prosody correction program, and speech synthesis program | |
JP6523423B2 (en) | Speech synthesizer, speech synthesis method and program | |
JP2003208188A (en) | Japanese text voice synthesizing method | |
JP2005181998A (en) | Speech synthesizer and speech synthesizing method | |
JPH1185193A (en) | Phoneme information optimization method in speech data base and phoneme information optimization apparatus therefor | |
JPH1097268A (en) | Speech synthesizing device | |
KR20220037094A (en) | Voice synthesis apparatus which processes spacing on reading for sentences and the operating method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120308 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20120308 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20120308 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130418 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130619 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5301376 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |