JP4403996B2 - Prosody pattern generation apparatus, prosody pattern generation method, and prosody pattern generation program - Google Patents
Prosody pattern generation apparatus, prosody pattern generation method, and prosody pattern generation program Download PDFInfo
- Publication number
- JP4403996B2 JP4403996B2 JP2005096228A JP2005096228A JP4403996B2 JP 4403996 B2 JP4403996 B2 JP 4403996B2 JP 2005096228 A JP2005096228 A JP 2005096228A JP 2005096228 A JP2005096228 A JP 2005096228A JP 4403996 B2 JP4403996 B2 JP 4403996B2
- Authority
- JP
- Japan
- Prior art keywords
- prosodic
- pattern
- attribute information
- database
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、音声処理技術に関し、特に、韻律パターンを生成する技術に関する。 The present invention relates to a voice processing technique, and more particularly to a technique for generating a prosodic pattern.
テキスト音声合成では、入力テキストに対して推定された韻律パターンで音声波形を制御することで合成音を生成する。韻律パターンとは、声の高さ(基本周波数),長さ,強さ等の時間的変化をパターン化したものである。韻律パターンは、合成音の自然性に大きく影響しており、音声合成技術においては、合成音の自然性向上を図るために、韻律パターンの生成技術に関する研究がなされてきた。また、韻律パターンは話調を決定付けるものであり、かつ話者独特のものであるため、音声認識技術においても、例えば、非特許文献1等にみられるように、韻律パターンを用いて音声の意味内容や話者の特定を行う技術の研究がなされてきた。
In text-to-speech synthesis, synthesized speech is generated by controlling the speech waveform with a prosodic pattern estimated for the input text. A prosodic pattern is a pattern of temporal changes such as voice pitch (fundamental frequency), length, and strength. Prosodic patterns have a great influence on the naturalness of synthesized sounds. In speech synthesis technology, research on prosody pattern generation techniques has been conducted in order to improve the naturalness of synthesized sounds. In addition, since the prosodic pattern determines the tone of the speech and is unique to the speaker, in speech recognition technology, for example, as shown in Non-Patent
音声合成技術の分野では、従来から自然発声の音声波形から韻律パラメータを抽出してデータベースに記憶し、音声合成の際にデータベース内に記憶された自然発声の韻律パラメータを用いる技術についての研究がなされてきた。この方法では、韻律パターンが自然発声の音声波形から抽出したものであるため、自然性が高い韻律パターンが用いられるという利点がある。しかし、全ての入力テキストに対して適合するパターンを記憶しておくのは物理的に不可能であるため、韻律パターンの変形が不可欠となり、このような変形処理によって韻律パターンの自然性が低下してしまう問題が生じる。このような問題に対して、韻律パターンの自然性を向上させる技術が提案されている。 In the field of speech synthesis technology, prosody parameters have been extracted from spontaneous speech waveforms and stored in a database, and research has been conducted on technology that uses the natural speech prosody parameters stored in the database during speech synthesis. I came. This method has an advantage that a prosodic pattern having high naturalness is used because the prosodic pattern is extracted from a speech waveform of a natural utterance. However, since it is physically impossible to memorize a pattern that matches all input texts, it is essential to transform the prosodic pattern, and this transformation process reduces the naturalness of the prosodic pattern. Problems arise. In order to solve such a problem, a technique for improving the naturalness of the prosodic pattern has been proposed.
例えば、特許文献1には、音声合成時に合成音の韻律パターンを選択するために、予め韻律データベース内の韻律パターンのクラスタ毎に代表パターンを生成しておき、代表パターンを変形した変形パターンと音声データから抽出された韻律パターンとの誤差を評価して、代表パターンを生成する学習方法が開示されている(図13参照)。
For example, in
また、特許文献2には、特定の韻律パターンから近い順で一定数までの複数の韻律パターンの平均ないし近さに対応して重み付けを行って代表韻律パターンを作成する方法が開示されている。
更に、特許文献3には、入力されたテキストデータの文節の属性情報と比較して基準値以上の類似度を持つ文節に関する韻律パラメータから入力テキストデータの文節に対する韻律パラメータを計算する方法が開示されている(図14参照)。この方法では、前述した従来例と違い、入力されたテキストに対する音声コーパス内の韻律パラメータとの類似度を音声合成時に計算するため、より自然性の高い韻律パターンが得られるとしている。
Further,
特許文献1や特許文献2に見られる技術では、予め作成された代表パターンを音声合成時に用いる。このため、カテゴリを代表するパターンから合成音の韻律パターンを選択するしかなく、実際にユーザが入力したテキストに対して最適な韻律パターンが予め作成してある代表パターンと大きく異なっている場合には合成音の自然性と安定性が損なわれてしまうという課題があった。
In the techniques shown in
また、特許文献3に見られる技術では、韻律パターンを音声合成時に生成しているため、入力テキストに対して最適な韻律パターンが、大きく異なっているという問題は生じ難くなっているが、韻律パターンの計算処理の際に、入力テキストデータと選択された韻律パターンとの属性情報の類似度を用いていない。このため、入力発音記号列と属性情報が特に類似しているピッチパターンが韻律データベース内に存在しても、そのピッチパターンに類似したピッチパターンが生成されず、高い自然性を持つ合成音を得ることが困難であるという課題があった。
In the technique shown in
そこで、本発明の目的は、高い安定性を保ちつつ、入力テキストに対し高い自然性を持つ韻律パターンを動的に生成する韻律パターン生成装置および韻律パターン生成方法ならびに韻律パターン生成プログラムを提供すること、更に、より望ましくは、計算負荷を軽減できる韻律パターン生成装置および韻律パターン生成方法ならびに韻律パターン生成プログラムを提供することにある。 Therefore, an object of the present invention is to provide a prosodic pattern generation device, a prosodic pattern generation method, and a prosodic pattern generation program that dynamically generate a prosody pattern having high naturalness with respect to an input text while maintaining high stability. Furthermore, it is more desirable to provide a prosodic pattern generation device, a prosodic pattern generation method, and a prosodic pattern generation program that can reduce the calculation load.
本発明の韻律パターン生成装置は、前記目的を達成するため、文章の構成単位となる各セグメント毎に韻律パターンと属性情報を対応させて予めカテゴリに分割して記憶する韻律データベースと、
入力された発音記号列の属性情報を抽出する属性情報抽出手段と、
前記入力された発音記号列が前記カテゴリ分割された韻律データベース内のどのカテゴリに属するかを特定するカテゴリ選択手段と、
前記カテゴリ選択手段で特定されたカテゴリのデータベースのみを対象に前記韻律データベース内に存在する韻律パターンの属性情報と前記入力された発音記号列から抽出された属性情報の重要度に応じて類似度を計算する類似度計算手段と、
前記類似度に応じた重み付けに従って前記カテゴリ選択手段で特定されたカテゴリのデータベース内の韻律パターンを結合して新規の韻律パターンを生成する韻律パターン生成手段と、を備え、
前記重み付けは、前記類似度が大きい韻律パターンに対しては大きく、前記類似度が小さい韻律パターンに対しては小さくすることで行うことを特徴とする構成を有する。
In order to achieve the above object, the prosody pattern generation apparatus according to the present invention includes a prosody database that stores in advance divided into categories in association with prosodic patterns and attribute information for each segment that is a constituent unit of a sentence;
Attribute information extraction means for extracting attribute information of the phonetic symbol string input;
Category selection means for specifying which category in the prosodic database divided into categories the input phonetic symbol string ;
The degree of similarity is determined according to the importance of the attribute information of the prosodic pattern existing in the prosodic database and the attribute information extracted from the input phonetic symbol string only for the category database specified by the category selecting means. Similarity calculation means for calculating;
Prosody pattern generation means for generating a new prosodic pattern by combining the prosodic patterns in the database of the category specified by the category selection means according to the weighting according to the similarity,
The weighting is performed by increasing the weight for the prosodic pattern having a large similarity and decreasing the weight for a prosodic pattern having a small similarity .
このように、予め作成された代表パターンを用いることなく、入力された発音記号列の属性情報に従って最適な韻律パターンをその都度生成することにより、安定性を保ちつつより高い自然性を持つ韻律パターンを再現することが可能となる。
特に、新規の韻律パターンを生成する際に、韻律データベース内に存在する韻律パターンの属性情報と入力された発音記号列から抽出された属性情報の重要度に応じて類似度を計算し、この類似度に基づいて、類似度が大きい韻律パターンに対しては大きく、類似度が小さい韻律パターンに対しては小さくするように韻律データベース内の韻律パターンを重み付けして結合するようにしているので、入力された発音記号列の属性情報に特に類似した韻律パターンが韻律データベース内に存在する場合には、その韻律パターンに特に類似した韻律パターンを生成して、入力発音記号列に対して高い自然性を持つ韻律パターンを再現することができる。
また、韻律データベース内に発音記号属性情報に類似した属性情報を持つ韻律パターンが存在しない場合であっても、韻律データベース内の複数の韻律パターンを平均したような韻律パターンが生成されるため、安定して音声合成が行える。
以上により、高い安定性を保ちつつ、入力発音記号列に対し高い自然性を持つ合成音の作成が実現される。
In this way, a prosodic pattern having higher naturalness while maintaining stability by generating an optimal prosodic pattern each time according to the attribute information of the input phonetic symbol string without using a representative pattern created in advance. Can be reproduced.
In particular, when generating a new prosodic pattern, the similarity is calculated according to the importance of the prosodic pattern attribute information existing in the prosodic database and the attribute information extracted from the input phonetic symbol string. Based on the degree, the prosodic patterns in the prosodic database are weighted and combined so that they are large for prosody patterns with high similarity and small for prosodic patterns with low similarity. If there is a prosodic pattern in the prosodic database that is particularly similar to the attribute information of the generated phonetic symbol string, a prosodic pattern that is particularly similar to that prosodic pattern is generated, and the input phonetic symbol string is highly natural. The prosodic pattern you have can be reproduced.
Even if there is no prosodic pattern with attribute information similar to phonetic symbol attribute information in the prosodic database, a prosodic pattern that averages multiple prosodic patterns in the prosodic database is generated, which is stable. Can be synthesized.
As described above, it is possible to create a synthesized sound having high naturalness for the input phonetic symbol string while maintaining high stability.
特に、韻律パターンを生成する際に結合に用いる韻律パターンの候補をカテゴリ内の韻律パターンに限定することができるので計算負荷を大幅に軽減することができ、処理速度の向上および記憶容量の削減に繋がる。 In particular , prosody pattern candidates used for combining when generating prosodic patterns can be limited to prosodic patterns within a category, so that the calculation load can be greatly reduced, improving processing speed and reducing storage capacity. Connected.
本発明の、音声合成装置は前述した韻律パターン生成装置と共通する主要部を有するもので、更に、韻律パターン生成手段で生成された韻律パターンにより韻律を制御して音声波形を生成する波形生成手段を有する。 The speech synthesizer of the present invention has a main part in common with the prosody pattern generation device described above, and further, waveform generation means for generating a speech waveform by controlling the prosody by the prosodic pattern generated by the prosody pattern generation means Have
これにより、高い安定性を保ちつつ、入力発音記号列に対し高い自然性を持つ合成音の作成が可能な音声合成装置が提供される。 This provides a speech synthesizer capable of creating a synthesized sound having high naturalness for an input phonetic symbol string while maintaining high stability.
本発明の韻律パターン生成方法は、前記と同様の目的を達成するため、入力された発音記号列の属性情報を抽出するステップと、
前記入力された発音記号列が予めカテゴリ分割された韻律データベース内のどのカテゴリに属するかを判定する判定ステップと、
前記判定ステップで特定されたカテゴリの韻律データベース内に予め記憶されている韻律パターン毎の属性情報と前記入力された発音記号列から抽出された属性情報の重要度に応じて類似度を計算するステップと、
前記類似度に応じた重み付けに従って前記判定ステップで特定されたカテゴリの韻律データベース内の韻律パターンを結合して新規の韻律パターンを生成するステップと、を含み、
前記新規の韻律パターンを生成するステップにおける重み付けは、前記類似度が大きい韻律パターンに対しては大きく、前記類似度が小さい韻律パターンに対しては小さくすることで行うことを特徴とする構成を有する。
In order to achieve the same object as described above, the prosody pattern generation method of the present invention extracts the attribute information of the input phonetic symbol string;
A determination step of determining which category in the prosodic database into which the input phonetic symbol string is pre-categorized ;
Calculating similarity based on attribute information for each prosodic pattern stored in advance in the prosodic database of the category specified in the determining step and importance of attribute information extracted from the input phonetic symbol string When,
Generating a new prosodic pattern by combining prosodic patterns in the prosodic database of the category specified in the determining step according to weighting according to the similarity, and
The weighting in the step of generating the new prosodic pattern is performed by increasing the weight for the prosodic pattern having a large similarity and decreasing the weight for a prosodic pattern having a small similarity. .
予め作成された代表パターンを用いることなく、入力された発音記号列の属性情報に従って、最適な韻律パターンをその都度生成するようにしているので、安定性を保ちつつより高い自然性を持つ韻律パターンを再現することが可能であり、しかも、韻律データベース内に存在する韻律パターンの属性情報と入力された発音記号列から抽出された属性情報の重要度に応じて類似度を計算し、この類似度に基づいて、類似度が大きい韻律パターンに対しては大きく、類似度が小さい韻律パターンに対しては小さくするように韻律データベース内の韻律パターンを重み付けして韻律パターンを結合するようにしているので、入力された発音記号列の属性情報に特に類似した韻律パターンが韻律データベース内に存在する場合には、その韻律パターンに特に類似した韻律パターンを生成して入力発音記号列に対して高い自然性を持つ韻律パターンを再現することができる。また、韻律データベース内に発音記号属性情報に類似した属性情報を持つ韻律パターンが存在しない場合であっても、韻律データベース内の複数の韻律パターンを平均したような韻律パターンが生成されるため、安定して音声合成が行える。従って、高い安定性を保ちつつ、入力発音記号列に対し高い自然性を持つ合成音の作成が実現される。 An optimal prosodic pattern is generated each time according to the input phonetic symbol string attribute information without using a representative pattern created in advance, so the prosody pattern has higher naturalness while maintaining stability. The similarity is calculated according to the importance of the attribute information extracted from the input phonetic symbol string and the attribute information of the prosodic pattern existing in the prosody database. The prosodic pattern is weighted so that it is large for prosody patterns with high similarity and small for prosody patterns with low similarity, so that the prosodic patterns are combined. If there is a prosodic pattern in the prosodic database that is particularly similar to the attribute information of the input phonetic symbol string, It is possible to reproduce the prosody pattern with high naturalness, especially for similar product to enter the pronunciation symbol string prosodic patterns. Even if there is no prosodic pattern with attribute information similar to phonetic symbol attribute information in the prosodic database, a prosodic pattern that averages multiple prosodic patterns in the prosodic database is generated, which is stable. Can be synthesized. Therefore, it is possible to create a synthesized sound having high naturalness for the input phonetic symbol string while maintaining high stability.
特に、韻律パターンを生成する際に結合に用いる韻律パターンの候補をカテゴリ内の韻律パターンに限定することができるので、計算負荷を大幅に軽減することが可能となり、処理速度の向上および記憶容量の削減に繋がる。 In particular , prosody pattern candidates used for combining when generating a prosodic pattern can be limited to prosodic patterns within a category, so that the calculation load can be greatly reduced, the processing speed is improved, and the storage capacity is increased. It leads to reduction.
本発明の音声合成方法は、前述した韻律パターン生成方法と共通する主要部を有するもので、更に、生成された韻律パターンにより韻律を制御して音声波形を生成するステップを含む。 The speech synthesis method of the present invention has a main part in common with the prosody pattern generation method described above, and further includes a step of generating a speech waveform by controlling the prosody using the generated prosody pattern.
この音声合成方法によれば、高い安定性を保ちつつ、入力発音記号列に対し高い自然性を持つ合成音の作成が達成される。 According to this speech synthesis method, it is possible to create a synthesized sound having high naturalness for the input phonetic symbol string while maintaining high stability.
本発明の韻律パターン生成プログラムは、前記と同様の目的を達成するため、韻律パターン生成装置を構成するコンピュータに、
入力された発音記号列の属性情報を抽出する処理と、
前記入力された発音記号列が予めカテゴリ分割された韻律データベース内のどのカテゴリに属するかを判定する判定処理と、
前記判定処理で特定されたカテゴリの韻律データベース内に予め記憶されている韻律パターン毎の属性情報と前記入力された発音記号列から抽出された属性情報の重要度に応じて類似度を計算する処理と、
前記類似度に応じ、前記類似度が大きい韻律パターンに対しては大きく、前記類似度が小さい韻律パターンに対しては小さくするように重み付けを行なって、前記判定処理で特定されたカテゴリのデータベース内の韻律パターンを結合して新規の韻律パターンを生成する処理とを実行させることを特徴とした構成を有する。
In order to achieve the same object as described above, the prosody pattern generation program of the present invention includes a computer constituting the prosody pattern generation apparatus,
A process of extracting attribute information of the phonetic symbol string input;
A determination process for determining which category in the prosodic database in which the input phonetic symbol string is pre-categorized ;
Processing for calculating similarity according to the importance of attribute information for each prosodic pattern stored in advance in the prosodic database of the category specified in the determination processing and attribute information extracted from the input phonetic symbol string When,
Depending on the similarity, weighting is performed so that the prosodic pattern having a high similarity is large and the prosodic pattern having a low similarity is small, and the weight is set in the database of the category specified by the determination process . And a process for generating a new prosodic pattern by combining the prosodic patterns.
この韻律パターン生成プログラムをインストールされたコンピュータは、前述の韻律パターン生成装置として機能する。 A computer in which this prosodic pattern generation program is installed functions as the aforementioned prosodic pattern generation apparatus.
本発明の音声合成プログラムは、前述した韻律パターン生成プログラムと共通する主要部を有するもので、更に、前記コンピュータに、韻律パターン生成手段で生成された韻律パターンにより韻律を制御して音声波形を生成する機能を付与する。 The speech synthesis program of the present invention has a main part in common with the prosody pattern generation program described above, and further generates a speech waveform by controlling the prosody by the prosody pattern generated by the prosody pattern generation means in the computer. The function to perform is given.
この音声合成プログラムをインストールされたコンピュータは、前述の音声合成装置として機能する。 A computer installed with this speech synthesis program functions as the speech synthesis apparatus described above.
本発明の韻律パターン生成装置および韻律パターン生成方法ならびに韻律パターン生成プログラムは、予め作成された代表パターンを用いることなく、入力された発音記号列の属性情報に従って最適な韻律パターンをその都度生成するようにしているので、安定性を保ちつつより高い自然性を持つ韻律パターンを再現することができる。 The prosody pattern generation apparatus, prosody pattern generation method, and prosody pattern generation program according to the present invention generate an optimal prosody pattern each time according to attribute information of an input phonetic symbol string without using a representative pattern created in advance. As a result, prosodic patterns with higher naturalness can be reproduced while maintaining stability.
特に、新規の韻律パターンを生成するに際に、韻律データベース内に存在する韻律パターンの属性情報と入力された発音記号列から抽出された属性情報の重要度に応じて類似度を計算し、この類似度に基づいて、類似度が大きい韻律パターンに対しては大きく、類似度が小さい韻律パターンに対しては小さくするように韻律データベース内の韻律パターンを重み付けして韻律パターンを結合するようにしているので、入力された発音記号列の属性情報に特に類似した韻律パターンが韻律データベース内に存在する場合には、その韻律パターンに特に類似した韻律パターンを生成して、入力発音記号列に対して高い自然性を持つ韻律パターンを再現することができ、更に、韻律パターンを生成する際に結合に用いる韻律パターンの候補をカテゴリ内の韻律パターンに限定しているので計算負荷を大幅に軽減することができ、処理速度の向上および記憶容量の削減に繋がる。 In particular, when generating a new prosodic pattern, the similarity is calculated according to the importance of the prosodic pattern attribute information existing in the prosodic database and the attribute information extracted from the input phonetic symbol string. Based on the similarity , the prosodic patterns in the prosodic database are weighted so that they are large for prosody patterns with high similarity and small for prosody patterns with low similarity. Therefore, if a prosodic pattern that is particularly similar to the attribute information of the input phonetic symbol string exists in the prosodic database, a prosodic pattern that is particularly similar to that prosodic pattern is generated and It can reproduce the prosody pattern with high naturalness, further category candidates prosodic pattern used for coupling in generating the prosody pattern Since the limited prosodic pattern of the inner can significantly reduce the computational load, leading to reduction of the increase and the storage capacity of the processing speed.
また、韻律データベース内に発音記号属性情報に類似した属性情報を持つ韻律パターンが存在しない場合であっても、韻律データベース内の複数の韻律パターンを平均したような韻律パターンが生成されるため、安定して音声合成が行える。 Even if there is no prosodic pattern with attribute information similar to phonetic symbol attribute information in the prosodic database, a prosodic pattern that averages multiple prosodic patterns in the prosodic database is generated, which is stable. Can be synthesized.
従って、高い安定性を保ちつつ、入力発音記号列に対し高い自然性を持つ合成音の作成が実現される。 Therefore, it is possible to create a synthesized sound having high naturalness for the input phonetic symbol string while maintaining high stability.
次に、本発明を実施するための最良の形態について図面を参照して説明する。図1は本発明の音声合成方法を実現するための音声合成プログラムをインストールすることにより音声合成装置として機能するコンピュータ1の構成の概略を示したブロック図である。
Next, the best mode for carrying out the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing an outline of the configuration of a
この音声合成プログラムは、本発明を適用した韻律パターン生成プログラムを主要部として備えたものであり、この音声合成プログラムをインストールしたコンピュータ1は、その結果として、本発明の韻律パターン生成方法を適用した韻律パターン生成装置としても機能することになる。
This speech synthesis program includes a prosody pattern generation program to which the present invention is applied as a main part, and as a result, the
コンピュータ1は、通常のワークステーションもしくはパーソナルコンピュータ等からなり、演算手段としてのマイクロプロセッサ(以下、単にCPUという)2と、CPU2の基本的な制御プログラムを格納したROM3、および、演算データの一時記憶等に利用されるRAM4と、大容量記憶装置としてのハードディスク5、ならびに、各種の外部装置やネットワーク等と接続するためのインターフェイス6を備える。
The
ハードディスク5には音声合成プログラムがインストールされており、この音声合成プログラムが必要に応じてRAM4上に展開され、音声合成プログラムに従って駆動制御されるCPU2が、属性情報抽出手段,類似度計算手段,韻律パターン生成手段,波形生成手段等の機能を実現する。また、ハードディスク5には、韻律データベースが予め格納されているものとする。
A speech synthesis program is installed in the
また、CPU2には、マン・マシン・インターフェイスとして機能するキーボード7とモニタ8が入出力回路9を介して接続され、更に、入出力回路9には、ドライバ10を介して音声出力手段としてのスピーカ11が接続されている。
Further, a
図2は音声合成プログラムによって駆動制御されるCPU2の機能の概略を示した機能ブロック図であり、その主要部は、属性情報抽出手段12,類似度計算手段13,韻律パターン生成手段14、および、波形生成手段15によって構成される。
FIG. 2 is a functional block diagram showing an outline of the functions of the
属性情報抽出手段12は、RAM4上あるいはハードディスク5上もしくはインターフェイス6を介して外部装置から入力された発音記号列を分析し、セグメント毎に属性情報を抽出する。
発音記号列は、主に読み情報からなり、その他に、少なくともアクセント位置情報等の属性情報と文のセグメント区切りの情報を備える。
ここで言うセグメントとは、文節やアクセント句等の文中の言語的ないし音響的な区切りを指し、文章の基本的な構成単位である。
また、属性情報とは、前述のアクセント位置情報や言語情報、更には、時間長情報等の言語的ないし音響的なパラメータ等を意味する。
ハードディスク5の韻律データベース16には、人間の肉声等の自然発声の音声から抽出された韻律パターンのパラメータと属性情報の内容、および、其の相互の対応関係がセグメント単位で多数記憶されている。
The attribute
The phonetic symbol string is mainly composed of reading information, and further includes at least attribute information such as accent position information and sentence segment delimiter information.
The segment here refers to a linguistic or acoustic delimiter in a sentence such as a clause or an accent phrase, and is a basic constituent unit of a sentence.
The attribute information means the above-described accent position information, language information, and language or acoustic parameters such as time length information.
The
類似度計算手段13は、属性情報抽出手段12によって抽出された入力発音記号列の各セグメントの属性情報と韻律データベース16内に存在する各セグメント単位の韻律パターンの属性情報との間の特徴量空間内距離を計算する。
特徴量とは属性情報間の類似度を距離として測定できるように数値化したものである。以下、属性情報間の類似度を特徴量空間内距離と表現するものとする。この距離が小さければ類似度は大きく、また、距離が大きければ類似度は小さい。
The similarity calculation means 13 is a feature amount space between the attribute information of each segment of the input phonetic symbol string extracted by the attribute information extraction means 12 and the attribute information of the prosodic pattern of each segment existing in the
The feature amount is quantified so that the similarity between attribute information can be measured as a distance. Hereinafter, the similarity between attribute information is expressed as a distance in the feature amount space. If this distance is small, the similarity is large, and if the distance is large, the similarity is small.
韻律パターン生成手段14は、類似度計算手段13によって求められた特徴量空間内距離を用い、韻律データベース16内の各韻律パターンを類似度に応じた重み付けで結合して新規に韻律パターンを生成する。韻律パターンの結合方法としては、例えば、特徴量空間内距離に応じた重み付けで韻律データベース16内の韻律パターンを加算する方法等が利用できる。
The prosodic pattern generation means 14 generates a new prosodic pattern by combining the prosodic patterns in the
波形生成手段15は、韻律パターン生成手段14によって生成された新規の韻律パターンを用いて合成音を生成する。
The
図2および図3を参照して、本発明を実施するための最良の形態の動作を説明する。 The operation of the best mode for carrying out the present invention will be described with reference to FIGS.
まず、ユーザが作成したい合成音の発音記号列を属性情報抽手段12に入力する(図3のステップa1)。 First, a phonetic symbol string of a synthesized sound that the user wants to create is input to the attribute information extraction means 12 (step a1 in FIG. 3).
次に、属性情報抽出手段12において、入力された発音記号列を分析し、セグメント毎に属性情報を抽出する(ステップa2)。 Next, the attribute information extraction means 12 analyzes the input phonetic symbol string and extracts attribute information for each segment (step a2).
そして、抽出された属性情報と韻律データベース16内の各韻律パターンの属性情報との間の特徴量空間内距離を類似度計算手段13によって求める(ステップa3)。
Then, a distance in the feature amount space between the extracted attribute information and the attribute information of each prosodic pattern in the
次いで、類似度計算手段13で求められた特徴量空間内距離を用いて、韻律パターン生成手段14により、韻律データベース16内の韻律パターンを重み付けして結合し、新規の韻律パターンを生成する(ステップa4)。
Next, the prosodic pattern generation means 14 weights and combines the prosodic patterns in the
そして、最終的に、波形生成手段15により、韻律パターン生成手段14で作成された新規韻律パターンに基づいて韻律を制御して合成音を生成する(ステップa5)。
Finally, the
この実施形態では、合成音の韻律を制御する韻律パターンを発音記号列の入力の度に動的に生成するため、入力発音記号列に最適な韻律パターンを生成することが可能となる。 In this embodiment, since the prosodic pattern for controlling the prosody of the synthesized sound is dynamically generated every time the phonetic symbol string is input, it is possible to generate an optimal prosodic pattern for the input phonetic symbol string.
また、韻律データベース16内の自然発声の韻律パターンを重み付けして結合するため、入力された発音記号列と属性情報が同一もしくは非常に類似した発話内容の韻律パターンが韻律データベース16内に存在する場合には、この韻律パターンの特徴を強く反映した韻律パターン、要するに、入力された発音記号列に極めて適合した韻律パターンが作成され、一方、入力された発音記号列に良く類似する韻律パターンが韻律データベース16内に存在しない場合においては、韻律データベース16内に登録された範囲で、入力された発音記号列と比較的類似する属性情報を備えた複数の韻律パターンの特徴を平均化したような韻律パターンが生成されることになる。このため、韻律パターンの高い自然性と高い安定性の両方を確保した音声合成装置が実現できる。
Further, since the prosodic patterns of the natural utterance in the
図4に他の実施形態の機能ブロック図を示す。この実施形態は、CPU2が前述した属性情報抽出手段12,類似度計算手段13,韻律パターン生成手段14,波形生成手段15として機能する他、更に、カテゴリ選択手段17としても機能するようになっている。
また、ハードディスク5には、前述の韻律データベース16に代えて、カテゴリ分割された韻律データベース18が登録されている。
FIG. 4 shows a functional block diagram of another embodiment. In this embodiment, the
In addition, in the
カテゴリ分割された韻律データベース18は、前述した韻律データベース16と同等の韻律データベースを予めカテゴリ分割して記憶している。カテゴリ分割の方法としては、モーラ数やアクセント型等の属性情報で分割する方法がある。
The category-divided
カテゴリ選択手段17は、入力された発音記号列から属性情報抽出手段12によって抽出された属性情報を元に、入力された発音記号列の各セグメントが、カテゴリ分割された韻律データベース18内のどのカテゴリに属するかを判別し、対応するカテゴリのデータベースを特定する。
The category selection means 17 determines which category in the
そして、類似度計算手段13は、カテゴリ選択手段17で特定されたカテゴリのデータベースのみを対象にして入力発音記号列の各セグメントの属性情報と韻律データベース18内に存在する各セグメント単位の韻律パターンの属性情報との間の特徴量空間内距離を計算する。また、韻律パターン生成手段14は、類似度計算手段13の計算結果に従って重み付けを行い、カテゴリ選択手段17で選択されたカテゴリに属する韻律パターンのみを用いて結合操作を行うことで韻律パターンを生成する。
The similarity calculation means 13 then applies only the database of the category specified by the category selection means 17 to the attribute information of each segment of the input phonetic symbol string and the prosodic pattern for each segment existing in the
図5を参照して、この実施形態の動作を説明する。但し、ステップb1〜ステップb2およびステップb4〜ステップb6の処理は、夫々、前述した実施形態のステップa1〜ステップa2およびステップa3〜ステップa5の処理(図3参照)と同様であるので、重複する部分の説明は省略し、ここでは、新たに追加した構成に関わるステップb3の動作のみを説明する。 The operation of this embodiment will be described with reference to FIG. However, since the processing of step b1 to step b2 and step b4 to step b6 is the same as the processing of step a1 to step a2 and step a3 to step a5 (see FIG. 3) of the above-described embodiment, they overlap. Description of the portion is omitted, and only the operation of step b3 related to the newly added configuration will be described here.
ステップb3の処理では、カテゴリ選択手段17が、入力された発音記号列から抽出された属性情報に基いて、この発音記号列がカテゴリ分割された韻律データベース18内のどのカテゴリに属するかを判別する。これに続くステップb4,ステップb5の処理は、カテゴリ選択手段17の判別処理によって選択されたカテゴリ内でのみ行われる。
In the process of step b3, the category selection means 17 determines which category in the
この実施形態では、新規の韻律パターンを生成する前に、予め似通った特徴を持つ韻律パターンの集合であるカテゴリを選択しておくため、新規の韻律パターンの生成の際に、一定の類似度を持った韻律パターンのみを用いて計算を行うことが可能となる。このため、処理速度の向上および安定した韻律パターンを得ることが容易となる。 In this embodiment, since a category that is a set of prosodic patterns having similar features is selected in advance before generating a new prosodic pattern, a certain degree of similarity is set when a new prosodic pattern is generated. It is possible to perform calculations using only the prosodic patterns that are possessed. For this reason, it becomes easy to improve the processing speed and obtain a stable prosodic pattern.
図6は図2および図3で示した実施形態に相当する実施例の音声合成装置のブロック図である。音声合成装置として動作するコンピュータ1の構成およびCPU2の機能については既に述べた通りであり、ここでは専ら音声合成方法に関わる手順について方法的な側面から説明する。
FIG. 6 is a block diagram of a speech synthesis apparatus of an example corresponding to the embodiment shown in FIGS. The configuration of the
なお、本実施例では、韻律パターンがセグメント単位で分割されて記憶されている韻律データベース16が予め作成されているものとする。セグメントとしては文中の1アクセント句を1セグメントとし、韻律パターンは、基本周波数の時系列を時間方向および周波数方向に正規化したものが登録されているものとする。また、韻律データベース16には夫々の韻律パターンに対し、少なくともアクセント句のモーラ数,アクセント型,文中の位置,音素列,先行するアクセント句のアクセント型等の属性情報が予め記憶されているものとする。
In this embodiment, it is assumed that the
ここで、韻律パターンおよび属性情報について、図7を用いて簡単に説明する。具体例として、「音声を合成します」(仮に例文Sと呼ぶ)という文を扱う。例文Sをアクセント句に分割すると、「音声を」(第1アクセント句)と「合成します」(第2アクセント句)の2つのアクセント句に分割される。 Here, the prosodic pattern and the attribute information will be briefly described with reference to FIG. As a specific example, a sentence “synthesize speech” (tentatively called example sentence S) is handled. When the example sentence S is divided into accent phrases, it is divided into two accent phrases, “speech” (first accent phrase) and “synthesize” (second accent phrase).
更に、例文Sを読み情報のひらがな列に変換すると、「お’んせーを/ごーせーしま’す」(但し、’はアクセント記号,/はアクセント句の区切り記号)となる。 Further, when the example sentence S is read and converted into a hiragana string of information, it becomes “on's name / goose-shima's” (where 'is an accent symbol and / is an accent phrase delimiter).
ここで、第1アクセント句の属性情報の一部を抽出すると、モーラ数が5,アクセント型が1,文中の位置は文頭となり、第2アクセント句の属性情報は、モーラ数が7,アクセント型が6,文中の位置は文末ということになる。 Here, when a part of the attribute information of the first accent phrase is extracted, the number of mora is 5, the accent type is 1, the position in the sentence is the beginning of the sentence, and the attribute information of the second accent phrase is the mora number of 7, the accent type However, the position in the sentence is the end of the sentence.
文中の位置は、文頭,文末,文中,単語等に分けられ、夫々が文中の位置を表す特徴量として数値化されているものとする。 The position in the sentence is divided into a sentence head, a sentence end, a sentence, a word, etc., and each is digitized as a feature value representing the position in the sentence.
本実施例における一連の処理を、N個のアクセント句から成る或る1文の発音記号列が入力されたときの、n番目のアクセント句(「第nアクセント句」と呼ぶ)に注目して説明する。この発音記号列には、少なくともアクセントの位置とアクセント句の区切りが属性情報として明記されている。 In the series of processes in this embodiment, paying attention to the nth accent phrase (referred to as the “nth accent phrase”) when a phonetic symbol string consisting of N accent phrases is input. explain. In this phonetic symbol string, at least an accent position and an accent phrase break are specified as attribute information.
まず、入力された発音記号列の第nアクセント句に対し、図6に示されるようにして属性情報の抽出処理を行う(属性情報を抽出するステップ)。抽出する属性情報の種類は、少なくとも韻律データベース16内の韻律パターンに対して記憶されているものを全て含む。この属性情報の値を、
各属性情報の種類には、特徴量空間内距離を求める際に、例えば、重要度の高い属性情報であるモーラ数やアクセント型が一致していないような場合に距離が大きくなるように(類似度が小さくなるように)重みαjが設定されている。重みαjは、次の式(1)を満たすように、つまり、重み全体の総和が1となるように設定されている。
次に、韻律データベース16内の韻律パターンの各セグメントに対応して記憶されている属性情報を図6に示されるようにして1つ読み出す。この属性情報の値をaij(i=1,2,3,・・・,I、j=1,2,3,・・・,J)とする。但し、Iは韻律データベース16内に登録されているセグメントの韻律パターンの総数であり、iは其のインデックスである。
Next, one piece of attribute information stored corresponding to each segment of the prosodic pattern in the
次に、入力された発音記号列の属性情報と韻律データベース16から読み出された韻律パターンの属性情報との間で図6に示されるようにして特徴量空間内相対距離の計算を行う(類似度を計算するステップ)。
特徴量空間内相対距離は、入力された発音記号列の属性情報と韻律データベース16から読み出された属性情報の各パラメータの差に重みを掛けたものを足し合わせて、各アクセント句のモーラ数で割って求めるようにする。
Next, the relative distance in the feature quantity space is calculated as shown in FIG. 6 between the input attribute information of the phonetic symbol string and the attribute information of the prosodic pattern read from the prosodic database 16 (similarity). Step to calculate the degree).
The relative distance in the feature amount space is obtained by adding the weighted difference between the parameters of the input phonetic symbol string attribute information and the attribute information read out from the
従って、入力された発音記号列と韻律データベース16内のインデックスiの韻律パターンとの間の特徴量空間内相対距離diは次の式(2)で表されることになる。
次いで、このようにして求められた特徴量空間内相対距離diを用いて、韻律パターンを結合するための重みwiを計算する。重みwiは次の式(3)で求められる。
次に、重みwiを用いて、韻律データベース16内に記憶されたインデックスiの韻律パターンに各々に対応する重みwiを掛けて線形結合による重み付けを行うことで新規の韻律パターンを生成する(新規の韻律パターンを生成するステップ)。
Next, using the weight w i, and generates a new prosodic pattern by multiplying the weights w i corresponding to each prosodic pattern of the stored index i in the
そして、これと同様の処理をn=1〜Nの第nアクセント句に対して繰り返し実行し、各アクセント句に対応して生成された新規の韻律パターンによって音声波形の韻律をアクセント句毎に制御し、更に、時間長等を修正して各セグメントを接続し、最終的に、N個のアクセント句から成る1文全体の合成音を生成する(音声波形を生成するステップ)。 The same processing is repeated for the nth accent phrase of n = 1 to N, and the prosody of the speech waveform is controlled for each accent phrase by the new prosodic pattern generated corresponding to each accent phrase. Further, the segments are connected by correcting the time length and the like, and finally a synthesized sound of one whole sentence composed of N accent phrases is generated (step of generating a speech waveform).
具体例として例文Sを参照して本実施例を説明する。本実施例の概要を図8に示す。図8(a)は韻律データベース16内に登録された個々の韻律パターンの特性(正規化された基本周波数と時系列の関係)を視覚化して示したもので、また、図8(b)では、特徴量空間内での韻律パターンの位置、つまり、各韻律パターンに対応して登録された属性情報の相対的な類似度に関わる情報を視覚化して示している。
As a specific example, the present embodiment will be described with reference to an example sentence S. An outline of this embodiment is shown in FIG. FIG. 8A visually shows the characteristics (relationship between normalized fundamental frequency and time series) of individual prosodic patterns registered in the
図8(b)において、点A,点Bはそれぞれ第1アクセント句,第2アクセント句の特徴量空間内における位置である。また、図8(a)に示されているA1〜A3,B1〜B3,C,Dの各パターンは韻律データベース16内に記憶されている韻律パターンの内の幾つかを表したものであり、図8(b)における特徴量空間の図に示されているA1〜A3,B1〜B3と対応している。
In FIG. 8B, points A and B are positions in the feature amount space of the first accent phrase and the second accent phrase, respectively. Each pattern of A1 to A3, B1 to B3, C, and D shown in FIG. 8A represents some of the prosodic patterns stored in the
そこで、まず、図8(b)に示されるように、第1アクセント句の属性情報に対応する点Aについて、韻律データベース16内に記憶されている各韻律パターンの属性情報との間の特徴量空間内相対距離dAA1,dAA2,dAA3,dAB1,dAB2,dAB3,dAC,dAD,...を計算し、式(2)に従って新規の韻律パターンの生成に利用される各韻律パターンの重みwAA1,wAA2,wAA3,wAB1,wAB2,wAB3,wAC,wAD,...を決定する。
Therefore, first, as shown in FIG. 8B, the feature amount between the point A corresponding to the attribute information of the first accent phrase and the attribute information of each prosodic pattern stored in the
また、第2アクセントの属性情報に対応する点Bについても、前記と同様に、dBA1,dBA2,dBA3,dBB1,dBB2,dBB3,dBC,dBD,...を計算し、式(2)に従って重みwBA1,wBA2,wBA3,wBB1,wBB2,wBB3,wBC,wBD,...を決定する。 As for the point B corresponding to the attribute information of the second accent, similar to the above, d BA1, d BA2, d BA3, d BB1, d BB2, d BB3, d BC, d BD,. . . And weights w BA1 , w BA2 , w BA3 , w BB1 , w BB2 , w BB3 , w BC , w BD ,. . . To decide.
このとき、図8(b)に示されるように、A−A1間,A−A2間,A−A3間は他の点に比べて距離が短いため、この3点A1,A2,A3に対応する韻律パターンの重みwAA1,wAA2,wAA3が他に比べて大きく、しかも、特にA−A1間の距離が際立って短いため、結果として、点A1で示される韻律パターンに極めて類似した韻律パターンとなるような重み付けが決定されることになる。 At this time, as shown in FIG. 8 (b), the distance between A-A1, A-A2, and A-A3 is shorter than the other points, so it corresponds to these three points A1, A2, A3. Prosody pattern weights w AA1 , w AA2 , and w AA3 are larger than others, and the distance between A-A1 is particularly short, resulting in a prosody very similar to the prosody pattern indicated by point A1. The weighting to be a pattern is determined.
同様に、B−B1間,B−B2間,B−B3間は他の点に比べて距離が短いため、この3点B1,B2,B3に対応する韻律パターンを平均化した韻律パターンが得られるような重み付けが決定される。この場合、入力された韻律パターンの属性情報に著しく類似する属性情報を有する韻律パターンは韻律データベース16内に存在しないことになる。
Similarly, since the distance between B-B1, B-B2, and B-B3 is shorter than other points, a prosodic pattern obtained by averaging the prosodic patterns corresponding to these three points B1, B2, and B3 is obtained. The weights to be determined are determined. In this case, no prosodic pattern having attribute information remarkably similar to the input prosodic pattern attribute information exists in the
最終的に、求められた重みwAA1,wAA2,wAA3,wAB1,wAB2,wAB3,wAC,wAD,・・・を用いて重み付き線形結合により例文Sの第1アクセント句に関わる新規の韻律パターンを生成し、また、求められた重みwBA1,wBA2,wBA3,wBB1,wBB2,wBB3,wBC,wBD,...を用いて例文Sの第2アクセント句に関わる新規アクセント句韻律パターンを生成する。 Finally, the weights obtained w AA1, w AA2, w AA3 , w AB1, w AB2, w AB3, w AC, w AD, first accent phrase of the sentence S by linear combination weighted with ... And a new prosodic pattern related to the generated weights w BA1 , w BA2 , w BA3 , w BB1 , w BB2 , w BB3 , w BC , w BD ,. . . Is used to generate a new accent phrase prosodic pattern related to the second accent phrase of the example sentence S.
次に、属性情報抽出手段12,類似度計算手段13,韻律パターン生成手段14,波形生成手段15として機能するCPU2の処理動作について、ハードディスク5にインストールされた音声合成プログラムの概要を示す図9のフローチャートを参照してCPU2の内部処理の面から具体的に説明する。
Next, the processing operations of the
CPU2は、まず、RAM4上あるいはハードディスク5上もしくは外部装置を対象として発音記号列の読み込みを開始し(ステップc1)、読み込んだ発音記号列を先頭から順にアクセント句に分割する(ステップc2)。
First, the
従って、前述の例に従えば、N個のアクセント句から成る或る1文の第n=1番目のアクセント句が最初に読み込まれることになる。 Therefore, according to the above example, the n = 1st accent phrase of a certain sentence consisting of N accent phrases is read first.
次いで、属性情報抽出手段12として機能するCPU2が、このアクセント句からj=1〜Jの各属性情報ajを抽出する(ステップc3)。
Next, the
前述の例に従えば、j=1の属性情報a1がモーラ数,j=2の属性情報a2がアクセント型,j=3の属性情報a3が文中の位置,j=4の属性情報a4が先行アクセント型であり、全4種の属性情報が抽出されることなる。 According to the above-described example, j = 1 attribute information a 1 is the number of mora, j = 2 attribute information a 2 is an accent type, j = 3 attribute information a 3 is a position in the sentence, and j = 4 attribute information. a 4 is a preceding accent type, comprising the attribute information of all four are extracted.
次いで、CPU2は、前述の式(3)における距離の総和Dを求めるための距離積算値レジスタDを0に初期化し(ステップc4)、更に、読み出しの対象とする韻律データベース16内のデータを特定するためのデータベース内韻律パターン特定指標iに一旦0をセットした後(ステップc5)、該指標iを直ちに1インクリメントして、韻律データベース16内に登録されている最初の韻律パターンに対応するデータを読み出すための初期値1に更新する(ステップc6)。
Next, the
次いで、CPU2は、前述の式(2)におけるΣαj|aj−aij|の値、即ち、入力された発音記号列が有する1つの属性情報ajと此れに対応して韻律データベース16から読み出されたインデックスiの韻律パターンが有する1つの属性情報aijとの差に予め決められた重み付けの係数αjを掛けた値をj=1〜Jの全ての属性情報に亘って足し合わせるための積算値記憶レジスタXの値を0に初期化し(ステップc7)、更に、韻律データベース16から読み出されたインデックスiの韻律パターンが有する属性情報の種別を特定するための属性情報特定指標jに一旦0をセットした後(ステップc8)、該指標jを直ちに1インクリメントして、韻律データベース16内の各韻律パターンが有する最初の属性情報を表す値1、つまり、この例ではモーラ数を表す値1に更新する(ステップc9)。
Next, the
次いで、CPU2は、データベース内韻律パターン特定指標iの現在値と属性情報特定指標jの現在値に基いて韻律データベース16からインデックスiの韻律パターンが有する第j番目の属性情報aijを読み出し(ステップc10)、前述の式(2)におけるαj|aj−aij|の値を求め(ステップc11)、この値を積算値記憶レジスタXに加算する(ステップc12)。
Next, the
従って、i=1,j=1の現時点では、韻律データベース16からインデックス1の韻律パターンが有する第1番目の属性情報a11つまり韻律データベース16に最初に登録された韻律パターンのモーラ数a11が読み出され、入力された発音記号列が有する第1番目の属性情報a1つまりモーラ数との差分が求められ、この差分にモーラ数に対応した重み付けの係数α1(設定値)が掛けられ、こうして求められた値が積算値記憶レジスタXに加算されることになる。
Therefore, at the present time when i = 1 and j = 1, the first attribute information a 11 included in the prosodic pattern of
次いで、CPU2は、属性情報特定指標jの現在値が属性情報の種類の総数Jに達しているか否か、要するに、インデックスiの韻律パターンが有するj=1〜Jの全ての属性情報について、これに対応する入力された発音記号列の属性情報との差分を求めて重み付けの係数αjを掛ける処理が完了しているか否かを判定する(ステップc13)。
Next, the
そして、ステップc13の判定結果が真となった場合、つまり、インデックスiの韻律パターンが有するj=1〜Jの全ての属性情報に関する処理が一通り終わっていない場合には、CPU2は、属性情報特定指標jの値を1ずつインクリメントしながら前記と同様の処理を繰り返し実行する(ステップc9〜ステップc13)。
If the determination result in step c13 is true, that is, if the processing regarding all attribute information of j = 1 to J included in the prosodic pattern of index i has not been completed, the
そして、最終的に、ステップc13の判定結果が偽となって属性情報特定指標jの値が属性情報の種類の総数Jに達した時点で、式(2)におけるΣαj|aj−aij|の値が積算値記憶レジスタXによって求められることになる。 Finally, when the determination result in step c13 is false and the value of the attribute information identification index j reaches the total number J of attribute information types, Σα j | a j −a ij in equation (2) The value of | is obtained by the integrated value storage register X.
従って、類似度計算手段13として機能するCPU2は、ステップc13の判定結果が偽となった時点で、積算値記憶レジスタXの値つまり式(2)におけるΣαj|aj−aij|の値を、入力された発音記号列のセグメント内のモーラ数Mで除し、式(2)におけるdiの値、即ち、入力された発音記号列と韻律データベース16内のインデックスiの韻律パターンとの間の特徴量空間内相対距離diを得る(ステップc14)。
Therefore, the
次いで、CPU2は、今回求められた特徴量空間内相対距離diの値を距離積算値レジスタDに加算し(ステップc15)、データベース内韻律パターン特定指標iの現在値が、韻律データベース16内に登録されている韻律パターンの総数Iに達しているか否か、要するに、韻律データベース16内に登録されているインデックスi=1〜Iの全ての韻律パターンについて特徴量空間内相対距離diの値が求められているか否かを判定する(ステップc16)。
Next, the
そして、ステップc16の判定結果が真となった場合、つまり、特徴量空間内相対距離diの値が求められていない韻律パターンが韻律データベース16内に残っていると判定された場合には、CPU2は、データベース内韻律パターン特定指標iの値を1ずつインクリメントしながら前記と同様の処理を繰り返し実行する(ステップc6〜ステップc16)。
If the determination result in step c16 is true, that is, if it is determined that the prosodic pattern for which the value of the relative distance d i in the feature amount space is not found remains in the
そして、最終的にステップc16の判定結果が偽となった時点で、韻律データベース16内に登録されているインデックスi=1〜Iの全ての韻律パターンについて特徴量空間内相対距離diの値が求められ、同時に、前述の式(3)における距離の総和Dの値が距離積算値レジスタDによって求められることになる。
Then, when the determination result in step c16 is finally false, the value of the relative distance d i in the feature amount space for all the prosodic patterns of indexes i = 1 to I registered in the
従って、韻律パターン生成手段14として機能するCPU2は、ステップc16の判定結果が偽となった時点で、インデックスi=1〜Iの全ての韻律パターンについて前述の式(3)における重みwi=D/diの値を個別に求め、インデックスi=1〜Iの全ての韻律パターンについてwiによる重み付けで線形結合の処理を施し、当該1アクセント句のための新規の韻律パターンを生成し、その内容をRAM4に一時記憶する(ステップc17)。
Therefore, the
この処理は、簡単に言えば、韻律データベース16内におけるインデックスi=1〜Iの韻律パターンの各々に、対応する重みwiを乗じ、i=1〜Iに亘って加算するといったものである。
In short, this processing is such that each of the prosodic patterns of indexes i = 1 to I in the
このようにして、分割された1つのアクセント句に対する新規の韻律パターンの生成が完了すると、CPU2は、分割されたアクセント句の全てについて韻律パターンの生成が完了しているか否かを判定し(ステップc18)、全てのアクセント句についての韻律パターンの生成が完了していなければ、CPU2は、再びステップc2の処理に復帰して前述の1文から次のアクセント句を分割し、このアクセント句に対して前記と同様の処理を繰り返し実行することで、新たに分割されたアクセント句に対応した韻律パターンを生成する(ステップc2〜ステップc18)。
Thus, when the generation of a new prosodic pattern for one divided accent phrase is completed, the
そして、最終的にステップc18の判定結果が真となり、N個のアクセント句から成る1文の第n=1〜N番目のアクセント句の全てについて新規の韻律パターンが生成されると、波形生成手段15として機能するCPU2が、第n=1〜N番目のアクセント句の各々に対応したN個の新規の韻律パターンをRAM4から読み出し、時間長等を修正した上でこれらのセグメントを接続し(ステップc19)、最終的にN個のアクセント句から成る1文全体の合成音を生成する(ステップc20)。
When the determination result in step c18 is finally true and new prosodic patterns are generated for all of the n = 1st to Nth accent phrases of one sentence composed of N accent phrases, the waveform generating means The
この実施例を用いれば、入力された発音記号列の属性情報に非常に類似した韻律パターンが韻律データベース16内に存在する場合には、自然発声から抽出した韻律パターンに非常に近い韻律パターンが生成されるので、非常に高い自然性を有する合成音が生成される。
According to this embodiment, when a prosodic pattern very similar to the attribute information of the input phonetic symbol string exists in the
また、韻律データベース16内に類似する属性情報を持つ韻律パターンが存在しない場合であっても、韻律データベース16内の複数の韻律パターンを平均したような韻律パターンが生成されるため、安定して音声合成を行うことができる。
Even if there is no prosodic pattern having similar attribute information in the
この実施例では、各韻律パターンの属性情報と入力された発音記号列の属性情報の特徴量空間内相対距離を各々の属性情報に基いて計算するようにしたが、特徴量空間内に距離の基準となる原点を定義し、特徴量空間内における原点と各韻律パターンとの距離を予め計算して韻律データベース16内に記憶しておき、入力された発音記号列の属性情報と原点との間の距離を類似度計算手段13により其の都度に求め、この距離と各韻律パターンの属性情報における原点との距離との差分により特徴量空間内距離diを求める方法もある。この方法によって、新規の韻律パターンの生成時における距離計算の回数を減らすことができ更なる計算時間の削減が可能となる。
In this embodiment, the relative distance in the feature amount space of the attribute information of each prosodic pattern and the attribute information of the input phonetic symbol string is calculated based on each attribute information. A reference origin is defined, and the distance between the origin and each prosodic pattern in the feature amount space is calculated in advance and stored in the
また、本実施例では、アクセント句の区切りとアクセント位置が含まれた発音記号列を入力するようにしたが、更に、品詞情報,係り受け情報,送り仮名情報等の言語的情報を含めることも可能である。言語的情報を含めることによって、音響的な情報のみからでは抽出できない若しくは抽出が困難な特徴量についても韻律パターン生成のためのパラメータとすることができる。無論、韻律データベース内の韻律パターンにも言語的情報を付与させておくことが可能である。 In this embodiment, the phonetic symbol string including the accent phrase delimiter and the accent position is input. However, linguistic information such as part-of-speech information, dependency information, and sending kana information may also be included. Is possible. By including linguistic information, feature quantities that cannot be extracted from acoustic information alone or difficult to extract can be used as parameters for prosodic pattern generation. Of course, linguistic information can be given to prosodic patterns in the prosodic database.
次に、図4および図5で示した実施形態に相当する実施例について図面を参照して簡単に説明する。 Next, an example corresponding to the embodiment shown in FIGS. 4 and 5 will be briefly described with reference to the drawings.
図10は図4および図5で示した実施形態に相当する実施例の音声合成装置のブロック図である。本実施例は、前述した実施例1の構成に加えて、類似度計算手段13で求められた特徴量空間内相対距離を元に韻律データベース18内のカテゴリを選択するカテゴリ選択手段17を備える。音声合成装置として動作するコンピュータ1の構成およびCPU2の機能については既に述べた通りであり、ここでは専ら音声合成方法に関わる手順について方法的な側面から説明する。
FIG. 10 is a block diagram of a speech synthesizer according to an example corresponding to the embodiment shown in FIGS. In addition to the configuration of the first embodiment described above, the present embodiment includes a
今、発音記号列が入力され、実施例1で説明した方法と同様にして、入力発音記号列から属性情報が抽出されているものとする。 Now, it is assumed that a phonetic symbol string is input and attribute information is extracted from the input phonetic symbol string in the same manner as described in the first embodiment.
カテゴリ選択手段17は、入力発音記号列から抽出された属性情報の一部が韻律データベース18におけるカテゴリ分割の属性情報と一致していた場合に、そのカテゴリに属するものとして判定し、韻律パターン生成時には選択されたカテゴリに属する韻律パターンを用いて新規韻律パターンを生成する(入力された発音記号列がカテゴリ分割された韻律データベース内のどのカテゴリに属するかを判定するステップ)。
The category selection means 17 determines that the attribute information extracted from the input phonetic symbol string belongs to the category division attribute information in the
前述の例文Sを例にとって、詳細に説明する。例文Sの第1アクセント句の「音声を」からは、前述の通り、属性情報としてモーラ数が5,アクセント型が1,文中の位置が文頭といった情報が抽出される。 The above example sentence S will be described in detail as an example. As described above, information such as the number of mora is 5, the accent type is 1, and the position in the sentence is the beginning of the sentence is extracted from “speech” of the first accent phrase of the example sentence S.
これに対し、図11に示されるように、韻律データベース18内のカテゴリ1がモーラ数=5,アクセント型=1,文中の位置=文頭という情報を持つ韻律パターンの属するカテゴリであるとすると、例文Sの第1アクセント句はカテゴリ1に属するものであるとカテゴリ選択手段17によって判定される。
On the other hand, as shown in FIG. 11, if
同様に、韻律データベース内のカテゴリ2がモーラ数=7,アクセント型=6,文中の位置=文末という情報を持つ韻律パターンの属するカテゴリであるとすると、第2アクセント句の「合成します」は、カテゴリ2に属するものであるとカテゴリ選択手段17によって判定される。
Similarly, if
ここで、カテゴリの分割方法としては、例えば、「モーラ数6以上,アクセント型が5または6」といった或る程度の幅を持たせたカテゴリにすることも可能である。 Here, as a category dividing method, for example, a category having a certain range such as “the number of mora is 6 or more and the accent type is 5 or 6” may be used.
このようにしてカテゴリが選択されると、次に、そのカテゴリに属する各韻律パターンの重みを算出する。選択されたカテゴリに属する各韻律パターンに対する重みwi’は次の式(4)によって表される。
最終的に、重みwi’を用い、選択されたカテゴリに属するインデックスi=1からI'の韻律パターンの夫々に各々に対応する重みwi’を掛けて線形結合を行うことにより、実施例1の場合と同様にして求めるべき新規の韻律パターンを生成する。 Finally, the weight w i ′ is used, and each of the prosodic patterns of indexes i = 1 to I ′ belonging to the selected category is multiplied by the corresponding weight w i ′ to perform linear combination. As in the case of 1, a new prosodic pattern to be obtained is generated.
具体例として例文Sを参照して本実施例を説明する。本実施例の概要を図11に示す。なお、図11において、図8と同一の符号は同一物あるいは相当物を示し、その説明を省略するものとする。 As a specific example, the present embodiment will be described with reference to an example sentence S. An outline of this embodiment is shown in FIG. In FIG. 11, the same reference numerals as those in FIG. 8 denote the same or corresponding parts, and the description thereof will be omitted.
韻律データベース18内の韻律パターンは多数のカテゴリに分割されているが、図11では、モーラ数=5,アクセント型=1の韻律パターンが属するカテゴリ1とモーラ数=7,アクセント型=6の韻律パターンが属するカテゴリ2のみを示している。
The prosodic patterns in the
上述のように、点Aおよび点Bはそれぞれカテゴリ1およびカテゴリ2に属することが判明しているとし、カテゴリ1にはA1,A2,A3が、また、カテゴリ2にはB1,B2,B3が属しているものとする。
As described above, it is assumed that point A and point B belong to
まず、第1アクセント句のAについて、カテゴリ1から外れた韻律パターンB1,B2,B3やC,Dは無視し、カテゴリ1に属する韻律パターンA1,A2,A3との間の特徴量空間内相対距離dAA1,dAA2,dAA3のみを計算し、式(4)に従って重みwAA1,wAA2,wAA3を決定する。
First, for the first accent phrase A, the prosodic patterns B1, B2, B3 and C, D that are out of the
次に、第2アクセント句のBについて、カテゴリ2から外れた韻律パターンA1,A2,A3やC,Dは無視し、カテゴリ2に属する韻律パターンB1,B2,B3との間の特徴量空間内相対距離dBB1,dBB2,dBB3のみを計算し、式(4)に従って重みwBB1,wBB2,wBB3を決定する。
Next, with respect to B of the second accent phrase, prosodic patterns A1, A2, A3 and C, D out of
このとき、実施例1の場合と略同様に、第1アクセント句のAについてはA1に極めて類似した韻律パターンが、また、第2アクセント句のBについてはB1,B2,B3を平均した韻律パターンが生成されるような重みが決定されることになる。 At this time, as in the case of the first embodiment, for the first accent phrase A, the prosody pattern very similar to A1, and for the second accent phrase B, the prosody pattern that averages B1, B2, and B3. The weight is generated so that is generated.
最終的に、このようにして求められた重みwAA1,wAA2,wAA3とwBB1,wBB2,wBB3を用いて、重み付き線形結合により例文Sの第1アクセント句および第2アクセント句のための新規な韻律パターンを生成する。 Finally, using the weights w AA1 , w AA2 , w AA3 and w BB1 , w BB2 , w BB3 obtained in this way, the first accent phrase and the second accent phrase of the example sentence S by weighted linear combination Generate a new prosodic pattern for.
次に、属性情報抽出手段12,類似度計算手段13,韻律パターン生成手段14,波形生成手段15,カテゴリ選択手段17として機能するCPU2の処理動作について、ハードディスク5にインストールされた音声合成プログラムの概要を示す図12のフローチャートを参照してCPU2の内部処理の面から具体的に説明する。
Next, the outline of the speech synthesis program installed in the
ステップd1〜ステップd3の処理は図9におけるステップc1〜ステップc3の処理と同様であり、これらの処理により、まず、読み込まれた発音記号列の1つのアクセント句を対象として、属性情報抽出手段12として機能するCPU2が、j=1〜Jの各属性情報ajを抽出する。
The processing from step d1 to step d3 is the same as the processing from step c1 to step c3 in FIG. 9. By these processing, first, the attribute information extraction means 12 is targeted for one accent phrase of the read phonetic symbol string. The
次いで、CPU2は、韻律データベース18におけるカテゴリを指定するカテゴリ指定指標kに一旦0をセットした後(ステップd4)、該指標kを直ちに1インクリメントして、韻律データベース18内に設定された最初のカテゴリを指定するための初期値1に更新する(ステップd5)。
Next, the
次いで、カテゴリ選択手段17として機能するCPU2は、カテゴリ指定指標kの現在値に基づいて、カテゴリkとして登録されている属性情報の種別を韻律データベース18から読み出し(ステップd6)、カテゴリkに対して設定された属性情報が、今回の処理で読み込まれた発音記号列のアクセント句の属性情報と設定値以上の割合で一致しているか否かを判定する(ステップd7)。
Next, the
この実施例におけるカテゴリ選択処理は、実際に演算処理の対象とする韻律パターンの数を減らして処理操作の効率を高めるのが目的であり、カテゴリに登録する属性情報の数は任意に決定し得るが、多種多様なカテゴリが韻律データベース18内に氾濫することを避けるため、カテゴリ毎に登録する属性情報の総数は、通常、発音記号列のアクセント句から抽出されるアクセント句の種類数Jよりも少なくしている。つまり、ステップd7で利用される設定値はJよりも少ない数である。
The purpose of the category selection processing in this embodiment is to reduce the number of prosodic patterns that are actually subject to arithmetic processing and increase the efficiency of processing operations. The number of attribute information registered in a category can be arbitrarily determined. However, in order to avoid flooding various categories in the
ここで、ステップd7の判定結果が真となった場合、カテゴリ選択手段17として機能するCPU2は、今回の処理で読み込まれた発音記号列のアクセント句がカテゴリkに属するものと見做し、また、ステップd7の判定結果が偽となった場合には、今回の処理で読み込まれた発音記号列のアクセント句がカテゴリkに属していないと見做す。
Here, when the determination result in step d7 is true, the
そして、ステップd7の判定結果が偽となった場合、つまり、今回の処理で読み込まれた発音記号列のアクセント句がカテゴリkに属していないと判定された場合には、カテゴリ選択手段17として機能するCPU2は、再びステップd5の処理に復帰してカテゴリ指定指標kの値を1インクリメントし、前記と同様の処理を繰り返し実行することにより、今回の処理で読み込まれた発音記号列のアクセント句が属すると見做し得るカテゴリkの値を求める。
When the determination result in step d7 is false, that is, when it is determined that the accent phrase of the phonetic symbol string read in this processing does not belong to the category k, the function as the
このようにして、今回の処理で読み込まれた発音記号列のアクセント句が属すると見做し得るカテゴリkの値が求められると、カテゴリ選択手段17として機能するCPU2は、この時点で、データの読み込みの対象とするカテゴリをカテゴリkのみに制限して(ステップd8)、類似度計算手段13,韻律パターン生成手段14の動作を許容する。
In this way, when the value of the category k that can be regarded as belonging to the accent phrase of the phonetic symbol string read in the current process is obtained, the
ステップd9の処理は、図9におけるステップc4〜ステップc17の処理と同様であり、類似度計算手段13および韻律パターン生成手段14として機能するCPU2によって、前記と同様にして特徴量空間内相対距離di’や重みwi’等を求めるための処理が繰り返し実行されることになる(但し、図9のdi,wi,I,Dは各々di’,wi’,I’,D’と読み替えるものとする)。
The processing in step d9 is the same as the processing in steps c4 to c17 in FIG. 9, and the
しかし、本実施例においては、前述したステップd4〜d8の処理、つまり、カテゴリ選択手段17の機能によってカテゴリが制限され、特徴量空間内相対距離di’や重みwi’等を求める対象となる韻律パターンの数が、韻律データベース16内に登録されている全ての韻律パターンの総数Iではなく、選択されたカテゴリkに属する韻律パターンの総数I’とされているので、特に、類似度計算手段13,韻律パターン生成手段14として機能するCPU2の負荷が大幅に軽減され、全体としての処理効率が大幅に向上する格別の効果が奏される。
However, in this embodiment, the category is limited by the processing of the above-described steps d4 to d8, that is, the function of the category selection means 17, and the target for obtaining the relative distance d i ′ in the feature amount space, the weight w i ′, etc. The number of prosodic patterns is not the total number I of all the prosodic patterns registered in the
ステップd10〜ステップd12の処理は図9におけるステップc18〜ステップc20の処理と同様であるので、説明を省略する。 The processing from step d10 to step d12 is the same as the processing from step c18 to step c20 in FIG.
このように、本実施例を用いれば、重み付き線形結合に用いられる韻律パターンが限定されるため、計算負荷の軽減を図りつつ実施例1とほぼ同等の安定性と自然性を実現することができるようになる。 As described above, if the present embodiment is used, the prosodic patterns used for the weighted linear combination are limited, so that the stability and naturalness substantially equivalent to those of the first embodiment can be realized while reducing the calculation load. become able to.
1 コンピュータ
2 CPU
3 ROM
4 RAM
5 ハードディスク
6 インターフェイス
7 キーボード
8 モニタ
9 入出力回路
10 ドライバ
11 スピーカ
12 属性情報抽出手段
13 類似度計算手段
14 韻律パターン生成手段
15 波形生成手段
16 韻律データベース
17 カテゴリ選択手段
18 韻律データベース
1
3 ROM
4 RAM
5 hard disk 6
Claims (6)
入力された発音記号列の属性情報を抽出する属性情報抽出手段と、
前記入力された発音記号列が前記カテゴリ分割された韻律データベース内のどのカテゴリに属するかを特定するカテゴリ選択手段と、
前記カテゴリ選択手段で特定されたカテゴリのデータベースのみを対象に前記韻律データベース内に存在する韻律パターンの属性情報と前記入力された発音記号列から抽出された属性情報の重要度に応じて類似度を計算する類似度計算手段と、
前記類似度に応じた重み付けに従って前記カテゴリ選択手段で特定されたカテゴリのデータベース内の韻律パターンを結合して新規の韻律パターンを生成する韻律パターン生成手段と、を備え、
前記重み付けは、前記類似度が大きい韻律パターンに対しては大きく、前記類似度が小さい韻律パターンに対しては小さくすることで行うことを特徴とする韻律パターン生成装置。 A prosodic database that stores a segment divided into categories in advance in association with prosodic patterns and attribute information for each segment that is a constituent unit of a sentence;
Attribute information extraction means for extracting attribute information of the phonetic symbol string input;
Category selection means for specifying which category in the prosodic database divided into categories the input phonetic symbol string ;
The degree of similarity is determined according to the importance of the attribute information of the prosodic pattern existing in the prosodic database and the attribute information extracted from the input phonetic symbol string only for the category database specified by the category selecting means. Similarity calculation means for calculating;
Prosody pattern generation means for generating a new prosodic pattern by combining the prosodic patterns in the database of the category specified by the category selection means according to the weighting according to the similarity,
The prosody pattern generation apparatus according to claim 1, wherein the weighting is performed by increasing the weight for a prosodic pattern having a large similarity and decreasing the weight for a prosodic pattern having a small similarity .
入力された発音記号列の属性情報を抽出する属性情報抽出手段と、
前記入力された発音記号列が前記カテゴリ分割された韻律データベース内のどのカテゴリに属するかを判定するカテゴリ選択手段と、
前記カテゴリ選択手段で特定されたカテゴリのデータベースのみを対象に前記韻律データベース内に存在する韻律パターンの属性情報と前記入力された発音記号列から抽出された属性情報の重要度に応じて類似度を計算する類似度計算手段と、
前記類似度に応じた重み付けに従って前記カテゴリ選択手段で特定されたカテゴリのデータベース内の韻律パターンを結合して新規の韻律パターンを生成する韻律パターン生成手段と、
前記生成された韻律パターンにより韻律を制御して音声波形を生成する波形生成手段と、を備え、
前記重み付けは、前記類似度が大きい韻律パターンに対しては大きく、前記類似度が小さい韻律パターンに対しては小さくすることで行うことを特徴とする音声合成装置。 A prosodic database that stores a segment divided into categories in advance in association with prosodic patterns and attribute information for each segment that is a constituent unit of a sentence;
Attribute information extraction means for extracting attribute information of the phonetic symbol string input;
Category selection means for determining which category in the prosodic database divided into categories the input phonetic symbol string ;
The degree of similarity is determined according to the importance of the attribute information of the prosodic pattern existing in the prosodic database and the attribute information extracted from the input phonetic symbol string only for the category database specified by the category selecting means. Similarity calculation means for calculating;
Prosody pattern generating means for generating a new prosodic pattern by combining prosodic patterns in the database of the category specified by the category selecting means according to weighting according to the similarity,
Waveform generating means for generating a speech waveform by controlling the prosody by the generated prosodic pattern,
The speech synthesizer according to claim 1, wherein the weighting is performed by increasing the weight for a prosodic pattern having a large similarity and decreasing the weight for a prosodic pattern having a small similarity .
入力された発音記号列の属性情報を抽出するステップと、
前記入力された発音記号列が予めカテゴリ分割された韻律データベース内のどのカテゴリに属するかを判定する判定ステップと、
前記判定ステップで特定されたカテゴリの韻律データベース内に予め記憶されている韻律パターン毎の属性情報と前記入力された発音記号列から抽出された属性情報の重要度に応じて類似度を計算するステップと、
前記類似度に応じた重み付けに従って前記判定ステップで特定されたカテゴリの韻律データベース内の韻律パターンを結合して新規の韻律パターンを生成するステップと、を含み、
前記新規の韻律パターンを生成するステップにおける重み付けは、前記類似度が大きい韻律パターンに対しては大きく、前記類似度が小さい韻律パターンに対しては小さくすることで行うことを特徴とする韻律パターン生成方法。 A prosodic pattern generation method for generating a prosodic pattern by a prosodic pattern generating device,
Extracting attribute information of the input phonetic symbol string;
A determination step of determining which category in the prosodic database into which the input phonetic symbol string is pre-categorized ;
Calculating similarity based on attribute information for each prosodic pattern stored in advance in the prosodic database of the category specified in the determining step and importance of attribute information extracted from the input phonetic symbol string When,
Generating a new prosodic pattern by combining prosodic patterns in the prosodic database of the category specified in the determining step according to weighting according to the similarity, and
Prosody pattern generation characterized in that weighting in the step of generating a new prosodic pattern is performed by decreasing the prosody pattern having a high similarity and decreasing the prosody pattern having a low similarity. Method.
入力された発音記号列の属性情報を抽出するステップと、
前記入力された発音記号列が予めカテゴリ分割された韻律データベース内のどのカテゴリに属するかを判定する判定ステップと、
前記判定ステップで特定されたカテゴリのデータベース内に予め記憶されている韻律パターン毎の属性情報と前記入力された発音記号列から抽出された属性情報の重要度に応じて類似度を計算するステップと、
前記類似度に応じた重み付けに従って前記判定ステップで特定されたカテゴリのデータベース内の韻律パターンを結合して新規の韻律パターンを生成するステップと、
前記生成された韻律パターンにより韻律を制御して音声波形を生成するステップと、を含み、
前記新規の韻律パターンを生成するステップにおける重み付けは、前記類似度が大きい韻律パターンに対しては大きく、前記類似度が小さい韻律パターンに対しては小さくすることで行うことを特徴とする音声合成方法。 A speech synthesis method for generating synthesized speech by a speech synthesizer,
Extracting attribute information of the input phonetic symbol string;
A determination step of determining which category in the prosodic database into which the input phonetic symbol string is pre-categorized ;
Calculating similarity based on the attribute information of each prosodic pattern stored in advance in the database of the category specified in the determination step and the importance of the attribute information extracted from the input phonetic symbol string; ,
Generating a new prosodic pattern by combining prosodic patterns in the database of the category identified in the determining step according to weighting according to the similarity;
Generating a speech waveform by controlling the prosody according to the generated prosodic pattern,
The speech synthesis method characterized in that the weighting in the step of generating the new prosodic pattern is performed by increasing the weight for the prosodic pattern having a large similarity and decreasing the weight for a prosodic pattern having a small similarity. .
入力された発音記号列の属性情報を抽出する処理と、
前記入力された発音記号列が予めカテゴリ分割された韻律データベース内のどのカテゴリに属するかを判定する判定処理と、
前記判定処理で特定されたカテゴリの韻律データベース内に予め記憶されている韻律パターン毎の属性情報と前記入力された発音記号列から抽出された属性情報の重要度に応じて類似度を計算する処理と、
前記類似度に応じ、前記類似度が大きい韻律パターンに対しては大きく、前記類似度が小さい韻律パターンに対しては小さくするように重み付けを行なって、前記判定処理で特定されたカテゴリのデータベース内の韻律パターンを結合して新規の韻律パターンを生成する処理とを実行させることを特徴とする韻律パターン生成プログラム。 In the computer constituting the prosody pattern generation device,
A process of extracting attribute information of the phonetic symbol string input;
A determination process for determining which category in the prosodic database in which the input phonetic symbol string is pre-categorized ;
Processing for calculating similarity according to the importance of attribute information for each prosodic pattern stored in advance in the prosodic database of the category specified in the determination processing and attribute information extracted from the input phonetic symbol string When,
Depending on the similarity, weighting is performed so that the prosodic pattern having a high similarity is large and the prosodic pattern having a low similarity is small, and the weight is set in the database of the category specified by the determination process . A prosody pattern generation program for executing a process of generating a new prosody pattern by combining the prosodic patterns.
入力された発音記号列の属性情報を抽出する処理と、
前記入力された発音記号列が予めカテゴリ分割された韻律データベース内のどのカテゴリに属するかを判定する判定処理と、
前記判定処理で特定されたカテゴリのデータベース内に予め記憶されている韻律パターン毎の属性情報と前記入力された発音記号列から抽出された属性情報の重要度に応じて類似度を計算する処理と、
前記類似度に応じ、前記類似度が大きい韻律パターンに対しては大きく、前記類似度が小さい韻律パターンに対しては小さくなるように重み付けを行なって、前記判定処理で特定されたカテゴリのデータベース内の韻律パターンを結合して新規の韻律パターンを生成する処理と、
前記生成された韻律パターンにより韻律を制御して音声波形を生成する処理とを実行させることを特徴とする音声合成プログラム。 In the computer that composes the speech synthesizer,
A process of extracting attribute information of the phonetic symbol string input;
A determination process for determining which category in the prosodic database in which the input phonetic symbol string is pre-categorized ;
Processing for calculating similarity according to the importance of attribute information for each prosodic pattern stored in advance in the database of the category specified in the determination processing and attribute information extracted from the input phonetic symbol string; ,
In accordance with the similarity, weighting is performed so that the prosodic pattern having the high similarity is large and the prosodic pattern having the low similarity is small, and the weight is set in the database of the category specified by the determination process . Generating a new prosodic pattern by combining the prosodic patterns of
A speech synthesis program that executes a process of generating a speech waveform by controlling a prosody using the generated prosodic pattern.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005096228A JP4403996B2 (en) | 2005-03-29 | 2005-03-29 | Prosody pattern generation apparatus, prosody pattern generation method, and prosody pattern generation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005096228A JP4403996B2 (en) | 2005-03-29 | 2005-03-29 | Prosody pattern generation apparatus, prosody pattern generation method, and prosody pattern generation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006276493A JP2006276493A (en) | 2006-10-12 |
JP4403996B2 true JP4403996B2 (en) | 2010-01-27 |
Family
ID=37211316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005096228A Expired - Fee Related JP4403996B2 (en) | 2005-03-29 | 2005-03-29 | Prosody pattern generation apparatus, prosody pattern generation method, and prosody pattern generation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4403996B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008149547A1 (en) * | 2007-06-06 | 2008-12-11 | Panasonic Corporation | Voice tone editing device and voice tone editing method |
JP5012444B2 (en) * | 2007-11-14 | 2012-08-29 | 富士通株式会社 | Prosody generation device, prosody generation method, and prosody generation program |
JP5393546B2 (en) * | 2010-03-15 | 2014-01-22 | 三菱電機株式会社 | Prosody creation device and prosody creation method |
JP2014066916A (en) * | 2012-09-26 | 2014-04-17 | Brother Ind Ltd | Sound synthesizer |
CN110265028B (en) * | 2019-06-20 | 2020-10-09 | 百度在线网络技术(北京)有限公司 | Method, device and equipment for constructing speech synthesis corpus |
-
2005
- 2005-03-29 JP JP2005096228A patent/JP4403996B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006276493A (en) | 2006-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4302788B2 (en) | Prosodic database containing fundamental frequency templates for speech synthesis | |
US6236963B1 (en) | Speaker normalization processor apparatus for generating frequency warping function, and speech recognition apparatus with said speaker normalization processor apparatus | |
JP4080989B2 (en) | Speech synthesis method, speech synthesizer, and speech synthesis program | |
JP4738057B2 (en) | Pitch pattern generation method and apparatus | |
JP2001034283A (en) | Voice synthesizing method, voice synthesizer and computer readable medium recorded with voice synthesis program | |
JP2008134475A (en) | Technique for recognizing accent of input voice | |
JPH1195783A (en) | Voice information processing method | |
JP4403996B2 (en) | Prosody pattern generation apparatus, prosody pattern generation method, and prosody pattern generation program | |
US8478595B2 (en) | Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method | |
JP5983604B2 (en) | Segment information generation apparatus, speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP4532862B2 (en) | Speech synthesis method, speech synthesizer, and speech synthesis program | |
JP4945465B2 (en) | Voice information processing apparatus and method | |
JP5874639B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP5930738B2 (en) | Speech synthesis apparatus and speech synthesis method | |
JP2004109535A (en) | Method, device, and program for speech synthesis | |
JP4773988B2 (en) | Hybrid type speech synthesis method, apparatus thereof, program thereof, and storage medium thereof | |
JP5328703B2 (en) | Prosody pattern generator | |
JP5393546B2 (en) | Prosody creation device and prosody creation method | |
JP2007163667A (en) | Voice synthesizer and voice synthesizing program | |
JP2004117662A (en) | Voice synthesizing system | |
JP2004279436A (en) | Speech synthesizer and computer program | |
JP2004226505A (en) | Pitch pattern generating method, and method, system, and program for speech synthesis | |
JP2004246140A (en) | Method, apparatus, and program for text selection | |
JP4417892B2 (en) | Audio information processing apparatus, audio information processing method, and audio information processing program | |
JP3423276B2 (en) | Voice synthesis method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080826 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081028 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090317 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091013 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091026 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121113 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4403996 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121113 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131113 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |