JP2012141354A - Method, apparatus and program for voice synthesis - Google Patents
Method, apparatus and program for voice synthesis Download PDFInfo
- Publication number
- JP2012141354A JP2012141354A JP2010292223A JP2010292223A JP2012141354A JP 2012141354 A JP2012141354 A JP 2012141354A JP 2010292223 A JP2010292223 A JP 2010292223A JP 2010292223 A JP2010292223 A JP 2010292223A JP 2012141354 A JP2012141354 A JP 2012141354A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- speaker
- unit
- similar
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、対象テキストに対応し、任意話者の特徴を持つ音声を合成する音声合成方法、音声合成装置及び音声合成プログラムに関する。 The present invention relates to a speech synthesis method, a speech synthesizer, and a speech synthesis program that synthesize speech having characteristics of an arbitrary speaker corresponding to a target text.
特許文献1記載の音声合成装置10が従来技術として知られている。図1を用いて、音声合成装置10の概要を説明する。
A
音声合成の対象となるテキスト(以下、「対象テキスト」という)が入力されると、まず、テキスト解析部11において、係り受けや品詞解析等の形態素解析、漢字かな変換及びアクセント処理が行われ、素片選択接続部14に対して音韻の区別を示す記号列を出力し、韻律生成部12に対して呼気段落内モーラ数、アクセント形、発声スピードを出力する。
When a text to be synthesized (hereinafter referred to as “target text”) is input, first, the
次に、韻律生成部12において、受け取った情報を基にピッチパターン、各音素の時間長パターン及び振幅パターンを韻律モデル13により生成し素片選択接続部14に出力する。
最後に、素片選択接続部14は、音韻の区別を示す記号列、ピッチパターン、時間長パターン及び振幅パターンに基づき、音声データベース15より最適な波形を選択し、接続することにより音声を合成し、出力する。
Next, the
Finally, the segment
特許文献1の場合、音声データベース15中に、同一コンテキストの素片が大量に存在すれば、ピッチパターン、時間長パターン及び振幅パターンのバリエーションが増加し、合成音声の品質が向上する。しかし、十分な品質の合成音声を得るためには、大量の音声が必要となる。そのため、多くの音声合成装置では、合成可能な話者の人数は予め用意されている数名程度と限られている。ユーザが自由に好みの話者の音声を生成または選択しようと思った場合には、合成したい話者(以下「目標話者」という)の大量の音声(最低でも数時間程度の音声)が必要となる。
In the case of
このような課題を解決した従来技術として非特許文献1記載の音声合成装置20が知られている。図2を用いて音声合成装置20を説明する。
多数話者音声データベース21には予め多数の話者の音声データを収録しておく。
モデル学習部22は、多数話者音声データベース21から多数の話者の音声データを受け取り、多数の話者の平均的な音声の特徴を持つ平均声モデルを学習する。
A
The
The
変換規則学習部23は、平均声モデルと目標話者の音声データとから、平均声モデルを適応モデルに変換するための変換規則を学習し、これを適応部24に出力する。なお、適応モデルとは、目標話者の大量の音声データから得られる音声モデルに似た音声モデルである。
The conversion
適応部24は、変換規則を平均声モデルに適応し、適応モデルに変換する。
合成部25は、対象テキストが入力されると、適応モデルに基づき、合成音声を生成し、出力する。
The
When the target text is input, the
非特許文献1は特許文献1に比べ、音声合成に必要なデータベースやモデルを作成するために必要な目標話者の音声データの量を大幅に減らすことができる。しかしながら、非特許文献1も変換規則を学習するために目標話者の音声データが数分程度必要となる。そのため、音声収録の際に目標話者を長時間拘束しなければならない。例えば、5分の音声データを収録するには、30分程度の拘束時間が必要となる。
Compared with
そこで本発明は、さらに少ない量の目標話者の音声データから得られる類似話者音声データベースを用いて、対象テキストに対応し、目標話者の特徴を持つ音声を合成する音声合成方法、音声合成装置及び音声合成プログラムを提供することを目的とする。 Therefore, the present invention provides a speech synthesis method for synthesizing speech having characteristics of a target speaker corresponding to a target text, using a similar speaker speech database obtained from speech data of a smaller amount of the target speaker. An object is to provide a device and a speech synthesis program.
上記の課題を解決するために、本発明の第一の態様によれば、対象テキストに対応し、目標話者の音声特徴を持つ合成音声を生成する。2つの音声データが類似しているか否かを示す指標を話者類似度とし、目標話者の音声データとの話者類似度が高い複数の音声データを合成音声を組み立てる上で適切な合成単位に分割した部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースが予め記憶される。対象テキストを解析して、対象テキストの読み情報を取得する。読み情報を音素の並びである音素コンテキストに変換する。音素情報に基づいて、音素コンテキストに合成単位で適合する音声素片候補を類似話者音声データベースから探索する。各音声素片候補の類似話者識別子に対応する話者類似度を少なくとも用いて、合成単位の対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する。選択音声素片に対応する部分音声データを類似話者音声データベースから読み込み、この部分音声データを接続して合成音声を得る。 In order to solve the above problems, according to the first aspect of the present invention, a synthesized speech corresponding to the target text and having the speech characteristics of the target speaker is generated. A synthesis unit suitable for assembling a plurality of speech data having a high speaker similarity with the target speaker's speech data as an index indicating whether or not the two speech data are similar Divided partial voice data, information given to the partial voice data, a similar speaker identifier indicating the speaker who has issued the partial voice data, and phoneme information indicating the utterance phoneme of the partial voice data; Is stored in advance as a similar speaker speech database consisting of speech segments indicating at least. Analyzes the target text and obtains reading information of the target text. The reading information is converted into a phoneme context that is a sequence of phonemes. Based on the phoneme information, a speech unit candidate that matches the phoneme context in synthesis units is searched from the similar speaker speech database. Using at least the speaker similarity corresponding to the similar speaker identifier of each speech unit candidate, the degree of matching between the synthesis target text and the speech unit candidate is calculated as the total cost, and this total cost is the best. Are selected as selected speech segments. Partial speech data corresponding to the selected speech segment is read from the similar speaker speech database, and this partial speech data is connected to obtain synthesized speech.
上記の課題を解決するために、本発明の第二の態様によれば、対象テキストに対応し、目標話者の音声特徴を持つ合成音声を生成する。合成音声を組み立てる上で適切な合成単位の部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースと、類似話者識別子と、その類似話者識別子の対応する話者類似度とを記憶する話者類似度記憶部と、対象テキストを解析して、対象テキストの読み情報を取得するテキスト解析部と、読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換部と、音素情報に基づいて、音素コンテキストに合成単位で適合する音声素片候補を類似話者音声データベースから探索する音声素片候補探索部と、各音声素片候補の類似話者識別子に対応する話者類似度を少なくとも用いて、合成単位の対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する素片選択部と、選択音声素片に対応する部分音声データを類似話者音声データベースから読み込み、この部分音声データを接続して合成音声を得る素片接続部と、を有する。 In order to solve the above-mentioned problem, according to the second aspect of the present invention, a synthesized speech corresponding to the target text and having the speech characteristics of the target speaker is generated. The partial speech data of an appropriate synthesis unit for assembling the synthesized speech, the information given to the partial speech data, the similar speaker identifier indicating the speaker who has issued the partial speech data, and the partial speech data Speaker similarity that stores a similar speaker speech database that includes at least a speech segment that indicates phoneme information indicating a utterance phoneme, a similar speaker identifier, and a speaker similarity corresponding to the similar speaker identifier Based on the phoneme information, a storage unit, a text analysis unit that analyzes the target text and obtains reading information of the target text, a phoneme context conversion unit that converts the reading information into a phoneme context that is a sequence of phonemes, A speech unit candidate search unit that searches speech unit candidates that match the context by synthesis unit from a similar speaker speech database, and corresponds to a similar speaker identifier of each speech unit candidate Using at least the speaker similarity, the degree of matching between the target text of the synthesis unit and the speech unit candidate is calculated as the total cost, and the speech unit candidate when the total cost is the best is selected as the selected speech unit. And a segment connection unit that reads partial speech data corresponding to the selected speech segment from the similar speaker speech database and connects the partial speech data to obtain synthesized speech.
本発明は、話者類似度が高い複数の音声データからなる類似話者音声データベースと、話者類似度を用いて、音声合成を行うので、目標話者により類似している話者の音声データが音声合成の際に使用されやすくなり、合成音声の目標話者に対する類似性を向上させることができる。 The present invention performs speech synthesis using a similar speaker voice database composed of a plurality of voice data having a high speaker similarity and the speaker similarity, so that the voice data of a speaker more similar to the target speaker Can be easily used in speech synthesis, and the similarity of the synthesized speech to the target speaker can be improved.
以下、本発明の実施形態について説明する。
<第一実施形態に係る音声合成装置100>
図3及び図4を用いて第一実施形態に係る音声合成装置100を説明する。音声合成装置100は、多数話者音声データベース構築部101と多数話者音声データベース103と類似話者音声データベース構築部110と類似話者音声データベース130と話者類似度記憶部140とを備える。
Hereinafter, embodiments of the present invention will be described.
<Speech Synthesizer 100 according to First Embodiment>
The speech synthesizer 100 according to the first embodiment will be described with reference to FIGS. 3 and 4. The speech synthesizer 100 includes a multi-speaker speech
<多数話者音声データベース構築部101及び多数話者音声データベース103>
多数話者音声データベース構築部101は、事前に多数話者(N名分)の音声を収録し、類似話者音声データベース構築部110で用いる多数話者音声データベース103を構築する(s101)。
<Multi-speaker speech
The multi-speaker voice
なお、収録する多数話者の音声は、類似話者音声データベース構築部110と音声合成部150で使用されるため以下の要件(1)、(2)を満たすことが望ましい。(1)収録する1名あたりの音声データ量(無音区間を除いた音声区間の時間)は、音声合成用のモデルを学習可能な時間以上である。なお、学習可能な時間は、使用する音声合成システムにより異なり、例えば、素片選択型音声合成では数時間程度の音声データ量が必要となる。(2)収録する話者数Nは、性別毎に最低でも100名以上、計200名以上であることが望ましい。
It should be noted that since the voices of many speakers to be recorded are used by the similar speaker voice
さらに、音声収録の終了後、収録した音声データに対して、音声素片を付与する。よって、多数話者音声データベース103はN名分の音声素片付音声データを保持する。
ここで、音声データとは、単語や文章を読み上げた肉声の音声信号に対してA/D変換を行い、ディジタルデータ化した音声波形データである。この音声波形データは、波形接続型音声合成の素材として利用できる。
Furthermore, after the end of voice recording, a voice segment is added to the recorded voice data. Therefore, the
Here, the voice data is voice waveform data obtained by performing A / D conversion on a real voice signal that reads out a word or a sentence and converting it into digital data. This speech waveform data can be used as a material for waveform-connected speech synthesis.
図5に音声素片からなるデータ構造(テーブル)の例を示す。音声素片とは、合成音声を組み立てる上で適切な単位(以下「合成単位」という)の音声データ(以下「部分音声データ」という)の諸情報を示すものであり、少なくとも部分音声データを発した話者を示す話者識別子と、合成単位の発声音素を示す音素情報を含む。また、例えば、全音声データに対する部分音声データの位置を示す位置情報(開始時間、終了時間)や、部分音声データのF0パターン情報等を含んでもよい。なお、音声素片の付与は、人手により行ってもよいし、コンピュータにより自動的に行ってもよい。例えば、音素情報と位置情報は以下の参考文献1記載の技術を用いてコンピュータにより自動的に行ってもよい。
(参考文献1)特開2004−77901号公報
FIG. 5 shows an example of a data structure (table) made up of speech segments. A speech unit indicates various pieces of information of speech data (hereinafter referred to as “partial speech data”) in an appropriate unit (hereinafter referred to as “synthesis unit”) for assembling synthesized speech. At least partial speech data is generated. And a phoneme information indicating the synthesized phonetic phoneme. Further, for example, position information (start time, end time) indicating the position of partial audio data with respect to all audio data, F0 pattern information of partial audio data, and the like may be included. Note that the speech unit may be assigned manually or automatically by a computer. For example, phoneme information and position information may be automatically performed by a computer using the technique described in
(Reference 1) Japanese Patent Application Laid-Open No. 2004-77901
なお、この実施形態では説明を具体的なものとする観点から合成単位を音素とする。この他、例えば音節、半音節としてもよいし、あるいは音素・音節・半音節などの組み合わせを合成単位とすることなども可能であり、任意に決めることができる。 In this embodiment, the synthesis unit is a phoneme from the viewpoint of specific description. In addition, for example, a syllable or semi-syllable may be used, or a combination of phonemes, syllables, semi-syllables, or the like may be used as a synthesis unit, and can be arbitrarily determined.
<類似話者音声データベース構築部110、類似話者音声データベース130及び話者類似度記憶部140>
類似話者音声データベース構築部110は、複数の音声データを用いて、目標話者の音声データに類似した音声データからなる類似話者音声データベースを構築する(s110)。図6に示すように類似話者音声データベース構築部110は、類似話者選択部111と話者統合部115を有する。
<Similar Speaker Speech
The similar speaker speech
<類似話者選択部111>
類似話者選択部111は、多数話者音声データベース103に保存されている複数の音声データを入力とし、これを用いて、各話者の音声データと目標話者の音声データとの話者類似度を求め、話者類似度が高い音声データを複数選択し(s111)、類似話者の音声素片付音声データを話者統合部115に出力する。なお、話者類似度とは2つの音声データが類似しているか否かを示す指標である。
<Similar
The similar
例えば、話者識別・認証で使用されている混合正規分布(Gaussian Mixture Model;GMM)を用いた参考文献2記載の技術に基づき話者類似度を求める。
(参考文献2)D. A. Reynolds, “Speaker identification and verification using Gaussian mixture speaker models”, Speech Communication, 1995, vol.17, pp.91-108
この場合、図7に示すように類似話者選択部111は混合正規分布学習部111aと多数話者混合正規分布記憶部111bと話者類似度計算部111cと類似話者抽出部111dとを有する。
For example, the speaker similarity is obtained based on the technique described in
(Reference 2) DA Reynolds, “Speaker identification and verification using Gaussian mixture speaker models”, Speech Communication, 1995, vol.17, pp.91-108
In this case, as shown in FIG. 7, the similar
(混合正規分布学習部111a及び多数話者混合正規分布記憶部111b)
混合正規分布学習部111aは、N名分の音声データを入力とし、全ての話者の音声データに対して以下の処理(図8中のs111a−2、s111a−3)を行う(s111a−1,s111a−4,s111a−5)。各話者nの音声データを用いて、それぞれの音声データからスペクトルパラメータ(ケプストラム、メルケプストラム等)を取得する(s111a−2)。さらに、それぞれの音声データから得られるスペクトルパラメータを用いて、混合正規分布λnを学習し、モデルパラメータである混合重みwn(m)、平均ベクトルμn(m)、分散ベクトルνn(m)を推定し(s111a−3)、これらの値を多数話者混合正規分布記憶部111bに出力する。但し、m=1,2,…,Mであり、Mは混合正規分布の混合数である。
(Mixed normal
The mixed normal
さらに、混合正規分布学習部111aは、同様に全て(N名分)の音声データから得られるスペクトルパラメータを利用して、全ての音声データに対する混合正規分布λU(Universal Background Model;UBM)を学習し、モデルパラメータである混合重みwU(m)、平均ベクトルμU(m)、分散ベクトルνU(m)を推定し(s111a−6)、これらの値を多数話者混合正規分布記憶部111bに出力する。
Further, the mixed normal
(話者類似度計算部111c)
話者類似度計算部111cは、多数話者混合正規分布記憶部111bから混合重みwn(m)、wU(m)、平均ベクトルμn(m)、μU(m)、分散ベクトルνn(m)、νU(m)を取得し、これらの値と目標話者の音声データを入力とする。まず、話者類似度計算部111cは、目標話者の音声データからスペクトルパラメータ系列Xを取得する。次に、各話者nの話者類似度Lnを以下の対数尤度として計算する(s111c−2)。全ての話者nの話者類似度Lnを計算し(s111c−1,s111c−3,s111c−4)、類似話者抽出部111dに出力する。
(
The speaker
スペクトルパラメータ系列Xの次元数とフレーム数はそれぞれRとTであり、x(t)は第tフレーム目のスペクトルパラメータのベクトルであり、χt(r)は第tフレームの第r次元目のスペクトルパラメータである。また、μi(m,r)、σi(m,r)は、混合正規分布λiのパラメータであり、第m混合目の分布の第r次元目の平均、標準偏差を表す。式(1)〜(4)より、話者類似度Lnは、目標話者の音声データが持つ音声特徴と類似する音声特徴を有する音声データのほうが大きくなる。 The number of dimensions and the number of frames of the spectral parameter series X are R and T, respectively, x (t) is a vector of spectral parameters of the t-th frame, and χ t (r) is the r-th dimension of the t-th frame. It is a spectral parameter. Μ i (m, r) and σ i (m, r) are parameters of the mixed normal distribution λ i and represent the average and standard deviation of the r-th dimension of the m-th mixture distribution. From equations (1) to (4), the speaker similarity L n is larger for speech data having speech features similar to those of the speech data of the target speaker.
(類似話者抽出部111d)
類似話者抽出部111dは、話者類似度Lnを受け取り、その中で話者類似度の大きい上位S名を抽出する(s111d)。但し、この上位S名の話者を類似話者sと呼び、2≦S≦Nとし、s=1,2,…,Sとする。類似話者抽出部111dは、抽出した上位S名の話者類似度Lsを話者類似度記憶部140へ出力し、抽出した上位S名の音声素片付音声データを話者統合部115へ出力する。例えば、話者類似度記憶部140には、類似話者の話者識別子(以下、「類似話者識別子」という)とその類似話者に対応する話者類似度を格納する。
(Similar
The similar
<話者統合部115>
話者統合部115は、複数選択した音声素片付音声データを統合して、部分音声データと、その部分音声データの音声素片とからなる類似話者音声データベースを構築する(s115)。
<
The
例えば、図9に示すように、音声データを統合する。まず類似話者sの音声データ中に含まれる合成単位の音素pの部分音声データと、それに対応する音声素片を全て取り出す(s115c)。これを全ての類似話者に対して行い(s115b、s115d、s115e)、取り出した合成単位の音素pに対応する部分音声データを類似話者音声データベース130に追加する。その際、部分音声データに対応する音声素片は多数話者音声データベースと同様の構成(図5参照)となるが、音声素片番号を追加した順番に変更し、開始時間、終了時間を類似話者音声データベース130上の各部分音声データの位置に変更する。全ての音素に対して上記処理を行い(s115a、s115g、s115h)、類似話者の音声データを統合する。
For example, as shown in FIG. 9, the audio data is integrated. First, all the partial speech data of the synthesis unit phoneme p included in the speech data of the similar speaker s and the corresponding speech segment are extracted (s115c). This is performed for all similar speakers (s115b, s115d, s115e), and the partial speech data corresponding to the extracted phoneme p of the synthesis unit is added to the similar
なお、通常、複数の話者の音声データを統合して、一つの音声データベースを作成すると、各話者間の音声特徴量が大きく異なるため、波形接続時に異音等が生じてしまう可能性があり、合成音声の品質が低下してしまう。しかし、類似話者選択部111で、類似話者を選択するため、各話者間の音声特徴量の差が小さくなる。そのため、合成音声の品質劣化が生じにくくなる。さらに、複数名の類似話者の音声データを統合することで、類似話者音声データベース130には、抑揚や前後の音素環境等の音声データのバリエーションが増加する。これにより、合成音声の自然性が向上する。
Normally, when a single voice database is created by integrating the voice data of a plurality of speakers, there is a possibility that abnormal noise or the like may occur at the time of waveform connection because the voice feature amounts between the speakers differ greatly. Yes, the quality of the synthesized speech is degraded. However, since a similar speaker is selected by the similar
<音声合成部150>
音声合成部150は、類似話者音声データベース130に記憶された類似話者の音声素片付音声データと、話者類似度記憶部140に記憶された話者類似度を用いて、対象テキストに対応する合成音声を生成する(図4のs150)。
<
The
図10に示すように、音声合成部150は、テキスト解析部151と韻律生成部152と韻律モデル記憶部153と音素コンテキスト変換部154と音声素片候補探索部155と素片選択部156と素片接続部157とを有する。
As shown in FIG. 10, the
音声合成部150に入力される対象テキストは、図示しない入力部から入力されるものとしてもよいし、予め図示しない記憶部に記憶されていてもよい。また、本発明において対象テキストの種類などに格別の限定はなく、この実施形態では、漢字かな混合の日本語テキストとする。
The target text input to the
<テキスト解析部151>
まず、テキスト解析部151が、対象テキストを取得し、この対象テキストを形態素解析して、対象テキストに対応した読み情報を音素コンテキスト変換部154に、韻律情報を韻律生成部152に出力する(s151)。
<
First, the
形態素解析の概要について説明すると、テキスト解析部151は、単語モデル、漢字かな変換モデル等(これらは必要に応じて図示しない記憶部に記憶されている)を参照して、対象テキストをかなに変換する(読み情報の取得)。また、対象テキストが日本語の場合、複数の単語が集まって文節などを構成すると、アクセントが移動・消失するなどの現象が起こるので、予めこれらの規則(アクセント結合規則)をデータとして記憶部に記憶しておき、テキスト解析部151は、このアクセント結合規則に従って、対象テキストのアクセント型を決定する。さらに、対象テキストが日本語の場合、意味的ないし文法的なまとまり毎にアクセントが1つ付く特徴的傾向があるので、予めこれらの規則(フレーズ規則)をデータとして記憶部に記憶しておき、テキスト解析部151は、このフレーズ規則に従って、アクセントの1つ付いたまとまりがいくつか接続したものを呼気段落として決定する(韻律情報の取得)。この他、韻律情報にポーズ位置を含めることもできる。
The outline of the morphological analysis will be described. The
なお、ここで説明した形態素解析の概要は、形態素解析の一例であって、その他の形態素解析手法を排除する趣旨のものではない。本発明の音声合成装置・方法では、種々の形態素解析を用いることができ、これらは従来手法(例えば参考文献3、4参照)によって達成されるので、その詳細を省略する。
(参考文献3)特許3379643号公報
(参考文献4)特許3518340号公報
The outline of the morpheme analysis described here is an example of morpheme analysis and is not intended to exclude other morpheme analysis methods. In the speech synthesizer / method according to the present invention, various morphological analyzes can be used, and these are achieved by conventional methods (see, for example, References 3 and 4), and thus the details thereof are omitted.
(Reference 3) Japanese Patent No. 3379634 (Reference 4) Japanese Patent No. 3518340
<韻律生成部152及び韻律モデル記憶部153>
次に、韻律生成部152が、テキスト解析部151が出力した韻律情報を入力として、韻律モデル記憶部153を参照して、韻律に関する情報である韻律パラメータを推定してこれを出力する(s152)。
<
Next, the
韻律パラメータとして、F0パターン(基本周波数パターン)、F0パターンの平均値、F0パターンの傾き、音素継続時間長(音素の発声の長さ)等を例示できる。例えば、音素継続時間長は、予め規則化された、呼気段落内における音素の位置、発声速度、当該音素の前後の音素環境などに従って適宜に設定することができる。また、F0パターンについては、いわゆる藤崎モデルなどによって求めることができる。なお、藤崎モデル等の韻律モデルは、予め韻律モデル記憶部153に記憶しておく。なお、「推定」とは、音声合成のために必要となる情報(F0パターン、音素継続時間長等)を、ある特定のものに決定することを意味する。
Examples of prosodic parameters include the F0 pattern (fundamental frequency pattern), the average value of the F0 pattern, the slope of the F0 pattern, the phoneme duration (phoneme utterance length), and the like. For example, the phoneme duration can be appropriately set in accordance with the phoneme position in the exhalation paragraph, the utterance speed, the phoneme environment before and after the phoneme, etc., which are regulated in advance. Also, the F0 pattern can be obtained by a so-called Fujisaki model. The prosody model such as the Fujisaki model is stored in the prosody
ここで説明した韻律パラメータ取得の概要は一例に過ぎず、その他の手法を排除する趣旨のものではない。本発明の音声合成装置・方法では、韻律パラメータの取得には、従来の韻律パラメータ取得手法を用いることができるので、その詳細を省略する。F0パターンの取得については例えば参考文献5、6を、音素継続時間長については例えば参考文献7、8を参照されたい。
(参考文献5)特許3420964号公報
(参考文献6)特許3344487号公報
(参考文献7)海木佳延、武田一哉、匂坂芳典、「言語情報を利用した母音継続時間長の制御」、電子情報通信学会誌 Vol. J75-A, No.3, pp.467-473, 1992.
(参考文献8)M.D.Riley, "Tree-based modeling for speech synthesis", In G. Bailly, C. Benoit, and T. R. Sawallis, editors, Talking Machines: Theories, Models, and Designs, pages 265-273. Elsevier, 1992.
The outline of prosodic parameter acquisition described here is merely an example, and is not intended to exclude other methods. In the speech synthesizer / method according to the present invention, the prosodic parameters can be acquired by using a conventional prosodic parameter acquiring method, and the details thereof are omitted. Refer to
(Reference 5) Japanese Patent No. 3420964 (Reference 6) Japanese Patent No. 3344487 (Reference 7) Yoshinobu Kaiki, Kazuya Takeda, Yoshinori Mozaka, “Control of vowel duration using language information”, electronic information Journal of Communications Society Vol. J75-A, No.3, pp.467-473, 1992.
(Reference 8) MDRiley, "Tree-based modeling for speech synthesis", In G. Bailly, C. Benoit, and TR Sawallis, editors, Talking Machines: Theories, Models, and Designs, pages 265-273. Elsevier, 1992 .
<音素コンテキスト変換部154>
音素コンテキスト変換部154は、テキスト解析部151が出力した読み情報を入力として、音素コンテキストを求めてこれを出力する(s154)。
<Phoneme
The phoneme
音素コンテキストとは音素の並びのことであり、例えば、読み情報が、“キョウワハレ”であれば音素コンテキストは、“/k//y//O//W//A//H//A//R//E/”となる。音素コンテキスト変換部154は、かな音素変換モデルなど(必要に応じて記憶部に記憶されている。)を参照して、読み情報を音素列に変換する(音素コンテキストの取得)。
The phoneme context is an arrangement of phonemes. For example, if the reading information is “Kyowa Halle”, the phoneme context is “/ k // y // O // W // A // H // A /”. / R // E / ". The phoneme
<音声素片候補探索部155>
次に、音声素片候補探索部155が、音素コンテキストを入力として、音素情報に基づいて、音素コンテキストに合成単位で適合する音声素片の候補(以下、「音声素片候補」という)を類似話者音声データベース130から探索してこれを出力する(s155)。
<Speech segment
Next, the speech unit
音声素片候補の探索方法として、種々の方法を採用できる。例えば、参考文献9記載の方法により実施することができる。
(参考文献9)特開2009−122381号公報
Various methods can be adopted as a method for searching for speech element candidates. For example, it can be performed by the method described in Reference 9.
(Reference 9) JP 2009-122381 A
音素情報が音素コンテキストの一部と一致する音声素片を類似話者音声データベース130から全て探索して、音声素片候補とする。
All speech units whose phoneme information matches a part of the phoneme context are searched from the similar
合成単位が音素の例では、音素コンテキストが“/k//y//O//W//A//H//A//R//E/”である場合を例にすると、音素コンテキストの各音素“/k/”、“/y/”、“/O/”、“/W/”、“/A/”、“/H/”、“/A/”、“/R/”、“/E/”毎に、当該音素に一致する音素情報を持つ音声素片を類似話者音声データベース130から全て探索して、これら音声素片を音素コンテキストの音素毎に音声素片候補とする。つまり、この例では、音素コンテキストの音素毎に一つまたは複数の音声素片候補が決まる。
In the case where the synthesis unit is a phoneme, for example, the phoneme context is “/ k // y // O // W // A // H // A // R // E /”. Phonemes "/ k /", "/ y /", "/ O /", "/ W /", "/ A /", "/ H /", "/ A /", "/ R /" , For each “/ E /”, search for all speech units having phoneme information matching the corresponding phoneme from the similar
<素片選択部156>
素片選択部156は、各音声素片候補の類似話者識別子に対応する話者類似度Lsを少なくとも用いて、合成単位の対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する(s156)。
<Element selection unit 156>
The unit selection unit 156 calculates, as an overall cost, the degree of matching between the target text of the synthesis unit and the speech unit candidate using at least the speaker similarity L s corresponding to the similar speaker identifier of each speech unit candidate. Then, the speech unit candidates when the total cost is the best are selected as the selected speech units, respectively (s156).
例えば、音声素片候補を入力として、一つまたは複数のサブコスト関数を用いて、音声素片候補それぞれのサブコストを計算し、さらにサブコストからなる総合コストを計算し、総合コストを用いて、波形接続に用いる選択音声素片を特定して、これを出力する。 For example, using speech unit candidates as input, calculate the sub-cost of each speech unit candidate using one or more sub-cost functions, calculate the total cost consisting of sub-costs, and connect the waveform using the total cost The selected speech segment to be used for is identified and output.
例えば、サブコストそれぞれは、対象テキストから得られる韻律パラメータと、音声素片候補の韻律パラメータとの適合度を表す。 For example, each sub-cost represents the degree of matching between the prosodic parameter obtained from the target text and the prosodic parameter of the speech segment candidate.
サブコストの計算方法であるが、任意に種々の方法を採用できる。一例として、参考文献10に示されるようなサブコスト関数を用いて計算することができる。
(参考文献10)「波形編集型合成方式におけるスペクトル連続性を考慮した波形選択法」、日本音響学会講演論文集、2-6-10, pp.239-240, 1990/9
Although it is a sub-cost calculation method, various methods can be arbitrarily adopted. As an example, it can be calculated using a sub-cost function as shown in
(Reference 10) “Waveform Selection Method Considering Spectral Continuity in Waveform Editing Type Synthesis Method”, Proc. Of the Acoustical Society of Japan, 2-6-10, pp.239-240, 1990/9
音声素片候補の韻律パラメータのF0パターン平均値Vpと、対象テキストの合成単位の音声素片候補のF0パターン平均値Vsに対応するサブコスト関数は、
C1(Vp,Vs)=(Vp−Vs)2 (11)
である。
The sub-cost function corresponding to the F0 pattern average value Vp of the prosody parameters of the speech unit candidate and the F0 pattern average value Vs of the speech unit candidate of the synthesis unit of the target text is
C 1 (Vp, Vs) = (Vp−Vs) 2 (11)
It is.
音声素片候補の韻律パラメータのF0パターンの傾きFpと、対象テキストの合成単位の音声素片候補のF0パターンの傾きFsに対応するサブコスト関数は、
C2(Fp,Fs)=(Fp−Fs)2 (12)
である。
The sub cost function corresponding to the slope Fp of the F0 pattern of the prosodic parameter of the speech unit candidate and the slope Fs of the F0 pattern of the speech unit candidate of the synthesis unit of the target text is:
C 2 (Fp, Fs) = (Fp−Fs) 2 (12)
It is.
音声素片候補の韻律パラメータの音素継続時間長Tpと、対象テキストの合成単位の音声素片候補の音素継続時間長Tsに対応するサブコスト関数は、
C3(Tp,Ts)=(Tp−Ts)2 (13)
である。
The sub-cost function corresponding to the phoneme duration Tp of the prosodic parameter of the speech unit candidate and the phoneme duration Ts of the speech unit candidate of the synthesis unit of the target text is:
C 3 (Tp, Ts) = (Tp−Ts) 2 (13)
It is.
話者類似度をサブコスト関数の一つとして使用する場合、サブコスト関数は、
C4(L1,Ls)=(L1−Ls)2 (14)
である。なお、L1は類似話者選択部111でS個の話者類似度Lsの中で最も大きい話者類似度であり、Lsはサブコスト計算の対象となる音声素片候補の類似話者s(s=1,2,…,S)の話者類似度である。サブコスト計算の対象となる音声素片が最も話者類似度が高い話者の場合、C4(L1,Ls)は0となり、話者類似度が低い話者ほどC(L1,Ls)は大きな値となる。なお、話者類似度は、音声素片候補の類似話者識別子をキーとして、話者類似度記憶部140から取得する。
When using speaker similarity as one of the sub-cost functions, the sub-cost function is
C 4 (L 1 , L s ) = (L 1 −L s ) 2 (14)
It is. Note that L 1 is the highest speaker similarity among the S speaker similarity L s in the similar
次に、素片選択部156が、これらのサブコストからなる総合コストを計算する。総合コストには種々の方式を採用することができる。一例として、以下のように、各サブコスト値に重みwkを掛けて総和を計算することで、これを総合コストQとする。 Next, the segment selection unit 156 calculates an overall cost including these sub costs. Various methods can be adopted for the total cost. As an example, the total cost Q is calculated by multiplying each sub-cost value by the weight w k as follows.
但し、Kはサブコストの個数である(例えばK=4)。総合コストQは、対象テキストの合成単位毎に、一つまたは複数の音声素片候補に対してそれぞれ求められる。但し、重みwkは何れも正値とし、任意に設定することができる。上記の例では、各サブコストCkは0以上の値をとり、音素コンテキストに対して優れた音声素片候補ほどそれらの値は0に近いから、総合コストQは0以上の値をとり、総合コストQが0に近いほど良好な素片候補と判定することができる。 However, K is the number of sub-costs (for example, K = 4). The total cost Q is obtained for one or a plurality of speech segment candidates for each synthesis unit of the target text. However, each of the weights w k is a positive value and can be set arbitrarily. In the above example, each sub-cost C k takes a value of 0 or more. Since the speech unit candidates that are superior to the phoneme context have values closer to 0, the total cost Q takes a value of 0 or more. As the cost Q is closer to 0, it can be determined as a better segment candidate.
そして、素片選択部156は、総合コストQの総和が最良(この例では最小)となるように、対象テキストの合成単位毎に、音声素片候補を一つ特定し、対象テキストの音素コンテキストに対応する一連の音声素片を決定する。この特定された音声素片候補が、選択音声素片である。 Then, the segment selection unit 156 specifies one speech segment candidate for each synthesis unit of the target text so that the total sum of the total costs Q is the best (in this example, the minimum), and the phoneme context of the target text A series of speech segments corresponding to is determined. The identified speech element candidate is the selected speech element.
<素片接続部157>
最後に、素片接続部157が、類似話者音声データベース130から選択音声素片に対応する部分音声データを読み込み、この部分音声データを一連の音声素片の並びに従って接続することで合成音声を生成する(s157)。
<
Finally, the
選択音声素片に対応する部分音声データを時間的な順に単に接続してもよいが、異なる部分音声波形データ間を時間的又は周波数的に補間して波形接続してもよい(参考文献11参照)。
(参考文献11)特開平7−072897号公報
The partial speech data corresponding to the selected speech segment may be simply connected in order of time, or the waveform may be connected by interpolating between different partial speech waveform data in terms of time or frequency (see Reference 11). ).
(Reference 11) Japanese Patent Laid-Open No. 7-072897
<効果>
このような構成とすることで、目標話者により類似している話者の音声データが音声合成の際に使用されやすくなり、合成音声の目標話者に対する類似性を向上させることができる。
<Effect>
With such a configuration, the voice data of a speaker that is more similar to the target speaker can be easily used in speech synthesis, and the similarity of the synthesized speech to the target speaker can be improved.
また、類似話者の選択は、非特許文献1の平均声モデルからの変換規則の学習に比べ、数秒〜数十秒程度の少量の音声データで十分な性能が得られるため、音声合成を行うために必要な目標話者の音声データ量を削減することができる。また、目標話者の多量の音声データが必要でなくなるため、音声収録の拘束時間を極めて短時間とすることができる。
In addition, the selection of similar speakers performs speech synthesis because sufficient performance can be obtained with a small amount of speech data of several seconds to several tens of seconds compared to learning of conversion rules from the average voice model of
さらに、複数名の音声データを統合することで、統合後の音声データベース中に存在する同一コンテキストの素片が増加させ、合成音声の自然性が向上させることができる。 Furthermore, by integrating the voice data of a plurality of names, the number of segments of the same context existing in the integrated voice database can be increased, and the naturalness of the synthesized voice can be improved.
<変形例1>
第一実施形態と異なる部分についてのみ説明する。
図10の素片選択部156’において、各音声素片候補の類似話者識別子に対応する話者類似度Lsを少なくとも用いて、合成単位の前記対象テキストと音声素片候補との適合度を、以下のようにして総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する(図11のs156’)。
<
Only parts different from the first embodiment will be described.
In the unit selection unit 156 ′ in FIG. 10, the degree of matching between the target text in the synthesis unit and the speech unit candidate using at least the speaker similarity L s corresponding to the similar speaker identifier of each speech unit candidate. Is calculated as an overall cost as follows, and speech unit candidates when the total cost is the best are selected as selected speech units (s156 ′ in FIG. 11).
なお、重みwsは、話者類似度が最も高い話者の場合に1となり、それ以外の類似話者の場合には、話者類似度に応じて1より大きくなれば、別の計算式で求めても構わない。また、この重みは総合コスト全体に使用しても、個別のサブコスト関数の重みとして使用しても構わない(例えば、F0平均値のサブコスト関数C1のみに使用する等)。 The weight w s is 1 for the speaker with the highest speaker similarity, and for other similar speakers, if the weight w s becomes larger than 1 according to the speaker similarity, another calculation formula is used. You can ask for it. Further, this weight may be used for the total cost as a whole or as a weight for an individual sub-cost function (for example, it is used only for the sub-cost function C 1 of the F0 average value).
また、この場合、話者類似度Lsをサブコストとして利用してもよいし、利用しなくてもよい。
このような構成とすることで第一実施形態と同様の効果を得ることができ、さらに、柔軟性のある素片選択が可能となる。
In this case, the speaker similarity L s may or may not be used as a sub-cost.
By adopting such a configuration, it is possible to obtain the same effect as that of the first embodiment, and it is possible to select a flexible segment.
<その他の変形例>
音声合成装置100は、必ずしも多数話者音声データベース構築部101を備えなくともよい。その場合、他の装置等で構成した多数話者音声データベース103を、記録媒体から、あるいは通信回線を介してダウンロードして取得し記憶すればよい。さらに、音声合成装置100は、多数話者音声データベース103及び類似話者音声データベース構築部110を備えなくともよい。その場合、他の装置等で構成した類似話者音声データベース130及び類似話者の話者類似度を、記録媒体から、あるいは通信回線を介してダウンロードして取得し記憶すればよい。音声合成部150は、このように得られた類似話者音声データベース130と話者類似度を用いても第一実施形態と同様の音声合成を行うことができる。
<Other variations>
The speech synthesizer 100 does not necessarily include the multi-speaker speech
また、音声データは、音声波形データではなく、音声波形データに対して信号処理を行った結果、得られる音声特徴量(音高パラメータ(基本周波数等)、スペクトルパラメータ(ケプストラム、メルケプストラム等))でもよい。この場合、類似話者選択部111内で音声波形データからスペクトルパラメータ(ケプストラム、メルケプストラム等)を取得する処理を省略することができる。また、素片接続部157では、接続した部分音声データ(音声特徴量)を用いて、音声波形データを生成し、出力する。
Voice data is not voice waveform data, but is obtained as a result of performing signal processing on voice waveform data, resulting in voice feature values (pitch parameters (basic frequency, etc.), spectral parameters (cepstrum, mel cepstrum, etc.)) But you can. In this case, it is possible to omit the process of acquiring the spectrum parameters (cepstrum, mel cepstrum, etc.) from the speech waveform data in the similar
音声素片は、アクセント情報(アクセント型、アクセント句長)や品詞情報等を含んでもよい。また、多数話者音声データベース103には、話者の情報(性別、年齢、出身地)、収録環境(マイクロホンの種類、収録ブースの情報)等を含んでもよい。目標話者の音声データにもこのような情報を付加することで、より精度の高い合成音声を生成することができる。
The speech segment may include accent information (accent type, accent phrase length), part of speech information, and the like. The
類似話者選択部111における話者類似度の求め方は、他の方法によってもよい。例えば、スペクトルパラメータを用いずに、音声波形データから直接類似度を求めてもよい。
The method for obtaining the speaker similarity in the similar
類似話者音声データベースには、必ずしも音声波形データを記憶しなくともよい。音声素片のみからなるデータベースであってもよい。この場合、音声波形データは、類似話者音声データベース内の音声素片をキーとして、多数話者音声データベース103から取得する構成とする。
It is not always necessary to store speech waveform data in the similar speaker speech database. It may be a database consisting only of speech segments. In this case, the speech waveform data is obtained from the
本実施形態では、サブコストとして、F0パターンの平均値、F0パターンの傾き、音素継続時間長、話者類似度を用いているが、少なくとも話者類似度を用いていればよい。最も目標話者に近いと判定された話者の音声素片が選択されやすくなり、合成音声の目標話者に対する類似性が向上する。さらに他の情報からサブコストを求めてもよい。例えば、素片選択部156において、音素コンテキストを入力として(図10中破線で示す)、読みに対応するサブコストを計算してもよい。なお、読みに対応するサブコスト関数は、
C(j)=1/ej (23)
である。但し、対象テキストの音素コンテキストと、合成単位の音声素片候補の音素コンテキストが一致する音素数をjとする。
In this embodiment, the average value of the F0 pattern, the slope of the F0 pattern, the phoneme duration, and the speaker similarity are used as the sub-costs, but at least the speaker similarity may be used. The speech unit of the speaker determined to be closest to the target speaker is easily selected, and the similarity of the synthesized speech to the target speaker is improved. Further, the sub cost may be obtained from other information. For example, the segment selection unit 156 may calculate the sub-cost corresponding to the reading with the phoneme context as an input (indicated by a broken line in FIG. 10). The sub-cost function corresponding to the reading is
C (j) = 1 / e j (23)
It is. Here, j is the number of phonemes in which the phoneme context of the target text matches the phoneme context of the speech unit candidate of the synthesis unit.
<第二実施形態>
図3を用いて第二実施形態に係る音声合成装置200を説明する。第一実施形態と異なる部分についてのみ説明する。音声合成装置200は、多数話者音声データベース構築部101と多数話者音声データベース103と類似話者音声データベース構築部210と類似話者音声データベース130と話者類似度記憶部140とを備える。類似話者音声データベース構築部210の構成が第一実施形態と異なる。
<Second embodiment>
A speech synthesizer 200 according to the second embodiment will be described with reference to FIG. Only parts different from the first embodiment will be described. The speech synthesizer 200 includes a multi-speaker speech
[ポイント]
第一実施形態では、話者統合部115において、抽出したS名の話者を統合する際に、話者間の音声特徴量の差が大きいと、合成音声の品質の劣化を引き起こす恐れがある。そのため、第二実施形態では、話者統合部215で目標話者の音声特徴量を用いて、抽出した話者の音声特徴量を目標話者の特徴量へ正規化することで、話者間の音声特徴量の差を軽減し、合成音声の品質劣化を防ぐ。
[point]
In the first embodiment, when the
<類似話者音声データベース構築部210>
図12及び図13を用いて、類似話者音声データベース構築部210を説明する。
類似話者音声データベース構築部210は、複数の音声データを用いて、目標話者の音声データに類似した音声データからなる類似話者音声データベースを構築する(s210)。図12に示すように類似話者音声データベース構築部210は、類似話者選択部111と、さらに、音声素片付与部212と、話者変換規則学習部213と話者単位変換部214と話者統合部215を有する。
<Similar speaker voice
The similar speaker voice
The similar speaker speech
<音声素片付与部212>
音声素片付与部212は、入力された目標話者の音声データに対して、音声素片を付与する(s212)。音声素片として付与される情報は、多数話者音声データベース構築部101で付与される音声素片と同様である。但し、音素番号や各音素の開始時間、終了時間は、目標話者の音声データに対するものとする。この音声素片は、人手により付与するか、音声データと発話テキストから自動で付与してもよい。
<Voice
The speech
<話者変換規則学習部213>
話者変換規則学習部213は、目標話者の音声データと複数選択した類似話者の音声データを用いて、各類似話者の音声データを目標話者の音声特徴量を持つ音声データに変換する話者変換規則を学習する(s213)。例えば、参考文献12記載の方法により話者変換規則を学習する。
(参考文献12) M. J. F Gales and P. C. Woodland, “Mean and variance adaptation within the MLLR framework,” Computer Speech and Language, 1996, vol.10, pp.249-264
<Speaker conversion
The speaker conversion
(Reference 12) MJ F Gales and PC Woodland, “Mean and variance adaptation within the MLLR framework,” Computer Speech and Language, 1996, vol.10, pp.249-264
まず、類似話者選択部111で選択されたS名分の類似話者の音声データから得られる音声特徴量と、その音声データに対応する音声素片から統計モデル(例えば、Hidden Markov Model(HMM)やGMM等)を学習する(図14中のs213b)。なお、多数話者音声データベース103の音声データを用いて、事前に全ての話者(N名分)の統計モデルを求めておき、多数話者音声データベース内に記憶しておいてもよい。
First, a statistical model (for example, Hidden Markov Model (HMM) is obtained from speech feature amounts obtained from speech data of S similar speakers selected by the similar
次に、目標話者の全スペクトルパラメータ及び音声素片と、類似話者sの統計モデルとを用いて、類似話者sのスペクトルパラメータを目標話者のスペクトルパラメータへ変換するCMLLR変換行列W(話者変換規則φs)を学習する(s213c)。話者単位変換部214に話者変換規則φsを出力する。変換行列Wは以下の方程式を解くことで求める。
Next, the CMLLR transformation matrix W (which converts the spectral parameters of the similar speaker s into the spectral parameters of the target speaker using all the spectral parameters and speech segments of the target speaker and the statistical model of the similar speaker s). The speaker conversion rule φ s ) is learned (s213c). The speaker conversion rule φ s is output to the
ここで、(・)’は・の転置行列を表す。xtは時刻tの目標話者のスペクトルパラメータ、μg,Ug −1はそれぞれHMMの状態gの平均と共分散行列の逆行列である。また、γg(t)は状態gにおいてxtが出力される確率であり、xtとμg,Ug −1とから得られる。この変換行列Wは、HMMの状態毎に求めることが可能であるが、本実施形態では全ての状態を共有することにより、一つの変換行列を求める。なお、各類似話者sに対して、話者変換規則φsを学習する。 Here, (·) ′ represents a transposed matrix of •. x t is the spectral parameter of the target speaker at time t, and μ g and U g −1 are the mean and the inverse of the covariance matrix of the state g of the HMM, respectively. Further, γ g (t) is a probability that x t is output in the state g, and is obtained from x t and μ g , U g −1 . The transformation matrix W can be obtained for each state of the HMM, but in the present embodiment, one transformation matrix is obtained by sharing all the states. Note that the speaker conversion rule φ s is learned for each similar speaker s.
<話者単位変換部214>
話者単位変換部214は各類似話者の音声データを話者変換規則φsに従って変換する(s214)。例えば、類似話者sの音声データベース中の時刻tにおけるスペクトルパラメータxs,tを、変換行列W(話者変換規則φs)を用いて変換することで、目標話者の特徴へ変換した類似話者sのスペクトルパラメータx ̄s,tを得る。
<
The
この処理を各類似話者の全時刻の音声データに対して行う。
以下、F0パラメータの変換の一例として、以下の処理で行う線形変換手法について説明する。目標話者の音声データから得られる全ての対数F0値から平均μhと分散νhを求める。また類似話者sの音声データから得られる全ての対数F0値から平均μsと分散νsを求める。そして、類似話者sの変換後の対数F0値を以下の式により求める。
This process is performed on the voice data of all similar speakers at all times.
Hereinafter, as an example of conversion of the F0 parameter, a linear conversion method performed by the following processing will be described. The average μ h and variance ν h are obtained from all logarithm F0 values obtained from the target speaker's voice data. Further, the average μ s and the variance ν s are obtained from all logarithmic F0 values obtained from the speech data of the similar speaker s. And the logarithm F0 value after conversion of the similar speaker s is calculated | required with the following formula | equation.
ここで、ztは変換前の類似話者sの第t番目の対数F0値であり、ytは変換後の類似話者sの第t番目の対数F0値である。Tは類似話者sの対数F0の全フレーム数であり、t=1,2,…,Tである。 Here, z t is the t-th logarithmic F0 values of similar speakers s before conversion, the y t is the t-th logarithmic F0 values of similar speakers s after conversion. T is the total number of frames of the logarithm F0 of the similar speaker s, and t = 1, 2,.
全ての類似話者の音声データに対して、同様の処理(s213b〜s214)を行い(s213a,s213d,s213e)、話者単位の変換処理を行った音声データを話者統合部215に出力する。
The same processing (s213b to s214) is performed on the speech data of all similar speakers (s213a, s213d, and s213e), and the speech data subjected to the conversion processing for each speaker is output to the
<話者統合部215>
話者統合部215は、類似話者sの音声データそのものではなく、話者変換規則φsを使って変換された音声データを統合して、類似話者音声データベースを構築する(s215)。構築方法は、第一実施形態と同様である。
<
The
<効果>
このような構成とすることで、第一実施形態に比べ、話者間の音声特徴量の差を軽減し、合成音声の品質劣化を防ぐ。
<Effect>
By adopting such a configuration, compared to the first embodiment, a difference in speech feature amount between speakers is reduced, and quality degradation of synthesized speech is prevented.
<変形例>
話者変換規則学習部213において、目標話者の音声データと複数選択した類似話者の音声データのみを用いて、各類似話者の音声データを目標話者の音声データに変換する話者変換規則を学習してもよい。その場合、音声素片付与部212は設けなくともよい。
<Modification>
The speaker conversion
<第三実施形態>
図3を用いて第三実施形態に係る音声合成装置300を説明する。第二実施形態と異なる部分についてのみ説明する。音声合成装置300は、多数話者音声データベース構築部101と多数話者音声データベース103と類似話者音声データベース構築部310と類似話者音声データベース130と話者類似度記憶部140とを備える。類似話者音声データベース構築部310の構成が第一実施形態と異なる。
<Third embodiment>
A speech synthesis apparatus 300 according to the third embodiment will be described with reference to FIG. Only parts different from the second embodiment will be described. The speech synthesizer 300 includes a multi-speaker speech
[ポイント]
第一実施形態及び第二実施形態では、目標話者に類似した複数名の話者から類似話者音声データベース130を生成したが、本実施形態では、話者統合部215で得られる音声データを基として、さらに音声合成単位毎にモデル適応技術を用いて、音声データを変換することで、目標話者により近いモデルを生成することが可能である。
[point]
In the first embodiment and the second embodiment, the similar
<類似話者音声データベース構築部310>
図15及び図16を用いて、類似話者音声データベース構築部310を説明する。
類似話者音声データベース構築部310は、複数の音声データを用いて、目標話者の音声データに類似した音声データからなる類似話者音声データベースを構築する(s310)。図15に示すように類似話者音声データベース構築部310は、類似話者選択部111と、音声素片付与部212と、話者変換規則学習部213と話者単位変換部214と話者統合部215と、さらに、合成単位変換規則学習部317と、合成単位変換部318を有する。
<Similar speaker voice database construction unit 310>
The similar speaker voice database construction unit 310 will be described with reference to FIGS. 15 and 16.
The similar speaker speech database construction unit 310 constructs a similar speaker speech database composed of speech data similar to the speech data of the target speaker using a plurality of speech data (s310). As shown in FIG. 15, the similar speaker voice database construction unit 310 includes a similar
<合成単位変換規則学習部317>
合成単位変換規則学習部317は、目標話者の音声データと第一類似話者音声データベース130の部分音声データを用いて、同一の状態毎に各類似話者の部分音声データを目標話者の音声特徴を持つ部分音声データに変換する合成単位変換規則を学習する(s317)。例えば、非特許文献1記載の方法により合成単位変換規則を学習する。なお、第一類似話者音声データベース130内の音声データは、第一実施形態及び第二実施形態の類似話者音声データベース130内の音声データと同様の方法により構成される。
<Composition Unit Conversion
The synthesis unit conversion
まず、合成単位変換規則学習部317は、第一類似話者音声データベース130を用いて、同一の状態を持つ部分音声データ毎に、そのスペクトルパラメータと音声素片を用いて、統計モデル(HMM)を学習する。この統計モデルは、類似話者の平均的な統計モデルとなる。
First, the synthesis unit conversion
次に、合成単位変換規則学習部317は、目標話者の部分音声データから得られるスペクトルパラメータ及びその部分音声データに対する音声素片と、第一類似話者音声データベース130を用いて学習した統計モデルとから、全類似話者の平均的な音声データから得られるスペクトルパラメータ及び音声素片を、目標話者のスペクトルパラメータ及び音声素片に変換する変換行列を学習する。なお、同一の状態毎に変換行列を学習する。学習方法は実施例2と同様である。このMLLR変換行列を合成単位変換規則として取得する。
Next, the synthesis unit conversion
なお、合成単位変換規則は、同一の状態毎に学習を行うが、目標話者の音声データが少量の場合、全ての状態に対応する音声データの合成単位変換規則を学習することはできない。本実施形態では、リーフノードが各音声となる二分木を作成し、目標話者のデータ量が一定値以上となる最下位ノードにおいて合成単位変換規則を学習する。これにより、目標話者の音声データが少量の場合でも、全ての状態に対して、合成単位変換規則を学習することができる。 The synthesis unit conversion rule is learned for each same state. However, if the target speaker has a small amount of speech data, the synthesis unit conversion rule for speech data corresponding to all states cannot be learned. In the present embodiment, a binary tree in which each leaf node is each voice is created, and a synthesis unit conversion rule is learned at the lowest node where the data amount of the target speaker is a certain value or more. Thereby, even when the voice data of the target speaker is small, the synthesis unit conversion rule can be learned for all states.
<合成単位変換部318>
合成単位変換部318は、各類似話者の音声データを合成単位毎の合成単位変換規則に従って変換する(s318)。学習した合成単位変換規則を、第一類似話者音声データベース130へ適用し、第二類似話者音声データベース330を得る。なお、合成単位変換規則の適用手法は非特許文献1記載の手法を用いることができる。
このような構成とすることで、第二実施形態よりもさらに、目標話者により近い合成音声を生成することができる。
<Composition
The synthesis
By adopting such a configuration, it is possible to generate synthesized speech that is closer to the target speaker than in the second embodiment.
<プログラム及び記憶媒体>
上述した音声合成装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
<Program and storage medium>
The speech synthesizer described above can also be functioned by a computer. In this case, each process of a program for causing a computer to function as a target device (a device having the functional configuration shown in the drawings in various embodiments) or a processing procedure (shown in each embodiment) is processed by the computer. A program to be executed by the computer may be downloaded from a recording medium such as a CD-ROM, a magnetic disk, or a semiconductor storage device or via a communication line into the computer, and the program may be executed.
<その他>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<Others>
The present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.
100,200,300 音声合成装置
101 多数話者音声データベース構築部
103 多数話者音声データベース
110,210,310 類似話者音声データベース構築部
111 類似話者選択部
111a 混合正規分布学習部
111b 多数話者混合正規分布記憶部
111c 話者類似度計算部
111d 類似話者抽出部
115,215 話者統合部
130 類似話者音声データベース
130 第一類似話者音声データベース
140 話者類似度記憶部
150 音声合成部
151 テキスト解析部
152 韻律生成部
153 韻律モデル記憶部
154 音素コンテキスト変換部
155 音声素片候補探索部
156 素片選択部
156 素片選択部
157 素片接続部
212 音声素片付与部
213 話者変換規則学習部
214 話者単位変換部
317 合成単位変換規則学習部
318 合成単位変換部
330 第二類似話者音声データベース
100, 200, 300
Claims (9)
2つの音声データが類似しているか否かを示す指標を話者類似度とし、複数の話者の音声データを用いて、各話者の音声データと目標話者の音声データとの話者類似度を求め、話者類似度が高い音声データを複数選択する類似話者選択ステップと、
複数選択した音声データを統合して、合成音声を組み立てる上で適切な合成単位の部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースを構築する話者統合ステップと、
前記対象テキストを解析して、対象テキストの読み情報を取得するテキスト解析ステップと、
前記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換ステップと、
前記音素情報に基づいて、前記音素コンテキストに合成単位で適合する音声素片候補を前記類似話者音声データベースから探索する音声素片候補探索ステップと、
各前記音声素片候補の類似話者識別子に対応する前記話者類似度を少なくとも用いて、合成単位の前記対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する素片選択ステップと、
前記選択音声素片に対応する部分音声データを前記類似話者音声データベースから読み込み、この部分音声データを接続して前記合成音声を得る素片接続ステップと、を有する、
音声合成方法。 A speech synthesis method for generating synthesized speech corresponding to a target text and having speech characteristics of a target speaker,
Speaker similarity is used as an index indicating whether or not two voice data are similar, and using the voice data of a plurality of speakers, the speaker similarity between the voice data of each speaker and the voice data of the target speaker A similar speaker selection step for selecting a plurality of voice data having a high speaker similarity,
A combination of partial speech data suitable for combining synthesized speech data and assembling a synthesized speech, and information given to the partial speech data, which indicates the speaker who issued the partial speech data A speaker integration step of constructing a similar speaker speech database comprising at least a speech unit indicating a similar speaker identifier and phoneme information indicating a phoneme of the partial speech data;
A text analysis step of analyzing the target text and obtaining reading information of the target text;
A phoneme context conversion step for converting the reading information into a phoneme context that is a sequence of phonemes;
Based on the phoneme information, a speech unit candidate search step for searching the similar speaker speech database for speech unit candidates that match the phoneme context in a synthesis unit;
Using at least the speaker similarity corresponding to the similar speaker identifier of each of the speech unit candidates, the degree of matching between the target text of the synthesis unit and the speech unit candidate is calculated as a total cost, and this total cost is A unit selection step for selecting the speech unit candidate at the best time as a selected speech unit;
A segment connection step of reading partial speech data corresponding to the selected speech segment from the similar speaker speech database and connecting the partial speech data to obtain the synthesized speech;
Speech synthesis method.
2つの音声データが類似しているか否かを示す指標を話者類似度とし、目標話者の音声データとの話者類似度が高い複数の音声データを合成音声を組み立てる上で適切な合成単位に分割した部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースが予め記憶され、
前記対象テキストを解析して、対象テキストの読み情報を取得するテキスト解析ステップと、
前記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換ステップと、
前記音素情報に基づいて、前記音素コンテキストに合成単位で適合する音声素片候補を前記類似話者音声データベースから探索する音声素片候補探索ステップと、
各前記音声素片候補の類似話者識別子に対応する前記話者類似度を少なくとも用いて、合成単位の前記対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する素片選択ステップと、
前記選択音声素片に対応する部分音声データを前記類似話者音声データベースから読み込み、この部分音声データを接続して前記合成音声を得る素片接続ステップと、を有する、
音声合成方法。 A speech synthesis method for generating synthesized speech corresponding to a target text and having speech characteristics of a target speaker,
A synthesis unit suitable for assembling a plurality of speech data having a high speaker similarity with the target speaker's speech data as an index indicating whether or not the two speech data are similar Divided partial voice data, information given to the partial voice data, a similar speaker identifier indicating the speaker who has issued the partial voice data, and phoneme information indicating the utterance phoneme of the partial voice data; A similar speaker speech database comprising at least speech segments indicating
A text analysis step of analyzing the target text and obtaining reading information of the target text;
A phoneme context conversion step for converting the reading information into a phoneme context that is a sequence of phonemes;
Based on the phoneme information, a speech unit candidate search step for searching the similar speaker speech database for speech unit candidates that match the phoneme context in a synthesis unit;
Using at least the speaker similarity corresponding to the similar speaker identifier of each of the speech unit candidates, the degree of matching between the target text of the synthesis unit and the speech unit candidate is calculated as a total cost, and this total cost is A unit selection step for selecting the speech unit candidate at the best time as a selected speech unit;
A segment connection step of reading partial speech data corresponding to the selected speech segment from the similar speaker speech database and connecting the partial speech data to obtain the synthesized speech;
Speech synthesis method.
各類似話者sの音声データの話者類似度をLsとし、最も話者類似度が高い話者の話者類似度をL1とし、
前記素片選択ステップにおいて、
K個のサブコストCkの和を総合コストQとし、少なくともサブコストの一つとして、
C(L1,Ls)=(L1−Ls)2
を用いる、
音声合成方法。 The speech synthesis method according to claim 1 or 2,
The speaker similarity of the speech data of each similar speaker s is L s , the speaker similarity of the speaker with the highest speaker similarity is L 1 ,
In the segment selection step,
The sum of K sub-costs C k is defined as the total cost Q, and at least one of the sub-costs,
C (L 1 , L s ) = (L 1 −L s ) 2
Use
Speech synthesis method.
各類似話者sの音声データの話者類似度をLsとし、最も話者類似度が高い話者の話者類似度をL1とし、
前記素片選択ステップにおいて、
K個のサブコストCkの和を総合コストQとし、各サブコストに対する重みをwkとし、総合コストを
音声合成方法。 The speech synthesis method according to claim 1 or 2,
The speaker similarity of the speech data of each similar speaker s is L s , the speaker similarity of the speaker with the highest speaker similarity is L 1 ,
In the segment selection step,
The sum of K sub-costs C k is the total cost Q, the weight for each sub-cost is w k , and the total cost is
Speech synthesis method.
目標話者の音声データと複数選択した類似話者の音声データを用いて、各類似話者の音声データを目標話者の音声特徴を持つ音声データに変換する話者変換規則を学習する話者変換規則学習ステップと、
各類似話者の音声データを前記話者変換規則に従って変換する話者単位変換ステップと、をさらに備え、
前記話者統合ステップは、複数選択した類似話者の音声データをそれぞれ変換した音声データを統合して、前記部分音声データと、その部分音声データの前記音声素片とからなる類似話者音声データベースを構築する、
音声合成方法。 The speech synthesis method according to claim 1,
A speaker who learns speaker conversion rules for converting each similar speaker's voice data into voice data having the target speaker's voice characteristics using the target speaker's voice data and voice data of a plurality of selected similar speakers A conversion rule learning step;
A speaker unit conversion step of converting voice data of each similar speaker according to the speaker conversion rule, and
The speaker integration step integrates speech data obtained by converting speech data of a plurality of selected similar speakers, and includes a similar speaker speech database including the partial speech data and the speech segments of the partial speech data. Build,
Speech synthesis method.
目標話者の音声データと複数選択した類似話者の音声データを用いて、各類似話者の音声データを目標話者の音声特徴を持つ音声データに変換する話者変換規則を学習する話者変換規則学習ステップと、
各類似話者の音声データを前記話者変換規則に従って変換する話者単位変換ステップと、をさらに備え、
前記話者統合ステップは、複数選択した類似話者の音声データをそれぞれ変換した音声データを統合して、前記部分音声データと、その部分音声データの前記音声素片とからなる類似話者音声データベースを構築し、
目標話者の音声データと前記類似話者音声データベースの部分音声データを用いて、同一の状態毎に各類似話者の音声データを目標話者の音声特徴を持つ音声データに変換する合成単位変換規則を学習する合成単位変換規則学習ステップと、
各類似話者の部分音声データを合成単位毎の合成単位変換規則に従って変換する合成単位変換ステップと、をさらに備える、
音声合成方法。 The speech synthesis method according to claim 1,
A speaker who learns speaker conversion rules for converting each similar speaker's voice data into voice data having the target speaker's voice characteristics using the target speaker's voice data and voice data of a plurality of selected similar speakers A conversion rule learning step;
A speaker unit conversion step of converting voice data of each similar speaker according to the speaker conversion rule, and
The speaker integration step integrates speech data obtained by converting speech data of a plurality of selected similar speakers, and includes a similar speaker speech database including the partial speech data and the speech segments of the partial speech data. Build
Synthetic unit conversion for converting the voice data of each similar speaker into voice data having the voice characteristics of the target speaker for each same state using the target speaker's voice data and the partial voice data of the similar speaker's voice database A synthesis unit conversion rule learning step for learning a rule;
A synthesis unit conversion step of converting the partial speech data of each similar speaker according to a synthesis unit conversion rule for each synthesis unit;
Speech synthesis method.
2つの音声データが類似しているか否かを示す指標を話者類似度とし、複数の話者の音声データを用いて、各話者の音声データと目標話者の音声データとの話者類似度を求め、話者類似度が高い音声データを複数選択する類似話者選択部と、
複数選択した音声データを統合して、合成音声を組み立てる上で適切な合成単位の部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースを構築する話者統合部と、
前記類似話者識別子と、その類似話者識別子の対応する前記話者類似度とを記憶する話者類似度記憶部と、
前記対象テキストを解析して、対象テキストの読み情報を取得するテキスト解析部と、
前記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換部と、
前記音素情報に基づいて、前記音素コンテキストに合成単位で適合する音声素片候補を前記類似話者音声データベースから探索する音声素片候補探索部と、
各前記音声素片候補の類似話者識別子に対応する前記話者類似度を少なくとも用いて、合成単位の前記対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する素片選択部と、
前記選択音声素片に対応する部分音声データを前記類似話者音声データベースから読み込み、この部分音声データを接続して前記合成音声を得る素片接続部と、を有する、
音声合成装置。 A speech synthesizer that generates synthesized speech corresponding to a target text and having speech characteristics of a target speaker,
Speaker similarity is used as an index indicating whether or not two voice data are similar, and using the voice data of a plurality of speakers, the speaker similarity between the voice data of each speaker and the voice data of the target speaker A similar speaker selection unit that selects a plurality of voice data having high speaker similarity,
A combination of partial speech data suitable for combining synthesized speech data and assembling a synthesized speech, and information given to the partial speech data, which indicates the speaker who issued the partial speech data A speaker integration unit for constructing a similar speaker voice database including a speech element indicating at least a similar speaker identifier and phoneme information indicating a phoneme of the partial voice data;
A speaker similarity storage unit for storing the similar speaker identifier and the speaker similarity corresponding to the similar speaker identifier;
A text analysis unit that analyzes the target text and obtains reading information of the target text;
A phoneme context conversion unit that converts the reading information into a phoneme context that is a sequence of phonemes;
Based on the phoneme information, a speech unit candidate search unit that searches the similar speaker speech database for speech unit candidates that match the phoneme context in a synthesis unit;
Using at least the speaker similarity corresponding to the similar speaker identifier of each of the speech unit candidates, the degree of matching between the target text of the synthesis unit and the speech unit candidate is calculated as a total cost, and this total cost is A speech segment selection unit that selects the speech segment candidate at the best time as a selected speech segment;
A segment connection unit that reads partial speech data corresponding to the selected speech segment from the similar speaker speech database and connects the partial speech data to obtain the synthesized speech;
Speech synthesizer.
合成音声を組み立てる上で適切な合成単位の部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースと、
前記類似話者識別子と、その類似話者識別子の対応する前記話者類似度とを記憶する話者類似度記憶部と、
前記対象テキストを解析して、対象テキストの読み情報を取得するテキスト解析部と、
前記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換部と、
前記音素情報に基づいて、前記音素コンテキストに合成単位で適合する音声素片候補を前記類似話者音声データベースから探索する音声素片候補探索部と、
各前記音声素片候補の類似話者識別子に対応する前記話者類似度を少なくとも用いて、合成単位の前記対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する素片選択部と、
前記選択音声素片に対応する部分音声データを前記類似話者音声データベースから読み込み、この部分音声データを接続して前記合成音声を得る素片接続部と、を有する、
音声合成装置。 A speech synthesizer that generates synthesized speech corresponding to a target text and having speech characteristics of a target speaker,
The partial speech data of an appropriate synthesis unit for assembling the synthesized speech, the information given to the partial speech data, the similar speaker identifier indicating the speaker who has issued the partial speech data, and the partial speech data A similar speaker speech database comprising at least speech segments indicating phoneme information indicating utterance phonemes;
A speaker similarity storage unit for storing the similar speaker identifier and the speaker similarity corresponding to the similar speaker identifier;
A text analysis unit that analyzes the target text and obtains reading information of the target text;
A phoneme context conversion unit that converts the reading information into a phoneme context that is a sequence of phonemes;
Based on the phoneme information, a speech unit candidate search unit that searches the similar speaker speech database for speech unit candidates that match the phoneme context in a synthesis unit;
Using at least the speaker similarity corresponding to the similar speaker identifier of each of the speech unit candidates, the degree of matching between the target text of the synthesis unit and the speech unit candidate is calculated as a total cost, and this total cost is A speech segment selection unit that selects the speech segment candidate at the best time as a selected speech segment;
A segment connection unit that reads partial speech data corresponding to the selected speech segment from the similar speaker speech database and connects the partial speech data to obtain the synthesized speech;
Speech synthesizer.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010292223A JP5411845B2 (en) | 2010-12-28 | 2010-12-28 | Speech synthesis method, speech synthesizer, and speech synthesis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010292223A JP5411845B2 (en) | 2010-12-28 | 2010-12-28 | Speech synthesis method, speech synthesizer, and speech synthesis program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012141354A true JP2012141354A (en) | 2012-07-26 |
JP5411845B2 JP5411845B2 (en) | 2014-02-12 |
Family
ID=46677736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010292223A Expired - Fee Related JP5411845B2 (en) | 2010-12-28 | 2010-12-28 | Speech synthesis method, speech synthesizer, and speech synthesis program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5411845B2 (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014066916A (en) * | 2012-09-26 | 2014-04-17 | Brother Ind Ltd | Sound synthesizer |
JP2014134730A (en) * | 2013-01-11 | 2014-07-24 | Nippon Telegr & Teleph Corp <Ntt> | Fundamental frequency model parameter estimation device, method and program |
JP2014228580A (en) * | 2013-05-20 | 2014-12-08 | 日本電信電話株式会社 | Voice model generation device, method and program |
WO2017149866A1 (en) * | 2016-02-29 | 2017-09-08 | ソニー株式会社 | Information processing device, information processing method, and program |
KR20190131806A (en) * | 2018-05-17 | 2019-11-27 | 서울시립대학교 산학협력단 | Voice recognition system for detecting spoofing in speaker voice authentication service |
WO2020071213A1 (en) * | 2018-10-05 | 2020-04-09 | 日本電信電話株式会社 | Acoustic model learning device, voice synthesis device, and program |
KR20200134868A (en) * | 2019-05-24 | 2020-12-02 | 서울시립대학교 산학협력단 | Speech synthesis device and speech synthesis method |
KR20220065343A (en) * | 2020-11-13 | 2022-05-20 | 서울시립대학교 산학협력단 | Apparatus for simultaneously performing spoofing attack detection and speaker recognition based on deep neural network and method therefor |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060229876A1 (en) * | 2005-04-07 | 2006-10-12 | International Business Machines Corporation | Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis |
JP2006293026A (en) * | 2005-04-11 | 2006-10-26 | Oki Electric Ind Co Ltd | Voice synthesis apparatus and method, and computer program therefor |
JP2007004011A (en) * | 2005-06-27 | 2007-01-11 | Nippon Telegr & Teleph Corp <Ntt> | Voice synthesizier, method, and program, and its recording medium |
JP2007025042A (en) * | 2005-07-13 | 2007-02-01 | Nippon Hoso Kyokai <Nhk> | Speech synthesizer and speech synthesis program |
JP2007193139A (en) * | 2006-01-19 | 2007-08-02 | Toshiba Corp | Voice processing device and method therefor |
JP2010128103A (en) * | 2008-11-26 | 2010-06-10 | Nippon Telegr & Teleph Corp <Ntt> | Speech synthesizer, speech synthesis method and speech synthesis program |
-
2010
- 2010-12-28 JP JP2010292223A patent/JP5411845B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060229876A1 (en) * | 2005-04-07 | 2006-10-12 | International Business Machines Corporation | Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis |
JP2006293026A (en) * | 2005-04-11 | 2006-10-26 | Oki Electric Ind Co Ltd | Voice synthesis apparatus and method, and computer program therefor |
JP2007004011A (en) * | 2005-06-27 | 2007-01-11 | Nippon Telegr & Teleph Corp <Ntt> | Voice synthesizier, method, and program, and its recording medium |
JP2007025042A (en) * | 2005-07-13 | 2007-02-01 | Nippon Hoso Kyokai <Nhk> | Speech synthesizer and speech synthesis program |
JP2007193139A (en) * | 2006-01-19 | 2007-08-02 | Toshiba Corp | Voice processing device and method therefor |
JP2010128103A (en) * | 2008-11-26 | 2010-06-10 | Nippon Telegr & Teleph Corp <Ntt> | Speech synthesizer, speech synthesis method and speech synthesis program |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014066916A (en) * | 2012-09-26 | 2014-04-17 | Brother Ind Ltd | Sound synthesizer |
JP2014134730A (en) * | 2013-01-11 | 2014-07-24 | Nippon Telegr & Teleph Corp <Ntt> | Fundamental frequency model parameter estimation device, method and program |
JP2014228580A (en) * | 2013-05-20 | 2014-12-08 | 日本電信電話株式会社 | Voice model generation device, method and program |
WO2017149866A1 (en) * | 2016-02-29 | 2017-09-08 | ソニー株式会社 | Information processing device, information processing method, and program |
KR20190131806A (en) * | 2018-05-17 | 2019-11-27 | 서울시립대학교 산학협력단 | Voice recognition system for detecting spoofing in speaker voice authentication service |
KR102069135B1 (en) | 2018-05-17 | 2020-01-22 | 서울시립대학교 산학협력단 | Voice recognition system for detecting spoofing in speaker voice authentication service |
WO2020071213A1 (en) * | 2018-10-05 | 2020-04-09 | 日本電信電話株式会社 | Acoustic model learning device, voice synthesis device, and program |
JP2020060633A (en) * | 2018-10-05 | 2020-04-16 | 日本電信電話株式会社 | Acoustic model learning device, voice synthesizer and program |
JP7125608B2 (en) | 2018-10-05 | 2022-08-25 | 日本電信電話株式会社 | Acoustic model learning device, speech synthesizer, and program |
KR20200134868A (en) * | 2019-05-24 | 2020-12-02 | 서울시립대학교 산학협력단 | Speech synthesis device and speech synthesis method |
KR102273147B1 (en) * | 2019-05-24 | 2021-07-05 | 서울시립대학교 산학협력단 | Speech synthesis device and speech synthesis method |
KR20220065343A (en) * | 2020-11-13 | 2022-05-20 | 서울시립대학교 산학협력단 | Apparatus for simultaneously performing spoofing attack detection and speaker recognition based on deep neural network and method therefor |
KR102436517B1 (en) | 2020-11-13 | 2022-08-24 | 서울시립대학교 산학협력단 | Apparatus for simultaneously performing spoofing attack detection and speaker recognition based on deep neural network and method therefor |
Also Published As
Publication number | Publication date |
---|---|
JP5411845B2 (en) | 2014-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
JP5665780B2 (en) | Speech synthesis apparatus, method and program | |
JP5411845B2 (en) | Speech synthesis method, speech synthesizer, and speech synthesis program | |
US7603278B2 (en) | Segment set creating method and apparatus | |
JP5768093B2 (en) | Speech processing system | |
US7996222B2 (en) | Prosody conversion | |
JP6266372B2 (en) | Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method, and program | |
JP6342428B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
US20100057435A1 (en) | System and method for speech-to-speech translation | |
JP5148026B1 (en) | Speech synthesis apparatus and speech synthesis method | |
JP2007249212A (en) | Method, computer program and processor for text speech synthesis | |
JP4586615B2 (en) | Speech synthesis apparatus, speech synthesis method, and computer program | |
EP4266306A1 (en) | A speech processing system and a method of processing a speech signal | |
JP6013104B2 (en) | Speech synthesis method, apparatus, and program | |
JP2016151736A (en) | Speech processing device and program | |
JP4247289B1 (en) | Speech synthesis apparatus, speech synthesis method and program thereof | |
JP5320341B2 (en) | Speaking text set creation method, utterance text set creation device, and utterance text set creation program | |
Sharma et al. | Polyglot speech synthesis: a review | |
JP6523423B2 (en) | Speech synthesizer, speech synthesis method and program | |
JP3091426B2 (en) | Speech synthesizer with spontaneous speech waveform signal connection | |
JP2014095851A (en) | Methods for acoustic model generation and voice synthesis, devices for the same, and program | |
JP2005181998A (en) | Speech synthesizer and speech synthesizing method | |
Huang et al. | Hierarchical prosodic pattern selection based on Fujisaki model for natural mandarin speech synthesis | |
JP6479637B2 (en) | Sentence set generation device, sentence set generation method, program | |
Hirose | Modeling of fundamental frequency contours for HMM-based speech synthesis: Representation of fundamental frequency contours for statistical speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130828 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130903 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131001 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131029 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131108 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5411845 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |