JP2009282330A

JP2009282330A - 音声認識及び合成システム、プログラム及び方法

Info

Publication number: JP2009282330A
Application number: JP2008134759A
Authority: JP
Inventors: Takateru Tachibana; 隆輝立花; Masafumi Nishimura; 雅史西村; Shechtman Slava; スラヴァ・シェヒトマン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2008-05-22
Filing date: 2008-05-22
Publication date: 2009-12-03
Anticipated expiration: 2028-05-22
Also published as: JP5294700B2

Abstract

【課題】声調の大きな変化を伴う言語における高精度な音声認識及び自然な合成音声出力のための方法、手段及びプログラムを提供する。
【解決手段】音声素片の始点及び終点のＦ０を線形近似又は大局的にスムージングする方法を用い、Ｆ０傾きを観測して統計モデルを学習し、ランタイムにおいてもＦ０傾きを評価し、コスト計算に基づいてＦ０を修正した合成音声を出力する。音節内のＦ０傾きの時間変化は、音節内を適宜等分して各領域ごとに決定木を学習してモデル化する。観測したＦ０傾きに誤差範囲を想定して尤度を評価する。これらを連携させることにより、高精度な音声認識及び自然な声調の合成音声出力が可能になる。
【選択図】図１

Description

本発明は、コンピュータ処理によって音声を認識し、並びに合成するための音声認識技術及び音声合成技術に関し、特に声調や高低アクセントを正確に認識し、並びに合成するための技術に関する。

音声合成の技術分野において、正確で自然に聴こえる周波数で音声を合成することは重要である。特に、日本語を含むアジア言語の多くは、声調や高低アクセントを用い、周波数により単語の意味を変える場合があり、基本周波数（以下、Ｆ０と表記し、「エフゼロ」と呼称、Ｆは周波数frequencyを表す変数名）の制御の重要性は特に高い。日本語の場合は音節ごとに高低アクセントが与えられているので、正確な日本語の表現のためには音節間のＦ０の関係が必要である。北京語や広東語の場合には音節間の関係に加え、音節ごとに１つの声調を持っているので、音節内でＦ０が規則的に変化する必要がある。

図１４に、発明者らが標本化した日本語と北京語のＦ０カーブを例示する。横軸はおよその音節番号、縦軸はＦ０を表す。図１４（ａ）は日本語の、図１４（ｂ）は北京語の、およその音節番号と対応させたＦ０の変化である。日本語及び北京語はいずれも発声の期間中において周波数が上下する共通点を有する。さらに、日本語においては句単位で、北京語においては音節内で、それぞれのＦ０が変化するという差異がある。

図１５に、北京語の４通りの声調を例示する。これら４通りの声調は、Ｆ０の時間変化が異なる単一の音節として識別され得る。例えば、図１６に示すように、発音記号２２０を［ｐｉ］で表し得る漢字は、第一声２２１乃至第四声２２４の声調に依存して、「批」、「皮」、「匹」、「辟」のそれぞれが識別される（非特許文献１参照）。

図１７に、広東語の６通りの声調を例示する。これら６通りの声調は、Ｆ０及びＦ０の時間変化が異なる単一の音節として識別され得る。例えば、発音記号［ｓｉ］で表し得る漢字は、第一声から第六声の声調により、「詩」、「史」、「試」、「時」、「市」、「事」のそれぞれ（２３０乃至２３５）が識別される（非特許文献２参照）。

従来、語又は文章を音声合成する装置において、単語又は句の音節単位に個別の回路を有する音声基本周波数パターン決定回路により、それぞれ音節の基本周波数の平均値及び音節内の基本周波数変化パターンを決定する装置が知られている（特許文献１参照）。

また、従来、上述のような特性を有する中国語において、音声合成のＦ０処理の手法が提案されている（非特許文献３及び４参照）。
特許第３３４４４８７号特願第２００７−２３２３９５号「発音口座、四声」、ジェイス株式会社、[online]、平成１８年、［平成２０年５月１３日検索］、インターネット（URL:http://chinese.typepad.jp/hatuonkouza/2006/02/post_520a.html）「広東語発音レッスン」、大阪朱友外語学院、［online］、平成２０年４月４日、［平成２０年５月１３日検索］、インターネット、（URL:http://www.shu-yu.co.jp/chugokugoc.html） Yujia Li、Tan Lee、Yao Qian、"Analysis and modeling of F0 contours for cantonese text-to-speech"、ACM Transactions on Asian Language Information Processing、第３巻、第３版、１６９−１８０ページ、２００４年９月 Xijun Ma、Wei Zhang、Weibin Zhu、Qin Shi、Ling Jin、"PROBABILITY BASED PROSODY MODEL FOR UNIT SELECTION"、Proc． ICASSP、カナダ、モントリオール、２００４年 John F． Pitrelli、R． Bakis、E． M． Eide、R． Fernandez、W． Hamza、M． A． Picheny、"The IBM expressive text-to-speech synthesis system for American English．"、IEEE Transactions on Audio，Speech & Language Processing、第１４巻（４）、１０９９−１１０８ページ、２００６年

従来技術に係る音声基本周波数パターン生成装置においては、音節の始点及び終点の各々１点のＦ０だけに基づいてモデル化を実施するため、１つの音節に１つの周波数が関連付けられる言語を処理し得るものの、これと異なる規則に従う周波数を有する言語はモデル化の対象でないという課題があった。具体的には、１つの音節内で複数回のＦ０上昇又は下降が発生し得る中国語等は想定されず、さらには前記音節よりも短い時間領域にを占める音声素片が複数接続された結果として生じる周波数も考慮されないという課題があった。
また、非特許文献１に記載の、広東語について典型的Ｆ０パターンを保存する手法等においては、音声合成ランタイムでは必ず音声素片の基本周波数をこのパターンに合わせて強制的に修正する必要があるために音質が悪化するという課題があった。また、非特許文献２に記載の、北京語について音節単位で波形を接続することにより音節内のＦ０モデル化の問題を回避する手法等においては、多様な音節の全種類を音声素片データベース（ＤＢ）に保存する必要があり、ＤＢのサイズを一定以上に削減することは期待できないという課題があった。すなわち、従来法及び従来法の組み合わせにおいては、音節内のＦ０パターンを統計的にモデル化するものではなかった。

本発明は、１つの音節よりも短い時間領域でＦ０が急激に変化する状況であっても、統計的にモデル化して音声素片のＦ０の尤度を評価することにより、少ない音声素片の組み合わせと少ないＦ０修正量で、正しい声調を表現できることを目的とする。具体的には、音声素片の始点及び終点を用いる線形近似により、Ｆ０傾きをモデル化する音声認識及び音声合成の方法を提供することを目的とする。
これにより、本発明は、音声合成のランタイムに先立ち記録しておく音声素片ＤＢのサイズ増大の問題を回避すると共に、音声合成ランタイムにおいて高い品質の音質を確保し得る、音声認識及び音声合成のシステム、プログラム及び方法を提供することを目的とする。

本発明者らは、日本語合成音声のアクセントの品質向上に効果がある、音声合成処理の方法及びシステムを出願し（特許文献２参照）、さらに当該出願に係る技術を見出したことにより、本発明を完成するに至った。

前述の課題を解決するため、本発明は、音声認識においてＦ０傾きを観測して統計モデルを作成し、音声合成においてＦ０傾きを観測した後にその尤度を計算して音声素片のＦ０に対してコストを求める。

本発明が用いる音声認識又は音声合成のための統計モデルにおいては、Ｆ０傾きを計算し、統計モデルの学習を実施する。これにより、本発明では、評価と学習の不一致によって尤度評価に誤差が生じることを防ぐ。そのＦ０傾きの計算方法には２種類がある。ひとつの方法は音声合成に用いる音声素片の始点と終点のＦ０を線形近似する方法である。従来技術ではランタイムのみにおいて用いた例があるが（特許文献２）、本発明では学習時にも用い得る特徴を有する。もう１つの方法は音声素片の始点、終点のＦ０を大局的にスムージングする方法である。さらに、Ｆ０傾きの統計モデルには決定木を用いてもよい。音節内のＦ０傾きの時間的変化を正確にモデル化するために音節内を４等分し、それぞれの領域ごとに別々に決定木を学習する。声調ごとにも決定木を分割してもよい。

また、本発明が用いる音声認識又は音声合成のための統計モデルにおいては、Ｆ０傾きの尤度の評価は、計算したＦ０傾きに、想定した誤差範囲を加味して、Ｆ０傾き範囲とし、そのＦ０傾き範囲の確率によって実施する。これにより、従来技術における確率密度の計算の場合に結果が１を超えてコスト計算を混乱させる問題を避けることが可能になる。Ｆ０傾きの尤度の評価は、イントネーション句（ポーズで隔たれた発話単位）の先頭の部分にある音声素片については行わないものとする。その部分では検討中の位置より前に十分な履歴がないためにＦ０傾きの計算を行っても不正確になるからである。無声子音である音声素片についてはＦ０傾き尤度の計算を省くか、又はＦ０傾き尤度からコストを計算するときに重みを小さくする。これは無声子音には周辺の有声音のＦ０からの補間によって、便宜上Ｆ０が与えられているが、そのＦ０には実質的な意味はないため、Ｆ０傾き尤度にも意味が乏しいからである。重みの変更さらには、予め計算しておいた音素環境の有声度を利用し得る。

本発明は、統計的手法を用いて音声素片をモデリングして記憶し利用する技術等の、既存の音声認識技術又は音声合成技術と組み合わせることができ、そのように組み合わせた技術もまた、本発明の技術範囲に含まれる。同様に、本発明の技法を含む音声処理システム、音声認識システム、音声合成システム等も、本発明の技術範囲に含まれる。さらに、本発明の技法は、音声認識又は音声合成のための諸段階を、ＦＰＧＡ（現場でプログラム可能なゲートアレイ）、ＡＳＩＣ（特定用途向け集積回路）、これらと同等のハードウェアロジック素子、プログラム可能な集積回路、又はこれらの組み合わせが記憶し得るプログラムの形態、すなわちプログラム製品として提供し得る。具体的には、音声入出力、データバス、メモリバス、システムバス等を備えるカスタムＬＳＩ（大規模集積回路）の形態として、本発明に係る音声処理装置を提供でき、そのように集積回路に記憶されたプログラム製品の形態も、本発明の技術範囲に含まれる。

本発明によれば、音声素片の始点及び終点を用いる線形近似により、Ｆ０傾きをモデル化する音声認識及び音声合成の方法を提供し得るという効果がある。これにより、本発明によれば、１つの音節よりも短い時間領域でＦ０が急激に変化する状況であっても、統計的にモデル化して音声素片の尤度を評価することにより、少ない音声素片の組み合わせと少ないＦ０修正量で、正しい声調を表現し得るという効果がある。さらに、本発明によれば、音声合成ランタイムに先立ち記録しておく音声素片ＤＢのサイズ増大の問題を回避すると共に、音声合成ランタイムにおいて高い品質の音質を確保し得る、音声認識及び音声合成のシステム、プログラム及び方法を提供し得るという効果がある。

以下、本発明の実施形態について図を参照しながら説明する。なお、これらはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。

［定義］
特に記載の無い限り、本願明細書に使用の用語は当技術分野における通常の意味を指す。本願明細書に使用の用語「音声素片」は「音声素片部分」又は「音声に含まれる音声素片の部分」と互換である。同様に、本願明細書に使用の用語「音節」は「音節部分」又は「音声に含まれる音節の部分」と互換である。本願明細書に使用の用語「Ｆ０」は「Ｆ０の値」と互換であり、コンピュータ計算可能な数値を含む。同様に、本願明細書に使用の用語「確率密度関数」は「確率密度関数の値」と互換でありコンピュータ計算可能な数値を含む。本願明細書に使用の用語「音声」は「音声データ」と互換であり、コンピュータ処理可能な音声データを含む。同様に、本願明細書に使用の用語「合成音声」は「合成音声データ」と互換であり、コンピュータ処理可能な合成音声データを含む。

［モデル化のフロー図］
図１は、本発明の一実施形態に係る、統計モデルを用いる音声素片のモデル化の諸段階の関係を示すフロー図である。図１は、さらに音声情報を記憶する音声コーパス５０、音声素片に係る波形データを記憶する音声素片波形データ６０を含む。

（学習）
本発明に係る統計モデルの学習の一実施形態において、本発明は、学習ステップ（ステップＳ１１０）を用い、音声コーパス５０から適宜音声情報を抽出し、本発明の音声素片のＦ０のモデル化のための学習を実施する。学習ステップＳ１１０の詳細は、図２を用いて後述する。なお、音声コーパス５０は予め用意された音声情報でもよく、端末装置等が適宜備えるマイクロホン等を用いて任意の時点において収集した音声情報等でもよい。この収集は、アニメーション、映画、ニュース放送等における音声の記録等を含む。

さらに、本発明に係るＦ０傾きのモデル化は、Ｆ０傾き計算ステップ（ステップＳ１２０）において、計算したＦ０傾きに基づき、本発明に係るＦ０傾きモデルの計算を実施する。Ｆ０傾き計算ステップＳ１２０の詳細は、図３を用いて後述する。

Ｓ１１０によって得られたＦ０傾きモデルは、後続の音声素片検索ステップ（ステップＳ１６０）又はＦ０評価・修正ステップ（ステップＳ１７０）において用いる。ステップＳ１６０及びステップＳ１７０は、さらに後続の音声素片接続ステップ（ステップＳ１８０）のための情報を出力する。

（分析及び保存）
本発明に係る統計モデルの分析又は保存の一実施形態において、本発明は、分析・保存ステップ（Ｓ１３０）を用い、音声コーパス５０から適宜音声情報を抽出し、音声素片の分析及び保存を実施する。具体的には、音声情報から音節を抽出し、当該音節を音声素片に分割する一方、それぞれの音声素片のＦ０、継続時間長、エネルギーや音色等の情報を分析し、それぞれの音声素片と関連付ける。分析・保存ステップＳ１３０は、分析又は保存の動作から得られる結果を音声素片波形データ６０に記憶する。

一実施形態において、音声素片検索ステップＳ１６０は、前述のＦ０傾き計算ステップＳ１２０において得られる計算結果を条件として、音声素片波形データ６０から当該条件に適合する音声素片を検索し得る。

別の実施形態において、Ｆ０評価・修正ステップＳ１７０は、前記音声素片検索ステップＳ１６０が検索した音声素片に対し、前述のＦ０傾き計算ステップＳ１２０において得られる計算結果に基づいて、当該音声素片のＦ０を評価して修正し得る。この修正は、例えば、音声素片を他の音声素片と接続した際に正しい声調を実現するためのＦ０の修正等において行われ得る。

本発明に係る統計モデルの分析又は保存の別の実施形態において、本発明は、テキスト入力ステップ（ステップＳ１４０）を用い、ユーザからのテキスト入力を受け付ける。具体的には、テキスト入力ステップは、コンピュータ端末装置が備えるキーボード又は手書き入力装置等を経由するユーザによる文字入力を、コンピュータ処理可能な文字コードの集まりとして受け付ける。例えば、ユーザがキーボード等を用いて入力した英字アルファベットの集まりである「ｋｏｔｏｂａ」という文字列等が受け付けられる。

次いで、本発明は、テキスト処理ステップ（ステップＳ１５０）において、前記コンピュータ処理可能な文字コードの集まりから、適宜、かな漢字変換、形態素解析、形式言語又は自然言語の単語、文節、文章等の分類等を実施し得る。例えば、前述の入力ステップＳ１４０において受け付けた英字アルファベットの文字列「ｋｏｔｏｂａ」に基づいて、テキスト処理ステップはこの文字列を「ことば」という複数の平仮名を連結した文字列に変換してもよく、「言葉」という単語に変換してもよく、当該単語が文法における体言に含まれることの情報又は格助詞を伴い得ることの情報等の文法に関連する情報を付加してもよく、この文字列を音節の単位として計数して「こ」「と」及び「ば」のそれぞれの音節の情報を付加してもよい。テキスト処理ステップＳ１５０の処理結果は、適宜音声素片波形データ６０を用いて記憶してもよい。

（音声合成）
本発明に係る統計モデルの音声合成の一実施形態において、本発明は、音声素片接続ステップ（ステップＳ１８０）を用い、前述の音声素片検索ステップＳ１６０が音声素片波形データ６０から検索し、さらに前述のＦ０評価・修正ステップＳ１７０が適宜修正を加えた少なくとも１の音声素片波形データを、音声合成のために所定の順序で接続する。音声素片波形データが１つのみの場合は、当該音声素片波形データを後続の合成音声出力ステップ（ステップＳ１９０）に引き渡してもよい、

次いで、本発明は、合成音声出力ステップ（ステップＳ１９０）において、接続された複数の音声素片波形データを、時間の経過を伴う音声信号として出力する。この出力は、端末装置が適宜備えるイヤホン、ヘッドホン、スピーカー等から音声として再生し得る。

これらの諸段階を協働することにより、本発明は、学習ステップＳ１１０及びＦ０傾き計算ステップＳ１２０を用いて音声コーパス５０から得られるＦ０傾きモデルの計算値を、音声コーパス５０又はテキスト入力Ｓ１２０から得られる音声素片波形データ６０に適用し、適宜Ｆ０評価・修正ステップＳ１７０を用いてＦ０を修正し、音声素片接続ステップＳ１８０を用いて複数の音声素片を所定の順序で接続することにより、合成音声出力ステップＳ１９０のための合成音声の情報を生成し得る。

本発明においては、Ｆ０傾き計算ステップＳ１２０において得られる計算値に基づいて、音声素片検索ステップＳ１６０が音声素片波形データ６０を検索することにより、特定の音声素片との接続が適切である音声素片を優先して検索するための情報が得られる。さらに、本発明においては、Ｆ０傾き計算ステップＳ１２０において得られる計算値に基づいて、Ｆ０評価・修正ステップＳ１７０が音声素片のＦ０を評価し修正することにより、複数の音声素片を接続して生成する合成音声における声調の不自然さを回避し、精度が高く自然な声調の合成音声を得られる。

［学習ステップＳ１１０］
図２は、本発明の一実施形態に係る、学習ステップＳ１１０を例示する機能ブロック図である。学習ステップＳ１１０は、音声素片情報受付ステップＳ１１２、有声度テーブル作成ステップＳ１１４、学習用データ作成ステップＳ１１５、決定木学習ステップＳ１１６、ＧＭＭ構築ステップＳ１１７等を適宜含む。Ｆ０傾き計算ステップＳ１２０の詳細は図３を用いて後述する。さらに、学習ステップＳ１１０は、音声コーパス５０に記憶された音声情報、言語処理ステップＳ１４２又は音声処理ステップＳ１４４が処理した言語情報又は音声情報を、音声素片に分割し、音声素片情報受付ステップＳ１１２を用いて受け付ける。当該言語情報は、前述のテキスト入力ステップＳ１４０及びテキスト処理ステップＳ１５０により処理され得る、テキストに関連する情報を含んでもよい。当該音声情報は音声コーパス５０に記憶し得る形式の音声情報でもよい。

音声素片情報受付ステップＳ１１２は、音声素片に分割された音声を入力として受け付ける。この分割は、音声コーパス５０、言語処理ステップＳ１４２又は音声処理ステップＳ１４４に含めてもよく、音声素片情報受付ステップＳ１１２が実施してもよい。音声情報から音声素片への分割は、当技術分野に公知の手法を適宜用い得る。音声素片情報受付ステップＳ１１２は、受け付けた音声素片に対して、少なくとも音声素片Ｆ０情報８２、音声素片時間情報８３、及び音声素片言語情報８４のそれぞれの情報を生成し、適宜記憶し得る。音声素片Ｆ０情報８２は音声素片の始点及び終点、並びに音声素片内のＦ０の情報を含み、音声素片時間情報８３は音声素片の時間の長さを含み、音声素片言語情報８４は品詞、単語境界、声調、文の種類の識別子等を含み得る。

有声度テーブル作成ステップＳ１１４は、音声素片情報受付ステップＳ１１２が受け付けた音声素片に含まれる有声成分に関連する情報を、適宜有声度テーブル８５を用いて記憶する。具体的には、音声素片中の有声成分の比率、又は有声成分が含まれる音声素片の部分等であり、有声度テーブル８５の形式は特に問わない。

学習用データ作成ステップＳ１１５は、音声素片情報受付ステップＳ１１２が受け付けた音声素片ごとに学習用データ８６を記憶する。学習用データ８６の入力変数は、音声素片の音節内における位置、当該音声素片が含まれる音節や単語や句の位置、当該音節の声調、文の種類（疑問文、平叙文等）、音素の種類等を適宜含む。学習用データ８６の出力変数はＦ０傾きであり得る。音節内位置や声調の個々の値ごとに決定木を分けて学習する場合は、音節内位置や声調を入力変数に含まなくてもよい。また、図３を用いて後述するＦ０傾き計算１２０の出力は、学習用データ８６の一部でありうる。

決定木学習ステップＳ１１６は、前述の学習用データ作成ステップＳ１１５が作成した学習用データ８６を用いて、決定木に含まれ得る統計モデルの複数のパラメータを個々に算出し、適宜決定木８７に記憶する。具体的には、特定の音声素片に含まれる句の位置等の文法に関連する情報、音素の種類等の音声に関連する情報、Ｆ０傾き等に基づいて、決定木の分岐に関する情報を適宜記憶する。決定木の詳細は、図６を用いて後述する。

ＧＭＭ構築ステップＳ１１７は、前述の決定木学習ステップＳ１１６で作成された決定木の各末端ノードごとに処理を行う。すなわち、まず学習用データ８６を末端ノードに振り分け、次に各末端ノードごとに、ノードに振り分けられた学習用データに含まれるＦ０傾きをモデル化する混合ガウス分布（ＧＭＭ）を作成する。こうして得られたＧＭＭモデルのパラメータは、適宜ＧＭＭパラメータテーブル８８に記憶する。具体的には、特定の音声素片について、Ｆ０傾きの確率密度関数を表し得る情報を算出して記憶する。ＧＭＭの作成は、ＥＭ（Expectation Maximization）アルゴリズムを利用する当技術分野に公知の手法を用いる。

記憶部５２は、これらの諸段階及び後続のＦ０傾き計算ステップＳ１２０から得られる、特定の音声素片に対する時間情報、Ｆ０情報、言語情報、有声度、学習用データ、決定木、ＧＭＭパラメータテーブル、Ｆ０傾き等の情報を適宜記憶する。図２においては、記憶部５２をＦ０傾き計算ステップＳ１２０の出力先として示したが、これに限らず、記憶部５２は上述の任意のデータ又はテーブルに含まれる任意のデータ適宜記憶してよい。

本発明の学習ステップＳ１１０は、上述の諸段階を実施することにより、特定の音声素片又は複数の音声素片のＦ０傾き、個々の音声素片に含まれる特徴量と関連づけられる決定木の情報、ＧＭＭパラメータ等の特徴量を生成して記憶し得る。

［Ｆ０傾き計算ステップＳ１２０］
図３は、本発明の一実施形態に係る、Ｆ０傾き計算ステップＳ１２０を例示するフロー図である。Ｆ０傾き計算ステップＳ１２０は、統計モデルの学習に用いるＦ０傾きを音声素片ごとに観測する。Ｆ０傾き計算ステップＳ１２０の出力は、図２を用いて前述した学習用データ８６の一部である。

一実施形態において、本発明に係るＦ０傾き計算ステップＳ１２０は、音声素片終点におけるＦ０情報受付ステップＳ１２１において、各音声素片の終点におけるＦ０の値を受け付ける。このステップにおいて、Ｆ０から対数Ｆ０を求めうる。この入力は、前述の記憶部５２に記憶された情報に含まれてもよい。

次いで、本発明に係るＦ０傾き計算ステップＳ１２０は、間隔Ｔｆ内の音声素片を列挙するステップＳ１２２において、前記終点から予め決められた間隔Ｔｆだけさかのぼる範囲に終点が含まれる音声素片を列挙する。予め決められた間隔Ｔｆとは、言語や話速により異なるが、具体的には０．１秒〜０．２秒程度、典型的には０．１５秒程度である。これらの値に限らず、Ｔｆの値は適宜設定し得る。Ｔｆを０．１５秒として音声素片を列挙する例は、図４を用いて後述する。

次いで、本発明に係るＦ０傾き計算ステップＳ１２０は、線形近似ステップＳ１２３において、前記終点から間隔Ｔｆに含まれる、少なくとも１の前記音声素片の終点の対数Ｆ０を線形近似する直線を求める。詳細は図５を用いて後述する。この直線の傾きはＦ０傾きとして、後続のステップにおいて用いる。

次いで、本発明に係るＦ０傾き計算ステップＳ１２０は、考慮中の音声素片の音節内位置を求めるステップＳ１２４を実施する。詳細は図５を用いて後述する。具体的には、この音節内位置は、時間領域において特定の音節の始点から終点までの期間を４等分し、現在考慮中の音声素片終点がこれらの４つの小区間のどれに含まれるかを示す１から４までの整数値である。ただし考慮中の音声素片がイントネーション句の先頭にあり、その終点からイントネーション句頭までの時間間隔がＴｆに満たない場合には、Ｆ０傾きを計算せず、当該音声素片を統計モデルの学習には用いないものとする。

本発明に係るＦ０傾き計算ステップＳ１２０の計算結果は、再び記憶部５２を用いて記憶してもよく、サーバ装置等のメモリを介して後続の諸段階に引き渡してもよく、適宜設定し得る。これらの計算により、本発明においては、考慮中の音声素片が含まれる音節内の小区間を特定し、Ｆ０傾きを線形近似するための情報を得られる。

［音節中の観測点及び分割した小区間］
図４は、本発明の一実施形態に係る、音節中の観測点及び分割した小区間を示す図である。これは、図３に示した、考慮中の音声素片の音節内位置を求めるステップＳ１２４の一実施形態である。図４においては、横軸は時間、縦軸は音圧のそれぞれを表す。音圧の形式は特に限定しないが、好適には、音声を変換して得られた交流信号を標本化して得られる浮動小数等の、符号付き数値である。図４に例示する波形、すなわち音声信号３０１は、音声周波数領域において標本化された通話等の音圧を時間に対してプロットしたものであり、音節３１０は音声信号３０１に含まれる１つの音節であり得る。

一実施形態において、音節３１０は、音節の始点３０５及び音節の終点３０６を含む。これらの音節の始点３０５及び音節の終点３０６は、音声信号から音節を抽出又は分割する、当技術分野に公知の手法を適宜用いて定義され得る。

本発明に係る音節中の観測点及び分割した小区間は、音節３１０を予め定められた数に分割して定義され得る。例えば、音節３１０を時間の長さにおいて４等分し、小区間１（３１１）、小区間２（３１２）、小区間３（３１３）及び小区間４（３１４）が作成される。小区間１（３１１）の始点は音節の始点３０５と同時刻でもよく、小区間４（３１４）の終点は音節の終点３０６と同時刻でもよい。

一実施形態において、音声信号３０１は、当技術分野に公知の手法を適宜用いて音声素片に分割され得る。具体的には、音声信号３０１に含まれ得る音声素片の分割点３３１、３３２、３３３、３３４、３３５、３３６、３３７、３３８、３３９等が抽出され得る。これにより、例えば音声素片３２１等の、音声信号３０１に含まれる少なくとも１の音声素片が見出され得る。さらに、それぞれの音声素片は、当技術分野に公知の手法を適宜用いてＦ０の情報が関連付けられ、図２を用いて前述の音声素片Ｆ０情報８２等に適宜記憶され得る。

一実施形態において、音声素片の分割点３３１〜３３９は、それぞれが含まれる音節３１０を分割した小区間と関連付けられる。図４の例においては、音声素片の分割点３３１、３３２及び３３３は小区間１（３１１）と関連付けられ、音声素片の分割点３３４及び３３５は小区間２（３１２）と関連付けられ、音声素片の分割点３３６及び３３７は小区間３（３１３）と関連付けられ、並びに音声素片の分割点３３８及び３３９は小区間４（３１４）と関連付けられ得る。

本発明に係る音節中の観測点及び分割した小区間においては、音節３１０を時間領域において分割して設定した小区間１（３１１）〜小区間４（３１４）は、Ｆ０傾きの学習に用い得る。具体的には、図２を用いて前述の決定木８７、ＧＭＭパラメータテーブル８８等を、それぞれの小区間ごとに設定し得る。

本発明に係る音節中の観測点及び分割した小区間においては、音声信号３０１に基づいて分割した音声素片のそれぞれを、音節３１０を分割した小区間１（３１１）〜小区間４（３１４）に関連付け得る。これにより、本発明は、音声信号３０１に含まれる１の音声素片に対して、音声素片Ｆ０情報８２、音声素片時間情報８３及び音声素片言語情報８４を用意し、学習及びランタイムにおけるＧＭＭモデル計算のために用い得る。

［Ｆ０線形近似の例］
図５は、本発明の一実施形態に係る、Ｆ０の線形近似を例示する図である。図５においては、横軸は時間を、縦軸は対数周波数を表す。横軸の時間は、特定の音声素片の終点を基準として、所定の長さのさかのぼった時間を左向きに負の数値として示す。縦軸の対数周波数は、少なくとも１の音声素片に含まれる、音声素片のＦ０の値を対数スケールで示す。本発明に係るＦ０の線形近似は、計算対象の音声素片を抽出する手順、並びに抽出した音声素片を用いてＦ０を線形近似する手順を含む。

まず、計算対象の音声素片を抽出する手順を説明する。一実施形態において、本発明に係るＦ０の線形近似は、考慮中の音声素片４４０の終点を横軸の原点とし、所定の長さのさかのぼった時間を左向きに負の数値として含む。例えば、当該所定の長さは０．１５秒等であり、考慮中の音声素片から０．１５秒さかのぼった区間４５０が定義され得る。当該所定の長さは例示のためのみであり、これに限定しない。さらに、本発明に係るＦ０の線形近似は、当該定義した、考慮中の音声素片から０．１５秒さかのぼった区間４５０に含まれる少なくとも１の音声素片を抽出し得る。抽出された音声素片には、図４を用いて前述のように、図４における音声素片の分割点３３１〜３３９がそれぞれの音声素片に関連付けられる。これらの音声素片の時間領域における情報は、図２において前述のように音声素片時間情報８３等として記憶される。

図４を用いて前述のように、それぞれの音声素片が有する時間の長さは、各々の音声素片に依存し得る。従って、考慮中の音声素片から０．１５秒さかのぼった区間４５０に一部でも含まれる音声素片があれば、その音声素片は当該区間に含まれる音声素片として扱ってもよい。例えば、考慮中の音声素片の終点の時刻を基準として、（−）０．１６５秒から（−）０．１４８秒の時間に存在する音声素片は、考慮中の音声素片から０．１５秒さかのぼった区間４５０に含まれる。

次いで、抽出した音声素片を用いてＦ０を線形近似する手順を説明する。本発明に係るＦ０の線形近似においては、図２を用いて前述の音声素片時間情報８３を用い、考慮中の音声素片から０．１５秒さかのぼった区間４５０の範囲中に、少なくとも１の音声素片境界４１０を設定し得る。さらに本発明に係るＦ０の線形近似においては、図２を用いて前述の音声素片Ｆ０情報８２を用い、考慮中の音声素片から０．１５秒さかのぼった区間４５０の範囲中における音声素片のＦ０（４２０）を、時間に対する対数周波数の変化として見出し得る。この音声素片のＦ０（４２０）の形式は、音声素片境界４１０のそれぞれにおける１の数値でもよく、時間領域における連続量でもよく、特に問わない。好適には、音声素片のＦ０（４２０）の形式は、個々の音声素片境界４１０における１の数値である。

一実施形態において、本発明に係るＦ０の線形近似においては、個々の音声素片境界４１０の時刻における音声素片のＦ０（４２０）の対数周波数の値に基づき、音声素片のＦ０（４２０）を線形近似することにより、近似直線４３０が得られる。当該線形近似には、最小２乗法、１次回帰等の公知の計算手法を用い得る。別の実施形態において、本発明に係るＦ０の線形近似においては、標本化された任意の音声素片のＦ０（４２０）の対数周波数の値に基づき、音声素片のＦ０（４２０）を線形近似することにより、近似直線４３０が得られる。

本発明に係るＦ０の線形近似においては、特定の音声素片の終点を基準として、所定の長さのさかのぼった区間に含まれる少なくとも１の音声素片を抽出し、Ｆ０の変化を時間に対する対数周波数とし、当該区間におけるＦ０の時間変化を線形近似し得る。これにより、本発明においては、特定の音声素片の直前の時間におけるＦ０の時間変化の情報を、自動的に当該音声素片に関連付けることが可能になる。

［決定木］
図６は、本発明の一実施形態に係る、統計モデルに用いる決定木とＧＭＭモデルの関係を例示する図である。決定木４５５は、１の音声素片を入力とし、複数の分岐及びノードを含む。決定木４５５は、本発明に係る統計モデルの学習ステップにおいて、音声コーパス５０等を用い、決定木８７及びＧＭＭパラメータテーブル８８を作成するために用いられる。

一実施形態において、決定木４５５は、３段階の分岐及びノードを含み、それぞれのノードごとにＧＭＭ（４９０）をＦ０傾きの確率密度関数として算出し得る。例えば、決定木４５５は、第１の階層４５１として、入力された音声素片が文の先頭に属するか否かを判定する分岐を含む。さらに、決定木４５５は、第２の階層４６１及び４６２として、入力された音声素片が含まれる言葉又は文脈の文法に関連する情報として、当該音声素片が含まれる用語の品詞が名詞であるか否かの分岐（４６１）及び当該音声素片が含まれる文脈が疑問文であるか否かの分岐（４６２）等を含む。さらに、決定木４５５は、第３の階層４７１乃至４７４として、入力された音声素片が含まれる文脈の単語数が４を超えるか否かの分岐（４７１）、入力された音声素片が含まれる音節の声調が北京語の「声調２」であるか否かの分岐（４７２）、同様に「声調３」であるか否かの分岐（４７３）、入力された音声素片の音節における位置が図４を用いて前述の小区間１（３１１）であるか否かの分岐（４７４）等を含む。これらの分岐にはそれぞれ論理的な真又は偽の判定と対応して、上位の階層から下位の階層への関連付けが予め定義され得る。第３の階層４７１乃至４７４による分岐には、ノード１（４８１）乃至ノード８（４８８）のそれぞれが関連付けられる。

一実施形態において、決定木４５５の入力は、図２を用いて前述の学習ステップＳ１１０において、音声コーパス５０等に記憶された音声情報から作成された学習用データ８６であり得る。例えば、学習用データ８６に含まれる１の音声素片について、その音声素片の音声素片情報に基づいて決定木４５５を用いることにより、当該音声素片が分類されるノード１（４８１）乃至ノード８（４８８）のうちの１つのノードが求められ得る。この処理を複数の音声素片に対して繰り返し実施し、全ての音声素片がノードのいずれかに分類される。音声素片のそれぞれは、図５を用いて前述の、Ｆ０傾きを表す近似直線４３０の情報等が関連付けられうるので、当該処理の結果として、決定木４５５の末端のノード１（４８１）乃至ノード８（４８８）には、それぞれのノードごとにＦ０傾きの値の集合が累積される。当該累積によって得られたＦ０傾きの値の分布を確率分布と考えれば、ノードごとにＦ０傾きの確率密度分布を想定できる。この分布をそれぞれＧＭＭ（４９０）でモデル化する。

本発明に係る統計モデルにおいては、Ｆ０傾きの情報を有する音声素片を入力として、決定木４５５を用意し、複数の音声素片を分類することにより、決定木４５５の末端の各ノードごとにＧＭＭ（４９０）を学習し得る。

［音声素片検索ステップ］
図７は、本発明の一実施形態に係る音声合成ランタイムにおける、音声素片検索ステップＳ１６０を例示する機能ブロック図である。音声素片検索ステップＳ１６０は、音声素片の取り出しステップＳ１６２、音声素片情報の収集ステップＳ１６４、コスト計算ステップＳ１６６、コスト最小音声素片検索ステップＳ１６８等を含む。既述のステップ等の説明は省略する。

本発明に係る音声合成ランタイムにおいて、所定の音声素片を音声合成のために用いる場合に、音声素片検索ステップＳ１６０は、音声素片の取り出しステップＳ１６２を用い、音声素片波形データ６０に記憶された音声素片を取り出す。あるいは、音声素片の取り出しステップＳ１６２は、前述のテキスト処理ステップＳ１５０が出力し得るテキストに関連する情報を音声素片の取り出しのために用いてもよい。

次いで、本発明に係る音声素片検索ステップＳ１６０は、音声素片情報の収集ステップＳ１６４を用いて、取り出された音声素片の始点及び終点のＦ０情報、若しくは音声素片内のＦ０の情報、それらに基づき前述のＦ０傾き計算ステップＳ１２０が算出し得る音声素片ごとのＦ０傾き等を収集し得る。

次いで、本発明に係る音声素片検索ステップＳ１６０は、コスト計算ステップＳ１６６において、記憶部５２から読み出したＦ０傾きモデルに基づき、前記取り出されたＦ０傾きのコストを計算し得る。このコスト計算結果に基づいて、後続のコスト最小音声素片検索ステップＳ１６８はコストが最小となる音声素片を検索し抽出し得る。抽出された音声素片は、音声素片出力ステップＳ１６９により出力される。コスト計算の実施形態は、図９において後述する。

これらの動作により、本発明に係る音声合成ランタイムにおいては、コストを最小にする音声素片を選択して合成音声の出力のために用いることが可能になる。

［Ｆ０評価・修正ステップ］
図８は、本発明の一実施形態に係る、音声合成ランタイムにおける、Ｆ０評価・修正ステップＳ１７０を例示する機能ブロック図である。Ｆ０評価・修正ステップＳ１７０は、音声素片検索ステップ１６０によって選択した音声素片のＦ０を評価し、必要に応じて修正を行うその修正量を決定する。例えば、自然な声調を得るために、あるいは声調に依存して言葉の意味に誤りが発生することを避ける等の目的のために用い得る。本発明に係るＦ０評価・修正ステップＳ１７０は、Ｆ０修正量の仮定ステップＳ１７２、音声素片情報の収集ステップＳ１７４、コスト計算ステップＳ１７６、音声素片Ｆ０の修正ステップＳ１７８等を含む。既述のステップ等の説明は省略する。

本発明に係る音声合成ランタイムにおいて、Ｆ０評価・修正ステップＳ１７０は、音声素片波形データ６０に記憶された音声素片、若しくは、前述の音声素片検索ステップＳ１６０により取り出され、コストが最小となる条件に従って出力された音声素片を入力とし得る。コスト計算の実施形態は、図９において後述する。

一実施形態において、本発明に係るＦ０評価・修正ステップＳ１７０は、予め離散的に与えられた候補のリストの中から最適なＦ０修正量を、音声素片ごとに求める。その求める方法は、候補のリストの中からＦ０修正量を仮定し、仮定したＦ０修正量を音声素片のＦ０に適用し前後に接続したときに生じるＦ０傾きを計算し、それに対するコストを記憶部５２から読み出したＦ０傾きモデルに基づき計算し、計算されたコストが最小になるＦ０修正量を選択することによる。Ｆ０修正量の仮定ステップＳ１７２は、予め離散的に与えられた候補のリストの中から１つずつ順にＦ０の候補を取り出し、Ｆ０修正量の仮定とする。

次いで、本発明に係るＦ０評価・修正ステップＳ１７０は、音声素片情報の収集ステップＳ１７４を用い、Ｆ０修正量の仮定ステップＳ１７２が仮定したＦ０の修正量を含む音声素片情報、すなわち音声素片の始点及び終点のＦ０情報、それらをつないで近似直線を求めることによって生じるＦ０傾きの情報等を収集し得る。

次いで、本発明に係るＦ０評価・修正ステップＳ１７０は、コスト計算ステップＳ１７６を用い、前述のＦ０傾きモデルを用い、当該Ｆ０修正量のコストを計算し得る。このコスト計算の結果に基づいて、後続の音声素片Ｆ０の修正ステップＳ１７８は、コスト最小となるＦ０修正量を求め、元のＦ０に加えることによって修正後のＦ０を求める。さらに、修正した音声素片出力ステップＳ１７９は、Ｆ０修正を実施された音声素片を出力する。

これらの動作により、本発明に係る音声合成ランタイムにおいては、複数の音声素片を接続して用いる合成音声において、接続に伴うコストを最小にするよう自動的にＦ０を修正して音声素片を接続し、合成音声の出力のために用いることが可能になる。

以下の実施例は、本発明に係る統計モデルの利用の例示のためのみであり、本発明の範囲を限定するものではない。

［実施例１：ランタイムにおけるＦ０傾き尤度及びコスト］
図９は、本発明の一実施形態に係る、ランタイムにおけるＦ０傾きコスト算出を例示するフロー図である。図３を用いて前述の、学習ステップと共通するデータ等は説明を省略する。この計算は、任意の音声素片に対してＧＭＭパラメータを用意する手順と、具体的な音声素片のそれぞれに対する尤度及びコスト計算の手順とを含み得る。図９におけるＦ０傾きコスト計算ステップＳ１９８は、図７を示して前述の音声素片検索ステップＳ１６０に含まれるコスト計算ステップＳ１６６、並びに、図８を示して前述のＦ０評価・修正ステップＳ１７０に含まれるコスト計算ステップＳ１７６と共通でもよい。

また、図１０は、本発明の一実施形態に係る、Ｆ０傾きの確率密度関数を例示する図である。これは、上記のＦ０傾きコスト算出におけるＦ０傾き尤度、想定誤差、確率密度の関係を例示するものである。図１０は、ＧＭＭによって表現されたＦ０傾きの確率密度関数５０１として、特定の音声素片の、決定木４５５に含まれる任意のノードにおけるＦ０傾きの確率密度を表すものである。

まず、図９を用いて、ＧＭＭパラメータを用意する手順について説明する。本発明に係るランタイムにおけるＦ０傾きコスト算出において、決定木の入力特徴量作成ステップＳ１９１は、前述の学習ステップにおいて作成された音声素片時間情報８３及び／又は音声素片言語情報８４を用い、決定木の入力に用い得る音声素片の特徴量を作成する。具体的には、音声素片の時間の長さ、言語の種類等の文法情報等である。

決定木によるノード決定ステップＳ１９２は、学習ステップにおいて作成された決定木８７に含まれる特定の決定木に対して、ステップＳ１９１において作成された特徴量を組み合わせる。具体的には、特定の決定木に対し、入力された音声素片の時間の長さを条件として分岐する等の、ノードとしての動作が定義され得る。

ＧＭＭパラメータテーブル引用ステップＳ１９３は、学習ステップにおいて作成されたＧＭＭパラメータテーブル８８を用い、ステップＳ１９２により決定した決定木の分岐のそれぞれについて、ＧＭＭモデルの変数を割り当てる。具体的には、入力された音声素片が特定の決定木により分岐する場合に、当該分岐におけるＦ０傾きの確率密度関数を与えるためのＧＭＭパラメータが、ＧＭＭパラメータテーブル８８を参照して割り当てられる。このＧＭＭパラメータは、後続のＦ０傾き尤度計算ステップＳ１９７及びＦ０傾きコスト計算Ｓ１９８に用いられ得る。

次いで、具体的な音声素片のそれぞれに対する尤度及びコスト計算の手順について説明する。本発明に係るランタイムにおけるＦ０傾きコスト算出において、傾き計算（線形近似）ステップＳ１９６は、学習時に作成された、１の音声素片Ｆ０情報８２について、図５を用いて前述の線形近似を用いてＦ０傾きを計算し得る。この計算のための時間情報には、音声素片時間情報８３が用いられ得る。

Ｆ０傾き尤度計算ステップＳ１９７は、Ｆ０傾き尤度を算出する。考慮中のＦ０傾きをｇ_ｉとする。Ｆ０傾き計算の誤差として想定誤差Δｇ（９２）という、予め外部から与えた定数を想定するものとする。Ｆ０傾き尤度Ｌ_ｇ，ｉは次式（Ｉ）で求める。これはｇ_ｉを中心とする範囲の確率を台形近似で求めるものである。

ここでＰ（ｇ）は、Ｆ０傾きｇを変数とする確率密度関数である。Ｐ（ｇ）の計算は、まず音節内位置等の、決定木の入力変数を求め、それを入力として決定木を利用しＧＭＭパラメータを求め、そのパラメータで表現されるＧＭＭによってＦ０傾きｇを評価することで求める。

数式（Ｉ）の一態様は、図１０に示した例１（５１０）のように、特定のＦ０傾きを表す変数ｇに対して、想定誤差Δｇ（９２）を含む、［ｇ−Δｇ，ｇ］及び［ｇ，ｇ＋Δｇ］の区間を想定し、これらの区間を含む確率密度の積分値を、斜線部のように台形近似して算出し、これをＦ０傾き尤度Ｌ_ｇ，ｉの計算に用いる。このように、本発明に係るＦ０傾き尤度の計算は、想定誤差Δｇ（９２）を用いてＦ０傾き尤度Ｌ_ｇ，ｉを積分値として計算することにより、音声素片によってはＦ０傾きの狭い範囲に大きな確率密度が発生してＦ０傾き尤度Ｌ_ｇ，ｉの値が１を超える場合であっても、極端に大きな値がＦ０傾き尤度Ｌ_ｇ，ｉ及び後続のコスト計算に発生することを抑制し、学習及びランタイムにおけるプログラム動作等を安定化し得る。あるいは、逆に、本発明に係るＦ０傾き尤度の計算は、例２（５２０）のように確率密度が低い値を取るＦ０傾きの値に対しても、Ｆ０傾き尤度Ｌ_ｇ，ｉが極端に小さな値とはならないため、同様にＦ０傾き尤度Ｌ_ｇ，ｉ及び後続のコスト計算を安定化し得る。

一実施形態において、さらに、図９に示すＦ０傾きコスト計算ステップＳ１９８は、予め外部から与えた重み定数ｗ_ｇを用い、次式（ＩＩ）でコストＣ_ｇ，ｉを計算する。

ここで、Ｃ_ｇ，ｉは、考慮中の音声素片ｉについて、Ｆ０傾きｇを想定する場合のコストである。

別の実施形態において、数式（ＩＩ）で計算されるコスト値の範囲が、使用中の他のコストに比べて小さすぎるようであれば、数式（Ｉ）の対数計算をやめ、線形確率を利用してもよい。

さらに別の実施形態においては、音素環境の有声度ｒ_ｖを用いて次の数式（ＩＩＩ）でコストを計算した方が効果が高いこともあり得る。音素環境の有声度ｒ_ｖとは、０から１までの値をとる変数であり、音素環境によって決まり、同じ音素環境にあれば音声素片ｉに関わらず同じ値をとる。ここで音声素片の有声度を用いるのでなくて音素環境の有声度を用いるのは、音声素片の有声度を用いると、有声度の低い音声素片のコストが小さくなり選ばれやすくなってしまうからである。

音素環境の有声度は次のように予め計算しておく。すなわち、同じ音素環境（中心音素と前後ひとつあるいは複数個の音素の組み合わせ）にある音声素片のすべてについて、その時間長の和と有声区間時間長の和、有声区間時間長の和の総時間長に対する比率として、音素環境の有声度を計算する。

本発明に係るランタイムにおけるＦ０傾き尤度及びコスト算出は、学習時に作成した、音声素片に関するＦ０情報、時間情報及び言語情報を用い、ＧＭＭパラメータテーブルを用意する手順及びＦ０傾きコストを計算する手順を用意することにより、特定の音声素片がランタイム中に用いられることに対するＦ０傾きコストを自動的に算出し得る。これにより、高精度で自然な合成音声を生成するためのコスト計算を提供できる。

［実施例２：ランタイムにおけるＧＭＭパラメータの混合］
図９及び図１０を示した実施形態においては、１つの音節内位置に対応する１セットのＧＭＭパラメータによりＦ０傾き尤度を計算し得る。しかし、Ｆ０傾きを観測した音声素片の終点が、音節を４等分する小区間の境界付近に位置する場合には、その境界の両側のＧＭＭパラメータを用いて尤度を計算したほうが滑らかな傾きの変化を表現できることがある。

まず、そのような計算を実現するためには、当該音声素片の終点が位置する音節内位置と、その次に近い音節内位置を求める。それらそれぞれについて決定木を用いてＧＭＭパラメータを得る。当該終点の位置により混合比を決めて、２セットのＧＭＭパラメータを混合して新たな１セットのＧＭＭパラメータを得る。そうして得られたＧＭＭによってＦ０傾きの尤度を評価する。当該混合には、当該終点の位置に基づいて、より多くの音節素片の長さが属する領域のＧＭＭパラメータを強く反映するよう、公知の比例配分等の計算手法を用い得る。

本発明に係るランタイムにおけるＦ０傾き尤度及びコスト算出は、Ｆ０傾きを考慮する音節素片の終点が、音節の領域の境界線付近に位置する場合でも、ＧＭＭパラメータを混合することにより、滑らかなＦ０傾きの変化を取得し得る。これにより、本発明においては、高精度で自然な合成音声を生成するための情報が得られる。

［実施例３：スムージングを用いたＦ０傾きの計算］
実際のランタイム処理においては、音声素片を選択しＦ０修正を行った後に、Ｆ０の大局的なスムージングを行って最終的なＦ０値としてもよい。これは最終的にエンドユーザーの耳に届くＦ０であり得る。従って、スムージングで計算されるＦ０の傾きを評価し、修正することが最も望ましい。しかし実際には、スムージング時には各音素のＦ０を求めるときにその両端を計算に用いるのに対して、音声素片選択時やＦ０修正量計算時には文の先頭から処理をしていくので、最終的なスムージングとまったく同じ方法でＦ０傾きを評価するのは困難である。そのため、図５を用いて前述のように、線形近似の方法でＦ０傾きを求めている。もしスムージングに各音声素片の右側（時間的に後続）の情報を使用しない、あるいは、最終的なスムージングには両側を使うが尤度評価時には右側は使わないことにするのであれば、スムージングを用いたＦ０傾き評価も可能である。

スムージングを用いたＦ０傾き評価を行う場合、学習時には音声素片の始点Ｆ０・終点Ｆ０をスムージングする。これによってそれぞれの音声素片の始点Ｆ０・終点Ｆ０には前後の音声素片のＦ０の情報も含まれるようになる。各音声素片で始点Ｆ０と終点Ｆ０を用いてＦ０傾きを計算する。Ｔｆを使う必要はない。ランタイムでは、当該音声素片の左側（時間的に先行）の既に求まっている範囲のＦ０を使って、各音声素片の終点Ｆ０をスムージングする。当該音声素片の始点Ｆ０と終点Ｆ０を用いてＦ０傾きを計算する。ここでもＴｆを用いる必要はない。

一実施形態において、本発明に係るスムージングは、音声素片部分の始点又は終点におけるＦ０の値に対して、
（１）音声素片部分の直前の音声素片部分が存在する場合に当該直前の音声素片部分のＦ０の値を用いて始点におけるＦ０の値をスムージングしてもよく、
（２）音声素片部分の直後の音声素片部分が存在する場合に当該直後の音声素片部分のＦ０の値を用いて終点におけるＦ０の値をスムージングしてもよい。

一実施形態において、本発明に係るスムージングは、先行又は後続の音声素片が存在する場合にいずれか一方又は両方、若しくは複数の先行又は後続の音声素片を用い、任意の音声素片部分におけるＦ０の値をスムージングし得る。スムージングに用いる複数の音声素片は、予め定められた範囲に含まれるものから選びうる。例えば、特定の音声素片の直前又は直後の音声素片をスムージングに用いてもよく、時間領域をさかのぼる方向に含まれる２以上の音声素片をスムージングに用いてもよく、若しくは時間領域を０．１５秒さかのぼる範囲に含まれる音声素片をスムージングに用いてもよい。

一実施形態において、本発明に係るスムージングは、スムージング関数を用いて実施し得る。当該スムージング関数は時間を変数としてもよく、音声素片の時間方向に定義されるインデクス等を変数としてもよい。例えば、次式のようなスムージング関数を用い得るが、これに限定しない。

数式（ＩＶ）において、ｘは音声素片の時間方向に定義されるインデクス、ｎｕｍはスムージング後のＦ０、Δはスムージング区間、Ｆ０（ｘ）はスムージング前の音声素片ｘのＦ０、ｆ（ｘ）はスムージング関数であり、演算子「＊」はたたみ込み積分を表す。たたみ込み積分の定義域は、適宜、中断（トランケート）してもよい。Ｆ０（ｘ）の関数形は、例えば次式のような正規分布関数を用い得るが、これに限定しない。

数式（Ｖ）において、σはスムージングに用いる音声素片の範囲を定義するための定数、ｋは重み付けを定義するための定数、μは重み付けの中心を音声素片ｘに対して前後にシフトするための定数である。μは０でもよく、ｋは１でもよい。また、スムージング区間におけるスムージング関数の和を、次式に従い計算する。

数式（ＶＩ）において、ｄｅｎはスムージング区間におけるスムージング関数の和である。スムージング結果のＦ０の値は、次式から求められ得る。

数式（ＶＩＩ）において、ｓｍｏｏｔｈ＿ｆ０は、スムージング結果のＦ０の値である。

［実施例４：合成音声の自然さの評価］
従来、北京語において、各音節について３点のＦ０絶対値を決定木によって予測する方法が知られている（非特許文献５参照）。

本発明に係る統計モデルを用いる学習及び音声合成の実施例として、北京語話者２名を被験者として合成音声の自然さを評価し、上記の従来技術と比較した。

表１に、本発明の一実施形態に係る、合成音声の自然さの評価結果を示す。被験者は本発明及び従来法の各システムにつき５文ずつ試聴し、５段階で自然性の評点をつけた。評点には、自然性の高い順に「たいへん自然」「自然」「普通」「不自然」及び「たいへん不自然」の５段階を用いた。よって１システム当たり１０回答の実験結果となっている。これを、従来技術に係る非特許文献３に記載の、各音節について３点のＦ０絶対値を決定木によって予測する方法と比較した。ただし有声度及び異なる実施例（ＧＭＭ補間、スムージング）は使用していない。実験結果により、本発明に係る手法の方が自然性に優れていることが分かった。

［実施例５：音声認識装置］
図１１は、本発明の一実施形態に係る、音声認識装置を含む音声認識システムの機能の構成を示す図である。図１１に示す音声認識システム６００は、音声認識装置６０５及びデータベース装置８００を含み、マイクロホン１０３６、音響機器９８０、ネットワーク９９０等を適宜含む。音声認識装置６０５は、音声信号受付部６１０、音声信号分割部６１１、Ｆ０時間変化計算部６１２、メモリ６２０、表示装置６３０、Ｄ／Ａ変換６５０、通信装置６６０、共有メモリ６７０等を含む。音声信号受付部６１０の態様は、マイクロホン等からの音声信号を適宜増幅し、コンピュータ処理可能なディジタル信号に変換する、Ａ／Ｄ変換器等でもよい。音声信号分割部６１１及びＦ０時間変化計算部６１２の態様は、好適にはマイクロプロセッサ等の集積回路であり、これらは別個の回路でもよく、１のマイクロプロセッサを用いて実現してもよい。メモリ６２０の態様は磁気記憶媒体でもよく、電気的記憶媒体でもよく、適宜設計し得る。図１１には音声認識装置６０５及びデータベース装置８００を別個に示すが、これに限らず、両者を一体の構造としてもよい。データベース装置８００のシステムバス８１０には、適宜、図１に示した音声コーパス５０等の、磁気記憶媒体又は電気的記憶媒体等の任意の記憶手段を接続してもよい。

図１１において、マイクロホン１０３６付近で発生した音声は、マイクロホン１０３６によりアナログ信号として音声信号受付部６１０に入力され、コンピュータ処理可能なディジタル信号に変換される。音声信号分割部６１１は、音声信号受付部６１０が受け付けた音声信号を分割し、音声素片を得る。Ｆ０時間変化計算部６１２は、予め用意されたソフトウェア（図示せず）を用い、メモリ６２０等を適宜ワーキングエリアとして用い、本発明に係る学習ステップの諸段階を実施する。具体的には、音声素片の始点及び終点のＦ０を線形近似すること、又は前記音声素片の始点及び終点のＦ０を大局的にスムージングした後に当該音声素片の範囲内のＦ０の時間変化を計算することのいずれかにより、考慮中の音声素片ごとにＦ０の時間変化を計算する。音声信号分割部６１１及びＦ０時間変化計算部６１２の態様は、例えばマイクロプロセッサ等を用い、前記音声信号を入力として、本発明に係る統計モデルのためのＦ０傾き及びコスト計算の数値又は情報を得る諸段階を実施してもよい。また、Ｆ０時間変化計算部６１２は適宜入出力インタフェース（図示せず）を介して表示装置６３０に処理状況等を表示してもよい。図１１にはマイクロホン１０３６を音声認識装置６０５の外部に配置したが、マイクロホン１０３６及び音声認識装置６０５を一体の装置としてもよい。メモリ６２０は、図２に示した記憶部５２として動作させてもよい。

Ｆ０時間変化計算部６１２が処理した後のディジタル音声信号は、Ｄ／Ａ変換６５０によりアナログ信号に変換され、音響機器９８０等へ出力してもよい。これにより、音声認識後の音声信号が音響機器９８０等から出力される。また、Ｆ０時間変化計算部６１２が処理した後のディジタル音声信号は、通信装置６６０を介してネットワーク９９０に接続されてもよい。これにより、本発明に係る音声認識装置６０５の出力を他のコンピュータ資源において利用し得る。例えば、データベース装置８００等が通信装置８１５を介してネットワーク９９０に接続し、Ｆ０時間変化計算部６１２が処理した後のディジタル音声信号を利用してもよい。さらに、Ｆ０時間変化計算部６１２が処理した後のディジタル音声信号は、共有メモリ６７０を介し、他のコンピュータ・システム等からアクセス可能に出力されてもよい。具体的には、データベース装置８００に含まれるシステムバス８１０に接続し得る、デュアルポートメモリデバイス等を、共有メモリ６７０として用い得る。データベース装置８００に含まれるシステムバス８１０への共有メモリ６７０の接続は着脱可能でもよい。あるいは、システムバス８１０と共有メモリ６７０の間に、適宜、当技術分野に公知のホットプラグ可能なインタフェース等を介してもよい。これにより、本発明に係る音声認識装置６０５をポータブル機器として、又はポータブル機器に内蔵して、ユーザに提供し得る。

本発明の一実施形態に係る、音声認識システム６００は、音声認識装置６０５の全体又は一部を、ＦＰＧＡ（現場でプログラム可能なゲートアレイ）、ＡＳＩＣ（特定用途向け集積回路）、これらと同等のハードウェアロジック素子、又はプログラム可能な集積回路を用いて構成してもよい。例えば、音声信号受付部６１０、Ｆ０時間変化計算部６１２、Ｄ／Ａ変換６５０、通信装置６６０の各機能、及び音声認識のための諸段階をハードウェアロジック等により構成して内蔵し、音声入出力、データバス、メモリバス、システムバス、通信インタフェース等を備えるワンチップカスタムＬＳＩ（大規模集積回路）として提供してもよい。

一実施形態において、本発明に係る音声認識装置６０５のＦ０時間変化計算部６１２は、音声認識のための当技術分野に公知の機能を備えてもよい。別の実施形態において、本発明に係る音声認識装置６０５は、音声認識システム６００の内部に組み込まれ、音声認識システム６００が備えるプロセッサ（図示せず）を用いて音声認識のための諸段階を実行させてもよい。

本発明の音声認識システム６００を用いることにより、発話、音節又は音声素片等の、音声認識後の音声情報をアナログ音声信号又はディジタル信号として、音響機器、ネットワーク資源、又は音声認識システム等から利用できる。さらに、本発明の音声認識システム６００を用いることにより、本発明に係る統計モデルを用いてこれらの音声情報と関連付けられたＦ０傾き等の情報を、音響機器、ネットワーク資源、又は音声認識システム等から利用できる。

［実施例６：音声合成装置］
図１２は、本発明の一実施形態に係る、音声合成装置を含む音声合成システムの機能の構成を示す図である。図１２に示す音声合成システム７００は、音声合成装置７０５及びデータベース装置８００等を含み、Ａ／Ｄ変換６１４、Ｆ０時間変化評価部６１６、Ｆ０修正部６１７等を含む。図１１と共通する部分は説明を省略する。Ｆ０時間変化評価部６１６及びＦ０修正部６１７の態様は、好適にはマイクロプロセッサ等の集積回路であり、それぞれを独立した回路としてもよく、１のマイクロプロセッサを用いて両者の機能を実現してもよい。

図１２において、メモリ６２０は、前述のように、図２に示した記憶部５２として動作させてもよく、本発明に係る学習ステップの諸段階において抽出又は計算された音声情報等を記憶するために用い得る。Ｆ０時間変化評価部６１６は、本発明に係る音声合成の諸段階を用い、予め用意した複数の音声素片を接続して合成音声を生成する音声合成において、これらの複数の音声素片の始点及び終点のＦ０を線形近似するか、あるいは、音声素片の始点及び終点のＦ０を大局的にスムージングした後に当該音声素片内のＦ０の時間変化を計算するかのいずれかにより、音声素片ごとにＦ０の時間変化を評価する。Ｆ０修正部６１７は、この評価に基づいて合成音声のＦ０を修正する。これらの処理においては、適宜、メモリ６２０等を記憶媒体として用い得る。合成された音声は、Ｄ／Ａ変換６５０によりアナログ音声信号に変換され、音響機器９８０を介してユーザに話声等の形態の合成音声として提供される。

Ｆ０時間変化評価部６１６は適宜入出力インタフェース（図示せず）を介して表示装置６３０に処理状況等を表示してもよい。図１２には音響機器９８０を音声合成装置７０５の外部に配置したが、音響機器９８０及び音声合成装置７０５を一体の装置としてもよい。例えば、音響機器９８０は、音声合成装置７０５に内蔵されたスピーカ等を含んでもよく、外付けのイヤホン又はヘッドホン等を含んでもよい。本発明に係る音声合成装置７０５の出力がネットワーク９９０を介して他のコンピュータ資源において利用し得ること、本発明に係る音声合成装置７０５がポータブル機器としてユーザに提供され得ること、音声合成システム７００の全体又は一部を集積回路等を用いて実現し得ること等は、図１１を用いて説明した音声認識装置６０５と同様である。

一実施形態において、本発明に係る音声合成装置７０５は、音声認識装置６０５と共通の回路を用いて構成し得る。音声合成装置７０５としての機能及び音声認識装置６０５としての機能の切り替え等は、当技術分野における公知の技法を用い得る。

本発明の音声合成システム７００を用いることにより、合成された音声は、内蔵又は外付けの音響機器、ネットワーク資源、又は音声合成システム等から利用できる。さらに、本発明の音声合成システム７００を用いることにより、本発明に係る統計モデルを用いてこれらの音声情報と関連付けられたＦ０傾き等の情報を、音響機器、ネットワーク資源、又は音声合成システムから利用できる。

［音声認識・音声合成装置のハードウェア構成］
図１３は、本発明の一実施形態に係る、音声認識・音声合成装置のハードウェア構成を示す図である。図１３においては、音声認識・音声合成装置を情報処理装置１０００とし、そのハードウェア構成を例示する。以下は、コンピュータを典型とする情報処理装置として全般的な構成を説明するが、その環境に応じて必要最小限な構成を選択できることはいうまでもない。

情報処理装置１０００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１０、バスライン１００５、通信Ｉ／Ｆ１０４０、メインメモリ１０５０、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）１０６０、パラレルポート１０８０、ＵＳＢポート１０９０、グラフィック・コントローラ１０２０、ＶＲＡＭ１０２４、音声プロセッサ１０３０、Ｉ／Ｏコントローラ１０７０、並びにキーボード及びマウス・アダプタ１１００等の入力手段を備える。Ｉ／Ｏコントローラ１０７０には、フレキシブル・ディスク（ＦＤ）ドライブ１０７２、ハードディスク１０７４、光ディスク・ドライブ１０７６、半導体メモリ１０７８等の記憶手段を接続することができる。

音声プロセッサ１０３０には、マイクロホン１０３６、増幅回路１０３２、及びスピーカ１０３４が接続される。また、グラフィック・コントローラ１０２０には、表示装置１０２２が接続されている。

ＢＩＯＳ１０６０は、情報処理装置１０００の起動時にＣＰＵ１０１０が実行するブートプログラムや、情報処理装置１０００のハードウェアに依存するプログラム等を格納する。ＦＤ（フレキシブル・ディスク）ドライブ１０７２は、フレキシブル・ディスク１０７１からプログラム又はデータを読み取り、Ｉ／Ｏコントローラ１０７０を介してメインメモリ１０５０又はハードディスク１０７４に提供する。
図１３には、情報処理装置１０００の内部にハードディスク１０７４が含まれる例を示したが、バスライン１００５又はＩ／Ｏコントローラ１０７０に外部機器接続用インタフェース（図示せず）を接続し、情報処理装置１０００の外部にハードディスクを接続又は増設してもよい。

光ディスク・ドライブ１０７６としては、例えば、ＤＶＤ−ＲＯＭドライブ、ＣＤ−ＲＯＭドライブ、ＤＶＤ−ＲＡＭドライブ、ＣＤ−ＲＡＭドライブを使用することができる。この際は各ドライブに対応した光ディスク１０７７を使用する必要がある。光ディスク・ドライブ１０７６は光ディスク１０７７からプログラム又はデータを読み取り、Ｉ／Ｏコントローラ１０７０を介してメインメモリ１０５０又はハードディスク１０７４に提供することもできる。

情報処理装置１０００に提供されるコンピュータ・プログラムは、フレキシブル・ディスク１０７１、光ディスク１０７７、又はメモリーカード等の記録媒体に格納されて利用者によって提供される。このコンピュータ・プログラムは、Ｉ／Ｏコントローラ１０７０を介して、記録媒体から読み出され、又は通信Ｉ／Ｆ１０４０を介してダウンロードされることによって、情報処理装置１０００にインストールされ実行される。コンピュータ・プログラムが情報処理装置に働きかけて行わせる動作は、既に説明した装置における動作と同一であるので省略する。

前述のコンピュータ・プログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としてはフレキシブル・ディスク１０７１、光ディスク１０７７、又はメモリーカードの他に、ＭＤ等の光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク又は光ディスク・ライブラリ等の記憶装置を記録媒体として使用し、通信回線を介してコンピュータ・プログラムを情報処理装置１０００に提供してもよい。

以上の例は、情報処理装置１０００について主に説明したが、コンピュータに、情報処理装置で説明した機能を有するプログラムをインストールして、そのコンピュータを情報処理装置として動作させることにより上記で説明した情報処理装置と同様な機能を実現することができる。

本装置は、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせとして実現可能である。ハードウェアとソフトウェアの組み合わせによる実施では、所定のプログラムを有するコンピュータ・システムでの実施が典型的な例として挙げられる。かかる場合、該所定のプログラムが該コンピュータ・システムにロードされ実行されることにより、該プログラムは、コンピュータ・システムに本発明にかかる処理を実行させる。このプログラムは、任意の言語、コード、又は表記によって表現可能な命令群から構成される。そのような命令群は、システムが特定の機能を直接実行すること、又は（１）他の言語、コード、若しくは表記への変換、（２）他の媒体への複製、のいずれか一方若しくは双方が行われた後に、実行することを可能にするものである。もちろん、本発明は、そのようなプログラム自体のみならず、プログラムを記録した媒体を含むプログラム製品もその範囲に含むものである。本発明の機能を実行するためのプログラムは、フレキシブル・ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＤＶＤ、ハードディスク装置、ＲＯＭ、ＭＲＡＭ、ＲＡＭ等の任意のコンピュータ可読媒体に格納することができる。かかるプログラムは、コンピュータ可読媒体への格納のために、通信回線で接続する他のコンピュータ・システムからダウンロードしたり、他の媒体から複製したりすることができる。また、かかるプログラムは、圧縮し、又は複数に分割して、単一又は複数の記録媒体に格納することもできる。

以上、本発明を実施形態に則して説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態又は実施例に記載されたものに限定されるものではない。

本発明の一実施形態に係る、統計モデルを用いる音声素片のモデル化の諸段階の関係を示すフロー図である。本発明の一実施形態に係る、学習ステップＳ１１０を例示する機能ブロック図である。本発明の一実施形態に係る、Ｆ０傾き計算ステップＳ１２０を例示するフロー図である本発明の一実施形態に係る、音節中の観測点及び分割した小区間を示す図である。本発明の一実施形態に係る、Ｆ０の線形近似を例示する図である本発明の一実施形態に係る、統計モデルに用いる決定木とＧＭＭモデルの関係を例示する図である。本発明の一実施形態に係る音声合成ランタイムにおける、音声素片検索ステップＳ１６０を例示する機能ブロック図である。本発明の一実施形態に係る、音声合成ランタイムにおける、Ｆ０評価・修正ステップＳ１７０を例示する機能ブロック図である。本発明の一実施形態に係る、ランタイムにおけるＦ０傾きコスト算出を例示するフロー図である。本発明の一実施形態に係る、Ｆ０傾きの確率密度関数を例示する図である。本発明の一実施形態に係る、音声認識装置を含む音声認識システムの機能の構成を示す図である。本発明の一実施形態に係る、音声合成装置を含む音声合成システムの機能の構成を示す図である。本発明の一実施形態に係る、音声認識・音声合成装置のハードウェア構成を示す図である。日本語と北京語のＦ０カーブを例示する図である。北京語の４通りの声調を例示する図である。北京語の声調と漢字の対応を例示する図である。広東語の６通りの声調を例示する図である。

符号の説明

５０音声コーパス
５２記憶部
６０音声素片波形データ
８２音声素片Ｆ０情報
８３音声素片時間情報
８４音声素片言語情報
８５有声度テーブル
８６学習用データ
８７決定木
８８ＧＭＭパラメータテーブル
９２想定誤差Δｇ
９６傾きコスト
３０５、３０６音節の始点、終点
３１０音節
３１１〜３１４小区間１〜４
３２１音声素片
３３１〜３３９音声素片の分割点
４１０音声素片境界
４２０音声素片のＦ０
４３０近似直線
４５０考慮中の音声素片から０．１５秒さかのぼった区間
４５５決定木
４９０ＧＭＭ
１０００情報処理装置

Claims

コンピュータにより音声に含まれる基本周波数（Ｆ０）をモデリングする、音声データの処理方法であって、
前記コンピュータのＣＰＵにより音声データを音声素片部分に分割するステップと、
前記ＣＰＵにより、前記音声素片部分の始点及び終点のＦ０の値を線形近似すること、又は前記音声素片部分の始点及び終点のＦ０の値について大局的なスムージングを実施した後に当該音声素片部分の範囲内のＦ０の値の時間変化を計算することのいずれかにより、前記音声素片部分ごとにＦ０の値の時間変化を計算するステップと、
を含む、音声データの処理方法。
前記線形近似は、１の音声素片部分の終点の時刻から所定の時間をさかのぼった範囲の時間におけるＦ０の値を用いて、当該範囲の時間に対するＦ０の値の変化率を線形近似して求めるステップを含む、請求項１に記載の音声データの処理方法。
前記大局的なスムージングは、前記音声素片部分の始点又は終点におけるＦ０の値に対して、
前記音声素片部分から所定の範囲に音声素片部分の始点又は終点におけるＦ０の値が存在する場合に、前記所定の範囲の音声素片部分のＦ０の値を用いて前記始点又は終点におけるＦ０の値をスムージングするステップ
を含む、請求項１に記載の音声データの処理方法。
前記時間変化を計算することは、前記音声素片部分の前記始点におけるスムージング後のＦ０の値及び前記音声素片部分の前記終点におけるスムージング後のＦ０の値を用いて、Ｆ０の値の時間変化を計算するステップを含む、請求項１に記載の音声データの処理方法。
前記ＣＰＵにより、請求項１に記載の音声データの処理方法を用いてＦ０の値の時間変化を観測し、Ｆ０の統計モデルを学習する、音声データの処理方法。
前記Ｆ０の統計モデルを学習するステップは、さらに、
前記音声データに含まれる音節部分を小区間に分割するステップと、
前記Ｆ０の値の時間変化を前記分割した音節部分の小区間の情報に基づいて決定木を学習するステップと、
前記決定木のノードにおける前記Ｆ０の確率密度関数の値を計算して記憶するステップと、
を含む、請求項５に記載の音声データの処理方法。
前記音声データを音声素片部分に分割するステップは、さらに、
前記音声データに含まれる音節部分を抽出するステップと、
前記音節部分を所定の個数の小区間に分割するステップと、
を含む、請求項1に記載の音声データの処理方法。
コンピュータにより、音声データの複数の音声素片部分を接続して合成音声データを生成する方法であって、
前記コンピュータのＣＰＵにより、前記複数の音声素片部分の始点及び終点の基本周波数（Ｆ０）の値を線形近似すること、又は前記音声素片部分の始点及び終点のＦ０の値を大局的にスムージングした後に当該音声素片部分の範囲内のＦ０の値の時間変化を計算することのいずれかにより、前記音声素片部分ごとにＦ０の値の時間変化を評価するステップと、
前記ＣＰＵにより、前記評価により得られた情報に基づいて前記合成音声データのＦ０の値を修正するステップと、
を含む、合成音声データの生成方法。
前記Ｆ０の値の時間変化を評価するステップは、さらに、Ｆ０の値の時間変化の尤度を評価するステップを含む、請求項８に記載の合成音声データの生成方法。
前記Ｆ０の値の時間変化を評価するステップは、さらに、Ｆ０の値の時間変化の尤度を評価するステップを含み、前記Ｆ０の値の時間変化の尤度を評価するステップは、
観測したＦ０の値の時間変化に加えて、予め定めた誤差範囲を用いてＦ０の値の時間変化の範囲を設定するステップと、
前記Ｆ０の値の時間変化の範囲における、確率密度関数の値を求めるステップと、
を含む、請求項８に記載の合成音声データの生成方法。
前記Ｆ０の値の時間変化の尤度を評価するステップは、さらに、前記尤度に、Ｆ０の値の時間変化について予め定められた重み付けの値を乗じるステップを含む、請求項９に記載の合成音声データの生成方法。
前記Ｆ０の値の時間変化の尤度を評価するステップは、さらに、直前に音声データを含まない音声素片部分を、Ｆ０の値の時間変化の尤度の評価から除外するステップを含む、請求項９に記載の合成音声データの生成方法。
前記Ｆ０の値の時間変化の尤度を評価するステップは、さらに、無声子音である音声素片部分を、Ｆ０の値の時間変化の尤度の評価から除外するステップを含む、請求項９に記載の合成音声データの生成方法。
前記Ｆ０の値の時間変化の尤度を評価するステップは、さらに、予め算出した当該音声素片部分の有声度の値を乗算することによって、無声子音である音声素片部分の重み付けの値を小さくするステップを含む、請求項９に記載の合成音声データの生成方法。
コンピュータにより、音声データを処理するためのシステムであって、
前記コンピュータのＣＰＵに、前記音声データを音声素片部分に分割させる手段と、
前記ＣＰＵに、前記音声素片部分の始点及び終点の基本周波数（Ｆ０）の値を線形近似すること、又は前記音声素片部分の始点及び終点のＦ０の値を大局的にスムージングした後に当該音声素片部分の範囲内のＦ０の値の時間変化を計算することのいずれかにより、前記音声素片部分ごとにＦ０の値の時間変化を計算させる手段と、
前記ＣＰＵに、前記音声素片部分ごとにＦ０の値の時間変化を評価させる手段と、
前記ＣＰＵに、前記評価により得られた情報に基づいて前記音声素片部分のＦ０の値を修正させる手段と、
前記ＣＰＵに、複数の前記修正した音声素片部分を接続して合成音声データを生成させる手段と、
を含む、音声データ処理システム。
コンピュータにより、音声認識を行うための音声認識装置であって、
音声信号を受け付ける音声信号受付部と、
前記音声信号を音声素片部分に分割する音声信号分割部と、
前記音声素片部分の始点及び終点の基本周波数（Ｆ０）の値を線形近似すること、又は前記音声素片部分の始点及び終点のＦ０の値を大局的にスムージングした後に当該音声素片部分の範囲内のＦ０の値の時間変化を計算することのいずれかにより、前記音声素片部分ごとにＦ０の値の時間変化を計算する、Ｆ０時間変化計算部と、
を含む、音声認識装置。
コンピュータにより、音声データの複数の音声素片部分を接続して合成音声データを生成する音声合成装置であって、
前記複数の音声素片部分の始点及び終点の基本周波数（Ｆ０）の値を線形近似すること、又は前記音声素片部分の始点及び終点のＦ０の値を大局的にスムージングした後に当該音声素片部分の範囲内のＦ０の値の時間変化を計算することのいずれかにより、前記音声素片部分ごとにＦ０の値の時間変化を評価する、Ｆ０時間変化評価部と、
前記Ｆ０時間変化評価部からの情報に基づいて前記合成音声データのＦ０の値を修正するＦ０修正部と、
を含む、音声合成装置。