JP2001282282A

JP2001282282A - 音声情報処理方法および装置および記憶媒体

Info

Publication number: JP2001282282A
Application number: JP2000099534A
Authority: JP
Inventors: Toshiaki Fukada; 俊明深田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-03-31
Filing date: 2000-03-31
Publication date: 2001-10-12
Anticipated expiration: 2020-03-31
Also published as: JP4054507B2; US20050055207A1; US7155390B2; US20010032078A1; US6826531B2

Abstract

(57)【要約】【課題】所定単位の音韻の基本周波数の時間変化をモ
デル化することにより、自然なイントネーションを与え
る音声合成を行う。【解決手段】所定単位の音韻系列を入力した後、セグ
メントピッチパターンモデルに基づいて、音韻系列を構
成する各音韻の基本周波数を生成する（Ｓ２０３）。生
成された各音韻の基本周波数に基づいて音韻を合成する
（Ｓ２０４、Ｓ２０５）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声合成或いは音
声認識に際して実施される所定のセグメント単位での時
系列の基本周波数（ピッチパターン）を設定する音声情
報処理方法及びその装置、及び、前記音声合成方法を実
施するプログラムを記憶した、コンピュータにより読取
り可能な記憶媒体に関するものである。

【０００２】

【従来の技術】近年、任意の文字系列を音韻系列に変換
し、その音韻系列を所定の音声規則合成方式に従って合
成音声に変換する音声合成装置が開発されている。

【０００３】

【発明が解決しようとする課題】しかしながら、従来の
音声合成装置から出力される合成音声は、人間が発声す
る自然音声と比較すると不自然で機械的なものであっ
た。この原因の一つとして、例えば「おんせい」という
文字系列を構成する音韻系列「ｏ，Ｘ，ｓ，ｅ，ｉ」に
おいて、各音韻のアクセントやイントネーションを生成
する韻律生成規則の精度が挙げられる。精度が悪い場
合、音韻系列に対して十分なピッチパターンが生成され
ないため、合成される音声は不自然で機械的なものとな
る。

【０００４】本発明は上記従来例に鑑みてなされたもの
で、所定単位の音韻の基本周波数の時間変化をモデル化
することにより、自然なイントネーションを与える音声
合成を行うことができる音声情報処理方法及び装置を提
供することを目的とする。

【０００５】又本発明の目的は、所定単位の音韻の基本
周波数の時間変化をモデル化することにより、このモデ
ル化した情報を用いて高精度に音声認識ができる音声情
報処理方法及び装置を提供することにある。

【０００６】

【課題を解決するための手段】上記目的を達成するため
に本発明の音声情報処理方法は以下のような工程を備え
る。即ち、所定単位の音韻系列を入力する工程と、セグ
メントピッチパターンモデルに基づいて、前記音韻系列
を構成する各音韻の基本周波数を生成する生成工程と、
前記生成工程で生成された前記各音韻の基本周波数に基
づいて音声を合成する音声合成工程とを有することを特
徴とする。

【０００７】上記目的を達成するために本発明の音声情
報処理方法は以下のような工程を備える。即ち、音声を
入力する工程と、前記音声の特徴パラメータを抽出する
工程と、セグメントピッチパターンモデルに基づいて、
前記特徴パラメータを認識する音声認識工程と、を有す
ることを特徴とする。

【０００８】上記目的を達成するために本発明の音声情
報処理装置は以下のような構成を備える。即ち、所定単
位の音韻系列を入力する入力手段と、セグメントピッチ
パターンモデルに基づいて、前記音韻系列を構成する各
音韻の基本周波数を生成する生成手段と、前記生成手段
により設定された前記各音韻の基本周波数に基づいて音
声を合成する音声合成手段と、を有することを特徴とす
る。

【０００９】上記目的を達成するために本発明の音声情
報処理装置は以下のような構成を備える。即ち、音声を
入力する入力手段と、前記音声の特徴パラメータを抽出
する抽出手段と、セグメントピッチパターンモデルに基
づいて、前記特徴パラメータを認識する音声認識手段
と、を有することを特徴とする。

【００１０】

【発明の実施の形態】

【００１１】本発明の実施の形態における多項式セグメ
ントモデルの概要は以下の通りである。Ｌフレーム長の
Ｄ次元の観測ベクトル｛ｙ1，…，ｙL｝ｙｔ＝［ｙt,
1，ｙt,2，…，ｙｔ,D］をＬ×Ｄの行列で表現した

【００１２】

【数１】をＲ次の多項式セグメントモデルによって、

【００１３】

【数２】 …式（２）と表す。ここで、ＺはＬ×（Ｒ＋１）のデザインマトリ
クスであり、

【００１４】

【数３】 …式（３）と表される。また、Ｂは（Ｒ＋１）×Ｄのパラメータ系
列行列

【００１５】

【数４】 …式（４）であり、ＥはＬ×Ｄの予測誤差行列

【００１６】

【数５】 …式（５）である。デザインマトリクスＺによって異なる長さのセ
グメントを“０”から“１”の間に正規化することがで
きる。

【００１７】セグメントＹがラベルａによって生成され
るときの尤度は次のように表される。

【００１８】

【数６】

【００１９】…式（６）上式（６）において、ｆ(ｙt)は、ラベルａに対する特
徴ベクトルｙtの尤度であり、次式によって与えられ
る。

【００２０】

【数７】

【００２１】…式（７）ここで、ＢaとΣaはラベルａを表す単一ガウスセグメン
トモデルのパラメータである。上式において、ｚtは、

【００２２】

【数８】 …式（８）と与えられる。いま、ラベルａに対して、Ｋ個のセグメ
ントＹ1，Ｙ2，…ＹKがある場合に、モデルパラメータ
Ｂa及びΣaを求めたいとする。このとき、Ｂa及びΣａ
に対するこれらのセグメントの確率は、

【００２３】

【数９】 …式（９）と与えられる。これより、上式の確率を最大化するＢ
a、Σaを求めることによりモデルパラメータが求まる。
これらの推定値は、

【００２４】

【数１０】 …式（１０）

【００２５】

【数１１】 …式（１１）として得ることができる。

【００２６】このように、セグメントピッチパターンの
時間変化を多項式によってモデリングすることによっ
て、セグメントピッチパターンの時系列間の相関を考慮
することが可能になり、前記従来例の問題点が解決でき
る。

【００２７】以下、添付図面を参照して本発明の好適な
実施の形態を詳細に説明する。

【００２８】［実施の形態１］図１は、本発明の実施の
形態１に係る音声合成装置の構成を示すブロック図であ
る。

【００２９】図１において、１０１はＣＰＵで、ＲＯＭ
１０２に記憶された制御プログラム、或いは外部記憶装
置１０４からＲＡＭ１０３にロードされた制御プログラ
ムに従って、本実施の形態の音声合成装置における各種
制御を行う。ＲＯＭ１０２は、各種パラメータやＣＰＵ
１０１が実行する制御プログラムなどを格納している。
ＲＡＭ１０３は、ＣＰＵ１０１による各種制御の実行時
に作業領域を提供するとともに、ＣＰＵ１０１により実
行される制御プログラムを記憶する。１０４はハードデ
ィスク、フロッピー（登録商標）ディスク、ＣＤ−ＲＯ
Ｍ等の外部記憶装置で、この外部記憶装置がハードディ
スクの場合には、ＣＤ−ＲＯＭやフロッピィディスク等
からインストールされた各種プログラムが記憶されてい
る。１０５は入力部で、キーボード、マウス等のポイン
ティングデバイスを有している。又、この入力部１０５
は、例えば通信回線等を介してインターネット等からの
データを入力しても良い。１０６は液晶やＣＲＴ等の表
示部で、ＣＰＵ１０１の制御により各種データの表示を
行う。１０７はスピーカで、音声信号（電気信号）を可
聴音である音声に変換して出力する。１０８は上記各部
を接続するバスである。１０９は音声合成・認識ユニッ
トである。

【００３０】図２は、本実施の形態１に係る音声合成・
認識ユニット１０９の動作を示すフローチャートであ
る。以下に示される各ステップは、ＲＯＭ１０２に格納
された制御プログラム、或いは外部記憶装置１０４から
ＲＡＭ１０３にロードされた制御プログラムをＣＰＵ１
０１が実行することによって実現される。

【００３１】まずステップＳ２０１で、漢字かな混じり
の日本語テキストデータ、又は他の言語のテキストデー
タが入力部１０５から入力されるとステップＳ２０２に
進み、この入力されたテキストデータを、言語解析辞書
２０１を用いて解析し、入力テキストデータに対する音
韻系列（読み）やアクセントなどの情報を抽出する。次
にステップＳ２０３に進み、これらの情報を用いて、ス
テップＳ２０２で求めた音韻系列を構成する各音韻の継
続時間長、基本周波数（セグメントピッチパターンとも
いう）、パワー等のプロソディ（韻律情報ともいう）を
生成する。この際、セグメントピッチパターンはピッチ
パターンモデル２０２を用いて決定され、また継続時間
長、パワー等は韻律制御モデル２０３を用いて決定され
る。

【００３２】次にステップＳ２０４に進み、ステップＳ
２０２で解析して抽出された音韻系列、及びステップＳ
２０３で生成されたプロソディに基づいて、音声素片辞
書２０４から、その音韻系列に対応する合成音声を生成
するための音声素片（波形もしくは特徴パラメータ）を
複数個選択する。次にステップＳ２０５に進み、それら
選択された音声素片を用いて合成音声信号を生成し、ス
テップＳ２０６において、その生成された合成音声信号
に基づいて音声をスピーカ１０７から出力する。最後に
ステップＳ２０７において、入力されたテキストデータ
に対する処理が全て終了したか否かの判断を行い、終了
していない場合はステップＳ２０１に戻り、前述の処理
が続けられる。

【００３３】図３は、図２のステップＳ２０３のプロソ
ディ生成処理で使用した上述の多項式セグメントモデル
に基づくセグメントピッチパターンモデルの作成手順を
示すフローチャートである。

【００３４】このセグメントピッチパターンモデルを作
成するためには、まずステップＳ３０１で、複数個の学
習サンプルを有する音声ファイル３０１を用いて、所定
単位の音韻系列の基本周波数（ピッチパターン）を抽出
する。この基本周波数の抽出において、有声・無声の判
別結果、ピッチマーク等の情報を使用する場合には、基
本周波数抽出に必要な情報を格納したサイド情報ファイ
ル３０２も併せて利用する。

【００３５】次に、ステップＳ３０２に進み、所定単位
の音韻系列を構成する音素、音節、単語などを単位とし
た音韻の時間情報が付与されたラベルファイル３０３を
用いて、音韻系列のピッチパターンをセグメント単位に
分割する。そして最後にステップＳ３０３に進み、同一
カテゴリに属するセグメント毎に、前述の式（１０）及
び式（１１）を用いてセグメントピッチパターンモデル
のモデルパラメータを計算する。

【００３６】以下、具体例を挙げて本実施の形態１に係
る処理手順を、図３乃至図９を参照して説明する。

【００３７】図４は、サイド情報ファイル３０２に記憶
された音韻系列「音声(oNsee)」に関するサイド情報の
一例を示す図、図５は、図４の有声区間(o,N,e,e)に対
する基本周波数の一例を示す図、図６はラベルファイル
３０３に記憶された音韻系列「音声(oNsee)」に関する
情報の一例を示す図、図７は図５のピッチパターンをモ
デル化した図、図８は音韻系列「アクセント(akuseNt
o)」に対するピッチパターンの一例を示す図、そして図
９はラベルファイル３０３に記憶された音韻系列「アク
セント(akuseNto)」に関する情報の一例を示す図であ
る。

【００３８】いま音韻系列「音声(oNsee)」のサイド情
報ファイル３０２が図４で与えられるとする。図４で
は、各音素(o,N,s,e,e)の開始時刻、終了時刻、及び有
声か、無声かを示すフラグがセットされている。尚、
「pau」はポーズを示す。このとき、ステップＳ３０１
の基本周波数抽出処理では、図４の有声区間(o,N,e,e)
を検出し、それらの基本周波数を図５のように抽出す
る。次にラベルファイル３０３が図６のように与えらる
とき、開始時刻および終了時刻の情報から、有声音の音
素区間をステップＳ３０２においてセグメントに分割
（この場合は各音素に分割）する。次にステップＳ３０
３に進み、例えば、Ｒ次（Ｒ＝１：直線）のセグメント
モデルによって図５に示すピッチパターンの各セグメン
トピッチパターンをモデル化すると図７のように表され
る。

【００３９】また、音韻系列「アクセント(akuseNto)」
のピッチパターンが図８のように抽出されたとする。ま
た、このときのラベルファイル３０３が図９で与えられ
るとする。このときユニット１０９は、図５及び図８に
示される２つのピッチパターンを用いて、同じ音韻・言
語環境に属するセグメントを検出し、それらをモデリン
グして１つのセグメントピッチパターンモデルを生成す
る。いま、音韻・言語環境として、モーラ位置とアクセ
ント型を選ぶと、「音声」の第１モーラの“ｏ”（図
６）及び「アクセント」の第１モーラの“ａ”（図９）
は共にアクセント型が“１”であるため、それらを１つ
のセグメントピッチパターンとしてモデリングする（第
２、第３、第４モーラも同様）。

【００４０】上述のようにしてモデリングされたセグメ
ントピッチパターンモデルのモデルパラメータを、ピッ
チパターンモデル２０２に保持することによって、ステ
ップＳ２０３のプロソディ生成処理では、音韻系列（ｐ
＝｛ｐａ，…，ｐJ｝）に対する音韻・言語環境と継続
時間長モデル２０３から得られる各音韻の継続時間長
（ｄ＝｛ｄp1，…，ｄpJ｝）に基づいて、各音韻のセグ
メントピッチパターンＹpjを、Ｙpj＝ＺｄpjＢpj …式（１２）として生成することができる。ここで、Ｚｄpjはｄpjフ
レームのデザインマトリクス、Ｂpjは音韻ｐjの音韻・
言語環境に対応するセグメントピッチパターンモデルの
モデルパラメータである。

【００４１】以上説明したように本実施の形態１によれ
ば、セグメントピッチパターン時系列の相関を考慮した
多項式セグメントモデルに基づいて、各セグメントピッ
チパターンをモデリングし、このモデルを用いて所定単
位の音韻系列を構成する各音韻のピッチパターンを設定
することにより、自然なイントネーションを与える音声
を合成して出力できるという効果がある。

【００４２】［実施の形態２］上述の実施の形態１で
は、モデル化したセグメントピッチパターンモデルを用
いて音声合成する例について説明したが、この実施の形
態２では、セグメントピッチパターンモデルを用いて音
声認識する例について説明する。本実施の形態２に係る
ハードウェア構成は図１と同様のものを用いることがで
きる。ここで、入力部１０５はマイクロフォンである。

【００４３】図１０は、本発明の実施の形態２に係る音
声合成・認識ユニット１０９の動作を示すフローチャー
トである。以下に示される各ステップは、ＲＯＭ１０２
に格納された制御プログラムあるいは外部記憶装置１０
４からＲＡＭ１０３にロードされた制御プログラムをＣ
ＰＵ１０１が実行することによって実現される。

【００４４】まずステップＳ４０１で、マイクロフォン
などを備える入力部１０５から音声波形が入力される。
次ステップＳ４０２に進み、その入力された音声波形の
特徴パラメータの抽出が行われ、広く用いられているケ
プストラムなどの周波数特徴量の時系列Ｏa(t)に加え、
基本周波数やその回帰パラメータなどのピッチに関する
特徴量の時系列Ｏp(t)を抽出する。

【００４５】次にステップＳ４０３に進み、言語モデル
４０１（単語認識の場合は不要）、上述のセグメントピ
ッチパターンモデルを保持する音響・ピッチパターンモ
デル４０２、認識辞書４０３を用いて、ステップＳ４０
２で得られた特徴パラメータの尤度を最大とする音声認
識結果を探索処理によって求める。次にステップＳ４０
４に進み、表示部１０６への画面表示、或いはスピーカ
１０７による音声出力などの所望の手段によって音声認
識結果を出力する。最後にステップＳ４０５において、
入力部１０５からの音声入力が終了したか否かの判断を
行い、終了していない場合はステップＳ４０１に戻り、
前述した処理を実行する。

【００４６】いま、音響特徴量ベクトルＯaに対する単
語仮説Ｗの対数音響尤度をＰa(Ｏa｜Ｗ)、ピッチ特徴量
ベクトルＯpに対する単語仮説Ｗの対数ピッチ尤度をＰp
(Ｏp｜Ｗ)とし、単語仮説Ｗの対数言語尤度をＰl(Ｗ)と
すると、ステップＳ４０３の探索処理で得られる認識結
果~Ｗは、 ~Ｗ＝argmax{ｗaＰa(Ｏa｜Ｗ)＋ｗpＰp(Ｏp｜Ｗ)＋ｗlＰl(Ｗ)} （ｗ∈Ｗ） …式（１３）で表される。ここで、ｗa，ｗp，ｗlは、それぞれ対数
音響尤度、対数ピッチ尤度、対数言語尤度に対する重み
係数である。ここで、対数音響尤度はＨＭＭ（隠れマル
コフモデル）、対数言語尤度は単語n-gramに基づく方法
など、従来広く用いられている方法によって求めること
ができる。また、対数ピッチ尤度は、上記式（９）を用
いて求めることができる。

【００４７】［実施の形態３］上記実施の形態１及び２
では、上述の式（７）に表されるように、セグメントピ
ッチパターンを単一混合ガウス分布によって作成してい
たが、本実施の形態３では、これを多混合ガウス分布に
よってピッチパターンをモデル化する。

【００４８】このとき、ｆ(ｙt)は以下のように表され
る。

【００４９】

【数１２】

【００５０】…式（１４）ここで、

【００５１】

【数１３】 …式（１５）であり、式（１４）におけるｗmはｍ番目の混合分布に
おける重みであり、Σｗm＝１（m=1〜M）を満たす。こ
のとき、式（１５）におけるモデルパラメータＢm，Σ
m，ｗmはクラスタリング法、もしくはＥＭ(Expectation
-Maximization)法によって求めることができる。このよ
うにして得られる多混合ガウス分布によるピッチパター
ンモデルを用いれば、上記実施の形態２における音声認
識装置の性能を向上させることが可能となる。

【００５２】［実施の形態４］上記実施の形態１では、
基本周波数の絶対値から直接セグメントピッチパターン
モデルを作成し、このモデルを用いて音声合成における
ピッチパターンの設定を行っていたが、一般にピッチパ
ターンはコンテキストや話者による変動が大きいため、
ピッチパターンを抽出する際に、アクセント句、単語、
フレーズ（呼気段落）、文などの所望の発話単位（発話
もひとまとまりとして処理できる単位）ごとに基本周波
数の最大値や最小値などを抽出し、これらの値を利用す
ることによってピッチパターンを正規化し、この正規化
されたピッチパターンを用いて、セグメントピッチパタ
ーンのモデルを作成するようにしても良い。

【００５３】図８に示すピッチパターンを基本周波数の
最大値で正規化したときのピッチパターンの例を図１１
に示す。このように、正規化したピッチパターンからピ
ッチパターンモデルを作成することにより、よりコンテ
キストなどの変動を大きく吸収した高精度なピッチパタ
ーンモデルが作成できる。

【００５４】但し、このピッチパターンモデルを用いて
音声合成装置におけるピッチパターンを生成する場合、
正規化に用いたパラメータ（図１１の場合は最大値）を
推定する必要があるが、これは、音韻・言語コンテキス
トを要因とした線形もしくは非線形モデルなどの公知の
方法によって求めることが可能である。

【００５５】［実施の形態５］上記実施の形態では、音
素という比較的時間的に短い音韻単位を用いてセグメン
トピッチパターンをモデル化していたが、本発明はこれ
に限らず、例えば単語やアクセントといった比較的長い
音韻単位に対してモデル化することも可能である。この
場合、基本周波数が存在しない無声音の区間をセグメン
トピッチパターンのモデリングから除外する必要がある
が、これは上記式（３）のデザインマトリクスにおい
て、次式のように無声音の区間の行を“０”と置くこと
により、無声音区間を除外してセグメントピッチパター
ンをモデル化することができる。

【００５６】

【数１４】

【００５７】…式（１６）このようにして、図５に示される１単語のピッチパター
ンをセグメントピッチパターンとして多項式セグメント
モデルによってモデリングすることにより、図１２に示
されるような、無声区間を含むピッチパターンモデルを
得ることができる。

【００５８】なお、上記各実施の形態における構成は本
発明の一実施の形態を示したものであり、各種変形が可
能である。この変形例を示せば以下の通りである。

【００５９】実施の形態１では、モーラ位置およびアク
セント型を音韻・言語環境として考慮してセグメントピ
ッチパターンモデルを作成したが、モーラ数や品詞など
他の環境を用いてもよい。また、本発明は日本語以外の
言語にも適用可能である。

【００６０】また前述の実施の形態１では、回帰次数１
（Ｒ＝１）によってモデリングする例を示したが、Ｒは
０以上（ただし、Ｒ＜Ｌ）の任意の整数値を用いてモデ
リングしても良い。

【００６１】又前述の実施の形態２では、ワンパスの音
声認識手法を用いた音声認識装置における例を示した
が、従来の音声認識手法を用いてＮベスト（Nbest）も
しくは単語（音素）グラフなどによる認識候補に対し
て、セグメントピッチパターンモデルによって得られる
対数ピッチ尤度を用いて認識結果をリスコアリングす
る、マルチパス探索の音声認識手法に基づく音声認識装
置に対しても適用可能である。

【００６２】又前述の実施の形態４では、基本周波数の
最大値によってピッチパターンの正規化処理を行った
が、本発明はこれに限定されるものでなく、例えば最小
値を用いた正規化処理や最大値と最小値の差で与えられ
るダイナミックレンジを用いた正規化処理など他の正規
化処理を用いてもよい。

【００６３】また本発明の目的は、前述した実施の形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ（またはＣＰＵ
やＭＰＵ）が記憶媒体に格納されたプログラムコードを
読出し実行することによっても達成される。

【００６４】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施の形態の機能を実現する
ことになり、そのプログラムコードを記憶した記憶媒体
は本発明を構成することになる。プログラムコードを供
給するための記憶媒体としては、例えば、フロッピディ
スク、ハードディスク、光ディスク、光磁気ディスク、
ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ、磁気テープ、不揮発
性のメモリカード、ＲＯＭなどを用いることができる。

【００６５】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施の形態の機
能が実現されるだけでなく、そのプログラムコードの指
示に基づき、コンピュータ上で稼働しているＯＳ（オペ
レーティングシステム）などが実際の処理の一部または
全部を行い、その処理によって前述した実施の形態の機
能が実現される場合も含まれる。

【００６６】更に、記憶媒体から読出されたプログラム
コードが、コンピュータに挿入された機能拡張ボードや
コンピュータに接続された機能拡張ユニットに備わるメ
モリに書込まれた後、そのプログラムコードの指示に基
づき、その機能拡張ボードや機能拡張ユニットに備わる
ＣＰＵなどが実際の処理の一部または全部を行い、その
処理によって前述した実施の形態の機能が実現される場
合も含まれる。

【００６７】以上説明したように本実施の形態によれ
ば、セグメントピッチパターン系列の相関を考慮して各
セグメントピッチパターンを統計的にモデリングするこ
とによって、高精度に所定単位の音韻系列のピッチパタ
ーンをモデル化することができるようになり、音声合成
装置におけるイントネーション生成の自然性の向上、も
しくは基本周波数を特徴量にもつ音声認識装置における
認識性能の向上が可能になるという効果がある。

【００６８】

【発明の効果】以上説明したように本発明によれば、所
定単位の音韻の基本周波数の時間変化をモデル化するこ
とにより、自然なイントネーションを与える音声合成を
行うことができる。

【００６９】又本発明によれば、所定単位の音韻の基本
周波数の時間変化をモデル化することにより、このモデ
ル化した情報を用いて高精度に音声認識ができるという
効果がある。

【図面の簡単な説明】

【図１】本発明の実施の形態に係る音声合成装置（音声
認識装置）のハードウェア構成を示したブロック図であ
る。

【図２】本実施の形態に係る音声合成装置における音声
合成の処理手順を示したフローチャートである。

【図３】図２のステップＳ２０３における多項式セグメ
ントモデルに基づくセグメントピッチパターンモデルの
作成手順を示したフローチャートである。

【図４】本発明の実施の形態に係るサイド情報ファイル
に記憶された「音声(oNsee)」に関するサイド情報の一
例を示す図である。

【図５】本発明の実施の形態に係る「音声」という単語
発声に対するピッチパターンの一例を示す図である。

【図６】本発明の実施の形態に係るラベルファイルに記
憶された「音声(oNsee)」に関する情報の一例を示す図
である。

【図７】図５のピッチパターンを図６に示す音素セグメ
ントごとに回帰次数１のセグメントモデルによってモデ
リングした場合のピッチパターンの一例を示す図であ
る。

【図８】本発明の実施の形態に係る「アクセント」とい
う単語発声に対するピッチパターンの一例を示す図であ
る。

【図９】本発明の実施の形態に係るラベルファイルに記
憶された「アクセント(akuseNto)」に関する情報の一例
を示す図である。

【図１０】本発明の実施の形態２に係る音声認識装置に
おける音声認識の処理手順を示したフローチャートであ
る。

【図１１】本発明の実施の形態４に係る、図８に示すピ
ッチパターンを基本周波数の最大値で正規化したときの
ピッチパターンの一例を示す図である。

【図１２】本発明の実施の形態５に係る、図５に示すピ
ッチパターンを単語全体の有声音部分のピッチパターン
に対して、多項式セグメントモデルによってモデリング
した場合のピッチパターンの一例を示す図である。

Claims

【特許請求の範囲】

【請求項１】所定単位の音韻系列を入力する工程と、セグメントピッチパターンモデルに基づいて、前記音韻
系列を構成する各音韻の基本周波数を生成する生成工程
と、前記生成工程で生成された前記各音韻の基本周波数に基
づいて音声を合成する音声合成工程と、を有することを
特徴とする音声情報処理方法。
【請求項２】前記セグメントピッチパターンモデル
は、音素、音節、単語の少なくともいずれかを単位とし
たモデルであることを特徴とする請求項１に記載の音声
情報処理方法。
【請求項３】前記セグメントピッチパターンモデル
は、所定の音韻環境に属する音韻の基本周波数の時間変
化を、多項式セグメントモデルによってモデル化したモ
デルであることを特徴とする請求項１又は２に記載の音
声情報処理方法。
【請求項４】前記セグメントピッチパターンモデル
は、アクセント型、モーラ数、モーラ位置、品詞の少な
くとも１つを考慮したモデルであることを特徴とする請
求項１乃至３のいずれか１項に記載の音声情報処理方
法。
【請求項５】前記セグメントピッチパターンモデル
は、単一混合分布、多混合分布の少なくともいずれかに
よってモデリングされたモデルであることを特徴とする
請求項１乃至４のいずれか１項に記載の音声情報処理方
法。
【請求項６】前記セグメントピッチパターンモデル
は、アクセント句、単語、フレーズ、文の少なくともい
ずれかからなる単位ごとに正規化されたモデルであるこ
とを特徴とする請求項１乃至５のいずれか１項に記載の
音声情報処理方法。
【請求項７】請求項１乃至６のいずれか１項に記載の
音声情報処理方法を実行するプログラムを記憶したこと
を特徴とする、コンピュータにより読取り可能な記憶媒
体。
【請求項８】所定単位の音韻系列を入力する入力手段
と、セグメントピッチパターンモデルに基づいて、前記音韻
系列を構成する各音韻の基本周波数を生成する生成手段
と、前記生成手段により設定された前記各音韻の基本周波数
に基づいて音声を合成する音声合成手段と、を有するこ
とを特徴とする音声情報処理装置。
【請求項９】前記セグメントピッチパターンモデル
は、音素、音節、単語の少なくともいずれかを単位とし
たモデルであることを特徴とする請求項８に記載の音声
情報処理装置。
【請求項１０】前記セグメントピッチパターンモデル
は、所定の音韻環境に属する音韻の基本周波数の時間変
化を多項式セグメントモデルによってモデル化したモデ
ルであることを特徴とする請求項８又は９に記載の音声
情報処理装置。
【請求項１１】前記セグメントピッチパターンモデル
は、アクセント型、モーラ数、モーラ位置、品詞の少な
くとも１つを考慮したモデルであることを特徴とする請
求項１０に記載の音声情報処理装置。
【請求項１２】前記セグメントピッチパターンモデ
ルは、単一混合分布、多混合分布の少なくともいずれか
によってモデリングされたモデルであることを特徴とす
る請求項１０に記載の音声情報処理装置。
【請求項１３】前記セグメントピッチパターンモデル
は、アクセント句、単語、フレーズ、文の少なくともい
ずれかからなる単位ごとに正規化されたモデルであるこ
とを特徴とする請求項８に記載の音声情報処理装置。
【請求項１４】音声を入力する工程と、前記音声の特徴パラメータを抽出する工程と、セグメントピッチパターンモデルに基づいて、前記特徴
パラメータを認識する音声認識工程と、を有することを
特徴とする音声情報処理方法。
【請求項１５】請求項１４に記載の音声情報処理方法
を実行するプログラムを記憶したことを特徴とする、コ
ンピュータ読取り可能な記憶媒体。
【請求項１６】音声を入力する入力手段と、前記音声の特徴パラメータを抽出する抽出手段と、セグメントピッチパターンモデルに基づいて、前記特徴
パラメータを認識する音声認識手段と、を有することを
特徴とする音声情報処理装置。