JP2001282279A

JP2001282279A - 音声情報処理方法及び装置及び記憶媒体

Info

Publication number: JP2001282279A
Application number: JP2000099535A
Authority: JP
Inventors: Toshiaki Fukada; 俊明深田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-03-31
Filing date: 2000-03-31
Publication date: 2001-10-12
Also published as: US7089186B2; US20040215459A1; US20010032080A1; US6778960B2

Abstract

(57)【要約】【課題】音韻系列の継続時間長を精度良く設定可能と
し、音韻・言語環境に応じた自然な音韻時間長を与え
る。【解決手段】大局的セグメントの継続時間長モデルに
基づいて、所定単位の音韻系列の継続時間長を求める
（Ｓ３０２）。局所的セグメントの継続時間長モデルに
基づいて、その音韻系列を構成する各音韻の継続時間長
を求める（Ｓ３０３）。音韻系列の継続時間長と各音韻
の継続時間長とに基づいて、各音韻の継続時間長を設定
する（Ｓ３０４）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声合成に際して
実施される音韻の継続時間長を設定する音声情報処理方
法及びその装置、及び、前記音声合成方法を実施するプ
ログラムを記憶した、コンピュータにより読取り可能な
記憶媒体に関するものである。

【０００２】

【従来の技術】近年、任意の文字系列を音韻系列に変換
し、その音韻系列を所定の音声規則合成方式に従って合
成音声に変換する音声合成装置が開発されている。

【０００３】

【発明が解決しようとする課題】従来の音声合成装置か
ら出力される合成音声は、人間が発声する自然音声と比
較すると不自然で機械的なものであった。

【０００４】この原因の一つとして、例えば「おんせ
い」という文字系列を構成する音韻系列「ｏ，Ｘ，ｓ，
ｅ，ｉ」において、各音韻の継続時間長を生成する音韻
継続時間長の制御規則の精度が挙げられる。精度が悪い
場合、各音韻に対して適正に、継続時間長が付与されな
いため、合成される音声は不自然で機械的なものとな
る。

【０００５】本発明は上記従来例に鑑みてなされたもの
で、音韻系列の継続時間長を精度良く設定することを可
能とし、音韻・言語環境に応じた自然な音韻時間長を与
える音声情報処理方法及びその装置を提供することを目
的とする。

【０００６】

【課題を解決するための手段】上記目的を達成するため
に本発明の音声情報処理装置は以下のような構成を備え
る。即ち、大局的セグメントの継続時間長モデルに基づ
いて、所定単位の音韻系列の継続時間長を求める手段
と、局所的セグメントの継続時間長モデルに基づいて、
前記音韻系列を構成する各音韻の継続時間長を求める手
段と、前記音韻系列の継続時間長と前記各音韻の継続時
間長とに基づいて、前記各音韻の継続時間長を設定する
設定手段と、前記設定手段により設定された前記各音韻
の継続時間長に基づいて音声を合成する音声合成手段
と、を有することを特徴とする。

【０００７】上記目的を達成するために本発明の音声情
報処理方法は以下のような工程を備える。即ち、大局的
セグメントの継続時間長モデルに基づいて、所定単位の
音韻系列の継続時間長を求める工程と、局所的セグメン
トの継続時間長モデルに基づいて、前記音韻系列を構成
する各音韻の継続時間長を求める工程と、前記音韻系列
の継続時間長と前記各音韻の継続時間長とに基づいて、
前記各音韻の継続時間長を設定する設定工程と、前記設
定工程により設定された前記各音韻の継続時間長に基づ
いて音声を合成する音声合成工程と、を有することを特
徴とする。

【０００８】

【発明の実施の形態】以下、添付図面を参照して本発明
の好適な実施の形態を詳細に説明する。

【０００９】［実施の形態１］図１は、本発明の実施の
形態１に係る音声合成装置の構成を示すブロック図であ
る。

【００１０】図１において、１０１はＣＰＵで、ＲＯＭ
１０２に記憶された制御プログラム、或いは外部記憶装
置１０４からＲＡＭ１０３にロードされた制御プログラ
ムに従って、本実施の形態の音声合成装置における各種
制御を行う。ＲＯＭ１０２は、各種パラメータやＣＰＵ
１０１が実行する制御プログラムなどを格納している。
ＲＡＭ１０３は、ＣＰＵ１０１による各種制御の実行時
に作業領域を提供するとともに、ＣＰＵ１０１により実
行される制御プログラムを記憶する。１０４はハードデ
ィスク、フロッピー（登録商標）ディスク、ＣＤ−ＲＯ
Ｍ等の外部記憶装置で、この外部記憶装置がハードディ
スクの場合には、ＣＤ−ＲＯＭやフロッピィディスク等
からインストールされた各種プログラムが記憶されてい
る。１０５は入力部で、キーボード、マウス等のポイン
ティングデバイスを有している。又、この入力部１０５
は、例えば通信回線等を介してインターネット等からの
データを入力しても良い。１０６は液晶やＣＲＴ等の表
示部で、ＣＰＵ１０１の制御により各種データの表示を
行う。１０７はスピーカで、音声信号（電気信号）を可
聴音である音声に変換して出力する。１０８は上記各部
を接続するバスである。１０９は音声合成ユニットであ
る。

【００１１】図２は、本実施の形態１に係る音声合成ユ
ニット１０９の動作を示すフローチャートである。以下
に示される各ステップは、ＲＯＭ１０２に格納された制
御プログラム、或いは外部記憶装置１０４からＲＡＭ１
０３にロードされた制御プログラムをＣＰＵ１０１が実
行することによって実現される。

【００１２】まずステップＳ２０１で、漢字かな混じり
の日本語テキストデータが入力部１０５から入力される
とステップＳ２０２に進み、この入力されたテキストデ
ータを、言語解析辞書２０１を用いて解析し、入力テキ
ストデータに対する音韻系列（読み）やアクセントなど
の情報を抽出する。次にステップＳ２０３に進み、これ
らの情報を用いて、ステップＳ２０２で求めた音韻系列
を構成する各音韻の継続時間長、基本周波数（ピッチパ
ターン）、パワー等のプロソディ（韻律情報という）を
生成する。この際、音韻の継続時間長は継続時間長モデ
ル２０２を用いて、基本周波数、パワー等は韻律制御モ
デル２０３を用いて決定される。

【００１３】次にステップＳ２０４に進み、ステップＳ
２０２で解析して抽出された音韻系列、及びステップＳ
２０３で生成されたプロソディに基づいて、音声素片辞
書２０４から、その音韻系列に対応する合成音声を生成
するための音声素片（波形もしくは特徴パラメータ）を
複数個選択する。次にステップＳ２０５に進み、それら
選択された音声素片を用いて合成音声信号を生成し、ス
テップＳ２０６において、その生成された合成音声信号
に基づいて音声をスピーカ１０７から出力する。最後に
ステップＳ２０７において、入力されたテキストデータ
に対する処理が全て終了したか否かの判断を行い、終了
していない場合はステップＳ２０１に戻り、前述の処理
が続けられる。

【００１４】図３は、図２のステップＳ２０３のプロソ
ディ生成処理の一部を詳細に説明するフローチャートで
ある。図３では、継続的時間長モデル２０２を用いて、
所定単位の音韻系列（以下、大局的セグメントと称す
る）の継続時間長とこの音韻系列を構成する各音韻（以
下、局所的セグメントと称する）の継続時間長とを設定
する手順を示す。ここで、継続時間長モデル２０２は、
大局的セグメントに対する継続時間長モデル（大局的継
続時間長モデルともいう）３０１と局所的セグメントに
対する継続時間長モデル（局所的継続時間長モデルとも
いう）３０２とを含む。

【００１５】まずステップＳ３０１において、図２のス
テップＳ２０２のテキスト処理によって得られる入力テ
キストデータに対する解析結果を入力する。ここで、こ
の解析結果としては、音素などの音韻情報から得た音韻
環境、モーラ数、アクセント句数、品詞などの言語情報
から得た言語環境に関する情報などがある。次にステッ
プＳ３０２に進み、まず大局的なセグメントに対する継
続時間長を大局的セグメントに対する大局的継続時間長
モデル３０１に基づいて設定する。ここで、大局的なセ
グメントは、アクセント句、単語、フレーズ、文など
の、発話上ひとまとまりにして処理できる（発話単位と
いう）からなる。

【００１６】次にステップＳ３０３に進み、局所的なセ
グメントに対する継続時間長を、局所的セグメントに対
する局所的継続時間長モデル３０２に基づいて設定す
る。ここで、局所的なセグメントは、音素、音節、モー
ラなどの発話単位を構成する音韻単位からなる。

【００１７】そして最後にステップＳ３０４に進み、ス
テップＳ３０３で得られる局所的なセグメントの継続時
間長の和によって得られる大局的なセグメントに対する
継続時間長と、ステップＳ３０２で設定される大局的な
セグメントに対する継続時間長との差分を、ステップＳ
３０２で設定される大局的継続時間長となるように、局
所的なセグメントの継続時間長を局所的継続時間伸縮モ
デル３０３を用いて伸縮することにより、各音韻の局所
的継続時間長を決定する。

【００１８】具体例として、いまテキストデータとして
「花が」が入力された場合、個の文字列から解析された
音韻系列を大局的セグメントとし、これをモーラを音韻
単位とする局所的セグメントに分割すると「ha」「na」
「ga」となる。ここで各モーラの平均継続時間長(durat
ion)を、例えば１００ミリ秒とし、実際の測定されたこ
の大局的セグメントの時間長が６００ミリ秒であったと
すると、大局的セグメントの時間長が６００ミリ秒に対
して、局所的なセグメントの継続時間長の和によって得
られる大局的継続時間長は３００ミリ秒となり、３００
ミリ秒の差が生じることになる。

【００１９】ここで次に、大局的なセグメントに対する
大局的継続時間長モデル３０１の作成方法と、ステップ
Ｓ３０２の大局的なセグメントに対する継続時間長の設
定処理を図４のフローチャートを参照して説明する。

【００２０】図４は、大局的なセグメントに対する大局
的継続時間長モデル３０１の作成方法を示すフローチャ
ートである。

【００２１】まずステップＳ４０１において、大局的な
セグメントに対する大局的継続時間長モデルを作成する
ための複数個の学習サンプルを有する音声ファイル４０
１と、音素や音節などの開始、終了時間情報等の継続時
間長の抽出に必要な情報を有するサイド情報ファイル４
０２とを用いて、大局的継続時間長を抽出する。次にス
テップＳ４０２に進み、音素などの音韻情報から得た音
韻環境、モーラ数、アクセント句数、品詞などの言語情
報から得た言語環境に関する情報を有する音韻・言語環
境ファイル４０３と、ステップＳ４０１で抽出した大局
的継続時間長の情報とを用いて、所定の言語環境を考慮
した大局的継続時間長モデル３０１を作成する。

【００２２】具体的な処理手順は以下の通りである。大
局的セグメントの継続時間長モデル３０１を作成するた
めの音声ファイル４０１中の学習サンプル数をＫとし、
この内のｋ番目の学習サンプルにおける大局的セグメン
トの継続時間長をｄkとする。本実施の形態では、大局
的継続時間長ｄkを直接予測するモデルを作成するので
はなく、Ｋ個の学習サンプルから求めた大局的セグメン
トの平均継続時間長~ｄを用いて、大局的セグメントの
継続時間長ｄkを、ｓk＝ｄk／~ｄ …式(1) と正規化したｓkを予測するモデルを作成する。ここ
で、大局的セグメントの平均継続時間長~ｄは、様々な
方法で求めることができるが、例えば、ｄkを平均モー
ラ継続時間長（１モーラ当りの平均継続時間長）とした
場合、 ~ｄ＝（１／Ｋ）Σ（ｄk／Ｎk） (Σはk=1〜Kの総和) …式(2) として求めることができる。ここでＮkは、ｋ番目の学
習サンプルにおけるモーラ数である。

【００２３】このとき、大局的継続時間長ｄkを正規化
したｓkの予測値^ｓkは、線形重回帰分析法を用いれ
ば、次式のようにして求めることができる。

【００２４】 ^ｓk＝ａ0＋ΣΣａi,j×ｘk,i,j （最初のΣはi=1〜I、次のΣはj=1〜Jiの総和をそれぞれ示す） …式(3) ここで、Ｉは音韻・言語環境要因（アイテム）数、Ｊi
は要因ｉ（例えば、音素種類やアクセント句数）に対す
るカテゴリ数を表す。また、ｘk,i,jは、サンプルｋの
要因ｉのカテゴリｊ（例えば音素セットやアクセントタ
イプ等）における説明変数、ａi,jは、要因ｉのカテゴ
リｊに対する回帰係数、ａ0は定数項である。この予測
値^ｓkを用いて、ｋ番目のサンプルに対する大局的なセ
グメントの大局的継続時間長^ｄkは、式(1)より、 ^ｄk＝^ｓk×~ｄ …式(4) として求めることができる。この式（４）が大局的時間
長モデル３０１となる

【００２５】上記Ｉ及びＪiの値は実に様々な選び方が
考えられるが、例えば、要因ｉとして大局的セグメント
内の音素種類とアクセント句数を選び、それぞれのカテ
ゴリｊとして２６種類の音素セットと大局的セグメント
内のアクセント句数（１，２，３，４以上）を選んだ場
合、Ｉ＝２，Ｊ1＝２６，Ｊ2＝４となる。

【００２６】次に、局所的なセグメントに対する局所的
継続時間長モデル３０２の作成方法と、ステップＳ３０
３の局所的なセグメントに対する局所的継続時間長の設
定処理を図５のフローチャートを参照して説明する。こ
れらの処理は、大局的なセグメントと同様に以下のよう
に行う。

【００２７】図５は、局所的なセグメントに対する局所
的継続時間長モデル３０２の作成方法を示すフローチャ
ートである。

【００２８】まずステップＳ５０１において、局所的な
セグメントに対する継続時間長モデルを作成するための
複数個の学習サンプルを有する音声ファイル５０１と、
音素や音節などの開始、終了時間情報等のような継続時
間長の抽出に必要な情報を有するサイド情報ファイル５
０２とを用いて、局所的継続時間長を抽出する。次にス
テップＳ５０２に進み、音素などの音韻情報から得た音
韻環境、モーラ数、アクセント句数、品詞などの言語情
報から得た言語環境に関する情報を有する音韻・言語環
境ファイル５０３と、ステップＳ５０１で抽出した局所
的継続時間長の情報とを用いて、所定の音韻環境を考慮
した局所的セグメント継続時間長モデル３０２を作成す
る。

【００２９】具体的な処理手順は、前述の大局的なセグ
メントの大局的継続時間長モデル３０１と同様の方法を
用いてもよい。つまり、Ｋ個の学習サンプルから求めた
局所的セグメントの平均継続時間長を用いて局所的継続
時間長を正規化したモデルを作成し、このモデルに基づ
いて局所的継続時間長モデル３０２を作成しても良い。

【００３０】最後に、ステップＳ３０２で得られる大局
的なセグメントに対する大局的継続時間長と、ステップ
Ｓ３０３で得られる複数の局所的なセグメントに対する
局所的継続時間長との和から求まる大局的なセグメント
に対する大局的継続時間長との差（例えば前述の具体例
では(600-300=)３００ミリ秒）を、音韻の継続時間長に
関する統計量（平均値、分散）を用いて、大局的なセグ
メントに対する大局的継続時間長に等しくするように、
ステップＳ３０４において伸縮処理を行う。この具体的
な方法としては、例えば、特開平１１−２５９０９５号
公報で示されるような、音韻の継続時間長に関する統計
量を用いた伸縮方法などの手段を用いることによって実
現できる。

【００３１】例えば、ある音韻に対する音韻時間長の決
定の一例として、音韻時間長の平均値、標準偏差、最小
値を、音韻の種類（αi）毎に求め、これらをメモリに
格納しておき、これらの値を用いて音韻αiに関する音
韻時間長ｄiの初期値ｄαiを決定する。そして、これに
基づいて、音韻時間長ｄiが決定される。

【００３２】ｄi＝ｄαi＋ρ（σαi）² ρ＝（Ｔ−Σｄαi）／Σ（σαi）² ここで、Ｔは発生時間（Ｔ＝Σｄi）を示し、σαiは音
韻時間長の標準偏差を示す。またΣはｉ＝１〜Ｎ（サン
プル数）の総和を示す。

【００３３】［実施の形態２］上記実施の形態１では、
大局的セグメントの継続時間長ｄkを大局的セグメント
の平均継続時間長~ｄで除した式(1)を推定するモデルを
学習し、このモデルから得られる大局的継続時間長を用
いて局所的な継続時間長を再設定したが、実施の形態２
では、大局的セグメントの継続時間長と平均継続時間長
の差分値に基づいて大局的時間長モデルを構成する。な
お、実施の形態２によるハードウェア構成、手順は第１
の実施の形態（図１〜図５）と同様であるので、それら
の説明を省略する。

【００３４】本実施の形態２では、実施の形態１におけ
る式(1)をｓk＝ｄk−~ｄ …式(5) と変更し、学習サンプルごとの大局的なセグメントの継
続時間長から平均継続時間長~ｄを差し引くことによっ
て、継続時間長ｄkを正規化したｓkを求める。このよう
にして得られたｓkを用いて、前述の実施の形態１と同
様に、線形重回帰分析法を用いて、式(3)と同様にｓkの
予測モデルを作成することができる。このモデルから得
られる大局的なセグメントの継続時間長の予測値^ｓkを
用いれば、ｋ番目のサンプルに対する大局的なセグメン
トの継続時間長^ｄkは、式(5)より、ｄ^k＝^ｓk＋~ｄ …式(6) として求めることができる。この式（６）が実施の形態
２における大局的継続時間長モデルとなる。局所的継続
時間長モデルも同様の方法を用いてモデリングすること
ができる。

【００３５】なお、上記各実施の形態における構成は本
発明の一実施の形態を示したものであり、各種変形が可
能である。変形例を示せば以下の通りである。

【００３６】上述した各実施の形態において、大局的セ
グメントの平均継続時間長~ｄとして平均モーラ継続時
間長を用いたが、平均を求める際にモーラを単位として
いるのは一例であり、音節や音素といったこれ以外の音
韻単位を用いることができる。また、本発明は日本語以
外の言語にも適用可能である。

【００３７】上述した各実施の形態において、大局的セ
グメントの線形重回帰モデルの要因とカテゴリは一例を
示すものであり、他の要因やカテゴリを用いてもよい。

【００３８】また本発明の目的は、前述した実施の形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ（又はＣＰＵや
ＭＰＵ）が記憶媒体に格納されたプログラムコードを読
出し実行することによっても達成される。この場合、記
憶媒体から読出されたプログラムコード自体が前述した
実施の形態の機能を実現することになり、そのプログラ
ムコードを記憶した記憶媒体は本発明を構成することに
なる。このようなプログラムコードを供給するための記
憶媒体としては、例えば、フロッピィディスク、ハード
ディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯ
Ｍ、ＣＤ−Ｒ、ＤＶＤ、磁気テープ、不揮発性のメモリ
カード、ＲＯＭなどを用いることができる。

【００３９】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施の形態の機
能が実現されるだけでなく、そのプログラムコードの指
示に基づき、コンピュータ上で稼働しているＯＳ（オペ
レーティングシステム）などが実際の処理の一部又は全
部を行い、その処理によって前述した実施の形態の機能
が実現される場合も含まれる。

【００４０】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るＣＰＵなどが実際の処理の一部又は全部を行い、その
処理によって前述した実施の形態の機能が実現される場
合も含まれる。

【００４１】以上説明したように本実施の形態によれ
ば、高精度に大局的及び局所的なセグメントの継続時間
長を設定する手段を用いることにより、より高精度に継
続時間長をモデル化できるようになり、音声合成装置に
おける合成音声の自然性の向上が可能になるという効果
がある。

【００４２】

【発明の効果】以上説明したように本発明によれば、音
韻系列の継続時間長を精度良く設定することを可能と
し、音韻・言語環境に応じた自然な音韻時間長を与える
ことができる。

【図面の簡単な説明】

【図１】本発明の実施の形態に係る音声合成装置のハー
ドウェア構成を示すブロック図である。

【図２】本発明の実施の形態に係る音声合成装置におけ
る音声合成の処理手順を示したフローチャートである。

【図３】図２のステップＳ２０３のプロソディ生成処理
における、継続時間長モデルを用いた音韻系列の継続時
間長の設定手順を示すフローチャートである。

【図４】本実施の形態に係る大局的セグメントに対する
大局的継続時間長モデルの作成方法を示すフローチャー
トである。

【図５】本実施の形態に係る局所的なセグメントに対す
る局所的継続時間長モデルの作成方法を示すフローチャ
ートである。

Claims

【特許請求の範囲】

【請求項１】大局的セグメントの継続時間長モデルに
基づいて、所定単位の音韻系列の継続時間長を求める工
程と、局所的セグメントの継続時間長モデルに基づいて、前記
音韻系列を構成する各音韻の継続時間長を求める工程
と、前記音韻系列の継続時間長と前記各音韻の継続時間長と
に基づいて、前記各音韻の継続時間長を設定する設定工
程と、前記設定工程により設定された前記各音韻の継続時間長
に基づいて音声を合成する音声合成工程と、を有するこ
とを特徴とする音声情報処理方法。
【請求項２】前記局所的セグメントは音素或いは音節
やモーラの少なくともいずれかからなり、前記大局的セ
グメントはアクセント句、単語、フレーズ、文の少なく
ともいずれかからなることを特徴とする請求項１に記載
の音声情報処理方法。
【請求項３】前記大局的セグメントの継続時間長モデ
ルは、前記大局的セグメントの継続時間長と前記大局的
セグメントの平均継続時間長との比に基づいてモデリン
グされたモデルであることを特徴とする請求項１に記載
の音声情報処理方法。
【請求項４】前記大局的セグメントの継続時間長モデ
ルは、前記大局的セグメントの継続時間長と前記大局的
セグメントの平均継続時間長との差に基づいてモデリン
グされたモデルであることを特徴とする請求項１に記載
の音声情報処理方法。
【請求項５】前記大局的セグメントの継続時間長モデ
ルは、線形重回帰モデルによってモデリングされたモデ
ルであることを特徴とする請求項１乃至４のいずれか１
項に記載の音声情報処理方法。
【請求項６】請求項１乃至５のいずれか１項に記載の
音声情報処理方法を実行するプログラムを記憶したこと
を特徴とする、コンピュータにより読取り可能な記憶媒
体。
【請求項７】大局的セグメントの継続時間長モデルに
基づいて、所定単位の音韻系列の継続時間長を求める手
段と、局所的セグメントの継続時間長モデルに基づいて、前記
音韻系列を構成する各音韻の継続時間長を求める手段
と、前記音韻系列の継続時間長と前記各音韻の継続時間長と
に基づいて、前記各音韻の継続時間長を設定する設定手
段と、前記設定手段により設定された前記各音韻の継続時間長
に基づいて音声を合成する音声合成手段と、を有するこ
とを特徴とする音声情報処理装置。
【請求項８】前記局所的セグメントは音素或いは音節
やモーラの少なくともいずれかからなり、前記大局的セ
グメントはアクセント句、単語、フレーズ、文の少なく
ともいずれかからなることを特徴とする請求項７に記載
の音声情報処理装置。
【請求項９】前記大局的セグメントの継続時間長モデ
ルは、前記大局的セグメントの継続時間長と前記大局的
セグメントの平均継続時間長との比に基づいてモデリン
グされたモデルであることを特徴とする請求項７に記載
の音声情報処理装置。
【請求項１０】前記大局的セグメントの継続時間長モ
デルは、前記大局的セグメントの継続時間長と前記大局
的セグメントの平均継続時間長との差に基づいてモデリ
ングされたモデルであることを特徴とする請求項７に記
載の音声情報処理装置。
【請求項１１】前記大局的セグメントの継続時間長モ
デルは、線形重回帰モデルによってモデリングされたモ
デルであることを特徴とする請求項７乃至１０のいずれ
か１項に記載の音声情報処理装置。