JPH1195783A

JPH1195783A - 音声情報処理方法

Info

Publication number: JPH1195783A
Application number: JP9250496A
Authority: JP
Inventors: Takehiko Kagoshima; 岳彦籠嶋; Yoshinori Shiga; 芳則志賀; Shinko Morita; 眞弘森田; Shigenobu Seto; 重宣瀬戸; Takaaki Arai; 孝章新居; Masami Akamine; 政巳赤嶺
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-09-16
Filing date: 1997-09-16
Publication date: 1999-04-09
Anticipated expiration: 2017-09-16
Also published as: US20010051872A1; US6529874B2; JP3667950B2

Abstract

(57)【要約】【課題】テキスト音声合成による合成音の自然性を向
上させることができる音声情報処理方法を提供するこ
と。【解決手段】音声データに含まれる韻律単位を、代表
パターンに対応するクラスタにクラスタリングし、前記
クラスタ毎に、当該クラスタに属する韻律単位に対応す
る第１のピッチパターンを前記音声データより抽出し、
前記クラスタ毎に、当該クラスタに属する韻律単位に対
応するピッチパターンであって当該クラスタの代表パタ
ーンに変形を行って生成される第２のピッチパターンと
前記第１のピッチパターンとの間で定義される歪みの評
価関数に従って当該クラスタの代表パターンを生成する
ことを特徴とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、テキスト音声合成
で用いられるピッチパターンを生成するための音声情報
処理方法に関する。

【０００２】

【従来の技術】任意の文章から人工的に音声信号を作り
出すことをテキスト合成という。通常テキスト合成シス
テムは、言語処理部・制御パラメータ生成部・音声信号
生成部の３つの段階から構成される。入力されたテキス
トは、まず言語処理部において形態素解析や構文解析な
どが行われる。次に制御パラメータ生成部においてアク
セントやイントネーションの処理が行われ、音韻記号列
・ピッチパターン・音韻継続時間長などの情報が出力さ
れる。最後に、音声信号生成部で音声信号が合成され
る。

【０００３】テキスト合成システムの中で合成音声の自
然性に関係するのが制御パラメータ生成部における韻律
処理であり、とりわけピッチパターンが合成音声の自然
性を大きく左右する。従来のテキスト合成システムで
は、比較的単純なモデルを用いてピッチパターンの生成
を行っていたため、抑揚が不自然で機械的な音声となっ
ていた。

【０００４】近年、自然音声から抽出されたピッチパタ
ーンをそのまま用いてピッチパターンの生成を行う方法
が提案されている。例えば、特開平６−２３６１９７で
は、自然音声のピッチパターンから切り出されたユニッ
トパターンか、または切り出されたユニットパターンを
ベクトル量子化したものを記憶しておき、入力属性また
は入力言語情報に基づいて適合するユニットパターンを
検索し、これらのユニットパターンを時間軸上に配置し
変形することによってピッチパターンを生成する方法が
開示されている。

【０００５】

【発明が解決しようとする課題】上述したような従来の
テキスト音声合成においては、全ての入力属性あるいは
入力言語情報に適合するユニットパターンを記憶してお
くことは不可能なので、ユニットパターンの変形が必要
となる。例えば、入力された継続時間長に合うようにユ
ニットパターンを伸縮させることが必要となる。しかし
ながら、ユニットパターンが自然音声のピッチパターン
から切り出されたものであったとしても、このような変
形処理によって自然性が低下するという問題がある。

【０００６】本発明は、上記事情を考慮してなされたも
のであり、テキスト音声合成による合成音の自然性を向
上させることができる音声情報処理方法を提供すること
を目的とする。

【０００７】

【課題を解決するための手段】本発明（請求項１）に係
る音声情報処理方法は、音声データに含まれる韻律単位
を、代表パターンに対応するクラスタにクラスタリング
し、前記クラスタ毎に、当該クラスタに属する韻律単位
に対応する第１のピッチパターンを前記音声データより
抽出し、前記クラスタ毎に、当該クラスタに属する韻律
単位に対応するピッチパターンであって当該クラスタの
代表パターンに変形を行って生成される第２のピッチパ
ターンと前記第１のピッチパターンとの間で定義される
歪みの評価関数に従って当該クラスタの代表パターンを
生成することを特徴とする。

【０００８】韻律単位とは、ピッチパターン生成の単位
であって、（１）アクセント句、（２）ピッチパターン
の形状に応じてアクセント句を複数の区間に分割した単
位、（３）連続するアクセント句の境界を含むような単
位、など種々の単位を用いることができる。

【０００９】代表パターンの変形とは、代表パターンか
らピッチパターンを生成する際に行われる操作であり、
例えば時間軸上の伸縮や、周波数軸上の並行移動または
伸縮や、微分または積分や、フィルタリングなどの組合
せによって実現され、また時間−周波数領域あるいは時
間−対数周波数領域におけるパターンに対して行われる
ものである。

【００１０】クラスタリングとは、韻律単位を何らかの
基準に従って代表パターンに対応するクラスタに分類す
る操作であり、基準としては、当該韻律単位について、
代表パターンより生成されたピッチパターンの誤差や、
当該韻律単位の属性、あるいは誤差と属性の組合せなど
を用いることができる。

【００１１】生成されたピッチパターンの誤差は、韻律
単位に対応する第１のピッチパターンを音声データから
抽出し、前記韻律単位に対応する第２のピッチパターン
を、複数の初期代表パターンに変形を行ってそれぞれ生
成し、前記第２のピッチパターンの前記第１のピッチパ
ターンからの誤差を評価することによって求められる。

【００１２】韻律単位の属性とは、当該韻律単位を含む
音声データまたはその音声データに対応するテキストか
ら抽出される、当該韻律単位およびその近傍の韻律単位
に関する情報であり、例えば、アクセント型・モーラ数
・品詞・音韻・かかり受けなどがある。

【００１３】歪みの評価関数は、複数の韻律単位に対し
て一つの代表パターンから生成されたピッチパターンの
歪みを評価する関数であり、生成されたピッチパターン
と自然音声のピッチパターンとの間もしくはそれらの対
数の間で定義される関数であり、例えば２乗誤差の総和
などを用ることができる。

【００１４】本発明（請求項２）に係る他の音声情報処
理方法は、音声データに含まれる韻律単位を代表パター
ンに対応するクラスタにクラスタリングし、前記クラス
タ毎に、当該クラスタに属する韻律単位に対応する第１
のピッチパターンを前記音声データより抽出し、前記ク
ラスタ毎に、当該クラスタに属する韻律単位に対応する
ピッチパターンであって当該クラスタの代表バターンに
変形を行って生成される第２のピッチパターンと前記第
１のピッチパターンとの間で定義される歪みの評価関数
に従って当該クラスタの代表パターンを生成し、これら
生成された代表パターンを用いてピッチパターンを生成
することを特徴とする。

【００１５】好ましくは、前記クラスタリングにあたっ
ては、前記韻律単位に対応する第１のピッチパターンを
音声データから抽出し、前記韻律単位に対応する第２の
ピッチパターンを、初期代表パターンに変形を行って生
成し、前記第２のピッチパターンの前記第１のピッチパ
ターンからの誤差を評価し、前記誤差の値に従って前記
クラスタリングを行うようにしてもよい。

【００１６】好ましくは、前記クラスタリングにあたっ
ては、前記韻律単位の属性に従って前記クラスタリング
を行うようにしてもよい。好ましくは、前記クラスタリ
ングにあたっては、前記韻律単位に対応する第１のピッ
チパターンを音声データから抽出し、前記韻律単位に対
応する第２のピッチパターンを、初期代表パターンに変
形を行って生成し、前記第２のピッチパターンの前記第
１のピッチパターンからの誤差を評価し、前記誤差の値
および前記韻律単位の属性に従って前記クラスタリング
を行うようにしてもよい。

【００１７】好ましくは、前記歪みの評価関数は前記第
１のピッチパターンの対数と前記第２のピッチパターン
の対数との間で定義されるものであるようにしてもよ
い。好ましくは、前記韻律単位がアクセント句であるよ
うにしてもよい。

【００１８】好ましくは、前記韻律単位が連続するアク
セント句の境界を含むものであるようにしてもよい。好
ましくは、前記代表パターンの変形は時間軸上の伸縮を
含むものであるようにしてもよい。

【００１９】好ましくは、前記代表パターンの変形は周
波数軸上の並行移動および伸縮、ならびに対数周波数軸
上の並行移動および伸縮のうち少なくとも１つを含むも
のであるようにしてもよい。

【００２０】好ましくは、前記代表パターンの変形は微
分および積分の少なくとも一方を含むようにしてもよ
い。本発明（請求項１２）に係る音声情報処理方法は、
韻律単位に対応する第１のピッチパターンを音声データ
から抽出し、前記韻律単位に対応する第２のピッチパタ
ーンを、代表パターンに変形を行って生成し、前記第２
のピッチパターンの前記第１のピッチパターンからの誤
差を評価し、前記誤差の値および前記韻律単位の属性に
従って、属性から代表パターンを選択するための代表パ
ターン選択規則を生成することを特徴とする。好ましく
は、前記代表パターン選択規則を用いて、入力された属
性に基づいて代表パターンを選択することを特徴とす
る。好ましくは、この代表パターン選択規則を用いて入
力された属性に基づいて選択された、代表パターンを用
いてピッチパターンを生成することを特徴とする。

【００２１】本発明（請求項１３）に係る音声情報処理
方法は、韻律単位に対応する第１のピッチパターンを音
声データから抽出し、該第１のピッチパターンと代表パ
ターンより変形パラメータを生成し、前記変形パラメー
タおよび前記韻律単位の属性に従って、属性から変形パ
ラメータを生成するための変形パラメータ生成規則を生
成することを特徴とする。好ましくは、前記変形パラメ
ータ生成規則を用いて、入力された属性に基づいて変形
パラメータを生成することを特徴とする。好ましくは、
この変形パラメータ生成規則を用いて入力された属性に
基づいて生成された、変形パラメータを用いてピッチパ
ターンを生成することを特徴とする。

【００２２】また、本発明に係る音声情報処理装置は、
音声データに含まれる韻律単位を代表パターンに対応す
るクラスタにクラスタリングする韻律単位クラスタリン
グ手段と、前記クラスタ毎に、当該クラスタに属する韻
律単位に対応する第１のピッチパターンを前記音声ファ
イルより抽出するピッチパターン抽出手段と、前記クラ
スタ毎に、当該クラスタに属する韻律単位に対応するピ
ッチパターンであって当該クラスタの代表パターンに変
形を行って生成される第２のピッチパターンと前記第１
のピッチパターンとの間で定義される歪みの評価関数に
従って当該クラスタの代表パターンを生成する代表パタ
ーン生成手段とを備えたことを特徴とする。

【００２３】本発明に係る音声情報処理装置は、音声デ
ータに含まれる韻律単位を代表パターンに対応するクラ
スタにクラスタリングする韻律単位クラスタリング手段
と、前記クラスタ毎に、当該クラスタに属する韻律単位
に対応する第１のピッチパターンを前記音声ファイルよ
り抽出するピッチパターン抽出手段と、前記クラスタ毎
に、当該クラスタに属する韻律単位に対応するピッチパ
ターンであって当該クラスタの代表パターンに変形を行
って生成される第２のピッチパターンと前記第１のピッ
チパターンとの間で定義される歪みの評価関数に従って
当該クラスタの代表パターンを生成する代表パターン生
成手段と、これら生成された代表パターンを用いてピッ
チパターンを生成するピッチパターン生成手段とを備え
たことを特徴とする。

【００２４】好ましくは、前記韻律単位クラスタリング
手段は、前記韻律単位に対応する第１のピッチパターン
を音声データから抽出し、前記韻律単位に対応する第２
のピッチパターンを、初期代表パターンに変形を行って
生成し、前記第２のピッチパターンの前記第１のピッチ
パターンからの誤差を評価し、前記誤差の値に従って韻
律単位のクラスタリングを行うようにしてもよい。

【００２５】好ましくは、前記韻律単位クラスタリング
手段は、前記韻律単位の属性に従って韻律単位のクラス
タリングを行うようにしてもよい。好ましくは、前記韻
律単位クラスタリング手段は、前記韻律単位に対応する
第１のピッチパターンを音声データから抽出し、前記韻
律単位に対応する第２のピッチパターンを、初期代表パ
ターンに変形を行って生成し、前記第２のピッチパター
ンの前記第１のピッチパターンからの誤差を評価し、前
記誤差の値および前記韻律単位の属性に従って韻律単位
のクラスタリングを行うようにしてもよい。

【００２６】好ましくは、前記歪みの評価関数は前記第
１のピッチパターンの対数と前記第２のピッチパターン
の対数との間で定義されるものであるようにしてもよ
い。好ましくは、前記韻律単位がアクセント句であるよ
うにしてもよい。

【００２７】好ましくは、前記韻律単位が連続するアク
セント句の境界を含むものであるようにしてもよい。好
ましくは、前記代表パターンの変形は時間軸上の伸縮を
含むものであるようにしてもよい。

【００２８】好ましくは、前記代表パターンの変形は周
波数軸上の並行移動および伸縮、ならびに対数周波数軸
上の並行移動および伸縮のうち少なくとも１つを含むも
のであるようにしてもよい。

【００２９】好ましくは、前記代表パターンの変形は微
分および積分の少なくとも一方を含むものであるように
してもよい。本発明に係る音声情報処理装置は、韻律単
位に対応する第１のピッチパターンを音声データから抽
出するピッチパターン抽出手段と、前記韻律単位に対応
する第２のピッチパターンを、代表パターンに変形を行
って生成するピッチパターン生成手段と、前記第２のピ
ッチパターンの前記第１のピッチパターンからの誤差を
評価する誤差評価手段と、前記誤差の値および前記韻律
単位の属性に従って、属性から代表パターンを選択する
規則を生成するための選択規則生成手段とを備えたこと
を特徴とする。好ましくは、前記代表パターン選択規則
を用いて入力された属性より代表パターンを選択する代
表パターン選択手段をさらに備えたことを特徴とする。
また、好ましくは、前記代表パターン選択手段により選
択された代表パターンを用いてピッチパターンを生成す
るピッチパターン生成手段をさらに備えたことを特徴と
する。

【００３０】本発明に係る音声情報処理装置は、韻律単
位に対応する第１のピッチパターンを音声データから抽
出するピッチパターン抽出手段と、前記第１のピッチパ
ターンと代表パターンより変形パラメータを生成する第
１の変形パラメータ生成手段と、前記変形パラメータお
よび前記韻律単位の属性に従って、属性から変形パラメ
ータを生成するための変形パラメータ生成規則を生成す
る変形パラメータ生成規則生成手段とを備えたことを特
徴とする。好ましくは、前記変形パラメータ生成規則を
用いて、入力された属性に基づいて変形パラメータを生
成する第２の変形パラメータ生成手段をさらに備えたこ
とを特徴とする。また、好ましくは、前記第２の変形パ
ラメータ生成手段により生成された代表パターンを用い
てピッチパターンを生成するピッチパターン生成手段を
さらに備えたことを特徴とする。

【００３１】なお、以上の各装置に係る発明は方法に係
る発明としても成立し、方法に係る発明は装置に係る発
明としても成立する。また、上記の発明は、相当する手
順あるいは手段をコンピュータに実行させるためのプロ
グラムを記録した機械読取り可能な媒体としても成立す
る。

【００３２】本発明では、代表パターンに対して変形を
行って生成されるピッチパターンの自然音声のピッチパ
ターンに対する誤差の評価関数に基づいて代表パターン
を生成し、その代表パターンを用いてテキスト合成にお
けるピッチパターンの生成を行っているため、変形によ
って自然性が劣化することなく、自然性の高い合成音声
を生成させることが可能である。

【００３３】また、本発明では、代表パターンに対して
変形を行って生成されるピッチパターンの自然音声のピ
ッチパターンに対する誤差と属性より代表パターン選択
規則を生成すると共に、代表パターンと自然音声のピッ
チパターンより生成される変形パラメータと韻律単位の
属性より変型パラメータ生成規則を生成し、これらを用
いて入力属性から適切な代表パターンを選択し、変形を
行うことによってピッチパターンを生成しているため、
より自然音声に近い合成音声を生成させることができ
る。このように本発明によれば、テキスト音声合成によ
る合成音声の自然性を効果的に向上させ、高品質な合成
音声を提供することができるようになる。

【００３４】

【発明の実施の形態】以下、図面を参照して本発明の一
実施形態を説明する。本実施形態は、概略的には、代表
パターンに対して入力属性に応じた変形を行って生成さ
れるピッチパターンが自然音声のピッチパターンに近く
なるような代表パターンを生成し、またそのようにして
得た代表パターンを用いてピッチパターンを生成するこ
とにより、自然音声に近い自然性を持った合成音声を生
成するようにしたものである。

【００３５】図１は、本発明の一実施形態に係る音声情
報処理方法を実現する音声情報処理装置の構成を示すブ
ロック図であり、大きく分けて学習系１とピッチ制御系
２よりなる。実際にテキスト音声合成を行う場合に動作
するのはピッチ制御系２であり、学習系１は事前に学習
を行って代表パターンなどを生成するものである。

【００３６】まず、学習系１について説明する。学習系
１は、韻律単位に対応する大量のピッチパターン１０１
と、ピッチパターン１０１に対応する属性１０２を用い
て、代表パターン１０３、変形パラメータ生成規則１０
６、代表パターン選択規則１０５を生成する。

【００３７】本実施形態では、アクセント句（例えば図
６に示すように「青森の」、「兄の」、「雨具を」等）
を韻律単位とする場合について説明するが、ピッチパタ
ーンの形状に応じてアクセント句を複数の区間に分割し
た単位や、連続するアクセント句の境界を含むような単
位などを用いてもよい。韻律単位の例を図３に示す。

【００３８】以下の説明では、ピッチパターン１０１に
含まれるアクセント句の数をＮ、代表パターン１０３の
代表パターン数（クラスタ数）をｎとし、各アクセント
句に対応するピッチパターンをベクトルｒ_j ，（ｊ＝１
…Ｎ）で、代表パターンをベクトルｕ_i ，（ｉ＝１…
ｎ）で表すものとする。

【００３９】ここで、図２に示したブロック図を用いて
ピッチパターン１０１と属性１０２の生成手順の一例に
ついて説明する。なお、図２のブロック図に係るデータ
生成機能は、ソフトウェアでもハードウェアでも実現可
能である。

【００４０】音声データ１１１は、連続発声された多数
の音声データを表している。テキスト１１０は、音声デ
ータ１１１の発声内容に対応する文章のデータである。
テキスト解析部３１は、テキスト１１０に対して形態素
解析などのテキスト解析を行って、テキストをアクセン
ト句単位に分割し、各アクセント句に対して属性１０２
を付与する。属性１０２は、当該アクセント句およびそ
の近傍のアクセント句に関する情報であり、例えば、ア
クセント型・モーラ数・品詞・音韻・係り受けなどの情
報である。

【００４１】音韻ラベリング部３２は、音声データ１１
１と対応するテキスト１１０に従って音韻の境界を検出
し、音声データ１１１に音韻ラベル１１２を付与する。
ピッチ抽出部３３は、音声データ１１１にピッチ抽出を
行って、基本周波数の時間変化パターンであるピッチパ
ターンを文章全体について生成し、文ピッチパターン１
１３を出力する。

【００４２】アクセント句切り出し部３４は、音韻ラベ
ル１１２と属性１０２を参照して、文ピッチパターン１
１３からアクセント句毎のピッチパターンを切り出して
ピッチパターン１０１を出力する。

【００４３】次に学習系１の詳細な動作について説明す
る。なお、学習に先だって、予めｎ個の代表パターンが
設定されているものとする。この代表パターンは、例え
ば先見的な知識に基づいて用意した適当な特性を持つも
のであってもよいし、あるいはノイズ・データを用いる
ことも可能である。

【００４４】まず、選択規則生成部１８は、アクセント
句の属性とピッチパターンに関する先見的な知識や属性
１０２の分布などを基にして、あるアクセント句につい
て、当該アクセント句の属性および当該アクセント句の
近傍のアクセント句の属性などから、当該アクセント句
がどのクラスタに属するかを決定するための規則（すな
わち属性から代表パターンを選択する規則）である代表
パターン選択規則１０５を生成する。

【００４５】クラスタリング部１２は、代表パターン選
択規則１０５に従ってアクセント句の属性１０２からピ
ッチパターンのクラスタを選択することによって、全て
のピッチパターンを代表パターンに対応するｎ個のクラ
スタにクラスタリングし、クラスタ情報１０８を出力す
る。

【００４６】変形パラメータ生成部１０は、代表パター
ン１０３を変形したものがピッチパターン１０１を近似
するように変形パラメータ１０４を生成する。代表パタ
ーン１０３は、図４（ａ）で表されるような、基本周波
数の変化を表すパターンである。ただし、縦軸は基本周
波数の対数を表している。

【００４７】パターンの変形は、時間軸上の伸縮、周波
数軸上の伸縮、周波数軸上の並行移動、微分、積分、フ
ィルタリングなどの組合せによって実現される。図４
（ａ）の代表パターンを、時間軸上で伸縮した例を
（ｂ）に、周波数軸上で伸縮した例を（ｃ）に、周波数
軸上で並行移動した例を（ｄ）に、微分した例を（ｅ）
にそれぞれ示す。時間軸上の伸縮は、線形伸縮以外に継
続時間長の情報などを用いた非線形な伸縮を用いること
もできる。またこれらの変形は、基本周波数の対数のパ
ターンかあるいは基本周波数そのもののパターンに対し
て行われる。また、代表パターン１０３として、基本周
波数のパターンを微分して得られる基本周波数の傾きを
表すパターンを用いても良い。

【００４８】これらの変形処理の組合せを関数ｆ（）
で、伸縮率や移動量などの変形のパラメータの組みをベ
クトルｐで、代表パターンをベクトルｕで表すと、変形
によって生成されるパターンを表すベクトルｓは次式で
表すことができる。

【００４９】ｓ＝ｆ（ｐ，ｕ） …（１）代表パターンｕ_i を変形してピッチパターンｒ_j を近似
する変形パラメータ１０４を表すベクトルｐ_ijは、次式
で表される誤差ｅ_ijを最小化するようなｐ_ijを探索する
ことによって求められる。

【００５０】ｅ_ij＝（ｒ_j −ｆ（ｐ_ij，ｕ_i ))^T （ｒ_j −ｆ（ｐ_ij，ｕ_i ))…（２）変形パラメータはピッチパターン１０１の全てのアクセ
ント句と代表パターン１０３の全ての代表パターンの組
合せに対して生成されるため、全部でｎ×Ｎ個の変形パ
ラメータｐ_ij，（ｉ＝１…ｎ）（ｊ＝１…Ｎ）が生成さ
れる。

【００５１】代表パターン生成部１１は、クラスタ情報
１０８で表されるクラスタ毎に、ピッチパターン１０１
と変形パラメータ１０４より代表パターン１０３を生成
する。ｉ番目のクラスタの代表パターンｕ_i は、評価関
数Ｅ_i （ｕ_i ）をｕ_i について偏微分して０とおいた次
式で表される方程式を解くことによって求められる。

【００５２】

【数１】評価関数Ｅ_i （ｕ_i ）は、当該クラスタに属するピッチ
パターンｒ_j を代表パターンｕ_i を用いて近似した際の
誤差の総和を表しており、次式で定義される。

【００５３】

【数２】

【００５４】ただし、ｒ_j は、ｉ番目のクラスタに属す
るピッチパターンを表している。また、（４）式が偏微
分できない場合や、（３）式が解析的には解けない場合
は、なんらかの公知の最適化手法を用いて（４）式の評
価関数を最小にするｕ_i を探索することによって代表パ
ターンを求めることができる。

【００５５】上述した変形パラメータ生成部１０におけ
る変形パラメータの生成と、代表パターン生成部１１に
おける代表パターン１０３の生成は、（４）式の評価関
数が収束するまで（予め規定した収束条件が成立するま
で）、繰り返し実行するのが好ましい。

【００５６】そして、変形パラメータ生成規則生成部１
５は、ピッチパターン１０１に対応する変形パラメータ
１０４および属性１０２より、変形パラメータ生成規則
１０６を生成する。変形パラメータ生成規則は、入力属
性から変形パラメータを生成するための規則であり、数
量化Ｉ類などの統計的手法や、なんらかの帰納学習法な
ど公知の方法を用いて生成することが可能である。

【００５７】次にピッチ制御系２について説明する。ピ
ッチ制御系２は、テキスト合成システムに入力されたテ
キストにテキスト解析を行って得られるアクセント句毎
の入力属性１２０より、代表パターン１０３、変形パラ
メータ生成規則１０６、代表パターン選択規則１０５を
参照して、文章全体のピッチパターンである文ピッチパ
ターン１２３を出力する。

【００５８】代表パターン選択部２１は、代表パターン
選択規則１０５と入力属性１２０に従って、代表パター
ン１０３より当該アクセント句に適した代表パターン１
２１を選択して出力する。

【００５９】変形パラメータ生成部２０は、変形パラメ
ータ生成規則１０６と入力属性１２０に従って、変形パ
ラメータ１２４を生成して出力する。パターン変形部２
２は、変形パラメータ１２４に従って代表パターン１２
１を変形してピッチパターン１２２を出力する。代表パ
ターンの変形は、変形パラメータ生成部１０で定義され
た変形処理の組合せを表す関数ｆ（）による変形と同
様に行われる。

【００６０】パターン接続部２３は、アクセント句毎の
ピッチパターン１２２を接続し、接続部におけるピッチ
パターンが不連続になるのを避けるため、接続部でパタ
ーンの平滑化を行った文ピッチパターン１２３を出力す
る。

【００６１】本実施形態によれば、代表パターンに対し
て変形を行って生成されるピッチパターンの自然音声の
ピッチパターンに対する誤差の評価関数に基づいて代表
パターンを生成し、その代表パターンを用いてテキスト
合成におけるピッチパターンの生成を行っているため、
変形によって自然性が劣化することなく、自然性の高い
合成音声を生成させることができる。

【００６２】次に、本発明の別の実施形態について説明
する。図５は、本発明の他の実施形態に係る音声情報処
理方法を実現する音声情報処理装置の構成を示すブロッ
ク図である。図１と相対応する部分に同一の参照符号を
付して相違点を中心に説明すると、本実施形態では、ピ
ッチパターンのクラスタリングの方法および代表パター
ン選択規則の生成法がこれまでの実施形態と異なってい
る。

【００６３】すなわち、先の実施形態では、先見的な知
識や属性の分布に従って代表パターン選択規則を生成
し、その後で代表パターン選択規則にしたがってアクセ
ント句のクラスタリングを行ったが、本実施形態では、
代表パターンに変形を行って得られるピッチパターンと
音声データより抽出されたピッチパターンの誤差に基づ
いて、アクセント句のクラスタリングおよび代表パター
ン選択規則の生成を行う。

【００６４】本実施形態では、まず、変形パラメータ生
成部１０は、代表パターン１０３を変形したものがピッ
チパターン１０１を近似するように変形パラメータ１０
４を生成する。

【００６５】次に、クラスタリングを行う。以下、本実
施形態におけるピッチパターンのクラスタリング方法の
詳細について説明する。パターン変形部１３は、変形パ
ラメータ１０４に従って代表パターン１０３を変形して
ピッチパターン１０９を出力する。代表パターンの変形
は、変形パラメータ生成部１０で定義された変形処理の
組合せを表す関数ｆ（）による変形と同様に行われ
る。Ｎ個のアクセント句のピッチパターンｒ_j ，（ｊ＝
１…Ｎ）に対してそれぞれｎ個の代表パターンｕ_i ，
（ｉ＝１…ｎ）の全てを変形してｎ個のピッチパターン
ｓ_ij，（ｉ＝１…ｎ）を生成する。

【００６６】誤差評価部１４は、ピッチパターン１０９
とピッチパターン１０１の誤差を評価して、誤差情報１
０７を出力する。誤差は次式で定義される２乗誤差を用
いる。

【００６７】ｅ_ij＝（ｒ_j −ｓ_ij）^T （ｒ_j −ｓ_ij） …（５）誤差はピッチパターン１０１の全てのアクセント句と代
表パターン１０３の全ての代表パターンの組合せに対し
て生成されるため、全部でｎ×Ｎ個の誤差の値ｅ_ij，
（ｉ＝１…ｎ）（ｊ＝１…Ｎ）が生成される。

【００６８】クラスタリング部１７は、誤差情報１０７
に従ってピッチパターン１０１を代表パターンに対応す
るｎ個のクラスタにクラスタリングし、クラスタ情報１
０８を出力する。代表パターンｕ_i に対応するクラスタ
をＧ_i で表すと、誤差ｅ_ijを用いてピッチパターンｒ_j
は次式のようにクラスタリングされる。

【００６９】Ｇ_i ＝｛ｒ_j ｜ｅ_ij＝min ［ｅ_1j，…，ｅ_nj］｝ …（６）ただし、記号min ［ｘ₁ ，…，ｘ_n ］はｘ₁ ，…，ｘ_n
の中の最小の値を表している。

【００７０】そして、代表パターン生成部１１は、クラ
スタ情報１０８で表されるクラスタ毎に、ピッチパター
ン１０１と変形パラメータ１０４より代表パターン１０
３を生成する。

【００７１】なお、先の実施形態と同様に、変形パラメ
ータの生成、クラスタリング、代表パターンの生成は、
（４）式の評価関数が収束するまで（予め規定した収束
条件が成立するまで）、繰り返し実行するのが好まし
い。

【００７２】上記の処理が終了したら、変形パラメータ
生成規則生成部１５による変形パラメータ生成規則１０
６の生成と選択規則生成部１６による代表パターン選択
規則１０５の生成を行う。

【００７３】次に、本実施形態における代表パターン選
択規則の生成法について説明する。選択規則生成部１６
は、誤差情報１０７および属性１０２より、代表パター
ン選択規則１０５を生成する。代表パターン生成規則
は、入力属性から代表パターンを選択するための規則で
あり、数量化Ｉ類などの統計的手法や、なんらかの帰納
学習法など公知の方法を用いて生成することが可能であ
る。

【００７４】以上のような本実施形態によれば、代表パ
ターンに対して変形を行って生成されるピッチパターン
の自然音声のピッチパターンに対する誤差と属性より代
表パターン選択規則を生成すると共に、代表パターンと
自然音声のピッチパターンより生成される変形パラメー
タと韻律単位の属性より変型パラメータ生成規則を生成
し、これらを用いて入力属性から適切な代表パターンを
選択し、変形を行うことによってピッチパターンを生成
しているため、より自然音声に近い合成音声を生成する
ことができる。

【００７５】次に、本発明のさらに別の実施形態につい
て説明する。図６は、本発明の他の実施形態に係る音声
情報処理方法を実現する音声情報処理装置の構成を示す
ブロック図である。図１、図５と相対応する部分に同一
の参照符号を付して相違点を中心に説明すると、本実施
形態では、代表パターン生成部の入力となる変形パラメ
ータとクラスタ情報の生成方法がこれまでの実施形態と
異なっている。

【００７６】すなわち、図１および図５の実施形態で
は、代表パターン１０３とピッチパターン１０１より生
成された最適な変形パラメータを用いて代表パターンの
生成を行っているのに対して、本実施形態では、変形パ
ラメータ生成規則により生成された変形パラメータを用
いて代表パターンの生成を行っている点が異なってい
る。

【００７７】本実施形態では、変形パラメータ生成部１
９において、変形パラメータ生成規則１０６と属性１０
２に従って、変形パラメータ１１４を生成し、これを入
力として代表パターン生成部１１において代表パターン
の生成を行っている。

【００７８】クラスタリング部１２は、代表パターン選
択規則１０５に従ってアクセント句の属性１０２からピ
ッチパターンのクラスタを選択することによって、全て
のピッチパターンを代表パターンに対応するｎ個のクラ
スタにクラスタリングし、クラスタ情報１０８を出力す
る。

【００７９】つまり、本実施形態では、変形パラメータ
の生成、代表パターン選択規則の生成、クラスタリン
グ、変形パラメータ生成規則の生成、代表パターンの生
成を一連の処理として実行される。なお、変形パラメー
タ生成規則の生成は、変形パラメータの生成の後でかつ
代表パターンの生成の前であれば、代表パターン選択規
則の生成およびクラスタリングとは、独立して任意のタ
イミングで実行可能である。先の実施形態と同様に、こ
の一連の処理は、（４）式の評価関数が収束するまで
（予め規定した収束条件が成立するまで）、繰り返し実
行するのが好ましい。

【００８０】上記の一連の処理が終了したら、その時点
における変形パラメータ生成規則１０６と代表パターン
選択規則１０５を採用する。あるいは、最終的に得られ
た代表パターンを用いてもう一度計算し直したものを採
用してもよい。

【００８１】なお、以上の各実施形態では、学習系１と
ピッチ制御系２を有する音声情報処理装置として説明し
たが、学習系１のみを有する学習用の音声情報処理装
置、ピッチ制御系２のみを有するピッチ制御の音声情報
処理装置、あるいは学習系１から代表パターン１０３、
変形パラメータ生成規則１０６、代表パターン選択規則
１０５の記憶部を除いた部分のみ有する音声情報処理装
置、ピッチ制御系２から代表パターン１０３、変形パラ
メータ生成規則１０６、代表パターン選択規則１０５の
記憶部を除いた部分のみ有する音声情報処理装置として
構成することも可能である。

【００８２】また、以上の各機能は、ハードウェアとし
てもソフトウェアとしても実現可能である。また、上記
した各手順あるいは手段をコンピュータに実行させるた
めのプログラムを記録した機械読取り可能な媒体として
実施することもできる。本発明は、上述した実施の形態
に限定されるものではなく、その技術的範囲において種
々変形して実施することができる。

【００８３】

【発明の効果】本発明によれば、代表パターンに対して
変形を行って生成されるピッチパターンの自然音声のピ
ッチパターンに対する誤差の評価関数に基づいて代表パ
ターンを生成し、その代表パターンを用いてテキスト合
成におけるピッチパターンの生成を行っているため、変
形によって自然性が劣化することなく、自然性の高い合
成音声を生成することが可能である。

【００８４】また、本発明によれば、代表パターンに対
して変形を行って生成されるピッチパターンの自然音声
のピッチパターンに対する誤差と属性より代表パターン
選択規則を生成すると共に、代表パターンと自然音声の
ピッチパターンより生成される変形パラメータと韻律単
位の属性より変型パラメータ生成規則を生成し、これら
を用いて入力属性から適切な代表パターンを選択し、変
形を行うことによってピッチパターンを生成しているた
め、より自然音声に近い合成音声を生成することができ
る。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る音声情報処理装置の
構成を示すブロック図

【図２】ピッチパターンと属性の生成方法の一例を説明
するための図

【図３】本発明の実施形態における韻律単位の例を示す
模式図

【図４】本発明の実施形態における代表パターンの変形
の例を示す模式図

【図５】本発明の別の実施形態に係る音声情報処理装置
の構成を示すブロック図

【図６】本発明のさらに別の実施形態に係る音声情報処
理装置の構成を示すブロック図

【符号の説明】

１…学習系２…ピッチ制御系１０，１９，２０…変形パラメータ生成部１１…代表パラメータ生成部１２，１７…クラスタリング部１３，２２…パターン変形部１４…誤差評価部１５…変形パラメータ生成規則生成部１６，１８…選択規則生成部２１…代表パターン選択部２３…パターン接続部３１…テキスト解析部３２…音韻ラベリング部３３…ピッチ抽出部３４…アクセント句切り出し部１０１，１０９，１２２…ピッチパターン１０２…属性１０３，１２１…代表パターン１０４，１１４，１２４…変形パラメータ１０５…代表パターン選択規則１０６…変形パラメータ生成規則１０７…誤差情報１０８…クラスタ情報１１０…テキスト１１１…音声データ１１２…音韻ラベル１１３，１２３…文ピッチパターン１２０…入力属性

───────────────────────────────────────────────────── フロントページの続き (72)発明者瀬戸重宣兵庫県神戸市東灘区本山南町８丁目６番26 号株式会社東芝関西研究所内 (72)発明者新居孝章兵庫県神戸市東灘区本山南町８丁目６番26 号株式会社東芝関西研究所内 (72)発明者赤嶺政巳兵庫県神戸市東灘区本山南町８丁目６番26 号株式会社東芝関西研究所内

Claims

【特許請求の範囲】

【請求項１】音声データに含まれる韻律単位を、代表パ
ターンに対応するクラスタにクラスタリングし、前記クラスタ毎に、当該クラスタに属する韻律単位に対
応する第１のピッチパターンを前記音声データより抽出
し、前記クラスタ毎に、当該クラスタに属する韻律単位に対
応するピッチパターンであって当該クラスタの代表パタ
ーンに変形を行って生成される第２のピッチパターンと
前記第１のピッチパターンとの間で定義される歪みの評
価関数に従って当該クラスタの代表パターンを生成する
ことを特徴とする音声情報処理方法。
【請求項２】音声データに含まれる韻律単位を代表パタ
ーンに対応するクラスタにクラスタリングし、前記クラスタ毎に、当該クラスタに属する韻律単位に対
応する第１のピッチパターンを前記音声データより抽出
し、前記クラスタ毎に、当該クラスタに属する韻律単位に対
応するピッチパターンであって当該クラスタの代表パタ
ーンに変形を行って生成される第２のピッチパターンと
前記第１のピッチパターンとの間で定義される歪みの評
価関数に従って当該クラスタの代表パターンを生成し、これら生成された代表パターンを用いてピッチパターン
を生成することを特徴とする音声情報処理方法。
【請求項３】前記クラスタリングにあたっては、前記韻律単位に対応する第１のピッチパターンを音声デ
ータから抽出し、前記韻律単位に対応する第２のピッチパターンを、初期
代表パターンに変形を行って生成し、前記第２のピッチパターンの前記第１のピッチパターン
からの誤差を評価し、前記誤差の値に従って前記クラス
タリングを行うことを特徴とする請求項１または請求項
２に記載の音声情報処理方法。
【請求項４】前記クラスタリングにあたっては、前記韻
律単位の属性に従って前記クラスタリングを行うことを
特徴とする請求項１または請求項２に記載の音声情報処
理方法。
【請求項５】前記クラスタリングにあたっては、前記韻律単位に対応する第１のピッチパターンを音声デ
ータから抽出し、前記韻律単位に対応する第２のピッチパターンを、初期
代表パターンに変形を行って生成し、前記第２のピッチパターンの前記第１のピッチパターン
からの誤差を評価し、前記誤差の値および前記韻律単位の属性に従って前記ク
ラスタリングを行うことを特徴とする請求項１または請
求項２に記載の音声情報処理方法。
【請求項６】前記歪みの評価関数は前記第１のピッチパ
ターンの対数と前記第２のピッチパターンの対数との間
で定義されるものであることを特徴とする請求項１また
は請求項２に記載の音声情報処理方法。
【請求項７】前記韻律単位はアクセント句であることを
特徴とする請求項１または請求項２に記載の音声情報処
理方法。
【請求項８】前記韻律単位は連続するアクセント句の境
界を含むものであることを特徴とする請求項１または請
求項２に記載の音声情報処理方法。
【請求項９】前記代表パターンの変形は時間軸上の伸縮
を含むものであることを特徴とする請求項１または請求
項２に記載の音声情報処理方法。
【請求項１０】前記代表パターンの変形は周波数軸上の
並行移動および伸縮、ならびに対数周波数軸上の並行移
動および伸縮のうち少なくとも１つを含むものであるこ
とを特徴とする請求項１または請求項２に記載の音声情
報処理方法。
【請求項１１】前記代表パターンの変形は微分および積
分の少なくとも一方を含むことを特徴とする請求項１ま
たは請求項２に記載の音声情報処理方法。
【請求項１２】韻律単位に対応する第１のピッチパター
ンを音声データから抽出し、前記韻律単位に対応する第２のピッチパターンを、代表
パターンに変形を行って生成し、前記第２のピッチパターンの前記第１のピッチパターン
からの誤差を評価し、前記誤差の値および前記韻律単位の属性に従って、属性
から代表パターンを選択するための代表パターン選択規
則を生成することを特徴とする音声情報処理方法。
【請求項１３】韻律単位に対応する第１のピッチパター
ンを音声データから抽出し、前記第１のピッチパターンと代表パターンより変形パラ
メータを生成し、前記変形パラメータおよび前記韻律単位の属性に従っ
て、属性から変形パラメータを生成するための変形パラ
メータ生成規則を生成することを特徴とする音声情報処
理方法。