JP3450411B2

JP3450411B2 - 音声情報処理方法及び装置

Info

Publication number: JP3450411B2
Application number: JP05041594A
Authority: JP
Inventors: 俊明深田; 隆麻生; 康弘小森; 恭則大洞
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1994-03-22
Filing date: 1994-03-22
Publication date: 2003-09-22
Anticipated expiration: 2018-09-22
Also published as: EP0674307A2; DE69519887D1; EP0674307A3; US5845047A; JPH07261778A; EP0674307B1; DE69519887T2

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声規則合成や音声認識
などの音声情報処理において、合成音声の自然な韻律生
成や音声認識率の向上を可能にするために、音声の基本
周波数やパワーなどの特徴量を音韻環境を考慮して統計
処理し、確率的に信頼度の高いピッチパターンモデルを
作成する音声情報処理方法及び装置に関するものであ
る。

【０００２】

【従来の技術】人間と人間の間で行われる情報交換手段
の中で最も自然に使われるのが音声である。一方、計算
機の飛躍的な進歩により、計算機は数値計算のみならず
様々な情報を扱えるように進歩してきている。そこで、
音声を人間と計算機の情報交換手段として用いたい要求
がある。

【０００３】このような情報交換手段の中で、音声規則
合成装置は、機械が任意のテキストを合成音声に変換す
る装置であり、計算機から人間への重要な情報伝達手段
である。しかしながら、従来の音声合成装置から出力さ
れる合成音声は、人間が発生する自然音声と比較すると
不自然で機械的な音声である。この原因の一つとして、
従来の技術ではアクセントやイントネーションを生成す
る韻律生成規則において、簡単なモデル化しか行われて
いないことが上げられる。

【０００４】

【発明が解決しようとしている課題】上記従来の技術で
は、合成音声は機械的なもので、人間と機械との情報交
換手段として用いるには人間に不安感を与えるものでし
かなかった。

【０００５】また、音韻環境による変化を考慮しない認
識を行っていたため、認識率が向上しなかった。

【０００６】

【課題を解決するための手段】音声の基本周波数やパワ
ーなどの特徴量ファイル及びラベルファイルを統計的に
処理する際、本発明では、１）アクセント型、モーラ数、モーラ位置による環境依
存ＨＭＭを用いることにより、ピッチパターンの分散、
平均、遷移確率等の情報が生成され、確率的に確信度の
高いモデルが自動生成できるようになり、上記の問題点
を解決する。

【０００７】２）上記１）で記載したアクセント型、モ
ーラ数、モーラ位置に加え、当該音素の音素環境（無声
摩擦、有声破裂音等）も考慮した環境依存ＨＭＭを用い
ることにより、音素環境ごとにピッチパターンの分散、
平均、遷移確率等の情報が生成され、確率的に確信度の
高いモデルが自動生成できるようになり、上記の問題点
を解決する。

【０００８】３）データ量が豊富なカテゴリに関して
は、上記２）で記載したアクセント型、モーラ数、モー
ラ位置、当該音素環境に加え、前後の音韻環境等を考慮
することにより、上記２）で得られたピッチパターンよ
り更に精密なピッチパターンが得られるようになり、上
記の問題点を解決する。

【０００９】４）上記１）、２）、３）で記載した情報
を階層的に構成して利用することにより、大局的な構造
のみを表すピッチパターンモデルから、音韻環境等を考
慮した精密なピッチパターンモデルをデータ量に応じて
選択できるようになり、上記の問題点を解決する。

【００１０】５）上記４）で記載した階層的に構成され
たピッチパターンモデルと、アクセント情報が付与され
た認識辞書を用意することにより、韻律情報を利用した
音声認識が行えるようになり、上記の問題点を解決す
る。

【００１１】

【実施例】

〔実施例１〕図１２に、本実施例における音声情報処理
装置の構成ブロック図を示す。

【００１２】１は本装置全体の処理制御をＲＯＭ２内の
制御プログラムに従って実行するＣＰＵ、２は本実施例
で説明する各処理の制御プログラムを格納するＲＯＭ、
３は本実施例で説明する各処理に用いるファイル、テー
ブル等のデータを格納する部分及び処理途中で生じるデ
ータを格納するワークメモリ部分を備えるＲＡＭ、４は
各処理の指示、例えば音声ファイルへのラベル付与等を
行う為のコード情報が入力できるキーボード、５は所望
の位置の座標情報を入力できるポインティングデバイス
であり、これはペン形等のものにして軌跡を入力できる
ものとしても良い。６はキーボード４やポインティング
デバイス５から入力された情報や、本装置で受けた情
報、処理途中の情報、或いは処理結果を表示する表示手
段であって、ＣＲＴや液晶表示器を用いる。７は認識対
象とする音声や各種指示コマンド音声を入力するマイク
ロフォン、８は合成音声やメッセージ音声を出力するス
ピーカである。

【００１３】以下に、本発明の実施例を図１の機能構成
図に従って説明する。

【００１４】図１において、１１は音声データベースな
どを格納する音声ファイル、１２は音声ファイル１１に
格納されているデータから特徴量を抽出する特徴量抽出
部、１３は音声ファイルに格納されているデータに各音
素のラベルの付与をするラベル付与部、１４は音声ファ
イル１１に格納されているデータに対応する音韻リスト
を作成する音韻リスト作成部、１５は特徴量抽出部１２
により抽出された音声ファイル１１に格納されているデ
ータの特徴量を音声ファイル番号と共に格納する特徴量
ファイル、１６はラベル付与部１３及び音韻リスト作成
部１４により得られたデータから作成されたラベル毎の
データを格納するラベルファイル、１７は特徴量ファイ
ル１５及びラベルファイル１６をもとに、統計処理を行
う統計処理部、１８は統計処理部１７において得たデー
タを用いてピッチパターンを作成するピッチパターン作
成部である。

【００１５】上記構成により行われる処理を、各処理に
より生ずるデータを示した図を用いて詳細に説明する。

【００１６】まず、ラベル付与部１３により、表示手段
に表示されたデータに対してキーボード等を用いてオペ
レータが目視によりラベルデータを入力する方法、或は
プログラムにより制御する方法の何れかによって、音声
ファイル１１に格納されている音声データベース等のデ
ータに対して各音素のラベルを図２のように付与する。
例えば、音声ファイル番号１の「ａｋｉ」というデータ
は、音素「ａ」は時間「１００〜１４９」、音素「ｋ」
は時間「１５０〜１７９」、音素「ｉ」は時間「１８０
〜２００」というように定める。

【００１７】また、音韻リスト作成部１４により、音声
ファイルに対応するアクセント型、モーラ数、音素カテ
ゴリ等の音韻リストを図３のように作成する。例えば、
音声ファイル番号１の「ａｋｉ」というデータは、モー
ラ数が「２」、アクセント型は「０型」であると定め
る。

【００１８】ラベル付与部１３及び音韻リスト作成部１
４により得られたデータからアクセント型、モーラ数、
モーラ位置、音素カテゴリ等の音韻環境を考慮した図４
のようなラベル毎のデータを作成し、ラベルファイル１
６に格納する。

【００１９】一方、特徴量抽出部１２では、音声ファイ
ル１１に格納されているデータを表示手段に表示し、こ
のデータに対してキーボード等を用いてオペレータが目
視によりデータを入力する方法、或はプログラムにより
制御する方法の何れかによって、基本周波数やパワー、
これらの変化分（デルタピッチ、デルタパワー）等の特
徴量を抽出し、特徴量ファイル１５を作成する。

【００２０】特徴量抽出部１２においては、ラベル付与
部１３により付与されるラベル情報を利用し、例えば無
声、無音区間は特定のコードを付与する等して音声／無
声／無音に応じて基本周波数を抽出する方法を用いても
良い。

【００２１】これらの特徴量ファイル１５及びラベルフ
ァイル１６をもとに、統計処理部１７において統計処理
を行い、ピッチパターン作成部１８でピッチパターンを
作成する。

【００２２】また特徴量として用いるパラメータは、基
本周波数（あるいはこれを対数変換したもの）、パワ
ー、継続時間長、スペクトル情報（ケプストラム、ＬＰ
Ｃ係数等）、更にこれらの１次回帰係数、２次回帰係数
等が利用でき、これらの任意の組み合わせにより統計処
理を行うことができる。

【００２３】ここで、これら対数基本周波数やパワー等
の特徴量は、データ毎、カテゴリ別、全データのいづれ
かで正規化したものを用いることもできる。

【００２４】本実施例の一例として、１４の音韻リスト
作成部をアクセント型、モーラ数、モーラ位置とし、１
５の特徴量ファイルを対数基本周波数のみを用いた場合
について説明する。図５はアクセント型、モーラ数、モ
ーラ位置による環境依存ＨＭＭ（１モーラあたり３状態
３ループの連続ＨＭＭ）を用いた場合のピッチパターン
テーブルの例である。本実施例の場合、音韻環境は、ア
クセント型、モーラ数、モーラ位置に分類されて統計処
理される。

【００２５】次に図１のピッチパターン作成部１８にお
ける「ＡＺＩ」に関するピッチパターン作成の手順を図
６、図７を用いて述べる。

【００２６】１．音韻環境に従ったモデル（０２１、０
２２）を選択する。ここで、「ＡＺＩ」はモーラ数２、
アクセント型はＯ型であるので、その音韻環境で、モー
ラ位置が１と２であるでデータを選択している。

【００２７】２．音韻継続時間長（ｌ₁ 、ｌ₂ 、ｌ₃ ）
に応じて先に選択された各モデルの状態を配置する。

【００２８】３．各状態の周波数の平均値（μ₁₁、
μ₁₂、μ₁₃等）を用いて点ピッチを決定する。

【００２９】４．点ピッチを補間（有声子音はその両隣
の母音間で補間を行う）し、図６のようなピッチパター
ンが作成される。

【００３０】５．特徴量が正規化されている場合には、
図７に示すように、図６のピッチパターンに加えてピッ
チのダイナミックレンジ（ｄ）を乗じ、バイアス（ｂ）
を加える。

【００３１】このとき、各モデルにおける３状態（１音
素）の時間的割り当ての方法は、単純に３等分する方法
或は、遷移確率の比率で分配する方法或は、得られたモ
デルを学習データに通すことにより得られる時間配分の
比率で分配する方法などにより行う。また、時間配分さ
れたピッチパターンモデルは、線形補間、スプライン補
間等の各種補間により、韻律データが作成できる。ま
た、このとき分散を考慮したピッチパターン補正を行う
ことも可能である。

【００３２】〔実施例２〕上述の実施例１において音韻
リスト作成部１４において作成する音韻リストの音韻環
境をアクセント型、モーラ型、モーラ位置としたが、こ
れに加え、音素または音素カテゴリ（以下これらをまと
めて音素カテゴリと呼ぶ）の環境を考慮して音韻リスト
を作成し、１５の特徴量ファイルを対数基本周波数のみ
を用いた場合について本実施例で説明する。図８はアク
セント型、モーラ数、モーラ位置、音素カテゴリを考慮
した音韻環境依存ＨＭＭ（１モーラあたり３状態３ルー
プの連続ＨＭＭ）を用いた場合のピッチパターンテーブ
ルの例である。本実施例の場合、音韻環境は、アクセン
ト型、モーラ数、モーラ位置、音素カテゴリに分類され
て統計処理される。

【００３３】次に図１のピッチパターン作成部１８にお
けるピッチパターン作成の手順を図９、図１０を用いて
述べる。

【００３４】１．音韻環境に従ったモデル（Ｖ０２１、
Ｚ０２２、Ｖｚ０２２）を選択する。

【００３５】２．音韻継続時間長（ｌ₁ 、ｌ₂ 、ｌ₃ ）
に応じて先に選択された各モデルの状態を配置する。

【００３６】３．各状態の周波数の平均値（μ₁₁、
μ₁₂、μ₁₃等）を用いて点ピッチを決定する。

【００３７】４．点ピッチを補間し、図９のようなピッ
チパターンが作成される。

【００３８】５．特徴量が正規化されている場合には、
図１０に示すように、図９のピッチパターンに加えてピ
ッチのダイナミックレンジ（ｄ）を乗じ、バイアス
（ｂ）を加える。

【００３９】ここで、時間配置、補間方法は上述の実施
例と同様な方法で行うことができる。

【００４０】〔実施例３〕データ量が豊富なカテゴリに
関しては、例えば前後の音韻環境等を考慮することによ
り、上述の実施例１より更に精密なピッチパターンを生
成することが可能となる。

【００４１】〔実施例４〕音韻クラスを細かくすれば、
音韻の微細変化がより精密に表現できるため、聴感上の
改善が期待できる。しかし、データ量の制限から、細か
い音韻クラスではＨＭＭが作成できない場合もある。従
って、音声規則合成に適用する際は構成を多階層とし、
合成したい音韻環境モデルが下位階層にない場合には、
上位階層のモデルを利用してピッチパターンを生成する
必要がある。

【００４２】上述の実施例１、実施例２及び実施例３で
得られたピッチパターンモデルを階層的に構成すること
により、データ量に応じたピッチパターンが選択でき、
データ量の多少に関わらず同じ構成で、かつデータ量が
増えるにつれ、より精密なピッチパターンモデルを利用
することができる。

【００４３】図１１はピッチパターンの階層構造の例を
示す図である。図１１中、２１は実施例により生成され
るピッチパターンのクラスを表す。２２は実施例２の一
例として、音韻環境として当該音韻の種類を有声音か無
声音かの２通りに場合分けしたときに生成されるピッチ
パターンのクラスを表す。２３は実施例３の一例とし
て、音韻環境として当該音韻の種類を有声音か無声音か
の２通り及び、次の音韻の種類を有声音か無声音かの２
通りに場合分けしたときに生成されるピッチパターンの
クラスを表す。２４は実施例３の別の一例として、音韻
環境として当該音韻の種類を音素カテゴリ（無声摩擦
音、有声破裂音等）及び、次の音韻の種類を音素カテゴ
リ（無声摩擦音、有声破裂音等）に場合分けしたときに
生成されるピッチパターンのクラスを表す。

【００４４】図１１の階層構造は、本発明の一実施例で
あり、例えば当該音韻の前の音韻カテゴリ等を考慮する
こともできる。また、図１１の各クラス間に異なるモデ
ルを挿入、あるいは図１１のいずれかのモデルを削除し
て構成することもできる。

【００４５】〔実施例５〕韻律情報を利用した音声認識
を行う際に、実施例１〜実施例４におけるピッチパター
ンモデルと発声されたピッチパターンとを比較すること
により、音素、アクセント型を決定し、音声認識率を向
上させることが可能になる。この際、アクセント型を付
与した認識用辞書を用意する必要がある。

【００４６】例えば、単語音声認識において、「端（０
型）」と、「箸（１型）」という読みとモーラ数が同じ
でアクセント型のみが異なる単語を認識する際、発声さ
れた音声から基本周波数を抽出し、これに実施例１で生
成されたピッチパターンのうち、２モーラ０型及び２モ
ーラ１型のピッチパターンで構成されるモデルを用いて
識別を行うことにより、アクセント型が決定できる。

【００４７】別の例として、「身分（１型）」と「区分
（１型）」というモーラ数とアクセント型は同一で、１
モーラ目の子音のみが異なる単語を認識する際、発声さ
れた音声から基本周波数を抽出し、これに実施例２また
は実施例３で生成されたピッチパターンのうち、３モー
ラ１型で１モーラ目の子音部がｍとｋのカテゴリをもつ
２つのモデルを用いることにより、ピッチパターンの観
点から確からしさが求まり、これをスペクトル情報と統
合し評価することにより、音声認識率を向上させること
が可能である。

【００４８】また、実施例１で生成されたピッチパター
ンモデルを用いて、アクセント句境界を抽出することも
できる。

【００４９】

【発明の効果】以上説明したように、音声データの特徴
量ファイル及びラベルファイルを統計的に処理する際
に、環境依存ＨＭＭを用いることにより、ピッチパター
ンの分散、平均、遷移確率等の情報が生成され、確率的
に確信度の高いモデルが自動生成できるようになり、自
然な韻律生成や音声認識率の向上が可能となる効果があ
る。

【図面の簡単な説明】

【図１】ピッチパターン作成の為の機能構成図。

【図２】ラベルの例示図。

【図３】音韻リストの例示図。

【図４】ラベルファイルの例示図。

【図５】アクセント型、モーラ数、モーラ位置による環
境依存ＨＭＭを用いたピッチパターンテーブルの例示
図。

【図６】アクセント型、モーラ数、モーラ位置による環
境依存ＨＭＭを用いたピッチパターン作成例示図。

【図７】アクセント型、モーラ数、モーラ位置による環
境依存ＨＭＭを用いたピッチパターン作成例示図。

【図８】音韻カテゴリも考慮した音韻環境依存ＨＭＭを
用いたピッチパターンテーブルの例示図。

【図９】音韻カテゴリ、アクセント型、モーラ数、モー
ラ位置による音韻環境依存ＨＭＭを用いたピッチパター
ン作成例示図。

【図１０】音韻カテゴリ、アクセント型、モーラ数、モ
ーラ位置による音韻環境依存ＨＭＭを用いたピッチパタ
ーン作成例示図。

【図１１】ピッチパターンの階層構造の例示図。

【図１２】音声情報処理装置の構成ブロック図。

───────────────────────────────────────────────────── フロントページの続き (72)発明者大洞恭則東京都大田区下丸子３丁目30番２号キヤノン株式会社内 (56)参考文献特開昭63−46497（ＪＰ，Ａ) 特開平４−313034（ＪＰ，Ａ) 特開平２−226199（ＪＰ，Ａ) 特開昭63−173100（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/14 G10L 13/08

Claims

(57)【特許請求の範囲】

【請求項１】格納されている音声データから特徴量を
抽出して作成した特徴量ファイルと、該格納されている
音声データを音韻環境ごとに処理できるよう分析して得
たラベルファイルとを用いて、前記音声データを統計処
理することにより環境依存ＨＭＭとしてピッチパターン
モデルを作成し、前記ピッチパターンモデルを配置、補
間することによって、音韻環境を考慮したピッチパター
ンを作成することを特徴とする音声情報処理方法。
【請求項２】前記作成されたピッチパターンを、音声
規則合成に用いることを特徴とする請求項１記載の音声
情報処理方法。
【請求項３】前記ピッチパターンの作成は、前後の音
韻環境を考慮することを特徴とする請求項１記載の音声
情報処理方法。
【請求項４】前記ピッチパターンの作成は、ピッチパ
ターンモデルを階層的に構成して利用することを特徴と
する請求項１記載の音声情報処理方法。
【請求項５】前記作成されたピッチパターンモデル
を、入力音声のピッチパターンと比較することにより、
入力音声の認識に用いることを特徴とする請求項１記載
の音声情報処理方法。
【請求項６】前記音韻環境は、アクセント型を考慮す
るものであることを特徴とする請求項１記載の音声情報
処理方法。
【請求項７】前記音韻環境は、モーラ数を考慮するも
のであることを特徴とする請求項１記載の音声情報処理
方法。
【請求項８】前記音韻環境は、モーラ位置を考慮する
ものであることを特徴とする請求項１記載の音声情報処
理方法。
【請求項９】前記音韻環境は、音素を考慮するもので
あることを特徴とする請求項１記載の音声情報処理方
法。
【請求項１０】前記音韻環境は、音素カテゴリを考慮
するものであることを特徴とする請求項１記載の音声情
報処理方法。
【請求項１１】音声データを格納する音声ファイル格
納手段と、前記音声ファイルに格納手段に格納されている音声デー
タから特徴量を抽出し、特徴量ファイルを作成する特徴
量抽出手段と、前記音声データを音韻環境ごとに処理できるよう分析す
る分析手段と、前記特徴量抽出手段及び分析手段より得たデータを用い
て、前記音声ファイル格納手段に格納されている音声デ
ータを統計処理することにより環境依存ＨＭＭとしてピ
ッチパターンモデルを作成する統計処理手段と、前記統計処理手段により得たピッチパターンモデルを配
置、補間することによってピッチパターンを作成するピ
ッチパターン作成手段とを有することを特徴とする音声
情報処理装置。
【請求項１２】前記作成されたピッチパターンを、音
声規則合成に用いることを特徴とする請求項１１記載の
音声情報処理装置。
【請求項１３】前記ピッチパターン作成手段は、前後
の音韻環境を考慮することを特徴とする請求項１１記載
の音声情報処理装置。
【請求項１４】前記ピッチパターン作成手段は、ピッ
チパターンモデルを階層的に構成して利用することを特
徴とする請求項１１記載の音声情報処理装置。
【請求項１５】前記作成されたピッチパターンモデル
を、入力音声のピッチパターンと比較することにより、
入力音声の認識に用いることを特徴とする請求項１１記
載の音声情報処理装置。
【請求項１６】前記音韻環境は、アクセント型を考慮
するものであることを特徴とする請求項１１記載の音声
情報処理装置。
【請求項１７】前記音韻環境は、モーラ数を考慮する
ものであることを特徴とする請求項１１記載の音声情報
処理装置。
【請求項１８】前記音韻環境は、モーラ位置を考慮す
るものであることを特徴とする請求項１１記載の音声情
報処理装置。
【請求項１９】前記音韻環境は、音素を考慮するもの
であることを特徴とする請求項１１記載の音声情報処理
装置。
【請求項２０】前記音韻環境は、音素カテゴリを考慮
するものであることを特徴とする請求項１１記載の音声
情報処理装置。