JP2001092482A

JP2001092482A - 音声合成システム、および音声合成方法

Info

Publication number: JP2001092482A
Application number: JP2000087173A
Authority: JP
Inventors: Yumiko Kato; 弓子加藤; Kenji Matsui; 謙二松井; Takahiro Kamai; 孝浩釜井; Katsuyoshi Yamagami; 勝義山上
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-03-25
Filing date: 2000-03-27
Publication date: 2001-04-06
Anticipated expiration: 2020-03-27
Also published as: JP3576066B2

Abstract

(57)【要約】【課題】韻律情報データベース１３０内に、入力テキ
スト等に対応する発声内容が存在してもしなくても、同
様の音質の自然な合成音声を発声させる。【解決手段】韻律情報データベース１３０には、実際
の音声から抽出された韻律情報が、音素列やアクセント
位置などと対応して格納されている。韻律情報検索部１
４０は、入力テキスト等に基づく言語処理部１２０の出
力である音素列等に基づいて、韻律情報データベース１
３０から近似コストが最も小さい韻律情報を検索し、韻
律情報変形部１５０は、近似コストに応じて、韻律情報
変形規則記憶部１６０に保持された変形規則に基づき、
検索された韻律情報を変形し、これに基づいて電気音響
変換器１８０から合成音声が発声される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、任意の入力テキス
ト、または入力表音記号列等を合成音声に変換して出力
する音声合成システムに関するものである。

【０００２】

【従来の技術】近年、家庭電化製品や、カーナビゲーシ
ョンシステム、携帯電話などの種々の電子機器におい
て、機器の状態や、操作などの指示、応答メッセージ等
のメッセージを発声させるために合成音声が多く用いら
れている。また、パーソナルコンピュータなどにおいて
は、音声インタフェイスによる操作や、光学文字認識
（ＯＣＲ）による文字認識結果の確認などにも用いられ
つつある。

【０００３】上記のような音声合成を行う手法として
は、あらかじめ音声データを記憶させておいて、これを
再生させるような方法があり、限られたメッセージなど
を発声させる場合などに多く用いられているが、この方
法を用いて任意の音声を発声させるためには、大容量の
記憶装置を必要とし、高価なものとなりがちであるた
め、用途が限られたものとなっている。

【０００４】一方、比較的安価な構成で任意の音声を発
声させる手法としては、入力されたテキストや表音記号
列の並びなどに基づいて、所定の音声データ生成規則を
用いて音声データを生成させるようにしたものがある。
しかし、このような音声データ生成規則を用いる方法で
は、多様な種々の表現に対して自然な音声を発声させる
ことは困難である。

【０００５】そこで、例えば特開平８−８７２９７号公
報に開示されているように、データベースを用いた音声
情報の検索による合成音声の生成と、合成音声生成規則
による合成音声の生成とを併用する音声合成システムが
知られている。この種の装置は、より詳しくは、例えば
図１３に示すように、文字列入力部９１０と、実音声を
分析して抽出した音声特徴量およびこれに対応する発声
内容を格納した音声情報データベース９２０と、音声情
報データベース９２０を検索する音声情報検索部９３０
と、音声波形を生成する合成音声生成部９４０と、入力
テキストまたは入力表音記号列から音声特徴量を生成す
る際の規則を含む合成音声生成規則９５０と、電気音響
変換器９６０とを備えて構成されている。この音声合成
システムでは、文字列入力部９１０にテキストまたは表
音記号列が入力されると、音声情報検索部９３０は、音
声情報データベース９２０から入力テキストまたは入力
表音記号列に一致する発声内容の音声情報を検索する。
一致する発声内容が存在する場合には、対応する音声情
報を合成音声生成部９４０へ渡す。一方、一致する発声
内容が存在しない場合には、音声情報検索部９３０は、
入力テキストまたは入力表音記号列をそのまま合成音声
生成部９４０へ渡す。合成音声生成部９４０は、検索さ
れた音声情報が入力された場合には、これに基づいて合
成音声を生成し、入力テキストあるいは入力表音記号列
が入力された場合には、これと合成音声生成規則９５０
とに基づいて音声特徴量を生成した後に、合成音声を生
成する。

【０００６】上記のように、音声情報の検索と合成音声
生成規則とを用いることにより、任意の入力テキスト等
を合成音声に変換して出力することができるとともに、
一部の音声（検索がヒットした場合）については、自然
な音声を発声させることができる。

【０００７】

【発明が解決しようとする課題】しかしながら、上記従
来の音声合成システムでは、検索がヒットした場合とヒ
ットしなかった場合と、すなわち、音声情報データベー
ス内に、入力テキスト等に対応する発声内容が存在する
場合と存在しない場合とで、音質の差が大きく、そのよ
うな音質の異なる音声をつなぎあわせることにより、か
えって不自然さが目立つことになるという問題点を有し
ていた。また、音声情報データベース９２０の検索を単
に入力表音記号列と格納されている発声内容との一致の
有無によって行っているために、一致する発声内容が存
在すれば、文の構成などに係らず、検索された音声情報
によって音声合成が行われ、やはり不自然な合成音声に
なるという問題点も有していた。

【０００８】具体例には、例えば、「大阪に住んでいる
私は松下です」という文を音声合成する場合、固有名詞
「松下」がデータベースに存在しない場合には、その部
分だけ機械的な合成音声になったり、文末の発声内容と
して格納されている「大阪に住んでいる」の音声情報が
用いられて、「大阪に住んでいる」「私は松下です」と
いった２つの文が不自然に繋ぎ合わされたような合成音
声になったりしがちであった。

【０００９】本発明は、上記の点に鑑み、任意の入力テ
キスト等に応じて、自然な合成音声を発声させることが
でき、特に、音声情報（韻律情報）データベース内に、
入力テキスト等に対応する発声内容が存在してもしなく
ても、同様の音質で合成音声を発声させることができる
音声合成システムの提供を目的としている。

【００１０】

【課題を解決するための手段】上記の目的を達成するた
め、請求項１〜６の発明は、合成される音声を示す合成
音声情報に基づいて合成音声を出力する音声合成システ
ムにおいて、検索のキーとなるキー情報と対応して、音
声合成に用いられる韻律情報が格納されたデータベース
と、上記合成音声情報と、上記キー情報との一致程度に
応じて、上記韻律情報を検索する検索手段と、上記合成
音声情報と、上記キー情報との一致程度、および所定の
変形規則に基づいて、上記検索手段によって検索された
韻律情報に変形を施す変形手段と、上記合成音声情報、
および上記変形手段によって変形された韻律情報に基づ
いて、合成音声を出力する合成手段と、を備えたことを
特徴としている。

【００１１】上記合成音声情報、および上記キー情報
は、それぞれ、合成される音声の音声的属性を示す表音
記号列や、さらに、合成される音声の言語的属性を示す
言語情報を含んでいてもよく、上記表音記号列は、少な
くとも、合成される音声の音韻の列、アクセント位置、
およびポーズの有無または長さのうちの何れかを実質的
に示す情報を含んでいてもよい。また、上記言語情報
は、少なくとも、合成される音声の文法的情報、および
意味的情報の何れかを含んでいてもよい。

【００１２】また、さらに、上記音声合成システムに入
力されたテキスト情報を解析して、上記表音記号列、お
よび上記言語情報を生成する言語処理手段を備えたこと
を特徴としている。

【００１３】これにより、合成音声情報とキー情報とが
完全に一致するような韻律情報がデータベースに格納さ
れていない場合でも、類似した韻律情報によって音声合
成が行われるので、任意の音声に対して、比較的適切、
かつ、むらのない自然な音声を発声させることができ
る。また、逆に、合成音声の自然さを損なうことなく、
データベースの記憶容量を低減することができる。さら
に、上記のように類似した韻律情報が用いられる場合
に、その類似の程度に応じて韻律情報が変形されるの
で、より適切な合成音声が発せられる。

【００１４】また、請求項７〜１５の発明は、請求項１
の音声合成システムであって、上記合成音声情報、およ
び上記キー情報は、それぞれ、合成される音声の各音韻
が属する音韻カテゴリを示す音韻カテゴリ列を実質的に
含むことを特徴としている。

【００１５】また、さらに、上記音声合成システムに入
力された、上記合成音声情報に対応する情報、および上
記データベースに格納された、上記キー情報に対応する
情報の少なくとも何れかを音韻カテゴリ列に変換する変
換手段を備えたことを特徴としている。

【００１６】上記音韻カテゴリは、少なくとも、音韻の
調音方式、調音位置、および継続時間長のうちの何れか
を用いて音韻をグループ化したものや、韻律パタンを統
計的手法を用いてグループ化し、韻律パタンのグループ
を最も良く反映するように、音韻を多変量解析等の統計
的手法を用いてグループ化したもの、音韻どうしの異聴
表から多変量解析等の統計的手法を用いて決定した音韻
間の距離に従って音韻をグループ化したもの、音韻の、
音韻の基本周波数、強度、時間長、またはスペクトルな
どの物理特性の類似度に従って音韻をグループ化したも
のなどでもよい。

【００１７】これにより、韻律情報の検索において、音
素列が一致していない場合でも、各音素の音韻カテゴリ
が一致している場合には、韻律情報を流用しても、多く
の場合、適切で自然な合成音声を発声させることができ
る。

【００１８】また、請求項１６の発明は、請求項１の音
声合成システムであって、上記データベースに格納され
る上記韻律情報は、同一の実音声から抽出された韻律的
特徴を示す情報を含むことを特徴としている。

【００１９】また、請求項１７の発明は、請求項１６の
音声合成システムであって、上記韻律的特徴を示す情報
は、少なくとも、基本周波数の時間的変化を示す基本周
波数パタン、音声強度の時間的変化を示す音声強度パタ
ン、音韻ごとの時間長を示す音韻時間長パタン、および
ポーズの有無または長さを示すポーズ情報の何れかを含
むことを特徴としている。

【００２０】また、請求項１８の発明は、請求項１の音
声合成システムであって、上記データベースは、上記韻
律情報を韻律制御単位ごとに格納することを特徴として
いる。

【００２１】また、請求項１９の発明は、請求項１８の
音声合成システムであって、上記韻律制御単位は、アク
セント句、１以上のアクセント句によって構成されるフ
レーズ、文節、１以上の文節によって構成されるフレー
ズ、単語、１以上の単語によって構成されるフレーズ、
ストレス句、および１以上のストレス句によって構成さ
れるフレーズのうちの何れかであることを特徴としてい
る。

【００２２】これにより、適切で自然な合成音声を容易
に発声させることができる。

【００２３】また、請求項２０の発明は、請求項１の音
声合成システムであって、上記合成音声情報、および上
記キー情報は、それぞれ、合成される音声を決定する要
素である複数種類の音声指標情報を含み、上記合成音声
情報とキー情報との一致程度は、上記合成音声情報にお
ける各音声指標情報と、上記キー情報における各音声指
標情報との一致程度が、それぞれ重み付けされて合成さ
れたものであることを特徴としている。

【００２４】また、請求項２１の発明は、請求項２０の
音声合成システムであって、上記音声指標情報は、少な
くとも、合成される音声の音韻の列、アクセント位置、
ポーズの有無または長さ、および言語的属性を示す言語
情報のうちの何れかを実質的に示す情報を含むことを特
徴としている。

【００２５】また、請求項２２の発明は、請求項２１の
音声合成システムであって、上記音声指標情報は、合成
される音声の音韻の列を実質的に示す情報を含み、上記
合成音声情報における各音声指標情報と、上記キー情報
における各音声指標情報との一致程度は、上記音韻ごと
の音響的特徴長の類似程度を含むことを特徴としてい
る。

【００２６】また、請求項２３の発明は、請求項２０の
音声合成システムであって、上記音声指標情報は、合成
される音声の各音韻が属する音韻カテゴリを示す音韻カ
テゴリ列を実質的に含むことを特徴としている。

【００２７】また、請求項２４の発明は、請求項２３の
音声合成システムであって、上記合成音声情報における
各音声指標情報と、上記キー情報における各音声指標情
報との一致程度は、上記音韻ごとの音韻カテゴリの類似
程度を含むことを特徴としている。

【００２８】これにより、適切な韻律情報の検索および
変形を容易に行うことができる。

【００２９】また、請求項２５の発明は、請求項２０の
音声合成システムであって、上記韻律情報は、合成され
る音声を特徴づける複数種類の韻律特徴情報を含むこと
を特徴としている。

【００３０】また、請求項２６の発明は、請求項２５の
音声合成システムであって、上記複数種類の韻律特徴情
報は、組にされて、上記データベースに格納されている
ことを特徴としている。

【００３１】また、請求項２７の発明は、請求項２６の
音声合成システムであって、上記組にされる複数種類の
韻律特徴情報は、それぞれ、同一の実音声から抽出され
たものであることを特徴としている。

【００３２】また、請求項２８の発明は、請求項２５の
音声合成システムであって、上記韻律的特徴情報は、少
なくとも、基本周波数の時間的変化を示す基本周波数パ
タン、音声強度の時間的変化を示す音声強度パタン、音
韻ごとの時間長を示す音韻時間長パタン、およびポーズ
の有無または長さを示すポーズ情報の何れかを含むこと
を特徴としている。

【００３３】また、請求項２９の発明は、請求項２８の
音声合成システムであって、上記音韻時間長パタンは、
少なくとも、音素時間長パタン、モーラ時間長パタン、
および音節時間長パタンの何れかを含むことを特徴とし
ている。

【００３４】また、請求項３０の発明は、請求項２５の
音声合成システムであって、上記各種類の韻律特徴情報
は、それぞれ、異なる上記重み付けによる上記合成音声
情報とキー情報との一致程度に応じて検索、および変形
されることを特徴としている。

【００３５】また、請求項３１の発明は、請求項２０の
音声合成システムであって、上記検索手段による上記韻
律情報の検索と、上記変形手段による上記韻律情報の変
形とは、それぞれ、異なる上記重み付けによる上記合成
音声情報とキー情報との一致程度に応じて行われること
を特徴としている。

【００３６】また、請求項３２の発明は、請求項２０の
音声合成システムであって、上記検索手段による上記韻
律情報の検索と、上記変形手段による上記韻律情報の変
形とは、それぞれ、同一の上記重み付けによる上記合成
音声情報とキー情報との一致程度に応じて行われること
を特徴としている。

【００３７】また、請求項３３の発明は、請求項１の音
声合成システムであって、上記変形手段は、少なくと
も、音素ごと、モーラごと、音節ごと、上記合成手段に
おける音声波形の生成単位ごと、および音韻ごとの何れ
かの一致程度に基づいて、上記検索手段によって検索さ
れた上記韻律情報の変形を行うことを特徴としている。

【００３８】また、請求項３４の発明は、請求項３３の
音声合成システムであって、上記音素ごと、モーラご
と、音節ごと、上記合成手段における音声波形の生成単
位ごと、および音韻ごとの何れかの一致度は、少なくと
も、音響特性に基づく距離、調音方式、調音位置、およ
び継続時間長のうちの何れかにより求められた距離、お
よび聴取実験による異聴表に基づく距離の何れかに基づ
いて設定されることを特徴としている。

【００３９】これにより、適切な変形を容易に行うこと
ができる。

【００４０】また、請求項３５の発明は、請求項３４の
音声合成システムであって、上記音響特性は、少なくと
も、基本周波数、強度、時間長、およびスペクトルのう
ちの何れかであることを特徴としている。

【００４１】また、請求項３６の発明は、請求項１の音
声合成システムであって、上記データベースは、複数種
類の言語について、上記キー情報および韻律情報が格納
されることを特徴としている。

【００４２】これにより、複数種類の言語を含む合成音
声を容易に発声させることができる。

【００４３】また、請求項３７の発明は、合成される音
声を示す合成音声情報に基づいて合成音声を出力する音
声合成方法において、検索のキーとなるキー情報と対応
して、音声合成に用いられる韻律情報が格納されたデー
タベースから、上記合成音声情報と、上記キー情報との
一致程度に応じて、上記韻律情報を検索し、上記合成音
声情報と、上記キー情報との一致程度、および所定の変
形規則に基づいて、上記検索手段によって検索された韻
律情報に変形を施し、上記合成音声情報、および上記変
形手段によって変形された韻律情報に基づいて、合成音
声を出力することを特徴としている。

【００４４】また、請求項３８の発明は、請求項３７の
音声合成方法であって、上記合成音声情報、および上記
キー情報は、それぞれ、合成される音声を決定する要素
である複数種類の音声指標情報を含み、上記合成音声情
報とキー情報との一致程度は、上記合成音声情報におけ
る各音声指標情報と、上記キー情報における各音声指標
情報との一致程度が、それぞれ重み付けされて合成され
たものであることを特徴としている。

【００４５】また、請求項３９の発明は、請求項３８の
音声合成方法であって、上記韻律情報は、合成される音
声を特徴づける複数種類の韻律特徴情報を含むことを特
徴としている。

【００４６】また、請求項４０の発明は、請求項３９の
音声合成方法であって、上記各種類の韻律特徴情報は、
それぞれ、異なる上記重み付けによる上記合成音声情報
とキー情報との一致程度に応じて検索、および変形され
ることを特徴としている。

【００４７】また、請求項４１の発明は、請求項３８の
音声合成方法であって、上記検索手段による上記韻律情
報の検索と、上記変形手段による上記韻律情報の変形と
は、それぞれ、異なる上記重み付けによる上記合成音声
情報とキー情報との一致程度に応じて行われることを特
徴としている。

【００４８】また、請求項４２の発明は、請求項３８の
音声合成方法であって、上記検索手段による上記韻律情
報の検索と、上記変形手段による上記韻律情報の変形と
は、それぞれ、同一の上記重み付けによる上記合成音声
情報とキー情報との一致程度に応じて行われることを特
徴としている。

【００４９】これにより、やはり、合成音声情報とキー
情報とが完全に一致するような韻律情報がデータベース
に格納されていない場合でも、類似した韻律情報によっ
て音声合成が行われるので、任意の音声に対して、比較
的適切、かつ、むらのない自然な音声を発声させること
ができる。また、逆に、合成音声の自然さを損なうこと
なく、データベースの記憶容量を低減することができ
る。さらに、上記のように類似した韻律情報が用いられ
る場合に、その類似の程度に応じて韻律情報が変形され
るので、より適切な合成音声が発せられる。

【００５０】また、請求項４３の発明は、入力されたテ
キストを合成音声に変換して出力する音声合成システム
において、上記入力されたテキストを解析して、表音記
号列と言語情報とを出力する言語処理手段と、実音声か
ら抽出された韻律的特徴量と、合成される音声に対応す
る表音記号列および言語情報とが、対応して格納された
韻律情報データベースと、上記言語処理手段から出力さ
れた上記表音記号列と上記言語情報とから成る検索項目
の少なくとも一部に対応する、上記韻律情報データベー
スに格納されている上記韻律的特徴量を検索する検索手
段と、上記検索項目と上記韻律情報データベースの格納
内容との一致の程度に応じて、上記韻律情報データベー
スから検索され、選択された韻律特徴量を所定の規則に
従って変形する韻律変形手段と、上記韻律変形手段から
出力される上記韻律特徴量と上記言語処理手段から出力
された上記表音記号列とに基づいて音声波形を生成する
波形生成手段とを備えたことを特徴としている。

【００５１】これにより、やはり、任意の入力テキスト
に対して、比較的適切、かつ、むらのない自然な音声を
発声させることができる。

【００５２】

【発明の実施の形態】実施の形態に基づいて本発明の内
容を具体的に説明する。

【００５３】（実施の形態１）図１は、実施の形態１の
音声合成システムの構成を示す機能ブロック図である。
図１において、文字列入力部１１０は、音声合成の対象
となる情報として、漢字かな交じり文字列や、かな文字
列などのテキストなどを入力するものである。この文字
列入力部１１０としては、具体的には、例えば、キーボ
ードのような入力装置などが用いられる。

【００５４】言語処理部１２０は、後述するデータベー
ス検索などのための前処理を行うもので、入力されたテ
キストを解析し、例えば図２に示すように、アクセント
句ごとに、表音記号列、および言語情報を出力するもの
である。ここで、上記アクセント句は、便宜上、音声合
成のための処理単位となるもので、ほぼ文法上の文節に
相当するが、例えば２桁以上の数字は各桁の数字をそれ
ぞれ１つのアクセント句とするなど、音声合成処理に適
したように、入力テキストを区切ったものである。ま
た、上記表音記号列は、例えば英数記号から成る文字列
によって、音声の発声単位となる音素や、アクセントの
位置などを示すものである。また、上記言語情報は、例
えば、アクセント句の文法情報（品詞など）および意味
情報（意味の属性など）を示すものである。

【００５５】韻律情報データベース１３０は、例えば図
３に示すように、アクセント句ごとに、実際の音声から
アクセント句ごとに抽出された韻律情報が、被検索キー
と対応して格納されたものである。同図に示す例では、
被検索キーとして、（ａ）音素列（ｂ）アクセント位置（ｃ）モーラ（拍）数（ｄ）アクセント句の前後のポーズ長（ｅ）文法情報、および意味情報が用いられている。また、韻律情報として、（ａ）基本周波数パタン（ｂ）音声強度パタン（ｃ）音韻時間長パタンが用いられている。ここで、上記各韻律情報は、自然な
合成音声を発声させるためには、同一の実音声から抽出
したものであることが好ましい。なお、上記モーラ数
は、韻律情報データベース１３０にあらかじめ格納せず
に、検索の都度、上記音素列から数えるようにしてもよ
い。また、上記アクセント句の前後のポーズ長は、同図
の例ではアクセント句が文頭または文末であるかどうか
を示す情報を兼ねている。これによって、同一のアクセ
ント句が文中の位置によって発声強度などが異なる場合
でも、検索において区別されて、適切な音声を合成する
ことができるようになっているが、これに限らず、ポー
ズ長だけを含むものにしてもよいし、また、文頭、文末
を示す情報を別個の被検索キーとするようにしてもよ
い。

【００５６】韻律情報検索部１４０は、言語処理部１２
０の出力に基づいて、韻律情報データベース１３０の韻
律情報を検索して出力するものである。この検索におい
ては、いわゆるあいまい検索が行われる。すなわち、言
語処理部１２０からの出力に基づく音素列等の検索キー
が韻律情報データベース１３０中の被検索キーと完全に
一致しなくても、ある程度一致するものを検索候補と
し、その中から、例えば最小コスト法によって、最も一
致程度の高いもの（検索キーと被検索キーとの差に相当
する近似コストが小さいもの）を選択するようになって
いる。すなわち、検索キーと被検索キーとが完全に一致
しない場合でも、類似したアクセント句の韻律情報を用
いることにより、韻律情報を生成規則によって生成する
よりも自然な音声を発声させることができる。

【００５７】韻律情報変形部１５０は、韻律情報検索部
１４０における検索時の近似コストと、後述する韻律情
報変形規則記憶部１６０に保持された変形規則とに基づ
いて、韻律情報検索部１４０によって検索された韻律情
報を変形するものである。すなわち、韻律情報検索部１
４０での検索において、検索キーと被検索キーとが一致
する場合には、検索された韻律情報によって最も適切な
音声合成を行うことができるが、両キーが完全に一致し
ない場合には、上記のように類似したアクセント句の韻
律情報を用いるため、両キーの一致程度が低いほど（近
似コストが大きいほど）、合成音声が適切な音声からず
れたものになる可能性がある。そこで、上記近似コスト
に応じて、検索された韻律情報に所定の変形を施すこと
によって、より適切な合成音声が発せられるようになっ
ている。

【００５８】韻律情報変形規則記憶部１６０は、上記近
似コストに応じた韻律情報の変形のための変形規則を保
持するものである。

【００５９】波形生成部１７０は、言語処理部１２０か
ら出力された表音記号列と、韻律情報変形部１５０から
出力された韻律情報とに基づいて、音声波形を合成し、
アナログ音声信号を出力するものである。

【００６０】電気音響変換器１８０は、例えばスピーカ
やヘッドフォンなど、アナログ音声信号を音声に変換す
るものである。

【００６１】次に、上記のように構成された音声合成シ
ステムの音声合成動作を説明する。

【００６２】（１）文字列入力部１１０に音声に変換
されるべきテキストが入力されると、言語処理部１２０
は、入力されたテキストを解析し、アクセント句ごとに
分離して、図２に示すような表音記号列、および言語情
報を出力する。具体的には、例えば、漢字かな交じり文
字列が入力される場合には、図示しない漢字辞書などの
変換辞書などを用いて、アクセント句に分離するととも
に、読みに変換し、アクセント位置やポーズの有無、長
さなどを表す表音記号列を生成する。ここで、図２の表
音記号列の例では、英数記号によって次のような情報を
示すようになっている。

【００６３】（ａ）アルファベット：音素（「N」は撥音を示
す。）（ｂ）「'」：アクセント位置（ｃ）「/」：アクセント句の区切り（ｄ）「cl」：無音区間（ｅ）数字：ポーズ長なお、同図には示していないが、フレーズや文の区切り
を示す情報なども示すようにしてもよい。なお、表音記
号列の表記は上記のものに限るものではなく、また、音
素列やアクセント位置を示す数値などをそれぞれ別個の
情報として出力するなどしてもよい。また、言語情報
（文法情報、意味情報）としては、品詞や意味などのほ
か、活用形や、係り受けの有無、一般的な文中での重要
度などを含めるようにしてもよく、さらに、表記も同図
に示すような「名詞」や「連体形」などの文字列に限ら
ず、コード化した数字を用いるなどしてもよい。

【００６４】（２）韻律情報検索部１４０は、言語処
理部１２０から出力されたアクセント句ごとの表音記号
列と言語情報に基づいて、韻律情報データベース１３０
の韻律情報を検索し、検索された韻律情報と、後に詳述
する近似コストとを出力する。より詳しくは、言語処理
部１２０から上記のような表記の表音記号列が出力され
る場合には、まず、この表音記号列から、音素列や、ア
クセント位置、モーラ数等を示す数値などを求め、これ
らを検索キーとして、韻律情報データベース１３０中の
韻律情報を検索する。この検索においては、上記検索キ
ーと完全に一致する被検索キーが韻律情報データベース
１３０中に存在する場合には、その被検索キーに対応す
る韻律情報を検索結果とすればよいが、存在しない場合
には、まず、ある程度一致するもの（例えば音素列は一
致するが意味情報は一致しないものや、音素列は一致し
ないが、アクセントおよびモーラ数は一致するものな
ど）を検索候補とし、それらのうち、検索キーと被検索
キーとの一致程度が最も高いものを選択して、検索結果
とする。

【００６５】上記選択は、例えば近似コストを用いた最
小コスト法によって行うことができる。具体的には、ま
ず、次のようにして近似コストＣを求める。

【数１】

【００６６】Ｃ＝ａ１・Ｄ１＋ａ２・Ｄ２＋ａ３・Ｄ３
＋ａ４・Ｄ４＋ａ５・Ｄ５＋ａ６・Ｄ６＋ａ７・Ｄ７ここで、上記ａ１、Ｄ１等は、以下の通りである。

【００６７】Ｄ１：音素列における一致しない音素数Ｄ２：アクセント位置の差Ｄ３：モーラ数の差Ｄ４：直前のポーズ長の一致の有無（被検索キーの範囲
内か否か）Ｄ５：直後のポーズ長の一致の有無（被検索キーの範囲
内か否か）Ｄ６：文法情報の一致の有無または程度Ｄ７：意味情報の一致の有無または程度ａ１〜ａ７：上記Ｄ１〜Ｄ７の重みづけをする係数（こ
れらのＤ１〜Ｄ７が、適切な韻律情報の選択に寄与する
程度を、統計的手法や学習によって求めたもの）であ
る。

【００６８】なお、上記Ｄ１〜Ｄ７としては、上記に
限らず、検索キーと被検索キーとの一致程度を表すもの
であれば、種々のものを用いることができる。例えば、
Ｄ１については、一致しない音素が互いに類似する音素
かどうかや、一致しない音素の位置、一致しない音素が
連続しているかどうかなどに応じて異なる値としたりし
てもよい。また、Ｄ４、Ｄ５については、ポーズ長が図
３に示すように長、短、無しなどの段階で示される場合
には、一致しているか否かを０、１で表したり、段階の
差を数値で表したりしてもよく、また、ポーズ長が時間
の数値で示される場合には、時間の差を用いたりしても
よい。また、Ｄ６、Ｄ７については、文法情報や意味情
報が一致しているか否かを０、１で表してもよいし、検
索キーと被検索キーとをパラメータとするテーブルを用
いて、両者の組み合わせに応じた一致の程度（例えば名
詞と動詞とでは一致の程度は低く、助詞と助動詞とでは
高いなど。）を示す数値を用いるようにしたり、類義語
辞書を用いて意味の類似の程度を求めるようにしたりし
てもよい。

【００６９】上記のような近似コストを各検索候補ごと
に算出し、もっとも近似コストの小さいものを検索結果
として選択して検索結果とすることにより、検索キーと
被検索キーとが完全に一致するような韻律情報が韻律情
報データベース１３０に格納されていない場合でも、類
似した韻律情報によって、比較的適切、かつ自然な音声
を発声させることができる。

【００７０】（３）韻律情報変形部１５０は、韻律情
報検索部１４０から出力された近似コストに応じて、韻
律情報変形規則記憶部１６０に記憶されている規則を用
い、韻律情報検索部１４０から検索結果として出力され
た韻律情報（基本周波数パタン、音声強度パタン、音韻
時間長パタン）を変形する。具体的には、例えば、基本
周波数パタンのダイナミックレンジを圧縮する変形規則
が適用される場合には、図４に示すような基本周波数パ
タンの変形がなされる。

【００７１】上記近似コストに応じた変形は、次のよう
な意味を持っている。すなわち、例えば、図５に示すよ
うに、入力テキスト「門真市」に対して「名古屋市」の
韻律情報が検索されたとすると、これらの音素列は相違
するが、その他の検索項目は一致している（近似コスト
は小さい）ため、「名古屋市」の韻律情報をそのまま変
形せずに用いれば、適切な音声合成をすることができ
る。また、例えば、「５分です」に対して「なるんで
す」が検索されたとすると、「５分です」の適切な合成
音声を得るためには、一般に、品詞の相違を考慮すれ
ば、「なるんです」の音声強度パタンを多少減少させる
ことが望ましく、文節情報（例えば意味の重要度）を考
慮すれば、数字は発声強度の大きい場合が多いので、
「なるんです」の音声強度パタンをある程度増大させる
ことが望ましく、総合的には、「なるんです」の音声強
度パタンを多少増大させることが望ましい。このような
総合的な変形程度は、近似コストと相関関係を有してい
るため、近似コストに対応した変形程度（変形倍率等）
を変形規則として韻律情報変形規則記憶部１６０に記憶
させておくことにより、適切な合成音声を得ることがで
きる。なお、韻律情報の変形は、図４に示すように経過
時間の全体にわたって一様に変形するものに限らず、例
えば主として時間経過の中間付近を変形させるなどの変
形パターンによって、時間経過とともに変形程度を異な
らせるなどしてもよい。上記変形規則の具体的な記憶形
式としては、近似コストを変形倍率に変換するための係
数を変形規則とするものでもよいし、近似コストをパラ
メータとして変形倍率や変形パターンを対応させたテー
ブルを用いるなどしてもよい。なお、変形に用いる近似
コストとしては、上記のように検索に用いる近似コスト
と同じものに限らず、上記（数１）とは係数ａ１〜ａ７
が異なる式によって、より適切な変形が行われる値を得
るようにしてもよく、また、基本周波数パタン、音声強
度パタン、音韻時間長パタンでそれぞれ異なる値を用い
るようにしてもよい。また、例えば、（数１）の各項が
負の値を採り得るような場合には、各項の絶対値の和を
検索用の近似コスト（０または正）として用い、各項の
そのままの値の和を変形用の近似コスト（負もあり得
る）として用いるようにするなどしてもよい。

【００７２】（４）波形生成部１７０は、言語処理部
１２０から出力された表音記号列と、韻律情報変形部１
５０によって変形された韻律情報とに基づいて、すなわ
ち、音素列およびポーズ長と、基本周波数パタン、音声
強度パタン、および音韻時間長パタンとに基づいて音声
波形を合成し、アナログ音声信号を出力する。このアナ
ログ音声信号により、電気音響変換器１８０から合成音
声が発せられる。

【００７３】上記のように、検索キーと被検索キーとが
完全に一致するような韻律情報が韻律情報データベース
１３０に格納されていない場合でも、類似した韻律情報
によって音声合成が行われるので、比較的適切、かつ、
むらのない自然な音声を発声させることができる。ま
た、逆に、合成音声の自然さを損なうことなく、韻律情
報データベース１３０の記憶容量を低減することができ
る。さらに、上記のように類似した韻律情報が用いられ
る場合に、その類似の程度に応じて韻律情報が変形され
るので、より適切な合成音声が発せられる。

【００７４】（実施の形態２）実施の形態２の音声合成
システムとして、アクセント句の前後のポーズ長も韻律
情報として韻律情報データベースに格納された音声合成
システムの例を説明する。なお、以下の実施の形態にお
いて、前記実施の形態１等と同様の機能を有する構成要
素については、同一または対応する符号を付して詳細な
説明を省略する。

【００７５】図６は、実施の形態２の音声合成システム
の構成を示す機能ブロック図である。この音声合成シス
テムは、実施の形態１の音声合成システムと比べて、以
下の点が異なっている。

【００７６】（ａ）言語処理部２２０は、言語処理部１
２０と異なり、ポーズ情報が含まれない表音記号列を出
力するようになっている。

【００７７】（ｂ）韻律情報データベース２３０には、
図７に示すように、韻律情報データベース１３０と異な
り、ポーズ情報が被検索キーとしてではなく韻律情報と
して格納されている。なお、実際には、韻律情報データ
ベース１３０と同じデータ構造のものを用いて、検索時
に、ポーズ長を韻律情報として取り扱うようにしてもよ
い。

【００７８】（ｃ）韻律情報検索部２４０は、ポーズ情
報を含まない検索キー、被検索キーの照合によって検索
を行い、（基本周波数パタン、音声強度パタン、音韻時
間長パタンに加えて）ポーズ情報も韻律情報として出力
するようになっている。

【００７９】（ｄ）韻律情報変形部２５０は、ポーズ情
報も、基本周波数パタン等と同様に、近似コストに応じ
て変形するようになっている。

【００８０】（ｅ）韻律情報変形規則記憶部２６０は、
基本周波数パタン変形規則等とともに、ポーズ長変更規
則も保持するようになっている。

【００８１】上記のように、韻律情報データベース２３
０から検索されたポーズ情報を用いることによって、ポ
ーズ長がより自然な合成音声を発声させることができ
る。また、言語処理部２２０における入力テキスト解析
処理の負荷を軽減することもできる。

【００８２】なお、実施の形態１と同様に、検索時に言
語処理部から出力されたポーズ情報も検索キーとして用
いるようにして、検索精度を容易に高め得るようにして
もよい。この場合、韻律情報データベースには、被検索
キーとしてのポーズ情報と韻律情報としてのポーズ情報
とを別個に格納するようにしてもよいし、兼用されるよ
うにしてもよい。また、このように、ポーズ情報が言語
処理部から出力されるとともに韻律情報データベースに
も格納されている場合、何れのポーズ情報を用いて音声
合成するかは、言語処理部による解析精度と、韻律情報
データベースから検索されるポーズ情報の信頼性とに応
じて選択すればよく、さらに、近似コスト（検索結果の
確からしさ）に応じて、何れを選択するかを決定するよ
うにしてもよい。

【００８３】（実施の形態３）実施の形態３の音声合成
システムとして、韻律情報の検索および変形が、基本周
波数パタン等でそれぞれ別個の近似コストに基づいて行
われる音声合成システムの例を説明する。

【００８４】図８は、実施の形態３の音声合成システム
の構成を示す機能ブロック図である。この音声合成シス
テムは、前記実施の形態１の音声合成システムと比べ
て、以下の点が異なっている。

【００８５】（ａ）韻律情報検索部１４０に代えて、基
本周波数パタン検索部３４１、音声強度パタン検索部３
４２、および音韻時間長パタン検索部３４３が設けられ
ている。

【００８６】（ｂ）韻律情報変形部１５０に代えて、基
本周波数パタン変形部３５１、音声強度パタン変形部３
５２、および音韻時間長パタン変形部３５３が設けられ
ている。

【００８７】上記各検索部３４１〜３４３、および各変
形部３５１〜３５３は、それぞれ、以下の（数２）〜
（数４）により得られる近似コストを用いて、基本周波
数パタン、音声強度パタン、または音韻時間長パタンを
独立して検索（検索候補を選択）、または変形するよう
になっている。

【数２】

【００８８】（基本周波数パタンの検索、変形）Ｃ＝ｂ１・Ｄ１＋ｂ２・Ｄ２＋ｂ３・Ｄ３＋ｂ４・Ｄ４
＋ｂ５・Ｄ５＋ｂ６・Ｄ６＋ｂ７・Ｄ７

【数３】

【００８９】（音声強度パタンの検索、変形）Ｃ＝ｃ１・Ｄ１＋ｃ２・Ｄ２＋ｃ３・Ｄ３＋ｃ４・Ｄ４
＋ｃ５・Ｄ５＋ｃ６・Ｄ６＋ｃ７・Ｄ７

【数４】

【００９０】（音韻時間長パタンの検索、変形）Ｃ＝ｄ１・Ｄ１＋ｄ２・Ｄ２＋ｄ３・Ｄ３＋ｄ４・Ｄ４
＋ｄ５・Ｄ５＋ｄ６・Ｄ６＋ｄ７・Ｄ７ここで、上記Ｄ１〜Ｄ７は、実施の形態１の（数１）と
同じであるが、重みづけの係数ｂ１〜ｂ７、ｃ１〜ｃ
７、ｄ１〜ｄ７は、（数１）のａ１〜ａ７と異なり、そ
れぞれ、適切な基本周波数パタン、音声強度パタン、ま
たは音韻時間長パタンの選択が行われるように、統計的
手法や学習によって求めたものが用いられている。すな
わち、例えば、一般的に基本周波数パタンはアクセント
位置およびモーラ数が同じであれば、おおよそ類似した
ものであるため、係数ｂ２、ｂ３が（数１）の係数ａ
２、ａ３よりも大きく設定されている。また、音声強度
パタンはポーズの有無や長さの寄与程度が大きいため、
係数ｃ４、ｃ５が係数ａ４、ａ５よりも大きく設定され
ている。同様に、音韻時間長パタンは音素列の並びの寄
与程度が大きいため、係数ｄ１が係数ａ１よりも大きく
設定されている。

【００９１】上記のように、基本周波数パタン等の検
索、変形を別個の近似コストを用いて独立して行うこと
により、バランスの良い検索および変形を行うことがで
き、それぞれ最適な基本周波数パタン等に基づいて音声
合成を行うことができる。また、韻律情報データベース
１３０には、基本周波数パタン、音声強度パタン、およ
び音韻時間長パタンを組にして格納する必要はなく、例
えばそれぞれのパタンごとの種類の数だけ格納すればよ
いので、比較的小さな記憶容量の韻律情報データベース
１３０で、良好な音質の合成音声を発声させることがで
きる。

【００９２】（実施の形態４）実施の形態４の音声合成
システムについて説明する。

【００９３】図９は、実施の形態４の音声合成システム
の構成を示す機能ブロック図である。この音声合成シス
テムは、主として、次のような特徴を有している。

【００９４】（ａ）前記実施の形態１〜３と異なり、韻
律情報の検索や変形等の処理が、アクセント句単位では
なく、フレーズ単位で行われる。ここで、上記フレーズ
は、節または呼気段落などとも称され、通常、発声され
る際に（句点がある場合と同様に）区切りとなる、１ま
たは複数のアクセント句の集まりである。

【００９５】（ｂ）実施の形態２と同様に、ポーズ情報
が韻律情報として格納された韻律情報データベース４３
０、および基本周波数パタン変形規則等とともにポーズ
長変更規則も格納された韻律情報変形規則記憶部４６０
が設けられている。ただし、これらは、図１０に示すよ
うに、韻律情報や変形規則がフレーズ単位でも格納され
ている点で、実施の形態２の韻律情報データベース２３
０、および韻律情報変形規則記憶部２６０と異なってい
る。

【００９６】（ｃ）実施の形態３と同様に、韻律情報の
検索および変形は、基本周波数パタン等でそれぞれ別個
の近似コストに基づいて行われる。また、ポーズ情報の
検索およびポーズ長の変更も、同様に独立して行われ
る。

【００９７】（ｄ）韻律情報の変形は、実施の形態１〜
３と同様に、近似コストに応じて行われるとともに、さ
らに、検索キーと被検索キーとの音素列における音素ご
との一致度（一致の程度や有無）に応じても行われる点
が異なっている。

【００９８】以下、より詳しく説明する。

【００９９】言語処理部４２０は、実施の形態１の言語
処理部１２０と同様に、文字列入力部１１０から入力さ
れたテキストを解析し、アクセント句ごとに分離した
後、所定のアクセント句のまとまりであるフレーズ単位
で、表音記号列、および言語情報を出力するようになっ
ている。

【０１００】韻律情報データベース４３０には、上記の
ように韻律情報がフレーズ単位で格納されているが、こ
れに伴って、さらに、図１０に示すように各フレーズに
含まれるアクセント句の数も被検索キーとして格納され
ている。なお、韻律情報として格納されるポーズ情報
は、フレーズの前後のポーズ長に限らず、アクセント句
の前後のポーズ長も含めるようにしてもよい。

【０１０１】基本周波数パタン検索部４４１、音声強度
パタン検索部４４２、音韻時間長パタン検索部４４３、
およびポーズ情報検索部４４４は、フレーズ単位で韻律
情報の検索を行うために、近似コストとして、フレーズ
に含まれるアクセント句の数も考慮するようになってい
る。また、ポーズ情報検索部４４４以外は、検索された
基本周波数パタン等、および近似コストとともに、検索
キーと被検索キーとの音素列における音素ごとの一致度
も出力するようになっている一方、ポーズ情報検索部４
４４は、ポーズ情報、および近似コストとともに、アク
セント句ごとのモーラ数やアクセント位置などの一致度
を出力するようになっている。

【０１０２】基本周波数パタン変形部４５１、音声強度
パタン変形部４５２、および音韻時間長パタン変形部４
５３は、実施の形態１〜３の韻律情報変形部１５０等と
同様に、韻律情報変形規則記憶部４６０に保持されてい
る規則を用い、基本周波数パタン検索部４４１等から出
力された近似コストに応じて韻律情報の変形を行うとと
もに、さらに、検索キーと被検索キーとの音素列におけ
る音素ごとの一致度に応じても変形を行うようになって
いる。すなわち、例えば「たかな」に対して「さかな」
のように一部の音素だけが異なる言葉の韻律情報が用い
られる場合に、異なる音素についての音声強度パタン
を、図２に記号Ｐで示す部分のように弱くして、音素の
相違の影響が目立ちにくくなるような変形を容易にする
ことができる。なお、このような音素ごとの一致度に応
じた変形は必ずしもしなくてもよいし、また、近似コス
トに応じた変形を行わずに音素ごとの一致度に応じた変
形だけを行うなどしてもよい。

【０１０３】また、ポーズ長変更部４５４は、韻律情報
変形規則記憶部４６０に保持されている規則を用い、ポ
ーズ情報検索部４４４から出力された近似コストに応じ
て韻律情報の変形を行うとともに、さらに、アクセント
句ごとのモーラ数やアクセント位置などの一致度に応じ
て、ポーズ長の変更を行うようになっている。

【０１０４】上記のように、フレーズ単位で韻律情報の
検索や変形等を行うことによって、文の流れに沿った、
より自然な合成音声を発声させることができる。また、
実施の形態２と同様に、韻律情報データベース４３０か
ら検索されたポーズ情報を用いることによって、ポーズ
長がより自然な合成音声を発声させることができるとと
もに、実施の形態３と同様に、基本周波数パタン等の検
索、変形を別個の近似コストを用いて独立して行うこと
により、それぞれ最適な基本周波数パタン等に基づいて
音声合成を行うことができ、韻律情報データベース４３
０の記憶容量を低減することも容易にできる。さらに、
音素ごとの一致度に応じた基本周波数パタン等の変形を
行うことによって、音素の相違の影響が目立ちにくくす
ることができるとともに、アクセント句ごとのモーラ数
やアクセント位置などの一致度に応じてもポーズ長の変
更等を行うことにより、ポーズ長がより自然な合成音声
を発声させることなどができる。

【０１０５】（実施の形態５）実施の形態５の音声合成
システムとして、韻律情報の検索に音韻カテゴリ列が用
いられる例を説明する。

【０１０６】図１１は、実施の形態５の音声合成システ
ムの構成を示す機能ブロック図である。図１２は、音韻
カテゴリの例を示す説明図である。

【０１０７】ここで、上記音韻カテゴリは、音韻を、各
音韻間の音声学的特徴から求めた距離によって、すなわ
ち各音韻の調音方式、調音位置、継続時間長などによっ
てグループ化したものである。つまり、この音韻カテゴ
リを同じくする音素どうしは、類似した音響特性を有し
ているため、例えば、あるアクセント句と、そのうちの
一部の音素が、同じ音韻カテゴリの他の音素に入れ代わ
ったアクセント句とは、同一、または比較的類似した韻
律情報を有していることが多い。そこで、韻律情報の検
索において、音素列が一致していない場合でも、各音素
の音韻カテゴリが一致している場合には、韻律情報を流
用しても、多くの場合、適切な合成音声を発声させるこ
とができる。なお、音韻のグループ化は、上記に限ら
ず、例えば、図１２に示すように、音韻どうしの異聴表
から多変量解析などを用いて決定した音韻間の距離（心
理距離）に従って音韻をグループ化したり、音韻の物理
特性（音韻の基本周波数、強度、時間長、およびスペク
トルなど）の類似度に従ってグループ化したり、また、
韻律パタンを多変量解析などの統計的手法を用いてグル
ープ化し、上記韻律パタンのグループを最も良く反映す
るように、音韻を統計的手法を用いてグループ化したり
してもよい。

【０１０８】以下、具体的に説明する。この実施の形態
５の音声合成システムは、実施の形態１の音声合成シス
テムに比べると、韻律情報データベース１３０に代えて
韻律情報データベース７３０を備えるとともに、さら
に、音韻カテゴリ列生成部７９０を備えている点が異な
る。

【０１０９】上記韻律情報データベース７３０には、実
施の形態１の韻律情報データベース１３０の格納内容に
加えて、さらに、アクセント句の各音素が属する音韻カ
テゴリを示す音韻カテゴリ列が、被検索キーとして格納
されている。ここで、音韻カテゴリ列の具体的な表記と
しては、例えば、各音韻カテゴリに割り当てた番号や記
号の列として表したり、各音韻カテゴリ内の何れかの音
素を代表音素として、その代表音素の列として表したり
すればよい。

【０１１０】音韻カテゴリ列生成部７９０は、言語処理
部１２０から出力されるアクセント句ごとの表音記号列
を音韻カテゴリ列に変換して出力するようになってい
る。

【０１１１】韻律情報検索部７４０は、音韻カテゴリ列
生成部７９０から出力された音韻カテゴリ列、および言
語処理部１２０から出力されたアクセント句ごとの表音
記号列と言語情報とに基づいて、韻律情報データベース
７３０の韻律情報を検索し、検索された韻律情報と、近
似コストとを出力するようになっている。上記近似コス
トは、音韻カテゴリ列の一致程度（例えば音韻ごとの音
韻カテゴリの類似程度）を含めることにより、例えば音
素列が一致しない場合でも、音韻カテゴリ列が一致して
いる場合には小さな値にすることができるため、より適
切な韻律情報が検索（選択）され、自然な合成音声が発
声される。また、例えば、まず検索候補を音韻カテゴリ
列が一致または類似するものに絞ることによって、検索
速度を向上させることなども容易になる。

【０１１２】なお、上記の例では、言語処理部１２０か
ら出力された表音記号列を音韻カテゴリ列生成部７９０
によって音韻カテゴリ列に変換する例を示したが、これ
に限らず、言語処理部１２０に音韻カテゴリ列を生成さ
せる機能を持たせるようにしたり、韻律情報検索部７４
０に、入力された表音記号列を音韻カテゴリ列に変換す
る機能を持たせるようにしてもよい。また、韻律情報検
索部７４０に、韻律情報データベースから読み出した音
素列を音韻カテゴリ列に変換する機能を持たせれば、実
施の形態１の韻律情報データベース１３０と同様の音韻
カテゴリ列が格納されていない韻律情報データベースを
用いることもできる。

【０１１３】また、音素列と音韻カテゴリ列とを共に検
索キーとして用いるものに限らず、音韻カテゴリ列だけ
を用いるようにしてもよい。この場合には、音素列だけ
が異なる韻律情報はまとめることができるので、データ
ベースの容量を低減したり、検索速度を向上させたりす
ることが容易にできる。

【０１１４】なお、上記各実施の形態や変形例で説明し
た構成要素は、種々組み合わせるなどしてもよい。具体
的には、例えば、実施の形態５で示した、音韻カテゴリ
列を韻律情報の検索等に用いる手法は、他の実施の形態
などに適用してもよい。

【０１１５】また、実施の形態３、４で示した、音素ご
との一致度に応じた韻律情報の変形も、他の実施の形態
などにおいて、近似コストに応じた変形に代えて、また
はこれとともに用いることができる。なお、さらに、音
素ごとや、モーラごと、音節ごと、波形生成部における
音声波形の生成単位ごと、音韻ごとの一致度などを用い
て変形するようにしてもよい。また、変形する韻律情報
に応じて、用いる一致度を選択してもよい。具体的に
は、例えば基本周波数パタンの変形には、近似コストま
たは音素ごとなどの一致度の何れかを用い、音声強度パ
タンの変形には、双方を共に用いるなどしてもよい。こ
こで、上記音素等の一致度は、例えば基本周波数や、強
度、時間長、スペクトルなどの音響特性に基づく距離、
調音方式、調音位置、継続時間長などにより音声学的に
求められた距離、または聴取実験による異聴表に基づく
距離などに基づいて定めることができる。

【０１１６】また、実施の形態５で示した音韻カテゴリ
を検索等に用いる方法も、他の実施の形態などにおいて
も、音素列を用いるのに代えて、またはこれとともに用
いることができる。

【０１１７】また、実施の形態２、４で示したように、
ポーズ情報が韻律情報として韻律情報データベースに格
納されて検索される構成も他の実施の形態などに適用し
てもよいし、逆に、実施の形態２、４などにおいてポー
ズ情報も検索に用いるようにしてもよい。

【０１１８】また、言語処理部は必ずしも備える必要は
なく、直接、表音記号列などを外部から入力するように
してもよい。このような構成は、例えば携帯電話のよう
に小型の機器に適用する場合などに特に有用であり、装
置の小型化や通信データの圧縮などがより容易になる。
また、表音記号列と言語情報とを外部から入力するよう
にしてもよい。すなわち、例えば大規模なサーバを用い
て精度の高い言語処理を行い、その結果が入力されるよ
うにして、さらに適切な音声を発声させることもでき
る。一方、簡易に表音記号列などだけを用いるようにし
て構成の簡素化を図るようにしてもよい。

【０１１９】また、音声を合成するための韻律情報は上
記のものに限るものではない。例えば、音韻時間長パタ
ンに代えて、音素時間長パタンや、モーラ時間長パタ
ン、音節時間長パタンなどを用いてもよい。また、上記
のような時間長パタンを含めて種々の韻律情報を組み合
わせてもよい。

【０１２０】また、韻律制御単位、すなわち韻律情報の
格納、検索、変形などの単位は、アクセント句または１
以上のアクセント句から成るフレーズの何れでもよい
し、さらに、文節、単語、ストレス句単位や、１以上の
文節、単語、ストレス句から成るフレーズ単位などでも
よいし、これらを混在させてもよい。また、韻律制御単
位（例えば１以上のアクセント句から成るフレーズ）と
は別に、例えば韻律情報の変形等に他の単位（例えばア
クセント句）ごとのモーラ数やアクセント位置等の一致
度を用いるなどしてもよい。

【０１２１】また、検索キーの項目や数は上記のものに
限るものではない。すなわち、一般には検索キーの項目
は多い方が適切な候補が検索されやすいが、最適な候補
が検索されやすいように各項目の一致度の決定や重み付
けのし方などとともに最適化すればよい。また、検索精
度への寄与程度が小さい検索キーは省略して、構成の簡
素化、処理速度の向上を図るようにしてもよい。

【０１２２】また、上記の例では、日本語を例に挙げて
説明したが、これに限らず、種々の言語に対しても、同
様に容易に応用することができる。その場合、それぞれ
の言語の特性に応じた変形、例えばモーラ単位の処理を
モーラまたはシラブル単位の処理とするなどの変形を加
えてもよい。また、韻律情報データベース１３０等に
は、複数の言語についての情報を格納するなどしてもよ
い。

【０１２３】また、上記のような構成はコンピュータ
（および周辺機器）とプログラムによって実装してもよ
いし、ハードウェアによって実装してもよい。

【０１２４】

【発明の効果】以上説明したように、本発明によれば、
例えば実音声から抽出された基本周波数パタンや、音声
強度パタン、音素時間長パタン、ポーズ情報などの韻律
情報をデータベースとして保持し、テキストや表音記号
列などとして入力された発声目標に対して、例えば近似
コストが最小となるような韻律情報をデータベースより
検索して選択し、近似コストや一致度等に応じて、所定
の変形規則に基づき、選択された韻律情報を変形するこ
とにより、任意の入力テキスト等に応じた自然な合成音
声を発声させることができる。特に、音声情報データベ
ース内に、入力テキスト等に対応する発声内容が存在し
てもしなくても、同様の音質で、すなわち、全体として
実音声に近い自然な合成音声を発声させることができる
という効果を奏する。

【０１２５】したがって、本発明は、家庭電化製品や、
カーナビゲーションシステム、携帯電話などの種々の電
子機器において、機器の状態や、操作などの指示、応答
メッセージ等のメッセージを発声させるため、また、パ
ーソナルコンピュータなどにおいて、音声インタフェイ
スによる操作や、光学文字認識（ＯＣＲ）による文字認
識結果の確認などに用いることができ、上記のような分
野などにおいて有用である。

【図面の簡単な説明】

【図１】実施の形態１の音声合成システムの構成を示す
機能ブロック図である。

【図２】実施の形態１の音声合成システムの各部の情報
の例を示す説明図である。

【図３】実施の形態１の音声合成システムの韻律情報デ
ータベースの記憶内容を示す説明図である。

【図４】基本周波数パタンの変形の例を示す説明図であ
る。

【図５】韻律情報の変形の例を示す説明図である。

【図６】実施の形態２の音声合成システムの構成を示す
機能ブロック図である。

【図７】実施の形態２の音声合成システムの韻律情報デ
ータベースの記憶内容を示す説明図である。

【図８】実施の形態３の音声合成システムの構成を示す
機能ブロック図である。

【図９】実施の形態４の音声合成システムの構成を示す
機能ブロック図である。

【図１０】実施の形態４の音声合成システムの韻律情報
データベースの記憶内容を示す説明図である。

【図１１】実施の形態５の音声合成システムの構成を示
す機能ブロック図である。

【図１２】音韻カテゴリの例を示す説明図である。

【図１３】従来の音声合成システムの構成を示す機能ブ
ロック図である。

【符号の説明】

１１０文字列入力部１２０言語処理部１３０韻律情報データベース１４０韻律情報検索部１５０韻律情報変形部１６０韻律情報変形規則記憶部１７０波形生成部１８０電気音響変換器２２０言語処理部２３０韻律情報データベース２４０韻律情報検索部２５０韻律情報変形部２６０韻律情報変形規則記憶部３４１基本周波数パタン検索部３４２音声強度パタン検索部３４３音韻時間長パタン検索部３５１基本周波数パタン変形部３５２音声強度パタン変形部３５３音韻時間長パタン変形部４２０言語処理部４３０韻律情報データベース４４１基本周波数パタン検索部４４２音声強度パタン検索部４４３音韻時間長パタン検索部４４４ポーズ情報検索部４５１基本周波数パタン変形部４５２音声強度パタン変形部４５３音韻時間長パタン変形部４５４ポーズ長変更部４６０韻律情報変形規則記憶部７３０韻律情報データベース７４０韻律情報検索部７９０音韻カテゴリ列生成部

───────────────────────────────────────────────────── フロントページの続き (72)発明者釜井孝浩大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者山上勝義大阪府門真市大字門真1006番地松下電器産業株式会社内Ｆターム(参考） 5D045 AA09 AA11

Claims

【特許請求の範囲】

【請求項１】合成される音声を示す合成音声情報に基づ
いて合成音声を出力する音声合成システムにおいて、検索のキーとなるキー情報と対応して、音声合成に用い
られる韻律情報が格納されたデータベースと、上記合成音声情報と、上記キー情報との一致程度に応じ
て、上記韻律情報を検索する検索手段と、上記合成音声情報と、上記キー情報との一致程度、およ
び所定の変形規則に基づいて、上記検索手段によって検
索された韻律情報に変形を施す変形手段と、上記合成音声情報、および上記変形手段によって変形さ
れた韻律情報に基づいて、合成音声を出力する合成手段
と、を備えたことを特徴とする音声合成システム。
【請求項２】請求項１の音声合成システムであって、上記合成音声情報、および上記キー情報は、それぞれ、
合成される音声の音声的属性を示す表音記号列を含むこ
とを特徴とする音声合成システム。
【請求項３】請求項２の音声合成システムであって、上記合成音声情報、および上記キー情報は、さらに、そ
れぞれ、合成される音声の言語的属性を示す言語情報を
含むことを特徴とする音声合成システム。
【請求項４】請求項２の音声合成システムであって、上記表音記号列は、少なくとも、合成される音声の音韻
の列、アクセント位置、およびポーズの有無または長さ
のうちの何れかを実質的に示す情報を含むことを特徴と
する音声合成システム。
【請求項５】請求項３の音声合成システムであって、上記言語情報は、少なくとも、合成される音声の文法的
情報、および意味的情報の何れかを含むことを特徴とす
る音声合成システム。
【請求項６】請求項３の音声合成システムであって、さらに、上記音声合成システムに入力されたテキスト情
報を解析して、上記表音記号列、および上記言語情報を
生成する言語処理手段を備えたことを特徴とする音声合
成システム。
【請求項７】請求項１の音声合成システムであって、上記合成音声情報、および上記キー情報は、それぞれ、
合成される音声の各音韻が属する音韻カテゴリを示す音
韻カテゴリ列を実質的に含むことを特徴とする音声合成
システム。
【請求項８】請求項７の音声合成システムであって、さらに、上記音声合成システムに入力された、上記合成
音声情報に対応する情報、および上記データベースに格
納された、上記キー情報に対応する情報の少なくとも何
れかを音韻カテゴリ列に変換する変換手段を備えたこと
を特徴とする音声合成システム。
【請求項９】請求項７の音声合成システムであって、上記音韻カテゴリは、少なくとも、音韻の調音方式、調
音位置、および継続時間長のうちの何れかを用いて音韻
をグループ化したものであることを特徴とする音声合成
システム。
【請求項１０】請求項７の音声合成システムであって、上記音韻カテゴリは、韻律パタンを統計的手法を用いて
グループ化し、韻律パタンのグループを最も良く反映す
るように、音韻を統計的手法を用いてグループ化したも
のであることを特徴とする音声合成システム。
【請求項１１】請求項１０の音声合成システムであっ
て、上記統計的手法は、多変量解析であることを特徴とする
音声合成システム。
【請求項１２】請求項７の音声合成システムであって、上記音韻カテゴリは、音韻どうしの異聴表から統計的手
法を用いて決定した音韻間の距離に従って音韻をグルー
プ化したものであることを特徴とする音声合成システ
ム。
【請求項１３】請求項１２の音声合成システムであっ
て、上記統計的手法は、多変量解析であることを特徴とする
音声合成システム。
【請求項１４】請求項７の音声合成システムであって、上記音韻カテゴリは、音韻の物理特性の類似度に従って
音韻をグループ化したものであることを特徴とする音声
合成システム。
【請求項１５】請求項１４の音声合成システムであっ
て、上記物理特性は、少なくとも、音韻の基本周波数、強
度、時間長、およびスペクトルのうちの何れかであるこ
とを特徴とする音声合成システム。
【請求項１６】請求項１の音声合成システムであって、上記データベースに格納される上記韻律情報は、同一の
実音声から抽出された韻律的特徴を示す情報を含むこと
を特徴とする音声合成システム。
【請求項１７】請求項１６の音声合成システムであっ
て、上記韻律的特徴を示す情報は、少なくとも、基本周波数の時間的変化を示す基本周波数パタン、音声強度の時間的変化を示す音声強度パタン、音韻ごとの時間長を示す音韻時間長パタン、およびポー
ズの有無または長さを示すポーズ情報の何れかを含むこ
とを特徴とする音声合成システム。
【請求項１８】請求項１の音声合成システムであって、上記データベースは、上記韻律情報を韻律制御単位ごと
に格納することを特徴とする音声合成システム。
【請求項１９】請求項１８の音声合成システムであっ
て、上記韻律制御単位は、アクセント句、１以上のアクセント句によって構成されるフレーズ、文節、１以上の文節によって構成されるフレーズ、単語、１以上の単語によって構成されるフレーズ、ストレス句、および１以上のストレス句によって構成さ
れるフレーズのうちの何れかであることを特徴とする音
声合成システム。
【請求項２０】請求項１の音声合成システムであって、上記合成音声情報、および上記キー情報は、それぞれ、
合成される音声を決定する要素である複数種類の音声指
標情報を含み、上記合成音声情報とキー情報との一致程度は、上記合成
音声情報における各音声指標情報と、上記キー情報にお
ける各音声指標情報との一致程度が、それぞれ重み付け
されて合成されたものであることを特徴とする音声合成
システム。
【請求項２１】請求項２０の音声合成システムであっ
て、上記音声指標情報は、少なくとも、合成される音声の音
韻の列、アクセント位置、ポーズの有無または長さ、お
よび言語的属性を示す言語情報のうちの何れかを実質的
に示す情報を含むことを特徴とする音声合成システム。
【請求項２２】請求項２１の音声合成システムであっ
て、上記音声指標情報は、合成される音声の音韻の列を実質
的に示す情報を含み、上記合成音声情報における各音声
指標情報と、上記キー情報における各音声指標情報との
一致程度は、上記音韻ごとの音響的特徴長の類似程度を
含むことを特徴とする音声合成システム。
【請求項２３】請求項２０の音声合成システムであっ
て、上記音声指標情報は、合成される音声の各音韻が属する
音韻カテゴリを示す音韻カテゴリ列を実質的に含むこと
を特徴とする音声合成システム。
【請求項２４】請求項２３の音声合成システムであっ
て、上記合成音声情報における各音声指標情報と、上記キー
情報における各音声指標情報との一致程度は、上記音韻
ごとの音韻カテゴリの類似程度を含むことを特徴とする
音声合成システム。
【請求項２５】請求項２０の音声合成システムであっ
て、上記韻律情報は、合成される音声を特徴づける複数種類
の韻律特徴情報を含むことを特徴とする音声合成システ
ム。
【請求項２６】請求項２５の音声合成システムであっ
て、上記複数種類の韻律特徴情報は、組にされて、上記デー
タベースに格納されていることを特徴とする音声合成シ
ステム。
【請求項２７】請求項２６の音声合成システムであっ
て、上記組にされる複数種類の韻律特徴情報は、それぞれ、
同一の実音声から抽出されたものであることを特徴とす
る音声合成システム。
【請求項２８】請求項２５の音声合成システムであっ
て、上記韻律的特徴情報は、少なくとも、基本周波数の時間的変化を示す基本周波数パタン、音声強度の時間的変化を示す音声強度パタン、音韻ごとの時間長を示す音韻時間長パタン、およびポー
ズの有無または長さを示すポーズ情報の何れかを含むこ
とを特徴とする音声合成システム。
【請求項２９】請求項２８の音声合成システムであっ
て、上記音韻時間長パタンは、少なくとも、音素時間長パタ
ン、モーラ時間長パタン、および音節時間長パタンの何
れかを含むことを特徴とする音声合成システム。
【請求項３０】請求項２５の音声合成システムであっ
て、上記各種類の韻律特徴情報は、それぞれ、異なる上記重
み付けによる上記合成音声情報とキー情報との一致程度
に応じて検索、および変形されることを特徴とする音声
合成システム。
【請求項３１】請求項２０の音声合成システムであっ
て、上記検索手段による上記韻律情報の検索と、上記変形手
段による上記韻律情報の変形とは、それぞれ、異なる上
記重み付けによる上記合成音声情報とキー情報との一致
程度に応じて行われることを特徴とする音声合成システ
ム。
【請求項３２】請求項２０の音声合成システムであっ
て、上記検索手段による上記韻律情報の検索と、上記変形手
段による上記韻律情報の変形とは、それぞれ、同一の上
記重み付けによる上記合成音声情報とキー情報との一致
程度に応じて行われることを特徴とする音声合成システ
ム。
【請求項３３】請求項１の音声合成システムであって、上記変形手段は、少なくとも、音素ごと、モーラごと、音節ごと、上記合成手段における音声波形の生成単位ごと、および
音韻ごとの何れかの一致程度に基づいて、上記検索手段
によって検索された上記韻律情報の変形を行うことを特
徴とする音声合成システム。
【請求項３４】請求項３３の音声合成システムであっ
て、上記音素ごと、モーラごと、音節ごと、上記合成手段に
おける音声波形の生成単位ごと、および音韻ごとの何れ
かの一致度は、少なくとも、音響特性に基づく距離、調音方式、調音位置、および継続時間長のうちの何れか
により求められた距離、および聴取実験による異聴表に
基づく距離の何れかに基づいて設定されることを特徴と
する音声合成システム。
【請求項３５】請求項３４の音声合成システムであっ
て、上記音響特性は、少なくとも、基本周波数、強度、時間
長、およびスペクトルのうちの何れかであることを特徴
とする音声合成システム。
【請求項３６】請求項１の音声合成システムであって、上記データベースは、複数種類の言語について、上記キ
ー情報および韻律情報が格納されることを特徴とする音
声合成システム。
【請求項３７】合成される音声を示す合成音声情報に基
づいて合成音声を出力する音声合成方法において、検索のキーとなるキー情報と対応して、音声合成に用い
られる韻律情報が格納されたデータベースから、上記合成音声情報と、上記キー情報との一致程度に応じ
て、上記韻律情報を検索し、上記合成音声情報と、上記キー情報との一致程度、およ
び所定の変形規則に基づいて、上記検索手段によって検
索された韻律情報に変形を施し、上記合成音声情報、および上記変形手段によって変形さ
れた韻律情報に基づいて、合成音声を出力することを特
徴とする音声合成方法。
【請求項３８】請求項３７の音声合成方法であって、上記合成音声情報、および上記キー情報は、それぞれ、
合成される音声を決定する要素である複数種類の音声指
標情報を含み、上記合成音声情報とキー情報との一致程度は、上記合成
音声情報における各音声指標情報と、上記キー情報にお
ける各音声指標情報との一致程度が、それぞれ重み付け
されて合成されたものであることを特徴とする音声合成
方法。
【請求項３９】請求項３８の音声合成方法であって、上記韻律情報は、合成される音声を特徴づける複数種類
の韻律特徴情報を含むことを特徴とする音声合成方法。
【請求項４０】請求項３９の音声合成方法であって、上記各種類の韻律特徴情報は、それぞれ、異なる上記重
み付けによる上記合成音声情報とキー情報との一致程度
に応じて検索、および変形されることを特徴とする音声
合成方法。
【請求項４１】請求項３８の音声合成方法であって、上記検索手段による上記韻律情報の検索と、上記変形手
段による上記韻律情報の変形とは、それぞれ、異なる上
記重み付けによる上記合成音声情報とキー情報との一致
程度に応じて行われることを特徴とする音声合成方法。
【請求項４２】請求項３８の音声合成方法であって、上記検索手段による上記韻律情報の検索と、上記変形手
段による上記韻律情報の変形とは、それぞれ、同一の上
記重み付けによる上記合成音声情報とキー情報との一致
程度に応じて行われることを特徴とする音声合成方法。
【請求項４３】入力されたテキストを合成音声に変換し
て出力する音声合成システムにおいて、上記入力されたテキストを解析して、表音記号列と言語
情報とを出力する言語処理手段と、実音声から抽出された韻律的特徴量と、合成される音声
に対応する表音記号列および言語情報とが、対応して格
納された韻律情報データベースと、上記言語処理手段から出力された上記表音記号列と上記
言語情報とから成る検索項目の少なくとも一部に対応す
る、上記韻律情報データベースに格納されている上記韻
律的特徴量を検索する検索手段と、上記検索項目と上記韻律情報データベースの格納内容と
の一致の程度に応じて、上記韻律情報データベースから
検索され、選択された韻律特徴量を所定の規則に従って
変形する韻律変形手段と、上記韻律変形手段から出力される上記韻律特徴量と上記
言語処理手段から出力された上記表音記号列とに基づい
て音声波形を生成する波形生成手段とを備えたことを特
徴とする音声合成システム。