JPH03288898A

JPH03288898A - 音声合成装置

Info

Publication number: JPH03288898A
Application number: JP9170990A
Authority: JP
Inventors: Hideyuki Takagi; 英行高木
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1990-04-05
Filing date: 1990-04-05
Publication date: 1991-12-19

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は音声の通イ８や記録に使われる符号化音声を再
生する音声合成装置や文字列を音声に変換する音声合成
装置に間するものである。

従来の技術任意の音声を通信や記録に使う場合、通信コストや記録
コストを削減するために音声の圧縮を行なう、このよう
な音声合成装置には圧縮技術に従って大きく分けると、
（ａ）波形符号化による音声合成装置、（１１）分析合
成による音声合成装置がある。

また、究極として文字コードそのものを通信・記録に使
う（ｃ）音声規則合成による音声合成装置がある。第８
図にその（ａ）、す１））の音声合成装置を用いた通信
系を、第９図にその（ｃ）の音声合成装置の構成図を示
す。

（ａ）や（ｂ　）の音声合成装置は既に実用化され我々
の社会生活で使われている。第８図はこれら（ａ）、（
Ｉｉ）の音声合成部を用いた通信系を示しており、通信
すべき音声は符号器ｌで音声符号に変換され送信される
。また、メモリ・磁気デーブ・光ディスクなどの記録部
５に一時蓄積される場合もある。

この音声符号を復号器２０で構成された音声合成装置４
１で合成音声に変換するのである。この通信系の本質は
いかに音声品質を劣化させることなく情報圧縮するよう
符号化するかにかかっている。

このような音声符号化技術の具体的内容は多くの書物・
論文に開示されており、このような書物としては１６例
えば、小泡・その他「音声情報工学」（Ｎ”ＦＴ技術移
転株式会社）や斉藤・申出「音声情報処理の基礎」　（
オーム社）がある。（ａ）の音声合成装置には例えば、
ＤＰＣＭ（差分パルス符号変調）、ＡＤＰＣＭ　（適応
差分パルス符号変調）、ＡＤＭ（ａ応デルタ変調）、Ａ
ＰＣＣ１！！応予測符号化）、５ＢＣ（帯域分割符号化
）、Ａ’Ｉ’Ｃ（適応変換符号化）、ＡＰＣ−ＡＢ　（
適応ビット割当て適応予測符号化）などの音声圧縮技術
が使われている。これらの多くはＣＣＩＴＴ（国際電信
電話諮問委員会）等での標準化が進んでいる。また、（
１］）の音声合成装置は一般にボコーダ′と叶ばれ、チ
ャネルボコーダ、ポルマント形ボコーダ、相関ボコーダ
、位相ボコーダ、線形予測形ボコーダ等がある。線形予
測形ボコーダには通信・記録に使うパラメータによって
ＬＰＣ分析合成音声合成装厚、ＰＡＲＣＯＲ分析合成音
声合成、ＬＳＰ分析合成音声合成などがある。いずれも
、上記の書籍をはじめ、多くのこの分野の書物に内容が
開示されている。

一方、文字コード列を入力し音声に変換するタイプの音
声合成装置の開発も近年盛んになってきており、試作品
が学会・新聞報道等に発表されるようになってきている
。このタイプの音声合成装置は、基本的には第９図に示
すように、文字列を発音記号とアクセント型記号に変換
するＷ語処理部６と、発音記号とアクセント型記号から
ピッチや強弱等の韻律情報を推定する韻律情報生成部７
と、これらの情報から音声を合成する音声合成部２１と
からなっている。簡易な装置てはＷ　１ｉＦｊ処理部６
を省略し直接発音記号とアクセント型記号を入力する場
合もある。以下ではこの第９図に基づ〈従来の音声合成
！４置の実Ｅ１方法を説明する。

言語処理部６の実用方法は、日本語ワードプロセッサの
「かな漢字変換技術」と基本的に同しである。１１１１
ち、かな漢字変換技術とは入力されたかな文７列を形態
素解析し、自立語については自立ｉｒｆスフ古から読み
コートにヌ］応する漢字コートを検索して漢字かな混じ
り文にすることである。これに刻し言語処理部６ての処
理は、かな文字列を形態素Ｍ？析して発音記号に変換し
、自立語については自立工！１辞Ｒから漢字コードの代
わりに読みζこ幻応するアクセント型記号検索して、発
音記号十アクセント型記号にするのである。１語処理部
６への入力が洋学かな混じり文の場合は、かな漢字変換
の場合の自立語辞書の利用方法と反文・１に、漢字コー
ドで自立語辞書を検索して読みコートを取り出してから
、前述の発音記号・アクセント型記号に変換することに
なる。例えば、　「私は」→「わたしは」→ｒ％／ＡＴ
ＡＳＩＷＡ＋平板型」と変換される。

アクセン！・型記号とは、例えは日本放送出版協会発行
のＮＨＫ編「日本語アクセント辞典」に記述されており
、例えば、　「箸」と「橋」のアクセントは「頭高型」
と「圧扁型」とで区別する。英語のスペルを入力刻象に
する場合は、直接内部辞書を検索して発音記号やアクセ
ント位置を取り出す方法と、スペルと発音記号との刻応
関係を規則として持っておき、スペルを発音記号・アク
セント位置に変換する方法とがある。

韻律情報生成７は言語処理部６で得られた発音記号十ア
クセント型記号から、ピッチバタン、ホルマントバタン
、音韻の持続時間長、音の強弱バタンといった音声の自
然さを表わす韻律情報を出力する。従来の韻律情報の生
成方法は、例えば藤崎・須藤「日本語屯語アクセントの
基本周波数パターンとその生成機構モデル」日本音響学
会誌２７巻９号昭和４６年に示されている数学モデルに
当てはめるとか、樋口・山水「規則合成実験システムに
おける韻律的特徴の制御」日本音響学会昭和６１年春季
研究発表会講演論文集２−２−１４に示されている経験
的に得られた規則から推定することで得られる。

音声合成部２１は、例えば山水他「音素を合成単位とす
る音声規則合成装置の試作」日本音響学会昭和６２年春
季研究発表会講演論文集３−６−２に示されている。即
ち、言語処理部６で得られた発音記号から音記号旬に用
意されたホルマント周波数と、韻律情報生成部７から得
られたピッチ周波数、音韻持続長、強弱とを基に音響パ
ラメータを作成しホルマント合成器を駆動するのである
。

穴明が解決しようとする課題しかしながら上記のような方法に基づく音声合成装置で
は再生音声の歪のため使用目的に応じた合成音声の品質
を保持するため情報圧縮にも限界がある。この限界をざ
らに引き下げるにはもつと相極的に歪を削減する必要が
あるが、従来の音声合成装置にはそのような歪を削減す
る機構が組み込まれていなかった。

本発明はかかる点に鑑み、歪補正部を組込みことによっ
て高品質の音声を合成する音声合成装置を提供すること
を目的とする。視点を変えていえば、同じ音声品質であ
れはより多く情報圧縮可能な音声合成装置を提供するこ
とを目的とする。

課題を解決するための手段本発明はネットワーク接続された複数の多入力一出力信
号処理部から構成される信号処理網である歪補正部を備
えた音声合成装置である。

作用本発明は前記した構成により、入力された音声符号化パ
ラメータや文字コート列から合成されに音声の歪を除去
した上で合成き声を出力する。

実施例以下に本発明の実施例を図面を参照して説明する。

第１図は第１の本発明におけるぎ声合成装置の構成図と
この音声合成装置を用いた通信系を示すものである。以
Ｆ、この通信系において本発明の音声合成装置が歪の少
ない合成音声を出力する動作を説明する。

１は入力音声を音声符号に変換する符号器、２（）は符
号器ｌから出力しに音声符号から合成音声を出力する復
号器、３はその合成音声の歪を低減させる歪補正部、４
０はその復号器２０及び歪補正部３を備えた本発明の音
声合成装置、５は音声符号を蓄（＾する記録部である。

ここで、入力された音声は符号器ｌで音声符号にｆ喚さ
れる。この符号化技術には「従来の技術」て前述しに各
種方法が用いられる。音声符号として情報圧縮された音
声は電話回線・通信バス・無線通信等の手段を用いて復
号器２０に送信される。

また、記録部５に一時記録されて時間・場所のシフトを
した後に復号器２０で合成音声に変換される場合もある
。いずれの方法にせよ、音声の情報圧縮をしているため
原音声に比べ合成音声の音質劣化は避けられない。この
劣化している音声の歪を歪補正部３が除去する。

第３図に歪補正部３の一般構成を示す。この構成は層状
の神経回路網モデルと呼ばれる構成を示している。ｌｏ
ｔは切り出した音声波形を入力する入力層のユニット、
１００は多大カー出力信号処理ユニットである。第４図
はこの具体的構成図で各４個の信号処理ユニットを持つ
３Ｎのネットワーク状構成をしている。この歪補正部３
は歪んだ音声波形を入力し歪を低減させた音声波形を出
力するので、入力層のユニット数と出力層でのユニット
数は等しい。

このような歪補正部３を構成する多入力一出力信号処理
部１００のうち、線形演算のみを基本とする線形信号処
理部の構成を具体的に示したものが第５図である。第５
［！Ｉにおいて、１００１は多入力一出力信号処理部１
０００入力部、１００２は入力部１００１からの複数入
力を重み付ける重み係数を格納するメモリ、１００３は
メモリ１００２の重み係数と入力部１００１からの入力
を各々掛は合わせる乗算器、１００４は乗算器１００３
各々の出力を足し合わせる加算器である。つまり、第５
図に示す多入力一出力信号処理部１００は入力部１００
１への入力値をｘｌ、メモリ１００２に格納されている
重み係数をｗｌ、とすれば、ｙ　＝　ΣＷｔ　；　Ｘ　
１（１）を計算しているわけである。また、第６図は、歪補正部
３を構成する多入力一出力信号処理部１００のうち、非
線形演算も行う非線形信号処理部の構成を具体的に示し
たものである。第６図において、１０００は第５図で説
明した線形信号処理部、２０００は線形信号処理部の出
力を一定範囲の埴に制限する同値処理部である。閾１＋
Ｑ処理部２０００の人出力特性例を第７図に示す。例え
ば、出力を（０，１）の範囲に制限する閾値処理部２０
００の人出力特性は０　＝　ｌ　／　（１＋　ｅｘｐ（−Ｉ））と数式的に
表現できる。ここで、１とＯは閾値処理部２０００の入
力と出力である。

以上の構成を有する歪補正部３は、次に述べる合成音声
の歪が低減化の理由、及びその低減化の手法について説
明する。

歪補正部３は多段の回路網構成をしている。歪補正部３
の入力と出力の関係はメモリ１００２に格納されている
重み係数にのみ依存しているウ　当然のことながら、入
力の歪が大きい合成音声と出力の原音声に近い合成音声
とは強い相関があるので、この重み係数を適当に決定で
きれば、入力の歪を含んだ合成音声を原音声のような合
成音声に変換することは可能になる。これが、歪補正が
可能な理由である。

第２の問題である「どのようにすれば歪が補正できるか
」は「どのようにすれば適当な重み係数が決定できるか
」という問題に帰着することができる。この問題は、任
意の重み係数から徐々に変化させて行き、歪を含んだ合
成音声から歪を補正した合成音声になるまで学習を繰り
返すことで解決できる。このような学習アルゴリズムに
は、例えば、　　バーツクアロハ６９−イノ３ン　　ｊ
−イ　イー　ルン０ハ凰ト　イー　ヒントン及び７−ル
　シーエイ　ウィリアム　「ラーニンクー　しブリドン
ティシ］ン　ハーイハーツクｒロバ＠１イシ］ン　■シ
ー　」　ネイブ＋−（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ
Ｄ、　Ｅ、　Ｒｕｍｅｌｈａｒｔ、　Ｇ、　Ｅ、Ｈｉｎ
ｔｏｎ　ａｎｄ　Ｒ，Ｊ。

Ｗｉｌｌｉａｓｓ　　”Ｌｅａｒｎｉｎｇ　　Ｒｅｐｒ
ｅｓｅｎｔａｔｉｏｎｓ　　ｂｙ　　Ｂａｃｋ−Ｐｒｏ
ｐａ３ａｔｉｎｇ　　Ｅｒｒｏｒｓ、”　　Ｎａｔｕｒ
ｅ、）　　ｖｏｌ、３２３．　　ｐｐ、５３３−５３６
．　Ｏｃｔ、　９．１９８（３がある。学習データとし
て歪を含んだ合成音声と、人間が実際に発声した同じ内
容の音声とを矧にして多数用意しておき、両者を入力及
び出力としてこの人出力関係をハ゛ブクブ０ハ＠１イノ
３）（ｈａｃｋｐｒｏｐａｇａｔｉｏｎ）アルゴリズム
で繰り返し学習させるのである。

第２図は第２の本発明における音声合成装置の構成図を
示すものである。

第２図において、６は文字コード列から発音記号とアク
セント情報を出力する言語処理部、７は発音記号とアク
セント型記号を入力し音声の韻律情報を推定する韻律情
報生成部、２１は発音記号とアクセント型記号および韻
律情報生成部７で得られる韻律情報を入力して音声を合
成する音声合成部、３は音声合成部２１で合成された音
声信号を入力して再生歪みを減少させた合成音声を出力
する歪補正部である。このタイプの音声合成は規則によ
る音声合成と呼ばれ、文字コード列から物理的な音声波
形を合成するものである。

文字列コードが入力されて音声合成部２１が合成音声波
形を出力するまでの機能は、従来技術の項目で前述した
ような動作を行なう、また、−旦合成音声として物理的
時間波形になれば、第１の本発明で述べた前記歪補正部
３が同じ動作原理に従って歪を低減させた合成音声を出
力する。

実験的に得られた本発明の効果を示す。実験では男性話
者１名が発声した文章をＡＰＣ−ＡＢ（適応ビット割当
て適応予測符号化）方式で８Ｋｂｉ　Ｌ／秒に圧縮した
音声符号を用い、第１の本発明で波形の歪を低減させた
。歪補正部３は第４図のように、入力層・中間層・出力
層の３層からなる回路網構成であって、合成音声を入力
し原音声に近づくように学習した。ただし、各層に於け
る多入力一出力信号処理部１００は各々６４個の非線形
信号処理部とした。従って、メモリ２に格納されている
重み係数は（６４個×６４個）＋（６４個×６４個）で
ある。この結果、復号器２０が出力した合成音声の信号
対雑音比が１１．７ｄＢであったのに対し、歪補正部３
の出力音声は１９．４ｄＢに改善された。これは、約１
６　Ｋｂｉｔ／秒のＡＰＣ−ＡＢ方式と同等である。つ
まり、合成音声の歪を一定に保持するならば、通信費用
や記録費用をｌ／２に低減させることができることを意
味している。

このように本実施例によれば、少なくともネットワーク
接続された複数の多入力一出力信号処理部から構成され
る歪補正部３を設けることにより、合成音声の歪を低減
させることができる。

なお、実施例における歪補正部３ては上ｉｏｎ！の多入
力一出力信号処理部は下位層の全てのユニットに結合し
ていたが、１つ残らず結合することが本質ではないので
、部分的な結合であっても構わない。

また、実施例におけるメモリ２に格納されている重み係
数の数はユニット数の詰み合あわせ数であったが、多入
力一出力信号処理部１００にｉよその他に常に１が重み
付きで入力されていてもよい。

この場合はメモリ２に格納される重み係数の数がユニッ
ト分だけ増える。この常に１なる入力は、（１）式をｙｊ　　：　　Ｗ帖ｊ　　＋　ΣＷ＋４）ｌ　　　　　
　　（２）と変形する。つまり、（１）式の常に原点を
通るという制約を無くす分けで、より表現能力が大きく
なる。即ち、歪補正部３の歪補正能力がより向上し得る
わけである。

発明の詳細な説明したように、本発明は、多入力一出力信号処理部
からなる信号処理網で歪補正部を構成し、従来の音声合
成装置の後段に接続した音声合成装置であるので、合成
音声の歪を低減させることができる。この結果、通信費
用や札録費用を低減させることも可能になり、その実用
的価値には大なるものがある。

【図面の簡単な説明】

第１図は第１の本発明の音声合成装置の一実施例の構成
を示すブロック図、第２図は第２の発明の音声合成装置
の一実施例の構成を示すブロック図、第３図および第４
図はこれら実施例における歪補正部の構成図、第５図は
同歪補正部の線形信号処理部の構成図、第６図は同歪補
正部の非線形信号処理部の構成図、第７図は同歪補正部
の閾値処理部の人出力特性図、第８図と第９図は（、￥
来の音声合成装置を示すブロック図である。ｌ・・・符号器、２０・・・復号器、２１・・・音声合
成部、３・・・歪補正部、４０・・・音声合成装置、４
１・・・音声合成装置、５・・・記録部、６・・・Ｗ語
処理部、７・・・韻律情報生成部、１００・・・多入力
一出力信号処理部、１０３・・・歪補正部の入力部、１
０００・・・線形信号処理部、１００１・・・多入力一
出力信号処理部の入力部、１００２・・・メモリ、１０
０３・・・乗算器、ｌ　００４・・・加′Ｗ器、２００
ｏ・・・閾値処理部。

Claims

【特許請求の範囲】

（１）入力された音声符号化パラメータから音声信号を
再生する復号部と、その再生された音声信号を入力して
再生歪みを減少させた音声信号を出力する歪補正部とを
備え、前記歪補正部は少なくともネットワーク接続され
た複数の多入力一出力信号処理部を有する信号処理網で
あり、前記多入力一出力信号処理部は、複数の重み係数
を保持するメモリと、複数のデータを入力する入力部と
、前記メモリに貯えられた重み係数で前記入力部からの
入力データを重み付けする乗算手段と、前記乗算手段で
重み付けされた複数のデータを多数加え合わせる加算手
段とを有する線形信号処理部であることを特徴とする音
声合成装置。
（２）任意の多入力一出力信号処理部は、前記線形信号
処理部の出力側にその出力を一定範囲の値に制限する閾
値処理部が接続された非線形信号処理部であることを特
徴とする請求項１記載の音声合成装置。
（３）発音記号とアクセント型記号を入力し音声の韻律
情報を推定する韻律情報生成部と、前記発音記号とアク
セント型記号および前記韻律情報生成部で得られる韻律
情報を入力して音声を合成する音声合成部と、前記音声
合成部で合成された音声信号を入力して再生歪みを減少
させた合成音声を出力する歪補正部とを備え、前記歪補
正部は少なくともネットワーク接続された複数の多入力
一出力信号処理部を有する信号処理網であり、前記多入
力一出力信号処理部は、複数の重み係数を保持するメモ
リと、複数のデータを入力する入力部と、前記メモリに
貯えられた重み係数で前記入力部からの入力データを重
み付けする乗算手段と、前記乗算手段で重み付けされた
複数のデータを多数加え合わせる加算手段とを有する線
形信号処理部であることを特徴とする音声合成装置。
（４）任意の多入力一出力信号処理部は、前記線形信号
処理部の出力側にその出力を一定範囲の値に制限する閾
値処理部が接続された非線形信号処理部であることを特
徴とする請求項３記載の音声合成装置。