JPH03288898A - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JPH03288898A
JPH03288898A JP9170990A JP9170990A JPH03288898A JP H03288898 A JPH03288898 A JP H03288898A JP 9170990 A JP9170990 A JP 9170990A JP 9170990 A JP9170990 A JP 9170990A JP H03288898 A JPH03288898 A JP H03288898A
Authority
JP
Japan
Prior art keywords
voice
input
unit
signal processing
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9170990A
Other languages
English (en)
Inventor
Hideyuki Takagi
英行 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP9170990A priority Critical patent/JPH03288898A/ja
Publication of JPH03288898A publication Critical patent/JPH03288898A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声の通イ8や記録に使われる符号化音声を再
生する音声合成装置や文字列を音声に変換する音声合成
装置に間するものである。
従来の技術 任意の音声を通信や記録に使う場合、通信コストや記録
コストを削減するために音声の圧縮を行なう、このよう
な音声合成装置には圧縮技術に従って大きく分けると、
(a)波形符号化による音声合成装置、(11)分析合
成による音声合成装置がある。
また、究極として文字コードそのものを通信・記録に使
う(c)音声規則合成による音声合成装置がある。第8
図にその(a)、す1))の音声合成装置を用いた通信
系を、第9図にその(c)の音声合成装置の構成図を示
す。
(a)や(b )の音声合成装置は既に実用化され我々
の社会生活で使われている。第8図はこれら(a)、(
Ii)の音声合成部を用いた通信系を示しており、通信
すべき音声は符号器lで音声符号に変換され送信される
。また、メモリ・磁気デーブ・光ディスクなどの記録部
5に一時蓄積される場合もある。
この音声符号を復号器20で構成された音声合成装置4
1で合成音声に変換するのである。この通信系の本質は
いかに音声品質を劣化させることなく情報圧縮するよう
符号化するかにかかっている。
このような音声符号化技術の具体的内容は多くの書物・
論文に開示されており、このような書物としては16例
えば、小泡・その他「音声情報工学」(N”FT技術移
転株式会社)や斉藤・申出「音声情報処理の基礎」 (
オーム社)がある。(a)の音声合成装置には例えば、
DPCM(差分パルス符号変調)、ADPCM (適応
差分パルス符号変調)、ADM(a応デルタ変調)、A
PCC1!!応予測符号化)、5BC(帯域分割符号化
)、A’I’C(適応変換符号化)、APC−AB (
適応ビット割当て適応予測符号化)などの音声圧縮技術
が使われている。これらの多くはCCITT(国際電信
電話諮問委員会)等での標準化が進んでいる。また、(
1])の音声合成装置は一般にボコーダ′と叶ばれ、チ
ャネルボコーダ、ポルマント形ボコーダ、相関ボコーダ
、位相ボコーダ、線形予測形ボコーダ等がある。線形予
測形ボコーダには通信・記録に使うパラメータによって
LPC分析合成音声合成装厚、PARCOR分析合成音
声合成、LSP分析合成音声合成などがある。いずれも
、上記の書籍をはじめ、多くのこの分野の書物に内容が
開示されている。
一方、文字コード列を入力し音声に変換するタイプの音
声合成装置の開発も近年盛んになってきており、試作品
が学会・新聞報道等に発表されるようになってきている
。このタイプの音声合成装置は、基本的には第9図に示
すように、文字列を発音記号とアクセント型記号に変換
するW語処理部6と、発音記号とアクセント型記号から
ピッチや強弱等の韻律情報を推定する韻律情報生成部7
と、これらの情報から音声を合成する音声合成部21と
からなっている。簡易な装置てはW 1iFj処理部6
を省略し直接発音記号とアクセント型記号を入力する場
合もある。以下ではこの第9図に基づ〈従来の音声合成
!4置の実E1方法を説明する。
言語処理部6の実用方法は、日本語ワードプロセッサの
「かな漢字変換技術」と基本的に同しである。1111
ち、かな漢字変換技術とは入力されたかな文7列を形態
素解析し、自立語については自立irfスフ古から読み
コートにヌ]応する漢字コートを検索して漢字かな混じ
り文にすることである。これに刻し言語処理部6ての処
理は、かな文字列を形態素M?析して発音記号に変換し
、自立語については自立工!1辞Rから漢字コードの代
わりに読みζこ幻応するアクセント型記号検索して、発
音記号十アクセント型記号にするのである。1語処理部
6への入力が洋学かな混じり文の場合は、かな漢字変換
の場合の自立語辞書の利用方法と反文・1に、漢字コー
ドで自立語辞書を検索して読みコートを取り出してから
、前述の発音記号・アクセント型記号に変換することに
なる。例えば、 「私は」→「わたしは」→r%/AT
ASIWA+平板型」と変換される。
アクセン!・型記号とは、例えは日本放送出版協会発行
のNHK編「日本語アクセント辞典」に記述されており
、例えば、 「箸」と「橋」のアクセントは「頭高型」
と「圧扁型」とで区別する。英語のスペルを入力刻象に
する場合は、直接内部辞書を検索して発音記号やアクセ
ント位置を取り出す方法と、スペルと発音記号との刻応
関係を規則として持っておき、スペルを発音記号・アク
セント位置に変換する方法とがある。
韻律情報生成7は言語処理部6で得られた発音記号十ア
クセント型記号から、ピッチバタン、ホルマントバタン
、音韻の持続時間長、音の強弱バタンといった音声の自
然さを表わす韻律情報を出力する。従来の韻律情報の生
成方法は、例えば藤崎・須藤「日本語屯語アクセントの
基本周波数パターンとその生成機構モデル」日本音響学
会誌27巻9号昭和46年に示されている数学モデルに
当てはめるとか、樋口・山水「規則合成実験システムに
おける韻律的特徴の制御」日本音響学会昭和61年春季
研究発表会講演論文集2−2−14に示されている経験
的に得られた規則から推定することで得られる。
音声合成部21は、例えば山水他「音素を合成単位とす
る音声規則合成装置の試作」日本音響学会昭和62年春
季研究発表会講演論文集3−6−2に示されている。即
ち、言語処理部6で得られた発音記号から音記号旬に用
意されたホルマント周波数と、韻律情報生成部7から得
られたピッチ周波数、音韻持続長、強弱とを基に音響パ
ラメータを作成しホルマント合成器を駆動するのである
穴明が解決しようとする課題 しかしながら上記のような方法に基づく音声合成装置で
は再生音声の歪のため使用目的に応じた合成音声の品質
を保持するため情報圧縮にも限界がある。この限界をざ
らに引き下げるにはもつと相極的に歪を削減する必要が
あるが、従来の音声合成装置にはそのような歪を削減す
る機構が組み込まれていなかった。
本発明はかかる点に鑑み、歪補正部を組込みことによっ
て高品質の音声を合成する音声合成装置を提供すること
を目的とする。視点を変えていえば、同じ音声品質であ
れはより多く情報圧縮可能な音声合成装置を提供するこ
とを目的とする。
課題を解決するための手段 本発明はネットワーク接続された複数の多入力一出力信
号処理部から構成される信号処理網である歪補正部を備
えた音声合成装置である。
作用 本発明は前記した構成により、入力された音声符号化パ
ラメータや文字コート列から合成されに音声の歪を除去
した上で合成き声を出力する。
実施例 以下に本発明の実施例を図面を参照して説明する。
第1図は第1の本発明におけるぎ声合成装置の構成図と
この音声合成装置を用いた通信系を示すものである。以
F、この通信系において本発明の音声合成装置が歪の少
ない合成音声を出力する動作を説明する。
1は入力音声を音声符号に変換する符号器、2()は符
号器lから出力しに音声符号から合成音声を出力する復
号器、3はその合成音声の歪を低減させる歪補正部、4
0はその復号器20及び歪補正部3を備えた本発明の音
声合成装置、5は音声符号を蓄(^する記録部である。
ここで、入力された音声は符号器lで音声符号にf喚さ
れる。この符号化技術には「従来の技術」て前述しに各
種方法が用いられる。音声符号として情報圧縮された音
声は電話回線・通信バス・無線通信等の手段を用いて復
号器20に送信される。
また、記録部5に一時記録されて時間・場所のシフトを
した後に復号器20で合成音声に変換される場合もある
。いずれの方法にせよ、音声の情報圧縮をしているため
原音声に比べ合成音声の音質劣化は避けられない。この
劣化している音声の歪を歪補正部3が除去する。
第3図に歪補正部3の一般構成を示す。この構成は層状
の神経回路網モデルと呼ばれる構成を示している。lo
tは切り出した音声波形を入力する入力層のユニット、
100は多大カー出力信号処理ユニットである。第4図
はこの具体的構成図で各4個の信号処理ユニットを持つ
3Nのネットワーク状構成をしている。この歪補正部3
は歪んだ音声波形を入力し歪を低減させた音声波形を出
力するので、入力層のユニット数と出力層でのユニット
数は等しい。
このような歪補正部3を構成する多入力一出力信号処理
部100のうち、線形演算のみを基本とする線形信号処
理部の構成を具体的に示したものが第5図である。第5
[!Iにおいて、1001は多入力一出力信号処理部1
000入力部、1002は入力部1001からの複数入
力を重み付ける重み係数を格納するメモリ、1003は
メモリ1002の重み係数と入力部1001からの入力
を各々掛は合わせる乗算器、1004は乗算器1003
各々の出力を足し合わせる加算器である。つまり、第5
図に示す多入力一出力信号処理部100は入力部100
1への入力値をxl、メモリ1002に格納されている
重み係数をwl、とすれば、y = ΣWt ; X 
1(1) を計算しているわけである。また、第6図は、歪補正部
3を構成する多入力一出力信号処理部100のうち、非
線形演算も行う非線形信号処理部の構成を具体的に示し
たものである。第6図において、1000は第5図で説
明した線形信号処理部、2000は線形信号処理部の出
力を一定範囲の埴に制限する同値処理部である。閾1+
Q処理部2000の人出力特性例を第7図に示す。例え
ば、出力を(0,1)の範囲に制限する閾値処理部20
00の人出力特性は 0 = l / (1+ exp(−I))と数式的に
表現できる。ここで、1とOは閾値処理部2000の入
力と出力である。
以上の構成を有する歪補正部3は、次に述べる合成音声
の歪が低減化の理由、及びその低減化の手法について説
明する。
歪補正部3は多段の回路網構成をしている。歪補正部3
の入力と出力の関係はメモリ1002に格納されている
重み係数にのみ依存しているウ 当然のことながら、入
力の歪が大きい合成音声と出力の原音声に近い合成音声
とは強い相関があるので、この重み係数を適当に決定で
きれば、入力の歪を含んだ合成音声を原音声のような合
成音声に変換することは可能になる。これが、歪補正が
可能な理由である。
第2の問題である「どのようにすれば歪が補正できるか
」は「どのようにすれば適当な重み係数が決定できるか
」という問題に帰着することができる。この問題は、任
意の重み係数から徐々に変化させて行き、歪を含んだ合
成音声から歪を補正した合成音声になるまで学習を繰り
返すことで解決できる。このような学習アルゴリズムに
は、例えば、  バーツクアロハ69−イノ3ン  j
−イ イー ルン0ハ凰ト イー ヒントン及び7−ル
 シーエイ ウィリアム 「ラーニンクー しブリドン
ティシ]ン ハーイハーツクrロバ@1イシ]ン ■シ
ー 」 ネイブ+−(backpropagation
D、 E、 Rumelhart、 G、 E、Hin
ton and R,J。
Williass  ”Learning  Repr
esentations  by  Back−Pro
pa3ating  Errors、”  Natur
e、)  vol、323.  pp、533−536
. Oct、 9.198(3がある。学習データとし
て歪を含んだ合成音声と、人間が実際に発声した同じ内
容の音声とを矧にして多数用意しておき、両者を入力及
び出力としてこの人出力関係をハ゛ブクブ0ハ@1イノ
3)(hackpropagation)アルゴリズム
で繰り返し学習させるのである。
第2図は第2の本発明における音声合成装置の構成図を
示すものである。
第2図において、6は文字コード列から発音記号とアク
セント情報を出力する言語処理部、7は発音記号とアク
セント型記号を入力し音声の韻律情報を推定する韻律情
報生成部、21は発音記号とアクセント型記号および韻
律情報生成部7で得られる韻律情報を入力して音声を合
成する音声合成部、3は音声合成部21で合成された音
声信号を入力して再生歪みを減少させた合成音声を出力
する歪補正部である。このタイプの音声合成は規則によ
る音声合成と呼ばれ、文字コード列から物理的な音声波
形を合成するものである。
文字列コードが入力されて音声合成部21が合成音声波
形を出力するまでの機能は、従来技術の項目で前述した
ような動作を行なう、また、−旦合成音声として物理的
時間波形になれば、第1の本発明で述べた前記歪補正部
3が同じ動作原理に従って歪を低減させた合成音声を出
力する。
実験的に得られた本発明の効果を示す。実験では男性話
者1名が発声した文章をAPC−AB(適応ビット割当
て適応予測符号化)方式で8Kbi L/秒に圧縮した
音声符号を用い、第1の本発明で波形の歪を低減させた
。歪補正部3は第4図のように、入力層・中間層・出力
層の3層からなる回路網構成であって、合成音声を入力
し原音声に近づくように学習した。ただし、各層に於け
る多入力一出力信号処理部100は各々64個の非線形
信号処理部とした。従って、メモリ2に格納されている
重み係数は(64個×64個)+(64個×64個)で
ある。この結果、復号器20が出力した合成音声の信号
対雑音比が11.7dBであったのに対し、歪補正部3
の出力音声は19.4dBに改善された。これは、約1
6 Kbit/秒のAPC−AB方式と同等である。つ
まり、合成音声の歪を一定に保持するならば、通信費用
や記録費用をl/2に低減させることができることを意
味している。
このように本実施例によれば、少なくともネットワーク
接続された複数の多入力一出力信号処理部から構成され
る歪補正部3を設けることにより、合成音声の歪を低減
させることができる。
なお、実施例における歪補正部3ては上ion!の多入
力一出力信号処理部は下位層の全てのユニットに結合し
ていたが、1つ残らず結合することが本質ではないので
、部分的な結合であっても構わない。
また、実施例におけるメモリ2に格納されている重み係
数の数はユニット数の詰み合あわせ数であったが、多入
力一出力信号処理部100にiよその他に常に1が重み
付きで入力されていてもよい。
この場合はメモリ2に格納される重み係数の数がユニッ
ト分だけ増える。この常に1なる入力は、(1)式を yj  :  W帖j  + ΣW+4)l     
  (2)と変形する。つまり、(1)式の常に原点を
通るという制約を無くす分けで、より表現能力が大きく
なる。即ち、歪補正部3の歪補正能力がより向上し得る
わけである。
発明の詳細 な説明したように、本発明は、多入力一出力信号処理部
からなる信号処理網で歪補正部を構成し、従来の音声合
成装置の後段に接続した音声合成装置であるので、合成
音声の歪を低減させることができる。この結果、通信費
用や札録費用を低減させることも可能になり、その実用
的価値には大なるものがある。
【図面の簡単な説明】
第1図は第1の本発明の音声合成装置の一実施例の構成
を示すブロック図、第2図は第2の発明の音声合成装置
の一実施例の構成を示すブロック図、第3図および第4
図はこれら実施例における歪補正部の構成図、第5図は
同歪補正部の線形信号処理部の構成図、第6図は同歪補
正部の非線形信号処理部の構成図、第7図は同歪補正部
の閾値処理部の人出力特性図、第8図と第9図は(、¥
来の音声合成装置を示すブロック図である。 l・・・符号器、20・・・復号器、21・・・音声合
成部、3・・・歪補正部、40・・・音声合成装置、4
1・・・音声合成装置、5・・・記録部、6・・・W語
処理部、7・・・韻律情報生成部、100・・・多入力
一出力信号処理部、103・・・歪補正部の入力部、1
000・・・線形信号処理部、1001・・・多入力一
出力信号処理部の入力部、1002・・・メモリ、10
03・・・乗算器、l 004・・・加′W器、200
o・・・閾値処理部。

Claims (4)

    【特許請求の範囲】
  1. (1)入力された音声符号化パラメータから音声信号を
    再生する復号部と、その再生された音声信号を入力して
    再生歪みを減少させた音声信号を出力する歪補正部とを
    備え、前記歪補正部は少なくともネットワーク接続され
    た複数の多入力一出力信号処理部を有する信号処理網で
    あり、前記多入力一出力信号処理部は、複数の重み係数
    を保持するメモリと、複数のデータを入力する入力部と
    、前記メモリに貯えられた重み係数で前記入力部からの
    入力データを重み付けする乗算手段と、前記乗算手段で
    重み付けされた複数のデータを多数加え合わせる加算手
    段とを有する線形信号処理部であることを特徴とする音
    声合成装置。
  2. (2)任意の多入力一出力信号処理部は、前記線形信号
    処理部の出力側にその出力を一定範囲の値に制限する閾
    値処理部が接続された非線形信号処理部であることを特
    徴とする請求項1記載の音声合成装置。
  3. (3)発音記号とアクセント型記号を入力し音声の韻律
    情報を推定する韻律情報生成部と、前記発音記号とアク
    セント型記号および前記韻律情報生成部で得られる韻律
    情報を入力して音声を合成する音声合成部と、前記音声
    合成部で合成された音声信号を入力して再生歪みを減少
    させた合成音声を出力する歪補正部とを備え、前記歪補
    正部は少なくともネットワーク接続された複数の多入力
    一出力信号処理部を有する信号処理網であり、前記多入
    力一出力信号処理部は、複数の重み係数を保持するメモ
    リと、複数のデータを入力する入力部と、前記メモリに
    貯えられた重み係数で前記入力部からの入力データを重
    み付けする乗算手段と、前記乗算手段で重み付けされた
    複数のデータを多数加え合わせる加算手段とを有する線
    形信号処理部であることを特徴とする音声合成装置。
  4. (4)任意の多入力一出力信号処理部は、前記線形信号
    処理部の出力側にその出力を一定範囲の値に制限する閾
    値処理部が接続された非線形信号処理部であることを特
    徴とする請求項3記載の音声合成装置。
JP9170990A 1990-04-05 1990-04-05 音声合成装置 Pending JPH03288898A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9170990A JPH03288898A (ja) 1990-04-05 1990-04-05 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9170990A JPH03288898A (ja) 1990-04-05 1990-04-05 音声合成装置

Publications (1)

Publication Number Publication Date
JPH03288898A true JPH03288898A (ja) 1991-12-19

Family

ID=14034043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9170990A Pending JPH03288898A (ja) 1990-04-05 1990-04-05 音声合成装置

Country Status (1)

Country Link
JP (1) JPH03288898A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7783061B2 (en) 2003-08-27 2010-08-24 Sony Computer Entertainment Inc. Methods and apparatus for the targeted sound detection
US7809145B2 (en) 2006-05-04 2010-10-05 Sony Computer Entertainment Inc. Ultra small microphone array
US8947347B2 (en) 2003-08-27 2015-02-03 Sony Computer Entertainment Inc. Controlling actions in a video game unit

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7783061B2 (en) 2003-08-27 2010-08-24 Sony Computer Entertainment Inc. Methods and apparatus for the targeted sound detection
US8947347B2 (en) 2003-08-27 2015-02-03 Sony Computer Entertainment Inc. Controlling actions in a video game unit
US7809145B2 (en) 2006-05-04 2010-10-05 Sony Computer Entertainment Inc. Ultra small microphone array

Similar Documents

Publication Publication Date Title
Delić et al. Speech technology progress based on new machine learning paradigm
CN101578659B (zh) 音质转换装置及音质转换方法
US5940795A (en) Speech synthesis system
US7831420B2 (en) Voice modifier for speech processing systems
Syrdal et al. Applied speech technology
JPH1091194A (ja) 音声復号化方法及び装置
JPS60102697A (ja) 記述メッセージコードと音声メッセージコードを結合する音声符号化方法
JPH09127991A (ja) 音声符号化方法及び装置、音声復号化方法及び装置
JP3446764B2 (ja) 音声合成システム及び音声合成サーバ
JPH09127990A (ja) 音声符号化方法及び装置
WO2002043052A1 (en) Method, device and program for coding and decoding acoustic parameter, and method, device and program for coding and decoding sound
JPS5827200A (ja) 音声認識装置
JP2001034280A (ja) 電子メール受信装置および電子メールシステム
JP2000356995A (ja) 音声通信システム
JPH03288898A (ja) 音声合成装置
Westall et al. Speech technology for telecommunications
Ramasubramanian et al. Ultra low bit-rate speech coding
JP3268750B2 (ja) 音声合成方法及びシステム
JP3803306B2 (ja) 音響信号符号化方法、符号化器及びそのプログラム
JP4489371B2 (ja) 合成音声を最適化する方法、音声合成フィルタを生成する方法、音声最適化方法及び音声最適化装置
Sun et al. Speech compression
CN117636842B (zh) 基于韵律情感迁移的语音合成系统及方法
JP2005309164A (ja) 読み上げ用データ符号化装置および読み上げ用データ符号化プログラム
JP2003066983A (ja) 音声合成装置および音声合成方法、並びに、プログラム記録媒体
JP4228630B2 (ja) 音声符号化装置および音声符号化プログラム