JP2002169581A

JP2002169581A - 音声合成方法およびその装置

Info

Publication number: JP2002169581A
Application number: JP2000363394A
Authority: JP
Inventors: Toshiyuki Isono; 敏幸礒野; Hirofumi Nishimura; 洋文西村
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2000-11-29
Filing date: 2000-11-29
Publication date: 2002-06-14
Also published as: EP1213704A3; CN1356687A; US20020065659A1; EP1213704A2

Abstract

(57)【要約】【課題】合成音声と録音音声を組み合わせて音声を再
生する場合、音質の差により聴者に与える違和感を低減
する音声合成方法およびその装置を提供すること。【解決の手段】本発明の音声合成方法は、テキストデ
ータを録音音声で再生するときには、前記録音音声をそ
のまま出力し、波形重畳法で作成した合成音声で出力す
るときには、前記録音音声を録音した環境と同じ残響特
性をもつ残響特性を付与して出力し、前記合成音声と前
記録音音声とを組み合わて再生することとした。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、合成音声と録音音
声とを組み合わせて再生する音声合成方法およびその装
置に関し、特に、両者の音質の差により聴者に与える違
和感を低減する音声合成方法およびその装置に関する。

【０００２】

【従来の技術】従来、複数の異なる音声合成システムを
用いた音声合成方法は、例えば特開平５−２７７８９号
公報に記載されているものがあり、合成音声と録音音声
との組み合わせによって再生を行っていた。

【０００３】

【発明が解決しようとする課題】しかしながら、従来の
波形重畳法で作成した合成音声と録音音声を組み合わせ
ることによって音声を作成する音声合成方法は、波形重
畳法によって作成された合成音声に録音音声のような録
音環境にあった残響がない。

【０００４】従って、合成音声と録音音声とを組み合わ
せた音声を聴者に聞かせると、合成音声と録音音声との
つなぎ部分で、音質の差により聴者に違和感を与えてし
まうという問題があった。

【０００５】本発明は、このような従来の問題を解決す
るためになされたもので、合成音声と録音音声を組み合
わせて音声を再生する場合、音質の差により聴者に与え
る違和感を低減する音声合成方法およびその装置を提供
するものである。

【０００６】

【課題を解決するための手段】本発明の音声合成方法
は、テキストデータを録音音声で再生するときには、前
記録音音声をそのまま出力し、波形重畳法で作成した合
成音声で出力するときには、前記録音音声を録音した環
境と同じ残響特性をもつ残響特性を付与して出力し、前
記合成音声と前記録音音声とを組み合わて再生すること
とした。

【０００７】この方法により、録音音声と合成音声に同
じ残響特性を持たせることができ、録音音声と合成音声
とを組み合わせて再生する場合、合成音声と録音音声と
のつなぎ部分で音質の差により聴者が抱く違和感を低減
させることができる。

【０００８】また、本発明の音声合成装置は、テキスト
形式で文章を入力するテキストデータの入力手段と、前
記テキストデータから録音音声のテキストデータの切り
分けを行うテキストデータ切り分け手段と、前記テキス
トデータ切り分け手段が前記録音音声のテキストデータ
の切り分けを行ったとき予め設定した録音音声データベ
ースより録音音声を読み出す録音音声読み出し手段と、
前記テキストデータ切り分け手段が前記録音音声のテキ
ストデータの切り分けを行なわなかったとき波形重畳法
によって前記テキストデータの合成音声を作成する合成
音声作成手段と、前記録音音声を録音した環境と同じ残
響特性を前記合成音声に重畳する残響付与手段とを備
え、前記合成音声と前記録音音声とを組み合わて再生す
ることとした。

【０００９】この構成により、録音音声と合成音声に同
じ残響特性を持たせることができ、録音音声と合成音声
とを組み合わせて再生する場合、合成音声と録音音声と
のつなぎ部分で音質の差により聴者が抱く違和感を低減
させる装置とすることができる。

【００１０】また、前記残響特性を付与するとき、前記
録音音声を再生する場所の騒音を計測し、計測した騒音
レベルと録音音声の振幅情報によって前記合成音声の振
幅を調整することとした。

【００１１】この方法により、録音音声と合成音声に同
じ残響特性を持たせることができ、また録音音声に比べ
て明瞭度の低い合成音声の振幅を大きくすることができ
る。

【００１２】従って、録音音声と合成音声とを組み合わ
せて再生する場合、合成音声と録音音声とのつなぎ部分
で音質の差により聴者が抱く違和感を低減し、騒々しい
環境でも合成音声の明瞭度の低下を抑えることができ
る。

【００１３】また、前記録音音声を再生する場所の騒音
を計測する騒音計測手段と、前記騒音計測手段によって
計測された騒音レベルと、前記録音音声の振幅情報とか
ら前記合成音声の振幅を調整する振幅調整手段とを備え
ることとした。

【００１４】この構成により、録音音声と合成音声に同
じ残響特性を持たせることができ、また録音音声に比べ
て明瞭度の低い合成音声の振幅を大きくすることができ
る。

【００１５】従って、録音音声と合成音声とを組み合わ
せて再生する場合、合成音声と録音音声とのつなぎ部分
で音質の差により聴者が抱く違和感を低減し、騒々しい
環境でも合成音声の明瞭度の低下を抑えることができ
る。

【００１６】

【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を用いて説明する。

【００１７】図１は、本発明の第１の実施の形態の音声
合成方法のフローを示す。

【００１８】図１に示すように、この音声合成方法は、
テキスト形式で入力する文章のテキストデータの入力処
理１０１と、入力したテキストデータが固定メッセージ
部分を有するかどうかの判断処理１０２と、録音音声読
み出し処理１０３と、合成音声作成処理１０４と、残響
特性付与処理１０５と、テキストデータの入力が終了し
たかの判断処理１０６とを行う。

【００１９】以上のように処理される音声合成方法につ
いて、図１を用いてその動作を説明する。

【００２０】まず、文章の情報出力要求をテキスト形式
で入力する（１０１）。続いて入力したテキストデータ
の中から、録音音声を再生する固定メッセージ部分と、
合成音声を作成し再生する部分を切り分ける（１０
２）。もし録音音声を再生する固定メッセージ部分なら
録音音声を読み出す（１０３）。そうでなければ、合成
音声を作成し（１０４）、録音音声を録音した環境と同
じ残響特性を付与する（１０５）。このようにテキスト
データすべての文章が終了するまで一連の処理を繰り返
し、すべての文章を音声化する（１０６）。

【００２１】この発明の第１の実施の形態の音声合成方
法によれば、録音音声を録音した環境と同じ残響特性を
重畳する残響特性付与処理を設けることにより、録音音
声と合成音声に同じ残響特性を持たせることができ、録
音音声と合成音声とを組み合わせて再生する場合、合成
音声と録音音声とのつなぎ部分で音質の差により聴者に
与える違和感を低減させることができる。

【００２２】図２は、本発明の第２の実施の形態の音声
合成装置のブロック図を示す。

【００２３】図２に示すようにこの音声合成装置は、テ
キストデータ入力手段２０１と、テキストデータ切り分
け手段２０２と、録音音声テキストデータベース２０３
と、合成音声作成手段２０４と、音声素片データベース
２０５と、残響特性付与手段２０６ａと、残響特性付与
手段２０６ａを有するポストフィルタ２０６と、録音音
声データベース２０７と、録音音声読み出し手段２０８
と、音声出力手段２０９とにより構成されている。

【００２４】以上のように構成された音声合成装置につ
いて、図２を用いてその動作を説明する。

【００２５】まず、テキストデータをテキストデータ入
力手段２０１によって入手する。続いてテキストデータ
入力手段２０１によって入手したテキストデータと、録
音音声テキストデータベース２０３に保存してある録音
音声のテキストデータとを比較することにより、テキス
トデータ切り分け手段２０２においてテキストデータの
中から、録音音声のテキストデータベース２０３にある
固定メッセージ部分のテキストデータとそうでない部分
のテキストデータを切り分ける。

【００２６】テキストデータ切り分け手段２０２により
テキストデータが切り分けられたとき、テキストデータ
が固定メッセージ部分にある場合には、録音音声データ
ベース２０７から録音音声読み出し手段２０８によって
録音音声を読み込む。

【００２７】テキストデータが固定メッセージ部分にな
い場合には、合成音声作成手段２０４で音声素片データ
ベース２０５を使い波形重畳法によって合成音声を作成
し、ポストフィルタ２０６の残響特性付与手段２０６ａ
によって録音音声を録音した環境と同じ残響を重畳す
る。最後にすべての文章を録音音声と合成音声とを組み
合わせて、音声出力手段２１０から音声として出力す
る。

【００２８】この本発明の第２の実施の形態の音声合成
装置によれば、録音音声を録音した環境と同じ残響特性
を重畳する残響特性付与手段を設けることにより、録音
音声と合成音声に同じ残響特性を持たせることができ、
録音音声と合成音声とを組み合わせて再生する場合、合
成音声と録音音声とのつなぎ部分で音質の差により聴者
に与える違和感を低減させることができる。

【００２９】図３は、本発明の第３の実施の形態の音声
合成方法のフローを示す。

【００３０】図３に示すように、この音声合成方法は、
テキストデータ入力処理１０１と、入力したテキストデ
ータが固定メッセージ部分かどうかの判断処理１０２
と、録音音声読み出し処理１０３と、合成音声作成処理
１０４と、残響特性付与処理１０５と、テキストデータ
の入力が終了したかの判断処理１０６と、振幅調整処理
１０７とを行う。

【００３１】以上のように処理を行う音声合成方法につ
いて、図３を用いてその動作を説明する。

【００３２】まず、文章の情報出力要求をテキスト形式
で入力する（１０１）。続いて入力したテキストデータ
の中から、録音音声を再生する固定メッセージ部分と、
合成音声を作成し再生する部分を切り分ける（１０
２）。

【００３３】もし、テキストデータが録音音声を再生す
る固定メッセージ部分なら録音音声を読み込む（１０
３）。そうでなければ、合成音声を作成し（１０４）、
録音音声を録音した環境と同じ残響特性を付与する（１
０５）。

【００３４】さらに、残響特性を付与した後、音声を再
生する場所の騒音騒音レベルと録音音声の振幅情報によ
って合成音声の振幅を調整する（１０７）。このよう
にテキストデータのすべての文章が終了するまで一連の
処理を繰り返し、すべての文章を音声化する（１０
６）。

【００３５】この本発明の第３の実施の形態の音声合成
方法によれば、録音音声を録音した環境と同じ残響特性
を重畳する残響特性付与処理と、音声を再生する場所の
騒音騒音レベルと録音音声の振幅情報をもとに合成音声
の振幅を調整する振幅調整処理とを設けることにより、
録音音声と合成音声に同じ残響特性を持たせることがで
き、また録音音声に比べて明瞭度の低い合成音声の振幅
を大きくすることができる。

【００３６】従って、録音音声と合成音声とを組み合わ
せて再生する場合、合成音声と録音音声とのつなぎ部分
で音質の差により聴者に与える違和感を低減させること
ができ、さらに騒音による合成音声の明瞭度の低下を抑
えることができる。

【００３７】図４は、本発明の第４の実施の形態の音声
合成装置のブロック図を示す。

【００３８】図４に示すように、この音声合成装置は、
テキストデータ入力手段２０１と、テキストデータ切り
分け手段２０２と、録音音声テキストデータベース２０
３と、合成音声作成手段２０４と、音声素片データベー
ス２０５と、残響特性付与手段２０６ａと、振幅調整手
段２０６ｂと、残響特性付与手段２０６ａと振幅調整手
段２０６ｂとを有するポストフィルタ２０６と、録音音
声データベース２０７と、録音音声読み出し手段２０８
と、音声出力手段２０９と、騒音計測手段２１０とによ
り構成されている。

【００３９】以上のように構成された音声合成装置につ
いて、図４を用いてその動作を説明する。

【００４０】まず、テキストデータをテキストデータ入
力手段２０１によって入手する。続いてテキストデータ
入力手段２０１によって入手したテキストデータと、録
音音声テキストデータベース２０３に保存している録音
した音声のテキストデータとを比較することにより、テ
キストデータ切り分け手段２０２においてテキストデー
タの中から、録音音声のテキストデータベース２０３に
ある固定メッセージ部分のテキストデータとそうでない
部分のテキストデータを切り分ける。

【００４１】テキストデータ切り分け手段２０２により
テキストデータが切り分けられたとき、テキストデータ
が固定メッセージ部分にある場合には、録音音声データ
ベース２０７から録音音声読み出し手段２０８によって
録音音声を読み込む。

【００４２】テキストデータが固定メッセージ部分にな
い場合には、合成音声作成手段２０４で音声素片データ
ベース２０５を使い波形重畳法によって合成音声を作成
し、ポストフィルタの残響特性付与手段２０６ａによっ
て録音音声を録音した環境と同じ残響を重畳する。さら
に、騒音計測手段２１０で音声を再生する場所の騒音レ
ベルを計測し、前記計測騒音レベルと録音音声読み出し
手段２０８からの録音音声の振幅情報をもとに、振幅調
整手段２０６ａで合成音声の振幅を調整する。最後に、
すべての文章を録音音声と合成音声とを組み合わせて、
音声出力手段２０９から音声として出力する。

【００４３】この本発明の第４の実施の形態の音声合成
装置によれば、録音音声を録音した環境と同じ残響特性
を重畳する残響特性付与手段と、音声を再生する場所の
騒音騒音レベルと録音音声の振幅情報をもとに合成音声
の振幅を調整する振幅調整手段とを設けることにより、
録音音声と合成音声に同じ残響特性を持たせることがで
き、また録音音声に比べて明瞭度の低い合成音声の振幅
を大きくすることができる。

【００４４】従って、録音音声と合成音声とを組み合わ
せて再生する場合、合成音声と録音音声とのつなぎ部分
で音質の差により聴者に与える違和感を低減することが
でき、さらに騒音による合成音声の明瞭度の低下を抑え
ることができる。

【００４５】

【発明の効果】本発明の音声合成方法は、テキストデー
タを録音音声で再生するときには、前記録音音声をその
まま出力し、波形重畳法で作成した合成音声で出力する
ときには、前記録音音声を録音した環境と同じ残響特性
をもつ残響特性を付与して出力し、前記合成音声と前記
録音音声とを組み合わて再生することとした。

【００４６】この方法により、録音音声と合成音声に同
じ残響特性を持たせることができ、録音音声と合成音声
とを組み合わせて再生する場合、合成音声と録音音声と
のつなぎ部分で音質の差により聴者が抱く違和感を低減
させることができる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態の音声合成方法のフ
ローを示す図

【図２】本発明の第２の実施の形態の音声合成装置のブ
ロック図

【図３】本発明の第３の実施の形態の音声合成方法のフ
ローを示す図

【図４】本発明の第４の実施の形態の音声合成装置のブ
ロック図

【符号の説明】

２０１テキストデータ入力手段２０２テキストデータ切り分け手段２０３録音音声テキストデータベース２０４合成音声作成手段２０５音声素片データベース２０６ポストフィルタ２０６ａ残響特性付与手段２０６ｂ振幅調整手段２０７録音音声データベース２０８録音音声読み出し手段２０９音声出力手段２１０騒音計測手段

Claims

【特許請求の範囲】

【請求項１】入力するテキストデータを録音音声で再
生するときには、前記録音音声をそのまま出力し、波形
重畳法で作成した合成音声で出力するときには、前記録
音音声を録音した環境と同じ残響特性をもつ残響特性を
付与して出力し、前記合成音声と前記録音音声とを組み
合わて再生することを特徴とする音声合成方法。
【請求項２】テキスト形式で文章を入力するテキスト
データの入力手段と、前記テキストデータから録音音声
のテキストデータの切り分けを行うテキストデータ切り
分け手段と、前記テキストデータ切り分け手段が前記録
音音声のテキストデータの切り分けを行ったとき予め設
定した録音音声データベースより録音音声を読み出す録
音音声読み出し手段と、前記テキストデータ切り分け手
段が前記録音音声のテキストデータの切り分けを行なわ
なかったとき波形重畳法によって前記テキストデータの
合成音声を作成する合成音声作成手段と、前記録音音声
を録音した環境と同じ残響特性を前記合成音声に重畳す
る残響付与手段とを備え、前記合成音声と前記録音音声
とを組み合わて再生することを特徴とする音声合成装
置。
【請求項３】前記残響特性を付与するとき、前記録音
音声を再生する場所の騒音を計測し、計測した騒音レベ
ルと前記録音音声の振幅情報によって前記合成音声の振
幅を調整することを特徴とする請求項1に記載の音声合
成方法。
【請求項４】前記録音音声を再生する場所の騒音を計
測する騒音計測手段と、前記騒音計測手段によって計測
された騒音レベルと、前記録音音声の振幅情報とから前
記合成音声の振幅を調整する振幅調整手段とを備えたこ
とを特徴とする請求項２に記載の音声合成装置。