JP3914612B2

JP3914612B2 - 通信システム

Info

Publication number: JP3914612B2
Application number: JP20577397A
Authority: JP
Inventors: 信尾額賀; 義典北原; 俊一矢島; 啓子藤田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1997-07-31
Filing date: 1997-07-31
Publication date: 2007-05-16
Anticipated expiration: 2017-07-31
Also published as: JPH1152987A

Description

【０００１】
【発明の属する技術分野】
本発明は、文字列より合成した音声の出力様態を、別途音声入力した話者の音声の出力様態に変更できる音声合成装置に関する。
【０００２】
【従来の技術】
これまでの音声合成装置は、韻律的特徴を表す音源モデルと、音韻的特徴を表す声道モデルとから算出される合成パラメータを用いて、文字列から音声を合成する方式が一般的であった。音声の特徴を表す合成パラメータとしては、基本周波数、音素継続時間長、パワー、スペクトルパラメータ等がある。
【０００３】
該音声合成装置を用いる場合、人間が発声する音声を模擬するためには、韻律の特徴を表すパラメータを生成する音源モデルと、声道の伝達特性を模擬する声道モデルを精密に構成する必要がある。音源モデル及び声道モデルは、話者の個人性を担っている情報であり、両者をできるだけ肉声に近づけることで、該話者の音声に近づけることができる。音源モデルのうち、基本周波数を指定するモデルとしては、例えば、文献「藤崎、須藤：”日本語単語アクセントの基本周波数パタンとその生成機構”、日本音響学会誌２７、ｐｐ．４４５−４５３、１９７１」で提案されているモデル等がある。一方、音声のスペクトル情報もしくはフォルマントと呼ばれる周波数軸上の特定の周波数のエネルギー分布は、音韻性を決める声道モデルのパラメータとなる。
【０００４】
【発明が解決しようとする課題】
さて、該音声合成装置を用いて特定の個人の音声を合成するためには、該個人の音声から分析抽出したパラメータを利用してモデルを構築する必要がある。
【０００５】
しかし、これまでの音声合成装置における音源モデル及び声道モデルは、システムの基準音声を元に設計されているため、文字列のみから不特定の話者の合成音を実現することは不可能であった。
【０００６】
更には、音声の基本周波数等の音源モデルは肉声の基本周波数を生成ルールで近似するため、モデル化の対象とはならない細かいピッチの揺らぎ等が表現できない場合があるという問題があった。
【０００７】
そこで本発明では、上述した問題点を解決するために、文字列に対して算出されたシステムの基準合成パラメータと、該個人の発声した音声を分析して得られた分析パラメータとの差分値を求め、該差分値を文字列と共に伝送することにより、特定の個人の音声を模擬することが可能な音声合成装置を提供することを目的とする。
【０００８】
【課題を解決するための手段】
上記目的を達成するために本発明の音声合成装置は、利用者の音声を入力する手段と、入力音声を分析するパラメータ分析部と、文字列に対する合成パラメータを算出するパラメータ算出部と、入力音声から得られたパラメータとシステムの固有のモデルから算出されたパラメータとを比較するパラメータ比較部と、パラメータ比較部により演算された差分値を格納するパラメータ差分値蓄積手段を備え、利用者の音声をシステムの基準合成パラメータと差分値に分ける機能を有する。更に、本発明の音声合成装置は、文字列に対してシステムのモデルから算出された基準合成パラメータとパラメータ差分値を加算して、利用者の音声の特徴を表すパラメータを求めるパラメータ加算部を有し、パラメータ加算部によって求められたパラメータを用いて音声合成を行うことで、利用者の音声の特徴を持った音声が合成可能であることを特徴とする。
【０００９】
また、本発明の音声合成装置で算出される差分値と文字列から構成されるデータを、電気的格納媒体及び通信手段に因って異なった時空間に存在する音声合成装置の間を伝達する手段を提供することを特徴とする。この特徴により、前記差分値により簡便に個人情報に適応した音声を合成することが可能になる。
【００１０】
【発明の実施の形態】
以下、本発明の実施例を図面を用いて説明する。
【００１１】
まず、図１及び図２を用いて、本発明の実施の形態を説明する。図１は、本発明の請求項１の構成を示すブロック図である。図１において、１は文字列を入力しメモリ１０に転送するための文字列入力装置、２は該文字列から音声の特徴を表すパラメータを算出しメモリ１０に転送する合成パラメータ算出部、３はメモリ１０もしくはパラメータ差分値蓄積装置９に蓄積されたパラメータ差分値と、合成パラメータ算出手段２により算出された合成パラメータをメモリ１０より読み出し、該差分値と該合成パラメータを加算して、加算したパラメータをメモリ１０に転送するパラメータ加算部、４は合成パラメータ算出部２より出力されたパラメータから音声合成を行い音声波形をメモリ１０に転送する音声合成部、５は音声合成部４によって合成された音声を出力する音声出力装置、６は利用者の音声を入力しメモリ１０に転送するための音声入力装置、７は音声入力装置６から入力された音声データをメモリ１０より読み出しパラメータの分析を行う音声パラメータ分析部、８は合成パラメータ算出手段２により算出された合成パラメータと音声パラメータ分析手段７により計算された音声パラメータをメモリ１０より読み出し、パラメータの差分値を計算しパラメータ差分値蓄積装置９もしくはメモリ１０に転送するパラメータ比較部、９はパラメータ比較部８により計算された差分値を格納するパラメータ差分値蓄積装置である。図２は、合成パラメータ算出部における手順を示すフローである。また、メモリ１０のデータ構造を図７に示す。
【００１２】
まず、利用者が文字列入力装置１を用いて文字を入力する。文字列入力装置１は、キーボードだけではなく、文字列が入力できる装置であれば、持ち運び可能な記録媒体読み込み装置、通信線を介した文字列伝送手段、音声認識装置等であっても良い。ここでは、例として「今日の話題」という文字列を入力したとする。該文字列はメモリ１０の１０００に格納される。次に合成パラメータ算出部では、メモリ１０の１０００より文字列を読み出し、該文字列を音素に分割する（ステップＳ１０１）。文字列から音素に分割する方法は、例えば、宮崎らの方法（「日本文音声出力のための言語処理方式」情報処理学会論文誌、Ｖｏｌ．２７、Ｎｏ．１１、ｐｐ．１０５３−１０６１、１９８６）を利用する。勿論、該計算方法は一例であり、他の音素を分割する方法を用いてもよい。このようにして、「今日の話題」という文字列は、「ｋｙ／ｏ／ｏ／ｎ／ｏ／ｗ／ａ／ｄ／ａ／ｉ」という音素に分割され、該音素分割データはメモリ１０の１００１に格納される。ここで、「ｋｙ」「ｗ」「ａ」等は音素を示す記号である。勿論、該音素記号データは一例であり、他の音素記号表現を用いてもよい。また、求める単位は音素単位に限らず、音素を２分割した単位や音節でも良い。次に音素に分割された音素分割データをメモリ１０の１００１より読み出し、音素毎の継続時間長の計算（ステップＳ１０２）を行って、継続時間長データをメモリ１０の１００２へ転送する。音素毎の継続時間長の計算方法は、例えば、匂坂らの方法（「規則による音声合成のための音韻時間長制御」電子通信学会論文誌、Ｖｏｌ．Ｊ６７−Ａ、Ｎｏ．７、ｐｐ．６２９−６３６、１９８４）を利用する。勿論、該計算方法は一例であり、他の音素継続時間長の計算方法を用いてもよい。このような方法で、先の音素分割データ「ｋｙ／ｏ／ｏ／ｎ／ｏ／ｗ／ａ／ｄ／ａ／ｉ」から、例えば、ミリ秒単位の継続時間長データ「５０／１５０／１２０／４０／１５０／２０／２００／４０／１８０／１７０」が計算結果として求められ、メモリ１０の１００２に格納される。勿論、該継続時間長は一例であり、秒単位等の継続時間長データを用いてもよい。次に、メモリ１０の１０００と１００１から、文字列と音素分割データを読み出し、音の高さを指定するアクセントの付与（ステップＳ１０３）を行い、アクセントデータをメモリ１０の１００３へ転送する。文字列へのアクセント付与の方法は、例えば、匂坂らの方法（「日本語単語連鎖のアクセント規則」電子通信学会論文誌、Ｖｏｌ．Ｊ６６−Ｄ、Ｎｏ．７、ｐｐ．８４９−８５６、１９８３）を利用する。勿論、該計算方法は一例であり、他のアクセント付与方法を用いてもよい。このようにして、文字列「今日の話題」はアクセントデータ「ｋｙｏ’ｏｎｏ，ｗａｄａｉ．」に変換され、メモリ１０の１００３に格納される。ここで、「’」が付されている音節はアクセント核のある音節、「，」は句の区切れ、「．」は文の終端を表す記号である。勿論、該記号は一例であり、他の記号を用いてもよい。次に、メモリ１０の１００１と１００２より、音素分割データとアクセントデータを読み出し、基本周波数の計算（ステップＳ１０４）を行い、基本周波数データをメモリ１０の１００４に転送する。基本周波数の計算方法は、例えば、藤崎らの方法（「日本語単語アクセントの基本周波数パタンとその生成機構」日本音響学会誌２７、ｐｐ．４４５−４５３、１９７１）を利用する。勿論、該計算方法は一例であり、他の基本周波数の計算方法を用いてもよい。このようにして、文字列「今日の話題」は、（Ｆ０，Ｆ１，．．．，Ｆｉ，．．．，Ｆｐ）という基本周波数データに変換され、メモリ１０の１００４に格納される。ここで、Ｆｉは基本周波数を表す数値であり、例えば、１０ミリ秒単位で求められた値である。また、ｐは基本周波数を表す値の数である。勿論、基本周波数を表す該方法は一例であり、基本周波数の値を求めることができる方法であるならば、一定の時間間隔ではない時間単位で基本周波数を求める方法、基本周波数を求めるモデルのパラメータの組で表す方法等でも良い。次に、音素継続時間長データをメモリ１０の１００２より読み出し、パワー計算（ステップＳ１０５）を行い、パワーデータをメモリ１０の１００５に転送する。パワー計算の方法は、例えば、三村らの方法（「統計的手法を用いた音声パワーの分析と制御」日本音響学会誌、４９巻、ｐｐ．２５３−２５９、１９９３）を利用する。勿論、該計算方法は一例であり、他のパワー計算方法を利用してもよい。このようにして、文字列「今日の話題」は、（Ｐ０，Ｐ１，．．．，Ｐｉ，．．．，Ｐｑ）というパワーデータに変換され、メモリ１０の１００５に格納される。ここで、Ｐｉはパワーを表す値でありｄＢ値で格納される。ｑはパワーデータの個数である。勿論、パワー値を表す該方法は一例であり、他のパワー値表現方法を利用してもよい。次に、音素分割データをメモリ１０の１００１より読み出し、ケプストラムを計算（ステップＳ１０６）し、ケプストラムデータをメモリ１０の１００６に転送する。ケプストラムデータを求める方法は、例えば、音素毎の代表波形をケプストラム分析した結果を用いる方法を利用する。勿論、該計算方法は一例であり、他のケプストラム分析の方法を利用してもよい。このようにして、文字列「今日の話題」は、（Ｃ０，Ｃ１，．．．，Ｃｉ，．．．Ｃｒ）というケプストラムデータに変換され、メモリ１０の１００６に格納される。ここで、ｒはケプストラムデータの数、Ｃｉはケプストラム係数を表すベクトルデータで、（ｃ１，．．．，ｃｉ，．．．，ｃｓ）で表される。ｓはケプストラム係数の次数を示す。勿論、ケプストラムデータを表す該方法は一例であり、他の表現方法を用いてもよい。
【００１３】
このようにして、音声の特徴を表すパラメータである、音素継続時間長データ、基本周波数データ、パワーデータ、ケプストラムデータがメモリ１０の１００２、１００４、１００５、１００６にそれぞれ格納される。なお、本実施例では、音声の特徴を表すパラメータとして、音素継続時間長データ、基本周波数データ、パワーデータ、ケプストラムデータを用いたが、音声の特徴を表すパラメータであれば、フォルマント周波数、線形予測分析の結果得られる線形予測係数、メル尺度に変換したメルケプストラム等のパラメータであっても良い。
【００１４】
続いて、利用者は、音声入力装置６を用いて、「今日の話題」と発声し音声を装置内に取り込む。例えば、音声はサンプリング周波数１６キロヘルツ、量子化ビット数１６ビット、モノラル音声で取り込む。次に音声入力装置６は、音声データをメモリ１０の１００７に転送する。次に、音声パラメータ分析手段７は、メモリ１０の１００７より音声データを読み出し、基本周波数の分析を行い、基本周波数データ（Ｆ’０，Ｆ’１，．．．，Ｆ’ｉ，．．．，Ｆ’ｋ）をメモリ１０の１００９に転送する。ここで、Ｆ’ｉは基本周波数の値であり、ｋは基本周波数データの値の数である。基本周波数の分析の方法は、例えば、ＬＰＣ分析の残差信号の自己相関関数より基本周波数を求める方法を利用する。勿論、該計算方法は一例であり、他の基本周波数分析方法を利用してもよい。ここでは、基本周波数の分析間隔は、文字列「今日の話題」から基本周波数データを求めた時の基本単位と等しくする。例えば、１０ミリ秒単位で基本周波数データを分析する。勿論、該分析方法は一例であり、後に説明する基本周波数の差分値を計算できる方法であるならば、他の基本周波数分析の方法及び基本周波数のデータ構造を利用してもよい。このようにして、音声「今日の話題」の基本周波数データがメモリ１０の１００９に格納される。次に、メモリ１０の１００７より音声データを読み出し、音素継続時間長の分析を行い、音素継続時間長データをメモリ１０の１００８に転送する。音素継続時間長の分析は、例えば、中川らの方法（「ＨＭＭ法とベイズ確率を用いた連続音声のセグメンテーション」電子情報通信学会論文誌、Ｖｏｌ．Ｊ７２−Ｄ−ＩＩ、ｐｐ．１−１０、１９８９）を利用する。勿論、該計算方法は一例であり、他の音素継続時間長の分析方法を利用してもよい。このようにして、音声「今日の話題」の音素継続時間長データ「８０／１４０／１５０／３０／１５０／５０／１８０／５０／１８０／１８０」がメモリ１０の１００８に格納される。ここでは、文字列「今日の話題」から計算した音素継続時間長と同じく時間長データの単位はミリ秒としたが、勿論、該単位は一例であり、後に説明する音素継続時間長データの差分値を計算できる方法であるならば、他の音素継続時間長計算方法及びデータ表現方法を用いてもよい。次に、メモリ１０の１００７より音声データを読み出し、パワーの分析を行い、パワー値をメモリ１０の１０１０に転送する。パワーの分析は、例えば、ケプストラム分析の結果得られたケプストラムパラメータの０次項を利用する。勿論、該計算方法は一例であり、他のパワーデータ計算方法を用いてもよい。このようにして、音声「今日の話題」のパワーデータ（Ｐ’０，Ｐ’１，．．．，Ｐ’ｉ，．．．，Ｐ’ｊ）がメモリ１０の１０１０に格納される。ここで、Ｐ’ｉはパワーデータであり、ｊはパワーデータの個数である。勿論、該表現方法は一例であり、後に説明するパワーデータの差分値が計算できる方法であれば、他のパワーデータ表現方法を利用してもよい。次に、メモリ１０の１００７より音声データを読み出し、ケプストラム分析を行い、ケプストラムパラメータデータをメモリ１０の１０１１に転送する。ケプストラム分析の単位時間は、例えば、メモリ１０の１００６に格納されているケプストラムパラメータと等しくする。このようにして、音声「今日の話題」のケプストラムデータ（Ｃ’０，Ｃ’１，．．．，Ｃ’ｉ，．．．Ｃ’ｍ）に変換され、メモリ１０の１００６に格納される。ここで、ｍはケプストラムデータの数、Ｃ’ｉはケプストラム係数を表すベクトルデータで、（ｃ’１，．．．，ｃ’ｉ，．．．，ｃ’ｎ）で表される。ｎはケプストラム係数の次数を示す。勿論、ケプストラムデータを表す該方法は一例であり、後に説明するケプストラムの差分値を求めることが出来るならば、他の表現方法を用いてもよい。
【００１５】
以上の手順で、音素継続時間長、基本周波数、パワー、ケプストラムのデータがメモリ１０の１００８、１００９、１０１０、１０１１に格納される。
【００１６】
続いて、パラメータ比較手段８では、合成パラメータ算出手段２で算出された合成パラメータと音声パラメータ分析手段７で分析された分析パラメータをメモリ１０の１００２、１００４、１００５、１００６及び１００８、１００９、１０１０、１０１１より読み出し、対応するパラメータの比較を行う。ここで、対応するパラメータとは、合成パラメータにおける基本周波数と分析パラメータにおける基本周波数、合成パラメータにおける音素継続時間長と分析パラメータにおける音素継続時間長、合成パラメータにおけるパワーデータと分析パラメータにおけるパワーデータ、合成パラメータにおけるケプストラムデータと分析パラメータにおけるケプストラムデータである。
【００１７】
まず、図４を用いて、図１のパラメータ比較手段８における音素継続時間に関するパラメータ差分値を算出する実施方法を説明する。図４は、「今日の話題（キョウオノワダイ）」という文字列に対して実施した具体例である。４０１は図２の音素継続時間長計算手順１０３の結果求められる合成パラメータである。合成パラメータ４０１はシステム固有のパラメータ値であり、４０１の形式で格納されている。合成パラメータ４０１は、音素記号４０２と継続長４０３の組合せで定義されており、音素記号毎に異なる値を持っている。継続長４０３の単位はミリ秒である。例えば、４０４に示すように「オ（ｏ）」という音素は１５０ミリ秒という継続長が決まっている。このようにして、「今日の話題」という文字列に対する合成パラメータ４０１を求める。４０５は、「今日の話題」という文字列の内容を利用者が発声した音声を分析した結果を示す分析パラメータ表である。音素記号４０６及び継続長４０７は、合成パラメータ４０１と同じである。４０４の「オ」に対応する分析パラメータにおける「オ」４０８は、合成パラメータ４０１とは異なる値を示している。これは、利用者の発声とシステムで想定した合成パラメータとが異なっていることを意味しており、利用者の個人性と解釈することも可能である。４２１は前記手順で求められた分析パラメータであり、４２２は合成パラメータである。４２３は分析パラメータ４２１と合成パラメータ４２２の差分値４２４を計算する差分器である。該実施例では、差分器４２３では、音素記号４０２と音素記号４０６の対応する項目の継続長の差分が計算され、４０９で示すパラメータ差分値表として格納される。例えば一つ目の「ｏ」に対しては、４０８の値より４０４の値を減じる。結果として、差分値「３０」が差分継続長として４１２に格納される。上記の方法を用いてパラメータ差分値４０９を求める。このようにして、「３０／−１０／３０／−１０／０／３０／−２０／１０／０／１０」がメモリ１０の１０１２に格納される。
【００１８】
以下、同様にして、基本周波数、パワー、ケプストラムパラメータに関する差分値を計算する。
【００１９】
このようにして、音素継続時間長、基本周波数、パワー、ケプストラムの差分値がメモリ１０の１０１２、１０１３、１０１４、１０１５に格納された。ここで、メモリ１０に格納された差分値を、パラメータ差分値蓄積装置９である記憶媒体に格納して保存することや、後述の実施例で示す方法で該差分値を利用することもできる。
【００２０】
ここで、図３を用いて、差分値データより合成パラメータを求める原理を説明する。３０１は図１の音声入力装置６により入力された利用者の音声データ、３０２は音声データ３０１を分析し音声の特徴を表す分析パラメータを出力する音声パラメータ分析部、３０３は図１の文字列入力装置１により入力された文字列データ、３０４は文字列データ３０３より合成パラメータを算出する合成パラメータ算出部、３０５は前記分析パラメータと合成パラメータと比較しパラメータ差分値３０６を計算するパラメータ比較部、３０７は文字列データ３０３より算出された合成パラメータとパラメータ差分値３０６から合成パラメータを計算するパラメータ加算部、３０８はパラメータ加算手段３０７により出力された合成パラメータから音声を合成する音声合成部である。ここでは、パラメータ比較部３０５とパラメータ加算部３０７は同一の合成パラメータを用いているが、異なるパラメータを用いてもよい。上記の原理を用いて、利用者の音声３０１の音声の特徴を持った音声３０９を合成することが可能である。
【００２１】
上記原理を用いて、パラメータ差分値より合成パラメータを計算する。本実施例では、これから説明する方法で合成パラメータを計算する。仮に、合成パラメータｐと合成パラメータｑからパラメータ差分値ｄを求める演算をｆｄとすると、ｄ＝ｆｄ（ｐ，ｑ）が成り立つ。ここで、差分値ｄから合成パラメータｐを求めるパラメータ加算方法ｆｓが、以下の関係を満たすような演算ｆｓをパラメータ加算方法を利用する。すなわち、ｐ＝ｆｓ（ｆｄ（ｐ，ｑ））を満たすｆｓを採用する。例えば、前記例ではパラメータ比較方法にパラメータの差を用いたので、パラメータ加算方法にはパラメータの和を用いることにより、該関係を満たすことができる。勿論、該関係は一例であり、差分値より話者の音声の特徴を表すパラメータを算出することができるパラメータ加算方法を利用してもよい。このようにして算出された合成パラメータは、メモリ１０の１００２、１００４、１００５、１００６へ転送される。続いて、音声合成部４は、メモリ１０の１００２、１００４、１００５、１００６から合成パラメータを読み出し、合成フィルタを駆動することにより音声合成を行い、音声データを生成する。音声合成の方法は、例えば、文献「古井：”ディジタル音声処理”、ｐ．２２、東海大学出版会、１９８５」に示されている方法を利用する。勿論、該音声合成方法は一例であり、他の音声合成方法を利用してもよい。このようにして、生成された音声データはメモリ１０の１０１６に格納される。次に、音声出力装置５を通じて、メモリ１０の１０１６に格納されている音声データを出力する。以上の手続きを以って、目的の音声を合成する。
【００２２】
さて、上記の実施例は、利用者が「今日の話題」という文字列を入力し、「今日の話題」という音声を入力した場合の差分値を計算する例であったが、例えば、複数の文字列に対して発声した音声に関して分析を行った結果得られた複数の差分値に関して、差分値の平均を計算した平均差分値もしくは、差分値に関する平均値と分散値といった値も、差分値として利用しても良い。また、差分値は、基準パラメータとの異なりを示す値であれば、基準パラメータとの比等を利用しても一向に構わない。
【００２３】
また、上記音声合成装置は、差分値及び合成音声を出力できればよく、例えば、文字列入力装置及び音声入力装置を備える計算機装置に蓄えられ、該計算機装置のＣＰＵが読み出されて実行されるプログラムでも良い。
【００２４】
次に、図５を用いて、本発明の他の実施形態を説明する。５０はメールを送信する側のシステム、６０はメールを受信する側のシステム、５６はメール送信側システムの通信装置、６６はメール受信側システムの通信装置、５８は通信装置５６と通信装置６６が通信可能な通信路である。メールの送信者が、メール送信側システム５０を利用して、例えば、「今日の会議は、延期になりました。」という内容のメールをメールの受信者に送信する場合、メールの送信者は、まず、ＣＰＵ５５に対してメール送信プログラムをメモリ５４より読み出して実行するように指示した後、文字入力装置５１より、「今日の会議は、延期になりました。」という文字列を入力する。ここで、メール送信プログラムは、実行される前に、固定ディスク等の記録媒体から転送されてメモリ５４に格納されているものとする。勿論、実行される前にメモリ５４に格納されていれば、他のプログラム格納方法を利用してもよい。入力された文字列は、メモリ５４に転送された後、表示装置５３に表示される。続いて、利用者は音声入力装置５２を用いて、「今日の会議は、延期になりました。」という音声を入力する。入力された音声は、メモリ５４に転送される。続いて、メール送信プログラムは、上述の機能を持つ音声合成プログラムをメモリ５４より読み出し、実行を開始する。ここで、音声合成プログラムは、実行される前に、固定ディスク等の記録媒体から転送されてメモリ５４に格納されているものとする。勿論、実行される前にメモリ５４に格納されていれば、他のプログラム格納方法を利用してもよい。次に、音声合成プログラムは、入力された文字列をメモリ５４より読み出し、音声合成のためのシステムの基準合成パラメータの生成して、メモリ５４に転送する。次に、ＣＰＵ５５は入力された音声をメモリ５４より読み出し、音声の特徴を表す分析パラメータを生成して、メモリ５４に転送する。次に、音声合成プログラムは、メモリ５４に格納されている基準合成パラメータと分析パラメータの比較を行い、パラメータの差分値を算出し、メモリ５４に転送する。次に、メール送信プログラムは、メモリ５４より、「今日の会議は、延期になりました。」という文字列と、音声合成プログラムにより算出された差分値を読み出して、例えば、該メールには差分値が含まれている旨のデータを結合し、１つのメールデータとした後に、メモリ５４に転送する。図６にメールデータの一例を示す。５０７はメールデータ、５０１はメールデータの宛て先を示す情報、５０２はメールを送信する利用者の情報、５０３はメールのタイトル、５０４はメールの本文の内容であり、本実施例では、文字列「今日の会議は、延期になりました。」、５０５はメールに差分値が添付されている旨を示す差分値情報有無フラグ、５０６はメール送信者の音声から算出した差分値である。メール送信プログラムは、該メールデータをメモリ５４より読み出し、通信装置５６を用いて、通信装置６６にデータを送信する。上記の結果、「今日の会議は、延期になりました。」という文字列と送信者の音声の特徴を担った差分値及び、差分値データが付加されている旨を示す付加データから構成されるメールデータが、メール受信側システムに送信された。
【００２５】
一方、メール受信者は、ＣＰＵ６５に対して、メール受信プログラムをメモリ６４より読み出し、実行するように指示を与える。ここで、メール受信プログラムは、実行される前に、固定ディスク等の記録媒体から転送されてメモリ５４に格納されているものとする。勿論、実行される前にメモリ５４に格納されていれば、他のプログラム格納方法を利用してもよい。メール受信プログラムは、通信装置６６に蓄積されているメールデータの存在を検査し、メールが到着している場合には、メールデータをメモリ６４に読み込む。メール受信プログラムは、メモリ６４よりメールデータを読み出し、差分値データが付加されている旨を示す付加データ、図６では差分値情報有無フラグ５０５を参照し、差分値が付加されているかどうかを検査し、付加されている場合には、文字列と差分値を分割するプログラムを実行し、文字列と差分値をメモリ６４に転送し、受信した文字列を表示装置６３に表示する。メール受信プログラムは、メールに差分値データが付加されている場合には、その差分値に基づき音声を合成する機能を持つ音声合成プログラムをメモリ６４より読み出し実行する。ここで、音声合成プログラムは、実行される前に、固定ディスク等の記録媒体から転送されてメモリ５４に格納されているものとする。勿論、実行される前にメモリ５４に格納されていれば、他のプログラム格納方法を利用してもよい。例えば、装置中に備え付けの半導体メモリ、外付けの光ディスク、ＤＶＤ、磁気ディスク、更にネットワークコンピューティングのように、通信手段により接続されている他のシステムから読み出してもよい。通信手段も有線である必要はなく、無線、光、赤外線等の通信手段でも良い。こうして目盛り５４に読み出された音声合成プログラムは、文字列と差分値をメモリ６４より読み出し、文字列「今日の会議は、延期になりました。」から、音声合成のためのシステムの基準合成パラメータを算出し、基準パラメータと該差分値を加算することにより合成パラメータを算出し、メモリ６４に転送する。次に、音声合成プログラムは、該合成パラメータをメモリ６４より読み出して音声合成を行った後、音声データをメモリ６４に転送する。次に、メール受信プログラムは、音声データをメモリ６４より読み出し、音声出力装置６２より音声を出力する。
【００２６】
尚、上記の実施例は、メール送受信プログラムと音声合成プログラムは、それぞれ別個のプログラムとして説明したが、メール送受信プログラムの一部である音声合成プログラムとして構成してもよい。
【００２７】
ここでは、メール送信者により入力された文字列と該文字列に対応する音声の差分値を算出したが、メール送信者が既に該メールシステムを利用したことがある場合、音声入力を行わず、計算済みの差分値をメモリより検索し、文字列に付加する方法を採っても良い。また、受信側システムでは、メールに差分値が付加されていない場合があるとしても、メールの送信者情報から、メモリに格納されている差分値情報を検索し、送信者の差分値情報とする方法を採ることにより、送信者の音声の特徴を持った音声を合成することが可能である。
【００２８】
【発明の効果】
以上のように、本発明装置を利用すれば、音声で合成すべき内容を、特定の個人の特徴パラメータに適応することが可能となるので、特定の個人の音声で出力することが望ましいシステム、特に、電子メールの読み上げシステム等に優れた効果を発揮する。
【図面の簡単な説明】
【図１】本発明の構成を示すブロック図である。
【図２】本発明における合成パラメータ算出部の処理手順の実施例を示す図である。
【図３】本発明の原理を示す図である。
【図４】本発明におけるパラメータ比較手段の具体例を示す音素継続長のパラメータ差分値を説明する図である。
【図５】本発明の構成を示すブロック図である。
【図６】本発明におけるメールデータの例である。
【図７】本発明におけるメモリのデータ構造を示す図である。
【符号の説明】
１…文字列入力装置、２…合成パラメータ算出部、３…パラメータ加算部、４…音声合成部、５…音声出力装置、６…音声入力装置、７…音声パラメータ分析部、８…パラメータ比較部、９…パラメータ差分値蓄積装置、１０…メモリ、５０…送信側システム、５１…文字入力装置、５２…音声入力装置、５３…表示装置、５４…メモリ、５５…ＣＰＵ、５６…通信装置、５８…通信路、６０…受信側システム、６１…文字入力装置、６２…音声出力装置、６３…表示装置、６４…メモリ、６５…ＣＰＵ、６６…通信装置、３０１…利用者の音声、３０２…音声パラメータ分析部、３０３…文字列、３０４…合成パラメータ算出部、３０５…パラメータ比較部、３０６…パラメータ差分値、３０７…パラメータ加算部、３０８…音声合成部、３０９…利用者の音声の特徴を持った音声、４０１…合成パラメータ表、４０２…音素記号、４０３…継続長、４０４…「ｏ」に対する継続長、４０５…分析パラメータ表、４０６…音素記号、４０７…分析継続長、４０８…「ｏ」に対する継続長、４０９…パラメータ差分値表、４１０…音素記号、４１１…差分継続長、４１２…「ｏ」に対する継続長、４２１…分析パラメータ、４２２…合成パラメータ、４２３…差分器、４２４…パラメータ差分値、５０１…宛て先、５０２…送信者情報、５０３…タイトル、５０４…メール本文、５０５…差分値情報有無フラグ、５０６…差分値、５０７…メールデータ。

Claims

送信装置と受信装置からなる通信システムであって、上記送信装置および受信装置は共通の音声合成プログラムを実行するものであり、
上記送信装置は、
文字列を入力する文字列入力部と、上記音声合成プログラムにより該文字列から当該文字列の音声の特徴を表す基準合成パラメータを算出する合成パラメータ算出部と、上記文字列を読み上げる音声を入力する音声入力装置と、上記音声合成プログラムにより該入力音声を分析し音声の特徴を表すパラメータを算出する音声パラメータ分析部と、前記合成パラメータ算出部及び前記音声パラメータ分析部により出力されたパラメータを比較し差分値を出力するパラメータ比較部とを備え、上記文字列に上記差分値を付加して送信することを特徴とし、
上記受信装置は、
上記音声合成プログラムにより上記送信された文字列から当該文字列の音声の特徴を表す基準合成パラメータを算出する合成パラメータ算出部と、上記送信された差分値と上記合成パラメータ算出部により生成された基準合成パラメータを加算するパラメータ加算部と、上記音声合成プログラムにより上記パラメータ加算部により出力されたパラメータから音声を合成する音声合成部を有することを特徴とする通信システム。