JP3914612B2 - 通信システム - Google Patents
通信システム Download PDFInfo
- Publication number
- JP3914612B2 JP3914612B2 JP20577397A JP20577397A JP3914612B2 JP 3914612 B2 JP3914612 B2 JP 3914612B2 JP 20577397 A JP20577397 A JP 20577397A JP 20577397 A JP20577397 A JP 20577397A JP 3914612 B2 JP3914612 B2 JP 3914612B2
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- speech
- synthesis
- character string
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、文字列より合成した音声の出力様態を、別途音声入力した話者の音声の出力様態に変更できる音声合成装置に関する。
【0002】
【従来の技術】
これまでの音声合成装置は、韻律的特徴を表す音源モデルと、音韻的特徴を表す声道モデルとから算出される合成パラメータを用いて、文字列から音声を合成する方式が一般的であった。音声の特徴を表す合成パラメータとしては、基本周波数、音素継続時間長、パワー、スペクトルパラメータ等がある。
【0003】
該音声合成装置を用いる場合、人間が発声する音声を模擬するためには、韻律の特徴を表すパラメータを生成する音源モデルと、声道の伝達特性を模擬する声道モデルを精密に構成する必要がある。音源モデル及び声道モデルは、話者の個人性を担っている情報であり、両者をできるだけ肉声に近づけることで、該話者の音声に近づけることができる。音源モデルのうち、基本周波数を指定するモデルとしては、例えば、文献「藤崎、須藤:”日本語単語アクセントの基本周波数パタンとその生成機構”、日本音響学会誌27、pp.445−453、1971」で提案されているモデル等がある。一方、音声のスペクトル情報もしくはフォルマントと呼ばれる周波数軸上の特定の周波数のエネルギー分布は、音韻性を決める声道モデルのパラメータとなる。
【0004】
【発明が解決しようとする課題】
さて、該音声合成装置を用いて特定の個人の音声を合成するためには、該個人の音声から分析抽出したパラメータを利用してモデルを構築する必要がある。
【0005】
しかし、これまでの音声合成装置における音源モデル及び声道モデルは、システムの基準音声を元に設計されているため、文字列のみから不特定の話者の合成音を実現することは不可能であった。
【0006】
更には、音声の基本周波数等の音源モデルは肉声の基本周波数を生成ルールで近似するため、モデル化の対象とはならない細かいピッチの揺らぎ等が表現できない場合があるという問題があった。
【0007】
そこで本発明では、上述した問題点を解決するために、文字列に対して算出されたシステムの基準合成パラメータと、該個人の発声した音声を分析して得られた分析パラメータとの差分値を求め、該差分値を文字列と共に伝送することにより、特定の個人の音声を模擬することが可能な音声合成装置を提供することを目的とする。
【0008】
【課題を解決するための手段】
上記目的を達成するために本発明の音声合成装置は、利用者の音声を入力する手段と、入力音声を分析するパラメータ分析部と、文字列に対する合成パラメータを算出するパラメータ算出部と、入力音声から得られたパラメータとシステムの固有のモデルから算出されたパラメータとを比較するパラメータ比較部と、パラメータ比較部により演算された差分値を格納するパラメータ差分値蓄積手段を備え、利用者の音声をシステムの基準合成パラメータと差分値に分ける機能を有する。更に、本発明の音声合成装置は、文字列に対してシステムのモデルから算出された基準合成パラメータとパラメータ差分値を加算して、利用者の音声の特徴を表すパラメータを求めるパラメータ加算部を有し、パラメータ加算部によって求められたパラメータを用いて音声合成を行うことで、利用者の音声の特徴を持った音声が合成可能であることを特徴とする。
【0009】
また、本発明の音声合成装置で算出される差分値と文字列から構成されるデータを、電気的格納媒体及び通信手段に因って異なった時空間に存在する音声合成装置の間を伝達する手段を提供することを特徴とする。この特徴により、前記差分値により簡便に個人情報に適応した音声を合成することが可能になる。
【0010】
【発明の実施の形態】
以下、本発明の実施例を図面を用いて説明する。
【0011】
まず、図1及び図2を用いて、本発明の実施の形態を説明する。図1は、本発明の請求項1の構成を示すブロック図である。図1において、1は文字列を入力しメモリ10に転送するための文字列入力装置、2は該文字列から音声の特徴を表すパラメータを算出しメモリ10に転送する合成パラメータ算出部、3はメモリ10もしくはパラメータ差分値蓄積装置9に蓄積されたパラメータ差分値と、合成パラメータ算出手段2により算出された合成パラメータをメモリ10より読み出し、該差分値と該合成パラメータを加算して、加算したパラメータをメモリ10に転送するパラメータ加算部、4は合成パラメータ算出部2より出力されたパラメータから音声合成を行い音声波形をメモリ10に転送する音声合成部、5は音声合成部4によって合成された音声を出力する音声出力装置、6は利用者の音声を入力しメモリ10に転送するための音声入力装置、7は音声入力装置6から入力された音声データをメモリ10より読み出しパラメータの分析を行う音声パラメータ分析部、8は合成パラメータ算出手段2により算出された合成パラメータと音声パラメータ分析手段7により計算された音声パラメータをメモリ10より読み出し、パラメータの差分値を計算しパラメータ差分値蓄積装置9もしくはメモリ10に転送するパラメータ比較部、9はパラメータ比較部8により計算された差分値を格納するパラメータ差分値蓄積装置である。図2は、合成パラメータ算出部における手順を示すフローである。また、メモリ10のデータ構造を図7に示す。
【0012】
まず、利用者が文字列入力装置1を用いて文字を入力する。文字列入力装置1は、キーボードだけではなく、文字列が入力できる装置であれば、持ち運び可能な記録媒体読み込み装置、通信線を介した文字列伝送手段、音声認識装置等であっても良い。ここでは、例として「今日の話題」という文字列を入力したとする。該文字列はメモリ10の1000に格納される。次に合成パラメータ算出部では、メモリ10の1000より文字列を読み出し、該文字列を音素に分割する(ステップS101)。文字列から音素に分割する方法は、例えば、宮崎らの方法(「日本文音声出力のための言語処理方式」情報処理学会論文誌、Vol.27、No.11、pp.1053−1061、1986)を利用する。勿論、該計算方法は一例であり、他の音素を分割する方法を用いてもよい。このようにして、「今日の話題」という文字列は、「ky/o/o/n/o/w/a/d/a/i」という音素に分割され、該音素分割データはメモリ10の1001に格納される。ここで、「ky」「w」「a」等は音素を示す記号である。勿論、該音素記号データは一例であり、他の音素記号表現を用いてもよい。また、求める単位は音素単位に限らず、音素を2分割した単位や音節でも良い。次に音素に分割された音素分割データをメモリ10の1001より読み出し、音素毎の継続時間長の計算(ステップS102)を行って、継続時間長データをメモリ10の1002へ転送する。音素毎の継続時間長の計算方法は、例えば、匂坂らの方法(「規則による音声合成のための音韻時間長制御」電子通信学会論文誌、Vol.J67−A、No.7、pp.629−636、1984)を利用する。勿論、該計算方法は一例であり、他の音素継続時間長の計算方法を用いてもよい。このような方法で、先の音素分割データ「ky/o/o/n/o/w/a/d/a/i」から、例えば、ミリ秒単位の継続時間長データ「50/150/120/40/150/20/200/40/180/170」が計算結果として求められ、メモリ10の1002に格納される。勿論、該継続時間長は一例であり、秒単位等の継続時間長データを用いてもよい。次に、メモリ10の1000と1001から、文字列と音素分割データを読み出し、音の高さを指定するアクセントの付与(ステップS103)を行い、アクセントデータをメモリ10の1003へ転送する。文字列へのアクセント付与の方法は、例えば、匂坂らの方法(「日本語単語連鎖のアクセント規則」電子通信学会論文誌、Vol.J66−D、No.7、pp.849−856、1983)を利用する。勿論、該計算方法は一例であり、他のアクセント付与方法を用いてもよい。このようにして、文字列「今日の話題」はアクセントデータ「kyo’ono,wadai.」に変換され、メモリ10の1003に格納される。ここで、「’」が付されている音節はアクセント核のある音節、「,」は句の区切れ、「.」は文の終端を表す記号である。勿論、該記号は一例であり、他の記号を用いてもよい。次に、メモリ10の1001と1002より、音素分割データとアクセントデータを読み出し、基本周波数の計算(ステップS104)を行い、基本周波数データをメモリ10の1004に転送する。基本周波数の計算方法は、例えば、藤崎らの方法(「日本語単語アクセントの基本周波数パタンとその生成機構」日本音響学会誌27、pp.445−453、1971)を利用する。勿論、該計算方法は一例であり、他の基本周波数の計算方法を用いてもよい。このようにして、文字列「今日の話題」は、(F0,F1,...,Fi,...,Fp)という基本周波数データに変換され、メモリ10の1004に格納される。ここで、Fiは基本周波数を表す数値であり、例えば、10ミリ秒単位で求められた値である。また、pは基本周波数を表す値の数である。勿論、基本周波数を表す該方法は一例であり、基本周波数の値を求めることができる方法であるならば、一定の時間間隔ではない時間単位で基本周波数を求める方法、基本周波数を求めるモデルのパラメータの組で表す方法等でも良い。次に、音素継続時間長データをメモリ10の1002より読み出し、パワー計算(ステップS105)を行い、パワーデータをメモリ10の1005に転送する。パワー計算の方法は、例えば、三村らの方法(「統計的手法を用いた音声パワーの分析と制御」日本音響学会誌、49巻、pp.253−259、1993)を利用する。勿論、該計算方法は一例であり、他のパワー計算方法を利用してもよい。このようにして、文字列「今日の話題」は、(P0,P1,...,Pi,...,Pq)というパワーデータに変換され、メモリ10の1005に格納される。ここで、Piはパワーを表す値でありdB値で格納される。qはパワーデータの個数である。勿論、パワー値を表す該方法は一例であり、他のパワー値表現方法を利用してもよい。次に、音素分割データをメモリ10の1001より読み出し、ケプストラムを計算(ステップS106)し、ケプストラムデータをメモリ10の1006に転送する。ケプストラムデータを求める方法は、例えば、音素毎の代表波形をケプストラム分析した結果を用いる方法を利用する。勿論、該計算方法は一例であり、他のケプストラム分析の方法を利用してもよい。このようにして、文字列「今日の話題」は、(C0,C1,...,Ci,...Cr)というケプストラムデータに変換され、メモリ10の1006に格納される。ここで、rはケプストラムデータの数、Ciはケプストラム係数を表すベクトルデータで、(c1,...,ci,...,cs)で表される。sはケプストラム係数の次数を示す。勿論、ケプストラムデータを表す該方法は一例であり、他の表現方法を用いてもよい。
【0013】
このようにして、音声の特徴を表すパラメータである、音素継続時間長データ、基本周波数データ、パワーデータ、ケプストラムデータがメモリ10の1002、1004、1005、1006にそれぞれ格納される。なお、本実施例では、音声の特徴を表すパラメータとして、音素継続時間長データ、基本周波数データ、パワーデータ、ケプストラムデータを用いたが、音声の特徴を表すパラメータであれば、フォルマント周波数、線形予測分析の結果得られる線形予測係数、メル尺度に変換したメルケプストラム等のパラメータであっても良い。
【0014】
続いて、利用者は、音声入力装置6を用いて、「今日の話題」と発声し音声を装置内に取り込む。例えば、音声はサンプリング周波数16キロヘルツ、量子化ビット数16ビット、モノラル音声で取り込む。次に音声入力装置6は、音声データをメモリ10の1007に転送する。次に、音声パラメータ分析手段7は、メモリ10の1007より音声データを読み出し、基本周波数の分析を行い、基本周波数データ(F’0,F’1,...,F’i,...,F’k)をメモリ10の1009に転送する。ここで、F’iは基本周波数の値であり、kは基本周波数データの値の数である。基本周波数の分析の方法は、例えば、LPC分析の残差信号の自己相関関数より基本周波数を求める方法を利用する。勿論、該計算方法は一例であり、他の基本周波数分析方法を利用してもよい。ここでは、基本周波数の分析間隔は、文字列「今日の話題」から基本周波数データを求めた時の基本単位と等しくする。例えば、10ミリ秒単位で基本周波数データを分析する。勿論、該分析方法は一例であり、後に説明する基本周波数の差分値を計算できる方法であるならば、他の基本周波数分析の方法及び基本周波数のデータ構造を利用してもよい。このようにして、音声「今日の話題」の基本周波数データがメモリ10の1009に格納される。次に、メモリ10の1007より音声データを読み出し、音素継続時間長の分析を行い、音素継続時間長データをメモリ10の1008に転送する。音素継続時間長の分析は、例えば、中川らの方法(「HMM法とベイズ確率を用いた連続音声のセグメンテーション」電子情報通信学会論文誌、Vol.J72−D−II、pp.1−10、1989)を利用する。勿論、該計算方法は一例であり、他の音素継続時間長の分析方法を利用してもよい。このようにして、音声「今日の話題」の音素継続時間長データ「80/140/150/30/150/50/180/50/180/180」がメモリ10の1008に格納される。ここでは、文字列「今日の話題」から計算した音素継続時間長と同じく時間長データの単位はミリ秒としたが、勿論、該単位は一例であり、後に説明する音素継続時間長データの差分値を計算できる方法であるならば、他の音素継続時間長計算方法及びデータ表現方法を用いてもよい。次に、メモリ10の1007より音声データを読み出し、パワーの分析を行い、パワー値をメモリ10の1010に転送する。パワーの分析は、例えば、ケプストラム分析の結果得られたケプストラムパラメータの0次項を利用する。勿論、該計算方法は一例であり、他のパワーデータ計算方法を用いてもよい。このようにして、音声「今日の話題」のパワーデータ(P’0,P’1,...,P’i,...,P’j)がメモリ10の1010に格納される。ここで、P’iはパワーデータであり、jはパワーデータの個数である。勿論、該表現方法は一例であり、後に説明するパワーデータの差分値が計算できる方法であれば、他のパワーデータ表現方法を利用してもよい。次に、メモリ10の1007より音声データを読み出し、ケプストラム分析を行い、ケプストラムパラメータデータをメモリ10の1011に転送する。ケプストラム分析の単位時間は、例えば、メモリ10の1006に格納されているケプストラムパラメータと等しくする。このようにして、音声「今日の話題」のケプストラムデータ(C’0,C’1,...,C’i,...C’m)に変換され、メモリ10の1006に格納される。ここで、mはケプストラムデータの数、C’iはケプストラム係数を表すベクトルデータで、(c’1,...,c’i,...,c’n)で表される。nはケプストラム係数の次数を示す。勿論、ケプストラムデータを表す該方法は一例であり、後に説明するケプストラムの差分値を求めることが出来るならば、他の表現方法を用いてもよい。
【0015】
以上の手順で、音素継続時間長、基本周波数、パワー、ケプストラムのデータがメモリ10の1008、1009、1010、1011に格納される。
【0016】
続いて、パラメータ比較手段8では、合成パラメータ算出手段2で算出された合成パラメータと音声パラメータ分析手段7で分析された分析パラメータをメモリ10の1002、1004、1005、1006及び1008、1009、1010、1011より読み出し、対応するパラメータの比較を行う。ここで、対応するパラメータとは、合成パラメータにおける基本周波数と分析パラメータにおける基本周波数、合成パラメータにおける音素継続時間長と分析パラメータにおける音素継続時間長、合成パラメータにおけるパワーデータと分析パラメータにおけるパワーデータ、合成パラメータにおけるケプストラムデータと分析パラメータにおけるケプストラムデータである。
【0017】
まず、図4を用いて、図1のパラメータ比較手段8における音素継続時間に関するパラメータ差分値を算出する実施方法を説明する。図4は、「今日の話題(キョウオノワダイ)」という文字列に対して実施した具体例である。401は図2の音素継続時間長計算手順103の結果求められる合成パラメータである。合成パラメータ401はシステム固有のパラメータ値であり、401の形式で格納されている。合成パラメータ401は、音素記号402と継続長403の組合せで定義されており、音素記号毎に異なる値を持っている。継続長403の単位はミリ秒である。例えば、404に示すように「オ(o)」という音素は150ミリ秒という継続長が決まっている。このようにして、「今日の話題」という文字列に対する合成パラメータ401を求める。405は、「今日の話題」という文字列の内容を利用者が発声した音声を分析した結果を示す分析パラメータ表である。音素記号406及び継続長407は、合成パラメータ401と同じである。404の「オ」に対応する分析パラメータにおける「オ」408は、合成パラメータ401とは異なる値を示している。これは、利用者の発声とシステムで想定した合成パラメータとが異なっていることを意味しており、利用者の個人性と解釈することも可能である。421は前記手順で求められた分析パラメータであり、422は合成パラメータである。423は分析パラメータ421と合成パラメータ422の差分値424を計算する差分器である。該実施例では、差分器423では、音素記号402と音素記号406の対応する項目の継続長の差分が計算され、409で示すパラメータ差分値表として格納される。例えば一つ目の「o」に対しては、408の値より404の値を減じる。結果として、差分値「30」が差分継続長として412に格納される。上記の方法を用いてパラメータ差分値409を求める。このようにして、「30/−10/30/−10/0/30/−20/10/0/10」がメモリ10の1012に格納される。
【0018】
以下、同様にして、基本周波数、パワー、ケプストラムパラメータに関する差分値を計算する。
【0019】
このようにして、音素継続時間長、基本周波数、パワー、ケプストラムの差分値がメモリ10の1012、1013、1014、1015に格納された。ここで、メモリ10に格納された差分値を、パラメータ差分値蓄積装置9である記憶媒体に格納して保存することや、後述の実施例で示す方法で該差分値を利用することもできる。
【0020】
ここで、図3を用いて、差分値データより合成パラメータを求める原理を説明する。301は図1の音声入力装置6により入力された利用者の音声データ、302は音声データ301を分析し音声の特徴を表す分析パラメータを出力する音声パラメータ分析部、303は図1の文字列入力装置1により入力された文字列データ、304は文字列データ303より合成パラメータを算出する合成パラメータ算出部、305は前記分析パラメータと合成パラメータと比較しパラメータ差分値306を計算するパラメータ比較部、307は文字列データ303より算出された合成パラメータとパラメータ差分値306から合成パラメータを計算するパラメータ加算部、308はパラメータ加算手段307により出力された合成パラメータから音声を合成する音声合成部である。ここでは、パラメータ比較部305とパラメータ加算部307は同一の合成パラメータを用いているが、異なるパラメータを用いてもよい。上記の原理を用いて、利用者の音声301の音声の特徴を持った音声309を合成することが可能である。
【0021】
上記原理を用いて、パラメータ差分値より合成パラメータを計算する。本実施例では、これから説明する方法で合成パラメータを計算する。仮に、合成パラメータpと合成パラメータqからパラメータ差分値dを求める演算をfdとすると、d=fd(p,q)が成り立つ。ここで、差分値dから合成パラメータpを求めるパラメータ加算方法fsが、以下の関係を満たすような演算fsをパラメータ加算方法を利用する。すなわち、p=fs(fd(p,q))を満たすfsを採用する。例えば、前記例ではパラメータ比較方法にパラメータの差を用いたので、パラメータ加算方法にはパラメータの和を用いることにより、該関係を満たすことができる。勿論、該関係は一例であり、差分値より話者の音声の特徴を表すパラメータを算出することができるパラメータ加算方法を利用してもよい。 このようにして算出された合成パラメータは、メモリ10の1002、1004、1005、1006へ転送される。続いて、音声合成部4は、メモリ10の1002、1004、1005、1006から合成パラメータを読み出し、合成フィルタを駆動することにより音声合成を行い、音声データを生成する。音声合成の方法は、例えば、文献「古井:”ディジタル音声処理”、p.22、東海大学出版会、1985」に示されている方法を利用する。勿論、該音声合成方法は一例であり、他の音声合成方法を利用してもよい。このようにして、生成された音声データはメモリ10の1016に格納される。次に、音声出力装置5を通じて、メモリ10の1016に格納されている音声データを出力する。以上の手続きを以って、目的の音声を合成する。
【0022】
さて、上記の実施例は、利用者が「今日の話題」という文字列を入力し、「今日の話題」という音声を入力した場合の差分値を計算する例であったが、例えば、複数の文字列に対して発声した音声に関して分析を行った結果得られた複数の差分値に関して、差分値の平均を計算した平均差分値もしくは、差分値に関する平均値と分散値といった値も、差分値として利用しても良い。また、差分値は、基準パラメータとの異なりを示す値であれば、基準パラメータとの比等を利用しても一向に構わない。
【0023】
また、上記音声合成装置は、差分値及び合成音声を出力できればよく、例えば、文字列入力装置及び音声入力装置を備える計算機装置に蓄えられ、該計算機装置のCPUが読み出されて実行されるプログラムでも良い。
【0024】
次に、図5を用いて、本発明の他の実施形態を説明する。50はメールを送信する側のシステム、60はメールを受信する側のシステム、56はメール送信側システムの通信装置、66はメール受信側システムの通信装置、58は通信装置56と通信装置66が通信可能な通信路である。メールの送信者が、メール送信側システム50を利用して、例えば、「今日の会議は、延期になりました。」という内容のメールをメールの受信者に送信する場合、メールの送信者は、まず、CPU55に対してメール送信プログラムをメモリ54より読み出して実行するように指示した後、文字入力装置51より、「今日の会議は、延期になりました。」という文字列を入力する。ここで、メール送信プログラムは、実行される前に、固定ディスク等の記録媒体から転送されてメモリ54に格納されているものとする。勿論、実行される前にメモリ54に格納されていれば、他のプログラム格納方法を利用してもよい。入力された文字列は、メモリ54に転送された後、表示装置53に表示される。続いて、利用者は音声入力装置52を用いて、「今日の会議は、延期になりました。」という音声を入力する。入力された音声は、メモリ54に転送される。続いて、メール送信プログラムは、上述の機能を持つ音声合成プログラムをメモリ54より読み出し、実行を開始する。ここで、音声合成プログラムは、実行される前に、固定ディスク等の記録媒体から転送されてメモリ54に格納されているものとする。勿論、実行される前にメモリ54に格納されていれば、他のプログラム格納方法を利用してもよい。次に、音声合成プログラムは、入力された文字列をメモリ54より読み出し、音声合成のためのシステムの基準合成パラメータの生成して、メモリ54に転送する。次に、CPU55は入力された音声をメモリ54より読み出し、音声の特徴を表す分析パラメータを生成して、メモリ54に転送する。次に、音声合成プログラムは、メモリ54に格納されている基準合成パラメータと分析パラメータの比較を行い、パラメータの差分値を算出し、メモリ54に転送する。次に、メール送信プログラムは、メモリ54より、「今日の会議は、延期になりました。」という文字列と、音声合成プログラムにより算出された差分値を読み出して、例えば、該メールには差分値が含まれている旨のデータを結合し、1つのメールデータとした後に、メモリ54に転送する。図6にメールデータの一例を示す。507はメールデータ、501はメールデータの宛て先を示す情報、502はメールを送信する利用者の情報、503はメールのタイトル、504はメールの本文の内容であり、本実施例では、文字列「今日の会議は、延期になりました。」、505はメールに差分値が添付されている旨を示す差分値情報有無フラグ、506はメール送信者の音声から算出した差分値である。メール送信プログラムは、該メールデータをメモリ54より読み出し、通信装置56を用いて、通信装置66にデータを送信する。上記の結果、「今日の会議は、延期になりました。」という文字列と送信者の音声の特徴を担った差分値及び、差分値データが付加されている旨を示す付加データから構成されるメールデータが、メール受信側システムに送信された。
【0025】
一方、メール受信者は、CPU65に対して、メール受信プログラムをメモリ64より読み出し、実行するように指示を与える。ここで、メール受信プログラムは、実行される前に、固定ディスク等の記録媒体から転送されてメモリ54に格納されているものとする。勿論、実行される前にメモリ54に格納されていれば、他のプログラム格納方法を利用してもよい。メール受信プログラムは、通信装置66に蓄積されているメールデータの存在を検査し、メールが到着している場合には、メールデータをメモリ64に読み込む。メール受信プログラムは、メモリ64よりメールデータを読み出し、差分値データが付加されている旨を示す付加データ、図6では差分値情報有無フラグ505を参照し、差分値が付加されているかどうかを検査し、付加されている場合には、文字列と差分値を分割するプログラムを実行し、文字列と差分値をメモリ64に転送し、受信した文字列を表示装置63に表示する。メール受信プログラムは、メールに差分値データが付加されている場合には、その差分値に基づき音声を合成する機能を持つ音声合成プログラムをメモリ64より読み出し実行する。ここで、音声合成プログラムは、実行される前に、固定ディスク等の記録媒体から転送されてメモリ54に格納されているものとする。勿論、実行される前にメモリ54に格納されていれば、他のプログラム格納方法を利用してもよい。例えば、装置中に備え付けの半導体メモリ、外付けの光ディスク、DVD、磁気ディスク、更にネットワークコンピューティングのように、通信手段により接続されている他のシステムから読み出してもよい。通信手段も有線である必要はなく、無線、光、赤外線等の通信手段でも良い。こうして目盛り54に読み出された音声合成プログラムは、文字列と差分値をメモリ64より読み出し、文字列「今日の会議は、延期になりました。」から、音声合成のためのシステムの基準合成パラメータを算出し、基準パラメータと該差分値を加算することにより合成パラメータを算出し、メモリ64に転送する。次に、音声合成プログラムは、該合成パラメータをメモリ64より読み出して音声合成を行った後、音声データをメモリ64に転送する。次に、メール受信プログラムは、音声データをメモリ64より読み出し、音声出力装置62より音声を出力する。
【0026】
尚、上記の実施例は、メール送受信プログラムと音声合成プログラムは、それぞれ別個のプログラムとして説明したが、メール送受信プログラムの一部である音声合成プログラムとして構成してもよい。
【0027】
ここでは、メール送信者により入力された文字列と該文字列に対応する音声の差分値を算出したが、メール送信者が既に該メールシステムを利用したことがある場合、音声入力を行わず、計算済みの差分値をメモリより検索し、文字列に付加する方法を採っても良い。また、受信側システムでは、メールに差分値が付加されていない場合があるとしても、メールの送信者情報から、メモリに格納されている差分値情報を検索し、送信者の差分値情報とする方法を採ることにより、送信者の音声の特徴を持った音声を合成することが可能である。
【0028】
【発明の効果】
以上のように、本発明装置を利用すれば、音声で合成すべき内容を、特定の個人の特徴パラメータに適応することが可能となるので、特定の個人の音声で出力することが望ましいシステム、特に、電子メールの読み上げシステム等に優れた効果を発揮する。
【図面の簡単な説明】
【図1】本発明の構成を示すブロック図である。
【図2】本発明における合成パラメータ算出部の処理手順の実施例を示す図である。
【図3】本発明の原理を示す図である。
【図4】本発明におけるパラメータ比較手段の具体例を示す音素継続長のパラメータ差分値を説明する図である。
【図5】本発明の構成を示すブロック図である。
【図6】本発明におけるメールデータの例である。
【図7】本発明におけるメモリのデータ構造を示す図である。
【符号の説明】
1…文字列入力装置、2…合成パラメータ算出部、3…パラメータ加算部、4…音声合成部、5…音声出力装置、6…音声入力装置、7…音声パラメータ分析部、8…パラメータ比較部、9…パラメータ差分値蓄積装置、10…メモリ、50…送信側システム、51…文字入力装置、52…音声入力装置、53…表示装置、54…メモリ、55…CPU、56…通信装置、58…通信路、60…受信側システム、61…文字入力装置、62…音声出力装置、63…表示装置、64…メモリ、65…CPU、66…通信装置、301…利用者の音声、302…音声パラメータ分析部、303…文字列、304…合成パラメータ算出部、305…パラメータ比較部、306…パラメータ差分値、307…パラメータ加算部、308…音声合成部、309…利用者の音声の特徴を持った音声、401…合成パラメータ表、402…音素記号、403…継続長、404…「o」に対する継続長、405…分析パラメータ表、406…音素記号、407…分析継続長、408…「o」に対する継続長、409…パラメータ差分値表、410…音素記号、411…差分継続長、412…「o」に対する継続長、421…分析パラメータ、422…合成パラメータ、423…差分器、424…パラメータ差分値、501…宛て先、502…送信者情報、503…タイトル、504…メール本文、505…差分値情報有無フラグ、506…差分値、507…メールデータ。
Claims (1)
- 送信装置と受信装置からなる通信システムであって、上記送信装置および受信装置は共通の音声合成プログラムを実行するものであり、
上記送信装置は、
文字列を入力する文字列入力部と、上記音声合成プログラムにより該文字列から当該文字列の音声の特徴を表す基準合成パラメータを算出する合成パラメータ算出部と、上記文字列を読み上げる音声を入力する音声入力装置と、上記音声合成プログラムにより該入力音声を分析し音声の特徴を表すパラメータを算出する音声パラメータ分析部と、前記合成パラメータ算出部及び前記音声パラメータ分析部により出力されたパラメータを比較し差分値を出力するパラメータ比較部とを備え、上記文字列に上記差分値を付加して送信することを特徴とし、
上記受信装置は、
上記音声合成プログラムにより上記送信された文字列から当該文字列の音声の特徴を表す基準合成パラメータを算出する合成パラメータ算出部と、上記送信された差分値と上記合成パラメータ算出部により生成された基準合成パラメータを加算するパラメータ加算部と、上記音声合成プログラムにより上記パラメータ加算部により出力されたパラメータから音声を合成する音声合成部を有することを特徴とする通信システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20577397A JP3914612B2 (ja) | 1997-07-31 | 1997-07-31 | 通信システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20577397A JP3914612B2 (ja) | 1997-07-31 | 1997-07-31 | 通信システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1152987A JPH1152987A (ja) | 1999-02-26 |
JP3914612B2 true JP3914612B2 (ja) | 2007-05-16 |
Family
ID=16512439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP20577397A Expired - Fee Related JP3914612B2 (ja) | 1997-07-31 | 1997-07-31 | 通信システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3914612B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3624733B2 (ja) | 1999-01-22 | 2005-03-02 | 株式会社日立製作所 | 手話メール装置及び手話情報処理装置 |
JP2001306461A (ja) * | 2000-04-17 | 2001-11-02 | Kenichi Omae | 音声文書の送信装置、送信方法、受信装置、受信方法、送信送致受信装置の製造方法、中継装置、中継方法及び記録媒体 |
JP2003189000A (ja) * | 2001-12-14 | 2003-07-04 | Matsushita Electric Works Ltd | 通話システム |
JP2006030609A (ja) * | 2004-07-16 | 2006-02-02 | Yamaha Corp | 音声合成データ生成装置、音声合成装置、音声合成データ生成プログラム及び音声合成プログラム |
JP4539537B2 (ja) * | 2005-11-17 | 2010-09-08 | 沖電気工業株式会社 | 音声合成装置,音声合成方法,およびコンピュータプログラム |
EP2357646B1 (en) | 2009-05-28 | 2013-08-07 | International Business Machines Corporation | Apparatus, method and program for generating a synthesised voice based on a speaker-adaptive technique. |
CN111587455B (zh) * | 2018-01-11 | 2024-02-06 | 新智株式会社 | 利用机器学习的文本语音合成方法、装置及计算机可读存储介质 |
-
1997
- 1997-07-31 JP JP20577397A patent/JP3914612B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH1152987A (ja) | 1999-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lu et al. | Xiaoicesing: A high-quality and integrated singing voice synthesis system | |
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
EP1168299B1 (en) | Method and system for preselection of suitable units for concatenative speech | |
US7739113B2 (en) | Voice synthesizer, voice synthesizing method, and computer program | |
Syrdal et al. | Applied speech technology | |
EP2704092A2 (en) | System for creating musical content using a client terminal | |
JP2000504849A (ja) | 音響学および電磁波を用いた音声の符号化、再構成および認識 | |
CN114203147A (zh) | 用于文本到语音的跨说话者样式传递以及用于训练数据生成的系统和方法 | |
JPH09500223A (ja) | 多言語音声認識システム | |
JPH10507536A (ja) | 言語認識 | |
WO2007063827A1 (ja) | 声質変換システム | |
US6502073B1 (en) | Low data transmission rate and intelligible speech communication | |
JP3914612B2 (ja) | 通信システム | |
JP2018084604A (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP2001034280A (ja) | 電子メール受信装置および電子メールシステム | |
KR20220154655A (ko) | 가족 관계에 기초하여 음성 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램 | |
Westall et al. | Speech technology for telecommunications | |
JP2020003762A (ja) | 簡易操作声質変換システム | |
KR102277205B1 (ko) | 오디오 변환 장치 및 방법 | |
KR102473685B1 (ko) | 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치 및 음성 합성 방법 | |
JP7339151B2 (ja) | 音声合成装置、音声合成プログラム及び音声合成方法 | |
JP2007240654A (ja) | 体内伝導通常音声変換学習装置、体内伝導通常音声変換装置、携帯電話機、体内伝導通常音声変換学習方法、体内伝導通常音声変換方法 | |
EP1298647B1 (en) | A communication device and a method for transmitting and receiving of natural speech, comprising a speech recognition module coupled to an encoder | |
Atal et al. | Speech research directions | |
JP2003029774A (ja) | 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040615 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040708 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20040713 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20040820 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20060427 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070205 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100209 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110209 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110209 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120209 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120209 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130209 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130209 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |