JP2000310995A - 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機 - Google Patents

音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機

Info

Publication number
JP2000310995A
JP2000310995A JP11120442A JP12044299A JP2000310995A JP 2000310995 A JP2000310995 A JP 2000310995A JP 11120442 A JP11120442 A JP 11120442A JP 12044299 A JP12044299 A JP 12044299A JP 2000310995 A JP2000310995 A JP 2000310995A
Authority
JP
Japan
Prior art keywords
information
speech
unit
represented
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11120442A
Other languages
English (en)
Other versions
JP3685648B2 (ja
Inventor
Makoto Hashimoto
誠 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP12044299A priority Critical patent/JP3685648B2/ja
Publication of JP2000310995A publication Critical patent/JP2000310995A/ja
Application granted granted Critical
Publication of JP3685648B2 publication Critical patent/JP3685648B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 予め蓄積されている音声素片より所望の音声
素片を取り出し、取り出した音声素片を韻律情報に基づ
いて接続することによって合成音声を生成する音声合成
方法において、自然な合成音声を発生させることを目的
とする。 【解決手段】 文字情報解析部1が文字情報入力部6か
ら入力された文字情報を解析して音素情報及び音程情報
を出力し、韻律生成部2が文字情報解析部1からの音素
情報及び音程情報に基づいて基本周波数パターン情報及
び音素継続時間長情報を生成する。音声素片取り出し部
4が韻律生成部2で生成された基本周波数パターン情報
及び音素継続時間長情報に基づいて合成させるべき音素
列に合致するように音声データベース3から音声素片を
取り出し、音声素片接続部5が音声素片取り出し部4で
取り出された音声素片を接続して所望の合成音声データ
を出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声素片を接続す
ることによって入力されたテキストに対する音声を生成
する音声合成方法において、音程情報の単純化によって
処理量を低減しながら、かつ適切な音程情報に従ってテ
キスト情報を正確に読み上げることができる韻律生成方
法に関するものである。
【0002】
【従来の技術】従来、合成音声の基本周波数パターン生
成モデルとして、電子情報通信学会論文誌Vol.J72-A,N
o.1,pp32-40(1989年1月)「基本周波数パターン
生成過程モデルに基づく文章音声の合成」にも開示され
ているように、句頭から句末に向かう緩やかな下降のフ
レーズ成分と局所的な起伏のアクセント成分との和で表
現する生成モデルが代表的なものとして知られており、
これは下記のような関数で生成される。
【0003】
【数4】
【0004】ここで、Api,Aajは、フレーズ成分、アク
セント成分の指令の大きさであり、T0iはフレーズ成分
の指令の時点、T1j,T2jはアクセント指令の始点と終点
である。また、基本周波数パターン生成過程モデルを用
いて基本周波数パターンを合成するためには、前記式
(A)〜(C)のパラメータを与える必要があるが、自
然音声の分析結果から、αi=3.0(rad/sec), βj=20.0
(rad/sec),θ=0.9で固定し得ることが判明している。
【0005】
【発明が解決しようとする課題】然し乍ら、テキストか
ら合成音声を生成するテキスト音声変換において上記の
基本周波数パターン生成モデルを用いる場合、フレーズ
指令やアクセント指令の時点や大きさを、形態素解析な
どの言語処理によって推定する必要があった。
【0006】従って、単語などの短いテキストのみを読
ませるといった、言語処理や基本周波数パターン生成処
理を簡素化しても合成音声の自然性劣化を抑えることが
できるようなテキスト音声変換処理においても、複雑な
処理を行う必要があるという問題があった。
【0007】
【課題を解決するための手段】本発明の音声合成方法
は、予め蓄積されている音声素片より所望の音声素片を
取り出し、取り出した音声素片を韻律情報に基づいて接
続することによって合成音声を生成する音声合成方法に
おいて、前記韻律情報としての基本周波数パターン情報
を、位置情報と音程情報に基づいて求める。
【0008】また、本発明の音声合成装置は、音声素片
が蓄積された音声素片蓄積手段と、文字情報を解析して
各文字に対応した音素情報を求める音素情報生成手段
と、文字情報を解析して各文字に対応する音程情報を求
める音程情報生成手段と、前記音素情報生成手段で求め
た音素情報及び前記音程情報生成手段で求めた音程情報
とに基づいて韻律情報を求める韻律情報生成手段と、前
記音素情報生成手段で求めた音素情報に基づいて前記音
声素片蓄積手段より所望の音声素片を取り出す音声素片
取り出し手段と、前記音声素片取り出し手段で取り出さ
れた音声素片を前記韻律情報に基づいて接続して合成音
声情報を生成する音声素片接続手段とを備える。
【0009】さらに、本発明の音声合成装置を備えた電
話機は、電話番号情報と該電話番号情報と関連付けられ
た文字情報とが記憶された記憶手段と、音声信号及び電
話番号情報を受信する受信手段と、該受信手段で受信し
た電話番号情報を抽出する電話番号情報抽出手段と、前
記記憶手段の中から前記電話番号情報抽出手段で抽出し
た電話番号情報を検索して前記電話番号情報と関連付け
られた文字情報を検索して出力する検索手段と、該検索
手段が出力する文字情報を解析して各文字に対応した音
素情報を求める音素情報生成手段と、前記検索手段が出
力する文字情報を解析して各文字に対応する音程情報を
求める音程情報生成手段と、前記音素情報生成手段で求
めた音素情報及び前記音程情報生成手段で求めた音程情
報とに基づいて韻律情報を求める韻律情報生成手段と、
前記恩師情報生成手段で求めた音素情報に基づいて前記
音声素片蓄積手段より所望の音声素片を取り出す音声素
片取り出し手段と、前記音声素片取り出し手段で取り出
された音声素片を前記韻律情報に基づいて接続して合成
音声情報を生成する音声素片接続手段と、該音声素片接
続手段からの合成音声情報を音声として放音する放音手
段とを備えたことを特徴とする音声合成装置を備える。
【0010】
【発明の実施の形態】以下、図面を参照しつつ本発明の
一実施形態について詳述する。
【0011】先ず、図1は本発明の音声合成方法を適用
した音声合成装置の構成を示す概略ブロック図である。
同図において、6は文字情報を入力する文字情報入力
部、1は文字情報入力部6から入力された文字情報を解
析して音素情報及び音程情報を出力する文字情報解析
部、2は文字情報解析部1からの音素情報及び音程情報
に基づいて基本周波数パターン情報及び音素継続時間長
情報を生成する韻律生成部、3は音声素片情報が蓄積さ
れた音声データベース、4は韻律生成部2で生成された
基本周波数パターン情報及び音素継続時間長情報に基づ
いて合成させるべき音素列に合致するように音声データ
ベース3から音声素片を取り出す音声素片取り出し部、
5は音声素片取り出し部4で取り出された音声素片を接
続して所望の合成音声データを出力する音声素片接続部
である。
【0012】続いて、前記図1に示す音声合成装置の動
作について詳述する。
【0013】先ず、文字情報入力部6より入力された文
字情報は、文字情報解析部1により解析され、韻律生成
の区切りが検出されると共に、音素情報決定部1aで、
入力された文字に対応する音素記号が求められる。具体
的には、例えば入力された文字情報が”ひらかた”であ
れば、/hirakata/という音素情報を求める。
【0014】次に、音程情報決定部1bでは、入力され
た文字列の音程情報が決定される。前記と同様に、入力
された文字情報が”ひらかた”であれば、各文字に対応
して[低高高高]という音程情報が決定される。
【0015】本発明では、音程情報は発声すべき文字情
報と共に予め与えられている。例えば図4(b)に示す
ように、文字列中にアクセント記号(図の例では#や*
が相当する)を付与しておき、該アクセント記号によっ
て音程情報が判定できるようにしているが、詳細は後述
する。
【0016】然し乍ら、上記のようなアクセント記号を
つけずに、文字列とアクセント情報とが蓄積された単語
辞書を参照する方法もある。即ち、入力された文字情報
が”ひらかた”であれば、単語辞書より”ひらかた”を
検索し、アクセント情報を取得する。
【0017】このようにして前記音素情報決定部1aで
決定された音素情報、及び音程情報決定部1bで決定さ
れた音程情報は、後段の韻律生成部2に送られる。
【0018】次に韻律生成部2は、前記文字情報解析部
1で決定された音素情報と音程情報に基づいて、以下に
示す生成式によって、基本周波数情報[F0(M)]を生成す
ると共に、音素継続時間長情報を決定する。
【0019】尚、音素継続時間長情報については、音素
や音声素片などの単位毎の時間長をテーブル化しておく
ことで計算量を減らすことができる。
【0020】
【数5】
【0021】本実施例では、上記の式(1)〜(4)に
おいて、Fh=310Hz、Fl=250Hz、w=0.375、Fmin=150Hzと
している。
【0022】尚、前記セグメントの単位は、「呼気段
落」,「アクセント句」,「フレーズ」,「ポーズ」,
「基本周波数生成の区切り」のいずれかで区切られた区
間とすることができる。
【0023】補足すると、 [呼気段落]音声を発声する過程で、呼気の切れ目によ
って生じるひとまとまりの音声区間をいう。 [アクセント句]ほぼ文節程度の長さで1つのアクセン
ト型を担う単位である。 [フレーズ]自然な区切りで区切られる旋律のあるまと
まりをいう。 [ポーズ]音声発声中に生じる間。音のない短い区間で
ある。 [基本周波数生成の区切り]上記以外の区切りで区切ら
れるひとまとまりの音声区間をいう。
【0024】また、位置情報Mは、着目しているデータ
の時間的な位置(何番目の音素であるか、何番目のモー
ラであるか、何フレーム目であるか、など)を表す情報
であり、モーラ位置,音節位置,音素位置,音声素片位
置,フレーム位置などが利用できる。
【0025】補足すると、 [モーラ]日本語のかな1字(拗音なら2字)に相当す
る単位である。 [モーラ位置]文字列中の何番目のモーラであるかを表
す情報である。(例:文字列「ひらかた」の「ら」のモ
ーラ位置は2[=2モーラ目]である。) [音節]前述のモーラとほぼ同じ単位であるが、長音
「−」、撥音「ん」、促音「っ」は1モーラとして扱う
のに対して、1音節としては扱わない。(例:「うんど
ーかい」のモーラ数は6であるが、音節数は4とな
る。) [音節位置]文字列中の何番目の音節であるかを表す情
報である。(例:「うんどーかい」の「どー」の音節位
置は2) [音素]言葉の意味の区別を表すのに用いられる音の単
位である。(例:「ひらかた」を音素表記すると /hira
kata/となる。) [音素位置]文字列中の何番目の音素であるかを表す情
報である。(例:/hirakata/の /r/の音素位置は3であ
る。) [音声素片]音声合成用データベースに蓄えておく音声
データの最小単位のデータをいう。(例:/hirakata/を
合成するときは、/hir/, /rak/, /kat/, /ta/ のような
素片を接続する。素片の種類は、CVC[子音+母音+
子音]、CV[子音+母音]、VC[母音+子音]、V
V[母音+母音]など様々である。) [音声素片位置]文字列中の音声素片単位で数えて何番
目であるかを表す情報である。
【0026】[フレーム]音声を分析してスペクトルや
ピッチ情報を求める際、短時間毎に分析するのが一般的
であり、このときの音声区間をフレームという。(より
具体的にいうと、元波形に窓関数を乗じて切り出した音
声区間をフレームという。) [フレーム位置]文字列中の何番目のフレームであるか
を表す情報である。
【0027】上記の式(1)〜(4)によって求められ
た基本周波数情報[F0(M)]は、文字列情報が”ひらか
た”の場合、例えば図2のようになる。
【0028】即ち、与えられた文字列情報(図の例で
は”ひらかた”)に対する音程情報は[低高高高]であ
り、そして各モーラについて各基本周波数情報[F0(M)]
を求め、その間を直線補間することで基本周波数パター
ン情報が生成される。この例では、各モーラ位置におい
て、前記式(1)〜(4)及び前記のFh=310Hz、Fl=250
Hz、w=0.375、Fmin=150Hzという条件に基づいて、 F0(1)=(250×1)-(1×1×0.375)=249.625Hz F0(2)=(310×1)-(2×2×0.375)=308.5Hz F0(3)=(310×1)-(3×3×0.375)=306.625Hz F0(4)=(310×1)-(4×4×0.375)=304Hz という各基本周波数情報が求められ、各点の間を直線補
間して基本周波数パターンが得られる。
【0029】尚、図の例では、”ひらかた”という1つ
のセグメントから成る文字情報についての処理なので、
前記式(3)及び(4)においてs=1が適用される
が、”ひらかたこうえん”という文字列の場合、”ひら
かた”という第1のセグメントと、”こうえん”という
第2のセグメントの2つで構成されるので、前者の文字
情報”ひらかた”について各基本周波数情報を求めると
きはs=1だが、後者の文字情報”こうえん”について各
基本周波数情報を求めるときはs=2となる。
【0030】このようにして求めた基本周波数パターン
情報に基づいて、音声素片取り出し部4にて、合成すべ
き音素列に合致するように音声素片を音声データベース
3から取り出し、音声素片接続部5に送る。
【0031】音声素片接続部5では、音声素片取り出し
部4で取り出された音声素片を接続し、韻律生成部2で
生成された韻律情報に基づいて、音声素片を加工し、所
望の合成音声データを音声信号の形態で出力する。音声
素片接続部5から出力された合成音声信号は図示されな
い増幅器を経て同じく図示されないスピーカから合成音
声として出力される。
【0032】続いて、上記の音声合成装置をナンバーデ
ィスプレイ機能付電話機に適用した例について詳述す
る。
【0033】図3は本発明が適用されたナンバーディス
プレイ機能付電話機の構成を示す概略ブロック図であ
る。同図において、公衆電話回線に接続された受信部2
00は、その回線を介して音声信号及び電話番号情報を
取得する。このうち、電話番号情報は送信元番号抽出部
201で抽出されて表示部202に送られて表示され
る。
【0034】前記送信元番号抽出部201で抽出された
電話番号情報は、登録データ検索部203に送られる。
登録データベース204には、図4(a)に示すよう
に、「登録番号」、「電話番号」、「名前情報」及び
「アクセント情報」が使用者によって予め登録されてい
る。そして登録データ検索部203が、送信元番号抽出
部201から送信されてきた電話番号情報が登録データ
ベース204に登録されているか否かを検索し、登録さ
れている場合、名前情報を文字情報解析部1に送るよう
に構成されている。
【0035】ここで、前記図4に示した「アクセント情
報」について補足すると、「0型」とはアクセント核が
無いものをいい、「1型」とは1モーラ目にアクセント核
があるものをいう。また音程情報は、0型に対しては
[低高高高高…]、1型に対しては[高低低低低…]と
なり、アクセント型とモーラ数から音程情報を決定す
る。
【0036】補足すると、例えば文字列情報が”すず
き”の場合、図5に示すように0〜3の型が考えられ
る。即ち、型のバリエーションはモーラ数をnとする
と、0〜n通りあるということである。
【0037】尚、文字情報解析部1、音声素片取り出し
部4、及び音声素片接続部5の動作は前述した通りであ
るので、ここでは割愛する。
【0038】次に、図6は公衆電話回線を介して受信し
た番号情報を、予め登録データベース204に登録して
おいた送信相手側の名前を読み出した後、音声合成によ
って読み上げる際の動作を説明するためのフローチャー
トである。
【0039】図6において、先ず、電話が着信状態とな
ったか否かを判断し(ステップS101)、着信状態で
あれば、送信元番号抽出部201によって抽出された電
話番号の表示が許可されているかどうかを判断し(ステ
ップS102)、電話番号の表示が許可されていれば送
信元の電話番号情報を表示部202に表示する(ステッ
プS103)。
【0040】次に、登録データ検索部203によって、
送信元番号抽出部201から送られた電話番号情報に対
応する名前情報が、登録データベース204に登録され
ているかどうかを調べ(ステップS104)、電話番号
情報に対応する名前情報が登録されていれば登録データ
ベース204から名前情報の取得を行い(ステップS1
05)、取得された名前情報を表示部202に表示する
(ステップS106)。これにより、表示部202には
前記ステップS103で処理された電話番号情報及びス
テップS106で処理された名前情報が表示されること
になる。
【0041】次にステップ107〜ステップ111にお
いて名前情報を解析する。具体的には、音素情報決定部
1aにより名前情報を音素列に変換し(ステップS10
7)、そして音程情報決定部1bにより登録データベー
ス204から取得したデータに基づいて音程情報を決定
する(ステップS108)。
【0042】さらに、取得された名前情報及び音程情報
に基づいて、韻律生成部2により、基本周波数パターン
情報と音素継続時間長情報を決定し(ステップS10
9)、音声素片取り出し部4により、音声データベース
3から音声素片を選択し、それらの素片を接続し(ステ
ップS110)、合成音声情報(例えば、「鈴木さんか
らお電話です」など)を出力する(ステップ111)。
【0043】そして使用者が、通常の電話機能処理、即
ち受話器を上げる(オフフック)ことにより、送信元と
通話をすることができるが(ステップ112)、通常の
電話機としての動作についてはその詳細な説明を割愛す
る。
【0044】次に、登録データベース204への名前情
報の登録フォーマットについて詳述する。登録データベ
ース204に登録された情報のフォーマットは、前記図
4(a)に示すように、アクセント型を記述しておく構
成以外に、例えば図4(b)に示すように、アクセント
記号を直接書き込むように構成してもよい。
【0045】図4(b)の場合は、使用者が直接アクセ
ント情報を入力する。即ち、図4(b)中の例におい
て、「ニ*シダ」の中にある記号「*」は、音程が
[高]から[低]に落ちる位置を示しており、「ス#ズ
キ」の中にある記号[#]は、音程が[低]から[高]
に上がる位置を示している。
【0046】上記の実施の形態では、基本周波数パター
ン情報を閾値まで徐々に下降する線で表現しているが、
閾値に近づくほど、下降の度合いを緩めるようなパター
ンにすれば、さほど処理量を増やすことなく、さらに人
間の発声に近づけることができる。
【0047】尚、ここでいう閾値とは、前記式(2)に
おけるFminに相当する。これを設けないと、音程がど
んどん下降していく現象が生じるため、自然な発声がで
きなくなる。本発明では、基本周波数パターン情報が閾
値に達したあとは閾値を保持するように構成されてい
る。ただ、このままでは閾値のところで折れ線的なパタ
ーンになりかねないため、閾値に近づくにつれて下降の
度合いを緩めることで回避するように成されている。
【0048】また、前記音声データベース3に記憶して
おくデータは、単音節、音素、モーラなどの単位のうち
いずれでもよいし、CV(子音+母音)、VC(母音+
子音)、VV(母音+母音)、CVC(子音+母音+子
音)などのように音素環境を考慮したものにしてもよい
し、複数の文章をそのまま記憶させておいてもよい。
【0049】さらに、音声データベース3に各音声素片
毎に複数種類の音声素片が蓄積されている場合には、音
声データベースから音声素片を取り出すときに、韻律情
報を利用して適切な音声素片を取り出すようにしてもよ
いことは言うまでもない。
【0050】そして、上記のナンバーディスプレー機能
付電話機に適用した例では、カナ情報を登録情報として
記憶しておくことを想定しているが、登録された時点で
音素列に変換し、音素列を記憶しておくようにしてもよ
い。そして、登録する情報を名前ではなく会社名等にし
てもよいことは言うまでもない。
【0051】
【発明の効果】以上の説明から明らかなように、本発明
によれば、音声合成処理の際の処理量の低減が必要な場
合でも、正しいアクセントで文字情報を読み上げること
ができる効果を奏する。
【図面の簡単な説明】
【図1】本発明の音声合成装置の構成を示すブロック図
である。
【図2】基本周波数パターン情報と文字列情報との関係
を示す図である。
【図3】本発明の電話機の構成を示すブロック図であ
る。
【図4】登録データベース204に登録されている登録
情報の一例を示す図である。
【図5】アクセント型を示す図である。
【図6】本発明の電話機の動作を説明するためのフロー
チャートである。
【符号の説明】
1 文字情報解析部 1a 音素情報決定部 1b 音程情報決定部 2 韻律生成部 3 音声データベース 4 音声素片取り出し部 5 音声素片接続部 6 文字情報入力部 200 受信部 201 送信元番号抽出部 202 表示部 203 登録データ検索部 204 登録データベース

Claims (51)

    【特許請求の範囲】
  1. 【請求項1】 予め蓄積されている音声素片より所望の
    音声素片を取り出し、取り出した音声素片を韻律情報に
    基づいて接続することによって合成音声を生成する音声
    合成方法において、 前記韻律情報としての基本周波数情報を、位置情報と音
    程情報に基づいて求めることを特徴とする音声合成方
    法。
  2. 【請求項2】 前記基本周波数情報[F0(M)]を次式によ
    って求めることを特徴とする請求項1記載の音声合成方
    法。 【数1】
  3. 【請求項3】 前記位置情報は、セグメント開始点から
    の時間で表されることを特徴とする請求項1乃至請求項
    2記載の音声合成方法。
  4. 【請求項4】 前記位置情報は、モーラ位置で表される
    ことを特徴とする請求項1乃至請求項2記載の音声合成
    方法。
  5. 【請求項5】 前記位置情報は、音節位置で表されるこ
    とを特徴とする請求項1乃至請求項2記載の音声合成方
    法。
  6. 【請求項6】 前記位置情報は、音素表記された音素位
    置で表されることを特徴とする請求項1乃至請求項2記
    載の音声合成方法。
  7. 【請求項7】 前記位置情報は、音声素片位置で表され
    ることを特徴とする請求項1乃至請求項2記載の音声合
    成方法。
  8. 【請求項8】 前記位置情報は、フレーム数で表される
    ことを特徴とする請求項1乃至請求項2記載の音声合成
    方法。
  9. 【請求項9】 前記音程情報は、前記位置情報で表され
    る位置ごとの高低を表す情報で構成され、該高低を表す
    情報に基づいた周波数値から、モーラ位置によって基本
    周波数パターンを生成することを特徴とする請求項1乃
    至請求項2記載の音声合成方法。
  10. 【請求項10】 前記音程情報は、前記位置情報で表さ
    れる位置ごとの高低を表す情報で構成され、該高低を表
    す情報に基づいた周波数値から、音節位置によって基本
    周波数パターンを生成することを特徴とする請求項1乃
    至請求項2記載の音声合成方法。
  11. 【請求項11】 前記音程情報は、前記位置情報で表さ
    れる位置ごとの高低を表す情報で構成され、該高低を表
    す情報に基づいた周波数値から、素片位置によって基本
    周波数パターンを生成することを特徴とする請求項1乃
    至請求項2記載の音声合成方法。
  12. 【請求項12】 前記音程情報は、前記位置情報で表さ
    れる位置ごとの高低を表す情報で構成され、該高低を表
    す情報に基づいた周波数値から、時間情報によって基本
    周波数パターンを生成することを特徴とする請求項1乃
    至請求項2記載の音声合成方法。
  13. 【請求項13】 前記セグメントの単位は呼気段落で区
    切られた区間とすることを特徴とする請求項2記載の音
    声合成方法。
  14. 【請求項14】 前記セグメントの単位はアクセント句
    で区切られた区間とすることを特徴とする請求項2記載
    の音声合成方法。
  15. 【請求項15】 前記セグメントの単位はフレーズで区
    切られた区間とすることを特徴とする請求項2記載の音
    声合成方法。
  16. 【請求項16】 前記セグメントの単位はポーズで区切
    られた区間とすることを特徴とする請求項2記載の音声
    合成方法。
  17. 【請求項17】 前記セグメントの単位は基本周波数生
    成の区切りで区切られた区間とすることを特徴とする請
    求項2記載の音声合成方法。
  18. 【請求項18】 音声素片が蓄積された音声素片蓄積手
    段と、 文字情報を解析して各文字に対応した音素情報を求める
    音素情報生成手段と、 文字情報を解析して各文字に対応する音程情報を求める
    音程情報生成手段と、 前記音素情報生成手段で求めた音素情報及び前記音程情
    報生成手段で求めた音程情報とに基づいて韻律情報を求
    める韻律情報生成手段と、 前記音素情報生成手段で求めた音素情報に基づいて前記
    音声素片蓄積手段より所望の音声素片を取り出す音声素
    片取り出し手段と、 前記音声素片取り出し手段で取り出された音声素片を前
    記韻律情報に基づいて接続して合成音声情報を生成する
    音声素片接続手段とを備えたことを特徴とする音声合成
    装置。
  19. 【請求項19】 前記韻律情報生成手段は、次式によっ
    て基本周波数情報[F0(M)]を求めることを特徴とする請
    求項18記載の音声合成装置。 【数2】
  20. 【請求項20】 前記位置情報は、セグメント開始点か
    らの時間で表されることを特徴とする請求項18乃至請
    求項19記載の音声合成装置。
  21. 【請求項21】 前記位置情報は、モーラ位置で表され
    ることを特徴とする請求項18乃至請求項19記載の音
    声合成装置。
  22. 【請求項22】 前記位置情報は、音節位置で表される
    ことを特徴とする請求項18乃至請求項19記載の音声
    合成装置。
  23. 【請求項23】 前記位置情報は、音素表記された音素
    位置で表されることを特徴とする請求項18乃至請求項
    19記載の音声合成装置。
  24. 【請求項24】 前記位置情報は、音声素片位置で表さ
    れることを特徴とする請求項18乃至請求項19記載の
    音声合成装置。
  25. 【請求項25】 前記位置情報は、フレーム数で表され
    ることを特徴とする請求項18乃至請求項19記載の音
    声合成装置。
  26. 【請求項26】 前記音程情報は、前記位置情報で表さ
    れる位置ごとの高低を表す情報で構成され、該高低を表
    す情報に基づいた周波数値から、モーラ位置によって基
    本周波数パターンを生成することを特徴とする請求項1
    8乃至請求項19記載の音声合成装置。
  27. 【請求項27】 前記音程情報は、前記位置情報で表さ
    れる位置ごとの高低を表す情報で構成され、該高低を表
    す情報に基づいた周波数値から、音節位置によって基本
    周波数パターンを生成することを特徴とする請求項18
    乃至請求項19記載の音声合成装置。
  28. 【請求項28】 前記音程情報は、前記位置情報で表さ
    れる位置ごとの高低を表す情報で構成され、該高低を表
    す情報に基づいた周波数値から、素片位置によって基本
    周波数パターンを生成することを特徴とする請求項18
    乃至請求項19記載の音声合成装置。
  29. 【請求項29】 前記音程情報は、前記位置情報で表さ
    れる位置ごとの高低を表す情報で構成され、該高低を表
    す情報に基づいた周波数値から、時間情報によって基本
    周波数パターンを生成することを特徴とする請求項18
    乃至請求項19記載の音声合成装置。
  30. 【請求項30】 前記セグメントの単位は呼気段落で区
    切られた区間とすることを特徴とする請求項19記載の
    音声合成装置。
  31. 【請求項31】 前記セグメントの単位はアクセント句
    で区切られた区間とすることを特徴とする請求項19記
    載の音声合成装置。
  32. 【請求項32】 前記セグメントの単位はフレーズで区
    切られた区間とすることを特徴とする請求項19記載の
    音声合成装置。
  33. 【請求項33】 前記セグメントの単位はポーズで区切
    られた区間とすることを特徴とする請求項19記載の音
    声合成装置。
  34. 【請求項34】 前記セグメントの単位は基本周波数生
    成の区切りで区切られた区間とすることを特徴とする請
    求項19記載の音声合成装置。
  35. 【請求項35】 電話番号情報と該電話番号情報と関連
    付けられた文字情報とが記憶された記憶手段と、 音声信号及び電話番号情報を受信する受信手段と、 該受信手段で受信した電話番号情報を抽出する電話番号
    情報抽出手段と、 前記記憶手段の中から前記電話番号情報抽出手段で抽出
    した電話番号情報を検索して前記電話番号情報と関連付
    けられた文字情報を検索して出力する検索手段と、 該検索手段が出力する文字情報を解析して各文字に対応
    した音素情報を求める音素情報生成手段と、 前記検索手段が出力する文字情報を解析して各文字に対
    応する音程情報を求める音程情報生成手段と、 前記音素情報生成手段で求めた音素情報及び前記音程情
    報生成手段で求めた音程情報とに基づいて韻律情報を求
    める韻律情報生成手段と、 前記恩師情報生成手段で求めた音素情報に基づいて前記
    音声素片蓄積手段より所望の音声素片を取り出す音声素
    片取り出し手段と、 前記音声素片取り出し手段で取り出された音声素片を前
    記韻律情報に基づいて接続して合成音声情報を生成する
    音声素片接続手段と、 該音声素片接続手段からの合成音声情報を音声として放
    音する放音手段とを備えたことを特徴とする音声合成装
    置を備えた電話機。
  36. 【請求項36】 前記韻律情報生成手段は、次式によっ
    て基本周波数情報[F0(M)]を求めることを特徴とする請
    求項35記載の音声合成装置を備えた電話機。 【数3】
  37. 【請求項37】 前記位置情報は、セグメント開始点か
    らの時間で表されることを特徴とする請求項35乃至請
    求項36記載の音声合成装置を備えた電話機。
  38. 【請求項38】 前記位置情報は、モーラ位置で表され
    ることを特徴とする請求項35乃至請求項36記載の音
    声合成装置を備えた電話機。
  39. 【請求項39】 前記位置情報は、音節位置で表される
    ことを特徴とする請求項35乃至請求項36記載の音声
    合成装置を備えた電話機。
  40. 【請求項40】 前記位置情報は、音素表記された音素
    位置で表されることを特徴とする請求項35乃至請求項
    36記載の音声合成装置を備えた電話機。
  41. 【請求項41】 前記位置情報は、音声素片位置で表さ
    れることを特徴とする請求項35乃至請求項36記載の
    音声合成装置を備えた電話機。
  42. 【請求項42】 前記位置情報は、フレーム数で表され
    ることを特徴とする請求項35乃至請求項36記載の音
    声合成装置を備えた電話機。
  43. 【請求項43】 前記音程情報は、前記位置情報で表さ
    れる位置ごとの高低を表す情報で構成され、該高低を表
    す情報に基づいた周波数値から、モーラ位置によって基
    本周波数パターンを生成することを特徴とする請求項3
    5乃至請求項36記載の音声合成装置を備えた電話機。
  44. 【請求項44】 前記音程情報は、前記位置情報で表さ
    れる位置ごとの高低を表す情報で構成され、該高低を表
    す情報に基づいた周波数値から、音節位置によって基本
    周波数パターンを生成することを特徴とする請求項35
    乃至請求項36記載の音声合成装置を備えた電話機。
  45. 【請求項45】 前記音程情報は、前記位置情報で表さ
    れる位置ごとの高低を表す情報で構成され、該高低を表
    す情報に基づいた周波数値から、素片位置によって基本
    周波数パターンを生成することを特徴とする請求項35
    乃至請求項36記載の音声合成装置を備えた電話機。
  46. 【請求項46】 前記音程情報は、前記位置情報で表さ
    れる位置ごとの高低を表す情報で構成され、該高低を表
    す情報に基づいた周波数値から、時間情報によって基本
    周波数パターンを生成することを特徴とする請求項35
    乃至請求項36記載の音声合成装置を備えた電話機。
  47. 【請求項47】 前記セグメントの単位は呼気段落で区
    切られた区間とすることを特徴とする請求項36記載の
    音声合成装置を備えた電話機。
  48. 【請求項48】 前記セグメントの単位はアクセント句
    で区切られた区間とすることを特徴とする請求項36記
    載の音声合成装置を備えた電話機。
  49. 【請求項49】 前記セグメントの単位はフレーズで区
    切られた区間とすることを特徴とする請求項36記載の
    音声合成装置を備えた電話機。
  50. 【請求項50】 前記セグメントの単位はポーズで区切
    られた区間とすることを特徴とする請求項36記載の音
    声合成装置を備えた電話機。
  51. 【請求項51】 前記セグメントの単位は基本周波数生
    成の区切りで区切られた区間とすることを特徴とする請
    求項36記載の音声合成装置を備えた電話機。
JP12044299A 1999-04-27 1999-04-27 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機 Expired - Fee Related JP3685648B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12044299A JP3685648B2 (ja) 1999-04-27 1999-04-27 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12044299A JP3685648B2 (ja) 1999-04-27 1999-04-27 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機

Publications (2)

Publication Number Publication Date
JP2000310995A true JP2000310995A (ja) 2000-11-07
JP3685648B2 JP3685648B2 (ja) 2005-08-24

Family

ID=14786317

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12044299A Expired - Fee Related JP3685648B2 (ja) 1999-04-27 1999-04-27 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機

Country Status (1)

Country Link
JP (1) JP3685648B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002330194A (ja) * 2001-04-27 2002-11-15 Kenwood Corp 電話装置、音声合成システム、音素情報登録装置、音素情報登録・音声合成装置
US6845358B2 (en) * 2001-01-05 2005-01-18 Matsushita Electric Industrial Co., Ltd. Prosody template matching for text-to-speech systems
JP2009122382A (ja) * 2007-11-14 2009-06-04 Fujitsu Ltd 韻律生成装置、韻律生成方法、および、韻律生成プログラム
CN110992927A (zh) * 2019-12-11 2020-04-10 广州酷狗计算机科技有限公司 音频生成方法、装置、计算机可读存储介质及计算设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6845358B2 (en) * 2001-01-05 2005-01-18 Matsushita Electric Industrial Co., Ltd. Prosody template matching for text-to-speech systems
JP2002330194A (ja) * 2001-04-27 2002-11-15 Kenwood Corp 電話装置、音声合成システム、音素情報登録装置、音素情報登録・音声合成装置
JP2009122382A (ja) * 2007-11-14 2009-06-04 Fujitsu Ltd 韻律生成装置、韻律生成方法、および、韻律生成プログラム
CN110992927A (zh) * 2019-12-11 2020-04-10 广州酷狗计算机科技有限公司 音频生成方法、装置、计算机可读存储介质及计算设备
CN110992927B (zh) * 2019-12-11 2024-02-20 广州酷狗计算机科技有限公司 音频生成方法、装置、计算机可读存储介质及计算设备

Also Published As

Publication number Publication date
JP3685648B2 (ja) 2005-08-24

Similar Documents

Publication Publication Date Title
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US20020111794A1 (en) Method for processing information
WO2005034082A1 (en) Method for synthesizing speech
EP2009620B1 (en) Phoneme length adjustment for speech synthesis
JP5198046B2 (ja) 音声処理装置及びそのプログラム
JP2009251199A (ja) 音声合成装置、方法及びプログラム
Levinson et al. Speech synthesis in telecommunications
JP4953767B2 (ja) 音声生成装置
JP2014062970A (ja) 音声合成方法、装置、及びプログラム
JP3685648B2 (ja) 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機
JP5320341B2 (ja) 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム
JPH08335096A (ja) テキスト音声合成装置
JP3437064B2 (ja) 音声合成装置
JP5518621B2 (ja) 音声合成装置およびコンピュータプログラム
JP2002132291A (ja) 自然言語対話処理装置およびその方法並びにその記憶媒体
JP3113101B2 (ja) 音声合成装置
JP2006189544A (ja) 通訳装置、通訳方法、通訳プログラムを記録した記録媒体、および通訳プログラム
JP2013195928A (ja) 音声素片切出装置
JPH11259094A (ja) 規則音声合成装置
JP2956936B2 (ja) 音声合成装置の発声速度制御回路
JP2003005774A (ja) 音声合成装置
JP2005037423A (ja) 音声出力装置
JPH11344997A (ja) 音声合成方法
JPH08160990A (ja) 音声合成装置
KR19980065482A (ko) 스피킹 스타일을 변경하는 음성 합성 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080610

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090610

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees