JP2003108178A - 音声合成装置及び音声合成用素片作成装置 - Google Patents

音声合成装置及び音声合成用素片作成装置

Info

Publication number
JP2003108178A
JP2003108178A JP2001296742A JP2001296742A JP2003108178A JP 2003108178 A JP2003108178 A JP 2003108178A JP 2001296742 A JP2001296742 A JP 2001296742A JP 2001296742 A JP2001296742 A JP 2001296742A JP 2003108178 A JP2003108178 A JP 2003108178A
Authority
JP
Japan
Prior art keywords
speech waveform
segment
speech
waveform segment
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001296742A
Other languages
English (en)
Inventor
Reishi Kondou
玲史 近藤
Hiroaki Hattori
浩明 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001296742A priority Critical patent/JP2003108178A/ja
Priority to US10/254,666 priority patent/US7089187B2/en
Publication of JP2003108178A publication Critical patent/JP2003108178A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Abstract

(57)【要約】 【課題】 音声合成時に必要な計算量が小さく、かつ必
要とする音声波形素片のファイルサイズが小さな音声合
成装置を提供する。 【解決手段】 波形編集方式により音声合成する音声合
成装置であって、ピッチ単位で圧縮された音声波形素片
を蓄積する圧縮ピッチ素片データベースと、音声合成に
必要な音声波形素片の圧縮データを圧縮ピッチ素片デー
タベースから読み出し、読み出した圧縮データを伸張し
て元の音声波形素片を再生するピッチ展開部と、既に使
用された音声波形素片を一時的に保持すると共に、音声
波形合成に必要な音声波形素片を既に保持している場合
は該音声波形素片を要求元に返送し、保持していない場
合はピッチ展開部を介して圧縮ピッチ素片データベース
から該音声波形素片を取得し、得られた音声波形素片を
保持すると共に前記要求元に返送するキャッシュ処理部
とを有する構成とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は波形編集方式により
音声を合成するための音声合成装置、及び音声合成に必
要な情報を作成するための音声合成用素片作成装置に関
する。
【0002】
【従来の技術】音声を規則合成する方法として波形編集
方式が知られている。
【0003】波形編集方式は、自然音声からピッチ長な
いしは音節長程度の音声波形素片を大量に抽出し、発声
された音素環境や音素内のピッチ形状、振幅、継続時間
長等の情報と共に記憶装置に保持し、音声合成時に、合
成規則で設定された韻律情報や音素情報にしたがって最
適な音声波形素片を記憶装置から読み出し、それらを接
続して合成音を得る方式である。
【0004】この波形編集方式によれば、高品質な合成
音が得やすい反面、合成音を生成するための音声波形素
片を大量に保持する必要があるため音声波形素片のファ
イルサイズが大きくなる問題がある。特に、有声音から
ピッチ単位で音声波形素片を抽出した場合(以下、ピッ
チ素片と称す)に顕著になる。
【0005】このような問題を解決するため、従来の音
声合成装置では、音声波形素片を圧縮して記録する試み
がなされている。例えば、特願2001−091560
号では、固定長(フレーム)毎に圧縮された音声波形素
片を蓄積する音声素片データベースと、合成単位毎にイ
ンデックスを付与した情報を蓄積する単位インデックス
とを備え、単位インデックスを参照して合成対象の文章
情報である発音情報から必要な音声波形素片を選定し、
選定した音声波形素片に対応する圧縮データを音声素片
データベースから取り出す手法が記載されている。
【0006】
【発明が解決しようとする課題】上述したように、従来
の音声合成装置が有する音声素片データベースには、音
声の合成に必要な音声波形素片がフレーム毎にそれぞれ
圧縮されて蓄積されているため、音声合成時にはその圧
縮データを伸張して元の音声波形素片を再生する必要が
ある。
【0007】従来の音声合成装置では、音声合成時に、
使用する音声波形素片毎にそれぞれ伸張していたため、
そのための計算量が大きくなる問題があった。特に、合
成音のピッチ周波数が高いほど計算量の上昇が顕著にな
っていた。
【0008】また、従来の音声合成装置が有する音声素
片データベースは、各音声波形素片をそれぞれ圧縮する
ことで本来の音声素片データベースのサイズよりは小さ
くなっているが、用途によっては更に小さなサイズが要
求されるため、このような要求を満たすことができない
問題があった。
【0009】本発明は上記したような従来の技術が有す
る問題点を解決するためになされたものであり、音声合
成時に必要な計算量が小さく、かつ必要とする音声波形
素片のファイルサイズが小さな音声合成装置を提供する
ことを目的とする。
【0010】
【課題を解決するための手段】上記目的を達成するため
本発明の音声合成装置は、複数の音声波形素片を重ね合
わせて所望の音声波形を波形編集方式により合成する音
声合成装置であって、ピッチ単位で圧縮された音声波形
素片をそれぞれ蓄積する圧縮ピッチ素片データベース
と、音声波形合成に必要な音声波形素片を要求された場
合に、該音声波形素片の圧縮データを前記圧縮ピッチ素
片データベースから読み出し、読み出した圧縮データを
伸張して元の音声波形素片を再生するピッチ展開部と、
音声波形合成で既に使用された音声波形素片を一時的に
保持すると共に、音声波形合成に必要な音声波形素片が
要求された場合に、要求された音声波形素片を既に保持
している場合は該音声波形素片を要求元に返送し、保持
していない場合は前記ピッチ展開部を介して前記圧縮ピ
ッチ素片データベースから該音声波形素片を取得し、得
られた音声波形素片を保持すると共に前記要求元に返送
するキャッシュ処理部と、を有する構成である。
【0011】このとき、連続する複数の音声波形素片を
1つの代表の音声波形素片に置き換えることができる場
合に、該音声波形素片の連続する個数、及び前記代表の
音声波形素片に対する各音声波形素片毎の振幅倍率をそ
れぞれ蓄積する連続性テーブルと、音声波形合成に必要
な音声波形素片が要求された場合に、前記連続性テーブ
ルを参照して前記キャッシュ処理部から該音声波形素片
を取得し、前記振幅倍率の値で該音声波形素片を増幅し
て該音声波形素片の要求元に返送するピッチインデック
ス変換部と、を有し、前記圧縮ピッチ素片データベース
は、前記代表の音声波形素片、及び前記代表の音声波形
素片に置き換えることができない音声波形素片をそれぞ
れ蓄積してもよく、複数の音声波形素片を1つの代表の
音声波形素片に置き換えることができる場合に、前記代
表の音声波形素片に対する各音声波形素片毎の振幅倍
率、及び音声波形素片を時間方向にシフトさせるための
サンプル数をそれぞれ蓄積するピッチインデックステー
ブルと、音声波形合成に必要な音声波形素片が要求され
た場合に、前記ピッチインデックステーブルを参照して
前記キャッシュ処理部から該音声波形素片を取得し、前
記振幅倍率の値で該音声波形素片を増幅し、前記サンプ
ル数で該音声波形素片を時間方向にシフトさせて該音声
波形素片の要求元に返送するピッチインデックス変換部
と、を有し、前記圧縮ピッチ素片データベースは、前記
代表の音声波形素片、及び前記代表の音声波形素片に置
き換えることができない音声波形素片をそれぞれ蓄積し
てもよい。
【0012】また、連続する複数の音声波形素片を1つ
の代表の音声波形素片に置き換えることができる場合
に、該音声波形素片の連続する個数、及び前記代表の音
声波形素片に対する各音声波形素片毎の振幅倍率をそれ
ぞれ蓄積する連続性テーブルと、複数の音声波形素片を
1つの代表の音声波形素片に置き換えることができる場
合に、前記代表の音声波形素片に対する各音声波形素片
毎の振幅倍率、及び音声波形素片を時間方向にシフトさ
せるためのサンプル数をそれぞれ蓄積するピッチインデ
ックステーブルと、音声波形合成に必要な音声波形素片
が要求された場合に、前記連続性テーブルまたは前記ピ
ッチインデックステーブルの少なくともいずれか一方を
参照して前記キャッシュ処理部から該音声波形素片を取
得し、少なくとも前記振幅倍率の値で該音声波形素片を
増幅して該音声波形素片の要求元に返送するピッチイン
デックス変換部と、を有し、前記圧縮ピッチ素片データ
ベースは、前記代表の音声波形素片、及び前記代表の音
声波形素片に置き換えることができない音声波形素片を
それぞれ蓄積してもよい。
【0013】一方、本発明の音声合成用素片作成装置
は、人が発声した元発話の音声波形から複数の音声波形
素片を抽出し、抽出した音声波形素片から音声合成に必
要な音声波形素片を選定するための情報を生成する音声
合成用素片作成装置であって、元発話を構成する全ての
音声波形素片のうち、連続した区間内で同じ音声波形素
片であると見なすことができる範囲を選定し、前記範囲
内の音声波形素片から代表の音声波形素片を選定する連
続代表ピッチ素片決定部と、前記代表の音声波形素片、
及び前記範囲外の音声波形素片をそれぞれ圧縮してデー
タベースに蓄積するピッチ素片登録部と、前記範囲内の
音声波形素片の連続する個数、及び前記代表の音声波形
素片に対する各音声波形素片毎の振幅倍率を計算し、テ
ーブル形式で記憶装置に蓄積する連続性テーブル生成部
と、を有する構成である。
【0014】このとき、前記連続代表ピッチ素片決定部
は、前記範囲に含まれる音声波形素片を予め決められた
個数よりも少ない数に設定してもよい。
【0015】または、人が発声した元発話の音声波形か
ら複数の音声波形素片を抽出し、抽出した音声波形素片
から音声合成に必要な音声波形素片を選定するための情
報を生成する音声合成用素片作成装置であって、元発話
を構成する全ての音声波形素片のうち、同じ音声波形素
片であると見なすことができる組を選定し、前記組内の
音声波形素片から代表の音声波形素片を選定する代表ピ
ッチ素片決定部と、前記代表の音声波形素片、及び前記
組外の音声波形素片をそれぞれ圧縮してデータベースに
蓄積するピッチ素片登録部と、前記組内の各音声波形素
片毎の前記代表の音声波形素片に対する振幅倍率、及び
音声波形素片を時間方向にシフトさせるためのサンプル
数を計算し、テーブル形式で記憶装置に蓄積するピッチ
インデックステーブル生成部と、を有する構成である。
【0016】このとき、前記代表ピッチ素片決定部は、
前記組に含まれる音声波形素片を予め決められた個数よ
りも少ない数に設定してもよい。
【0017】または、人が発声した元発話の音声波形か
ら複数の音声波形素片を抽出し、抽出した音声波形素片
から音声合成に必要な音声波形素片を選定するための情
報を生成する音声合成用素片作成装置であって、元発話
を構成する全ての音声波形素片のうち、連続した区間内
で同じ音声波形素片であると見なすことができる範囲を
選定し、前記範囲内の音声波形素片から代表の音声波形
素片を選定する連続代表ピッチ素片決定部と、前記連続
代表ピッチ素片決定部による選定結果に対して、同じ音
声波形素片であると見なすことができる組を選定し、前
記組内の音声波形素片から代表の音声波形素片を選定す
る代表ピッチ素片決定部と、前記組内の代表の音声波形
素片、及び前記組外の音声波形素片をそれぞれ圧縮して
データベースに蓄積するピッチ素片登録部と、前記範囲
内の音声波形素片の個数、及び前記代表の音声波形素片
に対する各音声波形素片毎の振幅倍率を計算し、テーブ
ル形式で記憶装置に蓄積する連続性テーブル生成部と、
前記組内の各音声波形素片毎の前記代表の音声波形素片
に対する振幅倍率、及び音声波形素片を時間方向にシフ
トさせるためのサンプル数を計算し、テーブル形式で記
憶装置に蓄積するピッチインデックステーブル生成部
と、を有する構成である。
【0018】このとき、前記連続代表ピッチ素片決定部
は、前記範囲に含まれる音声波形素片を予め決められた
個数よりも少ない数に設定し、前記代表ピッチ素片決定
部は、前記組に含まれる音声波形素片を予め決められた
個数よりも少ない数に設定してもよい。
【0019】上記構成の音声合成用素片作成装置は、音
声波形素片が所属する音素、音声波形素片が所属する音
素の直前音素、及び音声波形素片が所属する音素の直後
音素を用いて予め設定された複数のクラスに、前記連続
代表ピッチ素片決定部による選定結果を含めて音声波形
素片を分割するクラス分別部を有し、前記代表ピッチ素
片決定部は、前記クラス毎に、同じ音声波形素片である
と見なすことができる組をそれぞれ選定してもよく、前
記代表ピッチ素片決定部は、前記組内の音声波形素片か
ら代表の音声波形素片を選定する際に、直前直後の組の
代表の音声波形素片と時間的に連続する音声波形素片を
選定してもよい。
【0020】また、音素、あるいは音素環境に応じて予
め決められた音声波形素片に対し、所定の位相置換を行
う位相置換部を有していてもよい。
【0021】上記のように構成された音声合成装置及び
音声合成用素片作成装置では、音声波形合成で既に使用
された音声波形素片を一時的に保持すると共に、音声波
形合成に必要な音声波形素片が要求された場合に、要求
された音声波形素片を既に保持している場合は該音声波
形素片を要求元に返送し、保持していない場合はピッチ
展開部を介して圧縮ピッチ素片データベースから該音声
波形素片を取得し、得られた音声波形素片を保持すると
共に要求元に返送するキャッシュ処理部を有すること
で、キャッシュ処理部に音声波形素片が既に保持されて
いる場合はそのまま音声合成に使用されるため、圧縮ピ
ッチ素片データベースに蓄積された圧縮データを読み出
して伸張する必要がない。
【0022】また、連続する複数の音声波形素片を1つ
の代表の音声波形素片に置き換えることができる場合
に、該音声波形素片の連続する個数、及び代表の音声波
形素片に対する各音声波形素片毎の振幅倍率がそれぞれ
蓄積される連続性テーブルと、音声波形合成に必要な音
声波形素片が要求された場合に、連続性テーブルを参照
してキャッシュ処理部から該音声波形素片を取得し、振
幅倍率の値で該音声波形素片を増幅して該音声波形素片
の要求元に返送するピッチインデックス変換部とを有す
ることで、圧縮ピッチ素片データベースに蓄積する複数
の音声波形素片を1つの代表の音声波形素片に置き換え
ることができる。
【0023】同様に、複数の音声波形素片を1つの代表
の音声波形素片に置き換えることができる場合に、代表
の音声波形素片に対する各音声波形素片毎の振幅倍率、
及び音声波形素片を時間方向にシフトさせるためのサン
プル数がそれぞれ蓄積されるピッチインデックステーブ
ルと、音声波形合成に必要な音声波形素片が要求された
場合に、ピッチインデックステーブルを参照してキャッ
シュ処理部から該音声波形素片を取得し、振幅倍率の値
で該音声波形素片を増幅し、サンプル数で該音声波形素
片を時間方向にシフトさせて該音声波形素片の要求元に
返送するピッチインデックス変換部とを有することで、
圧縮ピッチ素片データベースに蓄積する複数の音声波形
素片を1つの代表の音声波形素片に置き換えることがで
きる。
【0024】
【発明の実施の形態】次に本発明について図面を参照し
て説明する。
【0025】(第1の実施の形態)図1は本発明の音声
合成装置の第1の実施の形態の構成を示すブロック図で
ある。
【0026】図1に示すように、第1の実施の形態の音
声合成装置は、入力部21と、韻律生成部22と、単位
選択部23と、単位インデックス11と、波形生成部2
4と、キャッシュ処理部25と、ピッチ展開部26と、
圧縮ピッチ素片データベース12とを有する構成であ
る。
【0027】単位インデックス11には、音声合成に用
いるピッチ素片の格納位置と個数、合成単位を選択する
ための情報(スペクトル特性やピッチ周波数等)とが予
め付与された所定のインデックスと共に蓄積されてい
る。また、圧縮ピッチ素片データベース12には、後述
する音声合成用素片作成装置1により、圧縮されたピッ
チ素片(圧縮データ)、及び圧縮データの格納位置を表
す番号であるピッチ番号がそれぞれ蓄積される。ピッチ
素片の圧縮方法としては、ADPCM(AdaptiveDiffer
ential Pulse Code Modulation)、CELP(Code Exc
ited Linear Prediction)、VSELP(Vector Sum E
xcited Linear Prediction)等が知られている。
【0028】入力部21は、音声合成対象である発音記
号列等を内部で使用する発音情報に変換する。発音記号
列は、例えば、仮名列やアクセントを示す記号列から成
る、合成対象の文章を表記した文字列である。また、発
音情報は発音記号列と同等の内容を韻律生成部の処理で
扱いやすい形式に変換した情報である。
【0029】韻律生成部22は、発音情報から、合成音
にアクセント、イントネーション、ポーズ等を与えるた
めのピッチパターンや継続時間長を含む韻律情報を生成
する。
【0030】単位選択部23は、発音情報及び韻律情報
から、単位インデックス11に蓄積された情報を参照し
て所定の区間毎に波形生成のために用いる合成単位を選
定し、その選定結果を示す単位選択情報を生成する。合
成単位には、CV/VC/CVC/VCV/音素/音節
/可変長(C:子音、V:母音)等があるが、本実施形
態ではその違いは問わないものとする。
【0031】波形生成部24は、発音情報、韻律情報、
及び単位選択情報から波形編集方式にしたがって合成音
声波形を生成する。
【0032】合成音には、有声音、無声音、無音の区間
が含まれるが、特に有声音の区間については、韻律情報
中のピッチパターンと継続時間長とに基づいて、ピッチ
駆動時刻と使用するピッチ素片を示す番号であるピッチ
インデックスとを時系列にそれぞれ選定する。本実施形
態では、ピッチインデックスの値を、圧縮ピッチ素片デ
ータベース12に蓄積された当該ピッチ番号と同じ値に
しておく。
【0033】波形生成部24は、音声合成に使用するピ
ッチ素片を得るために、該当するピッチ番号をキャッシ
ュ処理部25に送出し、キャッシュ処理部25から対応
するピッチ素片を取得する。こうして得られたピッチ素
片を順に重ね合わせることで有声音の合成音声波形を生
成する。
【0034】キャッシュ処理部25は、波形生成部24
による音声合成で既に使用されたピッチ素片とそれに対
応するピッチ番号とをそれぞれ一時的に保持するキャッ
シュメモリを備えている。キャッシュ処理部25は、波
形生成部24からピッチ番号によるピッチ素片の取得要
求があった場合に、当該ピッチ番号に対応するピッチ素
片を既に保持しているか否かを調べ、保持している場合
はそのピッチ番号に対応するピッチ素片を波形生成部2
4に返送する。また、保持していない場合は、ピッチ展
開部26に対してそのピッチ番号に対応するピッチ素片
の送信を要求し、得られたピッチ素片を波形生成部24
に返送すると共に、当該ピッチ番号に対応付けて該ピッ
チ素片を蓄積する。
【0035】ピッチ展開部26は、キャッシュ処理部2
5からピッチ番号によるピッチ素片の取得要求があった
場合に、当該ピッチ番号に対応する圧縮データを圧縮ピ
ッチ素片データベース12から読み出し、読み出した圧
縮データを伸張して元のピッチ素片を再生し、キャッシ
ュ処理部25に返送する。
【0036】波形編集方式の音声合成処理では、ピッチ
周波数や発話速度が、使われるピッチ素片の元発話のそ
れと必ずしも一致しないこと、ピッチ素片間を補間する
必要がある等の理由により、同じピッチ素片が連続ある
いは不連続に複数回使用されることが多い。また、音声
の規則合成時には、発声内容によっては同じピッチ素片
が複数回使用されることもある。
【0037】本実施形態では、キャッシュ処理部25に
ピッチ素片が既に保持されている場合はそのまま波形生
成部で音声合成に使用されるため、圧縮ピッチ素片デー
タベース12に蓄積された圧縮データを読み出して伸張
する必要がない。したがって、本実施形態の音声合成装
置は従来に比べて圧縮データを伸張するための計算量を
低減できる。
【0038】例えば、キャッシュ処理部25に8個の重
複しないピッチ素片を保持できるようにした場合、波形
生成部24で使用するピッチ素片の40%〜50%がキ
ャッシュ処理部25から得られるため、その分だけピッ
チ素片の再生に要する計算量が低減される。
【0039】(第2の実施の形態)図2は本発明の音声
合成装置の第2の実施の形態の構成を示すブロック図で
ある。
【0040】図2に示すように、第2の実施の形態の音
声合成装置は、図1に示した第1の実施の形態の音声合
成装置に、ピッチインデックス変換部27と、連続性テ
ーブル13と、ピッチインデックステーブル14とが追
加された構成である。
【0041】圧縮ピッチ素片データベース、連続性テー
ブル13、及びピッチインデックステーブル14には、
第1の実施の形態と同様に、音声合成用素片作成装置に
よって音声合成に必要な情報がそれぞれ蓄積される。
【0042】本実施形態の音声合成装置は、ピッチイン
デックスの値とピッチ番号とが一致しない場合に適用さ
れる構成である。具体的には、複数のピッチ素片に対し
て1つのピッチ番号が付与されて圧縮ピッチ素片データ
ベースに蓄積されている場合に適用される。
【0043】ピッチ素片の振幅を拡大あるいは縮小する
ことで、ある代表とするピッチ素片に置き換えても音質
的に大きな変化が生じないとき(同じと見なせるとき)
には、複数のピッチ素片を1つの代表のピッチ素片で表
し、代表のピッチ素片のみピッチ番号を付与して蓄積す
ることが可能である。しかしながら、このような場合、
元のピッチ素片をそれぞれ再生するためには代表のピッ
チ素片に対する振幅倍率の情報等が必要になる。
【0044】連続性テーブル13には、連続する複数の
ピッチ素片を1つの代表のピッチ素片で表すことができ
る場合に、そのピッチ番号、連続する個数、及び各ピッ
チ素片の振幅倍率がそれぞれ蓄積される。また、ピッチ
インデックステーブル14には、連続/不連続に限らず
複数のピッチ素片を1つの代表のピッチ素片で表すこと
ができる場合(以下、組と称する)に、そのピッチイン
デックス、ピッチ番号、各ピッチ素片の振幅倍率、及び
時間方向にシフト処理するためのサンプル数がそれぞれ
蓄積される。
【0045】波形生成部は、音声合成に使用するピッチ
素片を得るためにピッチインデックスの値をピッチイン
デックス変換部27に送信し、該ピッチインデックスに
対応するピッチ素片をピッチインデックス変換部27か
ら取得する。
【0046】ピッチインデックス変換部27は、連続性
テーブル13またはピッチインデックステーブル14の
少なくともいずれか一方を参照して、波形生成部から送
信されたピッチインデックスの値をピッチ番号に変換す
る。そして、変換したピッチ番号によりキャッシュ処理
部にピッチ素片の取得要求を出力し、キャッシュ処理部
から対応するピッチ素片を取得する。また、キャッシュ
処理部から取得したピッチ素片に対して、連続性テーブ
ル13やピッチインデックステーブル14を参照して得
られた情報にしたがって振幅倍率による増幅処理やサン
プル数による時間方向シフト処理を行なう。
【0047】本実施形態の音声合成装置は、同じと見な
せる複数のピッチ素片を一つのピッチ素片で代表するこ
とで、それらを蓄積するのに必要であった圧縮ピッチ素
片データベースの記憶領域がピッチ素片一つ分で済むた
め、ピッチ素片を格納するために要するファイル容量を
小さくすることができる。
【0048】また、同じピッチ素片が音声合成時に使わ
れる可能性が高くなるため、キャッシュ処理部からピッ
チ素片が得られる確率がより高くなり、音声合成処理に
おける計算量が低減する。
【0049】なお、ピッチ素片の抽出エラーは合成音の
品質に直接影響するが、本実施形態のように、複数のピ
ッチ素片を一つのピッチ素片で代表し、その代表のピッ
チ素片の選択方法を予め適切に選ぶことにより、抽出エ
ラーの起きたピッチ素片を排除できる可能性が高まるた
め、合成音の音質を安定させて聞きやすくできる。
【0050】(第3の実施の形態)図3は本発明の音声
合成装置の第3の実施の形態の構成を示すブロック図で
ある。
【0051】図3に示すように、第3の実施の形態の音
声合成装置は、入力部、韻律生成部、単位選択部、及び
波形生成部から成る複数の音声合成処理部20を備え、
各音声処理部20で、ピッチインデックス変換部、連続
性テーブル、ピッチインデックステーブル、キャッシュ
処理部、ピッチ展開部、圧縮ピッチ素片データベース、
及び単位インデックスをそれぞれ共有する構成である。
【0052】音声合成処理部20は、それぞれ第1の実
施の形態と同様の構成であり、通常、コンピュータシス
テムにその機能が割り当てられてそれぞれ独立に動作す
る。
【0053】各音声合成処理部20が有する単位選択部
は、単位インデックスを共通に使用してそれぞれ合成単
位の選択を行なう。
【0054】また、各音声合成処理部20が有する波形
生成部は、ピッチインデックス変換部に対してそれぞれ
ピッチインデックスによりピッチ素片の取得を要求し、
音声合成に必要なピッチ素片をそれぞれ取得する。
【0055】ピッチインデックス変換部は、各音声合成
処理部20から送信されたピッチインデックスの値をそ
れぞれピッチ番号に変換し、キャッシュ処理部から必要
なピッチ素片を取得して要求元の音声合成部20が有す
る波形生成部に返送する。
【0056】なお、圧縮ピッチ素片データベース、連続
性テーブル、及びピッチインデックステーブルには、第
2の実施の形態と同様に、音声合成用素片作成装置によ
って音声合成に必要な情報がそれぞれ蓄積される。
【0057】(第4の実施の形態)次に本発明の第4の
実施の形態について図面を参照して説明する。
【0058】本実施形態では、図2に示した音声合成装
置が有する圧縮ピッチ素片データベース及び連続性テー
ブルを作成するための音声合成用素片作成装置について
説明する。
【0059】図4は本発明の音声合成装置の第4の実施
の形態を示す図であり、音声合成用素片作成装置の構成
を示すブロック図である。
【0060】図4に示すように、本実施形態の音声合成
用素片作成装置は、音声データベース15と、音響分析
・ラベル付与部31と、登録音声素片選択部32と、ピ
ッチ素片コーパス16と、連続代表ピッチ素片決定部3
3と、ピッチ素片登録部34と、連続性テーブル生成部
35とを有する構成である。
【0061】音声データベース15には、予め人が発声
した音声が収録され、音声波形として登録されている。
【0062】音響分析・ラベル付与部31は、図5に示
すように、複数の発話(図5では元波形A、B)から得
られる音声波形に対してそれぞれラベルを付与し、ケプ
ストラム(cepstrum)分析等による音響分析を行い、有
声音に関する各ピッチ素片をそれぞれ抽出する。そし
て、これらの処理結果から、ラベル、ピッチ素片、元の
音声波形における順序や連続性に関する情報、及びその
他の音響分析結果を合わせた分析済音声情報を作成す
る。
【0063】登録音声素片選択部32は、分析済音声情
報のうち、ラベル情報を参照して実際に登録するピッチ
素片を含む部位だけを取り出し、ピッチ素片コーパス1
6に保存する。
【0064】連続代表ピッチ素片決定部33は、ピッチ
素片コーパス16に登録された分析済音声情報のうち、
連続した区間内で同じピッチ素片であると見なすことの
できる範囲を選定する。同じピッチ素片であると見なせ
るとは、あるピッチ素片の振幅を拡大あるいは縮小して
置き換えても音質的に大きな変化が生じないことを言
う。例えば、分析済音声情報に含まれる音響分析の結果
のうち、ケプストラム値の差が予め設定された規定値よ
りも小さなピッチ素片は同じピッチ素片であると見なす
ことができる。また、連続代表ピッチ素片決定部33
は、同じピッチ素片であると見なせる範囲については代
表のピッチ素片を選定する。代表ピッチ素片を選択する
方法としては、例えば、範囲の先頭のピッチ素片を選択
する方法、あるいは範囲内で最も振幅の大きいピッチ素
片を選択する方法がある。
【0065】ピッチ素片登録部34は、図6に示すよう
に、連続代表ピッチ素片決定部33で選定された同じピ
ッチ素片であると見なせる範囲については代表のピッチ
素片を登録し、それ以外の範囲については全てのピッチ
素片をそれぞれ圧縮ピッチ素片データベースに登録す
る。
【0066】連続性テーブル生成部35は、図6に示す
ように、各ピッチ素片毎にピッチ番号とその連続する個
数を登録する。また、1つのピッチ素片で代表できる範
囲については、その連続する個数と代表ピッチ素片に対
する振幅倍率とをそれぞれ連続性テーブルに登録する。
【0067】なお、連続代表ピッチ素片決定部33は、
連続した区間内で同じピッチ素片であると見なすことの
できる範囲を選定する際に、予め決められた個数以上の
ピッチ素片を含まないようにすることが好ましい。その
場合、ビープ音を発声することによる合成音の自然性の
劣化が防止され、合成音の音質劣化が軽減される。
【0068】(第5の実施の形態)次に本発明の第5の
実施の形態について図面を参照して説明する。
【0069】本実施形態では、図2に示した音声合成装
置が有する圧縮ピッチ素片データベース及びピッチイン
デックステーブルを作成するための音声合成用素片作成
装置について説明する。
【0070】図7は本発明の音声合成装置の第5の実施
の形態を示す図であり、音声合成用素片作成装置の構成
を示すブロック図である。
【0071】図7に示すように、本実施形態の音声合成
用素片作成装置は、音響分析・ラベル付与部と、登録音
声素片選択部と、ピッチ素片コーパスと、代表ピッチ素
片決定部36と、ピッチ素片登録部と、ピッチインデッ
クステーブル生成部37とを有する構成である。音響分
析・ラベル付与部、登録音声素片選択部、ピッチ素片コ
ーパス、及びピッチ素片登録部の動作は、第4の実施の
形態と同様であるため、その説明は省略する。
【0072】代表ピッチ素片決定部36は、図8に示す
ように、ピッチ素片コーパスに登録された分析済音声情
報のうち、元発話の全てのピッチ素片から同じピッチ素
片であると見なすことのできる組を選定する。ここで、
同じピッチ素片であると見なせるとは、あるピッチ素片
の振幅を拡大あるいは縮小することで他の素片に置き換
えても音質的に大きな変化が無いことを言う。例えば、
分析済音声情報に含まれる音響分析結果のうち、ケプス
トラム値の差が予め設定された規定値よりも小さなピッ
チ素片を同じピッチ素片と見なすことができる。また、
代表ピッチ素片決定部36は、同じピッチ素片であると
見なせる組については代表のピッチ素片を選定する。各
組の中で代表のピッチ素片を選択する方法としては、例
えば、組内のピッチ素片のうち最も振幅の大きなピッチ
素片を登録する方法がある。
【0073】ピッチ素片登録部は、代表ピッチ素片決定
部36で認定された同じピッチ素片であると見なすこと
のできる組については代表のピッチ素片を圧縮ピッチ素
片データベースに登録し、どの組にも属さないピッチ素
片については全て圧縮ピッチ素片データベースに登録す
る。
【0074】ピッチインデックステーブル生成部37
は、各ピッチインデックスと、それに対応して登録され
たピッチ素片のピッチ番号、該ピッチ番号のピッチ素片
の代表ピッチ素片に対する振幅倍率をピッチインデック
ステーブルに登録する。また、該ピッチ番号のピッチ素
片を時間方向にシフトさせるためのサンプル数を計算
し、それらの計算結果をピッチインデックステーブルに
それぞれ登録する。
【0075】なお、代表ピッチ素片決定部36は、同じ
ピッチ素片であると見なすことのできる組を選定する際
に、予め決められた個数以上のピッチ素片、ないしは予
め決められた個数以上の連続したピッチ素片を含まない
ようにすることが好ましい。その場合、ビープ音を発声
することによる合成音の自然性の劣化が防止され、合成
音の音質劣化が軽減される。
【0076】(第6の実施の形態)図9は本発明の音声
合成装置の第6の実施の形態を示す図であり、音声合成
用素片作成装置の構成を示すブロック図である。
【0077】図9に示すように、第6の実施の形態の音
声合成用素片作成装置は、第5の実施の形態で示した音
声合成用素片作成装置に、クラス分別部38と、複数の
ピッチ素片部分コーパス17と、複数の代表ピッチ素片
決定部とを有する構成である。
【0078】クラス分別部38は、音響分析・ラベル付
与部で付与されたラベルに基づいて、ピッチ素片コーパ
ス内のピッチ素片を複数のピッチ素片部分コーパス17
に分割する。この分割後のピッチ素片の集合をそれぞれ
クラスと称する。クラスに分割するための分割基準は、
ピッチ素片が所属する音素、ピッチ素片が所属する音素
の直前音素、ピッチ素片が所属する音素の直後音素を用
いて予め決めておく。クラスには、例えば、母音(あ、
い、う、え、お)のクラス、文頭に位置するb音(ば、
び、ぶ、べ、ぼの子音部分)のクラス、文頭以外に位置
するb音のクラス等がある。
【0079】代表ピッチ素片決定部は、ピッチ素片部分
コーパスに登録された分析済音声情報のうち、それぞれ
のクラスの全てのピッチ素片に対して第5の実施の形態
と同様の処理を行う。
【0080】ピッチ素片登録部及びピッチインデックス
テーブル生成部は、全てのクラスの代表ピッチ素片決定
部の出力結果を受けて、第5の実施の形態と同様の処理
を行う。
【0081】本実施形態のようにピッチ素片を複数のク
ラスに分割することで、各々のクラスで同じと見なせる
ピッチ素片の数あるいは組が増えるため、音声合成装置
が有する圧縮ピッチ素片データベースの記憶容量をさら
に小さくすることができる。
【0082】また、同じピッチ素片が音声合成時に使わ
れる可能性が高くなるため、キャッシュ処理部からピッ
チ素片が得られる確率がより高くなり、音声合成処理に
おける計算量がより低減する。
【0083】(第7の実施の形態)図10は本発明の音
声合成装置の第7の実施の形態を示す図であり、音声合
成用素片作成装置の構成を示すブロック図である。
【0084】図10に示すように、本実施形態の音声合
成用素片作成装置は、第4の実施の形態で示した連続代
表ピッチ素片決定部により、連続した区間内で同じピッ
チ素片であると見なすことのできる範囲を求めた後、第
5の実施の形態で示した代表ピッチ素片決定部で同じピ
ッチ素片であると見なすことのできる組を選定する構成
である。
【0085】但し、本実施形態の音声合成用素片作成装
置では、連続代表ピッチ素片決定部により選定された、
連続した区間内で同じピッチ素片であると見なすことの
できる範囲のピッチ素片については、代表ピッチ素片決
定部で選定する代表ピッチ素片の対象としない。
【0086】(第8の実施の形態)図11は本発明の音
声合成装置の第8の実施の形態を示す図であり、音声合
成用素片作成装置の構成を示すブロック図である。
【0087】図11に示すように、本実施形態の音声合
成用素片作成装置は、第4の実施の形態で示した連続代
表ピッチ素片決定部により、連続した区間内で同じピッ
チ素片であると見なすことのできる範囲を求めた後、第
6の実施の形態で示したクラス分別部により各ピッチ素
片をそれぞれ所定のクラスに分割し、各クラス毎に、同
じピッチ素片と見なすことのできる組を代表ピッチ素片
決定部でそれぞれ選定する構成である。
【0088】但し、本実施形態の音声合成用素片作成装
置では、連続代表ピッチ素片決定部により選定された、
連続した区間内で同じピッチ素片であると見なすことの
できる範囲のピッチ素片については、代表ピッチ素片決
定部で選定する代表ピッチ素片の対象としない。
【0089】(第9の実施の形態)第9の実施の形態の
音声合成用素片作成装置は、代表ピッチ素片決定部の処
理が第5の実施の形態、あるいは第6の実施の形態と異
なっている。その他の構成は第5の実施の形態と同様で
あるため、その説明は省略する。
【0090】本実施形態の代表ピッチ素片決定部は、ピ
ッチ素片が属する組を選択する際に前後のピッチ素片が
所属する組の情報を使って代表のピッチ素片が時間的に
連続するように選択する。
【0091】具体的には、図12(a)に示すように、
予め代表のピッチ素片を幾つか用意しておき、各ピッチ
素片の音声特徴ベクトル上における距離が小さくなる代
表ピッチ素片の組に属するようにする。
【0092】例えば、発話が時刻遷移に伴って図12
(a)中の矢印のように特徴ベクトル空間を移動する場
合、最も近い代表素片は時刻と共に変化し、各ピッチ素
片の各時刻における代表素片は、C→C→A→C→B→
B→Dの順に選択される。
【0093】ここで、C→A→Cの遷移に着目して時間
的な連続性を考慮すると、図12(b)に示すように、
時刻t3におけるピッチ素片の属する組の代表ピッチ素
片は、前後の組に一致させて代表素片Cである方が好ま
しい。このような処理は、DPマッチングの手法を使う
ことで容易に実現できる。
【0094】本実施形態のように、同じと見なせるピッ
チ素片の組を求める際に時間的な連続性を考慮すること
で、元発話の特性がゆるやかに遷移する場合に、それぞ
れのピッチ素片が複数の代表ピッチ素片の間を行き来す
ることが低減するため、合成音がブツブツ途切れるなど
の異音が軽減される。
【0095】(第10の実施の形態)図13は本発明の
音声合成装置の第10の実施の形態を示す図であり、音
声合成用素片作成装置の構成を示すブロック図である。
【0096】図13に示すように、本実施形態の音声合
成用素片作成装置は、第6の実施の形態で示した音声合
成用素片作成装置に、位相置換用クラス分別部41と、
2つのピッチ素片部分コーパス17と、位相置換部42
と、位相置換済みピッチ素片コーパス18とを追加した
構成である。
【0097】位相置換用クラス分別部41は、音響分析
・ラベル付与部で付与されたラベルに基づいてピッチ素
片コーパス中のピッチ素片を2つのクラスのピッチ素片
部分コーパスに分割する。この2つクラスのピッチ素片
部分コーパス17を、以下では、クラスA、クラスBと
するが、分割基準には該当ピッチ素片が属する音素ある
いは音素環境を用いる。どの音素がどのクラスに所属す
るかは予め決めておく。
【0098】位相置換部42は、クラスAに関するピッ
チ素片部分コーパスについて、所属する全てのピッチ素
片の位相を予め用意した位相情報で置換する。具体的に
は、ピッチ素片をFFT(高速離散フーリエ変換)した
後に極座標化によって振幅成分と位相成分とをそれぞれ
計算し、位相成分を置換した後に直交座標化と逆FFT
を行なうことで実現できる。
【0099】位相置換済みピッチ素片コーパス18に
は、位相置換部42で位相情報が置換されたピッチ素片
と、それを通らないクラスBに属するピッチ素片部分コ
ーパスのピッチ素片とがそれぞれ登録される。
【0100】クラス分別部38は、位相置換済みピッチ
素片コーパス18に登録されたピッチ素片に対して第5
の実施の形態と同様の処理を行う。
【0101】なお、位相置換用クラス分別部41とクラ
ス分別部38とは、一般に、それぞれが異なる分割基準
でピッチ素片をクラスに分割する。
【0102】本実施形態の音声合成用素片作成装置で生
成されたピッチインデックステーブルを用いて音声合成
することで、よく似たスペクトル構造を持つが位相構造
が異なるために同じピッチ素片と見なされなかったピッ
チ素片が、位相置換を行なうことで同じピッチ素片と見
なされるようになる。人間の聴覚はスペクトルの変化に
比べて位相の変化には鈍感であるため、このような処理
を行っても音質の変化を小さく留めることができる。
【0103】したがって、より多くのピッチ素片が同じ
ピッチ素片と見なされる組に含まれるようになるため、
圧縮ピッチ素片データベースのファイル容量を低減でき
る。また、音声合成に必要なピッチ素片をキャッシュ処
理部からより高い確率で得ることができるため、圧縮さ
れたピッチ素片を再生するための計算量を低減できる。
【0104】さらに、位相置換によって隣接するピッチ
素片どうしの位相関係が揃うため、位相の急変による音
質劣化が軽減され、音声合成装置で合成された音声の中
に異音が発生する可能性が低下して音質が安定する。
【0105】(第11の実施の形態)図14は本発明の
音声合成装置の第11の実施の形態の構成を示すブロッ
ク図である。
【0106】図14に示すように、本実施形態の音声合
成装置は、ワークステーション・サーバコンピュータや
パーソナル・コンピュータ等の情報処理装置であり、プ
ログラムにしたがって所定の処理を実行する処理装置1
00と、処理装置100に対してコマンドや情報等を入
力するための入力装置200と、処理装置100の処理
結果をモニタするための出力装置300とを有する構成
である。
【0107】処理装置100は、CPU111と、CP
U111の処理に必要な情報を一時的に記憶する主記憶
装置112と、CPU111に本発明の音声合成処理を
実行させるための制御プログラムが記録された記録媒体
113と、音声合成に必要な各種情報を記録保持するデ
ータ蓄積装置114と、主記憶装置112、記録媒体1
13、及びデータ蓄積装置114とのデータ転送を制御
するメモリ制御インタフェース部115と、入力装置2
00及び出力装置300とのインタフェース装置である
I/Oインタフェース部116とを備え、それらがバス
118を介して接続された構成である。
【0108】処理装置100は、記録媒体113に記録
された制御プログラムを読み込み、該制御プログラムに
したがって上述した音声合成装置が有する構成要素の処
理をそれぞれ実行する。記録媒体113は、磁気ディス
ク、半導体メモリ、光ディスクあるいはその他の記録媒
体であってもよい。
【0109】主記憶装置112には上述したキャッシュ
メモリが含まれ、データ蓄積装置114は、単位インデ
ックス、圧縮ピッチ素片データベース、連続性テーブ
ル、及びピッチインデックステーブルとして用いられ
る。
【0110】なお、図14に示した情報処理装置は、第
4の実施の形態〜第10の実施の形態で示した音声合成
用素片作成装置としても動作する。その場合、処理装置
100は、記録媒体113に記録された制御プログラム
にしたがって上述した音声合成用素片作成装置の各構成
要素の処理をそれぞれ実行する。また、データ蓄積装置
114は、音声データベース、ピッチ素片コーパス、ピ
ッチ素片部分コーパス、及び位置置換ピッチ素片コーパ
スとしても用いられる。
【0111】このような構成であっても、上述した第1
の実施の形態〜第10の実施の形態で示した音声合成装
置あるいは音声合成用素片作成装置と同様の処理を行う
ことが可能であり、同じ効果を得ることができる。
【0112】
【発明の効果】本発明は以上説明したように構成されて
いるので、以下に記載する効果を奏する。
【0113】音声波形合成で既に使用された音声波形素
片を一時的に保持すると共に、音声波形合成に必要な音
声波形素片が要求された場合に、要求された音声波形素
片を既に保持している場合は該音声波形素片を要求元に
返送し、保持していない場合はピッチ展開部を介して圧
縮ピッチ素片データベースから該音声波形素片を取得
し、得られた音声波形素片を保持すると共に要求元に返
送するキャッシュ処理部を有することで、キャッシュ処
理部に音声波形素片が既に保持されている場合はそのま
ま音声合成に使用されるため、圧縮ピッチ素片データベ
ースに蓄積された圧縮データを読み出して伸張する必要
がない。したがって、従来に比べて圧縮データを伸張す
るための計算量を低減できる。
【0114】また、連続する複数の音声波形素片を1つ
の代表の音声波形素片に置き換えることができる場合
に、該音声波形素片の連続する個数、及び代表の音声波
形素片に対する各音声波形素片毎の振幅倍率がそれぞれ
蓄積される連続性テーブルと、音声波形合成に必要な音
声波形素片が要求された場合に、連続性テーブルを参照
してキャッシュ処理部から該音声波形素片を取得し、振
幅倍率の値で該音声波形素片を増幅して該音声波形素片
の要求元に返送するピッチインデックス変換部とを有す
ることで、圧縮ピッチ素片データベースに蓄積する複数
の音声波形素片を1つの代表の音声波形素片に置き換え
ることができる。したがって、圧縮ピッチ素片データベ
ースの記憶容量を低減することができる。
【0115】同様に、複数の音声波形素片を1つの代表
の音声波形素片に置き換えることができる場合に、代表
の音声波形素片に対する各音声波形素片毎の振幅倍率、
及び音声波形素片を時間方向にシフトさせるためのサン
プル数がそれぞれ蓄積されるピッチインデックステーブ
ルと、音声波形合成に必要な音声波形素片が要求された
場合に、ピッチインデックステーブルを参照してキャッ
シュ処理部から該音声波形素片を取得し、振幅倍率の値
で該音声波形素片を増幅し、サンプル数で該音声波形素
片を時間方向にシフトさせて該音声波形素片の要求元に
返送するピッチインデックス変換部とを有することで、
圧縮ピッチ素片データベースに蓄積する複数の音声波形
素片を1つの代表の音声波形素片に置き換えることがで
きる。したがって、圧縮ピッチ素片データベースの記憶
容量を低減することができる。
【図面の簡単な説明】
【図1】本発明の音声合成装置の第1の実施の形態の構
成を示すブロック図である。
【図2】本発明の音声合成装置の第2の実施の形態の構
成を示すブロック図である。
【図3】本発明の音声合成装置の第3の実施の形態の構
成を示すブロック図である。
【図4】本発明の音声合成装置の第4の実施の形態を示
す図であり、音声合成用素片作成装置の構成を示すブロ
ック図である。
【図5】図4に示した音声合成用素片作成装置の処理の
様子を示す模式図である。
【図6】図4に示した音声合成用素片作成装置で連続性
テーブルが生成される様子を示す模式図である。
【図7】本発明の音声合成装置の第5の実施の形態を示
す図であり、音声合成用素片作成装置の構成を示すブロ
ック図である。
【図8】図7に示した音声合成用素片作成装置でピッチ
インデックステーブルが生成される様子を示す模式図で
ある。
【図9】本発明の音声合成装置の第6の実施の形態を示
す図であり、音声合成用素片作成装置の構成を示すブロ
ック図である。
【図10】本発明の音声合成装置の第7の実施の形態を
示す図であり、音声合成用素片作成装置の構成を示すブ
ロック図である。
【図11】本発明の音声合成装置の第8の実施の形態を
示す図であり、音声合成用素片作成装置の構成を示すブ
ロック図である。
【図12】本発明の音声合成装置の第9の実施の形態を
示す図であり、音声合成用素片作成装置が有する代表ピ
ッチ素片決定部の処理の様子を示す模式図である。
【図13】本発明の音声合成装置の第10の実施の形態
を示す図であり、音声合成用素片作成装置の構成を示す
ブロック図である。
【図14】本発明の音声合成装置の第11の実施の形態
の構成を示すブロック図である。
【符号の説明】
1 音声合成用素片作成装置 11 単位インデックス 12 圧縮ピッチ素片データベース 13 連続性テーブル 14 ピッチインデックステーブル 15 音声データベース 16 ピッチ素片コーパス 17 ピッチ素片部分コーパス 18 位置置換済ピッチ素片コーパス 20 音声合成部 21 入力部 22 韻律生成部 23 単位選択部 24 波形生成部 25 キャッシュ処理部 26 ピッチ展開部 27 ピッチインデックス変換部 31 音響分析・ラベル付与部 32 登録音声素片選択部 33 連続代表ピッチ素片決定部 34 ピッチ素片登録部 35 連続性テーブル生成部 36 代表ピッチ素片決定部 37 ピッチインデックステーブル生成部 38 クラス分別部 41 位相置換用クラス分別部 42 位相置換部 100 処理装置 111 CPU 112 主記憶装置 113 記録媒体 114 データ蓄積装置 115 メモリ制御インタフェース部 116 I/Oインタフェース部 118 バス 200 入力装置 300 出力装置

Claims (37)

    【特許請求の範囲】
  1. 【請求項1】 複数の音声波形素片を重ね合わせて所望
    の音声波形を波形編集方式により合成する音声合成装置
    であって、 ピッチ単位で圧縮された音声波形素片をそれぞれ蓄積す
    る圧縮ピッチ素片データベースと、 音声波形合成に必要な音声波形素片を要求された場合
    に、該音声波形素片の圧縮データを前記圧縮ピッチ素片
    データベースから読み出し、読み出した圧縮データを伸
    張して元の音声波形素片を再生するピッチ展開部と、 音声波形合成で既に使用された音声波形素片を一時的に
    保持すると共に、音声波形合成に必要な音声波形素片が
    要求された場合に、要求された音声波形素片を既に保持
    している場合は該音声波形素片を要求元に返送し、保持
    していない場合は前記ピッチ展開部を介して前記圧縮ピ
    ッチ素片データベースから該音声波形素片を取得し、得
    られた音声波形素片を保持すると共に前記要求元に返送
    するキャッシュ処理部と、を有する音声合成装置。
  2. 【請求項2】 連続する複数の音声波形素片を1つの代
    表の音声波形素片に置き換えることができる場合に、該
    音声波形素片の連続する個数、及び前記代表の音声波形
    素片に対する各音声波形素片毎の振幅倍率をそれぞれ蓄
    積する連続性テーブルと、 音声波形合成に必要な音声波形素片が要求された場合
    に、前記連続性テーブルを参照して前記キャッシュ処理
    部から該音声波形素片を取得し、前記振幅倍率の値で該
    音声波形素片を増幅して該音声波形素片の要求元に返送
    するピッチインデックス変換部と、を有し、 前記圧縮ピッチ素片データベースは、 前記代表の音声波形素片、及び前記代表の音声波形素片
    に置き換えることができない音声波形素片をそれぞれ蓄
    積する請求項1記載の音声合成装置。
  3. 【請求項3】 複数の音声波形素片を1つの代表の音声
    波形素片に置き換えることができる場合に、前記代表の
    音声波形素片に対する各音声波形素片毎の振幅倍率、及
    び音声波形素片を時間方向にシフトさせるためのサンプ
    ル数をそれぞれ蓄積するピッチインデックステーブル
    と、 音声波形合成に必要な音声波形素片が要求された場合
    に、前記ピッチインデックステーブルを参照して前記キ
    ャッシュ処理部から該音声波形素片を取得し、前記振幅
    倍率の値で該音声波形素片を増幅し、前記サンプル数で
    該音声波形素片を時間方向にシフトさせて該音声波形素
    片の要求元に返送するピッチインデックス変換部と、を
    有し、 前記圧縮ピッチ素片データベースは、 前記代表の音声波形素片、及び前記代表の音声波形素片
    に置き換えることができない音声波形素片をそれぞれ蓄
    積する請求項1記載の音声合成装置。
  4. 【請求項4】 連続する複数の音声波形素片を1つの代
    表の音声波形素片に置き換えることができる場合に、該
    音声波形素片の連続する個数、及び前記代表の音声波形
    素片に対する各音声波形素片毎の振幅倍率をそれぞれ蓄
    積する連続性テーブルと、 複数の音声波形素片を1つの代表の音声波形素片に置き
    換えることができる場合に、前記代表の音声波形素片に
    対する各音声波形素片毎の振幅倍率、及び音声波形素片
    を時間方向にシフトさせるためのサンプル数をそれぞれ
    蓄積するピッチインデックステーブルと、 音声波形合成に必要な音声波形素片が要求された場合
    に、前記連続性テーブルまたは前記ピッチインデックス
    テーブルの少なくともいずれか一方を参照して前記キャ
    ッシュ処理部から該音声波形素片を取得し、少なくとも
    前記振幅倍率の値で該音声波形素片を増幅して該音声波
    形素片の要求元に返送するピッチインデックス変換部
    と、を有し、 前記圧縮ピッチ素片データベースは、 前記代表の音声波形素片、及び前記代表の音声波形素片
    に置き換えることができない音声波形素片をそれぞれ蓄
    積する請求項1記載の音声合成装置。
  5. 【請求項5】 人が発声した元発話の音声波形から複数
    の音声波形素片を抽出し、抽出した音声波形素片から音
    声合成に必要な音声波形素片を選定するための情報を生
    成する音声合成用素片作成装置であって、 元発話を構成する全ての音声波形素片のうち、連続した
    区間内で同じ音声波形素片であると見なすことができる
    範囲を選定し、前記範囲内の音声波形素片から代表の音
    声波形素片を選定する連続代表ピッチ素片決定部と、 前記代表の音声波形素片、及び前記範囲外の音声波形素
    片をそれぞれ圧縮してデータベースに蓄積するピッチ素
    片登録部と、 前記範囲内の音声波形素片の連続する個数、及び前記代
    表の音声波形素片に対する各音声波形素片毎の振幅倍率
    を計算し、テーブル形式で記憶装置に蓄積する連続性テ
    ーブル生成部と、を有する音声合成用素片作成装置。
  6. 【請求項6】 前記連続代表ピッチ素片決定部は、 前記範囲に含まれる音声波形素片を予め決められた個数
    よりも少ない数に設定する請求項5記載の音声合成用素
    片作成装置。
  7. 【請求項7】 人が発声した元発話の音声波形から複数
    の音声波形素片を抽出し、抽出した音声波形素片から音
    声合成に必要な音声波形素片を選定するための情報を生
    成する音声合成用素片作成装置であって、 元発話を構成する全ての音声波形素片のうち、同じ音声
    波形素片であると見なすことができる組を選定し、前記
    組内の音声波形素片から代表の音声波形素片を選定する
    代表ピッチ素片決定部と、 前記代表の音声波形素片、及び前記組外の音声波形素片
    をそれぞれ圧縮してデータベースに蓄積するピッチ素片
    登録部と、 前記組内の各音声波形素片毎の前記代表の音声波形素片
    に対する振幅倍率、及び音声波形素片を時間方向にシフ
    トさせるためのサンプル数を計算し、テーブル形式で記
    憶装置に蓄積するピッチインデックステーブル生成部
    と、を有する音声合成用素片作成装置。
  8. 【請求項8】 前記代表ピッチ素片決定部は、 前記組に含まれる音声波形素片を予め決められた個数よ
    りも少ない数に設定する請求項7記載の音声合成用素片
    作成装置。
  9. 【請求項9】 人が発声した元発話の音声波形から複数
    の音声波形素片を抽出し、抽出した音声波形素片から音
    声合成に必要な音声波形素片を選定するための情報を生
    成する音声合成用素片作成装置であって、 元発話を構成する全ての音声波形素片のうち、連続した
    区間内で同じ音声波形素片であると見なすことができる
    範囲を選定し、前記範囲内の音声波形素片から代表の音
    声波形素片を選定する連続代表ピッチ素片決定部と、 前記連続代表ピッチ素片決定部による選定結果に対し
    て、同じ音声波形素片であると見なすことができる組を
    選定し、前記組内の音声波形素片から代表の音声波形素
    片を選定する代表ピッチ素片決定部と、 前記組内の代表の音声波形素片、及び前記組外の音声波
    形素片をそれぞれ圧縮してデータベースに蓄積するピッ
    チ素片登録部と、 前記範囲内の音声波形素片の個数、及び前記代表の音声
    波形素片に対する各音声波形素片毎の振幅倍率を計算
    し、テーブル形式で記憶装置に蓄積する連続性テーブル
    生成部と、 前記組内の各音声波形素片毎の前記代表の音声波形素片
    に対する振幅倍率、及び音声波形素片を時間方向にシフ
    トさせるためのサンプル数を計算し、テーブル形式で記
    憶装置に蓄積するピッチインデックステーブル生成部
    と、を有する音声合成用素片作成装置。
  10. 【請求項10】 前記連続代表ピッチ素片決定部は、 前記範囲に含まれる音声波形素片を予め決められた個数
    よりも少ない数に設定し、 前記代表ピッチ素片決定部は、 前記組に含まれる音声波形素片を予め決められた個数よ
    りも少ない数に設定する請求項9記載の音声合成用素片
    作成装置。
  11. 【請求項11】 音声波形素片が所属する音素、音声波
    形素片が所属する音素の直前音素、及び音声波形素片が
    所属する音素の直後音素を用いて予め設定された複数の
    クラスに、前記連続代表ピッチ素片決定部による選定結
    果を含めて音声波形素片を分割するクラス分別部を有
    し、 前記代表ピッチ素片決定部は、 前記クラス毎に、同じ音声波形素片であると見なすこと
    ができる組をそれぞれ選定する請求項6乃至10のいず
    れか1項記載の音声合成用素片作成装置。
  12. 【請求項12】 前記代表ピッチ素片決定部は、 前記組内の音声波形素片から代表の音声波形素片を選定
    する際に、直前直後の組の代表の音声波形素片と時間的
    に連続する音声波形素片を選定する請求項6乃至11の
    いずれか1項記載の音声合成用素片作成装置。
  13. 【請求項13】 音素、あるいは音素環境に応じて予め
    決められた音声波形素片に対し、所定の位相置換を行う
    位相置換部を有する請求項6乃至12のいずれか1項記
    載の音声合成用素片作成装置。
  14. 【請求項14】 複数の音声波形素片を重ね合わせて所
    望の音声波形を波形編集方式により合成するための音声
    合成方法であって、 予めピッチ単位で圧縮された音声波形素片をデータベー
    スに蓄積しておき、 音声波形合成に必要な音声波形素片が要求された場合
    に、要求された音声波形素片をキャッシュメモリで既に
    保持している場合は該音声波形素片を要求元に返送し、 前記キャッシュメモリで保持していない場合は、該音声
    波形素片の圧縮データを前記圧縮ピッチ素片データベー
    スから読み出し、読み出した圧縮データを伸張して元の
    音声波形素片を再生し、 再生された音声波形素片を前記キャッシュメモリで保持
    すると共に前記要求元に返送する音声合成方法。
  15. 【請求項15】 連続する複数の音声波形素片を1つの
    代表の音声波形素片に置き換えることができる場合、該
    音声波形素片の連続する個数、及び前記代表の音声波形
    素片に対する各音声波形素片毎の振幅倍率を予め記憶装
    置に蓄積しておき、 音声波形合成に必要な音声波形素片が要求された場合
    に、前記キャッシュメモリから該音声波形素片を取得
    し、 前記振幅倍率の値で増幅して該音声波形素片の要求元に
    返送する請求項14記載の音声合成方法。
  16. 【請求項16】 複数の音声波形素片を1つの代表の音
    声波形素片に置き換えることができる場合、前記代表の
    音声波形素片に対する各音声波形素片毎の振幅倍率、及
    び音声波形素片を時間方向にシフトさせるためのサンプ
    ル数を予め記憶装置に蓄積しておき、 音声波形合成に必要な音声波形素片が要求された場合
    に、前記キャッシュメモリから該音声波形素片を取得
    し、 前記振幅倍率の値で取得した音声波形素片を増幅し、前
    記サンプル数で該音声波形素片を時間方向にシフトさせ
    て前記要求元に返送する請求項14記載の音声合成方
    法。
  17. 【請求項17】 人が発声した元発話の音声波形から複
    数の音声波形素片を抽出し、抽出した音声波形素片から
    音声合成に必要な音声波形素片を選定するための情報を
    生成する音声合成用素片作成方法であって、 元発話を構成する全ての音声波形素片のうち、連続した
    区間内で同じ音声波形素片であると見なすことができる
    範囲を選定し、前記範囲内の音声波形素片から代表の音
    声波形素片を選定し、 前記代表の音声波形素片、及び前記範囲外の音声波形素
    片をそれぞれ圧縮してデータベースに蓄積し、 前記範囲内の音声波形素片の連続する個数、及び前記代
    表の音声波形素片に対する各音声波形素片毎の振幅倍率
    を計算し、テーブル形式で記憶装置に蓄積する音声合成
    用素片作成方法。
  18. 【請求項18】 前記範囲に含まれる音声波形素片を予
    め決められた個数よりも少ない数に設定する請求項17
    記載の音声合成用素片作成方法。
  19. 【請求項19】 人が発声した元発話の音声波形から複
    数の音声波形素片を抽出し、抽出した音声波形素片から
    音声合成に必要な音声波形素片を選定するための情報を
    生成する音声合成用素片作成方法であって、 元発話を構成する全ての音声波形素片のうち、同じ音声
    波形素片であると見なすことができる組を選定し、前記
    組内の音声波形素片から代表の音声波形素片を選定し、 前記代表の音声波形素片、及び前記組外の音声波形素片
    をそれぞれ圧縮してデータベースに蓄積し、 前記組内の各音声波形素片毎の前記代表の音声波形素片
    に対する振幅倍率、及び音声波形素片を時間方向にシフ
    トさせるためのサンプル数を計算し、テーブル形式で記
    憶装置に蓄積する音声合成用素片作成方法。
  20. 【請求項20】 前記組に含まれる音声波形素片を予め
    決められた個数よりも少ない数に設定する請求項19記
    載の音声合成用素片作成方法。
  21. 【請求項21】 人が発声した元発話の音声波形から複
    数の音声波形素片を抽出し、抽出した音声波形素片から
    音声合成に必要な音声波形素片を選定するための情報を
    生成する音声合成用素片作成方法であって、 元発話を構成する全ての音声波形素片のうち、連続した
    区間内で同じ音声波形素片であると見なすことができる
    範囲を選定し、前記範囲内の音声波形素片から代表の音
    声波形素片を選定し、 前記選定結果に対して、同じ音声波形素片であると見な
    すことができる組を選定し、前記組内の音声波形素片か
    ら代表の音声波形素片を選定し、 前記組内の代表の音声波形素片、及び前記組外の音声波
    形素片をそれぞれ圧縮してデータベースに蓄積し、 前記範囲内の音声波形素片の個数、及び前記代表の音声
    波形素片に対する各音声波形素片毎の振幅倍率を計算
    し、テーブル形式で記憶装置に蓄積し、 前記組内の各音声波形素片毎の前記代表の音声波形素片
    に対する振幅倍率、及び音声波形素片を時間方向にシフ
    トさせるためのサンプル数を計算し、テーブル形式で記
    憶装置に蓄積する音声合成用素片作成方法。
  22. 【請求項22】 前記範囲に含まれる音声波形素片を予
    め決められた個数よりも少ない数に設定し、 前記組に含まれる音声波形素片を予め決められた個数よ
    りも少ない数に設定する請求項21記載の音声合成用素
    片作成方法。
  23. 【請求項23】 音声波形素片が所属する音素、音声波
    形素片が所属する音素の直前音素、及び音声波形素片が
    所属する音素の直後音素を用いて予め設定された複数の
    クラスに、前記連続代表ピッチ素片決定部による選定結
    果を含めて音声波形素片を分割し、 前記クラス毎に、同じ音声波形素片であると見なすこと
    ができる組をそれぞれ選定する請求項19乃至22のい
    ずれか1項記載の音声合成用素片作成方法。
  24. 【請求項24】 前記組内の音声波形素片から代表の音
    声波形素片を選定する際に、直前直後の組の代表の音声
    波形素片と時間的に連続する音声波形素片を選定する請
    求項19乃至23のいずれか1項記載の音声合成用素片
    作成方法。
  25. 【請求項25】 音素、あるいは音素環境に応じて予め
    決められた音声波形素片に対して所定の位相置換を行う
    請求項19乃至24のいずれか1項記載の音声合成用素
    片作成方法。
  26. 【請求項26】 複数の音声波形素片を重ね合わせて所
    望の音声波形を波形編集方式によりコンピュータに合成
    させるためのプログラムであって、 予めピッチ単位で圧縮された音声波形素片を記憶装置に
    蓄積しておき、 音声波形合成に必要な音声波形素片が要求された場合
    に、要求された音声波形素片をキャッシュメモリで既に
    保持している場合は該音声波形素片を要求元に返送さ
    せ、 前記キャッシュメモリで保持していない場合は、該音声
    波形素片の圧縮データを前記圧縮ピッチ素片データベー
    スから読み出し、読み出した圧縮データを伸張して元の
    音声波形素片を再生させ、 再生された音声波形素片を前記キャッシュメモリに保持
    させると共に前記要求元に返送させるためのプログラ
    ム。
  27. 【請求項27】 予め連続する複数の音声波形素片を1
    つの代表の音声波形素片に置き換えることができる場合
    に、該音声波形素片の連続する個数、及び前記代表の音
    声波形素片に対する各音声波形素片毎の振幅倍率を記憶
    装置に蓄積させ、 音声波形合成に必要な音声波形素片が要求された場合
    に、前記キャッシュメモリから該音声波形素片を取得さ
    せ、 前記振幅倍率の値で該音声波形素片を増幅して該音声波
    形素片の要求元に返送させるための請求項26記載のプ
    ログラム。
  28. 【請求項28】 予め複数の音声波形素片を1つの代表
    の音声波形素片に置き換えることができる場合に、前記
    代表の音声波形素片に対する各音声波形素片毎の振幅倍
    率、及び音声波形素片を時間方向にシフトさせるための
    サンプル数を記憶装置に蓄積させ、 音声波形合成に必要な音声波形素片が要求された場合
    に、前記キャッシュメモリから該音声波形素片を取得さ
    せ、 前記振幅倍率の値で該音声波形素片を増幅し、前記サン
    プル数で該音声波形素片を時間方向にシフトさせて該音
    声波形素片の要求元に返送させるための請求項26記載
    のプログラム。
  29. 【請求項29】 人が発声した元発話の音声波形から複
    数の音声波形素片を抽出し、抽出した音声波形素片から
    音声合成に必要な音声波形素片を選定するための情報を
    コンピュータに生成させるためのプログラムであって、 元発話を構成する全ての音声波形素片のうち、連続した
    区間内で同じ音声波形素片であると見なすことができる
    範囲を選定させ、前記範囲内の音声波形素片から代表の
    音声波形素片を選定させ、 前記代表の音声波形素片、及び前記範囲外の音声波形素
    片をそれぞれ圧縮してデータベースに蓄積させ、 前記範囲内の音声波形素片の連続する個数、及び前記代
    表の音声波形素片に対する各音声波形素片毎の振幅倍率
    を計算させ、テーブル形式で記憶装置に蓄積させるため
    のプログラム。
  30. 【請求項30】 前記範囲に含まれる音声波形素片を予
    め決められた個数よりも少ない数に設定させるための請
    求項29記載のプログラム。
  31. 【請求項31】 人が発声した元発話の音声波形から複
    数の音声波形素片を抽出し、抽出した音声波形素片から
    音声合成に必要な音声波形素片を選定するための情報を
    コンピュータに生成させるためのプログラムであって、 元発話を構成する全ての音声波形素片のうち、同じ音声
    波形素片であると見なすことができる組を選定させ、前
    記組内の音声波形素片から代表の音声波形素片を選定さ
    せ、 前記代表の音声波形素片、及び前記組外の音声波形素片
    をそれぞれ圧縮してデータベースに蓄積させ、 前記組内の各音声波形素片毎の前記代表の音声波形素片
    に対する振幅倍率、及び音声波形素片を時間方向にシフ
    トさせるためのサンプル数を計算させ、テーブル形式で
    記憶装置に蓄積させるためのプログラム。
  32. 【請求項32】 前記組に含まれる音声波形素片を予め
    決められた個数よりも少ない数に設定させるための請求
    項30記載のプログラム。
  33. 【請求項33】 人が発声した元発話の音声波形から複
    数の音声波形素片を抽出し、抽出した音声波形素片から
    音声合成に必要な音声波形素片を選定するための情報を
    コンピュータに生成させるためのプログラムであって、 元発話を構成する全ての音声波形素片のうち、連続した
    区間内で同じ音声波形素片であると見なすことができる
    範囲を選定させ、前記範囲内の音声波形素片から代表の
    音声波形素片を選定させ、 前記選定結果に対して、同じ音声波形素片であると見な
    すことができる組を選定させ、前記組内の音声波形素片
    から代表の音声波形素片を選定させ、 前記組内の代表の音声波形素片、及び前記組外の音声波
    形素片をそれぞれ圧縮してデータベースに蓄積させ、 前記範囲内の音声波形素片の個数、及び前記代表の音声
    波形素片に対する各音声波形素片毎の振幅倍率を計算さ
    せ、テーブル形式で記憶装置に蓄積させ、 前記組内の各音声波形素片毎の前記代表の音声波形素片
    に対する振幅倍率、及び音声波形素片を時間方向にシフ
    トさせるためのサンプル数を計算させ、テーブル形式で
    記憶装置に蓄積させるためのプログラム。
  34. 【請求項34】 前記範囲に含まれる音声波形素片を予
    め決められた個数よりも少ない数に設定させ、 前記組に含まれる音声波形素片を予め決められた個数よ
    りも少ない数に設定させるための請求項33記載のプロ
    グラム。
  35. 【請求項35】 音声波形素片が所属する音素、音声波
    形素片が所属する音素の直前音素、及び音声波形素片が
    所属する音素の直後音素を用いて予め設定された複数の
    クラスに、前記連続代表ピッチ素片決定部による選定結
    果を含めて音声波形素片を分割させ、 前記クラス毎に、同じ音声波形素片であると見なすこと
    ができる組をそれぞれ選定させるための請求項31乃至
    34のいずれか1項記載のプログラム。
  36. 【請求項36】 前記組内の音声波形素片から代表の音
    声波形素片を選定する際に、直前直後の組の代表の音声
    波形素片と時間的に連続する音声波形素片を選定させる
    ための請求項31乃至35のいずれか1項記載のプログ
    ラム。
  37. 【請求項37】 音素、あるいは音素環境に応じて予め
    決められた音声波形素片に対して所定の位相置換を行わ
    せるための請求項31乃至36のいずれか1項記載のプ
    ログラム。
JP2001296742A 2001-09-27 2001-09-27 音声合成装置及び音声合成用素片作成装置 Pending JP2003108178A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001296742A JP2003108178A (ja) 2001-09-27 2001-09-27 音声合成装置及び音声合成用素片作成装置
US10/254,666 US7089187B2 (en) 2001-09-27 2002-09-26 Voice synthesizing system, segment generation apparatus for generating segments for voice synthesis, voice synthesizing method and storage medium storing program therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001296742A JP2003108178A (ja) 2001-09-27 2001-09-27 音声合成装置及び音声合成用素片作成装置

Publications (1)

Publication Number Publication Date
JP2003108178A true JP2003108178A (ja) 2003-04-11

Family

ID=19117931

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001296742A Pending JP2003108178A (ja) 2001-09-27 2001-09-27 音声合成装置及び音声合成用素片作成装置

Country Status (2)

Country Link
US (1) US7089187B2 (ja)
JP (1) JP2003108178A (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1234109C (zh) * 2001-08-22 2005-12-28 国际商业机器公司 语调生成方法、语音合成装置、语音合成方法及语音服务器
EP1471499B1 (en) 2003-04-25 2014-10-01 Alcatel Lucent Method of distributed speech synthesis
CN1787072B (zh) * 2004-12-07 2010-06-16 北京捷通华声语音技术有限公司 基于韵律模型和参数选音的语音合成方法
JP4516863B2 (ja) * 2005-03-11 2010-08-04 株式会社ケンウッド 音声合成装置、音声合成方法及びプログラム
US20070219799A1 (en) * 2005-12-30 2007-09-20 Inci Ozkaragoz Text to speech synthesis system using syllables as concatenative units
JP2007264503A (ja) * 2006-03-29 2007-10-11 Toshiba Corp 音声合成装置及びその方法
JP5032936B2 (ja) * 2007-10-04 2012-09-26 キヤノン株式会社 動画像符号化装置及びその制御方法
US9761219B2 (en) * 2009-04-21 2017-09-12 Creative Technology Ltd System and method for distributed text-to-speech synthesis and intelligibility
US8731931B2 (en) 2010-06-18 2014-05-20 At&T Intellectual Property I, L.P. System and method for unit selection text-to-speech using a modified Viterbi approach
CN104916284B (zh) * 2015-06-10 2017-02-22 百度在线网络技术(北京)有限公司 用于语音合成系统的韵律与声学联合建模的方法及装置
US11935515B2 (en) * 2020-12-25 2024-03-19 Meca Holdings IP LLC Generating a synthetic voice using neural networks
US20220409075A1 (en) * 2021-06-25 2022-12-29 Panasonic Intellectual Property Management Co., Ltd. Physiological condition monitoring system and method thereof

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5689800A (en) 1979-12-24 1981-07-21 Matsushita Electric Ind Co Ltd Voice synthesizer
JPS56106298A (en) 1980-01-28 1981-08-24 Matsushita Electric Ind Co Ltd Voice synthesizing system
JPS58178399A (ja) 1982-04-14 1983-10-19 日本電気株式会社 素片編集型音声合成装置
JPS60140299A (ja) 1983-12-27 1985-07-25 日本電気株式会社 素片編集型音声分析装置
JP2560277B2 (ja) 1985-10-21 1996-12-04 日本電気株式会社 音声合成方式
US4833718A (en) * 1986-11-18 1989-05-23 First Byte Compression of stored waveforms for artificial speech
US4852168A (en) * 1986-11-18 1989-07-25 Sprague Richard P Compression of stored waveforms for artificial speech
JPS6476100A (en) 1987-09-18 1989-03-22 Matsushita Electric Ind Co Ltd Voice compressor
JPH01195500A (ja) 1988-01-30 1989-08-07 Matsushita Electric Ind Co Ltd 音声圧縮記録・再生方法
JPH0242497A (ja) 1988-08-01 1990-02-13 Matsushita Electric Ind Co Ltd 音声記録再生装置
JP2709198B2 (ja) 1991-03-11 1998-02-04 日本電信電話株式会社 音声合成方法
JPH0568081A (ja) 1991-09-10 1993-03-19 Nec Commun Syst Ltd 音声応答装置
JP3151879B2 (ja) 1991-10-24 2001-04-03 日本電気株式会社 音声開発装置
JP2782147B2 (ja) * 1993-03-10 1998-07-30 日本電信電話株式会社 波形編集型音声合成装置
JP3450411B2 (ja) * 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
JP3093113B2 (ja) * 1994-09-21 2000-10-03 日本アイ・ビー・エム株式会社 音声合成方法及びシステム
GB2296846A (en) * 1995-01-07 1996-07-10 Ibm Synthesising speech from text
AU707489B2 (en) * 1995-04-12 1999-07-08 British Telecommunications Public Limited Company Waveform speech synthesis
JP3242331B2 (ja) * 1996-09-20 2001-12-25 松下電器産業株式会社 Vcv波形接続音声のピッチ変換方法及び音声合成装置
JP3349905B2 (ja) 1996-12-10 2002-11-25 松下電器産業株式会社 音声合成方法および装置
JPH1138989A (ja) * 1997-07-14 1999-02-12 Toshiba Corp 音声合成装置及び方法
US6304846B1 (en) * 1997-10-22 2001-10-16 Texas Instruments Incorporated Singing voice synthesis
US6180861B1 (en) 1998-05-14 2001-01-30 Sony Computer Entertainment Inc. Tone generation device and method, distribution medium, and data recording medium
JP3561654B2 (ja) 1999-03-18 2004-09-02 三洋電機株式会社 音声合成方法
JP3554513B2 (ja) 1999-11-30 2004-08-18 シャープ株式会社 音声合成装置とその方法及び音声合成プログラムを記録した記録媒体
JP4367808B2 (ja) 1999-12-03 2009-11-18 富士通株式会社 音声データ圧縮・解凍装置及び方法
JP2001324991A (ja) 2000-05-15 2001-11-22 Fujitsu Ten Ltd 音声合成装置、及び音声データ記憶媒体
GB0013241D0 (en) * 2000-05-30 2000-07-19 20 20 Speech Limited Voice synthesis
JP3613555B2 (ja) 2000-09-07 2005-01-26 日本輸送機株式会社 荷役車両
JP2002091475A (ja) 2000-09-18 2002-03-27 Matsushita Electric Ind Co Ltd 音声合成方法
JP2002258894A (ja) 2001-03-02 2002-09-11 Fujitsu Ltd 音声データ圧縮・解凍装置及び方法

Also Published As

Publication number Publication date
US7089187B2 (en) 2006-08-08
US20030061051A1 (en) 2003-03-27

Similar Documents

Publication Publication Date Title
JP3349905B2 (ja) 音声合成方法および装置
JP3361066B2 (ja) 音声合成方法および装置
US20200410981A1 (en) Text-to-speech (tts) processing
JP4516863B2 (ja) 音声合成装置、音声合成方法及びプログラム
JPS62160495A (ja) 音声合成装置
US10706837B1 (en) Text-to-speech (TTS) processing
WO2004097792A1 (ja) 音声合成システム
JPH06266390A (ja) 波形編集型音声合成装置
JP3673471B2 (ja) テキスト音声合成装置およびプログラム記録媒体
JP2003108178A (ja) 音声合成装置及び音声合成用素片作成装置
JP2001282278A (ja) 音声情報処理装置及びその方法と記憶媒体
JP4194656B2 (ja) 波形の合成
JP2000075883A (ja) 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体
Govind et al. Dynamic prosody modification using zero frequency filtered signal
US20010029454A1 (en) Speech synthesizing method and apparatus
JP4264030B2 (ja) 音声データ選択装置、音声データ選択方法及びプログラム
JP3109778B2 (ja) 音声規則合成装置
JP2002287784A (ja) 音声合成用圧縮素片作成装置、音声規則合成装置及びそれらに用いる方法並びにそのプログラム
WO2004027753A1 (en) Method of synthesis for a steady sound signal
JP2987089B2 (ja) 音声素片作成方法および音声合成方法とその装置
JPH11249676A (ja) 音声合成装置
JP7183556B2 (ja) 合成音生成装置、方法、及びプログラム
JP5322793B2 (ja) 音声合成装置及び音声合成方法
JP5089473B2 (ja) 音声合成装置及び音声合成方法
JPH08160991A (ja) 音声素片作成方法および音声合成方法、装置

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20041201

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20041201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050518

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050712

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050810