JP2003029774A - 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置 - Google Patents

音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置

Info

Publication number
JP2003029774A
JP2003029774A JP2001219513A JP2001219513A JP2003029774A JP 2003029774 A JP2003029774 A JP 2003029774A JP 2001219513 A JP2001219513 A JP 2001219513A JP 2001219513 A JP2001219513 A JP 2001219513A JP 2003029774 A JP2003029774 A JP 2003029774A
Authority
JP
Japan
Prior art keywords
voice
waveform
dictionary
speech
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001219513A
Other languages
English (en)
Inventor
Akira Mochizuki
亮 望月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2001219513A priority Critical patent/JP2003029774A/ja
Publication of JP2003029774A publication Critical patent/JP2003029774A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

(57)【要約】 【課題】 利用者の要求する話者の音色で電子メールな
どのテキスト情報を読み上げることが可能な音声波形辞
書配信システム、音声波形辞書作成装置、及び音声合成
端末装置を提供すること。 【解決手段】 音声波形辞書配信システム100は、音
声合成端末装置130の利用者が、要求する音声波形辞
書の作成条件を辞書条件入力部131から入力すると、
音声波形辞書作成装置110において、音声データベー
ス112a〜112cなどの複数の音声データベースを
用いて、音声合成端末装置130の利用者が要求する音
声波形辞書を作成し、作成した音声波形辞書をネットワ
ーク120を介して音声合成端末装置130の記録媒体
132に記録する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、配信されたテキス
ト文章を音声読み上げする携帯電話やモバイルコンピュ
ータなどの音声合成端末装置と、音声合成端末装置の利
用者の好みに応じた音声波形辞書を作成して音声合成端
末装置に送信する音声波形辞書作成装置と、音声合成端
末装置及び音声波形辞書作成装置から構成される音声波
形辞書配信システムとに関するものである。
【0002】
【従来の技術】従来、電子メールの受信可能な音声合成
端末装置としては、特開平11―202885号公報に
記載されているように、テキスト情報を音声合成によっ
て読み上げるものが知られている。
【0003】
【発明が解決しようとする課題】しかしながら、上記従
来の音声合成端末措置においては、予め搭載されている
話者の音声でしか音声合成することができず、利用者の
要求する音声で読み上げることができないという問題が
あった。利用者の要求する話者の音色で合成するために
は、例えば予め複数の話者の音声データを音声合成端末
措置に所有することが考えられるが、実現するためには
膨大な音声波形辞書のデータが必要となり、音声合成端
末措置の小型化、低価格化などに大きな障害となる。ま
た、声質変換などの技術を利用することが考えられる
が、音色を自由に変換できるインターフェースが提供で
きたとしても、音声合成端末措置の利用者が直接音響パ
ラメータを修正するのは容易な作業ではなく、加えて現
状の声質変換技術では十分に音声合成端末措置の利用者
の満足する声質への変換はできない。
【0004】一方、サーバから端末措置へ通信回線を利
用して音声情報を配信する情報サービスでは、電子メー
ルなどのテキスト文章をサーバ側で音声合成し、この合
成した音声信号そのものを通信回線により端末措置に配
信する方式が考えられる。この場合、サーバ側では複数
の話者の音声データを予め用意しておき、端末装置の利
用者からの要求のあった話者の音声データでテキスト情
報を音声合成して配信すればよく、端末装置側では配信
されてきた音声信号をそのまま出力することができる。
ところが、このようにサーバ側で音声合成を行って端末
装置に送信する方式では、音声読み上げの度に通信回線
を接続状態にしておく必要があり、音声信号の伝送に時
間がかかることから通信回線の利用時間が長くなり、端
末装置の利用者にとっては好ましくない。また、配信時
間を短縮するために音声信号を高圧縮し、データ量を減
らして配信した場合、圧縮処理により音質劣化が生じ
て、高音質な音声を提供できなくなってしまう。
【0005】そこで、本発明は、利用者の要求する話者
の音色で電子メールなどのテキスト情報を読み上げるこ
とが可能な音声波形辞書配信システム、音声波形辞書作
成装置、及び音声合成端末装置を提供することを目的と
する。
【0006】
【課題を解決するための手段】上記課題を解決するため
に、本発明の音声波形辞書配信システムは、音声合成に
使用される音声波形辞書を作成する音声波形辞書作成装
置と、前記音声波形辞書をネットワーク経由で収得して
音声合成を行う音声合成端末装置とから構成され、前記
音声波形辞書作成装置は、複数の音声データベースと、
前記音声合成端末装置から受信する前記音声波形辞書に
対する要求条件に基づいて、前記音声波形辞書の作成条
件を決定する辞書条件決定手段と、前記音声データベー
スの中から前記作成条件に基づいた音声データベースを
用いて前記音声波形辞書を作成する音声波形辞書作成手
段と、前記ネットワークを介して、前記要求条件を受信
し、前記音声波形辞書を送信する条件受信辞書送信手段
とを備え、前記音声合成端末装置は、前記要求条件を入
力する辞書条件入力手段と、前記ネットワークを介し
て、前記要求条件を送信し、前記音声波形辞書を受信す
る条件送信辞書受信手段と、前記音声波形辞書を記録す
る音声波形辞書記録手段と、前記音声波形辞書記録手段
に記録された前記音声波形辞書を用いて音声合成を行う
音声合成手段と、前記音声合成手段で音声合成した音声
信号を出力する音声出力手段とを備える構成を有してい
る。
【0007】この構成により、本発明の音声波形辞書配
信システムは、音声波形辞書作成装置に複数種類の話者
の音声データベースを用意しておき、音声合成端末装置
の利用者が要求する音声波形辞書のサイズや音色の音声
波形辞書を音声波形辞書作成装置で自由に作成し、音声
波形辞書作成装置から音声合成端末装置にダウンロード
できるので、音声合成端末装置の音声合成器で好みの話
者の音色で電子メールなどのテキスト情報を音声読み上
げすることが可能となる。
【0008】また、本発明の音声波形辞書配信システム
は、音声波形辞書作成装置の管理者が音声データベース
の追加や修正を行い、音声合成端末装置の利用者が最新
の音声波形辞書をダウンロードすることによって、音声
合成端末装置の音声波形辞書を容易にメンテナンスする
ことができる。
【0009】また、本発明の音声波形辞書配信システム
は、前記音声波形辞書作成装置は、前記音声波形辞書作
成手段で作成した前記音声波形辞書を用いて音声合成を
実行する作成辞書音声合成手段を備え、前記音声合成端
末装置は、前記ネットワークを介して、前記作成辞書音
声合成手段で音声合成した音声信号を受信し、受信した
前記音声信号を前記音声出力手段で出力する構成を有し
ている。
【0010】この構成により、本発明の音声波形辞書配
信システムは、音声波形辞書作成装置で作成した音声波
形辞書を音声合成端末装置にダウンロードする前に、音
声合成端末装置の利用者に、音声波形辞書作成装置で作
成した音声波形辞書を使って音声合成した試聴用の音声
信号を試聴させることができので、作成した音声波形辞
書をダウンロードするか否かを選択させることが可能と
なる。
【0011】また、本発明の音声波形辞書作成装置は、
複数の音声データベースと、音声合成に使用される音声
波形辞書に対する要求条件に基づいて、前記音声波形辞
書の作成条件を決定する辞書条件決定手段と、前記音声
データベースの中から前記作成条件に基づいた音声デー
タベースを用いて前記音声波形辞書を作成する音声波形
辞書作成手段と、ネットワークを介して、前記要求条件
を受信し、前記音声波形辞書を送信する条件受信辞書送
信手段とを備えた構成を有している。
【0012】この構成により、本発明の音声波形辞書作
成装置は、予め複数種類の話者の音声データベースを用
意しておき、音声合成端末装置の利用者が要求する音声
波形辞書のサイズや音色の音声波形辞書を自由に作成
し、音声合成端末装置に配信することができるので、音
声合成端末装置の音声合成器に、音声合成端末装置の利
用者が要求する話者の音色で電子メールなどのテキスト
情報を音声読み上げさせることが可能となる。
【0013】また、本発明の音声波形辞書作成装置は、
前記音声波形辞書作成手段は、前記音声データベースに
予め付属させられた付属情報を参照して音声波形を選出
する音声波形選出手段と、前記音声波形選出手段によっ
て選出された前記音声波形を所定の形式に変換するパラ
メータ化手段と、前記音声データベースから前記音声波
形に付属させられた前記付属情報を抽出する音声波形付
属情報抽出手段と、前記パラメータ化手段でパラメータ
化された前記音声波形、及び、前記音声波形付属情報抽
出手段によって抽出された前記付属情報を用いて、前記
音声波形辞書を構築する辞書構築手段とを備える構成を
有している。
【0014】この構成により、本発明の音声波形辞書作
成装置は、例えば音声合成端末装置で用いられている合
成方式がLPC系のパラメトリックな合成方式である場
合や波形重畳型の合成方式などである場合、それぞれの
合成方式に応じて指定された形式の音声波形辞書を作成
することができ、音声合成端末装置に搭載されている音
声合成器の種類に関わらず、音声合成端末装置の利用者
が要求する話者の音声波形辞書を作成し、音声合成端末
装置に配信することが可能である。
【0015】また、本発明の音声波形辞書作成装置は、
前記パラメータ化手段は、前記音声波形を音源特性と声
道特性とに分離して、それぞれを独立にパラメータ化す
る構成を有している。
【0016】この構成により、本発明の音声波形辞書作
成装置は、音声波形を音源特性と声道特性とに分離する
ことで、音声合成の際には音声の音色などスペクトルに
依存する特徴と、声の高さなど音源に依存する特徴とを
独立に制御することが容易になる。更に、本発明の音声
波形辞書作成装置は、パラメータ化によって音声波形の
データ容量を大幅に圧縮できる音声波形辞書を作成する
ことが可能である。
【0017】また、本発明の音声波形辞書作成装置は、
前記パラメータ化手段は、前記音声波形をピッチ波形単
位に分割して抽出するピッチ波形抽出手段と、前記ピッ
チ波形抽出手段によって抽出された前記ピッチ波形に対
して、類似度が所定値以上の前記ピッチ波形同士を分類
するピッチ波形分類手段と、前記ピッチ波形分類手段に
よって分類された前記ピッチ波形の中から前記音声波形
辞書に代表として登録する代表ピッチ波形を作成する代
表ピッチ波形作成手段とを備える構成を有している。
【0018】この構成により、本発明の音声波形辞書作
成装置は、例えば合成単位内または合成単位の枠を越え
て類似度の高いピッチ波形が存在する場合、これら複数
のピッチ波形を代表的な一つのピッチ波形に置き換える
ことで、無駄の少ない効率的な音声波形辞書を作成する
ことが可能であり、音声波形辞書のデータ容量を削減す
ることができる。
【0019】また、本発明の音声波形辞書作成装置は、
前記音声波形選出手段は、予め音声データに付属させら
れた音素境界ラベル情報を参照して合成単位の境界ラベ
ルを付与し、前記合成単位を作成する合成単位作成手段
と、前記合成単位作成手段で作成された前記合成単位の
前記音声波形を前記音声波形辞書に登録する候補として
抽出する候補波形抽出手段と、前記候補波形抽出手段で
抽出された前記音声波形の中から前記音声波形辞書に登
録する音声波形を選定する登録波形選定手段とを備える
構成を有している。
【0020】この構成により、本発明の音声波形辞書作
成装置は、音声合成端末装置の利用者に合成単位を自由
に指定させることができ、例えば短い合成単位を指定さ
れればサイズの小さな音声波形辞書を作成することがで
き、長い合成単位を指定されれば、高音質な音声合成が
可能な音声波形辞書を作成することができる。したがっ
て、本発明の音声波形辞書作成装置によれば、音声合成
端末装置の利用者は、音声波形辞書を記録するメモリ容
量と、合成音声の音質との兼ね合いを判断して音声波形
辞書を作成することが可能となる。
【0021】また、本発明の音声波形辞書作成装置は、
前記登録波形選定手段は、前記候補波形抽出手段で抽出
された全ての前記音声波形のスペクトル情報を抽出する
スペクトル抽出手段と、前記スペクトル情報を用いて、
前記候補波形抽出手段で抽出された前記音声波形間のス
ペクトル距離を計算するスペクトル距離計算手段と、前
記スペクトル距離に基づいて、前記音声波形辞書に代表
として登録する前記音声波形を選定するスペクトル代表
波形選定手段とを備える構成を有している。
【0022】この構成により、本発明の音声波形辞書作
成装置は、音声合成端末装置の利用者の要求する音声波
形辞書のサイズに応じた音声波形数で、音声合成時に接
続する二つの合成単位間で生じるスペクトル歪を少なく
することが可能な音声波形辞書を作成することができ
る。
【0023】また、本発明の音声波形辞書作成装置は、
前記登録波形選定手段は、前記候補波形抽出手段で抽出
された全ての前記音声波形の基本周波数情報を抽出する
基本周波数抽出手段と、前記基本周波数情報を用いて、
前記候補波形抽出手段で抽出された前記音声波形間の基
本周波数距離を計算する基本周波数距離計算手段と、前
記基本周波数距離に基づいて、前記音声波形辞書に代表
として登録する前記音声波形を選定する基本周波数代表
波形選定手段とを備える構成を有している。
【0024】この構成により、本発明の音声波形辞書作
成装置は、音声合成端末装置の利用者の要求する音声波
形辞書サイズに応じた音声波形数で、ピッチ変換や時間
長変換などの韻律変換処理によって生じる波形歪を抑え
ることが可能な音声波形辞書を作成することができる。
【0025】また、本発明の音声合成端末装置は、音声
合成に使用される音声波形辞書に対する要求条件を入力
する辞書条件入力手段と、ネットワークを介して、前記
要求条件を送信し、前記音声波形辞書を受信する条件送
信辞書受信手段と、前記音声波形辞書を記録する音声波
形辞書記録手段と、前記音声波形辞書記録手段に記録さ
れた前記音声波形辞書を用いて音声合成を行う音声合成
手段と、前記音声合成手段で音声合成した音声信号を出
力する音声出力手段とを備えた構成を有している。
【0026】この構成により、本発明の音声合成端末装
置は、利用者が音声波形辞書を決定することができ、情
報提供サーバから獲得したテキスト情報を利用者の好み
の話者の声で音声合成を行うことができる。また、本発
明の音声合成端末装置を使用した音声波形辞書配信シス
テムは、サーバ(音声波形辞書作成装置)側で音声合成
して音声信号を送受信するシステムと比較して、音声波
形辞書を一度ダウンロードすれば音声合成端末装置に音
声信号を通信する必要がないため、通信負荷を抑えるこ
とができる。
【0027】また、本発明の音声合成端末装置は、前記
音声波形辞書記録手段は、複数の前記音声波形辞書を記
録する構成を有している。
【0028】この構成により、本発明の音声合成端末装
置は、一つのアプリケーションの中で複数話者での合成
が可能となり、例えば電子メールやニュース文などコン
テンツ毎に異なる話者での音声読み上げが可能となるの
で、利用者は現在の音声読み上げの対象が何であるのか
を判断することができる。
【0029】また、本発明の音声合成端末装置は、前記
音声合成手段は、複数の音声合成器を備え、複数の前記
音声合成器の中から前記音声波形辞書の辞書形式に適し
た音声合成器を使用して音声合成する構成を有してい
る。
【0030】この構成により、本発明の音声合成端末装
置は、例えば音声波形辞書の辞書形式がLPCパラメー
タである場合や、音声波形をピッチ波形単位に分割した
形式である場合など、それぞれの辞書形式に応じて音声
合成器を自動的に使い分けることで、音声波形辞書をダ
ウンロードする際、利用者に辞書形式を把握させる必要
がない。
【0031】また、本発明の音声合成端末装置は、前記
音声合成手段は、音声読み上げ対象であるテキスト情報
を表音文字列に変換するテキスト解析手段と、前記音声
波形辞書から前記表音文字列が一致する前記音声波形を
選択する音声波形選択手段と、合成音声の韻律パタンを
決定する韻律生成手段と、前記韻律パタンに基づいて前
記音声波形の韻律変形を行う音声波形変形手段と、韻律
変形された前記音声波形を接続する音声波形接続手段と
を備える構成を有している。
【0032】この構成により、本発明の音声合成端末装
置は、音声波形辞書に登録されている複数の音声波形の
候補の中から、合成環境に最も適した音声波形を選択す
ることができるようになり、高音質な音声合成が可能と
なる。
【0033】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を用いて説明する。 (第1の実施の形態)
【0034】まず、第1の実施の形態に係る音声波形辞
書配信システムの構成について説明する。
【0035】図1において、本実施の形態に係る音声波
形辞書配信システム100は、音声合成に用いられる音
声波形辞書を作成する音声波形辞書作成装置110と、
有線、無線を問わず、データの通信が可能な通信回線に
よって構成されるネットワーク120と、音声波形辞書
作成装置110によって作成された音声波形辞書をネッ
トワーク120を介して取得し、取得した音声波形辞書
を用いて音声合成を行う音声合成端末装置130、音声
合成端末装置140及び音声合成端末装置150と、電
子メールやニュース文などのコンテンツをテキスト情報
としてネットワーク120を介して音声合成端末装置1
30、音声合成端末装置140及び音声合成端末装置1
50に提供する情報提供サーバ160とを備えている。
【0036】また、音声波形辞書作成装置110は、音
声合成端末装置130の利用者が要求する話者の種類や
音声波形辞書の形式、サイズなどの情報を受け取って音
声波形辞書の作成条件を決定する辞書条件決定部(辞書
条件決定手段)111と、音声データベース112a、
音声データベース112b及び音声データベース112
cなどの複数の音声データベースから構成される音声デ
ータベース群112と、辞書条件決定部111によって
決定された作成条件に基づいて、音声データベース群1
12内の音声データベースを加工して音声波形辞書を作
成する音声波形辞書作成部(音声波形辞書作成手段)1
13と、ネットワーク120を介して音声合成端末装置
130、音声合成端末装置140又は音声合成端末装置
150とのデータ通信を制御し、音声合成端末装置13
0、音声合成端末装置140又は音声合成端末装置15
0の利用者が要求する話者の種類や音声波形辞書の形
式、サイズなどの情報を受信して辞書条件決定部111
に渡したり、音声波形辞書作成部113によって作成さ
れた音声波形辞書を音声合成端末装置130、音声合成
端末装置140又は音声合成端末装置150に送信した
りするデータ送受信部(条件受信辞書送信手段)114
とを備えている。
【0037】なお、音声データベース112a、音声デ
ータベース112b及び音声データベース112cなど
の音声データベースは、音声波形と、音素境界のラベリ
ングやピッチマークなどの付属情報とによって話者毎に
構成されている。例えば、音声データベース112a
は、話者1に、音声データベース112bは、話者2
に、音声データベース112cは、話者3に対応してい
る。ここで、音声データベース112a、音声データベ
ース112b及び音声データベース112cなどの音声
データベースは、音声波形として試聴用の音声波形も備
えている。
【0038】また、音声合成端末装置130は、話者の
種類や音声波形辞書のサイズなどの音声波形辞書の要求
条件を利用者によって入力されるキーボードやマウスな
どの辞書条件入力部(辞書条件入力手段)131と、受
け取った1つ又は複数の音声波形辞書を記録する書き換
えが自由な記録媒体(音声波形辞書記録手段)132
と、記録媒体132によって記録された音声波形辞書を
用いて音声合成を行う複数の音声合成器によって構成さ
れる音声合成部(音声合成手段)133と、音声合成部
133によって音声合成された音声信号や、後述するデ
ータ送受信部135で受信した音声信号を出力するスピ
ーカ(音声出力手段)134と、ネットワーク120を
介して音声波形辞書作成装置110や情報提供サーバ1
60などの外部装置とのデータ通信を制御し、利用者が
要求する話者の種類や音声波形辞書の形式、サイズなど
の情報を音声波形辞書作成装置110に送信したり、音
声波形辞書作成装置110や情報提供サーバ160から
音声波形辞書やテキスト情報などを受信したりするデー
タ送受信部(条件送信辞書受信手段)135とを備えて
いる。
【0039】なお、音声合成端末装置140及び音声合
成端末装置150は、音声合成端末装置130と同様な
構成であるので詳細な説明を省略する。
【0040】次に、本実施の形態に係る音声波形辞書配
信システムの動作について説明する。
【0041】音声合成端末装置130の利用者は、図示
していない入力部への入力によって、音声波形辞書作成
装置110の音声データベース群112の音声データベ
ースの中からサンプル音声を試聴する音声データベース
を選択する。ここで、音声合成端末装置130の利用者
から入力部への入力は、信号として、データ送受信部1
35及びネットワーク120を介して、音声波形辞書作
成装置110のデータ送受信部114で受信される。
【0042】そして、データ送受信部114は、受信し
た信号に応じて、音声データベース群112の中の利用
者によって選択された音声データベースから試聴用の音
声波形(音声信号)を取得し、ネットワーク120を介
して、音声合成端末装置130のデータ送受信部135
に送信する。データ送受信部135に送信された音声信
号は、データ送受信部135によってスピーカ134に
出力され、スピーカ134によってサンプル音声として
出力される。
【0043】以上のようにして、音声合成端末装置13
0の利用者は、音声波形辞書作成装置110の音声デー
タベース群112の音声データベースの中からサンプル
音声を試聴し、自分の気に入った話者を探すことができ
る。
【0044】そして、音声合成端末装置130の利用者
は、音声波形辞書作成装置110の音声データベース群
112の音声データベースの中に音声読み上げに使用す
ることを要求する話者が存在した場合、話者の種類や音
声波形辞書のサイズなどの音声波形辞書に対する要求条
件を辞書条件入力部131から入力することができる。
【0045】音声合成端末装置130の利用者が、話者
の種類や音声波形辞書のサイズなどの音声波形辞書の要
求条件を辞書条件入力部131から入力すると、音声合
成端末装置130は、辞書条件入力部131から入力さ
れた音声波形辞書の要求条件をデータ送受信部135か
らネットワーク120を介して音声波形辞書作成装置1
10に送信する。
【0046】また、音声合成端末装置130は、音声合
成部133で使用している音声合成器の種類や、記録媒
体132で使用可能なメモリ残量情報などの音声波形辞
書の使用可能条件も、データ送受信部135からネット
ワーク120を介して自動的に音声波形辞書作成装置1
10に送信する。
【0047】音声波形辞書作成装置110は、音声合成
端末装置130から送信された音声波形辞書の要求条件
及び使用可能条件をデータ送受信部114によって受信
すると、受信した音声波形辞書の要求条件及び使用可能
条件に基づいて、辞書条件決定部111によって音声合
成端末装置130の利用者がダウンロードできる音声波
形辞書の作成条件を決定し、決定した音声波形辞書の作
成条件を辞書条件決定部111から音声波形辞書作成部
113に出力する。
【0048】音声波形辞書作成部113は、辞書条件決
定部111から出力される音声波形辞書の作成条件に基
づいて、音声データベース群112内の音声データベー
スを加工して音声波形辞書を作成し、作成した音声波形
辞書をデータ送受信部114に出力する。
【0049】より詳細に説明すると、音声波形辞書作成
部113では、例えば同じ話者の音声波形辞書でも、音
声合成に必要な最低限の音韻並びの音声波形しか持たな
い標準的な音声波形辞書や、調音結合の影響や韻律パタ
ンの種類も考慮した音声波形を用いる最高音質版の合成
が可能な音声波形辞書など、音声合成端末装置130の
利用者の要求する音質や音声波形辞書のサイズに応じて
音声波形辞書をカスタマイズすることができる。
【0050】また、音声波形辞書作成部113では、音
声合成端末装置130で使用されている音声合成器に合
った音声波形辞書を作成することができる。例えば、音
声合成端末装置130の音声合成部133で使用されて
いる音声合成器が波形重畳型合成(PSOLA)方式で
ある場合は、ピッチ波形配列の羅列によって音声波形辞
書が構成され、LSPなどに代表されるLPC系のパラ
メトリックな合成方式である場合は、フレーム毎のパラ
メータ系列によって音声波形辞書が構成される。
【0051】なお、音声波形辞書作成部113は、上述
したように音声合成端末装置130の利用者の要求に応
じてその場で音声波形辞書を作成し、作成した音声波形
辞書をデータ送受信部114に出力するようにしても良
いし、予め複数の話者の音声波形辞書を作成して用意し
ておいて、用意しておいた音声波形辞書のうち、音声合
成端末装置130の利用者の要求に応じた音声波形辞書
をデータ送受信部114に出力するようにしても良い。
【0052】音声波形辞書作成装置110は、音声波形
辞書作成部113からデータ送受信部114に音声波形
辞書を出力されると、音声波形辞書作成部113から出
力された音声波形辞書をデータ送受信部114からネッ
トワーク120を介して音声合成端末装置130に送信
する。
【0053】音声合成端末装置130は、音声波形辞書
作成装置110から送信された音声波形辞書をデータ送
受信部135によって受信すると、受信した音声波形辞
書を記録媒体132によって格納する。
【0054】以上のようにして、音声合成端末装置13
0の利用者は、音声波形辞書作成装置110の音声デー
タベース群112の音声データベースの中に音声読み上
げに使用することを要求する話者が存在した場合、その
話者の音声波形辞書を音声波形辞書作成装置110で作
成して自分の音声合成端末装置130にダウンロードす
ることができる。
【0055】したがって、音声合成端末装置130で
は、情報提供サーバ160などからネットワーク120
を介してデータ送受信部135で受信したテキスト情報
を音声合成部133に出力し、音声合成部133におい
て記録媒体132に格納された音声波形辞書を使用して
音声合成することによって、音声読み上げを可能とす
る。
【0056】また、音声合成端末装置130は、一度ダ
ウンロードした音声波形辞書をずっと使い続けることも
可能だし、何度でも書き換えることも可能である。ま
た、音声合成端末装置130は、記録媒体132のメモ
リ容量に応じて、複数の音声波形辞書を保持することも
可能である。
【0057】なお、音声合成端末装置140及び音声合
成端末装置150の動作については、音声合成端末装置
130の動作と同様であるので詳細な説明を省略する。
【0058】以上説明したように、音声波形辞書配信シ
ステム100は、音声波形辞書作成装置110に複数種
類の話者の音声データベースを用意しておき、音声合成
端末装置130、音声合成端末装置140又は音声合成
端末装置150の利用者が要求する音声波形辞書のサイ
ズや音色の音声波形辞書を音声波形辞書作成装置110
で自由に作成し、音声波形辞書作成装置110から音声
合成端末装置130にダウンロードできるので、音声合
成端末装置130の音声合成器で好みの話者の音色で電
子メールなどのテキスト情報を音声読み上げすることが
可能となる。
【0059】また、音声波形辞書配信システム100
は、音声波形辞書作成装置110の管理者が音声データ
ベース群112に対して音声データベースの追加や修正
を行い、音声合成端末装置130、音声合成端末装置1
40又は音声合成端末装置150の利用者が最新の音声
波形辞書をダウンロードすることによって、音声合成端
末装置130、音声合成端末装置140又は音声合成端
末装置150の音声波形辞書を容易にメンテナンスする
ことができる。 (第2の実施の形態)
【0060】まず、第2の実施の形態に係る音声波形辞
書配信システムの構成について説明する。なお、本実施
の形態に係る音声波形辞書配信システムの構成のうち、
第1の実施の形態に係る音声波形辞書配信システムの構
成と同様な構成については、同一の符合を付して詳細な
説明を省略する。
【0061】図2において、本実施の形態に係る音声波
形辞書配信システム200は、第1の実施の形態に係る
音声波形辞書配信システムの音声波形辞書作成装置11
0(図1参照)の代わりに、音声波形辞書作成装置20
1を備えている。
【0062】音声波形辞書作成装置201は、辞書条件
決定部111と、音声データベース112a、音声デー
タベース112b及び音声データベース112cなどの
複数の音声データベースから構成される音声データベー
ス群112と、音声波形辞書作成部113と、データ送
受信部114と、音声波形辞書作成部113によって作
成された音声波形辞書を用いて音声合成を行う音声合成
器から構成され、試聴用の音声信号を合成する音声合成
部(作成辞書音声合成手段)202とを備えている。
【0063】次に、本実施の形態に係る音声波形辞書配
信システムの動作について説明する。
【0064】図3において、第1の実施の形態と同様に
して、音声合成端末装置130の利用者が、音声合成端
末装置130の辞書条件入力部131から音声波形辞書
の要求条件を設定すると(ステップS301)、音声波
形辞書作成装置201は、音声合成端末装置130の利
用者によって設定された要求条件や、音声合成端末装置
130から受信する使用可能条件に基づいて音声波形辞
書の作成条件を決定し、決定した作成条件に基づいて音
声波形辞書作成部113によって音声波形辞書を作成す
る(ステップS302)。
【0065】音声波形辞書作成装置201は、音声波形
辞書作成部113によって音声波形辞書を作成すると、
音声合成部202によって、作成した音声波形辞書を用
いて試聴用の音声信号の音声合成を行う。そして、音声
合成された音声信号は、音声合成部202から、データ
送受信部114、ネットワーク120、及び、音声合成
端末装置130のデータ送受信部135を介して、音声
合成端末装置130のスピーカ134から出力される。
【0066】したがって、音声合成端末装置130の利
用者は、スピーカ134から出力される試聴用の音声信
号を試聴することができ(ステップS303)、試聴し
た音声信号に基づいて、音声波形辞書作成装置201に
よって作成した音声波形辞書をダウンロードするか否か
を決定することができる(ステップS304)。
【0067】音声合成端末装置130の利用者は、音声
波形辞書作成装置201によって作成した音声波形辞書
をダウンロードすると決定すると、ダウンロード命令を
図示していない入力部に入力する。入力されたダウンロ
ード命令は、音声合成端末装置130からネットワーク
120を介して音声波形辞書作成装置201に送信され
る。音声波形辞書作成装置201に音声合成端末装置1
30からダウンロード命令が送信されると、音声波形辞
書作成部113によって作成された音声波形辞書は、第
1の実施の形態と同様にして、音声波形辞書作成部11
3から、データ送受信部114、ネットワーク120、
及び、音声合成端末装置130のデータ送受信部135
を介して、音声合成端末装置130の記録媒体132に
送信されて、格納される(ステップS305)。
【0068】一方、音声合成端末装置130の利用者
は、音声波形辞書作成装置201によって作成した音声
波形辞書をダウンロードしないと決定する場合、他の要
求条件で音声辞書を作成し直すか否かを判断し(ステッ
プS306)、他の要求条件で音声波形辞書を作成し直
すと判断したときには、ステップS301の処理から繰
り返す。
【0069】以上説明したように、音声波形辞書配信シ
ステム200は、音声波形辞書作成装置201で作成し
た音声波形辞書を音声合成端末装置130にダウンロー
ドする前に、音声合成端末装置130の利用者に、音声
波形辞書作成装置201で作成した音声波形辞書を使っ
て音声合成した試聴用の音声信号を試聴させることがで
きので、作成した音声波形辞書をダウンロードするか否
かを選択させることが可能となる。
【0070】なお、第1の実施の形態に係る音声波形辞
書配信システムで出力されるサンプル音声が、音声デー
タベース群112の音声データベースの試聴用の音声波
形をそのまま出力する原音声であったのに対し、音声波
形辞書配信システム200で出力されるサンプル音声
は、音声波形辞書作成装置201で作成した音声波形辞
書を使って音声合成した合成音声である。したがって、
第1の実施の形態に係る音声波形辞書配信システムが、
試聴によって音声データベース間の話者の音色の違いを
比較することができるのに対し、音声波形辞書配信シス
テム200は、試聴によって、音声データベース間の話
者の音色の違いに加え、音声波形辞書のデータ圧縮方法
や合成方式に起因する音質の違いなども比較することが
できる。 (第3の実施の形態)
【0071】図4に示すように、第3の実施の形態に係
る音声波形辞書作成装置401の構成は、第1の実施の
形態に係る音声波形辞書配信システムの音声波形辞書作
成装置の構成と同様であるので、同一の符合を付して詳
細な説明を省略する。
【0072】また、本実施の形態に係る音声波形辞書作
成装置401は、第1の実施の形態に係る音声波形辞書
配信システムの音声波形辞書作成装置と同様に動作する
ことができる。
【0073】したがって、音声波形辞書作成装置401
は、予め複数種類の話者の音声データベースを用意して
おき、音声合成端末装置の利用者が要求する音声波形辞
書のサイズや音色の音声波形辞書を自由に作成し、音声
合成端末装置に配信することができるので、音声合成端
末装置の音声合成器に、音声合成端末装置の利用者が要
求する話者の音色で電子メールなどのテキスト情報を音
声読み上げさせることが可能となる。 (第4の実施の形態)
【0074】まず、第4の実施の形態に係る音声波形辞
書作成装置の構成について説明する。なお、本実施の形
態に係る音声波形辞書作成装置の構成は、第3の実施の
形態に係る音声波形辞書作成装置の構成とほぼ同様であ
るので、第3の実施の形態に係る音声波形辞書作成装置
の構成とほぼ同様な構成については、同一の符合を付し
て詳細な説明を省略する。
【0075】図5に示すように、本実施の形態に係る音
声波形辞書作成装置は、第3の実施の形態に係る音声波
形辞書作成装置の音声波形辞書作成部113(図4参
照)の代わりに、音声波形辞書作成部(音声波形辞書作
成手段)501を備えている。
【0076】音声波形辞書作成部501は、音声データ
ベース112aの中から、予めラベリングされたラベル
情報を参照して辞書に含める音声波形を選出する音声波
形選出部(音声波形選出手段)502と、音声波形選出
部502で選出された音声波形を、辞書条件決定部11
1によって決定された所定の形式に変換するパラメータ
化部(パラメータ化手段)503と、音声波形選出部5
02で選出された音声波形に対応する付属情報を音声デ
ータベース112aから抽出し、必要な付属情報を音声
波形辞書に格納する音声波形付属情報抽出部(音声波形
付属情報抽出手段)504と、パラメータ化部503で
所定の形式に変換された音声波形、及び、音声波形付属
情報抽出部504で抽出された付属情報を書き出し、音
声波形辞書を構築する辞書構築部(辞書構築手段)50
5とを備えている。
【0077】なお、音声データベース112aなどの音
声データベースは、上述したように話者毎に音声波形を
有しており、更に、音声波形の抽出環境を示すコンテキ
スト情報や音素・音節境界ラベル、基本周波数F0、ピ
ッチマークなどの音声波形に対応する付属情報を有して
いる。
【0078】次に、本実施の形態に係る音声波形辞書作
成装置の動作について説明する。
【0079】まず、辞書条件決定部111では、音声合
成端末装置(図示していない)の利用者の要求する辞書
サイズに応じて、合成単位を決定する。合成単位として
は、例えば音素、音節、VCV(母音―子音―母音)連
鎖などが考えられる。また、音声合成を行うのに必要最
低限の音声波形だけを音声波形辞書に格納するのか、そ
れとも同じ音韻並びの音声波形を複数用意するのかなど
も、辞書条件決定部111で決定される。
【0080】次いで、音声波形選出部502では、辞書
条件決定部111で決定された合成単位や音声波形数な
どに基づき、音声データベース112aに含まれている
ラベル情報を参照して必要な音声波形を選出する。もし
同じ音韻並びの音声波形に複数の候補がある場合は、音
声波形の韻律パタンや前後の音韻環境などを考慮して音
声波形を選出する。
【0081】次いで、パラメータ化部503では、音声
波形選出部502によって選出された音声波形を、音声
合成端末装置で使用されている音声合成器に合わせて加
工する。例えば音声合成端末装置で使用されている音声
合成器がPSOLA法に基づく方式である場合は、音声
波形をピッチ波形単位に分割し、このピッチ波形をパラ
メータとする。また、例えば音声合成器がLPC系の方
式である場合は、音声波形をフレーム分割して線形予測
分析を行い、パラメータ化する。
【0082】次いで、辞書構築部505では、パラメー
タ化部503で所定の形式に変換された音声波形を書き
出し、音声波形辞書を構築する。なお、辞書構築部50
5は、音声波形辞書を構築する際、音声波形付属情報抽
出部504で抽出された各音声波形の付属情報を辞書に
付属させる。ここで、付属情報は、上述したように音素
並びや基本周波数パタン、音素境界ラベルなどであり、
音声合成の際に音声波形選択のために参照される。
【0083】最後に、辞書構築部505で構築された音
声波形辞書は、第1の実施の形態において説明したよう
に、データ送受信部114を経由して音声合成端末装置
に送信される。
【0084】以上説明したように、本実施の形態に係る
音声波形辞書作成装置は、例えば音声合成端末装置で用
いられている合成方式がLPC系のパラメトリックな合
成方式である場合や波形重畳型の合成方式などである場
合、それぞれの合成方式に応じて指定された形式の音声
波形辞書を作成することができ、音声合成端末装置に搭
載されている音声合成器の種類に関わらず、音声合成端
末装置の利用者が要求する話者の音声波形辞書を作成
し、音声合成端末装置に配信することが可能である。 (第5の実施の形態)
【0085】まず、第5の実施の形態に係る音声波形辞
書作成装置の構成について説明する。なお、本実施の形
態に係る音声波形辞書作成装置の構成は、第4の実施の
形態に係る音声波形辞書作成装置の構成とほぼ同様であ
るので、第4の実施の形態に係る音声波形辞書作成装置
の構成とほぼ同様な構成については、同一の符合を付し
て詳細な説明を省略する。
【0086】図6に示すように、本実施の形態に係る音
声波形辞書作成装置は、第4の実施の形態に係る音声波
形辞書作成装置のパラメータ化部503(図5参照)の
代わりに、パラメータ化部(パラメータ化手段)601
を備えている。
【0087】パラメータ化部601は、音声波形を、主
に音声の高さや強さなどを決定するパラメータである音
源情報(音源特性)と、主に音声の音韻の種類や音色な
どに寄与するパラメータであるスペクトル情報(声道特
性)とに分離する音声分析を行う音源・声道特性分離処
理部602を備えている。
【0088】次に、本実施の形態に係る音声波形辞書作
成装置の動作について説明する。
【0089】音声波形選出部502で選出された音声波
形は、パラメータ化部601によって、音声合成器で採
用されている音声合成方式に適した形式にパラメータ化
が行なわれる。
【0090】ここで、パラメータ化部601では、音源
・声道特性分離処理部602によって、音声波形611
を音源情報とスペクトル情報とに分離する。例として音
源・声道特性分離処理部602に準同型分析が用いられ
る場合、スペクトル情報はスペクトル包絡612、音源
情報は音源パルス列613に分離される。
【0091】このように音声波形を音源・声道特性分離
処理部602でスペクトル情報と音源情報とに分離する
ことで、主に音韻の種類や音色に特徴を与えるスペクト
ル情報と、声の高さや強さを制御する音源情報とを、そ
れぞれ独立に制御することができるようになる。ここで
分離されたスペクトル情報と音源情報とは、それぞれの
重要度に応じて情報圧縮が行なわれ、辞書構築部505
で音声波形辞書に格納される。
【0092】以上説明したように、本実施の形態に係る
音声波形辞書作成装置は、音声波形を音源特性と声道特
性とに分離することで、音声合成の際には音声の音色な
どスペクトルに依存する特徴と、声の高さなど音源に依
存する特徴とを独立に制御することが容易になる。更
に、本実施の形態に係る音声波形辞書作成装置は、パラ
メータ化によって音声波形のデータ容量を大幅に圧縮で
きる音声波形辞書を作成することが可能である。
【0093】なお、本実施の形態においては、準同型分
析によって音源特性と声道特性を分離する例を示した
が、本発明によれば、線形予測分析が用いられる場合
は、声道特性として線形予測係数、音源特性として残差
信号に分離することも可能である。 (第6の実施の形態)
【0094】まず、第6の実施の形態に係る音声波形辞
書作成装置の構成について説明する。なお、本実施の形
態に係る音声波形辞書作成装置の構成は、第4の実施の
形態に係る音声波形辞書作成装置の構成とほぼ同様であ
るので、第4の実施の形態に係る音声波形辞書作成装置
の構成とほぼ同様な構成については、同一の符合を付し
て詳細な説明を省略する。
【0095】図7に示すように、本実施の形態に係る音
声波形辞書作成装置は、第4の実施の形態に係る音声波
形辞書作成装置のパラメータ化部503(図5参照)の
代わりに、パラメータ化部(パラメータ化手段)701
を備えている。
【0096】パラメータ化部701は、音声波形選出部
502で音声波形辞書に登録することが決定された音声
波形について、ピッチマークを基準に抽出窓を用いてピ
ッチ波形単位に分解するピッチ波形抽出部(ピッチ波形
抽出手段)702と、ピッチ波形抽出部702で分解さ
れたピッチ波形を類似度を評価尺度としてクラスタリン
グし、類似度が所定値以上のピッチ波形(即ち、波形形
状の似ているピッチ波形)同士をまとめあげるピッチ波
形分類部(ピッチ波形分類手段)703と、ピッチ波形
分類部703でのクラスタリングによって生成された各
クラスタの中から、音声波形辞書に代表として登録する
代表ピッチ波形を選出する代表ピッチ波形作成部(代表
ピッチ波形作成手段)704とを備えている。
【0097】また、音声波形選出部502は、音声デー
タベースの中から音声波形辞書に登録する音声波形を韻
律バランスやスペクトル距離などを考慮して選出するよ
うになっており、辞書構築部505は、音声波形選出部
502で選出された音声波形によって音声波形辞書を構
築するようになっている。
【0098】ただし、辞書構築部505において実際に
音声波形辞書に書き出されるのは、後述するように、各
音声波形を構成し、パラメータ化部701によって選出
される代表ピッチ波形である。
【0099】次に、本実施の形態に係る音声波形辞書作
成装置の動作について説明する。
【0100】図8に示すように、音声波形選出部502
で選出されたVCV単位の音声波形801〜804は、
音声波形辞書に登録されることになる。
【0101】ここで、音声合成端末装置(図示していな
い)で採用されている音声合成器が波形重畳型の音声合
成方式を採用している場合、音声波形801〜804の
うち有声音はピッチ波形抽出部702で1ピッチ周期相
当分の波形(ピッチ波形)に区切られる。このピッチ波
形は予め音声波形に付属させられたピッチマークを基準
に、ハニング窓を用いて抽出される。
【0102】ピッチ波形は周期性のある音声波形から抽
出された波形であるため、ピッチ波形間で類似度の高い
ものが多い。そのためピッチ波形分類部703では、ピ
ッチ波形間の類似度を評価関数として波形形状が似てい
て類似度が所定値以上のピッチ波形同士をまとめてクラ
スタ811及びクラスタ812を作成する。ここで、類
似度を表す評価関数は、ピッチ波形間の相関係数やユー
クリッド距離などが用いられる。
【0103】代表ピッチ波形作成部704では、各クラ
スタ(クラスタ811及びクラスタ812)のセントロ
イドに最も近いピッチ波形を代表ピッチ波形821及び
代表ピッチ波形822とする。すなわち、同一クラスタ
内の複数のピッチ波形が一つのピッチ波形に置き換えら
れることになる。音声波形801〜804の有声音部分
は、もとのピッチ波形の代わりにこの代表ピッチ波形に
よって構成される。
【0104】辞書構築部505では、音声波形辞書に、
代表ピッチ波形と、この代表ピッチ波形を構成要素とす
る音声波形との関係を登録する。
【0105】したがって、音声合成端末装置130は、
音声合成の際に、必要な音声波形と結びついたピッチ波
形を用いることができる。
【0106】以上説明したように、本実施の形態に係る
音声波形辞書作成装置は、例えば合成単位内または合成
単位の枠を越えて類似度の高いピッチ波形が存在する場
合、これら複数のピッチ波形を代表的な一つのピッチ波
形に置き換えることで、無駄の少ない効率的な音声波形
辞書を作成することが可能であり、音声波形辞書のデー
タ容量を削減することができる。 (第7の実施の形態)
【0107】まず、第7の実施の形態に係る音声波形辞
書作成装置の構成について説明する。なお、本実施の形
態に係る音声波形辞書作成装置の構成は、第4の実施の
形態に係る音声波形辞書作成装置の構成とほぼ同様であ
るので、第4の実施の形態に係る音声波形辞書作成装置
の構成とほぼ同様な構成については、同一の符合を付し
て詳細な説明を省略する。
【0108】図9に示すように、本実施の形態に係る音
声波形辞書作成装置は、第4の実施の形態に係る音声波
形辞書作成装置の音声波形選出部502(図5参照)の
代わりに、音声波形選出部(音声波形選出手段)901
を備えている。
【0109】音声波形選出部901は、音声データベー
ス112aの中に含まれる音素境界ラベル情報を参照し
て、指定された合成単位で音声波形を抽出するための区
切り情報(合成単位の境界ラベル)を作成する合成単位
作成部(合成単位作成手段)902と、合成単位作成部
902で作成された区切り情報に基づき音声波形を音声
波形辞書に登録する候補として切り出し、切り出した音
声波形の一覧をリストにする候補波形抽出部(候補波形
抽出手段)903と、候補波形抽出部903で抽出され
た音声波形の中から、音声波形辞書に登録する音声波形
を選定する登録波形選定部(登録波形選定手段)904
とを備えている。
【0110】また、辞書条件決定部111は、話者の種
類や音声波形辞書の形式に加えて、音声合成端末装置の
利用者の所望する合成単位を受け取って音声波形辞書の
作成条件を決定するようになっており、パラメータ化部
503は、登録波形選定部904で選定された音声波形
を、音声波形辞書作成装置の音声合成器の条件に合致し
た所定の波形(パラメータ)形式に変換するようになっ
ている。
【0111】また、音声データベース112aは、図1
0に示すように、付属情報の一つとして、隣接する音素
との境界を示し、各音素の終点位置情報とその音素の種
類を表す記号である音素境界ラベル1010を格納して
いる。ここで、音素境界ラベル1010は、音声波形1
000に予め付属させられており、同様に、音声データ
ベース112aに格納される全ての音声波形には、音素
境界ラベルが予め付属させられている。なお、音声波形
1000は、自然発声の音声データであり、音声データ
ベース112aを構成する文の一例である。
【0112】次に、本実施の形態に係る音声波形辞書作
成装置の動作について説明する。
【0113】辞書条件決定部111は、音声合成端末装
置の利用者の要求や、音声合成端末装置の音声合成器の
条件によって、合成単位を決定する。ここで、合成単位
とは、音声合成時に接続する音声波形の最小単位のこと
であり、音素単位1011、CV(子音・母音)・VC
(母音・子音)単位1012、VCV(母音・子音・母
音)単位1013などが一般的に用いられる。
【0114】例えば、音声合成端末装置の音声合成器の
条件によって、音素が合成単位として選択された場合、
合成単位作成部902は、音声データベース112a内
に格納されている音素境界ラベル1010を参照し、音
声波形を音素単位1011に区切る。なお、合成単位作
成部902は、指定された任意の合成単位に音声波形を
区切ることができる。また、CV・VC単位1012と
VCV単位1013の二つの合成単位を採用し、一つの
音声波形辞書に複数の合成単位を持たせることも可能で
ある。
【0115】候補波形抽出部903では、合成単位に区
切られた音声波形を抽出し、この合成単位で抽出された
音声波形の一覧を作成する。
【0116】もし、合成単位に複数の候補が存在する場
合などは、登録波形選定部904で音声波形辞書に登録
する音声波形を選択する。例として、図10の音声波形
1000「家族の同意がある場合・・・(kazokuno/do-i
ga/arubaai)」を音素単位1011で区切った場合、こ
の中に音素/k/の音声波形は、音声波形1021及び音
声波形1022の2つ存在する。複数の音声波形を音声
波形辞書に登録できる場合は別として、コンパクトな音
声波形辞書を作成するためには、必要最低限の音声波形
だけを登録することになる。したがって、登録波形選定
部904では、候補となる複数の音声波形の中から、音
声合成端末装置の利用者が設定した評価基準に基づき音
声波形辞書に登録する音声波形を選択する。
【0117】登録波形選定部904で選択された音声波
形は、パラメータ化部503によって音声合成器の条件
に合致した所定の音声波形(パラメータ)形式に変換さ
れる。
【0118】以上説明したように、本実施の形態に係る
音声波形辞書作成装置は、音声合成端末装置の利用者に
合成単位を自由に指定させることができ、例えば短い合
成単位を指定されればサイズの小さな音声波形辞書を作
成することができ、長い合成単位を指定されれば、高音
質な音声合成が可能な音声波形辞書を作成することがで
きる。したがって、本実施の形態に係る音声波形辞書作
成装置によれば、音声合成端末装置の利用者は、音声波
形辞書を記録するメモリ容量と、合成音声の音質との兼
ね合いを判断して音声波形辞書を作成することが可能と
なる。 (第8の実施の形態)
【0119】まず、第8の実施の形態に係る音声波形辞
書作成装置の構成について説明する。なお、本実施の形
態に係る音声波形辞書作成装置の構成は、第7の実施の
形態に係る音声波形辞書作成装置の構成とほぼ同様であ
るので、第7の実施の形態に係る音声波形辞書作成装置
の構成とほぼ同様な構成については、同一の符合を付し
て詳細な説明を省略する。
【0120】図11に示すように、本実施の形態に係る
音声波形辞書作成装置は、第7の実施の形態に係る音声
波形辞書作成装置の登録波形選定部904(図9参照)
の代わりに、登録波形選定部(登録波形選定手段)11
01を備えている。
【0121】登録波形選定部1101は、候補波形抽出
部903で抽出した各音声波形について、音素毎に長時
間の平均スペクトル(スペクトル情報)を求めるスペク
トル抽出部(スペクトル抽出手段)1102と、スペク
トル抽出部1102で得た長時間平均スペクトルを用い
て、同じ音素並びの音声波形間におけるスペクトル距離
を計算するスペクトル距離計算部(スペクトル距離計算
手段)1103と、スペクトル距離計算部1103で求
めた音声波形間のスペクトル距離に基づき、音声波形辞
書に代表として登録する音声波形を選定する代表波形選
定部(スペクトル代表波形選定手段)1104とを備え
ている。
【0122】また、候補波形抽出部903は、音声デー
タベース112a(図12参照)から音声波形を抽出
し、この音声波形の中で音素並びが同じものが複数ある
場合は、これらを音声波形辞書に登録する候補波形とし
てリストアップするようになっている。
【0123】また、パラメータ化部503は、登録波形
選定部1101で選定された音声波形を、音声合成器の
条件に合致した所定の波形(パラメータ)形式に変換す
るようになっている。
【0124】次に、本実施の形態に係る音声波形辞書作
成装置の動作について説明する。
【0125】候補波形抽出部903は、図12に示すよ
うに、音声データベース112aから音声合成端末装置
の利用者が要求する合成単位で音声波形を抽出する。こ
の際、音声波形に音素並びの同じものが複数ある場合
は、これらの音声波形リストを作成する。例えば、候補
波形抽出部903は、音声データベース112aに格納
されている音声波形の中で必要な音素並びを含む音声波
形の一覧、即ち、リスト1201に示す音声から、VC
V連鎖を合成単位とする音声波形/ama/として、音声波
形辞書に登録する候補波形である音声波形1211及び
音声波形1212などの複数の音声波形を抽出する。
【0126】次いで、スペクトル抽出部1102は、候
補波形抽出部903で抽出された複数の音声波形121
1及び音声波形1212などの複数の音声波形につい
て、各音素(/a/,/m/,/a/)毎にそのスペクトル情報1
221〜1226を計算する。なお、スペクトル情報は
各音素内の長時間平均スペクトルである。
【0127】次いで、音声波形/ama/として複数存在す
る音声波形1211及び音声波形1212などの複数の
音声波形の中から、音声波形辞書に登録する音声波形を
選出する。そのためにスペクトル距離計算部1103で
は、候補音声波形間のスペクトル距離を評価関数とし
て、候補音声波形をクラスタリングする。ここでクラス
タリングよって生成されるクラスタ数は、音声波形辞書
に登録する音声波形数であって、音声合成端末装置の利
用者の要求する音声波形辞書のサイズによって決まる。
【0128】次いで、代表波形選定部1104では、ス
ペクトル距離計算部1103によってクラスタリングさ
れた各クラスタから代表音声波形1231及び代表音声
波形1232を選出する。代表音声波形1231及び代
表音声波形1232は、各クラスタにおける平均スペク
トルに最も近い音声波形が選出される。
【0129】最後に、パラメータ化部503は、代表音
声波形1231及び代表音声波形1232を音声波形辞
書に登録する音声波形として所定の形式に変換する。
【0130】なお、上記説明では、VCV連鎖を合成単
位とした場合を例にしたが、合成単位の種類にかかわら
ず本方式を用いることができる。
【0131】以上説明したように、本実施の形態に係る
音声波形辞書作成装置は、音声合成端末装置の利用者の
要求する音声波形辞書のサイズに応じた音声波形数で、
音声合成時に接続する二つの合成単位間で生じるスペク
トル歪を少なくすることが可能な音声波形辞書を作成す
ることができる。 (第9の実施の形態)
【0132】まず、第9の実施の形態に係る音声波形辞
書作成装置の構成について説明する。なお、本実施の形
態に係る音声波形辞書作成装置の構成は、第7の実施の
形態に係る音声波形辞書作成装置の構成とほぼ同様であ
るので、第7の実施の形態に係る音声波形辞書作成装置
の構成とほぼ同様な構成については、同一の符合を付し
て詳細な説明を省略する。
【0133】図13に示すように、本実施の形態に係る
音声波形辞書作成装置は、第7の実施の形態に係る音声
波形辞書作成装置の登録波形選定部904(図9参照)
の代わりに、登録波形選定部(登録波形選定手段)13
01を備えている。
【0134】登録波形選定部1301は、候補波形抽出
部903で抽出した各音声波形における基本周波数パタ
ン(基本周波数情報)を求める基本周波数抽出部(基本
周波数抽出手段)1302と、基本周波数抽出部130
2で求めた音声波形の基本周波数パタンを考慮して、同
じ音素並びの音声波形間の基本周波数距離の計算を行う
基本周波数距離計算部(基本周波数距離計算手段)13
03と、基本周波数距離計算部1303で求めた音声波
形間の基本周波数距離に基づき、音声波形辞書に代表と
して登録する音声波形を選定する代表波形選定部(基本
周波数代表波形選定手段)1304とを備えている。
【0135】また、候補波形抽出部903は、音声デー
タベース112a(図9参照)から音声波形を抽出し、
この音声波形の中で音素並びが同じものが複数ある場合
は、これらを音声波形辞書に登録する候補波形としてリ
ストアップするようになっている。
【0136】また、パラメータ化部503は、登録波形
選定部1301で選定された音声波形を、音声合成器の
条件に合致した所定の波形(パラメータ)形式に変換す
るようになっている。
【0137】次に、本実施の形態に係る音声波形辞書作
成装置の動作について説明する。
【0138】まず、候補波形抽出部903は、音声デー
タベース112aから、音声合成端末装置の利用者が要
求する合成単位で音声波形を抽出する。この際、音声波
形に音素並びの同じものが複数ある場合は、基本周波数
パタンを考慮して音声波形辞書に登録する音声波形を選
出することになる。なお、音声波形辞書に登録する音声
波形数は、音声合成端末装置の利用者の要求する音声波
形辞書サイズによって決まる。
【0139】次いで、基本周波数抽出部1302は、図
14に示すように、候補波形抽出部903によって音素
並び毎に抽出された音声波形について、その基本周波数
パタン1401〜1408を計算する。
【0140】次いで、基本周波数距離計算部1303
は、基本周波数パタン1401〜1408の基本周波数
距離を類似度の評価関数として、音声波形をクラスタリ
ングする。
【0141】次いで、代表波形選定部1304では、基
本周波数距離計算部1303におけるクラスタリングよ
って生成される各クラスタ1421〜1423から最も
平均的な基本周波数パタンを代表音声波形1411〜1
413として選出する。
【0142】最後に、パラメータ化部503は、代表音
声波形1411〜1413を音声波形辞書に登録する音
声波形として所定の形式に変換する。
【0143】なお、上記説明では、VCV連鎖を合成単
位とした場合を例にしたが、合成単位の種類にかかわら
ず本方式を用いることが可能である。
【0144】以上説明したように、本実施の形態に係る
音声波形辞書作成装置は、音声合成端末装置の利用者の
要求する音声波形辞書サイズに応じた音声波形数で、ピ
ッチ変換や時間長変換などの韻律変換処理によって生じ
る波形歪を抑えることが可能な音声波形辞書を作成する
ことができる。 (第10の実施の形態)
【0145】図15に示すように、第10の実施の形態
に係る音声合成端末装置1501の構成は、第1の実施
の形態に係る音声波形辞書配信システムの音声合成端末
装置の構成と同様であるので、同一の符合を付して詳細
な説明を省略する。
【0146】また、本実施の形態に係る音声合成端末装
置1501は、第1の実施の形態に係る音声波形辞書配
信システムの音声合成端末装置と同様に動作することが
できる。
【0147】したがって、音声合成端末装置1501
は、利用者が音声波形辞書を決定することができ、情報
提供サーバから獲得したテキスト情報を利用者の好みの
話者の声で音声合成を行うことができる。また、音声合
成端末装置1501を使用した音声波形辞書配信システ
ムは、サーバ(音声波形辞書作成装置)側で音声合成し
て音声信号を送受信するシステムと比較して、音声波形
辞書を一度ダウンロードすれば音声合成端末装置に音声
信号を通信する必要がないため、通信負荷を抑えること
ができる。 (第11の実施の形態)
【0148】まず、第11の実施の形態に係る音声合成
端末装置の構成について説明する。なお、本実施の形態
に係る音声合成端末装置の構成は、第10の実施の形態
に係る音声合成端末装置の構成とほぼ同様であるので、
第10の実施の形態に係る音声合成端末装置の構成とほ
ぼ同様な構成については、同一の符合を付して詳細な説
明を省略する。
【0149】図16に示すように、本実施の形態に係る
音声合成端末装置は、記録する音声波形辞書の数及びサ
イズを管理する音声波形辞書管理部1601を備えてい
るとともに、第10の実施の形態に係る音声合成端末装
置の記録媒体132(図15参照)の代わりに、音声波
形辞書管理部1601によって管理された音声波形辞書
を記録する記録媒体(音声波形辞書記録手段)1602
を備えている。
【0150】記録媒体1602は、音声合成を行うため
に必要な音声波形情報によって構成された複数の音声波
形辞書1603〜1605を保存することが可能となっ
ている。なお、音声波形辞書1603〜1605の辞書
形式は音声合成端末装置に搭載されている音声合成器に
依存している。
【0151】次に、本実施の形態に係る音声合成端末装
置の動作について説明する。
【0152】本実施の形態に係る音声合成端末装置は、
音声波形辞書管理部1601で、記録媒体1602の記
録容量をチェックすることによって記録媒体1602に
記録可能な音声波形辞書の数及びサイズを管理し、利用
者の要求によって音声波形辞書作成装置で作成した音声
波形辞書をデータ送受信部135で受信し、記録媒体1
602に格納する。
【0153】ここで、記録媒体1602では、上述した
ように、記録容量に応じて、一つまたは複数の音声波形
辞書を格納することが可能である。
【0154】また、本実施の形態に係る音声合成端末装
置は、音声合成部133において、記録媒体1602に
記録してある音声波形辞書1603〜1605の中から
音声波形辞書を1つ選択し、選択した音声波形辞書を使
用して音声合成を行う。
【0155】例えば、本実施の形態に係る音声合成端末
装置は、音声読み上げの対象が電子メールの場合は話者
1の音声波形辞書1603を使い、ニュース文の場合は
話者2の音声波形辞書1604を使うなど、音声読み上
げする情報毎に音声波形辞書を切り替えて使用すること
が可能である。
【0156】ただし、記録容量の限られた記録媒体16
02で複数の音声波形辞書を記録するためには、音声波
形辞書1つあたりのサイズを小さくする必要があるの
で、音質と、音声波形辞書の数とはトレードオフの関係
になる。
【0157】以上説明したように、本実施の形態に係る
音声合成端末装置は、記録媒体1602の記録容量と、
記録媒体1602に記録する音声波形辞書のサイズとに
応じて、記録媒体1602に記録する音声波形辞書の数
を決定することができるので、複数の音声波形辞書を保
持することができる。したがって、本実施の形態に係る
音声合成端末装置は、一つのアプリケーションの中で複
数話者での合成が可能となり、例えば電子メールやニュ
ース文などコンテンツ毎に異なる話者での音声読み上げ
が可能となるので、利用者は現在の音声読み上げの対象
が何であるのかを判断することができる。 (第12の実施の形態)
【0158】まず、第12の実施の形態に係る音声合成
端末装置の構成について説明する。なお、本実施の形態
に係る音声合成端末装置の構成は、第11の実施の形態
に係る音声合成端末装置の構成とほぼ同様であるので、
第11の実施の形態に係る音声合成端末装置の構成とほ
ぼ同様な構成については、同一の符合を付して詳細な説
明を省略する。
【0159】図17に示すように、本実施の形態に係る
音声合成端末装置は、第11の実施の形態に係る音声合
成端末装置の音声合成部133(図16参照)の代わり
に、LPC方式を代表とするパラメトリックな音声合成
器や波形重畳系のノンパラメトリックな音声合成器な
ど、複数の音声合成器によって構成される音声合成部
(音声合成手段)1701を備えている。
【0160】例えば、音声合成部1701は、音声合成
器1702〜1704によって構成されており、音声合
成器1702〜1704は、それぞれが採用している音
声合成方式に適したフォーマットの音声波形辞書を参照
して音声合成を行うようになっている。
【0161】なお、音声波形辞書管理部1601は、複
数の音声合成器1702〜1704の中から、記録媒体
1602に記録された音声波形辞書1603及び160
4などの複数の音声波形辞書のうち、音声合成に使用す
る音声波形辞書の辞書形式に適合した音声合成器を選択
し、選択した音声合成器と、音声合成に使用する音声波
形辞書との間で音声波形データの受け渡しをするように
なっている。
【0162】次に、本実施の形態に係る音声合成端末装
置の動作について説明する。
【0163】本実施の形態に係る音声合成端末装置は、
例えば、音声読み上げの対象が電子メールの場合は音声
波形辞書(話者1)1603を利用し、ニュース文の場
合は音声波形辞書(話者2)1604を利用するという
ように、利用者の設定によって音声読み上げの対象コン
テンツ毎にそれぞれの音声波形辞書が割り振られている
場合、音声読み上げの対象コンテンツ毎に使用する音声
波形辞書を音声波形辞書管理部1601によって切り替
える。
【0164】ここで、音声読み上げに使用する音声波形
辞書(話者1)1603がピッチ同期の波形重畳型合成
方式に対応した辞書形式であった場合、音声波形辞書管
理部1601によって、この合成方式を扱える音声合成
器1702が選択され、音声波形辞書(話者2)160
4がLSP係数を利用したフレーム同期型の合成方式に
対応した辞書形式であった場合、音声波形辞書管理部1
601によって、この合成方式を扱える音声合成器17
03が選択される。
【0165】このように、音声合成部1701は、音声
波形辞書管理部1601によって、音声読み上げに使用
される音声波形辞書の辞書形式に応じて音声合成器が自
動的に選択され、選択された音声合成器によって音声合
成を実現する。
【0166】したがって、音声波形辞書1603及び音
声波形辞書1604の辞書形式としては、音声合成端末
装置に搭載されている音声合成器に対応した辞書形式の
みが許される。
【0167】以上説明したように、本実施の形態に係る
音声合成端末装置は、例えば音声波形辞書の辞書形式が
LPCパラメータである場合や、音声波形をピッチ波形
単位に分割した形式である場合など、それぞれの辞書形
式に応じて音声合成器を自動的に使い分けることで、音
声波形辞書をダウンロードする際、利用者に辞書形式を
把握させる必要がない。
【0168】なお、本実施の形態においては、音声合成
端末装置に波形重畳型の合成方式に対応した音声合成器
や、LSP係数を利用したフレーム同期型の合成方式に
対応した音声合成器を搭載した例を示したが、本発明に
よれば、音声合成端末装置には、これらの音声合成器以
外にも様々な音声合成方式に対応した音声合成器を搭載
することが可能である。
【0169】また、本実施の形態においては、記録媒体
1602が複数の音声波形辞書を記録する構成を採って
いたが、本発明によれば、記録媒体1602は音声波形
辞書を1つだけ記録する構成であっても良い。 (第13の実施の形態)
【0170】まず、第13の実施の形態に係る音声合成
端末装置の構成について説明する。なお、本実施の形態
に係る音声合成端末装置の構成は、第10の実施の形態
に係る音声合成端末装置の構成とほぼ同様であるので、
第10の実施の形態に係る音声合成端末装置の構成とほ
ぼ同様な構成については、同一の符合を付して詳細な説
明を省略する。
【0171】図18に示すように、本実施の形態に係る
音声合成端末装置は、第10の実施の形態に係る音声合
成端末装置の音声合成部133(図15参照)の代わり
に、音声合成部(音声合成手段)1801を備えてい
る。
【0172】音声合成部1801は、サーバなどから配
信されたテキスト情報を、形態素解析や構文解析などを
行って、韻律情報を付属させた表音文字並びに変換する
テキスト解析部(テキスト解析手段)1802と、テキ
スト解析部1802によるテキスト解析の結果から、音
声合成対象となる表音文字並び相応しい韻律パタン(基
本周波数パタンと音韻継続時間長パタン、振幅パタン)
を生成する韻律生成部(韻律生成手段)1803と、指
定された合成単位毎に表音文字並びが一致する音声波形
を後述する音声波形辞書1814の中から検索する音声
波形選択部(音声波形選択手段)1804と、音声波形
選択部1804で選択された音声波形について、ターゲ
ットとなる韻律パタンに沿って基本周波数や音韻継続時
間長の変更を行い、最終的に音声波形を接続して合成音
声を出力する音声波形変形部(音声波形変形手段及び音
声波形接続手段)1805とを備えている。
【0173】なお、音声波形選択部1804は、複数の
音声波形候補が存在する場合は、合成単位長や韻律パタ
ンなどの条件が最も適合する音声波形を選択して用いる
ようになっている。
【0174】また、本実施の形態に係る音声合成端末装
置は、第10の実施の形態に係る音声合成端末装置の記
録媒体132(図15参照)の代わりに、記録媒体(音
声波形辞書記録手段)1811を備えている。
【0175】記録媒体1811は、テキスト解析部18
02で用いる単語辞書であり、読み情報、品詞情報、ア
クセント情報などを保持するテキスト解析辞書1812
と、韻律生成部1803が基本周波数パタンや音韻継続
時間長パタンを決定するのに必要なパラメータを保持す
る韻律辞書1813と、音声合成部1801が参照可能
な所定の形式の音声波形データによって構成される音声
波形辞書1814とを備えている。
【0176】次に、本実施の形態に係る音声合成端末装
置の動作について説明する。
【0177】本実施の形態に係る音声合成端末装置は、
情報提供サーバなどから配信されたテキスト情報をデー
タ送受信部135で受信すると、受信したテキスト情報
を音声合成部1801に出力する。音声合成部1801
では、データ送受信部135から出力されたテキスト情
報を以下のように処理する。
【0178】まず、テキスト解析部1802が、形態素
解析を行って、単語辞書(テキスト解析辞書1812)
を参照して表音文字並びを生成した後、構文解析を行っ
て、生成した表音文字並びにアクセントやポーズなどの
韻律情報を付属させる。
【0179】次いで、韻律生成部1803が、アクセン
トフレーズ毎の基本周波数パタンや音素又は音韻毎の継
続時間長テーブルを保持する韻律辞書1813を参照す
ることで、合成する表音文字並びに適した基本周波数パ
タンや音韻継続時間長パタンを生成する。
【0180】次いで、音声波形選択部1804が、合成
する表音文字並びを合成単位に分割し、これと一致する
音声波形を音声波形辞書1814の中から検索する。も
し、一つの表音文字並びに対して複数の音声波形候補が
存在する場合は、韻律パタンの適合性や接続位置でのス
ペクトルの適合性を評価関数として、合成環境に最も適
合した音声波形を選択する。
【0181】次いで、音声波形変形部1805が、音声
波形選択部1804によって選択された音声波形の韻律
をターゲットの韻律パタンに変換する。例として、音声
合成部1801がピッチ同期の波形重畳型音声合成方式
を採用している場合、音声波形変形部1805では必要
なピッチ波形を音声波形辞書1814から読み出し、こ
のピッチ波形をターゲットの基本周波数間隔に合わせて
配列することで基本周波数変更を行う。また、ピッチ波
形を所望する時間長だけ配列することで音韻継続時間長
を制御する。
【0182】最後に、音声合成端末装置は、韻律変換し
た音声波形を音声波形変形部1805で接続してスピー
カ134から出力することによって、情報提供サーバな
どから配信されたテキスト情報を音声読み上げする。
【0183】以上説明したように、本実施の形態に係る
音声合成端末装置は、音声波形辞書に登録されている複
数の音声波形の候補の中から、合成環境に最も適した音
声波形を選択することができるようになり、高音質な音
声合成が可能となる。
【0184】なお、上記説明では音声波形変形部180
5に波形重畳型の音声合成方式を採用した場合を例にし
たが、その他パラメトリックな音声合成方式を採用する
ことも可能である。
【0185】
【発明の効果】以上説明したように、本発明によれば、
利用者の要求する話者の音色で電子メールなどのテキス
ト情報を読み上げることが可能な音声波形辞書配信シス
テム、音声波形辞書作成装置、及び音声合成端末装置を
提供することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る音声波形辞書
配信システムのブロック図
【図2】本発明の第2の実施の形態に係る音声波形辞書
配信システムのブロック図
【図3】図2に示す音声波形辞書配信システムの動作の
フローチャート
【図4】本発明の第3の実施の形態に係る音声波形辞書
作成装置のブロック図
【図5】本発明の第4の実施の形態に係る音声波形辞書
作成装置の一部のブロック図
【図6】本発明の第5の実施の形態に係る音声波形辞書
作成装置の一部のブロック図
【図7】本発明の第6の実施の形態に係る音声波形辞書
作成装置の一部のブロック図
【図8】図7に示す音声波形辞書作成装置の動作を説明
する模式図
【図9】本発明の第7の実施の形態に係る音声波形辞書
作成装置の一部のブロック図
【図10】図9に示す音声波形辞書作成装置の動作を説
明する模式図
【図11】本発明の第8の実施の形態に係る音声波形辞
書作成装置の一部のブロック図
【図12】図11に示す音声波形辞書作成装置の動作を
説明する模式図
【図13】本発明の第9の実施の形態に係る音声波形辞
書作成装置の一部のブロック図
【図14】図13に示す音声波形辞書作成装置の動作を
説明する模式図
【図15】本発明の第10の実施の形態に係る音声合成
端末装置のブロック図
【図16】本発明の第11の実施の形態に係る音声合成
端末装置の一部のブロック図
【図17】本発明の第12の実施の形態に係る音声合成
端末装置の一部のブロック図
【図18】本発明の第13の実施の形態に係る音声合成
端末装置の一部のブロック図
【符号の説明】
100 音声波形辞書配信システム 110 音声波形辞書作成装置 111 辞書条件決定部(辞書条件決定手段) 112a、112b、112c 音声データベース 113 音声波形辞書作成部(音声波形辞書作成手
段) 114 データ送受信部(条件受信辞書送信手段) 120 ネットワーク 130、140、150 音声合成端末装置 131 辞書条件入力部(辞書条件入力手段) 132 記録媒体(音声波形辞書記録手段) 133 音声合成部(音声合成手段) 134 スピーカ(音声出力手段) 135 データ送受信部(条件送信辞書受信手段) 200 音声波形辞書配信システム 201 音声波形辞書作成装置 202 音声合成部(作成辞書音声合成手段) 401 音声波形辞書作成装置 501 音声波形辞書作成部(音声波形辞書作成手
段) 502 音声波形選出部(音声波形選出手段) 503 パラメータ化部(パラメータ化手段) 504 音声波形付属情報抽出部(音声波形付属情
報抽出手段) 505 辞書構築部(辞書構築手段) 601 パラメータ化部(パラメータ化手段) 611 音声波形 612 スペクトル包絡(声道特性) 613 音源パルス列(音源特性) 701 パラメータ化部(パラメータ化手段) 702 ピッチ波形抽出部(ピッチ波形抽出手段) 703 ピッチ波形分類部(ピッチ波形分類手段) 704 代表ピッチ波形作成部(代表ピッチ波形作
成手段) 801 音声波形 821、822 代表ピッチ波形 901 音声波形選出部(音声波形選出手段) 902 合成単位作成部(合成単位作成手段) 903 候補波形抽出部(候補波形抽出手段) 904 登録波形選定部(登録波形選定手段) 1000 音声波形 1010 音素境界ラベル 1011 音素単位(合成単位) 1012 CV・VC単位(合成単位) 1013 VCV単位(合成単位) 1021、1022 音声波形 1101 登録波形選定部(登録波形選定手段) 1102 スペクトル抽出部(スペクトル抽出手
段) 1103 スペクトル距離計算部(スペクトル距離
計算手段) 1104 代表波形選定部(スペクトル代表波形選
定手段) 1211、1212 音声波形 1221 スペクトル情報 1301 登録波形選定部(登録波形選定手段) 1302 基本周波数抽出部(基本周波数抽出手
段) 1303 基本周波数距離計算部(基本周波数距離
計算手段) 1304 代表波形選定部(基本周波数代表波形選
定手段) 1401 基本周波数パタン(基本周波数情報) 1501 音声合成端末装置 1602 記録媒体(音声波形辞書記録手段) 1603、1604、1605 音声波形辞書 1701 音声合成部(音声合成手段) 1702、1703、1704 音声合成器 1801 音声合成部(音声合成手段) 1802 テキスト解析部(テキスト解析手段) 1803 韻律生成部(韻律生成手段) 1804 音声波形選択部(音声波形選択手段) 1805 音声波形変形部(音声波形変形手段、音
声波形接続手段) 1811 記録媒体(音声波形辞書記録手段)
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 N

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 音声合成に使用される音声波形辞書を作
    成する音声波形辞書作成装置と、前記音声波形辞書をネ
    ットワーク経由で収得して音声合成を行う音声合成端末
    装置とから構成され、 前記音声波形辞書作成装置は、複数の音声データベース
    と、前記音声合成端末装置から受信する前記音声波形辞
    書に対する要求条件に基づいて、前記音声波形辞書の作
    成条件を決定する辞書条件決定手段と、前記音声データ
    ベースの中から前記作成条件に基づいた音声データベー
    スを用いて前記音声波形辞書を作成する音声波形辞書作
    成手段と、前記ネットワークを介して、前記要求条件を
    受信し、前記音声波形辞書を送信する条件受信辞書送信
    手段とを備え、 前記音声合成端末装置は、前記要求条件を入力する辞書
    条件入力手段と、前記ネットワークを介して、前記要求
    条件を送信し、前記音声波形辞書を受信する条件送信辞
    書受信手段と、前記音声波形辞書を記録する音声波形辞
    書記録手段と、前記音声波形辞書記録手段に記録された
    前記音声波形辞書を用いて音声合成を行う音声合成手段
    と、前記音声合成手段で音声合成した音声信号を出力す
    る音声出力手段とを備えることを特徴とする音声波形辞
    書配信システム。
  2. 【請求項2】 前記音声波形辞書作成装置は、前記音声
    波形辞書作成手段で作成した前記音声波形辞書を用いて
    音声合成を実行する作成辞書音声合成手段を備え、 前記音声合成端末装置は、前記ネットワークを介して、
    前記作成辞書音声合成手段で音声合成した音声信号を受
    信し、受信した前記音声信号を前記音声出力手段で出力
    することを特徴とする請求項1に記載の音声波形辞書配
    信システム。
  3. 【請求項3】 複数の音声データベースと、音声合成に
    使用される音声波形辞書に対する要求条件に基づいて、
    前記音声波形辞書の作成条件を決定する辞書条件決定手
    段と、前記音声データベースの中から前記作成条件に基
    づいた音声データベースを用いて前記音声波形辞書を作
    成する音声波形辞書作成手段と、ネットワークを介し
    て、前記要求条件を受信し、前記音声波形辞書を送信す
    る条件受信辞書送信手段とを備えたことを特徴とする音
    声波形辞書作成装置。
  4. 【請求項4】 前記音声波形辞書作成手段は、前記音声
    データベースに予め付属させられた付属情報を参照して
    音声波形を選出する音声波形選出手段と、前記音声波形
    選出手段によって選出された前記音声波形を所定の形式
    に変換するパラメータ化手段と、前記音声データベース
    から前記音声波形に付属させられた前記付属情報を抽出
    する音声波形付属情報抽出手段と、前記パラメータ化手
    段でパラメータ化された前記音声波形、及び、前記音声
    波形付属情報抽出手段によって抽出された前記付属情報
    を用いて、前記音声波形辞書を構築する辞書構築手段と
    を備えることを特徴とする請求項3に記載の音声波形辞
    書作成装置。
  5. 【請求項5】 前記パラメータ化手段は、前記音声波形
    を音源特性と声道特性とに分離して、それぞれを独立に
    パラメータ化することを特徴とする請求項4に記載の音
    声波形辞書作成装置。
  6. 【請求項6】 前記パラメータ化手段は、前記音声波形
    をピッチ波形単位に分割して抽出するピッチ波形抽出手
    段と、前記ピッチ波形抽出手段によって抽出された前記
    ピッチ波形に対して、類似度が所定値以上の前記ピッチ
    波形同士を分類するピッチ波形分類手段と、前記ピッチ
    波形分類手段によって分類された前記ピッチ波形の中か
    ら前記音声波形辞書に代表として登録する代表ピッチ波
    形を作成する代表ピッチ波形作成手段とを備えることを
    特徴とする請求項4に記載の音声波形辞書作成装置。
  7. 【請求項7】 前記音声波形選出手段は、予め音声デー
    タに付属させられた音素境界ラベル情報を参照して合成
    単位の境界ラベルを付与し、前記合成単位を作成する合
    成単位作成手段と、前記合成単位作成手段で作成された
    前記合成単位の前記音声波形を前記音声波形辞書に登録
    する候補として抽出する候補波形抽出手段と、前記候補
    波形抽出手段で抽出された前記音声波形の中から前記音
    声波形辞書に登録する音声波形を選定する登録波形選定
    手段とを備えることを特徴とする請求項4に記載の音声
    波形辞書作成装置。
  8. 【請求項8】 前記登録波形選定手段は、前記候補波形
    抽出手段で抽出された全ての前記音声波形のスペクトル
    情報を抽出するスペクトル抽出手段と、前記スペクトル
    情報を用いて、前記候補波形抽出手段で抽出された前記
    音声波形間のスペクトル距離を計算するスペクトル距離
    計算手段と、前記スペクトル距離に基づいて、前記音声
    波形辞書に代表として登録する前記音声波形を選定する
    スペクトル代表波形選定手段とを備えることを特徴とす
    る請求項7に記載の音声波形辞書作成装置。
  9. 【請求項9】 前記登録波形選定手段は、前記候補波形
    抽出手段で抽出された全ての前記音声波形の基本周波数
    情報を抽出する基本周波数抽出手段と、前記基本周波数
    情報を用いて、前記候補波形抽出手段で抽出された前記
    音声波形間の基本周波数距離を計算する基本周波数距離
    計算手段と、前記基本周波数距離に基づいて、前記音声
    波形辞書に代表として登録する前記音声波形を選定する
    基本周波数代表波形選定手段とを備えることを特徴とす
    る請求項7に記載の音声波形辞書作成装置。
  10. 【請求項10】 音声合成に使用される音声波形辞書に
    対する要求条件を入力する辞書条件入力手段と、ネット
    ワークを介して、前記要求条件を送信し、前記音声波形
    辞書を受信する条件送信辞書受信手段と、前記音声波形
    辞書を記録する音声波形辞書記録手段と、前記音声波形
    辞書記録手段に記録された前記音声波形辞書を用いて音
    声合成を行う音声合成手段と、前記音声合成手段で音声
    合成した音声信号を出力する音声出力手段とを備えたこ
    とを特徴とする音声合成端末装置。
  11. 【請求項11】 前記音声波形辞書記録手段は、複数の
    前記音声波形辞書を記録することを特徴とする請求項1
    0に記載の音声合成端末装置。
  12. 【請求項12】 前記音声合成手段は、複数の音声合成
    器を備え、複数の前記音声合成器の中から前記音声波形
    辞書の辞書形式に適した音声合成器を使用して音声合成
    することを特徴とする請求項10に記載の音声合成端末
    装置。
  13. 【請求項13】 前記音声合成手段は、音声読み上げ対
    象であるテキスト情報を表音文字列に変換するテキスト
    解析手段と、前記音声波形辞書から前記表音文字列が一
    致する前記音声波形を選択する音声波形選択手段と、合
    成音声の韻律パタンを決定する韻律生成手段と、前記韻
    律パタンに基づいて前記音声波形の韻律変形を行う音声
    波形変形手段と、韻律変形された前記音声波形を接続す
    る音声波形接続手段とを備えることを特徴とする請求項
    10に記載の音声合成端末装置。
JP2001219513A 2001-07-19 2001-07-19 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置 Pending JP2003029774A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001219513A JP2003029774A (ja) 2001-07-19 2001-07-19 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001219513A JP2003029774A (ja) 2001-07-19 2001-07-19 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置

Publications (1)

Publication Number Publication Date
JP2003029774A true JP2003029774A (ja) 2003-01-31

Family

ID=19053502

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001219513A Pending JP2003029774A (ja) 2001-07-19 2001-07-19 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置

Country Status (1)

Country Link
JP (1) JP2003029774A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006350091A (ja) * 2005-06-17 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、音声合成情報処理方法、クライアント端末、音声合成情報処理サーバ、クライアント端末プログラム、音声合成情報処理プログラム
CN1310209C (zh) * 2003-05-29 2007-04-11 雅马哈株式会社 语音和乐曲再生装置
JP2010048959A (ja) * 2008-08-20 2010-03-04 Denso Corp 音声出力システム及び車載装置
US7912719B2 (en) 2004-05-11 2011-03-22 Panasonic Corporation Speech synthesis device and speech synthesis method for changing a voice characteristic
JP2019040166A (ja) * 2017-08-29 2019-03-14 株式会社東芝 音声合成辞書配信装置、音声合成配信システムおよびプログラム
CN110942765A (zh) * 2019-11-11 2020-03-31 珠海格力电器股份有限公司 一种构建语料库的方法、设备、服务器和存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1310209C (zh) * 2003-05-29 2007-04-11 雅马哈株式会社 语音和乐曲再生装置
US7912719B2 (en) 2004-05-11 2011-03-22 Panasonic Corporation Speech synthesis device and speech synthesis method for changing a voice characteristic
JP2006350091A (ja) * 2005-06-17 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、音声合成情報処理方法、クライアント端末、音声合成情報処理サーバ、クライアント端末プログラム、音声合成情報処理プログラム
JP4653572B2 (ja) * 2005-06-17 2011-03-16 日本電信電話株式会社 クライアント端末、音声合成情報処理サーバ、クライアント端末プログラム、音声合成情報処理プログラム
JP2010048959A (ja) * 2008-08-20 2010-03-04 Denso Corp 音声出力システム及び車載装置
JP2019040166A (ja) * 2017-08-29 2019-03-14 株式会社東芝 音声合成辞書配信装置、音声合成配信システムおよびプログラム
US10872597B2 (en) 2017-08-29 2020-12-22 Kabushiki Kaisha Toshiba Speech synthesis dictionary delivery device, speech synthesis system, and program storage medium
JP7013172B2 (ja) 2017-08-29 2022-01-31 株式会社東芝 音声合成辞書配信装置、音声合成配信システムおよびプログラム
CN110942765A (zh) * 2019-11-11 2020-03-31 珠海格力电器股份有限公司 一种构建语料库的方法、设备、服务器和存储介质
CN110942765B (zh) * 2019-11-11 2022-05-27 珠海格力电器股份有限公司 一种构建语料库的方法、设备、服务器和存储介质

Similar Documents

Publication Publication Date Title
US7233901B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
JP4516863B2 (ja) 音声合成装置、音声合成方法及びプログラム
EP1168299B1 (en) Method and system for preselection of suitable units for concatenative speech
KR101076202B1 (ko) 음성 합성 장치, 음성 합성 방법 및 프로그램이 기록된 기록 매체
US7035794B2 (en) Compressing and using a concatenative speech database in text-to-speech systems
US7596499B2 (en) Multilingual text-to-speech system with limited resources
JP4884212B2 (ja) 音声合成装置
EP2704092A2 (en) System for creating musical content using a client terminal
JPH10260692A (ja) 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
JP2003029774A (ja) 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置
JP2001272991A (ja) 音声対話方法及び音声対話装置
JP4287785B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP3914612B2 (ja) 通信システム
JP2004294816A (ja) 携帯端末装置
JP2005018036A (ja) 音声合成装置、音声合成方法及びプログラム
JP4184157B2 (ja) 音声データ管理装置、音声データ管理方法及びプログラム
KR20100003574A (ko) 음성음원정보 생성 장치 및 시스템, 그리고 이를 이용한음성음원정보 생성 방법
JP2000231396A (ja) セリフデータ作成装置、セリフ再生装置、音声分析合成装置及び音声情報転送装置
JP4209811B2 (ja) 音声選択装置、音声選択方法及びプログラム
EP1511008A1 (en) Speech synthesis system
JP2007108450A (ja) 音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラム
JPH10161690A (ja) 音声通信システム及び音声合成装置及びデータ送信装置
JP2001166787A (ja) 音声合成装置および自然言語処理方法
JP2006145690A (ja) 音声合成装置、音声合成方法及びプログラム
JPH11344997A (ja) 音声合成方法