JP2007240990A - 音声合成装置、音声合成方法及びプログラム - Google Patents

音声合成装置、音声合成方法及びプログラム Download PDF

Info

Publication number
JP2007240990A
JP2007240990A JP2006064875A JP2006064875A JP2007240990A JP 2007240990 A JP2007240990 A JP 2007240990A JP 2006064875 A JP2006064875 A JP 2006064875A JP 2006064875 A JP2006064875 A JP 2006064875A JP 2007240990 A JP2007240990 A JP 2007240990A
Authority
JP
Japan
Prior art keywords
data
sound piece
piece
sound
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006064875A
Other languages
English (en)
Inventor
Yasushi Sato
寧 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kenwood KK
Original Assignee
Kenwood KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kenwood KK filed Critical Kenwood KK
Priority to JP2006064875A priority Critical patent/JP2007240990A/ja
Publication of JP2007240990A publication Critical patent/JP2007240990A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】音声合成に用いられる音声データの有効な保護を図りながら、音声合成に用いられる音声データの自由な変更を可能とするための音声合成装置等を提供することである。
【解決手段】音片データベースD1や音片合成用データベースD3は、音片データを音片の読みに対応付けて記憶する。また、素片データベースD2は、音素をなす素片を表すデータを記憶する。音声合成ユニットSは、文章情報を入力すると、音片データのうちから文章内の音声と読みが共通するものを選択し、選択できなかった部分については、その部分にあたる音素のデータを取得して結合することで音声データを合成する。そして、選択ないし合成されたこれらのデータを互いに結合して、合成音声のデータを生成する。各データベースが記憶するデータは外部に出力等でき、その場合該当するデータをこれらより消去することでデータの移動を実現する。
【選択図】図1

Description

この発明は、音声合成装置、音声合成方法及びプログラムに関する。
音声を合成する手法として、録音編集方式と呼ばれる手法や、規則合成方式と呼ばれる手法がある(例えば、特許文献1参照)。録音編集方式や規則合成方式は、駅の音声案内システムや、車載用のナビゲーション装置などに用いられている。
録音編集方式は、単語と、この単語を読み上げる音声を表す音声データとを対応付けておき、音声合成する対象の文章を単語に区切ってから、これらの単語に対応付けられた音声データを取得してつなぎ合わせる、という手法である。規則合成方式は、音声合成する対象の文章を解析することにより、この文章を構成する音素と、この文章を読み上げる音声の韻律とを特定し、特定された音素(又はこれを構成する素片)を、特定された韻律に従って互いに結合することにより合成音声を得るという手法である。
特開2005−18036号公報
録音編集方式や規則合成方式により得られる合成音声の話者の変更を可能としたり、あるいはその他、得られる合成音声を多様にするための手法としては、音声データを書き換え可能なメモリに記憶させて用いるものとし、このメモリの記憶内容を適宜書き換える、というものが考えられる。
しかし、音声データを書き換える場合、複数の装置が同一の音声データを記憶しているという状態が生じやすく、音声データの著作権などが適切に保護されない危険がある。
この発明は、上記実状に鑑みてなされたものであり、音声合成に用いられる音声データの有効な保護を図りながら、音声合成に用いられる音声データの自由な変更を可能とするための音声合成装置、音声合成方法及びプログラムを提供することを目的とする。
上記目的を達成するため、この発明の第1の観点に係る音声合成装置は、
音片を表すデータである音片データを、当該音片の読みと対応付けて記憶する音片記憶手段と、
文章を表す文章情報を入力し、各前記音片データのうちから、前記文章を構成する音声と共通する読みに対応付けられている音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、
音素を表し、又は、音素を構成する素片を表すデータを複数記憶する素片記憶手段と、
前記文章を構成する音声のうちから、前記選択手段が音片データを選択できなかった音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記素片記憶手段より取得して互いに結合することにより、当該音声の波形を表す音声データを合成する欠落部分合成手段と、
前記音片記憶手段及び/又は前記素片記憶手段が記憶するデータを外部に出力、又は外部の記録媒体に記録し、当該出力又は記録されたデータを前記音片記憶手段又は前記素片記憶手段の記憶領域より消去することにより、当該データの移動を行うデータ移動手段と、より構成される、
ことを特徴とする。
前記音片記憶手段と、前記素片記憶手段とは、一体に形成されてデータベースを構成していてもよく、前記選択手段と、前記合成手段と、前記欠落部分合成手段と、前記データ移動手段とは、一体に形成されて音声合成ユニットを構成していてもよい。
この場合、前記データベース及び前記音声合成ユニットは互いに着脱可能に形成されていてもよい。
前記音声合成装置は、文章から索出する対象の文字と前記音片データに対応付けられた読みとの対応関係を示す発話テーブルを記憶する発話テーブル記憶手段と、文章を表す文章情報を入力し、前記発話テーブルを検索して、当該文章に含まれる文字に対応付けられている読みを特定する発話テーブル検索手段と、を更に備えていてもよい。
また、前記選択手段は、各前記音片データのうちから、前記発話テーブル検索手段によって特定された読みに対応付けられている音片データを選択するものであってもよい。
前記音声合成装置は、デフォルトの話者を指定する情報をあらかじめ記憶し、又は外部から取得するデフォルト話者指定手段を更に備えていてもよく、
前記音片記憶手段は、音片を表す音片データを、当該音片の読み、及び、当該音片を発話した話者と対応付けて記憶するものであってもよく、
前記発話テーブルは、デフォルトの話者及び前記文章から索出する対象の文字の組み合わせと、前記音片データに対応付けられた読み及び当該音片データが表す音片の話者の組み合わせとの対応関係を示す発話テーブルを記憶するものであってもよく、
前記発話テーブル検索手段は、前記デフォルト話者指定手段が記憶又は取得する情報が示す話者及び入力した前記文章情報が表す文章に含まれる文字の組み合わせに対応付けられている読み及び話者の組み合わせを、前記発話テーブルを検索することにより特定するものであってもよく、
前記選択手段は、各前記音片データのうちから、前記発話テーブル検索手段によって特定された読み及び話者に対応付けられている音片データを選択するものであってもよい。
前記音声合成装置は、音片記憶手段に追加する音片データが表す音声の読みを表す追加音片読み情報を入力し、当該音声を構成する音素を特定して、特定した音素又は当該音素を構成する素片を表すデータを前記素片記憶手段より取得して互いに結合することにより、当該音声の波形を表す追加の音片データを合成し、合成した当該音片データを、当該追加音片読み情報が表す読みと対応付けて前記音片記憶手段に格納する追加音片合成手段を更に備えるものであってもよい。
また、この発明の第2の観点に係る音声合成装置は、
音片を表すデータである音片データを、当該音片の読みと対応付けて記憶する音片記憶手段と、音素を表し、又は、音素を構成する素片を表すデータを複数記憶する素片記憶手段と、より構成されるデータベースに接続される音声合成装置であって、
文章を表す文章情報を入力し、各前記音片データのうちから、前記文章を構成する音声と共通する読みに対応付けられている音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、
前記文章を構成する音声のうちから、前記選択手段が音片データを選択できなかった音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記素片記憶手段より取得して互いに結合することにより、当該音声の波形を表す音声データを合成する欠落部分合成手段と、
前記音片記憶手段及び/又は前記素片記憶手段が記憶するデータを外部に出力、又は外部の記録媒体に記録し、当該出力又は記録されたデータを前記音片記憶手段又は前記素片記憶手段の記憶領域より消去することにより、当該データの移動を行うデータ移動手段と、より構成される、
ことを特徴とする。
また、この発明の第3の観点に係る音声合成方法は、
音片を表すデータである音片データを、当該音片の読みと対応付けて記憶する音片記憶手段と、音素を表し、又は、音素を構成する素片を表すデータを複数記憶する素片記憶手段と、より構成されるデータベースに接続される音声合成装置が行う音声合成方法であって、
文章を表す文章情報を入力し、各前記音片データのうちから、前記文章を構成する音声と共通する読みに対応付けられている音片データを選択する選択ステップと、
前記選択ステップで選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成ステップと、
前記文章を構成する音声のうちから、前記選択ステップで音片データを選択できなかった音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記素片記憶手段より取得して互いに結合することにより、当該音声の波形を表す音声データを合成する欠落部分合成ステップと、
前記音片記憶手段及び/又は前記素片記憶手段が記憶するデータを外部に出力、又は外部の記録媒体に記録し、当該出力又は記録されたデータを前記音片記憶手段又は前記素片記憶手段の記憶領域より消去することにより、当該データの移動を行うデータ移動ステップと、より構成される、
ことを特徴とする。
また、この発明の第4の観点に係るプログラムは、
音片を表すデータである音片データを、当該音片の読みと対応付けて記憶する音片記憶手段と、音素を表し、又は、音素を構成する素片を表すデータを複数記憶する素片記憶手段と、より構成されるデータベースに接続されるコンピュータを、
文章を表す文章情報を入力し、各前記音片データのうちから、前記文章を構成する音声と共通する読みに対応付けられている音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、
前記文章を構成する音声のうちから、前記選択手段が音片データを選択できなかった音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記素片記憶手段より取得して互いに結合することにより、当該音声の波形を表す音声データを合成する欠落部分合成手段と、
前記音片記憶手段及び/又は前記素片記憶手段が記憶するデータを外部に出力、又は外部の記録媒体に記録し、当該出力又は記録されたデータを前記音片記憶手段又は前記素片記憶手段の記憶領域より消去することにより、当該データの移動を行うデータ移動手段と、
して機能させるためのものであることを特徴とする。
この発明によれば、音声合成に用いられる音声データの有効な保護を図りながら、音声合成に用いられる音声データの自由な変更を可能とするための音声合成装置、音声合成方法及びプログラムが実現される。
以下、音声合成システムを例とし、図面を参照して、この発明の実施の形態を説明する。
図1は、この発明の実施の形態に係る音声合成システムの構成を示す図である。図示するように、この音声合成システムは、音声合成ユニットSと、キャラクタデータベースDと、音片登録ユニットRと、により構成されている。
音声合成ユニットSは、ハイブリッド合成サブユニットS1と、音片合成サブユニットS2と、自動追加サブユニットS3とにより構成されている。
キャラクタデータベースDは、音片データベースD1と、素片データベースD2と、音片合成用データベースD3と、発話テーブルD4とにより構成されている。
音声合成ユニットS及びキャラクタデータベースDは着脱可能な形で相互に接続できるよう構成されている。そして、音声合成ユニットS及びキャラクタデータベースDは、両者が互いに接続されることにより、
(a)当該キャラクタデータベースDの音片データベースD1及び素片データベースD2が当該音声合成ユニットSのハイブリッド合成サブユニットS1に接続され、
(b)当該キャラクタデータベースDの音片合成用データベースD3が当該音声合成ユニットSの音片合成サブユニットS2に接続され、
(c)当該キャラクタデータベースDの発話テーブルD4が当該ハイブリッド合成サブユニットS1及び当該音片合成サブユニットS2に接続される、
ように構成されている。
ハイブリッド合成サブユニットS1は、図2に示すように、規則合成処理部S13と、音片編集部S14と、検索部S15と、伸長部S16と、話速変換部S17とにより構成されている。
このうち、規則合成処理部S13は、音響処理部S131と、検索部S132と、伸長部S133とにより構成されている。
また、音片編集部S14は、形態素解析部S141と、一致音片決定部S142と、韻律予測部S143と、出力合成部S144とにより構成されている。
音響処理部S131、検索部S132、伸長部S133、音片編集部S14、検索部S15、伸長部S16及び話速変換部S17は、いずれも、CPU(Central Processing Unit)やDSP(Digital Signal Processor)等のプロセッサや、このプロセッサが実行するためのプログラムを記憶するメモリなどにより構成されており、それぞれ後述する処理を行う。
なお、音響処理部S131、検索部S132、伸長部S133、音片編集部S14、検索部S15、伸長部S16及び話速変換部S17の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。従って、例えば、伸長部S133の機能を行うプロセッサが伸長部S16の機能を行ってもよいし、1個のプロセッサが音響処理部S131、検索部S132及び伸長部S133の機能を兼ねて行ってもよい。
音片合成サブユニットS2は、例えば図3に示すように、一致音片決定部S242と、検索部S25と、伸長部S26と、話速変換部S27とにより構成されており、それぞれ後述する処理を行う。
一致音片決定部S242、検索部S25、伸長部S26及び話速変換部S27の構成及び機能は、ハイブリッド合成サブユニットS1の一致音片決定部S142、検索部S15、伸長部S16、話速変換部S17と実質的に同一である。ただし検索部S25は、音片合成用データベースD3及び発話テーブルD4に着脱可能に接続されるものとする。
なお、一致音片決定部S242、検索部S25、伸長部S26及び話速変換部S27の一部又は全部の機能を単一のプロセッサが行うようにしてもよく、また、ハイブリッド合成サブユニットS1の一致音片決定部S142、検索部S15、伸長部S16及び話速変換部S17の一部又は全部の機能を行うプロセッサが一致音片決定部S142、検索部S25、伸長部S26及び話速変換部S27の一部又は全部の機能を更に行うようにしてもよい。
自動追加サブユニットS3は、図4に示すように、規則合成処理部S33と、韻律予測部S343とにより構成されており、それぞれ後述する処理を行う。
規則合成処理部S33及び韻律予測部S343の構成及び機能は、ハイブリッド合成サブユニットS1の規則合成処理部S13及び韻律予測部S143と実質的に同一である。また、規則合成処理部S33は、音響処理部S331と、検索部S332と、伸長部S333とにより構成されており、これらの構成及び機能は、規則合成処理部S13の音響処理部S131、検索部S132及び伸長部S133と実質的に同一である。ただし、音響処理部S331は、音片合成用データベースD3に着脱可能に接続されるものとする。
なお、規則合成処理部S33及び韻律予測部S343の一部又は全部の機能を単一のプロセッサが行うようにしてもよく、また、ハイブリッド合成サブユニットS1の規則合成処理部S13及び韻律予測部S143の一部又は全部の機能を行うプロセッサが規則合成処理部S33及び韻律予測部S343の一部又は全部の機能を更に行うようにしてもよい。
音片データベースD1は、PROM(Programmable Read Only Memory)やハードディスク装置等の不揮発性メモリにより構成されており、ハイブリッド合成サブユニットS1に着脱可能に接続できるよう構成されており、また、音片登録ユニットRにも着脱可能に接続できるよう構成されている。
音片データベースD1には、例えば、図5に示すデータ構造を有するデータが記憶されている。すなわち、図示するように、音片データベースD1に格納されているデータは、ヘッダ部HDR、インデックス部IDX、ディレクトリ部DIR及びデータ部DATの4種に分かれている。
なお、音片データベースD1へのデータの格納は、例えば、この音声合成システムの製造者によりあらかじめ行われ、及び/又は、音片登録ユニットRが後述する動作を行うことにより行われる。
ヘッダ部HDRには、音片データベースD1を識別するデータや、インデックス部IDX、ディレクトリ部DIR及びデータ部DATのデータ量、データの形式、著作権等の帰属などを示すデータが格納される。
データ部DATには、音片の波形を表す音片データにエントロピー符号化等のデータ圧縮を施して得られる圧縮音片データが複数格納されている。
なお、音片とは、音声のうち音素1個以上を含む連続した1区間をいい、通常は単語1個分又は複数個分の区間からなる。音片は接続詞を含む場合もある。なお、1個の音片データベースに格納されている各圧縮音片データが表す各音片は、同一の話者が発話したものであるとする。また、データ圧縮を施される前の音片データは、例えば、PCM化されたデジタル形式のデータからなっていればよい。
ディレクトリ部DIRには、個々の圧縮音片データについて、
(A) この圧縮音片データが表す音片の読みを示す表音文字(例えば、カナや発音記号など)を表すデータ(音片読みデータ)、
(B) この圧縮音片データが格納されている記憶位置の先頭アドレスを表すデータ、
(C) この圧縮音片データのデータ長を表すデータ、
(D) この圧縮音片データが表す音片の発声スピード(再生した場合の時間長)を表すデータ(スピード初期値データ)、
(E) この音片のピッチ成分の周波数の時間変化を表すデータ(ピッチ成分データ)、
(F) この圧縮音片データが表す音片の話者(キャラクタ)を示すデータ
が、互いに対応付けられた形で格納されている。(なお、音片データベースD1の記憶領域にはアドレスが付されているものとする。)
図5は、データ部DATに含まれるデータとして、読みが「サイタマ」であってキャラクタ「B」により発話された音片の波形を表す、データ量1410hバイトの圧縮音片データが、アドレス001A36A6hを先頭とする論理的位置に格納されている場合を例示している。(なお、本明細書及び図面において、末尾に“h”を付した数字は16進数を表す。)
なお、上述の(A)〜(F)のデータの集合のうち少なくとも(A)のデータ(すなわち音片読みデータ)は、音片読みデータが表す表音文字に基づいて決められた順位に従ってソートされた状態で(例えば、表音文字がカナであれば、五十音順に従って、アドレス昇順に並んだ状態で)、音片データベースD1の記憶領域に格納されている。
また、上述のピッチ成分データは、例えば、図示するように、音片のピッチ成分の周波数を音片の先頭からの経過時間の1次関数で近似した場合における、この1次関数の切片β及び勾配αの値を示すデータからなっていればよい。(勾配αの単位は例えば[ヘルツ/秒]であればよく、切片βの単位は例えば[ヘルツ]であればよい。)
また、ピッチ成分データには更に、圧縮音片データが表す音片が鼻濁音化されているか否か、及び、無声化されているか否かを表す図示しないデータも含まれているものとする。
インデックス部IDXには、ディレクトリ部DIRのデータのおおよその論理的位置を音片読みデータに基づいて特定するためのデータが格納されている。具体的には、例えば、音片読みデータがカナを表すものであるとして、カナ文字と、先頭1字がこのカナ文字であるような音片読みデータがどのような範囲のアドレスにあるかを示すデータ(ディレクトリアドレス)とが、互いに対応付けて格納されている。
素片データベースD2は、PROMやハードディスク装置等の不揮発性メモリにより構成されている。なお、ハイブリッド合成サブユニットS1を構成する不揮発性メモリが素片データベースD2の機能を更に行ってもよい。
素片データベースD2には、表音文字と、この表音文字が表す音素を構成する素片(すなわち、1個の音素を構成する音声の波形1サイクル分(又はその他所定数のサイクル分)の音声)を表す素片波形データをエントロピー符号化して得られる圧縮波形データとが、この音声合成システムの製造者等によって、あらかじめ互いに対応付けて記憶されている。
また、素片データベースD2には、自己が記憶する圧縮波形データが表す素片の話者(キャラクタ)を示すキャラクタ識別データも、この音声合成システムの製造者等によってあらかじめ記憶されている。
なお、エントロピー符号化される前の素片波形データは、例えば、PCM化されたデジタル形式のデータからなっていればよい。
音片合成用データベースD3は、EEPROM(Electrically Erasable/Programmable Read Only Memory)やハードディスク装置等のデータ書き換え可能な不揮発性メモリにより構成されている。
音片合成用データベースD3には、音片合成サブユニットS2が音声合成に用いるための圧縮音片データと、この圧縮音片データが表す音片の読みを表す表音文字とが、この音声合成システムの製造者等によって、あるいは、後述する自動追加サブユニットS3の実行する処理に従って、互いに対応付けて記憶される。
なお、ハイブリッド合成サブユニットS1、音片合成サブユニットS2及び自動追加サブユニットS3に着脱可能に接続できるよう構成された、データ書き換え可能な単一の不揮発性メモリが、音片データベースD1、素片データベースD2及び音片合成用データベースD3の機能を行ってもよい。
発話テーブルD4は、ハイブリッド合成サブユニットS1及び音片合成サブユニットS2が音声を合成する場合に、音声合成ユニットSにより読み上げられる対象のテキスト(具体的には、後述の定型メッセージデータ)に含まれる文字と、実際に読み上げられるべき音片との対応関係を、キャラクタ毎に指定するテーブルである。
発話テーブルD4は、音片データベースD1、素片データベースD2及び音片合成用データベースD3を構成する不揮発性メモリ、又は、この不揮発性メモリとは別個の不揮発性メモリにより構成されている。
発話テーブルD4には、例えば、図6に示すデータ構造を有するデータが記憶されている。すなわち、図示するように、発話テーブルD4に格納されているデータは、音片合成用テーブル及びハイブリッド合成用テーブルの2種からなっている。
なお、発話テーブルD4へのデータの格納は、例えば、この音声合成システムの製造者によりあらかじめ行われ、あるいは、音片登録ユニットR又は自動追加サブユニットS3が後述する動作を行うことにより行われる。
ハイブリッド合成用テーブルには、テキストより音声合成ユニットSが索出する対象の表音文字(以下、ハイブリッド合成用索出文字と呼ぶ)と、各キャラクタについて、当該キャラクタを後述のデフォルトキャラクタとして適用した場合に、当該表音文字が索出されたとき実際に読み上げるべき音片の読みを表す表音文字(以下、ハイブリッド合成用読上文字と呼ぶ)と、当該音片の話者として個別に適用すべきキャラクタ(以下、個別適用キャラクタと呼ぶ)を示すデータとが、互いに対応付けられた形で格納されている。
なお、図6は、例えばハイブリッド合成用索出文字が「です」である場合について、キャラクタAについてのハイブリッド合成用読上文字が「なんだよね」であり、このハイブリッド合成用読上文字「なんだよね」を読み上げる際の個別適用キャラクタが「キャラクタA」である場合のハイブリッド合成用テーブルのデータ構造を例示している。
また、図6に示す例では、例えばハイブリッド合成用索出文字が「です」である場合については、キャラクタBについてのハイブリッド合成用読上文字が「です」であり、このハイブリッド合成用読上文字「です」を読み上げる際の個別適用キャラクタが「キャラクタA」である。
音片合成用テーブルには、テキストより音声合成ユニットSが索出する対象である漢字等の表意文字(以下、音片合成用索出文字と呼ぶ)と、各キャラクタについて、当該キャラクタをデフォルトキャラクタとして適用した場合に、当該表音文字が索出されたとき当該キャラクタの声で実際に読み上げられるべき音片(以下、主音片と呼ぶ)の読みを表す表意文字(以下、音片合成用読上文字と呼ぶ)と、当該主音片に追加して、当該キャラクタの声で読み上げられるべき音片(以下、追加音片と呼ぶ)の読みを表す文字と、これらの主音片及び追加音片の間に設けるべき無音の区間の時間長を示すデータ(ポーズ時間長データ)とが、互いに対応付けられた形で格納されている。
なお、図6は、例えば索出対象文字が「神田交差点」である場合について、キャラクタAについての音声合成対象文字が「神田交差点」であり、この文字「神田交差点」に続いて読み上げられる文字が存在しない、という場合の音片合成用テーブルのデータ構造を例示している。
また、図6に示す例では、例えば索出対象文字が「神田交差点」である場合は、キャラクタBについての音声合成対象文字が「の交差点」であり、この文字「の交差点」が主音片として読み上げられる場合は、1.0秒の間隔をおいて、引き続き「そこだよ」という文字が追加音片として読み上げることとなる。
音片登録ユニットRは、図4に示すように、収録音片データセット記憶部R1と、音片データベース作成部R2と、圧縮部R3とにより構成されている。
収録音片データセット記憶部R1は、ハードディスク装置等のデータ書き換え可能な不揮発性メモリにより構成されている。
収録音片データセット記憶部R1には、音片の読みを表す表音文字と、この音片を人が実際に発声したものを集音して得た波形を表す音片データと、この音片の話者を示すデータとが、この音声合成システムの製造者等によって、あらかじめ互いに対応付けて記憶されている。なお、この音片データは、例えば、PCM化されたデジタル形式のデータからなっていればよい。
音片データベース作成部R2及び圧縮部R3は、CPU等のプロセッサや、このプロセッサが実行するためのプログラムを記憶するメモリなどにより構成されており、このプログラムに従って後述する処理を行う。
なお、音片データベース作成部R2及び圧縮部R3の一部又は全部の機能を単一のプロセッサが行うようにしてもよく、また、規則合成処理部S13、音片編集部S14、検索部S15、伸長部S16及び話速変換部S17の一部又は全部の機能を行うプロセッサが音片データベース作成部R2や圧縮部R3の機能を更に行ってもよい。
(動作)
次に、この音声合成システムの動作を説明する。なお、以下では、音声合成ユニットSとキャラクタデータベースDとが互いに接続された状態にあるものとして説明する。
(動作:音片登録ユニットの動作)
まず、音片登録ユニットRの動作を説明する。なお、以下では、音片登録ユニットRはキャラクタデータベースDの音片データベースD1に接続された状態にあるものとして説明する。
音片データベースD1に音片を登録する場合、まず、音片データベース作成部R2は、収録音片データセット記憶部R1より、互いに対応付けられている表音文字、話者を示すデータ及び音片データを読み出し、この音片データが表す音声のピッチ成分の周波数の時間変化と、発声スピードとを特定する。
発声スピードの特定は、例えば、この音片データのサンプル数を数えることにより特定すればよい。
一方、ピッチ成分の周波数の時間変化は、例えば、この音片データにケプストラム解析を施すことにより特定すればよい。具体的には、例えば、音片データが表す波形を時間軸上で多数の小部分へと区切り、得られたそれぞれの小部分の強度を、元の値の対数(対数の底は任意)に実質的に等しい値へと変換し、値が変換されたこの小部分のスペクトル(すなわち、ケプストラム)を、高速フーリエ変換の手法(あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法)により求める。そして、このケプストラムの極大値を与える周波数のうちの最小値を、この小部分におけるピッチ成分の周波数として特定する。
なお、ピッチ成分の周波数の時間変化は、例えば、特開2003−108172号公報に開示された手法に従って音片データをピッチ波形データへと変換してから、このピッチ波形データに基づいて特定するようにすると良好な結果が期待できる。具体的には、音片データをフィルタリングしてピッチ信号を抽出し、抽出されたピッチ信号に基づいて、音片データが表す波形を単位ピッチ長の区間へと区切り、各区間について、ピッチ信号との相関関係に基づいて位相のずれを特定して各区間の位相を揃えることにより、音片データをピッチ波形信号へと変換すればよい。そして、得られたピッチ波形信号を音片データとして扱い、ケプストラム解析を行う等することにより、ピッチ成分の周波数の時間変化を特定すればよい。
一方、音片データベース作成部R2は、収録音片データセット記憶部R1より読み出した音片データを圧縮部R3に供給する。
圧縮部R3は、音片データベース作成部R2より供給された音片データをエントロピー符号化して圧縮音片データを作成し、音片データベース作成部R2に返送する。
音片データの発声スピード及びピッチ成分の周波数の時間変化を特定し、この音片データがエントロピー符号化され圧縮音片データとなって圧縮部R3より返送されると、音片データベース作成部R2は、この圧縮音片データを、データ部DATを構成するデータとして、音片データベースD1の記憶領域に書き込む。
また、音片データベース作成部R2は、書き込んだ圧縮音片データが表す音片の読みを示すものとして収録音片データセット記憶部R1より読み出した表音文字を、音片読みデータ((A)のデータ)として音片データベースD1の記憶領域に書き込む。
また、当該表音文字と共通の音片データに対応付けられていた、話者を示すデータを、上述の(F)のデータとして音片データベースD1の記憶領域に書き込む。
また、書き込んだ圧縮音片データの、音片データベースD1の記憶領域内での先頭のアドレスを特定し、このアドレスを上述の(B)のデータとして音片データベースD1の記憶領域に書き込む。
また、この圧縮音片データのデータ長を特定し、特定したデータ長を、(C)のデータとして音片データベースD1の記憶領域に書き込む。
また、この圧縮音片データが表す音片の発声スピード及びピッチ成分の周波数の時間変化を特定した結果を示すデータを生成し、スピード初期値データ((D)のデータ)及びピッチ成分データ((E)のデータ)として音片データベースD1の記憶領域に書き込む。
(自動追加サブユニットの動作)
次に、自動追加サブユニットS3の動作を説明する。
圧縮音片データを音片合成用データベースへ追加するため、音響処理部S331はまず、追加する対象の音片の読みを表す表音文字列からなる追加音片読みデータを外部から取得する。
なお、音響処理部S331が追加音片読みデータを取得する手法は任意であり、例えば、図示しないインターフェース回路を介して外部の装置やネットワークから取得してもよいし、図示しない記録媒体ドライブ装置にセットされた記録媒体(例えば、フレキシブルディスクやCD−ROMなど)から、この記録媒体ドライブ装置を介して読み取ってもよい。
また、音響処理部S331の機能を行っているプロセッサが、自ら実行している他の処理で用いたテキストデータを、追加音片読みデータとして、音響処理部S331の処理へと引き渡すようにしてもよい。
プロセッサが実行する当該他の処理としては、例えば、音声を表す音声データを取得し、この音声データに音声認識を施すことにより、この音声が表す語句を特定し、特定した語句に基づいて、この音声の話者の要求の内容を特定して、特定した要求を満足させるために実行すべき処理を特定して実行するようなエージェント装置の機能をプロセッサに行わせるための処理などが考えられる。
音響処理部S331は、表音文字列を取得すると、この表音文字列に含まれるそれぞれの表音文字について、当該表音文字が表す音素を構成する素片の波形を検索するよう、検索部S332に指示する。また、音響処理部S331は、この表音文字列を韻律予測部S343に供給する。
検索部S332は、この指示に応答して素片データベースD2を検索し、この指示の内容に合致する圧縮波形データを索出する。そして、索出された圧縮波形データを伸長部S333へと供給する。
伸長部S333は、検索部S332より供給された圧縮波形データを、圧縮される前の素片波形データへと復元し、検索部S332へと返送する。検索部S332は、伸長部S333より返送された素片波形データを、検索結果として音響処理部S331へと供給する。
一方、音響処理部S331より表音文字列を供給された韻律予測部S343は、この表音文字列に、例えば「藤崎モデル」や「ToBI(Tone and Break Indices)」等の韻律予測の手法に基づいた解析を加えることにより、この表音文字列が表す音声の韻律(アクセント、イントネーション、強勢、音素の時間長など)を予測し、予測結果を表す韻律予測データを生成する。そして、この韻律予測データを、音響処理部S331に供給する。
音響処理部S331は、検索部S332より素片波形データを供給され、韻律予測部S343より韻律予測データを供給されると、供給された素片波形データを用いて、自己が外部より取得した表音文字列に含まれるそれぞれの表音文字が表す音声の波形を表す音声波形データを生成する。
具体的には、音響処理部S331は、例えば、検索部S332より供給された各々の素片波形データが表す素片により構成されている音素の時間長を、韻律予測部S343より供給された韻律予測データに基づいて特定する。そして、特定した音素の時間長を、当該素片波形データが表す素片の時間長で除した値に最も近い整数を求め、当該素片波形データを、求めた整数に等しい個数分相互に結合することにより、音声波形データを生成すればよい。
なお、音響処理部S331は、音声波形データが表す音声の時間長を韻律予測データに基づいて決定するのみならず、音声波形データを構成する素片波形データを加工して、音声波形データが表す音声が、当該韻律予測データが示す韻律に合致する強度やイントネーション等を有するようにしてもよい。
あるいは、素片データベースD2が、同一の音素を構成するものであって互いに異なる強度及び/又はイントネーションを有する複数の素片を表す複数の圧縮波形データを記憶していてもよい。この場合、音響処理部S331は、素片波形データを加工する代わりに、検索部S332より供給された素片波形データのうち、韻律予測部S343より供給された韻律予測データが示す韻律に合致する強度及びイントネーション等を有する素片を表すものを用いて、当該韻律予測データが示す韻律に合致する強度やイントネーション等を有する音声を表す音声波形データを生成するようにしてもよい。
あるいは、検索部S332は、音響処理部S331の指示の内容に合致する圧縮波形データのうち、韻律予測部S343より供給された韻律予測データが示す韻律に合致する強度及びイントネーション等を有する素片を表すもののみを索出するようにしてもよい。
そして、音響処理部S331は、生成された音声波形データを、自己が外部より取得した表音文字列内での各表音文字の並びに従った順序で互いに結合し、合成する対象の音片を表す音片データを生成する。そして、この音片データをエントロピー符号化して圧縮音片データを作成する。
音響処理部S331は、自ら生成したこの圧縮音片データ、及び外部から取得した追加音片読みデータを、互いに対応付けて音片合成用データベースD3の記憶領域に書き込む。
(ハイブリッド合成サブユニット・音片合成サブユニットの動作)
次に、ハイブリッド合成サブユニットS1及び音片合成サブユニットS2の動作を説明する。以下では、音声合成ユニットSが、定型メッセージデータ、発声スピードデータ、及び照合レベルデータを外部から取得したとして説明する。
なお、定型メッセージデータは、定型メッセージを表意文字列として表すデータであり、具体的には、例えば音声合成ユニットSが、車両に登載されるナビゲーション装置を構成するものであれば、ナビゲーションの目的で当該ナビゲーション装置に発声させるべきメッセージ等を表すデータである。
また、発声スピードデータは、定型メッセージデータが表す定型メッセージの発声スピードの指定値(この定型メッセージを発声する時間長の指定値)を示すデータである。
照合レベルデータは、検索部S15が行う後述の検索処理における検索条件を指定するデータであり、以下では「1」、「2」又は「3」のいずれかの値をとるものとし、「3」が最も厳格な検索条件を示すものとする。
また、音声合成ユニットSが定型メッセージデータや発声スピードデータや照合レベルデータを取得する手法は任意であり、例えば、図示しないインターフェース回路を介して外部の装置やネットワークから取得してもよいし、図示しない記録媒体ドライブ装置にセットされた記録媒体(例えば、フレキシブルディスクやCD−ROMなど)から、この記録媒体ドライブ装置を介して読み取ってもよい。
また、音声合成ユニットSの機能を行っているプロセッサが、自ら実行している他の処理で用いたテキストデータあるいはその他のデータを、定型メッセージデータ、発声スピードデータあるいは照合レベルデータとして、音声合成ユニットSの処理へと引き渡すようにしてもよい。プロセッサが実行する当該他の処理としては、例えば、音声を表す音声データを取得し、この音声データに音声認識を施すことにより、この音声が表す語句を特定し、特定した語句に基づいて、この音声の話者の要求の内容を特定して、特定した要求を満足させるために実行すべき処理を特定して実行するようなエージェント装置の機能をプロセッサに行わせるための処理などが考えられる。
定型メッセージデータ、発声スピードデータ、及び照合レベルデータが音声合成ユニットSに供給されると、音片合成サブユニットS2の一致音片決定部S242がまず、この定型メッセージデータと、発話テーブルD4内の音片合成用テーブルとを検索して、この定型メッセージに含まれる音片合成用索出文字(ただし、デフォルトキャラクタに合致するキャラクタに対応付けられているもの)を特定し、更に、特定された音片合成用索出文字に対応付けられた、主音片の読みを表す音片合成用読上文字を特定する。特定された音片合成用索出文字に、追加音片を表す文字及びポーズ時間長データも対応付けられている場合は、これらの文字及びポーズ時間長データも特定する。
なお、一致音片決定部S242がデフォルトキャラクタを特定する手法は任意である。従って一致音片決定部S242は、例えば、素片データベースD2が記憶するキャラクタ識別データを読み出し、このキャラクタ識別データが示すキャラクタをデフォルトキャラクタとして特定してもよい。
あるいは、音声合成ユニットSが定型メッセージデータや発声スピードデータや照合レベルデータを取得する手法と実質的に同一の手法により、デフォルトキャラクタを示すデータを外部から取得し、取得したこのデータによりデフォルトキャラクタを特定してもよい。
一致音片決定部S242は、音片合成用読上文字及び追加音片を表す文字を特定すると、これらの文字に合致する表音文字列が対応付けられている圧縮音片データをすべて索出するよう、検索部S25に指示する。
一方、一致音片決定部S242は、定型メッセージデータのうち音片合成用読上文字又は追加音片を表す文字として特定した文字以外の文字を表すデータを、ハイブリッド音声合成を行う対象の文字を表すデータ(以下、ハイブリッド合成対象データと呼ぶ)として、ハイブリッド合成サブユニットS1に供給する。
検索部S25は、一致音片決定部S242の指示に応答して音片合成用データベースD3を検索して、該当する圧縮音片データを索出し、索出された圧縮音片データを伸長部S26へと供給する。
伸長部S26は、検索部S25より供給された圧縮音片データを、圧縮される前の音片データへと復元し、検索部S25へと返送する。検索部S25は、伸長部S26より返送された音片データを、検索結果として話速変換部S27へと供給する。
一方、一致音片決定部S242は、話速変換部S27に対し、話速変換部S27に供給された音片データを変換して、当該音片データが表す音片の時間長を、一致音片決定部S242に供給された発声スピードデータが示すスピードに合致するようにすることを指示する。
話速変換部S27は、一致音片決定部S242の指示に応答し、検索部S25より供給された音片データを指示に合致するように変換して、ハイブリッド合成サブユニットS1の出力合成部S144に供給する。具体的には、例えば、検索部S25より供給された音片データを個々の音素を表す区間へと区切り、得られたそれぞれの区間について、当該区間から、当該区間が表す音素を構成する素片を表す部分を特定して、特定された部分を(1個もしくは複数個)複製して当該区間内に挿入したり、又は、当該区間から当該部分を(1個もしくは複数個)除去することによって、当該区間の長さを調整することにより、この音片データ全体のサンプル数を、一致音片決定部S242の指示したスピードに合致する時間長にすればよい。なお、話速変換部S27は、各区間について、素片を表す部分を挿入又は除去する個数を、各区間が表す音素相互間の時間長の比率が実質的に変化しないように決定すればよい。
なお、発声スピードデータが一致音片決定部S242に供給されていない場合、一致音片決定部S242は、話速変換部S27に対し、話速変換部S27に供給された音片データを変換せずに一致音片決定部S242に供給するよう指示すればよく、話速変換部S27は、この指示に応答し、検索部S25より供給された音片データをそのまま一致音片決定部S242に供給すればよい。
一方、音片合成サブユニットS2からハイブリッド合成サブユニットS1へとハイブリッド合成対象データが供給されると、ハイブリッド合成サブユニットS1の形態素解析部S141は、外部より供給された上述の定型メッセージデータに公知の手法による形態素解析を施すことにより、定型メッセージデータを構成する表意文字列を、表音文字列へと置換する。そして、得られた表音文字列のうち、ハイブリッド合成対象データが示す部分に相当する部分(以下、ハイブリッド合成対象文字列と呼ぶ)を、一致音片決定部S142へと供給する。
一致音片決定部S142は、ハイブリッド合成対象文字列を形態素解析部S141より供給されると、まず、このハイブリッド合成対象文字列と、発話テーブルD4内のハイブリッド合成用テーブルとを検索して、このハイブリッド合成対象文字列に含まれるハイブリッド合成用索出文字を特定し、更に、特定されたハイブリッド合成用索出文字に対応付けられたハイブリッド合成用読上文字及び個別適用キャラクタ(ただし、いずれもデフォルトキャラクタに合致するキャラクタに対応付けられているもの)を特定する。
一致音片決定部S142は、ハイブリッド合成用読上文字及び個別適用キャラクタを特定すると、音片データベースD1が記憶する圧縮音片データのうち、このハイブリッド合成用読上文字に合致する表音文字列が対応付けられているものをすべて索出するよう、検索部S15に指示する。ただし、該当する圧縮音声データがハイブリッド合成用読上文字1個につき複数ある場合は、特定された個別適用キャラクタが更に対応付けられているものを優先して索出し、当該個別適用キャラクタが対応付けられたものがない場合は、デフォルトキャラクタに対応付けられたものを索出するよう指示するものとする。
検索部S15は、一致音片決定部S142の指示に応答して音片データベースD1を検索し、該当する圧縮音片データと、該当する圧縮音片データに対応付けられている上述の音片読みデータ、スピード初期値データ及びピッチ成分データとを索出し、索出された圧縮音片データを伸長部S16へと供給する。ただし、該当する圧縮音片データが共通の表音文字ないし表音文字列に該当する場合も、該当する圧縮音片データすべてが、音声合成に用いられるデータの候補として索出される。一方、圧縮音片データを索出できなかった音片があった場合、検索部S15は、該当する音片を識別するデータ(以下、欠落部分識別データと呼ぶ)を生成する。
伸長部S16は、検索部S15より供給された圧縮音片データを、圧縮される前の音片データへと復元し、検索部S15へと返送する。検索部S15は、伸長部S16より返送された音片データと、索出された音片読みデータ、スピード初期値データ及びピッチ成分データとを、検索結果として話速変換部S17へと供給する。また、欠落部分識別データを生成した場合は、この欠落部分識別データも話速変換部S17へと供給する。
一方、一致音片決定部S142は、話速変換部S17に対し、話速変換部S17に供給された音片データを変換して、当該音片データが表す音片の時間長を、音片編集部S14に供給された発声スピードデータが示すスピードに合致するようにすることを指示する。
話速変換部S17は、一致音片決定部S142の指示に応答し、検索部S15より供給された音片データを指示に合致するように変換して、一致音片決定部S142に供給する。この変換の動作、及び、発声スピードデータが供給されていない場合の動作は、例えば、音片合成サブユニットS2の話速変換部S27と実質的に同一の動作であればよい。
なお、話速変換部S17は、検索部S15より供給された音片読みデータ及びピッチ成分データも一致音片決定部S142に供給し、欠落部分識別データを検索部S15より供給された場合は、更にこの欠落部分識別データも一致音片決定部S142に供給する。
一致音片決定部S142は、話速変換部S17より音片データ、音片読みデータ及びピッチ成分データを供給されると、供給された音片データのうちから、定型メッセージを構成する音片の波形に近似できる波形を表す音片データを、音片1個につき1個ずつ選択する。ただし、一致音片決定部S142は、いかなる条件を満たす波形を定型メッセージの音片に近い波形とするかを、音声合成ユニットSに供給された照合レベルデータに従って設定する。
具体的には、まず、一致音片決定部S142は、例えば定型メッセージデータを変換して得られた表音文字列を韻律予測部S143に供給し、韻律予測部S143に、この表音文字列が表す定型メッセージの韻律を予測よう指示する。韻律予測部S143はこの指示に従い、上述した韻律予測の手法に基づいた解析を加えることにより、この定型メッセージの韻律を予測し、予測結果を表す韻律予測データを生成して、一致音片決定部S142に返送する。
韻律予測データを取得すると、一致音片決定部S142は、例えば、
(1) 照合レベルデータの値が「1」である場合は、話速変換部S17より供給された音片データ(すなわち、定型メッセージ内の音片と読みが合致する音片データ)をすべて、定型メッセージ内の音片の波形に近いものとして選択する。
(2) 照合レベルデータの値が「2」である場合は、(1)の条件(つまり、読みを表す表音文字の合致という条件)を満たし、更に、音片データのピッチ成分の周波数の時間変化を表すピッチ成分データの内容と定型メッセージに含まれる音片のアクセント(いわゆる韻律)の予測結果との間に所定量以上の強い相関がある場合(例えば、アクセントの位置の時間差が所定量以下である場合)に限り、この音片データが定型メッセージ内の音片の波形に近いものとして選択する。なお、定型メッセージ内の音片のアクセントの予測結果は、定型メッセージの韻律の予測結果より特定できるものであり、一致音片決定部S142は、例えば、ピッチ成分の周波数が最も高いと予測されている位置をアクセントの予測位置であると解釈すればよい。一方、音片データが表す音片のアクセントの位置については、例えば、ピッチ成分の周波数が最も高い位置を上述のピッチ成分データに基づいて特定し、この位置をアクセントの位置であると解釈すればよい。また、韻律予測は、文章全体に対して行ってもよいし、文章を所定の単位に分割し、それぞれの単位に対して行ってもよい。
(3) 照合レベルデータの値が「3」である場合は、(2)の条件(つまり、読みを表す表音文字及びアクセントの合致という条件)を満たし、更に、音片データが表す音声の鼻濁音化や無声化の有無が、定型メッセージの韻律の予測結果に合致している場合に限り、この音片データが定型メッセージ内の音片の波形に近いものとして選択する。一致音片決定部S142は、音片データが表す音声の鼻濁音化や無声化の有無を、話速変換部S17より供給されたピッチ成分データに基づいて判別すればよい。
なお、一致音片決定部S142は、自ら設定した条件に合致する音片データが1個の音片につき複数あった場合は、これら複数の音片データを、設定した条件より厳格な条件に従って1個に絞り込むものとする。
具体的には、例えば、設定した条件が照合レベルデータの値「1」に相当するものであって、該当する音片データが複数あった場合は、照合レベルデータの値「2」に相当する検索条件にも合致するものを選択し、なお複数の音片データが選択された場合は、選択結果のうちから照合レベルデータの値「3」に相当する検索条件にも合致するものを更に選択する、等の操作を行う。照合レベルデータの値「3」に相当する検索条件で絞り込んでなお複数の音片データが残る場合は、残ったものを任意の基準で1個に絞り込めばよい。
そして、一致音片決定部S142は、照合レベルデータの値に相当する条件を満たすものとして選択した音片データと、上述の処理で発話テーブルD4の音片合成用テーブルから索出したポーズ時間長データとを、出力合成部S144へと供給する。
ただし、一致音片決定部S142は、話速変換部S17より供給された音片データのうちから、照合レベルデータの値に相当する条件を満たす音片データを選択できない音片があった場合、該当する音片を、検索部S15が圧縮音片データを索出できなかった音片(つまり、上述の欠落部分識別データが示す音片)とみなして扱うことを決定するものとする。
一方、一致音片決定部S142は、話速変換部S17より欠落部分識別データも供給されている場合、又は、照合レベルデータの値に相当する条件を満たす音片データを選択できなかった音片があった場合には、欠落部分識別データが示す音片(照合レベルデータの値に相当する条件を満たす音片データを選択できなかった音片を含む)の読みを表す表音文字列を定型メッセージデータより抽出して音響処理部S131に供給し、この音片の波形を合成するよう指示する。
音響処理部S131が一致音片決定部S142より上述の指示を受けると、規則合成処理部S13の音響処理部S131、検索部S132及び伸長部S133、並びに音片編集部S14の韻律予測部S143は、自動追加サブユニットS3の音響処理部S331へと表音文字列が供給された場合における音響処理部S331、検索部S332、伸長部S333及び韻律予測部S343と実質的に同一の処理を行う。この結果、音響処理部S131により、一致音片決定部S142が供給した表音文字列に含まれるそれぞれの表音文字が表す音声の波形を表す音声波形データが生成される。そして音響処理部S131は、生成されたこの音声波形データを、出力合成部S144へと供給する。なお、一致音片決定部S142は、韻律予測部S143が既に生成して一致音片決定部S142に供給した韻律予測データのうち、欠落部分識別データが示す音片に相当する部分を音響処理部S131に供給するようにしてもよく、この場合、音響処理部S131は、改めて韻律予測部S143に当該音片の韻律予測を行わせる必要はない。
出力合成部S144は、音片合成サブユニットS2及び一致音片決定部S142より音片データ及びポーズ時間長データを供給され、音響処理部S131より、素片波形データより生成された音声波形データを供給されると、供給されたそれぞれの音声波形データに含まれる素片波形データの個数を調整することにより、当該音声波形データが表す音声の時間長を、一致音片決定部S142より供給された音片データが表す音片の発声スピードと整合するようにする。
具体的には、出力合成部S144は、例えば、一致音片決定部S142より音片データに含まれる上述の各区間が表す音素の時間長が元の時間長に対して増減した比率を特定し、音響処理部S131より供給された音声波形データが表す音素の時間長が当該比率で変化するように、各音声波形データ内の素片波形データの個数を増加あるいは減少させればよい。なお、出力合成部S144は、当該比率を特定するため、例えば、一致音片決定部S142が供給した音片データの生成に用いられた元の音片データを検索部S15より取得し、これら2個の音片データ内で互いに同一の音素を表す区間を1個ずつ特定すればよい。そして、一致音片決定部S142が供給した音片データ内で特定した区間内に含まれる素片の個数が、検索部S15より取得した音片データ内で特定した区間内に含まれる素片の個数に対して増減した比率を、音素の時間長の増減の比率として特定するようにすればよい。なお、音声波形データが表す音素の時間長が、一致音片決定部S142より供給された音片データが表す音片のスピードに既に整合している場合、出力合成部S144は、音声波形データ内の素片波形データの個数を調整する必要はない。
そして、出力合成部S144は、素片波形データの個数の調整が完了した音声波形データと、一致音片決定部S142より供給された音片データと、音片合成サブユニットS2より供給された音片データとを、定型メッセージデータが示す定型メッセージ内での各音片ないし音素の並びに従った順序で互いに結合し、合成音声を表す合成音声データとして出力する。ただし、主音片及びその追加音片の関係にある2個の音片の間には、当該主音片に対応付けられているポーズ時間長データが示す時間長に相当する無音の区間を設けるものとする。
なお、出力合成部S144が合成音声データを出力する手法は任意であり、例えば、図示しないD/A(Digital-to-Analog)変換器やスピーカを介して、この合成音声データが表す合成音声を再生するようにしてもよい。また、図示しないインターフェース回路を介して外部の装置やネットワークに送出してもよいし、図示しない記録媒体ドライブ装置にセットされた記録媒体へ、この記録媒体ドライブ装置を介して書き込んでもよい。また、出力合成部S144の機能を行っているプロセッサが、自ら実行している他の処理へと、合成音声データを引き渡すようにしてもよい。
また、話速変換部S17より供給されたデータに欠落部分識別データが含まれていない場合は、音響処理部S131に波形の合成を指示することなく直ちに、音片編集部S14が選択した音片データと、音片合成サブユニットS2より供給された音片データとを、定型メッセージデータが示す定型メッセージ内での表音文字列の並びに従った順序で互いに結合し、合成音声を表すデータとして出力すればよい。
以上説明した、この発明の実施の形態の音声合成システムでは、音素より大きな単位であり得る音片の波形を表す音片データが、韻律の予測結果に基づいて、録音編集方式により自然につなぎ合わせられ、定型メッセージを読み上げる音声が合成される。一方、適切な音片データを選択することができなかった音片は、音素より小さな単位である素片を表す圧縮波形データを用いて、規則合成方式の手法に従って合成される。
また、この音声合成システムの音片合成サブユニットS3は、音片合成用の音片データを追加する指示に応答して、自己に接続されたキャラクタデータベースDの素片データベースD2が記憶する素片波形データを素材として音片データを自動生成し、音片合成用データベースD3に登録する。音片合成サブユニットS2が音片合成用データベースD3を用いて行う音片合成は録音編集方式の手法によるものであって、この手法は規則合成の手法に比べて円滑な音声合成に適しているため、音声合成に用いる頻度が高い音片を補充するよう適切な指示を音声合成ユニットSに随時与えれば、音声合成ユニットSは、音片合成の手法により合成された部分の多い合成音声をスムーズに合成することができる。
また、1個のキャラクタデータベースDが記憶している音片データや素片波形データは、原則として互いに同一の話者(キャラクタ)がデフォルトキャラクタとして発話した音声の一部を表すものである。従って、このキャラクタデータベースDが接続された音声合成ユニットSが、音声合成の素材としてこれらの音片データや素片波形データが用いられることに、操作者に複雑な操作を要求することなく、単一のデフォルトキャラクタの音声による統一性のある合成音声を生成できる。
もっとも上述のように、キャラクタデータベースDは、デフォルトキャラクタとは異なる話者が発声した音片を表す音片データを記憶していてもよく、更に、当該キャラクタデータベースDが、そのような音片データを一定の索出対象文字に対応付ける発話テーブルD4を記憶していてもよい。このようなキャラクタデータベースDが接続された音声合成ユニットSは、この発話テーブルD4の内容により決まる一定の条件で、デフォルトキャラクタとは異なるキャラクタが発声した音片を個別適用キャラクタの音片として音声合成に用いる。従って、この音声合成システムによれば、原則として、単一のデフォルトキャラクタの音声による統一性のある合成音声が行われる状態を保ちつつ、意図的に、ある一定の条件で他ののキャラクタが個別適用キャラクタとして割り込ませるような形での音声合成を実現することができる。
なお、この音声合成システムの構成は上述のものに限られない。
例えば、音片データベースD1あるいは素片データベースD2を構成する不揮発性メモリは、CD(Compact Disc)−RW(ReWritable)等、アクセスのために記録媒体ドライブ装置(例えば、CD−RWドライブ装置)を必要とする記録媒体により構成されていてもよい。ただしこの場合、音声合成ユニットS及び音片登録ユニットRはそれぞれ、当該記録媒体へのアクセスを行う記録媒体ドライブ装置を備えるものとする。そして、音片登録ユニットRの記録媒体ドライブ装置は、音片データベース作成部R2より供給されたデータを、自己にセットされた記録媒体に記録し、ハイブリッド合成サブユニットS1の記録媒体ドライブ装置は、自己にセットされた記録媒体からデータを読み出して検索部S15に供給するものとする。
また、音片データベースD1あるいは素片データベースD2を構成する不揮発性メモリは書き換え可能なものであってもよい。この場合、音声合成ユニットSは、フラッシュメモリ等の外部の書き換え可能な記録媒体へのアクセスを行う記録媒体ドライブ装置を備えてもよい。
この場合、音声合成ユニットSを構成するプロセッサは、音片データ、音素波形データ又は発話テーブルを構成するデータを記憶した記録媒体が音声合成ユニットSの記録媒体ドライブ装置にセットされたとき、この記録媒体ドライブ装置を介してこれらのデータを読み取り、音片データベースD1、素片データベースD2、音片合成用データベースD3又は発話テーブルD4に格納するようにしてもよい。
また、このプロセッサは、音片データ、音片データベースD1、素片データベースD2、音片合成用データベースD3又は発話テーブルD4に格納されている音素波形データ又は発話テーブルを読み出して、音声合成ユニットSの記録媒体ドライブ装置にあらかじめセットされた記録媒体に、この記録媒体ドライブ装置を介してこれらのデータを書き込むようにしてもよい。
このように、音声合成ユニットSが記録媒体ドライブ装置を備え、この記録媒体ドライブ装置にセットされた記録媒体とキャラクタデータベースDとの相互間でデータを移動できるように構成されていれば、例えば図7に示すように、それぞれにキャラクタデータベースDが接続されている複数の音声合成ユニットS相互間での素片波形データの移動や、キャラクタデータベースDが接続された状態の音声合成ユニットSと、パーソナルコンピュータPCやサーバコンピュータSCなどの外部のコンピュータとの相互間での音片データ、素片波形データ等の移動が可能になる。(なお、図7において、「M1」及び「M2」は、音片データ、素片波形データ等の移動を媒介するコンピュータ読み取り可能ないし読み書き可能な記録媒体を示す。)
なお、キャラクタデータベースDから記録媒体へと上述のデータの移動を行う際に、音声ユニットSのプロセッサが、キャラクタデータベースDが記憶するデータを記録媒体へと移動した後にキャラクタデータベースDから当該データを消去することにより、当該データのムーブを実現することができる。一方、消去を行わないものとすれば、当該データの複製を行うことができる。
また、音声合成ユニットSのプロセッサは、例えば図7に示すように、それぞれにキャラクタデータベースDが接続されている複数の音声合成ユニットS相互間での素片波形データの移動や、キャラクタデータベースDが接続された状態の音声合成ユニットSと、パーソナルコンピュータPCやサーバコンピュータSCなどの外部のコンピュータとの相互間での音片データ、素片波形データ等の移動を、インターネット等からなる外部のネットワークを介して行うようにしてもよい。この場合、音声合成ユニットSは、例えば、モデム等より構成される通信制御装置を備えていればよい。
また、音片データベースD1は、必ずしもヘッダ部HDR、インデックス部IDX又はディレクトリ部DIRを自ら記憶する必要はなく、ヘッダ部HDR、インデックス部IDX及びディレクトリ部DIRの一部又は全部が、インターネット等からなる外部のネットワークに接続された外部のコンピュータに記憶されてもよい。
この場合、具体的には、例えば、音片登録ユニットRの音片データベース作成部R2とハイブリッド合成サブユニットS1の検索部S15とが、それぞれ、モデム等からなる通信制御装置を備えていればよい。そして、音片データベース作成部R2がこのネットワークを介してこのコンピュータにアクセスし、ヘッダ部HDR、インデックス部IDX及びディレクトリ部DIRに属するデータの一部又は全部をこのコンピュータにアップロードするものとし、一方で検索部S15が、アップロードされたこのデータを、このネットワークを介してこのコンピュータにアクセスすることにより取得するものとすればよい。
また、音片データベース作成部R2は、マイクロフォン、増幅器、サンプリング回路、A/D(Analog-to-Digital)コンバータ及びPCMエンコーダなどを備えていてもよい。この場合、音片データベース作成部R2は、収録音片データセット記憶部R1より音片データを取得する代わりに、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングしてA/D変換した後、サンプリングされた音声信号にPCM変調を施すことにより、音片データを作成してもよい。
また、音片データベース作成部R2は、図示しない記録媒体ドライブ装置にセットされた記録媒体から、この記録媒体ドライブ装置を介して、音片データベースD1に追加する新たな圧縮音片データの材料となる音片データや表音文字列を読み取ってもよい。
また、音片登録ユニットRは、必ずしも収録音片データセット記憶部R1を備えている必要はない。
また、ピッチ成分データは音片データが表す音片のピッチ長の時間変化を表すデータであってもよい。この場合、一致音片決定部S142は、ピッチ長が最も短い位置(つまり、周波数がもっとも高い位置)をピッチ成分データに基づいて特定し、この位置をアクセントの位置であると解釈すればよい。
また、素片波形データはPCM形式のデータである必要はなく、データ形式は任意である。また、素片データベースD2は素片波形データや音片データを必ずしもデータ圧縮された状態で記憶している必要はない。素片データベースD2が素片波形データをデータ圧縮されていない状態で記憶している場合、ハイブリッド合成サブユニットS1は伸長部S133を備えている必要はない。
以上、この発明の実施の形態を説明したが、この発明に係る音声合成装置は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。
例えば、音片データベースD1を構成する外部の不揮発性メモリないし記録媒体に接続可能なパーソナルコンピュータに上述の収録音片データセット記憶部R1、音片データベース作成部R2及び圧縮部R3の動作を実行させるためのプログラムを格納した記録媒体(CD−ROM、フレキシブルディスク等)から該プログラムをインストールすることにより、上述の処理を実行する音片登録ユニットRを構成することができる。
また、音片データベースD1、素片データベースD2及び発話テーブルD4を構成する不揮発性メモリないし記録媒体に接続可能なパーソナルコンピュータに上述の規則合成処理部S13、音片編集部S14、検索部S15、音片データベースD1、伸長部S16及び話速変換部S17の動作を実行させるためのプログラムを格納した記録媒体から該プログラムをインストールすることにより、上述の処理を実行するハイブリッド合成サブユニットS1を構成することができる。
また、音片合成用データベースD3及び発話テーブルD4を構成する不揮発性メモリないし記録媒体に接続可能なパーソナルコンピュータに上述の一致音片決定部S242、検索部S25、伸長部S26及び話速変換部S27の動作を実行させるためのプログラムを格納した記録媒体から該プログラムをインストールすることにより、上述の処理を実行する音片合成サブユニットS2を構成することができる。
また、素片データベースD2及び音片合成用データベースD3を構成する不揮発性メモリないし記録媒体に接続可能なパーソナルコンピュータに上述の規則合成処理部S33及び韻律予測部S343の動作を実行させるためのプログラムを格納した記録媒体から該プログラムをインストールすることにより、上述の処理を実行する自動追加サブユニットS3を構成することができる。
なお、パーソナルコンピュータにハイブリッド合成サブユニットS1、音片合成サブユニットS2、自動追加サブユニットS3又は音片登録ユニットRの機能を行わせるプログラムは、例えば、通信回線の掲示板(BBS)にアップロードし、これを通信回線を介して配信してもよく、また、これらのプログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調してこれらのプログラムを復元するようにしてもよい。
そして、これらのプログラムを起動し、OSの制御下に、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。
なお、OSが処理の一部を分担する場合、あるいは、OSが本願発明の1つの構成要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラムを格納してもよい。この場合も、この発明では、その記録媒体には、コンピュータが実行する各機能又はステップを実行するためのプログラムが格納されているものとする。
この発明の実施の形態に係る音声合成システムの構成を示す図である。 ハイブリッド合成サブユニットの構成を示す図である。 音片合成サブユニットの構成を示す図である。 自動追加サブユニット及び音片登録ユニットの構成を示す図である。 音片データベースのデータ構造を模式的に示す図である。 発話テーブルのデータ構造を模式的に示す図である。 キャラクタデータベースが記憶するデータの移動の態様を模式的に示す図である。
符号の説明
S 音声合成ユニット
S1 ハイブリッド合成サブユニット
S13 規則合成処理部
S131 音響処理部
S132 検索部
S133 伸長部
S14 音片編集部
S141 形態素解析部
S142 一致音片決定部
S143 韻律予測部
S144 出力合成部
S15 検索部
S16 伸長部
S17 話速変換部
S2 音片合成サブユニット
S242 一致音片決定部
S25 検索部
S26 伸長部
S27 話速変換部
S3 自動追加サブユニット
S33 規則合成処理部
S331 音響処理部
S332 検索部
S333 伸長部
S343 韻律予測部
D キャラクタデータベース
D1 音片データベース
D2 素片データベース
D3 音片合成用データベース
D4 発話テーブル
R 音片登録ユニット
R1 収録音片データセット記憶部
R2 音片データベース作成部
R3 圧縮部
PC パーソナルコンピュータ
SC サーバコンピュータ
M1,M2 記録媒体

Claims (8)

  1. 音片を表すデータである音片データを、当該音片の読みと対応付けて記憶する音片記憶手段と、
    文章を表す文章情報を入力し、各前記音片データのうちから、前記文章を構成する音声と共通する読みに対応付けられている音片データを選択する選択手段と、
    前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、
    音素を表し、又は、音素を構成する素片を表すデータを複数記憶する素片記憶手段と、
    前記文章を構成する音声のうちから、前記選択手段が音片データを選択できなかった音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記素片記憶手段より取得して互いに結合することにより、当該音声の波形を表す音声データを合成する欠落部分合成手段と、
    前記音片記憶手段及び/又は前記素片記憶手段が記憶するデータを外部に出力、又は外部の記録媒体に記録し、当該出力又は記録されたデータを前記音片記憶手段又は前記素片記憶手段の記憶領域より消去することにより、当該データの移動を行うデータ移動手段と、より構成される、
    ことを特徴とする音声合成装置。
  2. 前記音片記憶手段と、前記素片記憶手段とは、一体に形成されてデータベースを構成しており、
    前記選択手段と、前記合成手段と、前記欠落部分合成手段と、前記データ移動手段とは、一体に形成されて音声合成ユニットを構成しており、
    前記データベース及び前記音声合成ユニットは互いに着脱可能に形成されている、
    ことを特徴とする請求項1に記載の音声合成装置。
  3. 文章から索出する対象の文字と前記音片データに対応付けられた読みとの対応関係を示す発話テーブルを記憶する発話テーブル記憶手段と、
    文章を表す文章情報を入力し、前記発話テーブルを検索して、当該文章に含まれる文字に対応付けられている読みを特定する発話テーブル検索手段と、を更に備え、
    前記選択手段は、各前記音片データのうちから、前記発話テーブル検索手段によって特定された読みに対応付けられている音片データを選択するものである、
    ことを特徴とする請求項1又は2に記載の音声合成装置。
  4. デフォルトの話者を指定する情報をあらかじめ記憶し、又は外部から取得するデフォルト話者指定手段を更に備え、
    前記音片記憶手段は、音片を表す音片データを、当該音片の読み、及び、当該音片を発話した話者と対応付けて記憶するものであり、
    前記発話テーブルは、デフォルトの話者及び前記文章から索出する対象の文字の組み合わせと、前記音片データに対応付けられた読み及び当該音片データが表す音片の話者の組み合わせとの対応関係を示す発話テーブルを記憶するものであり、
    前記発話テーブル検索手段は、前記デフォルト話者指定手段が記憶又は取得する情報が示す話者及び入力した前記文章情報が表す文章に含まれる文字の組み合わせに対応付けられている読み及び話者の組み合わせを、前記発話テーブルを検索することにより特定するものであり、
    前記選択手段は、各前記音片データのうちから、前記発話テーブル検索手段によって特定された読み及び話者に対応付けられている音片データを選択するものである、
    ことを特徴とする請求項3に記載の音声合成装置。
  5. 音片記憶手段に追加する音片データが表す音声の読みを表す追加音片読み情報を入力し、当該音声を構成する音素を特定して、特定した音素又は当該音素を構成する素片を表すデータを前記素片記憶手段より取得して互いに結合することにより、当該音声の波形を表す追加の音片データを合成し、合成した当該音片データを、当該追加音片読み情報が表す読みと対応付けて前記音片記憶手段に格納する追加音片合成手段を更に備える、
    ことを特徴とする請求項1乃至4のいずれか1項に記載の音声合成装置。
  6. 音片を表すデータである音片データを、当該音片の読みと対応付けて記憶する音片記憶手段と、音素を表し、又は、音素を構成する素片を表すデータを複数記憶する素片記憶手段と、より構成されるデータベースに接続される音声合成装置であって、
    文章を表す文章情報を入力し、各前記音片データのうちから、前記文章を構成する音声と共通する読みに対応付けられている音片データを選択する選択手段と、
    前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、
    前記文章を構成する音声のうちから、前記選択手段が音片データを選択できなかった音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記素片記憶手段より取得して互いに結合することにより、当該音声の波形を表す音声データを合成する欠落部分合成手段と、
    前記音片記憶手段及び/又は前記素片記憶手段が記憶するデータを外部に出力、又は外部の記録媒体に記録し、当該出力又は記録されたデータを前記音片記憶手段又は前記素片記憶手段の記憶領域より消去することにより、当該データの移動を行うデータ移動手段と、より構成される、
    ことを特徴とする音声合成装置。
  7. 音片を表すデータである音片データを、当該音片の読みと対応付けて記憶する音片記憶手段と、音素を表し、又は、音素を構成する素片を表すデータを複数記憶する素片記憶手段と、より構成されるデータベースに接続される音声合成装置が行う音声合成方法であって、
    文章を表す文章情報を入力し、各前記音片データのうちから、前記文章を構成する音声と共通する読みに対応付けられている音片データを選択する選択ステップと、
    前記選択ステップで選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成ステップと、
    前記文章を構成する音声のうちから、前記選択ステップで音片データを選択できなかった音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記素片記憶手段より取得して互いに結合することにより、当該音声の波形を表す音声データを合成する欠落部分合成ステップと、
    前記音片記憶手段及び/又は前記素片記憶手段が記憶するデータを外部に出力、又は外部の記録媒体に記録し、当該出力又は記録されたデータを前記音片記憶手段又は前記素片記憶手段の記憶領域より消去することにより、当該データの移動を行うデータ移動ステップと、より構成される、
    ことを特徴とする音声合成方法。
  8. 音片を表すデータである音片データを、当該音片の読みと対応付けて記憶する音片記憶手段と、音素を表し、又は、音素を構成する素片を表すデータを複数記憶する素片記憶手段と、より構成されるデータベースに接続されるコンピュータを、
    文章を表す文章情報を入力し、各前記音片データのうちから、前記文章を構成する音声と共通する読みに対応付けられている音片データを選択する選択手段と、
    前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、
    前記文章を構成する音声のうちから、前記選択手段が音片データを選択できなかった音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記素片記憶手段より取得して互いに結合することにより、当該音声の波形を表す音声データを合成する欠落部分合成手段と、
    前記音片記憶手段及び/又は前記素片記憶手段が記憶するデータを外部に出力、又は外部の記録媒体に記録し、当該出力又は記録されたデータを前記音片記憶手段又は前記素片記憶手段の記憶領域より消去することにより、当該データの移動を行うデータ移動手段と、
    して機能させるためのプログラム。
JP2006064875A 2006-03-09 2006-03-09 音声合成装置、音声合成方法及びプログラム Pending JP2007240990A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006064875A JP2007240990A (ja) 2006-03-09 2006-03-09 音声合成装置、音声合成方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006064875A JP2007240990A (ja) 2006-03-09 2006-03-09 音声合成装置、音声合成方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2007240990A true JP2007240990A (ja) 2007-09-20

Family

ID=38586582

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006064875A Pending JP2007240990A (ja) 2006-03-09 2006-03-09 音声合成装置、音声合成方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2007240990A (ja)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000003189A (ja) * 1998-06-17 2000-01-07 Omron Corp 音声データ編集装置及び音声データベース
JP2002156987A (ja) * 2000-11-20 2002-05-31 Fujitsu General Ltd 音声合成システム
JP2002169581A (ja) * 2000-11-29 2002-06-14 Matsushita Electric Ind Co Ltd 音声合成方法およびその装置
JP2003061151A (ja) * 2001-08-15 2003-02-28 Sony Corp 移動端末に記録されたデータを保護する方法、移動端末データ保護システム、および移動端末
JP2004233709A (ja) * 2003-01-31 2004-08-19 Hitachi Ltd 情報処理装置、コンテンツ提供方法及び端末装置
JP2005018036A (ja) * 2003-06-05 2005-01-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2005018037A (ja) * 2003-06-05 2005-01-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
WO2005093713A1 (ja) * 2004-03-29 2005-10-06 Ai, Inc. 音声合成装置
JP2005321706A (ja) * 2004-05-11 2005-11-17 Nippon Telegr & Teleph Corp <Ntt> 電子書籍の再生方法及びその装置
WO2006008871A1 (ja) * 2004-07-21 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声合成装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000003189A (ja) * 1998-06-17 2000-01-07 Omron Corp 音声データ編集装置及び音声データベース
JP2002156987A (ja) * 2000-11-20 2002-05-31 Fujitsu General Ltd 音声合成システム
JP2002169581A (ja) * 2000-11-29 2002-06-14 Matsushita Electric Ind Co Ltd 音声合成方法およびその装置
JP2003061151A (ja) * 2001-08-15 2003-02-28 Sony Corp 移動端末に記録されたデータを保護する方法、移動端末データ保護システム、および移動端末
JP2004233709A (ja) * 2003-01-31 2004-08-19 Hitachi Ltd 情報処理装置、コンテンツ提供方法及び端末装置
JP2005018036A (ja) * 2003-06-05 2005-01-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2005018037A (ja) * 2003-06-05 2005-01-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
WO2005093713A1 (ja) * 2004-03-29 2005-10-06 Ai, Inc. 音声合成装置
JP2005321706A (ja) * 2004-05-11 2005-11-17 Nippon Telegr & Teleph Corp <Ntt> 電子書籍の再生方法及びその装置
WO2006008871A1 (ja) * 2004-07-21 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声合成装置

Similar Documents

Publication Publication Date Title
JP4516863B2 (ja) 音声合成装置、音声合成方法及びプログラム
KR101076202B1 (ko) 음성 합성 장치, 음성 합성 방법 및 프로그램이 기록된 기록 매체
JP4620518B2 (ja) 音声データベース製造装置、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム
JP4287785B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP4264030B2 (ja) 音声データ選択装置、音声データ選択方法及びプログラム
JP4411017B2 (ja) 話速変換装置、話速変換方法及びプログラム
JP2005018036A (ja) 音声合成装置、音声合成方法及びプログラム
JP2006330484A (ja) 音声案内装置及び音声案内プログラム
JP4620517B2 (ja) 音声データベース製造装置、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム
JP4407305B2 (ja) ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム
JP4209811B2 (ja) 音声選択装置、音声選択方法及びプログラム
JP2007240990A (ja) 音声合成装置、音声合成方法及びプログラム
JP4574333B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2007240989A (ja) 音声合成装置、音声合成方法及びプログラム
JP2007240988A (ja) 音声合成装置、データベース、音声合成方法及びプログラム
JP2007240987A (ja) 音声合成装置、音声合成方法及びプログラム
JP4816067B2 (ja) 音声データベース製造装置、音声データベース、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム
JP4184157B2 (ja) 音声データ管理装置、音声データ管理方法及びプログラム
JP2006337403A (ja) 音声案内装置及び音声案内プログラム
JP2007108450A (ja) 音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラム
JP2006145690A (ja) 音声合成装置、音声合成方法及びプログラム
JP2006145848A (ja) 音声合成装置、音片記憶装置、音片記憶装置製造装置、音声合成方法、音片記憶装置製造方法及びプログラム
JP2006195207A (ja) 音声合成装置、音声合成方法及びプログラム
JP4780188B2 (ja) 音声データ選択装置、音声データ選択方法及びプログラム
KR20100003574A (ko) 음성음원정보 생성 장치 및 시스템, 그리고 이를 이용한음성음원정보 생성 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110111

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110712