JP2006145690A

JP2006145690A - 音声合成装置、音声合成方法及びプログラム

Info

Publication number: JP2006145690A
Application number: JP2004333427A
Authority: JP
Inventors: Yoshisato Miyamura; 佳里宮村
Original assignee: Kenwood KK
Current assignee: Kenwood KK
Priority date: 2004-11-17
Filing date: 2004-11-17
Publication date: 2006-06-08

Abstract

【課題】表意文字列全体と読みが一致する音声データを適宜補充する場合に比べて簡単な構成で自然な合成音声を高速あるいは確実に得るための音声合成装置等を提供することである。
【解決手段】定型メッセージを表すデータが供給されると、音片編集部５は、このデータのうち所定の条件に合致する文言を表す区間を分割する。そして、分割後の定型メッセージ内の音片と読みが合致する音片の音片データを音片データベース７から索出させ、発声スピードを変換させる。一方で音片編集部５は定型メッセージの韻律予測を行い、索出された音片データのうちから定型メッセージ内の各音片に最もよく合致するものを１個ずつ、韻律予測結果に基づいて選択する。選択できなかった音片については音響処理部４１に単位音声毎の波形を表す波形データを供給させる。そして、選択した音片データや、音響処理部４１に供給させた波形データを互いに結合して、合成音声を表すデータを生成する。
【選択図】図１

Description

この発明は、音声合成装置、音声合成方法及びプログラムに関する。

音声を合成する手法として、録音編集方式と呼ばれる手法がある。録音編集方式は、駅の音声案内システムや、車載用のナビゲーション装置などに用いられている。
録音編集方式は、単語と、この単語を読み上げる音声を表す音声データとを対応付けておき、音声合成する対象の文章を単語に区切ってから、これらの単語に対応付けられた音声データを取得してつなぎ合わせる、という手法である（例えば、特許文献１参照）。音声合成する対象の文章が表意文字列として記述されている場合は、この表意文字列に形態素解析を施すことにより、この表意文字列を、単語毎に区切られた表音文字列へと変換する処理が行われることが通常である。
特開平１０−４９１９３号公報

しかし、形態素解析の際には、表意文字列が、実際には連続する複数の単語からなる語句が誤って１個の単語として扱われてしまう、という現象が起きることがある。例えば、「首都高速都心環状線を」という文字列が形態素解析される場合には、「首都高速都心環状線」が一つの名詞（単語）として認識されてしまい、結果として「シュトコウソクトシンカンジョウセンヲ」と読み上げる音声全体を表す音声データが必要になってしまうことがある。
このような表意文字列を読み上げる音声を合成するためには、このような表意文字列全体と読みが一致する音声データを適宜補充することも考えられるものの、複数の単語の多様な組み合わせに対応する音声データを逐一記憶するものとすると、音声データを記憶する記憶装置には膨大な記憶容量が必要となり、また、検索に要する時間も膨大なものとなる。

この発明は、上記実状に鑑みてなされたものであり、表意文字列全体と読みが一致する音声データを適宜補充する場合に比べて簡単な構成で自然な合成音声を高速あるいは確実に得るための音声合成装置、音声合成方法及びプログラムを提供することを目的とする。

上記目的を達成するため、この発明の第１の観点にかかる音声合成装置は、
文章を表す文章情報を取得する文章情報取得手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、より構成されており、
前記選択手段は、取得した前記文章情報のうち、所定の区切り用記号が挿入されることにより分割されて形成される連続した複数の区間を、互いに別個の文言を表すものとして扱う、
ことを特徴とする。

また、この発明の第２の観点にかかる音声合成装置は、
文章を表す文章情報を取得する文章情報取得手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、より構成されており、
前記選択手段は、取得した前記文章情報のうち、所定の表記法により表記されている区間を、隣接する他の区間とは別個の文言を表すものとして扱う、
ことを特徴とする。

また、この発明の第３の観点にかかる音声合成装置は、
文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間を、当該条件に合致しない文言を表す複数の部分へと分割する処理を行う文章分割手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、より構成される、
ことを特徴とする。

前記文章分割手段は、前記選択手段により選択される可能性が一定程度に達しない音片データの読みを表す文言を、前記条件に合致する文言として扱うものであってもよい。

前記文章分割手段は、前記文章情報取得手段が取得した文章を構成する文言のうち、その一部の読みが前記音片記憶手段に記憶される音片と一致し、且つ、当該所定区間全体では読みが一致する音片が前記音片記憶手段に記憶されていない文言を、前記条件に合致する文言として扱うものであってもよい。

前記文章分割手段は、前記区間内に区切り用の記号を挿入することにより、前記区間を分割するものであってもよい。

前記文章分割手段は、前記条件を示す条件データを書き換え可能に記憶し、前記文章情報のうち、当該条件データが示す条件に合致する文言を表す区間を分割するものであってもよい。

また、この発明の第４の観点にかかる音声合成装置は、
文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間内の所定部分の表記を、所定の表記法による表記へと置換する処理を行う文章置換手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、より構成されており、
前記選択手段は、前記処理を経た文章情報のうち、前記表記法により表記されている部分については、隣接する他の部分とは別個の文言を表すものとして扱う、
ことを特徴とする。

前記文章置換手段は、前記選択手段により選択される可能性が一定程度に達しない音片データの読みを表す文言を、前記条件に合致する文言として扱うものであってもよい。

前記文章置換手段は、前記文章情報取得手段が取得した文章を構成する文言のうち、その一部の読みが前記音片記憶手段に記憶される音片と一致し、且つ、当該所定区間全体では読みが一致する音片が前記音片記憶手段に記憶されていない文言を、前記条件に合致する文言として扱うものであってもよい。

前記文章置換手段は、前記条件を示す条件データを書き換え可能に記憶し、前記文章情報のうち、当該条件データが示す条件に合致する文言を表す区間内の所定部分の表記を、前記表記法による表記へと置換するものであってもよい。

前記音声合成装置は、取得した前記文章情報が表す文章を構成する文言のうち、前記選択手段が音片データを選択できなかった文言について、当該文言を読み上げる音声の波形を表す音声データを合成する欠落部分合成手段を更に備えていてもよく、
前記合成手段は、前記選択手段が選択した音片データ及び前記欠落部分合成手段が合成した音声データを互いに結合することにより、合成音声を表すデータを生成するものであってもよい。

前記音片記憶手段は、音片データが表す音片のピッチの時間変化を表す韻律データを、当該音片データに対応付けて記憶していてもよく、
前記選択手段は、各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通しており、且つ、対応付けられている韻律データが表すピッチの時間変化が韻律の予測結果に最も近い音片データを選択するものであってもよい。

また、この発明の第５の観点にかかる音声合成方法は、
文章を表す文章情報を取得する文章情報取得ステップと、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶ステップと、
各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択ステップと、
前記選択ステップで選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成ステップと、より構成されており、
前記選択ステップでは、取得した前記文章情報のうち、所定の区切り用記号が挿入されることにより分割されて形成される連続した複数の区間を、互いに別個の文言を表すものとして扱う、
ことを特徴とする。

また、この発明の第６の観点にかかる音声合成方法は、
文章を表す文章情報を取得する文章情報取得ステップと、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶ステップと、
各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択ステップと、
前記選択ステップで選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成ステップと、より構成されており、
前記選択ステップでは、取得した前記文章情報のうち、所定の表記法により表記されている区間を、隣接する他の区間とは別個の文言を表すものとして扱う、
ことを特徴とする。

また、この発明の第７の観点にかかる音声合成方法は、
文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間を、当該条件に合致しない文言を表す複数の部分へと分割する処理を行う文章分割ステップと、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶ステップと、
各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択ステップと、
前記選択ステップで選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成ステップと、より構成される、
ことを特徴とする。

また、この発明の第８の観点にかかる音声合成方法は、
文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間内の所定部分の表記を、所定の表記法による表記へと置換する処理を行う文章置換ステップと、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶ステップと、
各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択ステップと、
前記選択ステップで選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成ステップと、より構成されており、
前記選択ステップでは、前記処理を経た文章情報のうち、前記表記法により表記されている部分については、隣接する他の部分とは別個の文言を表すものとして扱う、
ことを特徴とする。

また、この発明の第９の観点にかかるプログラムは、
コンピュータを、
文章を表す文章情報を取得する文章情報取得手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、して機能させるためのプログラムであって、
前記選択手段は、取得した前記文章情報のうち、所定の区切り用記号が挿入されることにより分割されて形成される連続した複数の区間を、互いに別個の文言を表すものとして扱う、
ことを特徴とする。

また、この発明の第１０の観点にかかるプログラムは、
コンピュータを、
文章を表す文章情報を取得する文章情報取得手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、して機能させるためのプログラムであって、
前記選択手段は、取得した前記文章情報のうち、所定の表記法により表記されている区間を、隣接する他の区間とは別個の文言を表すものとして扱う、
ことを特徴とする。

また、この発明の第１１の観点にかかるプログラムは、
コンピュータを、
文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間を、当該条件に合致しない文言を表す複数の部分へと分割する処理を行う文章分割手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、
して機能させるためのものであることを特徴とする。

また、この発明の第１２の観点にかかるプログラムは、
コンピュータを、
文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間内の所定部分の表記を、所定の表記法による表記へと置換する処理を行う文章置換手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、して機能させるためのプログラムであって、
前記選択手段は、前記処理を経た文章情報のうち、前記表記法により表記されている部分については、隣接する他の部分とは別個の文言を表すものとして扱う、
ことを特徴とする。

この発明によれば、表意文字列全体と読みが一致する音声データを適宜補充する場合に比べて簡単な構成で自然な合成音声を高速あるいは確実に得るための音声合成装置、音声合成方法及びプログラムが実現される。

以下、音声合成システムを例とし、図面を参照して、この発明の実施の形態を説明する。

（第１の実施の形態）
まず、第１の実施の形態に係る音声合成システムを説明する。
図１は、この発明の第１の実施の形態に係る音声合成システムの構成を示す図である。図示するように、この音声合成システムは、本体ユニットＭ１と、音片登録ユニットＲとにより構成されている。

本体ユニットＭ１は、言語処理部１と、一般単語辞書２と、ユーザ単語辞書３と、規則合成処理部４と、音片編集部５と、検索部６と、音片データベース７と、伸長部８と、話速変換部９とにより構成されている。
このうち、規則合成処理部４は、音響処理部４１と、検索部４２と、伸長部４３と、波形データベース４４とより構成されている。
また、音片編集部５は、形態素解析部５１と、一致音片決定部５２と、韻律予測部５３と、出力合成部５４とより構成されている。

言語処理部１、音響処理部４１、検索部４２、伸長部４３、音片編集部５、検索部６、伸長部８及び話速変換部９は、いずれも、ＣＰＵ（Central Processing Unit）やＤＳＰ（Digital Signal Processor）等のプロセッサや、このプロセッサが実行するためのプログラムを記憶するメモリなどより構成されており、それぞれ後述する処理を行う。

なお、言語処理部１、音響処理部４１、検索部４２、伸長部４３、音片編集部５、検索部６、伸長部８及び話速変換部９の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。従って、例えば、伸長部４３の機能を行うプロセッサが伸長部８の機能を行ってもよいし、１個のプロセッサが音響処理部４１、検索部４２及び伸長部４３の機能を兼ねて行ってもよい。

一般単語辞書２は、ＰＲＯＭ（Programmable Read Only Memory）やハードディスク装置等の不揮発性メモリより構成されている。一般単語辞書２には、表意文字（例えば、漢字など）を含む単語等と、この単語等の読みを表す表音文字（例えば、カナや発音記号など）とが、この音声合成システムの製造者等によって、あらかじめ互いに対応付けて記憶されている。

ユーザ単語辞書３は、ＥＥＰＲＯＭ（Electrically Erasable/Programmable Read Only Memory）やハードディスク装置等のデータ書き換え可能な不揮発性メモリと、この不揮発性メモリへのデータの書き込みを制御する制御回路とにより構成されている。なお、プロセッサがこの制御回路の機能を行ってもよく、言語処理部１、音響処理部４１、検索部４２、伸長部４３、音片編集部５、検索部６、伸長部８及び話速変換部９の一部又は全部の機能を行うプロセッサがユーザ単語辞書３の制御回路の機能を行うようにしてもよい。
ユーザ単語辞書３は、表意文字を含む単語等と、この単語等の読みを表す表音文字とを、ユーザの操作に従って外部より取得し、互いに対応付けて記憶する。ユーザ単語辞書３には、一般単語辞書２に記憶されていない単語等とその読みを表す表音文字とが格納されていれば十分である。

波形データベース４４は、ＰＲＯＭやハードディスク装置等の不揮発性メモリより構成されている。波形データベース４４には、表音文字と、この表音文字が表す音素を構成する素片（すなわち、１個の音素を構成する音声の波形１サイクル分（又はその他所定数のサイクル分）の音声）を表す素片波形データをエントロピー符号化して得られる圧縮波形データとが、この音声合成システムの製造者等によって、あらかじめ互いに対応付けて記憶されている。なお、エントロピー符号化される前の素片波形データは、例えば、ＰＣＭ化されたデジタル形式のデータからなっていればよい。

音片データベース７は、ＰＲＯＭやハードディスク装置等の不揮発性メモリより構成されている。
音片データベース７には、例えば、図２に示すデータ構造を有するデータが記憶されている。すなわち、図示するように、音片データベース７に格納されているデータは、ヘッダ部ＨＤＲ、インデックス部ＩＤＸ、ディレクトリ部ＤＩＲ及びデータ部ＤＡＴの４種に分かれている。

なお、音片データベース７へのデータの格納は、例えば、この音声合成システムの製造者によりあらかじめ行われ、及び／又は、音片登録ユニットＲが後述する動作を行うことにより行われる。

ヘッダ部ＨＤＲには、音片データベース７を識別するデータや、インデックス部ＩＤＸ、ディレクトリ部ＤＩＲ及びデータ部ＤＡＴのデータ量、データの形式、著作権等の帰属などを示すデータが格納される。

データ部ＤＡＴには、音片の波形を表す音片データをエントロピー符号化して得られる圧縮音片データが格納されている。
なお、音片とは、音声のうち音素１個以上を含む連続した１区間をいい、通常は単語１個分又は複数個分の区間からなる。音片は接続詞を含む場合もある。
また、エントロピー符号化される前の音片データは、上述の圧縮波形データの生成のためエントロピー符号化される前の波形データと同じ形式のデータ（例えば、ＰＣＭ化されたデジタル形式のデータ）からなっていればよい。

ディレクトリ部ＤＩＲには、個々の圧縮音片データについて、
（Ａ）この圧縮音片データが表す音片の読みを示す表音文字を表すデータ（音片読みデータ）、
（Ｂ）この圧縮音片データが格納されている記憶位置の先頭のアドレスを表すデータ、
（Ｃ）この圧縮音片データのデータ長を表すデータ、
（Ｄ）この圧縮音片データが表す音片の発声スピード（再生した場合の時間長）を表すデータ（スピード初期値データ）、
（Ｅ）この音片のピッチ成分の周波数の時間変化を表すデータ（ピッチ成分データ）、
が、互いに対応付けられた形で格納されている。（なお、音片データベース７の記憶領域にはアドレスが付されているものとする。）

なお、図２は、データ部ＤＡＴに含まれるデータとして、読みが「サイタマ」である音片の波形を表す、データ量１４１０ｈバイトの圧縮音片データが、アドレス００１Ａ３６Ａ６ｈを先頭とする論理的位置に格納されている場合を例示している。（なお、本明細書及び図面において、末尾に“ｈ”を付した数字は１６進数を表す。）

なお、上述の（Ａ）〜（Ｅ）のデータの集合のうち少なくとも（Ａ）のデータ（すなわち音片読みデータ）は、音片読みデータが表す表音文字に基づいて決められた順位に従ってソートされた状態で（例えば、表音文字がカナであれば、五十音順に従って、アドレス降順に並んだ状態で）、音片データベース７の記憶領域に格納されている。
また、上述のピッチ成分データは、例えば、図示するように、音片のピッチ成分の周波数を音片の先頭からの経過時間の１次関数で近似した場合における、この１次関数の切片β及び勾配αの値を示すデータからなっていればよい。（勾配αの単位は例えば［ヘルツ／秒］であればよく、切片βの単位は例えば［ヘルツ］であればよい。）
また、ピッチ成分データには更に、圧縮音片データが表す音片が鼻濁音化されているか否か、及び、無声化されているか否かを表す図示しないデータも含まれているものとする。

インデックス部ＩＤＸには、ディレクトリ部ＤＩＲのデータのおおよその論理的位置を音片読みデータに基づいて特定するためのデータが格納されている。具体的には、例えば、音片読みデータがカナを表すものであるとして、カナ文字と、先頭１字がこのカナ文字であるような音片読みデータがどのような範囲のアドレスにあるかを示すデータ（ディレクトリアドレス）とが、互いに対応付けて格納されている。

なお、一般単語辞書２、ユーザ単語辞書３、波形データベース４４、一致音片決定部５２の不揮発性メモリ、及び音片データベース７の一部又は全部の機能を、単一の不揮発性メモリが行うようにしてもよい。

音片登録ユニットＲは、図示するように、収録音片データセット記憶部１０と、音片データベース作成部１１と、圧縮部１２とにより構成されている。なお、音片登録ユニットＲは音片データベース７とは着脱可能に接続されていてもよく、この場合は、音片データベース７に新たにデータを書き込むときを除いては、音片登録ユニットＲを本体ユニットＭ１から切り離した状態で本体ユニットＭ１に後述の動作を行わせてよい。

収録音片データセット記憶部１０は、ハードディスク装置等のデータ書き換え可能な不揮発性メモリより構成されている。
収録音片データセット記憶部１０には、音片の読みを表す表音文字と、この音片を人が実際に発声したものを集音して得た波形を表す音片データとが、この音声合成システムの製造者等によって、あらかじめ互いに対応付けて記憶されている。なお、この音片データは、例えば、ＰＣＭ化されたデジタル形式のデータからなっていればよい。

音片データベース作成部１１及び圧縮部１２は、ＣＰＵ等のプロセッサや、このプロセッサが実行するためのプログラムを記憶するメモリなどより構成されており、このプログラムに従って後述する処理を行う。

なお、音片データベース作成部１１及び圧縮部１２の一部又は全部の機能を単一のプロセッサが行うようにしてもよく、また、言語処理部１、音響処理部４１、検索部４２、伸長部４３、音片編集部５、検索部６、伸長部８及び話速変換部９の一部又は全部の機能を行うプロセッサが音片データベース作成部１１や圧縮部１２の機能を更に行ってもよい。また、音片データベース作成部１１や圧縮部１２の機能を行うプロセッサが、収録音片データセット記憶部１０の制御回路の機能を兼ねてもよい。

次に、この音声合成システムの動作を説明する。

（第１の実施の形態：音片登録ユニットの動作）
まず、音片登録ユニットＲの動作を説明する。
音片データベース７に音片を登録する場合、まず、音片データベース作成部１１は、収録音片データセット記憶部１０より、互いに対応付けられている表音文字及び音片データを読み出し、この音片データが表す音声のピッチ成分の周波数の時間変化と、発声スピードとを特定する。

発声スピードの特定は、例えば、この音片データのサンプル数を数えることにより特定すればよい。

一方、ピッチ成分の周波数の時間変化は、例えば、この音片データにケプストラム解析を施すことにより特定すればよい。具体的には、例えば、音片データが表す波形を時間軸上で多数の小部分へと区切り、得られたそれぞれの小部分の強度を、元の値の対数（対数の底は任意）に実質的に等しい値へと変換し、値が変換されたこの小部分のスペクトル（すなわち、ケプストラム）を、高速フーリエ変換の手法（あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法）により求める。そして、このケプストラムの極大値を与える周波数のうちの最小値を、この小部分におけるピッチ成分の周波数として特定する。

なお、ピッチ成分の周波数の時間変化は、例えば、特開２００３−１０８１７２号公報に開示された手法に従って音片データをピッチ波形データへと変換してから、このピッチ波形データに基づいて特定するようにすると良好な結果が期待できる。具体的には、音片データをフィルタリングしてピッチ信号を抽出し、抽出されたピッチ信号に基づいて、音片データが表す波形を単位ピッチ長の区間へと区切り、各区間について、ピッチ信号との相関関係に基づいて位相のずれを特定して各区間の位相を揃えることにより、音片データをピッチ波形信号へと変換すればよい。そして、得られたピッチ波形信号を音片データとして扱い、ケプストラム解析を行う等することにより、ピッチ成分の周波数の時間変化を特定すればよい。

一方、音片データベース作成部１１は、収録音片データセット記憶部１０より読み出した音片データを圧縮部１２に供給する。
圧縮部１２は、音片データベース作成部１１より供給された音片データをエントロピー符号化して圧縮音片データを作成し、音片データベース作成部１１に返送する。

音片データの発声スピード及びピッチ成分の周波数の時間変化を特定し、この音片データがエントロピー符号化され圧縮音片データとなって圧縮部１２より返送されると、音片データベース作成部１１は、この圧縮音片データを、データ部ＤＡＴを構成するデータとして、音片データベース７の記憶領域に書き込む。

また、音片データベース作成部１１は、書き込んだ圧縮音片データが表す音片の読みを示すものとして収録音片データセット記憶部１０より読み出した表音文字を、音片読みデータとして音片データベース７の記憶領域に書き込む。
また、書き込んだ圧縮音片データの、音片データベース７の記憶領域内での先頭のアドレスを特定し、このアドレスを上述の（Ｂ）のデータとして音片データベース７の記憶領域に書き込む。
また、この圧縮音片データのデータ長を特定し、特定したデータ長を、（Ｃ）のデータとして音片データベース７の記憶領域に書き込む。
また、この圧縮音片データが表す音片の発声スピード及びピッチ成分の周波数の時間変化を特定した結果を示すデータを生成し、スピード初期値データ及びピッチ成分データとして音片データベース７の記憶領域に書き込む。

（第１の実施の形態：本体ユニットの動作）
次に、本体ユニットＭ１の動作を説明する。以下では、まず、言語処理部１が、この音声合成システムに音声を合成させる対象としてユーザが用意した、表意文字を含む文章（フリーテキスト）を記述したフリーテキストデータを外部から取得したとして説明する。

なお、言語処理部１がフリーテキストデータを取得する手法は任意であり、例えば、図示しないインターフェース回路を介して外部の装置やネットワークから取得してもよいし、図示しない記録媒体ドライブ装置にセットされた記録媒体（例えば、フレキシブルディスクやＣＤ−ＲＯＭなど）から、この記録媒体ドライブ装置を介して読み取ってもよい。

また、言語処理部１の機能を行っているプロセッサが、自ら実行している他の処理で用いたテキストデータを、フリーテキストデータとして、言語処理部１の処理へと引き渡すようにしてもよい。
プロセッサが実行する当該他の処理としては、例えば、音声を表す音声データを取得し、この音声データに音声認識を施すことにより、この音声が表す語句を特定し、特定した語句に基づいて、この音声の発話者の要求の内容を特定して、特定した要求を満足させるために実行すべき処理を特定して実行するようなエージェント装置の機能をプロセッサに行わせるための処理などが考えられる。

フリーテキストデータを取得すると、言語処理部１は、このフリーテキストに含まれるそれぞれの表意文字について、その読みを表す表音文字を、一般単語辞書２やユーザ単語辞書３を検索することにより特定する。そして、この表意文字を、特定した表音文字へと置換する。そして、言語処理部１は、フリーテキスト内の表意文字がすべて表音文字へと置換した結果得られる表音文字列を、規則合成処理部４の音響処理部４１へと供給する。

音響処理部４１は、言語処理部１より表音文字列を供給されると、この表音文字列に含まれるそれぞれの表音文字について、当該表音文字が表す音素を構成する素片の波形を検索するよう、検索部４２に指示する。また、音響処理部４１は、この表音文字列を、音片編集部５の韻律予測部５３に供給する。

検索部４２は、この指示に応答して波形データベース４４を検索し、この指示の内容に合致する圧縮波形データを索出する。そして、索出された圧縮波形データを伸長部４３へと供給する。

伸長部４３は、検索部４２より供給された圧縮波形データを、圧縮される前の素片波形データへと復元し、検索部４２へと返送する。検索部４２は、伸長部４３より返送された素片波形データを、検索結果として音響処理部４１へと供給する。

一方、音響処理部４１より表音文字列を供給された韻律予測部５３は、この表音文字列に、例えば「藤崎モデル」や「ＴｏＢＩ（Tone and Break Indices）」等の韻律予測の手法に基づいた解析を加えることにより、この表音文字列が表す音声の韻律（アクセント、イントネーション、強勢、音素の時間長など）を予測し、予測結果を表す韻律予測データを生成する。そして、この韻律予測データを、音響処理部４１に供給する。

音響処理部４１は、検索部４２より素片波形データを供給され、韻律予測部５３より韻律予測データを供給されると、供給された素片波形データを用いて、言語処理部１が供給した表音文字列に含まれるそれぞれの表音文字が表す音声の波形を表す音声波形データを生成する。

具体的には、音響処理部４１は、例えば、検索部４２より供給された各々の素片波形データが表す素片により構成されている音素の時間長を、韻律予測部５３より供給された韻律予測データに基づいて特定する。そして、特定した音素の時間長を、当該素片波形データが表す素片の時間長で除した値に最も近い整数を求め、当該素片波形データを、求めた整数に等しい個数分相互に結合することにより、音声波形データを生成すればよい。

なお、音響処理部４１は、音声波形データが表す音声の時間長を韻律予測データに基づいて決定するのみならず、音声波形データを構成する素片波形データを加工して、音声波形データが表す音声が、当該韻律予測データが示す韻律に合致する強度やイントネーション等を有するようにしてもよい。

あるいは、波形データベース４４が、同一の音素を構成するものであって互いに異なる強度及び／又はイントネーションを有する複数の素片を表す複数の圧縮波形データを記憶していてもよい。この場合、音響処理部４１は、素片波形データを加工する代わりに、検索部４２より供給された素片波形データのうち、韻律予測部５３より供給された韻律予測データが示す韻律に合致する強度及びイントネーション等を有する素片を表すものを用いて、当該韻律予測データが示す韻律に合致する強度やイントネーション等を有する音声を表す音声波形データを生成するようにしてもよい。
あるいは、検索部４２は、音響処理部４１の指示の内容に合致する圧縮波形データのうち、韻律予測部５３より供給された韻律予測データが示す韻律に合致する強度及びイントネーション等を有する素片を表すもののみを索出するようにしてもよい。

そして、音響処理部４１は、生成された音声波形データを、言語処理部１より供給された表音文字列内での各表音文字の並びに従った順序で、音片編集部５の出力合成部５４へと供給する。

出力合成部５４は、音響処理部４１より波形データを供給されると、この波形データを、音響処理部４１より供給された順序で互いに結合し、合成音声を表すデータ（合成音声データ）として出力する。フリーテキストデータに基づいて合成されたこの合成音声は、規則合成方式の手法により合成された音声に相当する。

なお、出力合成部５４が合成音声データを出力する手法は任意であり、例えば、図示しないＤ／Ａ（Digital-to-Analog）変換器やスピーカを介して、この合成音声データが表す合成音声を再生するようにしてもよい。また、図示しないインターフェース回路を介して外部の装置やネットワークに送出してもよいし、図示しない記録媒体ドライブ装置にセットされた記録媒体へ、この記録媒体ドライブ装置を介して書き込んでもよい。また、出力合成部５４の機能を行っているプロセッサが、自ら実行している他の処理へと、合成音声データを引き渡すようにしてもよい。

次に、音響処理部４１が、外部より配信された、表音文字列を表すデータ（配信文字列データ）を取得したとする。（なお、音響処理部４１が配信文字列データを取得する手法も任意であり、例えば、言語処理部１がフリーテキストデータを取得する手法と同様の手法で配信文字列データを取得すればよい。）

この場合、音響処理部４１は、配信文字列データが表す表音文字列を、言語処理部１より供給された表音文字列と同様に扱う。この結果、配信文字列データが表す表音文字列に含まれる表音文字が表す音素を構成する素片を表す圧縮波形データが検索部４２により索出され、圧縮される前の素片波形データが伸長部４３により復元される。一方で、韻律予測部５３により、配信文字列データが表す表音文字列に韻律予測の手法に基づいた解析が加えられ、この結果、この表音文字列が表す音声の韻律の予測結果を表す韻律予測データが生成される。そして音響処理部４１が、配信文字列データが表す表音文字列に含まれるそれぞれの表音文字が表す音声の波形を表す音声波形データを、復元された各素片波形データと、韻律予測データとに基づいて生成し、出力合成部５４は、生成された音声波形データを、配信文字列データが表す表音文字列内での各表音文字の並びに従った順序で互いに結合し、合成音声データとして出力する。配信文字列データに基づいて合成されたこの合成音声データも、規則合成方式の手法により合成された音声を表す。

なお、配信文字列データに基づいて合成音声データを合成する場合も、音響処理部４１は、音声波形データが表す音声の時間長を韻律予測データに基づいて決定するのみならず、音声波形データを構成する素片波形データを加工して、音声波形データが表す音声が、当該韻律予測データが示す韻律に合致する強度やイントネーション等を有するようにしてもよい。あるいは、波形データベース４４が、同一の音素を構成するものであって互いに異なる強度及び／又はイントネーションを有する複数の素片を表す複数の圧縮波形データを記憶していてもよい。この場合、音響処理部４１は、素片波形データを加工する代わりに、検索部４２より供給された素片波形データのうち、韻律予測部５３より供給された韻律予測データが示す韻律に合致する強度及びイントネーション等を有する素片を表すものを用いて、当該韻律予測データが示す韻律に合致する強度やイントネーション等を有する音声を表す音声波形データを生成するようにしてもよい。あるいは、検索部４２は、音響処理部４１の指示の内容に合致する圧縮波形データのうち、韻律予測部５３より供給された韻律予測データが示す韻律に合致する強度及びイントネーション等を有する素片を表すもののみを索出するようにしてもよい。

次に、音片編集部５が、定型メッセージデータ、発声スピードデータ、及び照合レベルデータを取得したとする。
なお、定型メッセージデータは、定型メッセージを表意文字列として表すデータであり、具体的には、例えば本体ユニットＭ１が、車両に登載されるナビゲーション装置を構成するものであれば、ナビゲーションの目的で当該ナビゲーション装置に発声させるべきメッセージ等を表すデータである。
また、発声スピードデータは、定型メッセージデータが表す定型メッセージの発声スピードの指定値（この定型メッセージを発声する時間長の指定値）を示すデータである。
照合レベルデータは、検索部６が行う後述の検索処理における検索条件を指定するデータであり、以下では「１」、「２」又は「３」のいずれかの値をとるものとし、「３」が最も厳格な検索条件を示すものとする。

また、一致音片決定部５２が定型メッセージデータや発声スピードデータや照合レベルデータを取得する手法は任意であり、例えば、言語処理部１がフリーテキストデータを取得する手法と同様の手法で定型メッセージデータや発声スピードデータや照合レベルデータを取得すればよい。

定型メッセージデータ、発声スピードデータ、及び照合レベルデータが音片編集部５に供給されると、音片編集部５の形態素解析部５１は、定型メッセージデータに公知の手法による形態素解析を施すことにより、定型メッセージデータを構成する表意文字列を、表音文字列へと置換する。そして、得られた表音文字列を一致音片決定部５２へと供給する。

ただし、この形態素解析を施す際、形態素解析部５１は、定型メッセージデータを構成する表意文字列中に所定の区切り用記号が含まれている場合、この区切り用記号の前及び後の表意文字列は、必ず互いに別個の単語に属するものとして扱う。

また、形態素解析部５１は、定型メッセージデータを構成する表意文字列中、所定の表記法で記述されている部分（具体的には、例えば、表意文字列が漢字ひらがな混じり文より構成されている場合は、上述の「所定の表記法」にあたる表記法として、カタカナで記述されている部分）を、この表意文字列の他の部分とは区別される１個の単語をなすものとして扱う。

従って、定型メッセージデータの作成者は、実際には複数の単語からなるにもかかわらず形態素解析部５１により誤って１個の単語として扱われてしまう見込みの大きい表意文字列が定型メッセージに含まれる場合、この表意文字列内の連続する２個の単語の境界に区切り用記号を挿入したり、必ず他の部分から区別して１個の単語として扱われるべき部分を所定の表記法で記述しておいたりすることにより、この表意文字列全体が誤って１個の単語として扱われてしまうことを防止できる。
具体的には、例えば、「首都高速都心環状線を」という表意文字列に対応する文字列が定形メッセージデータとして形態素解析部５１に供給される場合を想定する。この際、定形メッセージの作成者は、当該「首都高速都心環状線を」という表意文字列を「首都高速」「都心環状線」「を」の３個の単語からなるものとして形態素解析部５１に確実に認識させたい場合、当該「首都高速都心環状線を」という表意文字列については、定形メッセージデータとして、例えば「首都高速・都心環状線ヲ」という文字列が形態素解析部５１に入力されるように予め表意文字列を定義しておく。つまり、「首都高速」という単語と「都心環状線」という単語の間に区切り用記号「・」を挿入し、また、「都心環状線」の後に続く助詞「を」をカタカナ表記で「ヲ」とする。上述の区切り用記号「・」は、これを挟んで前後する文字列（例えば「首都高速」及び「都心環状線」）が互いに異なる単語に属するものであって、両者はまとめて１個の単語（例えば「首都高速都心環状線」）として認識されてはならないものである、ということを意味する。また、カタカナ表記された部分「ヲ」は、カタカナ表記されたこの部分が、これに隣接する他の文字（「線」など）とは区別されて、１個の音片に対応する１個の単語をなすものであることを意味する。形態素解析部５１は、入力された定形メッセージデータが「首都高速・都心環状線ヲ」という文字列だった場合、「首都高速」と「都心環状線ヲ」の間に挿入されている区切り用記号「・」を検出して、区切り用記号「・」を挟んで前後する「首都高速」「都心環状線ヲ」を一つの単語として扱わないことを決定する。また、カタカナ表記である部分「ヲ」を、その前にある単語（本例の場合「都心環状線」）から区別して一つの音片に対応する単語として扱うことを決定する。そして、形態素解析部５１はこれらの前提の下に形態素解析を行い、その結果、例えば「首都高速」「都心環状線」という各文字列をそれぞれ１個の単語として認識すれば、「シュトコウソク」「トシンカンジョウセン」「ヲ」という各表音文字列を出力する。尚、形態素解析部５１は、「、」「，」「…」「−」等の記号を区切り用記号として認識してもよく、この場合定型メッセージの作成者は、これらの記号を区切り用記号として用いて良い。また、形態素解析部５１は、カタカナ表記された部分の代わりに例えば「『』」で囲まれた部分を１個の単語として認識してもよく、この場合定型メッセージの作成者は、１個の単語として認識させたい部分を「『』」で囲むようにして定型メッセージを定義すればよい。また、形態素解析部５１が、一致音片決定部５２に、表音文字列内で各音片に対応する単語がそれぞれどの部分であるか、あるいはどの部分が２個の単語の境界であるかを伝える態様は、一致音片決定部５２が識別できる態様であれば任意である。表意文字列と同様に表音文字列を区切り用記号「・」や「／」等で区切って出力するようにしてもよいし、また一つの音片に対応する単語であることを示す識別符号データを別途付加して出力するようにしてもよい。
従来の形態素解析では、「首都高速都心環状線を」という定形メッセージデータが入力されると、「シュトコウソクトシンカンジョウセンヲ」という一続きの表音文字列として出力してしまい、結果として、音片データベース７の検索において表音文字列が「シュトコウソクトシンカンジョウセンヲ」と一致する音片データが存在するかが検索されることになる。従って、「首都高速」「都心環状線」それぞれを音片データとして有する場合であっても、一致する音片なしとして処理されてしまう。
一方、本実施の形態の形態素解析部５１では、上述のように「首都高速・都心環状線ヲ」という定形メッセージデータの入力に対応して上述の処理を行うことによって、「シュトコウソク」「トシンカンジョウセン」「ヲ」の３個の単語を表すものとして表音文字列が出力される。したがって、後述する音片データの検索時に、一致する音片を索出する可能性を格段に高めることができる。

一致音片決定部５２は、表音文字列を形態素解析部５１より供給されると、この表音文字列に合致する表音文字列が対応付けられている圧縮音片データをすべて索出するよう、検索部６に指示する。

検索部６は、一致音片決定部５２の指示に応答して音片データベース７を検索し、該当する圧縮音片データと、該当する圧縮音片データに対応付けられている上述の音片読みデータ、スピード初期値データ及びピッチ成分データとを索出し、索出された圧縮音片データを伸長部８へと供給する。複数の圧縮音片データが共通の表音文字ないし表音文字列に該当する場合も、該当する圧縮音片データすべてが、音声合成に用いられるデータの候補として索出される。一方、圧縮音片データを索出できなかった音片があった場合、検索部６は、該当する音片を識別するデータ（以下、欠落部分識別データと呼ぶ）を生成する。

伸長部８は、検索部６より供給された圧縮音片データを、圧縮される前の音片データへと復元し、検索部６へと返送する。検索部６は、伸長部８より返送された音片データと、索出された音片読みデータ、スピード初期値データ及びピッチ成分データとを、検索結果として話速変換部９へと供給する。また、欠落部分識別データを生成した場合は、この欠落部分識別データも話速変換部９へと供給する。

一方、一致音片決定部５２は、話速変換部９に対し、話速変換部９に供給された音片データを変換して、当該音片データが表す音片の時間長を、音片編集部５に供給された発声スピードデータが示すスピードに合致するようにすることを指示する。

話速変換部９は、一致音片決定部５２の指示に応答し、検索部６より供給された音片データを指示に合致するように変換して、一致音片決定部５２に供給する。具体的には、例えば、検索部６より供給された音片データを個々の音素を表す区間へと区切り、得られたそれぞれの区間について、当該区間から、当該区間が表す音素を構成する素片を表す部分を特定して、特定された部分を（１個もしくは複数個）複製して当該区間内に挿入したり、又は、当該区間から当該部分を（１個もしくは複数個）除去することによって、当該区間の長さを調整することにより、この音片データ全体のサンプル数を、一致音片決定部５２の指示したスピードに合致する時間長にすればよい。なお、話速変換部９は、各区間について、素片を表す部分を挿入又は除去する個数を、各区間が表す音素相互間の時間長の比率が実質的に変化しないように決定すればよい。こうすることにより、音素同士を単に結合して合成する場合に比べて、音声のより細かい調整が可能になる。

また、話速変換部９は、検索部６より供給された音片読みデータ及びピッチ成分データも一致音片決定部５２に供給し、欠落部分識別データを検索部６より供給された場合は、更にこの欠落部分識別データも一致音片決定部５２に供給する。

なお、発声スピードデータが一致音片決定部５２に供給されていない場合、一致音片決定部５２は、話速変換部９に対し、話速変換部９に供給された音片データを変換せずに一致音片決定部５２に供給するよう指示すればよく、話速変換部９は、この指示に応答し、検索部６より供給された音片データをそのまま一致音片決定部５２に供給すればよい。

一致音片決定部５２は、話速変換部９より音片データ、音片読みデータ及びピッチ成分データを供給されると、供給された音片データのうちから、定型メッセージを構成する音片の波形に近似できる波形を表す音片データを、音片１個につき１個ずつ選択する。ただし、一致音片決定部５２は、いかなる条件を満たす波形を定型メッセージの音片に近い波形とするかを、音片編集部５に供給された照合レベルデータに従って設定する。

具体的には、まず、一致音片決定部５２は、例えば定型メッセージデータを変換して得られた表音文字列を韻律予測部５３に供給し、韻律予測部５３に、この表音文字列が表す定型メッセージの韻律を予測よう指示する。韻律予測部５３はこの指示に従い、上述した韻律予測の手法に基づいた解析を加えることにより、この定型メッセージの韻律を予測し、予測結果を表す韻律予測データを生成して、一致音片決定部５２に返送する。

韻律予測データを取得すると、一致音片決定部５２は、例えば、
（１）照合レベルデータの値が「１」である場合は、話速変換部９より供給された音片データ（すなわち、定型メッセージ内の音片と読みが合致する音片データ）をすべて、定型メッセージ内の音片の波形に近いものとして選択する。

（２）照合レベルデータの値が「２」である場合は、（１）の条件（つまり、読みを表す表音文字の合致という条件）を満たし、更に、音片データのピッチ成分の周波数の時間変化を表すピッチ成分データの内容と定型メッセージに含まれる音片のアクセント（いわゆる韻律）の予測結果との間に所定量以上の強い相関がある場合（例えば、アクセントの位置の時間差が所定量以下である場合）に限り、この音片データが定型メッセージ内の音片の波形に近いものとして選択する。なお、定型メッセージ内の音片のアクセントの予測結果は、定型メッセージの韻律の予測結果より特定できるものであり、一致音片決定部５２は、例えば、ピッチ成分の周波数が最も高いと予測されている位置をアクセントの予測位置であると解釈すればよい。一方、音片データが表す音片のアクセントの位置については、例えば、ピッチ成分の周波数が最も高い位置を上述のピッチ成分データに基づいて特定し、この位置をアクセントの位置であると解釈すればよい。また、韻律予測は、文章全体に対して行ってもよいし、文章を所定の単位に分割し、それぞれの単位に対して行ってもよい。

（３）照合レベルデータの値が「３」である場合は、（２）の条件（つまり、読みを表す表音文字及びアクセントの合致という条件）を満たし、更に、音片データが表す音声の鼻濁音化や無声化の有無が、定型メッセージの韻律の予測結果に合致している場合に限り、この音片データが定型メッセージ内の音片の波形に近いものとして選択する。一致音片決定部５２は、音片データが表す音声の鼻濁音化や無声化の有無を、話速変換部９より供給されたピッチ成分データに基づいて判別すればよい。

なお、一致音片決定部５２は、自ら設定した条件に合致する音片データが１個の音片につき複数あった場合は、これら複数の音片データを、設定した条件より厳格な条件に従って１個に絞り込むものとする。

具体的には、例えば、設定した条件が照合レベルデータの値「１」に相当するものであって、該当する音片データが複数あった場合は、照合レベルデータの値「２」に相当する検索条件にも合致するものを選択し、なお複数の音片データが選択された場合は、選択結果のうちから照合レベルデータの値「３」に相当する検索条件にも合致するものを更に選択する、等の操作を行う。照合レベルデータの値「３」に相当する検索条件で絞り込んでなお複数の音片データが残る場合は、残ったものを任意の基準で１個に絞り込めばよい。

そして、一致音片決定部５２は、照合レベルデータの値に相当する条件を満たすものとして選択した音片データを、出力合成部５４へと供給する。
ただし、一致音片決定部５２は、話速変換部９より供給された音片データのうちから、照合レベルデータの値に相当する条件を満たす音片データを選択できない音片があった場合、該当する音片を、検索部６が圧縮音片データを索出できなかった音片（つまり、上述の欠落部分識別データが示す音片）とみなして扱うことを決定するものとする。

一方、一致音片決定部５２は、話速変換部９より欠落部分識別データも供給されている場合、又は、照合レベルデータの値に相当する条件を満たす音片データを選択できなかった音片があった場合には、欠落部分識別データが示す音片（照合レベルデータの値に相当する条件を満たす音片データを選択できなかった音片を含む）の読みを表す表音文字列を定型メッセージデータより抽出して音響処理部４１に供給し、この音片の波形を合成するよう指示する。

指示を受けた音響処理部４１は、一致音片決定部５２より供給された表音文字列を、配信文字列データが表す表音文字列と同様に扱う。この結果、この表音文字列に含まれる表音文字が表す音素を構成する素片を表す圧縮波形データが検索部４２により索出され、圧縮される前の素片波形データが伸長部４３により復元される。一方で、韻律予測部５３により、この表音文字列が表す音片の韻律の予測結果を表す韻律予測データが生成される。そして音響処理部４１が、この表音文字列に含まれるそれぞれの表音文字が表す音声の波形を表す音声波形データを、復元された各素片波形データと、韻律予測データとに基づいて生成し、生成された音声波形データを、出力合成部５４へと供給する。

なお、一致音片決定部５２は、韻律予測部５３が既に生成して一致音片決定部５２に供給した韻律予測データのうち、欠落部分識別データが示す音片に相当する部分を音響処理部４１に供給するようにしてもよく、この場合、音響処理部４１は、改めて韻律予測部５３に当該音片の韻律予測を行わせる必要はない。このようにすれば、音片等の細かい単位毎に韻律予測を行う場合に比べて、より自然な発話が可能になる。

出力合成部５４は、一致音片決定部５２より音片データを供給され、音響処理部４１より、素片波形データより生成された音声波形データを供給されると、供給されたそれぞれの音声波形データに含まれる素片波形データの個数を調整することにより、当該音声波形データが表す音声の時間長を、一致音片決定部５２より供給された音片データが表す音片の発声スピードと整合するようにする。

具体的には、出力合成部５４は、例えば、一致音片決定部５２より音片データに含まれる上述の各区間が表す音素の時間長が元の時間長に対して増減した比率を特定し、音響処理部４１より供給された音声波形データが表す音素の時間長が当該比率で変化するように、各音声波形データ内の素片波形データの個数を増加あるいは減少させればよい。なお、出力合成部５４は、当該比率を特定するため、例えば、一致音片決定部５２が供給した音片データの生成に用いられた元の音片データを検索部６より取得し、これら２個の音片データ内で互いに同一の音素を表す区間を１個ずつ特定すればよい。そして、一致音片決定部５２が供給した音片データ内で特定した区間内に含まれる素片の個数が、検索部６より取得した音片データ内で特定した区間内に含まれる素片の個数に対して増減した比率を、音素の時間長の増減の比率として特定するようにすればよい。なお、音声波形データが表す音素の時間長が、一致音片決定部５２より供給された音片データが表す音片のスピードに既に整合している場合、出力合成部５４は、音声波形データ内の素片波形データの個数を調整する必要はない。

そして、出力合成部５４は、素片波形データの個数の調整が完了した音声波形データと、一致音片決定部５２より供給された音片データとを、定型メッセージデータが示す定型メッセージ内での各音片ないし音素の並びに従った順序で互いに結合し、合成音声を表すデータとして出力する。

なお、話速変換部９より供給されたデータに欠落部分識別データが含まれていない場合は、音響処理部４１に波形の合成を指示することなく直ちに、音片編集部５が選択した音片データを、定型メッセージデータが示す定型メッセージ内での表音文字列の並びに従った順序で互いに結合し、合成音声を表すデータとして出力すればよい。

以上説明した、この発明の実施の形態の音声合成システムでは、音素より大きな単位であり得る音片の波形を表す音片データが、韻律の予測結果に基づいて、録音編集方式により自然につなぎ合わせられ、定型メッセージを読み上げる音声が合成される。音片データベース７の記憶容量は、音素毎に波形を記憶する場合に比べて小さくでき、また、高速に検索できる。このため、この音声合成システムは小型軽量に構成することができ、また高速な処理にも追随できる。

また、実際には連続する複数の単語からなるにもかかわらず形態素解析の際誤って１個の単語として扱われてしまう見込みの大きい表意文字列は、この表意文字列内の連続する２個の単語の境界に区切り用記号を挿入しておいたり、必ず他の部分から区別して１個の単語として扱われるべき部分を所定の表記法で記述しておいたりすることにより、この表意文字列全体が誤って１個の単語として扱われてしまうことを防止できる。
従って、複数の単語の多様な組み合わせに対応する音声データを逐一記憶することなく、また、規則合成方式による合成を行う部分を最小限に抑え、簡単な構成で自然な合成音声を高速、確実に得ることができる。

一方、適切な音片データを選択することができなかった音片は、音素より小さな単位である素片を表す圧縮波形データを用いて、規則合成方式の手法に従って合成される。圧縮波形データが素片の波形を表すものであるため、波形データベース４４の記憶容量は、圧縮波形データが音素の波形を表すものである場合に比べて小さくでき、また、高速に検索できる。このため、この音声合成システムは小型軽量に構成することができ、また高速な処理にも追随できる。

また、素片を用いて規則合成を行えば、音素を用いて規則合成を行う場合と異なり、音素の端の部分に現れる特殊な波形の影響を受けることなく音声合成を行うことができるため、少ない種類の素片で自然な音声を得ることができる。
すなわち、人が発声する音声では、先行する音素から後続の音素へと遷移する境界で、これらの音素双方の影響を受けた特殊な波形が現れることが知られており、一方、規則合成に用いられる音素は、採取した段階で既にその端部にこの特殊な波形を含んでいるため、音素を用いて規則合成を行う場合は、音素間の境界の波形の様々なパターンを再現可能とするために膨大な種類の音素を用意するか、あるいは、音素間の境界の波形が自然な音声とは異なった合成音声を合成することで満足する必要がある。しかし、素片を用いて規則合成を行う場合は、音素の端部以外の部分から素片を採取するようにすれば、音素間の境界の特殊な波形の影響をあらかじめ排除することができる。このため、膨大な種類の素片を用意することを要せず、自然な音声を得ることができる。

なお、この音声合成システムの構成は上述のものに限られない。
例えば、素片波形データはＰＣＭ形式のデータである必要はなく、データ形式は任意である。また、波形データベース４４は素片波形データや音片データを必ずしもデータ圧縮された状態で記憶している必要はない。波形データベース４４が素片波形データをデータ圧縮されていない状態で記憶している場合、本体ユニットＭ１は伸長部４３を備えている必要はない。

また、一致音片決定部５２は、特定の音片の韻律を表す韻律登録データをあらかじめ記憶し、定型メッセージにこの特定の音片が含まれている場合は、この韻律登録データが表す韻律を、韻律予測の結果として扱うようにしてもよい。
また、一致音片決定部５２は、過去の韻律予測の結果を韻律登録データとして新たに記憶するようにしてもよい。

また、一致音片決定部５２は、例えば、言語処理部１と共にフリーテキストデータを取得し、このフリーテキストデータが表すフリーテキストを読み上げる音声の少なくとも一部に合致する音片を表す音片データを、定型メッセージの音片データの選択処理と実質的に同一の処理を行うことによって選択して、音声の合成に用いてもよい。
この場合、音響処理部４１は、一致音片決定部５２が選択した音片については、この音片の素片の波形を表す圧縮波形データを検索部４２に索出させなくてもよい。なお、一致音片決定部５２は、音響処理部４１が合成しなくてよい音片を音響処理部４１に通知し、音響処理部４１はこの通知に応答して、この音片を構成する単位音声の素片の波形の検索を中止するようにすればよい。

また、一致音片決定部５２は、例えば、音響処理部４１と共に配信文字列データを取得し、この配信文字列データが表す配信文字列を読み上げる音声の少なくとも一部に合致する音片を表す音片データを、定型メッセージの音片データの選択処理と実質的に同一の処理を行うことによって選択して、音声の合成に用いてもよい。この場合、音響処理部４１は、一致音片決定部５２が選択した音片データが表す音片については、この音片を構成する単位音声の素片の波形を表す圧縮波形データを検索部４２に索出させなくてもよい。

また、波形データベース４４が記憶する圧縮波形データは、必ずしも素片を表すものである必要はなく、例えば、波形データベース４４が記憶する表音文字が表す単位音声の波形を表す単位音声波形データ、あるいは当該単位音声波形データをエントロピー符号化して得られるデータであってもよい。なお、単位音声は、規則合成方式の手法で用いられる程度の短い音声であり、具体的には、音素や、ＶＣＶ（Vowel-Consonant-Vowel）音節などの単位で区切られる音声である。

波形データベース４４が素片波形データ（又は素片波形データをエントロピー符号化して得られれる圧縮波形データ）に代えて単位音声の波形を表す単位音声波形データ（又は単位音声波形データをエントロピー符号化して得られれるデータ）を記憶している場合、音響処理部４１は、素片波形データを用いて音声波形データを生成する代わりに、単位音声波形データを音声波形データとして扱い、言語処理部１又は一致音片決定部５２より供給された表音文字列内での各表音文字の並びに従った順序で、単位音声波形データを出力合成部５４へと供給すればよい。

また、波形データベース４４は、素片の波形を表すデータと、音素の波形を表すデータとを、両方記憶していてもよい。この場合、音響処理部４１は、配信文字列等に含まれる表音文字が表す音素のデータを検索部４２に索出させ、該当する音素が索出されなかった表音文字について、当該表音文字が表す音素を構成する素片を表すデータを検索部４２に索出させ、索出された、素片を表すデータを用いて、音素を表すデータを生成するようにしてもよい。

また、話速変換部９が、音片データが表す音片の時間長を、発声スピードデータが示すスピードに合致させる手法は任意である。従って、話速変換部９は、例えば、検索部６より供給された音片データをリサンプリングして、この音片データのサンプル数を、一致音片決定部５２の指示した発声スピードに合致する時間長に相当する数へと増減させてもよい。

また、本体ユニットＭ１は必ずしも話速変換部９を備えている必要はない。本体ユニットＭ１が話速変換部９を備えない場合、韻律予測部５３が発話スピードを予測し、一致音片決定部５２は、検索部６が取得した音片データのうち、所定の判別条件下で発話スピードが韻律予測部５３による予測の結果に合致するものを選択し、一方、発話スピードが当該予測の結果に合致しないものを選択の対象から除外するものとしてもよい。なお、音片データベース７は、音片の読みが共通で発話スピードが互いに異なる複数の音片データを記憶していてもよい。

また、出力合成部５４が、音声波形データが表す音素の時間長を、音片データが表す音片の発声スピードと整合させる手法も任意である。従って、出力合成部５４は、例えば、一致音片決定部５２より音片データに含まれる各区間が表す音素の時間長が元の時間長に対して増減した比率を特定した上、音声波形データをリサンプリングして、音声波形データのサンプル数を、一致音片決定部５２の指示した発声スピードと整合する時間長に相当する数へと増減させてもよい。

また、発声スピードは音片毎に異なっていてもよい。（従って、発声スピードデータは、音片毎に異なる発声スピードを指定するものであってもよい。）そして、出力合成部５４は、互いに発声スピードが異なる２個の音片の間に位置する各音声の音声波形データについては、当該２個の音片の発声スピードを補間（例えば、直線補間）することにより、当該２個の音片の間にあるこれらの音声の発声スピードを決定し、決定した発声スピードに合致するように、これらの音声を表す音声波形データを変換するようにしてもよい。

また、出力合成部５４は、音響処理部４１より返送された音声波形データが、フリーテキストや配信文字列を読み上げる音声を構成する音声を表すものであっても、これらの音声波形データを変換して、これらの音声の時間長を、例えば一致音片決定部５２に供給されている発声スピードデータが示すスピードに合致させるようにしてもよい。

また、上述の音声合成システムでは、例えば韻律予測部５３が、文章全体に対して韻律予測（発話スピードの予測も含む）を行ってもよいし、所定の単位ごとに韻律予測を行ってもよい。また、文章全体に対して韻律予測を行った場合、読みが一致する音片があれば更に韻律が所定条件内で一致するか否かを判別し、一致していれば当該音片を採用するようにしてもよい。一致する音片が存在しなかった部分については、規則合成処理部４が素片を基に音声を生成するものとし、ただし、素片を基に合成する部分のピッチやスピードを、文章全体若しくは所定の単位ごとに行われた韻律予測の結果に基づいて調整するものとしてもよい。これによって、音片と、素片を基に生成する音声とを組み合わせて合成する場合でも、自然な発話が行われる。

また、言語処理部１は、言語処理部１に入力された文字列に、韻律予測とは別に公知の自然言語解析処理を行い、一致音片決定部５２が、自然言語解析処理の結果に基づいて音片の選択を行ってもよい。これによって、単語（名詞や動詞等の品詞）毎に文字列を解釈した結果を用いて音片選択を行うことが可能になり、単に表音文字列と一致する音片を選択する場合に比べて自然な発話を行うことができる。

また、音片データベース作成部１１は、マイクロフォン、増幅器、サンプリング回路、Ａ／Ｄ（Analog-to-Digital）コンバータ及びＰＣＭエンコーダなどを備えていてもよい。この場合、音片データベース作成部１１は、収録音片データセット記憶部１０より音片データを取得する代わりに、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングしてＡ／Ｄ変換した後、サンプリングされた音声信号にＰＣＭ変調を施すことにより、音片データを作成してもよい。

また、音片データベース作成部１１は、図示しない記録媒体ドライブ装置にセットされた記録媒体から、この記録媒体ドライブ装置を介して、音片データベース７に追加する新たな圧縮音片データの材料となる音片データや表音文字列を読み取ってもよい。
また、音片登録ユニットＲは、必ずしも収録音片データセット記憶部１０を備えている必要はない。

また、ピッチ成分データは音片データが表す音片のピッチ長の時間変化を表すデータであってもよい。この場合、一致音片決定部５２は、ピッチ長が最も短い位置（つまり、周波数がもっとも高い位置）をピッチ成分データに基づいて特定し、この位置をアクセントの位置であると解釈すればよい。

（第２の実施の形態）
次に、この発明の第２の実施の形態に係る音声合成システムを説明する。
図３は、この発明の第２の実施の形態に係る音声合成システムの構成を示す図である。図示するように、この音声合成システムは、本体ユニットＭ２と、音片登録ユニットＲとにより構成されている。

本体ユニットＭ２は、音片編集部５が形態素解析部５１を備えておらず、一方で、一致音片決定部５２が、ＥＥＰＲＯＭ（Programmable Read Only Memory）やハードディスク装置等からなる不揮発性メモリを備えている、という２点を除き、第１の実施の形態における本体ユニットＭ１と実質的に同一の構成を有している。なお、言語処理部１、規則合成処理部４、一致音片決定部５２、韻律予測部５３、出力合成部５４、検索部６、伸長部８又は話速変換部９を構成するプロセッサが、形態素解析部５１の機能を兼ねて行ってもよい。
また、第２の実施の形態における音片登録ユニットＲは、第１の実施の形態におけるものと実質的に同一の構成を有する。

本体ユニットＭ２の一致音片決定部５２は、分割対象音片データを、この音声合成システムの製造者等の操作により書き換え可能に記憶する。
分割対象音片データは、読みの一致する音片を表す音片データが音片データベース７に登録されているにもかかわらず、一致音片決定部５２の行う後述の処理において、音声合成に用いる音片データが選択される可能性が一定程度に達しない見込みである音片の読みを表す表音文字列を含んだリストからなる。なお、分割対象音片データに含められる表音文字列は、製造者等があらかじめ経験的に決定すればよい。また、一致音片決定部５２は、分割対象音片データを自ら備えることなく、音片データベース７に記憶されている音片データの一部を分割対象音片データとして取り扱うようにしてもよい。（以下、分割対象音片データは、一致音片決定部５２、若しくは音片データベース７が記憶する表音文字列からなるものとして説明する。）

（第２の実施の形態：本体ユニットの動作）
次に、第２の実施の形態の音声合成ユニットの動作を説明する。
まず、第２の実施の形態の音声合成システムの音片登録ユニットＲの動作は、第１の実施の形態におけるものと実質的に同一である。
また、本体ユニットＭ２がフリーテキストデータ又は配信文字列データを取得した場合の動作は、第１の実施の形態における本体ユニットＭ１の動作と実質的に同一である。

次に、本体ユニットＭ２の音片編集部５の一致音片決定部５２が、定型メッセージデータ、発声スピードデータ、及び照合レベルデータを取得した場合の動作を説明する。ただし、第２の実施の形態における定型メッセージデータは、定型メッセージを表音文字列として表すデータであるものとする。
なお、一致音片決定部５２が定型メッセージデータや発声スピードデータや照合レベルデータを取得する手法は任意であり、例えば、第１の実施の形態における形態素解析部５１あるいは一致音片決定部５２が定型メッセージデータ、発声スピードデータあるいは照合レベルデータを取得する手法と同様の手法で定型メッセージデータや発声スピードデータや照合レベルデータを取得すればよい。

一致音片決定部５２が、定型メッセージデータ、発声スピードデータ、及び照合レベルデータを取得すると、一致音片決定部５２は、定型メッセージに含まれる音片の読みを表す表音文字列に一致する表音文字列を、自己が記憶する分割対象音片データより検索する。そして、一致するものが索出された表音文字列中には、当該表音文字列を区切る位置を示す区切り用記号（例えば、読点）を挿入する。

なお、一致音片決定部５２が、表音文字列中で区切り用記号を挿入する箇所を決定する基準は任意であり、例えば、区切り用記号を挿入する箇所は表音文字列毎に予め決定されていて、分割対象音片データが当該箇所を示すデータを含んでいるものとし、一致音片決定部５２は、このデータを参照することによって、区切り用記号を挿入する箇所を決定するものとすればよい。

次に、一致音片決定部５２は、定型メッセージに含まれる表音文字列（ただし、区切り用記号を挿入された表音文字列については、当該区切り用記号により区切られて形成される、当該表音文字列の各部分）に合致する表音文字列が対応付けられている圧縮音片データをすべて索出するよう、検索部６に指示する。

検索部６が一致音片決定部５２より指示を受けて以降の本体ユニットＭ２の各部の動作は、第１の実施の形態の本体ユニットＭ１の各部の動作と実質的に同一であり、当該動作の結果、素片波形データの個数の調整が完了した音声波形データと、一致音片決定部５２より供給された音片データとが、定型メッセージデータが示す定型メッセージ内での各音片ないし音素の並びに従った順序で互いに結合されて得られるデータが、出力合成部５４より、合成音声を表すデータとして出力される。

ただし、一致音片決定部５２は、定型メッセージデータが表す定型メッセージの韻律を予測するよう韻律予測部５３に指示する際、第１の実施の形態における形態素解析部５１が生成する表音文字列に代えて、定型メッセージデータをそのまま韻律予測部５３に供給すればよい。

以上説明した、この発明の第２の実施の形態の音声合成システムでも、音素より大きな単位であり得る音片の波形を表す音片データが、韻律の予測結果に基づいて、録音編集方式により自然につなぎ合わせられ、定型メッセージを読み上げる音声が合成される。ただし、適切な音片データを選択することができなかった音片は、音素より小さな単位である素片を表す圧縮波形データを用いて、規則合成方式の手法に従って合成される。

また、本体ユニットＭ２は、読みが一致する音片データが音片データベース７に登録されているにもかかわらず、音片データが表す音片とわずかに異なる韻律を有しているなどの原因で、一致音片決定部５２により選択される可能性が低い音片については、そのような音片の読みを表す表音文字列を、区切り用の記号により、より短い音片を表す複数の部分へと分割する。例えば、定形メッセージデータとして「シュトコウソクトシンカンジョウセンヲ」という表音文字列が一致音片決定部５２に入力された場合、一致音片決定部５２は、この表音文字列内で、分割対象音片データが示す表音文字列と一致する部分を検索する。分割対象音片データと一致する部分がある場合には、当該表音文字列内に、区切り用符号として、例えば読点や「・」を付加する。具体的には、分割対象音片データに「シュトコウソクトシカンジョウセン」があった場合、「シュトコウソク」と「トシンカンジョウセン」とが互いに異なる音片に属するものであることを識別するため「・」が挿入され、「シュトコウソク・トシンカンジョウセンヲ」とされる。
こうして得られる各部分を表す適切な音片は、分割前の表音文字列が表す音片に比べて容易に選択されることが期待できる。従って、音片データが有効に活用され、読み及び韻律予測結果の多様な組み合わせに対応する膨大な量の音声データを逐一記憶することなく検索時間も短くなり、また、聴覚上の自然さで劣る規則合成方式による合成を行う部分を最小限に抑え、簡単な構成で自然な合成音声を高速、確実に得ることができる。

なお、この発明の第２の実施の形態の音声合成システムの構成も、上述のものに限られない。
例えば、上述の第２の実施例の形態では、第１の実施の形態に示した形態素解析部５１を備えないとして説明したが、第２の実施の形態の音声合成システムも、形態素解析部５１を備えていてよい。この場合、形態素解析部５１は、表意文字列を表す定型メッセージデータを取得し、この定型メッセージデータに形態素解析を施した結果得られた表音文字列内に、区切り用記号を挿入するようにしてもよい。具体的には、例えば形態素解析部５１が、表意文字列「首都高速都心環状線を」を表す定形メッセージデータを取得したとして、この表意文字列を表音文字列に変換した後、当該表音文字列内に、分割対象音片データと一致する表音文字列が含まれるかを検索する。一致する表音文字列が存在した場合には、当該表音文字列内に区切り用記号を挿入して、一致音片決定部５２に供給する。この結果、上述の「首都高速都心環状線を」という表意文字列は、例えば「シュトコウソク・トシンカンジョウセン・ヲ」という表音文字列へと変換されることになり、一致音片決定部５２が検索部６に行わせる音片の検索において、対応する音片が索出される可能性を格段に高めることができる。
また、一致音片決定部５２が記憶する分割対象音片データに含まれる表音文字列は任意の基準に従って選ばれていてよい。また、一致音片決定部５２が記憶するデータは必ずしもリストの形式をとっている必要はなく、区切り用の記号を挿入される対象の表音文字列が満たすべき条件を指定する任意の形式のデータからなっていてよい。
また、形態素解析部５１又は音片データベース７が、分割対象音片データを、この音声合成システムの製造者等の操作により書き換え可能に記憶してもよい。なお、音片データベース７が分割対象音片データを記憶する場合、音片データベース７は、音片読みデータとは別個のものとして分割対象音片データを記憶してもよいし、また、音片読みデータの一部を分割対象音片データとして兼用してもよい。

また、この音声合成システムは必ずしも分割対象音片データを記憶している必要はなく、定型メッセージ内の表音文字列が所定の条件（例えば、表音文字列の長さが所定長を超える、等）に合致するか否かを判別し、合致する表音文字列に区切り用の記号を挿入するものとしてもよい。

また、形態素解析部５１又は音片データベース７が、置換対象音片データを、この音声合成システムの製造者等の操作により書き換え可能に記憶してもよい。
置換対象音片データは、ある部分の読みが一致する音片の音片データが音片データベース７に登録されているものの、他の部分の読みがいずれの音片データが表す音片とも合致しない等のため、音声合成に用いる音片データを一致音片決定部５２が選択する可能性が著しく低い見込みである音片の読みを表す表音文字列と、この表音文字列のうち、この表音文字列の他の部分とは互いに別個の文言として扱われるべき箇所を指定する置換部分指定データとからなる。なお、置換対象音片データにより表される表音文字列も、製造者等があらかじめ経験的に決定すればよい。
なお、音片データベース７が置換対象音片データを記憶する場合、音片データベース７は、音片読みデータとは別個のものとして置換対象音片データを記憶してもよいし、また、音片読みデータの一部を置換対象音片データとして兼用してもよい。

置換対象音片データを記憶している場合、形態素解析部５１は、定型メッセージデータが表す表意文字列を表音文字列へといったん変換した後、この表音文字列の一部に一致する表音文字列、及び当該表音文字列についての置換部分指定データを、置換対象音片データより検索する。そして、元の表意文字列内で、一致する表音文字列及び置換部分指定データが索出された部分に相当する部分のうち、索出された置換部分指定データが指定する箇所を、所定の表記法による文字列へと置換する。例えば、置換を受ける前の表音文字列が平仮名より構成されている場合は、該当する部分を平仮名から片仮名へと置換すればよい。
具体的には、「都心環状線を」という表意文字列が形態素解析部５１に供給され、形態素解析部５１がこれを「としんかんじょうせんを」という表音文字列に変換したとして、一方で、置換対象音片データとして例えば「としんかんじょうせんを」が登録されており、更にこの「としんかんじょうせんを」のうち「を」の箇所を指定する置換部分指定データが登録されている場合、形態素解析部５１は、自己に供給された元の表意文字列「都心環状線を」のうち、置換部分指定データが示す助詞「を」をカタカナ表記「ヲ」に変換し、「都心環状線ヲ」を得る。以後、この音声合成システムは、「都心環状線」と「ヲ」を異なる音片に対応する単語とみなして、変換後の表意文字列に、第１の実施の形態におけるものと同様の形態素解析を施すことによって表音文字列を改めて生成し、一致音片決定部５２により、この表音文字列に相当する音声を構成する音片を表すものとして用いる音片データが決定されて、この音片データを用いて音声が合成され、出力される。
つまり、検索部６は、一致音片決定部５２の指示に応答して音片データベース７を検索する際、定型メッセージデータのうち、上述の所定の表記法によって記されている部分は、他の部分とは互いに別個の文言として扱う。

以上、この発明の実施の形態を説明したが、この発明にかかる音声合成装置は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。

例えば、音片データベース７を構成する外部の不揮発性メモリに接続されたパーソナルコンピュータに上述の収録音片データセット記憶部１０、音片データベース作成部１１及び圧縮部１２の動作を実行させるためのプログラムを格納した記録媒体（ＣＤ−ＲＯＭ、フレキシブルディスク等）から該プログラムをインストールすることにより、上述の処理を実行する音片登録ユニットＲを構成することができる。

そして、このプログラムを実行し音片登録ユニットＲとして機能するパーソナルコンピュータが、図１の音声合成システムの音片登録ユニットＲの動作に相当する処理として、図４に示す処理を行うようにすることもできる。
図４は、音片登録ユニットＲの機能を行うパーソナルコンピュータが実行する処理を示すフローチャートである。

すなわち、このパーソナルコンピュータが音片データベース７に音片を登録する場合、まず、収録音片データセット記憶部１０より、互いに対応付けられている表音文字列及び音片データを読み出し、又は、互いに対応付けられている表音文字列及び音片データを外部より取得して（図４、ステップＳ００１）、得られた音片データが表す音声のピッチ成分の周波数の時間変化と、発声スピードとを特定する（ステップＳ００２）。

なお、このパーソナルコンピュータは、ステップＳ００２における発声スピードの特定は、例えば、この音片データのサンプル数を数えることにより行えばよい。
また、ピッチ成分の周波数の時間変化は、例えば、この音片データにケプストラム解析を施すことにより特定すればよい。具体的には、例えば、音片データが表す波形を時間軸上で多数の小部分へと区切り、得られたそれぞれの小部分のケプストラムを求め、このケプストラムの極大値を与える周波数のうちの最小値を、この小部分におけるピッチ成分の周波数として特定すればよい。なお、ピッチ成分の周波数の時間変化は、上述したように、例えば特開２００３−１０８１７２号公報に開示された手法に従って音片データをピッチ波形データへと変換してから、このピッチ波形データに基づいて特定するようにすると良好な結果が期待できる。

一方、このパーソナルコンピュータは、取得した音片データをエントロピー符号化することにより圧縮音片データを作成し（ステップＳ００３）、データ部ＤＡＴを構成するデータとして、音片データベース７の記憶領域に書き込む（ステップＳ００４）。

また、ステップＳ００４でこのパーソナルコンピュータは、書き込んだ圧縮音片データが表す音片の読みを示すものとしてステップＳ００１で取得した表音文字列を、音片読みデータとして音片データベース７の記憶領域に書き込む。
また、書き込んだ圧縮音片データの、音片データベース７の記憶領域内での先頭のアドレスを特定し、このアドレスを上述の（Ｂ）のデータとして音片データベース７の記憶領域に書き込む。
また、この圧縮音片データのデータ長を特定し、特定したデータ長を、（Ｃ）のデータとして音片データベース７の記憶領域に書き込む。
また、この圧縮音片データが表す音片の発声スピード及びピッチ成分の周波数の時間変化を特定した結果を示すデータを生成し、スピード初期値データ及びピッチ成分データとして音片データベース７の記憶領域に書き込む。

また、パーソナルコンピュータに上述の言語処理部１、一般単語辞書２、ユーザ単語辞書３、規則合成処理部４、音片編集部５、検索部６、音片データベース７、伸長部８及び話速変換部９の動作を実行させるためのプログラムを格納した記録媒体から該プログラムをインストールすることにより、上述の処理を実行する本体ユニットＭ１を構成することができる。

そして、このプログラムを実行し本体ユニットＭ１として機能するパーソナルコンピュータが、図１の音声合成システムの本体ユニットＭ１の動作に相当する処理として、図５〜図７に示す処理を行うようにすることもできる。
図５は、本体ユニットＭ１の機能を行うパーソナルコンピュータがフリーテキストデータを取得した場合の処理を示すフローチャートである。
図６は、本体ユニットＭ１の機能を行うパーソナルコンピュータが配信文字列データを取得した場合の処理を示すフローチャートである。
図７は、本体ユニットＭ１の機能を行うパーソナルコンピュータが定型メッセージデータ及び発声スピードデータを取得した場合の処理を示すフローチャートである。

すなわち、このパーソナルコンピュータが、外部より、上述のフリーテキストデータを取得すると（図５、ステップＳ１０１）、このフリーテキストデータが表すフリーテキストに含まれるそれぞれの表意文字について、その読みを表す表音文字を、一般単語辞書２やユーザ単語辞書３を検索することにより特定し、この表意文字を、特定した表音文字へと置換する（ステップＳ１０２）。なお、このパーソナルコンピュータがフリーテキストデータを取得する手法は任意である。

そして、このパーソナルコンピュータは、フリーテキスト内の表意文字をすべて表音文字へと置換した結果を表す表音文字列が得られると、この表音文字列に含まれるそれぞれの表音文字について、当該表音文字が表す単位音声の波形を波形データベース４４より検索し、表音文字列に含まれるそれぞれの表音文字が表す音素を構成する素片の波形を表す圧縮波形データを索出し（ステップＳ１０３）、索出された圧縮波形データを、圧縮される前の素片波形データへと復元する（ステップＳ１０４）。

一方で、このパーソナルコンピュータは、フリーテキストデータに韻律予測の手法に基づいた解析を加えることにより、フリーテキストが表す音声の韻律を予測する（ステップＳ１０５）。そして、ステップＳ１０４で復元された素片波形データと、ステップＳ１０５における韻律の予測結果とに基づいて音声波形データを生成し（ステップＳ１０６）、得られた音声波形データを、表音文字列内での各表音文字の並びに従った順序で互いに結合し、合成音声データとして出力する（ステップＳ１０７）。なお、このパーソナルコンピュータが合成音声データを出力する手法は任意である。

また、このパーソナルコンピュータが、外部より、上述の配信文字列データを任意の手法で取得すると（図６、ステップＳ２０１）、この配信文字列データが表す表音文字列に含まれるそれぞれの表音文字について、上述のステップＳ１０３〜Ｓ１０４と同様に、当該表音文字が表す音素を構成する素片の波形を表す圧縮波形データを索出する処理、及び、索出された圧縮波形データを素片波形データへと復元する処理を行う（ステップＳ２０２）。

一方でこのパーソナルコンピュータは、配信文字列に韻律予測の手法に基づいた解析を加えることにより、配信文字列が表す音声の韻律を予測し（ステップＳ２０３）、ステップＳ２０２で復元された素片波形データと、ステップＳ２０３における韻律の予測結果とに基づいて音声波形データを生成し（ステップＳ２０４）、得られた音声波形データを、表音文字列内での各表音文字の並びに従った順序で互いに結合し、合成音声データとしてステップＳ１０７の処理と同様の処理により出力する（ステップＳ２０５）。

一方、このパーソナルコンピュータが、外部より、上述の定型メッセージデータ、照合レベルデータ及び発声スピードデータを任意の手法により取得すると（図７、ステップＳ３０１）、まず、定型メッセージデータに公知の手法による形態素解析を施すことにより、定型メッセージデータを構成する表意文字列を、表音文字列へと変換する（ステップＳ３０２）。

ただし、ステップＳ３０２での形態素解析に際して、このパーソナルコンピュータは、定型メッセージデータを構成する表意文字列中に所定の区切り用記号が含まれている場合、この区切り用記号の前及び後の表意文字列は、必ず互いに別個の単語に属するものとして扱う。
また、ステップＳ３０２でこのパーソナルコンピュータは、定型メッセージデータを構成する表意文字列中、所定の表記法で記述されている部分を、この表意文字列の他の部分とは区別される１個の単語をなすものとして扱う。

次に、このパーソナルコンピュータは、ステップＳ３０２の処理で得られた表音文字列に合致する表音文字列が対応付けられている圧縮音片データをすべて索出する（ステップＳ３０３）。

また、ステップＳ３０３では、該当する圧縮音片データに対応付けられている上述の音片読みデータ、スピード初期値データ及びピッチ成分データも索出する。なお、１個の音片につき複数の圧縮音片データが該当する場合は、該当する圧縮音片データすべてを索出する。一方、圧縮音片データを索出できなかった音片があった場合は、上述の欠落部分識別データを生成する。

次に、このパーソナルコンピュータは、索出された圧縮音片データを、圧縮される前の素片音片データへと復元する（ステップＳ３０４）。そして、復元された音片データを、上述の話速変換部９が行う処理と同様の処理により変換して、当該音片データが表す音片の時間長を、発声スピードデータが示すスピードに合致させる（ステップＳ３０５）。なお、発声スピードデータが供給されていない場合は、復元された音片データを変換しなくてもよい。

次に、このパーソナルコンピュータは、定型メッセージデータが表す定型メッセージに韻律予測の手法に基づいた解析を加えることにより、この定型メッセージの韻律を予測する（ステップＳ３０６）。そして、音片の時間長が変換された音片データのうちから、定型メッセージを構成する音片の波形に最も近い波形を表す音片データを、上述の一致音片決定部５２が行う処理と同様の処理を行うことにより、外部より取得した照合レベルデータが示す基準に従って、音片１個につき１個ずつ選択する（ステップＳ３０７）。

具体的には、ステップＳ３０７でこのパーソナルコンピュータは、例えば、上述した（１）〜（３）の条件に従って音片データを特定する。すなわち、照合レベルデータの値が「１」である場合は、定型メッセージ内の音片と読みが合致する音片データをすべて、定型メッセージ内の音片の波形を表しているとみなす。また、照合レベルデータの値が「２」である場合は、読みを表す表音文字が合致し、更に、音片データのピッチ成分の周波数の時間変化を表すピッチ成分データの内容が定型メッセージに含まれる音片のアクセントの予測結果に合致する場合に限り、この音片データが定型メッセージ内の音片の波形を表しているとみなす。また、照合レベルデータの値が「３」である場合は、読みを表す表音文字及びアクセントが合致し、更に、音片データが表す音声の鼻濁音化や無声化の有無が、定型メッセージの韻律の予測結果に合致している場合に限り、この音片データが定型メッセージ内の音片の波形を表しているとみなす。
なお、照合レベルデータが示す基準に合致する音片データが１個の音片につき複数あった場合は、これら複数の音片データを、設定した条件より厳格な条件に従って１個に絞り込むものとする。また、照合レベルデータの値に相当する条件を満たす音片データを選択できない音片があった場合は、該当する音片を、圧縮音片データを索出できなかった音片として扱うことと決定し、例えば欠落部分識別データを生成するものとする。

一方、このパーソナルコンピュータは、欠落部分識別データを生成した場合、欠落部分識別データが示す音片の読みを表す表音文字列を定型メッセージデータより抽出し、この表音文字列につき、音素毎に、配信文字列データが表す表音文字列と同様に扱って上述のステップＳ２０２〜Ｓ２０４の処理と同様の処理を行うことにより、この表音文字列内の各表音文字が示す音声の波形を表す音声波形データを生成する（ステップＳ３０８）。
ただし、ステップＳ３０８でこのパーソナルコンピュータは、ステップＳ２０３の処理に相当する処理を行う代わりに、ステップＳ３０６における韻律予測の結果を用いて音声波形データを生成するようにしてもよい。

次に、このパーソナルコンピュータは、上述の出力合成部５４が行う処理と同様の処理を行うことにより、ステップＳ３０８で生成された音声波形データに含まれる素片波形データの個数を調整し、当該音声波形データが表す音声の時間長を、ステップＳ３０７で選択された音片データが表す音片の発声スピードと整合するようにする（ステップＳ３０９）。

すなわち、ステップＳ３０９でこのパーソナルコンピュータは、例えば、ステップＳ３０７で選択された音片データに含まれる上述の各区間が表す音素の時間長が元の時間長に対して増減した比率を特定し、ステップＳ３０８で生成された音声波形データが表す音声の時間長が当該比率で変化するように、各音声波形データ内の素片波形データの個数を増加あるいは減少させればよい。なお、当該比率を特定するため、例えば、ステップＳ３０７で選択された音片データ（発声スピード変換後の音片データ）と、当該音片データがステップＳ３０５で変換を受ける前の元の音片データとの内で互いに同一の音声を表す区間を１個ずつ特定し、発声スピード変換後の音片データ内で特定した区間内に含まれる素片の個数が、元の音片データ内で特定した区間内に含まれる素片の個数に対して増減した比率を、音声の時間長の増減の比率として特定するようにすればよい。なお、音声波形データが表す音声の時間長が、発声スピード変換後の音片データが表す音片のスピードに既に整合している場合、このパーソナルコンピュータは音声波形データ内の素片波形データの個数を調整する必要はない。

そして、このパーソナルコンピュータは、ステップＳ３０９の処理を経た音声波形データと、ステップＳ３０７で選択した音片データとを、定型メッセージデータが示す定型メッセージ内での表音文字列の並びに従った順序で互いに結合し、合成音声を表すデータとして出力する（ステップＳ３１０）。

また、パーソナルコンピュータに図３の言語処理部１、一般単語辞書２、ユーザ単語辞書３、規則合成処理部４、音片編集部５、検索部６、音片データベース７、伸長部８及び話速変換部９の動作を実行させるためのプログラムを格納した記録媒体から該プログラムをインストールすることにより、上述の処理を実行する本体ユニットＭ２を構成することができる。

そして、このプログラムを実行し本体ユニットＭ２として機能するパーソナルコンピュータが、図１の音声合成システムの本体ユニットＭ２の動作に相当する処理として、図５及び図６に示す、本体ユニットＭ１の動作に相当する処理と実質的に同一の処理や、図８に示す処理を行うようにすることもできる。
図８は、本体ユニットＭ２の機能を行うパーソナルコンピュータが定型メッセージデータ及び発声スピードデータを取得した場合の処理を示すフローチャートである。

このパーソナルコンピュータが、外部より、上述の定型メッセージデータ及び発声スピードデータを任意の手法により取得すると（図８、ステップＳ４０１）、まず、取得した定型メッセージデータが表す定型メッセージ内の各表音文字列のうち、音片データベース７に音片データが登録されているにもかかわらず、後述のステップＳ４０８で音片データが選択される見込みが著しく低い音片の読みを表すものを特定し（ステップＳ４０２）、特定した表音文字列中に区切り用記号を挿入する（ステップＳ４０３）。

なお、ステップＳ４０２で該当する表音文字列を特定する手法は任意であり、例えば、このパーソナルコンピュータは、上述の一致音片決定部５２が記憶するものと実質的に同一の分割対象音片データを記憶しておき、定型メッセージデータが表す定型メッセージ内の各表音文字列を検索キーとしてこの分割対象音片データを検索し、索出された表音文字列を、ステップＳ４０８で音片データが選択される見込みが著しく低い音片の読みを表すものとして特定すればよい。また、このパーソナルコンピュータは、表意文字列を表す定型メッセージデータを入力してこれを表音文字列に変換し、この表音文字列内に、分割対象音片データと一致する部分が存在する場合には、変換前の表意文字列内で当該部分に相当する部分内に区切り用記号を挿入した後、挿入後の表意文字列について形態素解析を再度行うようにしてもよい。また、このパーソナルコンピュータは置換対象音片データ及び置換部分指定データを記憶していてもよく、この場合、このパーソナルコンピュータは、入力した定型メッセージデータを入力して、この表意文字列内に、置換対象音片データと一致する音片を表す部分が存在する場合には、当該部分中、置換部分指定データが指定する部分を、他の部分と異なる音片に対応する単語であることを示す表記法に置換してから、形態素解析を施すようにしてもよい。

また、ステップＳ４０３で区切り用記号を挿入する箇所を決定する基準は任意であり、例えば、このパーソナルコンピュータは、定型メッセージデータに形態素解析を施し、当該形態素解析の結果特定された文節の境界に、区切り用記号を挿入するようにすればよい。

そして、このパーソナルコンピュータは、定型メッセージに含まれる表音文字列（ただし、区切り用記号を挿入された表音文字列については、当該区切り用記号により区切られて形成される、当該表音文字列の各部分）を、上述のステップＳ３０２の処理で得られた表音文字列と同一に扱い、ステップＳ３０３〜Ｓ３１０の処理と実質的に同一の処理を行うことにより、合成音声を表すデータを出力する（ステップＳ４０４〜Ｓ４１１）。ただし、このパーソナルコンピュータは、表音文字列のうち、他の部分と異なる音片に対応する単語であることを示す表記法により表記されている部分は、他の部分と異なる音片に属するものとして扱う。

なお、パーソナルコンピュータに本体ユニットＭ１、本体ユニットＭ２又は音片登録ユニットＲの機能を行わせるプログラムは、例えば、通信回線の掲示板（ＢＢＳ）にアップロードし、これを通信回線を介して配信してもよく、また、これらのプログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調してこれらのプログラムを復元するようにしてもよい。
そして、これらのプログラムを起動し、ＯＳの制御下に、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。

なお、ＯＳが処理の一部を分担する場合、あるいは、ＯＳが本願発明の１つの構成要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラムを格納してもよい。この場合も、この発明では、その記録媒体には、コンピュータが実行する各機能又はステップを実行するためのプログラムが格納されているものとする。

この発明の第１の実施の形態に係る音声合成システムの構成を示すブロック図である。音片データベースのデータ構造を模式的に示す図である。この発明の第２の実施の形態に係る音声合成システムの構成を示すブロック図である。図１の音片登録ユニットの機能を行うパーソナルコンピュータが実行する処理を示すフローチャートである。図１の本体ユニットの機能を行うパーソナルコンピュータがフリーテキストデータを取得した場合の処理を示すフローチャートである。図１の本体ユニットの機能を行うパーソナルコンピュータが配信文字列データを取得した場合の処理を示すフローチャートである。図１の本体ユニットの機能を行うパーソナルコンピュータが定型メッセージデータ及び発声スピードデータを取得した場合の処理を示すフローチャートである。図３の本体ユニットの機能を行うパーソナルコンピュータが定型メッセージデータ及び発声スピードデータを取得した場合の処理を示すフローチャートである。

符号の説明

Ｍ１，Ｍ２本体ユニット
１言語処理部
２一般単語辞書
３ユーザ単語辞書
４１音響処理部
４２検索部
４３，８伸長部
４４波形データベース
５音片編集部
５１形態素解析部
５２一致音片決定部
５３韻律予測部
５４出力合成部
６検索部
７音片データベース
９話速変換部
Ｒ音片登録ユニット
１０収録音片データセット記憶部
１１音片データベース作成部
１２圧縮部
ＨＤＲヘッダ部
ＩＤＸインデックス部
ＤＩＲディレクトリ部
ＤＡＴデータ部

Claims

文章を表す文章情報を取得する文章情報取得手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
文章を表す文章情報を取得する文章情報取得手段と、
各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、より構成されており、
前記選択手段は、取得した前記文章情報のうち、所定の区切り用記号が挿入されることにより分割されて形成される連続した複数の区間を、互いに別個の文言を表すものとして扱う、
ことを特徴とする音声合成装置。
文章を表す文章情報を取得する文章情報取得手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、より構成されており、
前記選択手段は、取得した前記文章情報のうち、所定の表記法により表記されている区間を、隣接する他の区間とは別個の文言を表すものとして扱う、
ことを特徴とする音声合成装置。
文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間を、当該条件に合致しない文言を表す複数の部分へと分割する処理を行う文章分割手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、より構成される、
ことを特徴とする音声合成装置。
前記文章分割手段は、前記選択手段により選択される可能性が一定程度に達しない音片データの読みを表す文言を、前記条件に合致する文言として扱うものである、
ことを特徴とする請求項３に記載の音声合成装置。
前記文章分割手段は、前記文章情報取得手段が取得した文章を構成する文言のうち、その一部の読みが前記音片記憶手段に記憶される音片と一致し、且つ、当該所定区間全体では読みが一致する音片が前記音片記憶手段に記憶されていない文言を、前記条件に合致する文言として扱うものである、
ことを特徴とする請求項３に記載の音声合成装置。
前記文章分割手段は、前記区間内に区切り用の記号を挿入することにより、前記区間を分割するものである、
ことを特徴とする請求項３、４又は５に記載の音声合成装置。
前記文章分割手段は、前記条件を示す条件データを書き換え可能に記憶し、前記文章情報のうち、当該条件データが示す条件に合致する文言を表す区間を分割するものである、
ことを特徴とする請求項３乃至６のいずれか１項に記載の音声合成装置。
文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間内の所定部分の表記を、所定の表記法による表記へと置換する処理を行う文章置換手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、より構成されており、
前記選択手段は、前記処理を経た文章情報のうち、前記表記法により表記されている部分については、隣接する他の部分とは別個の文言を表すものとして扱う、
ことを特徴とする音声合成装置。
前記文章置換手段は、前記選択手段により選択される可能性が一定程度に達しない音片データの読みを表す文言を、前記条件に合致する文言として扱うものである、
ことを特徴とする請求項８に記載の音声合成装置。
前記文章置換手段は、前記文章情報取得手段が取得した文章を構成する文言のうち、その一部の読みが前記音片記憶手段に記憶される音片と一致し、且つ、当該所定区間全体では読みが一致する音片が前記音片記憶手段に記憶されていない文言を、前記条件に合致する文言として扱うものである、
ことを特徴とする請求項８に記載の音声合成装置。
前記文章置換手段は、前記条件を示す条件データを書き換え可能に記憶し、前記文章情報のうち、当該条件データが示す条件に合致する文言を表す区間内の所定部分の表記を、前記表記法による表記へと置換するものである、
ことを特徴とする請求項８、９又は１０に記載の音声合成装置。
取得した前記文章情報が表す文章を構成する文言のうち、前記選択手段が音片データを選択できなかった文言について、当該文言を読み上げる音声の波形を表す音声データを合成する欠落部分合成手段を更に備え、
前記合成手段は、前記選択手段が選択した音片データ及び前記欠落部分合成手段が合成した音声データを互いに結合することにより、合成音声を表すデータを生成する、
ことを特徴とする請求項１乃至１１のいずれか１項に記載の音声合成装置。
前記音片記憶手段は、音片データが表す音片のピッチの時間変化を表す韻律データを、当該音片データに対応付けて記憶しており、
前記選択手段は、各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通しており、且つ、対応付けられている韻律データが表すピッチの時間変化が韻律の予測結果に最も近い音片データを選択する、
ことを特徴とする請求項１乃至１２のいずれか１項に記載の音声合成装置。
文章を表す文章情報を取得する文章情報取得ステップと、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶ステップと、
各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択ステップと、
前記選択ステップで選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成ステップと、より構成されており、
前記選択ステップでは、取得した前記文章情報のうち、所定の区切り用記号が挿入されることにより分割されて形成される連続した複数の区間を、互いに別個の文言を表すものとして扱う、
ことを特徴とする音声合成方法。
文章を表す文章情報を取得する文章情報取得ステップと、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶ステップと、
各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択ステップと、
前記選択ステップで選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成ステップと、より構成されており、
前記選択ステップでは、取得した前記文章情報のうち、所定の表記法により表記されている区間を、隣接する他の区間とは別個の文言を表すものとして扱う、
ことを特徴とする音声合成方法。
文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間を、当該条件に合致しない文言を表す複数の部分へと分割する処理を行う文章分割ステップと、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶ステップと、
各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択ステップと、
前記選択ステップで選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成ステップと、より構成される、
ことを特徴とする音声合成方法。
文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間内の所定部分の表記を、所定の表記法による表記へと置換する処理を行う文章置換ステップと、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶ステップと、
各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択ステップと、
前記選択ステップで選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成ステップと、より構成されており、
前記選択ステップでは、前記処理を経た文章情報のうち、前記表記法により表記されている部分については、隣接する他の部分とは別個の文言を表すものとして扱う、
ことを特徴とする音声合成方法。
コンピュータを、
文章を表す文章情報を取得する文章情報取得手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、して機能させるためのプログラムであって、
前記選択手段は、取得した前記文章情報のうち、所定の区切り用記号が挿入されることにより分割されて形成される連続した複数の区間を、互いに別個の文言を表すものとして扱う、
ことを特徴とするプログラム。
コンピュータを、
文章を表す文章情報を取得する文章情報取得手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、して機能させるためのプログラムであって、
前記選択手段は、取得した前記文章情報のうち、所定の表記法により表記されている区間を、隣接する他の区間とは別個の文言を表すものとして扱う、
ことを特徴とするプログラム。
コンピュータを、
文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間を、当該条件に合致しない文言を表す複数の部分へと分割する処理を行う文章分割手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、
して機能させるためのプログラム。
コンピュータを、
文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間内の所定部分の表記を、所定の表記法による表記へと置換する処理を行う文章置換手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、して機能させるためのプログラムであって、
前記選択手段は、前記処理を経た文章情報のうち、前記表記法により表記されている部分については、隣接する他の部分とは別個の文言を表すものとして扱う、
ことを特徴とするプログラム。