JP2006145690A - 音声合成装置、音声合成方法及びプログラム - Google Patents

音声合成装置、音声合成方法及びプログラム Download PDF

Info

Publication number
JP2006145690A
JP2006145690A JP2004333427A JP2004333427A JP2006145690A JP 2006145690 A JP2006145690 A JP 2006145690A JP 2004333427 A JP2004333427 A JP 2004333427A JP 2004333427 A JP2004333427 A JP 2004333427A JP 2006145690 A JP2006145690 A JP 2006145690A
Authority
JP
Japan
Prior art keywords
sentence
data
speech
representing
sound piece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004333427A
Other languages
English (en)
Inventor
Yoshisato Miyamura
佳里 宮村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kenwood KK
Original Assignee
Kenwood KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kenwood KK filed Critical Kenwood KK
Priority to JP2004333427A priority Critical patent/JP2006145690A/ja
Publication of JP2006145690A publication Critical patent/JP2006145690A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】 表意文字列全体と読みが一致する音声データを適宜補充する場合に比べて簡単な構成で自然な合成音声を高速あるいは確実に得るための音声合成装置等を提供することである。
【解決手段】 定型メッセージを表すデータが供給されると、音片編集部5は、このデータのうち所定の条件に合致する文言を表す区間を分割する。そして、分割後の定型メッセージ内の音片と読みが合致する音片の音片データを音片データベース7から索出させ、発声スピードを変換させる。一方で音片編集部5は定型メッセージの韻律予測を行い、索出された音片データのうちから定型メッセージ内の各音片に最もよく合致するものを1個ずつ、韻律予測結果に基づいて選択する。選択できなかった音片については音響処理部41に単位音声毎の波形を表す波形データを供給させる。そして、選択した音片データや、音響処理部41に供給させた波形データを互いに結合して、合成音声を表すデータを生成する。
【選択図】 図1

Description

この発明は、音声合成装置、音声合成方法及びプログラムに関する。
音声を合成する手法として、録音編集方式と呼ばれる手法がある。録音編集方式は、駅の音声案内システムや、車載用のナビゲーション装置などに用いられている。
録音編集方式は、単語と、この単語を読み上げる音声を表す音声データとを対応付けておき、音声合成する対象の文章を単語に区切ってから、これらの単語に対応付けられた音声データを取得してつなぎ合わせる、という手法である(例えば、特許文献1参照)。音声合成する対象の文章が表意文字列として記述されている場合は、この表意文字列に形態素解析を施すことにより、この表意文字列を、単語毎に区切られた表音文字列へと変換する処理が行われることが通常である。
特開平10−49193号公報
しかし、形態素解析の際には、表意文字列が、実際には連続する複数の単語からなる語句が誤って1個の単語として扱われてしまう、という現象が起きることがある。例えば、「首都高速都心環状線を」という文字列が形態素解析される場合には、「首都高速都心環状線」が一つの名詞(単語)として認識されてしまい、結果として「シュトコウソクトシンカンジョウセンヲ」と読み上げる音声全体を表す音声データが必要になってしまうことがある。
このような表意文字列を読み上げる音声を合成するためには、このような表意文字列全体と読みが一致する音声データを適宜補充することも考えられるものの、複数の単語の多様な組み合わせに対応する音声データを逐一記憶するものとすると、音声データを記憶する記憶装置には膨大な記憶容量が必要となり、また、検索に要する時間も膨大なものとなる。
この発明は、上記実状に鑑みてなされたものであり、表意文字列全体と読みが一致する音声データを適宜補充する場合に比べて簡単な構成で自然な合成音声を高速あるいは確実に得るための音声合成装置、音声合成方法及びプログラムを提供することを目的とする。
上記目的を達成するため、この発明の第1の観点にかかる音声合成装置は、
文章を表す文章情報を取得する文章情報取得手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、より構成されており、
前記選択手段は、取得した前記文章情報のうち、所定の区切り用記号が挿入されることにより分割されて形成される連続した複数の区間を、互いに別個の文言を表すものとして扱う、
ことを特徴とする。
また、この発明の第2の観点にかかる音声合成装置は、
文章を表す文章情報を取得する文章情報取得手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、より構成されており、
前記選択手段は、取得した前記文章情報のうち、所定の表記法により表記されている区間を、隣接する他の区間とは別個の文言を表すものとして扱う、
ことを特徴とする。
また、この発明の第3の観点にかかる音声合成装置は、
文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間を、当該条件に合致しない文言を表す複数の部分へと分割する処理を行う文章分割手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、より構成される、
ことを特徴とする。
前記文章分割手段は、前記選択手段により選択される可能性が一定程度に達しない音片データの読みを表す文言を、前記条件に合致する文言として扱うものであってもよい。
前記文章分割手段は、前記文章情報取得手段が取得した文章を構成する文言のうち、その一部の読みが前記音片記憶手段に記憶される音片と一致し、且つ、当該所定区間全体では読みが一致する音片が前記音片記憶手段に記憶されていない文言を、前記条件に合致する文言として扱うものであってもよい。
前記文章分割手段は、前記区間内に区切り用の記号を挿入することにより、前記区間を分割するものであってもよい。
前記文章分割手段は、前記条件を示す条件データを書き換え可能に記憶し、前記文章情報のうち、当該条件データが示す条件に合致する文言を表す区間を分割するものであってもよい。
また、この発明の第4の観点にかかる音声合成装置は、
文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間内の所定部分の表記を、所定の表記法による表記へと置換する処理を行う文章置換手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、より構成されており、
前記選択手段は、前記処理を経た文章情報のうち、前記表記法により表記されている部分については、隣接する他の部分とは別個の文言を表すものとして扱う、
ことを特徴とする。
前記文章置換手段は、前記選択手段により選択される可能性が一定程度に達しない音片データの読みを表す文言を、前記条件に合致する文言として扱うものであってもよい。
前記文章置換手段は、前記文章情報取得手段が取得した文章を構成する文言のうち、その一部の読みが前記音片記憶手段に記憶される音片と一致し、且つ、当該所定区間全体では読みが一致する音片が前記音片記憶手段に記憶されていない文言を、前記条件に合致する文言として扱うものであってもよい。
前記文章置換手段は、前記条件を示す条件データを書き換え可能に記憶し、前記文章情報のうち、当該条件データが示す条件に合致する文言を表す区間内の所定部分の表記を、前記表記法による表記へと置換するものであってもよい。
前記音声合成装置は、取得した前記文章情報が表す文章を構成する文言のうち、前記選択手段が音片データを選択できなかった文言について、当該文言を読み上げる音声の波形を表す音声データを合成する欠落部分合成手段を更に備えていてもよく、
前記合成手段は、前記選択手段が選択した音片データ及び前記欠落部分合成手段が合成した音声データを互いに結合することにより、合成音声を表すデータを生成するものであってもよい。
前記音片記憶手段は、音片データが表す音片のピッチの時間変化を表す韻律データを、当該音片データに対応付けて記憶していてもよく、
前記選択手段は、各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通しており、且つ、対応付けられている韻律データが表すピッチの時間変化が韻律の予測結果に最も近い音片データを選択するものであってもよい。
また、この発明の第5の観点にかかる音声合成方法は、
文章を表す文章情報を取得する文章情報取得ステップと、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶ステップと、
各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択ステップと、
前記選択ステップで選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成ステップと、より構成されており、
前記選択ステップでは、取得した前記文章情報のうち、所定の区切り用記号が挿入されることにより分割されて形成される連続した複数の区間を、互いに別個の文言を表すものとして扱う、
ことを特徴とする。
また、この発明の第6の観点にかかる音声合成方法は、
文章を表す文章情報を取得する文章情報取得ステップと、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶ステップと、
各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択ステップと、
前記選択ステップで選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成ステップと、より構成されており、
前記選択ステップでは、取得した前記文章情報のうち、所定の表記法により表記されている区間を、隣接する他の区間とは別個の文言を表すものとして扱う、
ことを特徴とする。
また、この発明の第7の観点にかかる音声合成方法は、
文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間を、当該条件に合致しない文言を表す複数の部分へと分割する処理を行う文章分割ステップと、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶ステップと、
各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択ステップと、
前記選択ステップで選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成ステップと、より構成される、
ことを特徴とする。
また、この発明の第8の観点にかかる音声合成方法は、
文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間内の所定部分の表記を、所定の表記法による表記へと置換する処理を行う文章置換ステップと、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶ステップと、
各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択ステップと、
前記選択ステップで選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成ステップと、より構成されており、
前記選択ステップでは、前記処理を経た文章情報のうち、前記表記法により表記されている部分については、隣接する他の部分とは別個の文言を表すものとして扱う、
ことを特徴とする。
また、この発明の第9の観点にかかるプログラムは、
コンピュータを、
文章を表す文章情報を取得する文章情報取得手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、して機能させるためのプログラムであって、
前記選択手段は、取得した前記文章情報のうち、所定の区切り用記号が挿入されることにより分割されて形成される連続した複数の区間を、互いに別個の文言を表すものとして扱う、
ことを特徴とする。
また、この発明の第10の観点にかかるプログラムは、
コンピュータを、
文章を表す文章情報を取得する文章情報取得手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、して機能させるためのプログラムであって、
前記選択手段は、取得した前記文章情報のうち、所定の表記法により表記されている区間を、隣接する他の区間とは別個の文言を表すものとして扱う、
ことを特徴とする。
また、この発明の第11の観点にかかるプログラムは、
コンピュータを、
文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間を、当該条件に合致しない文言を表す複数の部分へと分割する処理を行う文章分割手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、
して機能させるためのものであることを特徴とする。
また、この発明の第12の観点にかかるプログラムは、
コンピュータを、
文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間内の所定部分の表記を、所定の表記法による表記へと置換する処理を行う文章置換手段と、
前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、して機能させるためのプログラムであって、
前記選択手段は、前記処理を経た文章情報のうち、前記表記法により表記されている部分については、隣接する他の部分とは別個の文言を表すものとして扱う、
ことを特徴とする。
この発明によれば、表意文字列全体と読みが一致する音声データを適宜補充する場合に比べて簡単な構成で自然な合成音声を高速あるいは確実に得るための音声合成装置、音声合成方法及びプログラムが実現される。
以下、音声合成システムを例とし、図面を参照して、この発明の実施の形態を説明する。
(第1の実施の形態)
まず、第1の実施の形態に係る音声合成システムを説明する。
図1は、この発明の第1の実施の形態に係る音声合成システムの構成を示す図である。図示するように、この音声合成システムは、本体ユニットM1と、音片登録ユニットRとにより構成されている。
本体ユニットM1は、言語処理部1と、一般単語辞書2と、ユーザ単語辞書3と、規則合成処理部4と、音片編集部5と、検索部6と、音片データベース7と、伸長部8と、話速変換部9とにより構成されている。
このうち、規則合成処理部4は、音響処理部41と、検索部42と、伸長部43と、波形データベース44とより構成されている。
また、音片編集部5は、形態素解析部51と、一致音片決定部52と、韻律予測部53と、出力合成部54とより構成されている。
言語処理部1、音響処理部41、検索部42、伸長部43、音片編集部5、検索部6、伸長部8及び話速変換部9は、いずれも、CPU(Central Processing Unit)やDSP(Digital Signal Processor)等のプロセッサや、このプロセッサが実行するためのプログラムを記憶するメモリなどより構成されており、それぞれ後述する処理を行う。
なお、言語処理部1、音響処理部41、検索部42、伸長部43、音片編集部5、検索部6、伸長部8及び話速変換部9の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。従って、例えば、伸長部43の機能を行うプロセッサが伸長部8の機能を行ってもよいし、1個のプロセッサが音響処理部41、検索部42及び伸長部43の機能を兼ねて行ってもよい。
一般単語辞書2は、PROM(Programmable Read Only Memory)やハードディスク装置等の不揮発性メモリより構成されている。一般単語辞書2には、表意文字(例えば、漢字など)を含む単語等と、この単語等の読みを表す表音文字(例えば、カナや発音記号など)とが、この音声合成システムの製造者等によって、あらかじめ互いに対応付けて記憶されている。
ユーザ単語辞書3は、EEPROM(Electrically Erasable/Programmable Read Only Memory)やハードディスク装置等のデータ書き換え可能な不揮発性メモリと、この不揮発性メモリへのデータの書き込みを制御する制御回路とにより構成されている。なお、プロセッサがこの制御回路の機能を行ってもよく、言語処理部1、音響処理部41、検索部42、伸長部43、音片編集部5、検索部6、伸長部8及び話速変換部9の一部又は全部の機能を行うプロセッサがユーザ単語辞書3の制御回路の機能を行うようにしてもよい。
ユーザ単語辞書3は、表意文字を含む単語等と、この単語等の読みを表す表音文字とを、ユーザの操作に従って外部より取得し、互いに対応付けて記憶する。ユーザ単語辞書3には、一般単語辞書2に記憶されていない単語等とその読みを表す表音文字とが格納されていれば十分である。
波形データベース44は、PROMやハードディスク装置等の不揮発性メモリより構成されている。波形データベース44には、表音文字と、この表音文字が表す音素を構成する素片(すなわち、1個の音素を構成する音声の波形1サイクル分(又はその他所定数のサイクル分)の音声)を表す素片波形データをエントロピー符号化して得られる圧縮波形データとが、この音声合成システムの製造者等によって、あらかじめ互いに対応付けて記憶されている。なお、エントロピー符号化される前の素片波形データは、例えば、PCM化されたデジタル形式のデータからなっていればよい。
音片データベース7は、PROMやハードディスク装置等の不揮発性メモリより構成されている。
音片データベース7には、例えば、図2に示すデータ構造を有するデータが記憶されている。すなわち、図示するように、音片データベース7に格納されているデータは、ヘッダ部HDR、インデックス部IDX、ディレクトリ部DIR及びデータ部DATの4種に分かれている。
なお、音片データベース7へのデータの格納は、例えば、この音声合成システムの製造者によりあらかじめ行われ、及び/又は、音片登録ユニットRが後述する動作を行うことにより行われる。
ヘッダ部HDRには、音片データベース7を識別するデータや、インデックス部IDX、ディレクトリ部DIR及びデータ部DATのデータ量、データの形式、著作権等の帰属などを示すデータが格納される。
データ部DATには、音片の波形を表す音片データをエントロピー符号化して得られる圧縮音片データが格納されている。
なお、音片とは、音声のうち音素1個以上を含む連続した1区間をいい、通常は単語1個分又は複数個分の区間からなる。音片は接続詞を含む場合もある。
また、エントロピー符号化される前の音片データは、上述の圧縮波形データの生成のためエントロピー符号化される前の波形データと同じ形式のデータ(例えば、PCM化されたデジタル形式のデータ)からなっていればよい。
ディレクトリ部DIRには、個々の圧縮音片データについて、
(A) この圧縮音片データが表す音片の読みを示す表音文字を表すデータ(音片読みデータ)、
(B) この圧縮音片データが格納されている記憶位置の先頭のアドレスを表すデータ、
(C) この圧縮音片データのデータ長を表すデータ、
(D) この圧縮音片データが表す音片の発声スピード(再生した場合の時間長)を表すデータ(スピード初期値データ)、
(E) この音片のピッチ成分の周波数の時間変化を表すデータ(ピッチ成分データ)、
が、互いに対応付けられた形で格納されている。(なお、音片データベース7の記憶領域にはアドレスが付されているものとする。)
なお、図2は、データ部DATに含まれるデータとして、読みが「サイタマ」である音片の波形を表す、データ量1410hバイトの圧縮音片データが、アドレス001A36A6hを先頭とする論理的位置に格納されている場合を例示している。(なお、本明細書及び図面において、末尾に“h”を付した数字は16進数を表す。)
なお、上述の(A)〜(E)のデータの集合のうち少なくとも(A)のデータ(すなわち音片読みデータ)は、音片読みデータが表す表音文字に基づいて決められた順位に従ってソートされた状態で(例えば、表音文字がカナであれば、五十音順に従って、アドレス降順に並んだ状態で)、音片データベース7の記憶領域に格納されている。
また、上述のピッチ成分データは、例えば、図示するように、音片のピッチ成分の周波数を音片の先頭からの経過時間の1次関数で近似した場合における、この1次関数の切片β及び勾配αの値を示すデータからなっていればよい。(勾配αの単位は例えば[ヘルツ/秒]であればよく、切片βの単位は例えば[ヘルツ]であればよい。)
また、ピッチ成分データには更に、圧縮音片データが表す音片が鼻濁音化されているか否か、及び、無声化されているか否かを表す図示しないデータも含まれているものとする。
インデックス部IDXには、ディレクトリ部DIRのデータのおおよその論理的位置を音片読みデータに基づいて特定するためのデータが格納されている。具体的には、例えば、音片読みデータがカナを表すものであるとして、カナ文字と、先頭1字がこのカナ文字であるような音片読みデータがどのような範囲のアドレスにあるかを示すデータ(ディレクトリアドレス)とが、互いに対応付けて格納されている。
なお、一般単語辞書2、ユーザ単語辞書3、波形データベース44、一致音片決定部52の不揮発性メモリ、及び音片データベース7の一部又は全部の機能を、単一の不揮発性メモリが行うようにしてもよい。
音片登録ユニットRは、図示するように、収録音片データセット記憶部10と、音片データベース作成部11と、圧縮部12とにより構成されている。なお、音片登録ユニットRは音片データベース7とは着脱可能に接続されていてもよく、この場合は、音片データベース7に新たにデータを書き込むときを除いては、音片登録ユニットRを本体ユニットM1から切り離した状態で本体ユニットM1に後述の動作を行わせてよい。
収録音片データセット記憶部10は、ハードディスク装置等のデータ書き換え可能な不揮発性メモリより構成されている。
収録音片データセット記憶部10には、音片の読みを表す表音文字と、この音片を人が実際に発声したものを集音して得た波形を表す音片データとが、この音声合成システムの製造者等によって、あらかじめ互いに対応付けて記憶されている。なお、この音片データは、例えば、PCM化されたデジタル形式のデータからなっていればよい。
音片データベース作成部11及び圧縮部12は、CPU等のプロセッサや、このプロセッサが実行するためのプログラムを記憶するメモリなどより構成されており、このプログラムに従って後述する処理を行う。
なお、音片データベース作成部11及び圧縮部12の一部又は全部の機能を単一のプロセッサが行うようにしてもよく、また、言語処理部1、音響処理部41、検索部42、伸長部43、音片編集部5、検索部6、伸長部8及び話速変換部9の一部又は全部の機能を行うプロセッサが音片データベース作成部11や圧縮部12の機能を更に行ってもよい。また、音片データベース作成部11や圧縮部12の機能を行うプロセッサが、収録音片データセット記憶部10の制御回路の機能を兼ねてもよい。
次に、この音声合成システムの動作を説明する。
(第1の実施の形態:音片登録ユニットの動作)
まず、音片登録ユニットRの動作を説明する。
音片データベース7に音片を登録する場合、まず、音片データベース作成部11は、収録音片データセット記憶部10より、互いに対応付けられている表音文字及び音片データを読み出し、この音片データが表す音声のピッチ成分の周波数の時間変化と、発声スピードとを特定する。
発声スピードの特定は、例えば、この音片データのサンプル数を数えることにより特定すればよい。
一方、ピッチ成分の周波数の時間変化は、例えば、この音片データにケプストラム解析を施すことにより特定すればよい。具体的には、例えば、音片データが表す波形を時間軸上で多数の小部分へと区切り、得られたそれぞれの小部分の強度を、元の値の対数(対数の底は任意)に実質的に等しい値へと変換し、値が変換されたこの小部分のスペクトル(すなわち、ケプストラム)を、高速フーリエ変換の手法(あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法)により求める。そして、このケプストラムの極大値を与える周波数のうちの最小値を、この小部分におけるピッチ成分の周波数として特定する。
なお、ピッチ成分の周波数の時間変化は、例えば、特開2003−108172号公報に開示された手法に従って音片データをピッチ波形データへと変換してから、このピッチ波形データに基づいて特定するようにすると良好な結果が期待できる。具体的には、音片データをフィルタリングしてピッチ信号を抽出し、抽出されたピッチ信号に基づいて、音片データが表す波形を単位ピッチ長の区間へと区切り、各区間について、ピッチ信号との相関関係に基づいて位相のずれを特定して各区間の位相を揃えることにより、音片データをピッチ波形信号へと変換すればよい。そして、得られたピッチ波形信号を音片データとして扱い、ケプストラム解析を行う等することにより、ピッチ成分の周波数の時間変化を特定すればよい。
一方、音片データベース作成部11は、収録音片データセット記憶部10より読み出した音片データを圧縮部12に供給する。
圧縮部12は、音片データベース作成部11より供給された音片データをエントロピー符号化して圧縮音片データを作成し、音片データベース作成部11に返送する。
音片データの発声スピード及びピッチ成分の周波数の時間変化を特定し、この音片データがエントロピー符号化され圧縮音片データとなって圧縮部12より返送されると、音片データベース作成部11は、この圧縮音片データを、データ部DATを構成するデータとして、音片データベース7の記憶領域に書き込む。
また、音片データベース作成部11は、書き込んだ圧縮音片データが表す音片の読みを示すものとして収録音片データセット記憶部10より読み出した表音文字を、音片読みデータとして音片データベース7の記憶領域に書き込む。
また、書き込んだ圧縮音片データの、音片データベース7の記憶領域内での先頭のアドレスを特定し、このアドレスを上述の(B)のデータとして音片データベース7の記憶領域に書き込む。
また、この圧縮音片データのデータ長を特定し、特定したデータ長を、(C)のデータとして音片データベース7の記憶領域に書き込む。
また、この圧縮音片データが表す音片の発声スピード及びピッチ成分の周波数の時間変化を特定した結果を示すデータを生成し、スピード初期値データ及びピッチ成分データとして音片データベース7の記憶領域に書き込む。
(第1の実施の形態:本体ユニットの動作)
次に、本体ユニットM1の動作を説明する。以下では、まず、言語処理部1が、この音声合成システムに音声を合成させる対象としてユーザが用意した、表意文字を含む文章(フリーテキスト)を記述したフリーテキストデータを外部から取得したとして説明する。
なお、言語処理部1がフリーテキストデータを取得する手法は任意であり、例えば、図示しないインターフェース回路を介して外部の装置やネットワークから取得してもよいし、図示しない記録媒体ドライブ装置にセットされた記録媒体(例えば、フレキシブルディスクやCD−ROMなど)から、この記録媒体ドライブ装置を介して読み取ってもよい。
また、言語処理部1の機能を行っているプロセッサが、自ら実行している他の処理で用いたテキストデータを、フリーテキストデータとして、言語処理部1の処理へと引き渡すようにしてもよい。
プロセッサが実行する当該他の処理としては、例えば、音声を表す音声データを取得し、この音声データに音声認識を施すことにより、この音声が表す語句を特定し、特定した語句に基づいて、この音声の発話者の要求の内容を特定して、特定した要求を満足させるために実行すべき処理を特定して実行するようなエージェント装置の機能をプロセッサに行わせるための処理などが考えられる。
フリーテキストデータを取得すると、言語処理部1は、このフリーテキストに含まれるそれぞれの表意文字について、その読みを表す表音文字を、一般単語辞書2やユーザ単語辞書3を検索することにより特定する。そして、この表意文字を、特定した表音文字へと置換する。そして、言語処理部1は、フリーテキスト内の表意文字がすべて表音文字へと置換した結果得られる表音文字列を、規則合成処理部4の音響処理部41へと供給する。
音響処理部41は、言語処理部1より表音文字列を供給されると、この表音文字列に含まれるそれぞれの表音文字について、当該表音文字が表す音素を構成する素片の波形を検索するよう、検索部42に指示する。また、音響処理部41は、この表音文字列を、音片編集部5の韻律予測部53に供給する。
検索部42は、この指示に応答して波形データベース44を検索し、この指示の内容に合致する圧縮波形データを索出する。そして、索出された圧縮波形データを伸長部43へと供給する。
伸長部43は、検索部42より供給された圧縮波形データを、圧縮される前の素片波形データへと復元し、検索部42へと返送する。検索部42は、伸長部43より返送された素片波形データを、検索結果として音響処理部41へと供給する。
一方、音響処理部41より表音文字列を供給された韻律予測部53は、この表音文字列に、例えば「藤崎モデル」や「ToBI(Tone and Break Indices)」等の韻律予測の手法に基づいた解析を加えることにより、この表音文字列が表す音声の韻律(アクセント、イントネーション、強勢、音素の時間長など)を予測し、予測結果を表す韻律予測データを生成する。そして、この韻律予測データを、音響処理部41に供給する。
音響処理部41は、検索部42より素片波形データを供給され、韻律予測部53より韻律予測データを供給されると、供給された素片波形データを用いて、言語処理部1が供給した表音文字列に含まれるそれぞれの表音文字が表す音声の波形を表す音声波形データを生成する。
具体的には、音響処理部41は、例えば、検索部42より供給された各々の素片波形データが表す素片により構成されている音素の時間長を、韻律予測部53より供給された韻律予測データに基づいて特定する。そして、特定した音素の時間長を、当該素片波形データが表す素片の時間長で除した値に最も近い整数を求め、当該素片波形データを、求めた整数に等しい個数分相互に結合することにより、音声波形データを生成すればよい。
なお、音響処理部41は、音声波形データが表す音声の時間長を韻律予測データに基づいて決定するのみならず、音声波形データを構成する素片波形データを加工して、音声波形データが表す音声が、当該韻律予測データが示す韻律に合致する強度やイントネーション等を有するようにしてもよい。
あるいは、波形データベース44が、同一の音素を構成するものであって互いに異なる強度及び/又はイントネーションを有する複数の素片を表す複数の圧縮波形データを記憶していてもよい。この場合、音響処理部41は、素片波形データを加工する代わりに、検索部42より供給された素片波形データのうち、韻律予測部53より供給された韻律予測データが示す韻律に合致する強度及びイントネーション等を有する素片を表すものを用いて、当該韻律予測データが示す韻律に合致する強度やイントネーション等を有する音声を表す音声波形データを生成するようにしてもよい。
あるいは、検索部42は、音響処理部41の指示の内容に合致する圧縮波形データのうち、韻律予測部53より供給された韻律予測データが示す韻律に合致する強度及びイントネーション等を有する素片を表すもののみを索出するようにしてもよい。
そして、音響処理部41は、生成された音声波形データを、言語処理部1より供給された表音文字列内での各表音文字の並びに従った順序で、音片編集部5の出力合成部54へと供給する。
出力合成部54は、音響処理部41より波形データを供給されると、この波形データを、音響処理部41より供給された順序で互いに結合し、合成音声を表すデータ(合成音声データ)として出力する。フリーテキストデータに基づいて合成されたこの合成音声は、規則合成方式の手法により合成された音声に相当する。
なお、出力合成部54が合成音声データを出力する手法は任意であり、例えば、図示しないD/A(Digital-to-Analog)変換器やスピーカを介して、この合成音声データが表す合成音声を再生するようにしてもよい。また、図示しないインターフェース回路を介して外部の装置やネットワークに送出してもよいし、図示しない記録媒体ドライブ装置にセットされた記録媒体へ、この記録媒体ドライブ装置を介して書き込んでもよい。また、出力合成部54の機能を行っているプロセッサが、自ら実行している他の処理へと、合成音声データを引き渡すようにしてもよい。
次に、音響処理部41が、外部より配信された、表音文字列を表すデータ(配信文字列データ)を取得したとする。(なお、音響処理部41が配信文字列データを取得する手法も任意であり、例えば、言語処理部1がフリーテキストデータを取得する手法と同様の手法で配信文字列データを取得すればよい。)
この場合、音響処理部41は、配信文字列データが表す表音文字列を、言語処理部1より供給された表音文字列と同様に扱う。この結果、配信文字列データが表す表音文字列に含まれる表音文字が表す音素を構成する素片を表す圧縮波形データが検索部42により索出され、圧縮される前の素片波形データが伸長部43により復元される。一方で、韻律予測部53により、配信文字列データが表す表音文字列に韻律予測の手法に基づいた解析が加えられ、この結果、この表音文字列が表す音声の韻律の予測結果を表す韻律予測データが生成される。そして音響処理部41が、配信文字列データが表す表音文字列に含まれるそれぞれの表音文字が表す音声の波形を表す音声波形データを、復元された各素片波形データと、韻律予測データとに基づいて生成し、出力合成部54は、生成された音声波形データを、配信文字列データが表す表音文字列内での各表音文字の並びに従った順序で互いに結合し、合成音声データとして出力する。配信文字列データに基づいて合成されたこの合成音声データも、規則合成方式の手法により合成された音声を表す。
なお、配信文字列データに基づいて合成音声データを合成する場合も、音響処理部41は、音声波形データが表す音声の時間長を韻律予測データに基づいて決定するのみならず、音声波形データを構成する素片波形データを加工して、音声波形データが表す音声が、当該韻律予測データが示す韻律に合致する強度やイントネーション等を有するようにしてもよい。あるいは、波形データベース44が、同一の音素を構成するものであって互いに異なる強度及び/又はイントネーションを有する複数の素片を表す複数の圧縮波形データを記憶していてもよい。この場合、音響処理部41は、素片波形データを加工する代わりに、検索部42より供給された素片波形データのうち、韻律予測部53より供給された韻律予測データが示す韻律に合致する強度及びイントネーション等を有する素片を表すものを用いて、当該韻律予測データが示す韻律に合致する強度やイントネーション等を有する音声を表す音声波形データを生成するようにしてもよい。あるいは、検索部42は、音響処理部41の指示の内容に合致する圧縮波形データのうち、韻律予測部53より供給された韻律予測データが示す韻律に合致する強度及びイントネーション等を有する素片を表すもののみを索出するようにしてもよい。
次に、音片編集部5が、定型メッセージデータ、発声スピードデータ、及び照合レベルデータを取得したとする。
なお、定型メッセージデータは、定型メッセージを表意文字列として表すデータであり、具体的には、例えば本体ユニットM1が、車両に登載されるナビゲーション装置を構成するものであれば、ナビゲーションの目的で当該ナビゲーション装置に発声させるべきメッセージ等を表すデータである。
また、発声スピードデータは、定型メッセージデータが表す定型メッセージの発声スピードの指定値(この定型メッセージを発声する時間長の指定値)を示すデータである。
照合レベルデータは、検索部6が行う後述の検索処理における検索条件を指定するデータであり、以下では「1」、「2」又は「3」のいずれかの値をとるものとし、「3」が最も厳格な検索条件を示すものとする。
また、一致音片決定部52が定型メッセージデータや発声スピードデータや照合レベルデータを取得する手法は任意であり、例えば、言語処理部1がフリーテキストデータを取得する手法と同様の手法で定型メッセージデータや発声スピードデータや照合レベルデータを取得すればよい。
定型メッセージデータ、発声スピードデータ、及び照合レベルデータが音片編集部5に供給されると、音片編集部5の形態素解析部51は、定型メッセージデータに公知の手法による形態素解析を施すことにより、定型メッセージデータを構成する表意文字列を、表音文字列へと置換する。そして、得られた表音文字列を一致音片決定部52へと供給する。
ただし、この形態素解析を施す際、形態素解析部51は、定型メッセージデータを構成する表意文字列中に所定の区切り用記号が含まれている場合、この区切り用記号の前及び後の表意文字列は、必ず互いに別個の単語に属するものとして扱う。
また、形態素解析部51は、定型メッセージデータを構成する表意文字列中、所定の表記法で記述されている部分(具体的には、例えば、表意文字列が漢字ひらがな混じり文より構成されている場合は、上述の「所定の表記法」にあたる表記法として、カタカナで記述されている部分)を、この表意文字列の他の部分とは区別される1個の単語をなすものとして扱う。
従って、定型メッセージデータの作成者は、実際には複数の単語からなるにもかかわらず形態素解析部51により誤って1個の単語として扱われてしまう見込みの大きい表意文字列が定型メッセージに含まれる場合、この表意文字列内の連続する2個の単語の境界に区切り用記号を挿入したり、必ず他の部分から区別して1個の単語として扱われるべき部分を所定の表記法で記述しておいたりすることにより、この表意文字列全体が誤って1個の単語として扱われてしまうことを防止できる。
具体的には、例えば、「首都高速都心環状線を」という表意文字列に対応する文字列が定形メッセージデータとして形態素解析部51に供給される場合を想定する。この際、定形メッセージの作成者は、当該「首都高速都心環状線を」という表意文字列を「首都高速」「都心環状線」「を」の3個の単語からなるものとして形態素解析部51に確実に認識させたい場合、当該「首都高速都心環状線を」という表意文字列については、定形メッセージデータとして、例えば「首都高速・都心環状線ヲ」という文字列が形態素解析部51に入力されるように予め表意文字列を定義しておく。つまり、「首都高速」という単語と「都心環状線」という単語の間に区切り用記号「・」を挿入し、また、「都心環状線」の後に続く助詞「を」をカタカナ表記で「ヲ」とする。上述の区切り用記号「・」は、これを挟んで前後する文字列(例えば「首都高速」及び「都心環状線」)が互いに異なる単語に属するものであって、両者はまとめて1個の単語(例えば「首都高速都心環状線」)として認識されてはならないものである、ということを意味する。また、カタカナ表記された部分「ヲ」は、カタカナ表記されたこの部分が、これに隣接する他の文字(「線」など)とは区別されて、1個の音片に対応する1個の単語をなすものであることを意味する。形態素解析部51は、入力された定形メッセージデータが「首都高速・都心環状線ヲ」という文字列だった場合、「首都高速」と「都心環状線ヲ」の間に挿入されている区切り用記号「・」を検出して、区切り用記号「・」を挟んで前後する「首都高速」「都心環状線ヲ」を一つの単語として扱わないことを決定する。また、カタカナ表記である部分「ヲ」を、その前にある単語(本例の場合「都心環状線」)から区別して一つの音片に対応する単語として扱うことを決定する。そして、形態素解析部51はこれらの前提の下に形態素解析を行い、その結果、例えば「首都高速」「都心環状線」という各文字列をそれぞれ1個の単語として認識すれば、「シュトコウソク」「トシンカンジョウセン」「ヲ」という各表音文字列を出力する。尚、形態素解析部51は、「、」「,」「…」「−」等の記号を区切り用記号として認識してもよく、この場合定型メッセージの作成者は、これらの記号を区切り用記号として用いて良い。また、形態素解析部51は、カタカナ表記された部分の代わりに例えば「『』」で囲まれた部分を1個の単語として認識してもよく、この場合定型メッセージの作成者は、1個の単語として認識させたい部分を「『』」で囲むようにして定型メッセージを定義すればよい。また、形態素解析部51が、一致音片決定部52に、表音文字列内で各音片に対応する単語がそれぞれどの部分であるか、あるいはどの部分が2個の単語の境界であるかを伝える態様は、一致音片決定部52が識別できる態様であれば任意である。表意文字列と同様に表音文字列を区切り用記号「・」や「/」等で区切って出力するようにしてもよいし、また一つの音片に対応する単語であることを示す識別符号データを別途付加して出力するようにしてもよい。
従来の形態素解析では、「首都高速都心環状線を」という定形メッセージデータが入力されると、「シュトコウソクトシンカンジョウセンヲ」という一続きの表音文字列として出力してしまい、結果として、音片データベース7の検索において表音文字列が「シュトコウソクトシンカンジョウセンヲ」と一致する音片データが存在するかが検索されることになる。従って、「首都高速」「都心環状線」それぞれを音片データとして有する場合であっても、一致する音片なしとして処理されてしまう。
一方、本実施の形態の形態素解析部51では、上述のように「首都高速・都心環状線ヲ」という定形メッセージデータの入力に対応して上述の処理を行うことによって、「シュトコウソク」「トシンカンジョウセン」「ヲ」の3個の単語を表すものとして表音文字列が出力される。したがって、後述する音片データの検索時に、一致する音片を索出する可能性を格段に高めることができる。
一致音片決定部52は、表音文字列を形態素解析部51より供給されると、この表音文字列に合致する表音文字列が対応付けられている圧縮音片データをすべて索出するよう、検索部6に指示する。
検索部6は、一致音片決定部52の指示に応答して音片データベース7を検索し、該当する圧縮音片データと、該当する圧縮音片データに対応付けられている上述の音片読みデータ、スピード初期値データ及びピッチ成分データとを索出し、索出された圧縮音片データを伸長部8へと供給する。複数の圧縮音片データが共通の表音文字ないし表音文字列に該当する場合も、該当する圧縮音片データすべてが、音声合成に用いられるデータの候補として索出される。一方、圧縮音片データを索出できなかった音片があった場合、検索部6は、該当する音片を識別するデータ(以下、欠落部分識別データと呼ぶ)を生成する。
伸長部8は、検索部6より供給された圧縮音片データを、圧縮される前の音片データへと復元し、検索部6へと返送する。検索部6は、伸長部8より返送された音片データと、索出された音片読みデータ、スピード初期値データ及びピッチ成分データとを、検索結果として話速変換部9へと供給する。また、欠落部分識別データを生成した場合は、この欠落部分識別データも話速変換部9へと供給する。
一方、一致音片決定部52は、話速変換部9に対し、話速変換部9に供給された音片データを変換して、当該音片データが表す音片の時間長を、音片編集部5に供給された発声スピードデータが示すスピードに合致するようにすることを指示する。
話速変換部9は、一致音片決定部52の指示に応答し、検索部6より供給された音片データを指示に合致するように変換して、一致音片決定部52に供給する。具体的には、例えば、検索部6より供給された音片データを個々の音素を表す区間へと区切り、得られたそれぞれの区間について、当該区間から、当該区間が表す音素を構成する素片を表す部分を特定して、特定された部分を(1個もしくは複数個)複製して当該区間内に挿入したり、又は、当該区間から当該部分を(1個もしくは複数個)除去することによって、当該区間の長さを調整することにより、この音片データ全体のサンプル数を、一致音片決定部52の指示したスピードに合致する時間長にすればよい。なお、話速変換部9は、各区間について、素片を表す部分を挿入又は除去する個数を、各区間が表す音素相互間の時間長の比率が実質的に変化しないように決定すればよい。こうすることにより、音素同士を単に結合して合成する場合に比べて、音声のより細かい調整が可能になる。
また、話速変換部9は、検索部6より供給された音片読みデータ及びピッチ成分データも一致音片決定部52に供給し、欠落部分識別データを検索部6より供給された場合は、更にこの欠落部分識別データも一致音片決定部52に供給する。
なお、発声スピードデータが一致音片決定部52に供給されていない場合、一致音片決定部52は、話速変換部9に対し、話速変換部9に供給された音片データを変換せずに一致音片決定部52に供給するよう指示すればよく、話速変換部9は、この指示に応答し、検索部6より供給された音片データをそのまま一致音片決定部52に供給すればよい。
一致音片決定部52は、話速変換部9より音片データ、音片読みデータ及びピッチ成分データを供給されると、供給された音片データのうちから、定型メッセージを構成する音片の波形に近似できる波形を表す音片データを、音片1個につき1個ずつ選択する。ただし、一致音片決定部52は、いかなる条件を満たす波形を定型メッセージの音片に近い波形とするかを、音片編集部5に供給された照合レベルデータに従って設定する。
具体的には、まず、一致音片決定部52は、例えば定型メッセージデータを変換して得られた表音文字列を韻律予測部53に供給し、韻律予測部53に、この表音文字列が表す定型メッセージの韻律を予測よう指示する。韻律予測部53はこの指示に従い、上述した韻律予測の手法に基づいた解析を加えることにより、この定型メッセージの韻律を予測し、予測結果を表す韻律予測データを生成して、一致音片決定部52に返送する。
韻律予測データを取得すると、一致音片決定部52は、例えば、
(1) 照合レベルデータの値が「1」である場合は、話速変換部9より供給された音片データ(すなわち、定型メッセージ内の音片と読みが合致する音片データ)をすべて、定型メッセージ内の音片の波形に近いものとして選択する。
(2) 照合レベルデータの値が「2」である場合は、(1)の条件(つまり、読みを表す表音文字の合致という条件)を満たし、更に、音片データのピッチ成分の周波数の時間変化を表すピッチ成分データの内容と定型メッセージに含まれる音片のアクセント(いわゆる韻律)の予測結果との間に所定量以上の強い相関がある場合(例えば、アクセントの位置の時間差が所定量以下である場合)に限り、この音片データが定型メッセージ内の音片の波形に近いものとして選択する。なお、定型メッセージ内の音片のアクセントの予測結果は、定型メッセージの韻律の予測結果より特定できるものであり、一致音片決定部52は、例えば、ピッチ成分の周波数が最も高いと予測されている位置をアクセントの予測位置であると解釈すればよい。一方、音片データが表す音片のアクセントの位置については、例えば、ピッチ成分の周波数が最も高い位置を上述のピッチ成分データに基づいて特定し、この位置をアクセントの位置であると解釈すればよい。また、韻律予測は、文章全体に対して行ってもよいし、文章を所定の単位に分割し、それぞれの単位に対して行ってもよい。
(3) 照合レベルデータの値が「3」である場合は、(2)の条件(つまり、読みを表す表音文字及びアクセントの合致という条件)を満たし、更に、音片データが表す音声の鼻濁音化や無声化の有無が、定型メッセージの韻律の予測結果に合致している場合に限り、この音片データが定型メッセージ内の音片の波形に近いものとして選択する。一致音片決定部52は、音片データが表す音声の鼻濁音化や無声化の有無を、話速変換部9より供給されたピッチ成分データに基づいて判別すればよい。
なお、一致音片決定部52は、自ら設定した条件に合致する音片データが1個の音片につき複数あった場合は、これら複数の音片データを、設定した条件より厳格な条件に従って1個に絞り込むものとする。
具体的には、例えば、設定した条件が照合レベルデータの値「1」に相当するものであって、該当する音片データが複数あった場合は、照合レベルデータの値「2」に相当する検索条件にも合致するものを選択し、なお複数の音片データが選択された場合は、選択結果のうちから照合レベルデータの値「3」に相当する検索条件にも合致するものを更に選択する、等の操作を行う。照合レベルデータの値「3」に相当する検索条件で絞り込んでなお複数の音片データが残る場合は、残ったものを任意の基準で1個に絞り込めばよい。
そして、一致音片決定部52は、照合レベルデータの値に相当する条件を満たすものとして選択した音片データを、出力合成部54へと供給する。
ただし、一致音片決定部52は、話速変換部9より供給された音片データのうちから、照合レベルデータの値に相当する条件を満たす音片データを選択できない音片があった場合、該当する音片を、検索部6が圧縮音片データを索出できなかった音片(つまり、上述の欠落部分識別データが示す音片)とみなして扱うことを決定するものとする。
一方、一致音片決定部52は、話速変換部9より欠落部分識別データも供給されている場合、又は、照合レベルデータの値に相当する条件を満たす音片データを選択できなかった音片があった場合には、欠落部分識別データが示す音片(照合レベルデータの値に相当する条件を満たす音片データを選択できなかった音片を含む)の読みを表す表音文字列を定型メッセージデータより抽出して音響処理部41に供給し、この音片の波形を合成するよう指示する。
指示を受けた音響処理部41は、一致音片決定部52より供給された表音文字列を、配信文字列データが表す表音文字列と同様に扱う。この結果、この表音文字列に含まれる表音文字が表す音素を構成する素片を表す圧縮波形データが検索部42により索出され、圧縮される前の素片波形データが伸長部43により復元される。一方で、韻律予測部53により、この表音文字列が表す音片の韻律の予測結果を表す韻律予測データが生成される。そして音響処理部41が、この表音文字列に含まれるそれぞれの表音文字が表す音声の波形を表す音声波形データを、復元された各素片波形データと、韻律予測データとに基づいて生成し、生成された音声波形データを、出力合成部54へと供給する。
なお、一致音片決定部52は、韻律予測部53が既に生成して一致音片決定部52に供給した韻律予測データのうち、欠落部分識別データが示す音片に相当する部分を音響処理部41に供給するようにしてもよく、この場合、音響処理部41は、改めて韻律予測部53に当該音片の韻律予測を行わせる必要はない。このようにすれば、音片等の細かい単位毎に韻律予測を行う場合に比べて、より自然な発話が可能になる。
出力合成部54は、一致音片決定部52より音片データを供給され、音響処理部41より、素片波形データより生成された音声波形データを供給されると、供給されたそれぞれの音声波形データに含まれる素片波形データの個数を調整することにより、当該音声波形データが表す音声の時間長を、一致音片決定部52より供給された音片データが表す音片の発声スピードと整合するようにする。
具体的には、出力合成部54は、例えば、一致音片決定部52より音片データに含まれる上述の各区間が表す音素の時間長が元の時間長に対して増減した比率を特定し、音響処理部41より供給された音声波形データが表す音素の時間長が当該比率で変化するように、各音声波形データ内の素片波形データの個数を増加あるいは減少させればよい。なお、出力合成部54は、当該比率を特定するため、例えば、一致音片決定部52が供給した音片データの生成に用いられた元の音片データを検索部6より取得し、これら2個の音片データ内で互いに同一の音素を表す区間を1個ずつ特定すればよい。そして、一致音片決定部52が供給した音片データ内で特定した区間内に含まれる素片の個数が、検索部6より取得した音片データ内で特定した区間内に含まれる素片の個数に対して増減した比率を、音素の時間長の増減の比率として特定するようにすればよい。なお、音声波形データが表す音素の時間長が、一致音片決定部52より供給された音片データが表す音片のスピードに既に整合している場合、出力合成部54は、音声波形データ内の素片波形データの個数を調整する必要はない。
そして、出力合成部54は、素片波形データの個数の調整が完了した音声波形データと、一致音片決定部52より供給された音片データとを、定型メッセージデータが示す定型メッセージ内での各音片ないし音素の並びに従った順序で互いに結合し、合成音声を表すデータとして出力する。
なお、話速変換部9より供給されたデータに欠落部分識別データが含まれていない場合は、音響処理部41に波形の合成を指示することなく直ちに、音片編集部5が選択した音片データを、定型メッセージデータが示す定型メッセージ内での表音文字列の並びに従った順序で互いに結合し、合成音声を表すデータとして出力すればよい。
以上説明した、この発明の実施の形態の音声合成システムでは、音素より大きな単位であり得る音片の波形を表す音片データが、韻律の予測結果に基づいて、録音編集方式により自然につなぎ合わせられ、定型メッセージを読み上げる音声が合成される。音片データベース7の記憶容量は、音素毎に波形を記憶する場合に比べて小さくでき、また、高速に検索できる。このため、この音声合成システムは小型軽量に構成することができ、また高速な処理にも追随できる。
また、実際には連続する複数の単語からなるにもかかわらず形態素解析の際誤って1個の単語として扱われてしまう見込みの大きい表意文字列は、この表意文字列内の連続する2個の単語の境界に区切り用記号を挿入しておいたり、必ず他の部分から区別して1個の単語として扱われるべき部分を所定の表記法で記述しておいたりすることにより、この表意文字列全体が誤って1個の単語として扱われてしまうことを防止できる。
従って、複数の単語の多様な組み合わせに対応する音声データを逐一記憶することなく、また、規則合成方式による合成を行う部分を最小限に抑え、簡単な構成で自然な合成音声を高速、確実に得ることができる。
一方、適切な音片データを選択することができなかった音片は、音素より小さな単位である素片を表す圧縮波形データを用いて、規則合成方式の手法に従って合成される。圧縮波形データが素片の波形を表すものであるため、波形データベース44の記憶容量は、圧縮波形データが音素の波形を表すものである場合に比べて小さくでき、また、高速に検索できる。このため、この音声合成システムは小型軽量に構成することができ、また高速な処理にも追随できる。
また、素片を用いて規則合成を行えば、音素を用いて規則合成を行う場合と異なり、音素の端の部分に現れる特殊な波形の影響を受けることなく音声合成を行うことができるため、少ない種類の素片で自然な音声を得ることができる。
すなわち、人が発声する音声では、先行する音素から後続の音素へと遷移する境界で、これらの音素双方の影響を受けた特殊な波形が現れることが知られており、一方、規則合成に用いられる音素は、採取した段階で既にその端部にこの特殊な波形を含んでいるため、音素を用いて規則合成を行う場合は、音素間の境界の波形の様々なパターンを再現可能とするために膨大な種類の音素を用意するか、あるいは、音素間の境界の波形が自然な音声とは異なった合成音声を合成することで満足する必要がある。しかし、素片を用いて規則合成を行う場合は、音素の端部以外の部分から素片を採取するようにすれば、音素間の境界の特殊な波形の影響をあらかじめ排除することができる。このため、膨大な種類の素片を用意することを要せず、自然な音声を得ることができる。
なお、この音声合成システムの構成は上述のものに限られない。
例えば、素片波形データはPCM形式のデータである必要はなく、データ形式は任意である。また、波形データベース44は素片波形データや音片データを必ずしもデータ圧縮された状態で記憶している必要はない。波形データベース44が素片波形データをデータ圧縮されていない状態で記憶している場合、本体ユニットM1は伸長部43を備えている必要はない。
また、一致音片決定部52は、特定の音片の韻律を表す韻律登録データをあらかじめ記憶し、定型メッセージにこの特定の音片が含まれている場合は、この韻律登録データが表す韻律を、韻律予測の結果として扱うようにしてもよい。
また、一致音片決定部52は、過去の韻律予測の結果を韻律登録データとして新たに記憶するようにしてもよい。
また、一致音片決定部52は、例えば、言語処理部1と共にフリーテキストデータを取得し、このフリーテキストデータが表すフリーテキストを読み上げる音声の少なくとも一部に合致する音片を表す音片データを、定型メッセージの音片データの選択処理と実質的に同一の処理を行うことによって選択して、音声の合成に用いてもよい。
この場合、音響処理部41は、一致音片決定部52が選択した音片については、この音片の素片の波形を表す圧縮波形データを検索部42に索出させなくてもよい。なお、一致音片決定部52は、音響処理部41が合成しなくてよい音片を音響処理部41に通知し、音響処理部41はこの通知に応答して、この音片を構成する単位音声の素片の波形の検索を中止するようにすればよい。
また、一致音片決定部52は、例えば、音響処理部41と共に配信文字列データを取得し、この配信文字列データが表す配信文字列を読み上げる音声の少なくとも一部に合致する音片を表す音片データを、定型メッセージの音片データの選択処理と実質的に同一の処理を行うことによって選択して、音声の合成に用いてもよい。この場合、音響処理部41は、一致音片決定部52が選択した音片データが表す音片については、この音片を構成する単位音声の素片の波形を表す圧縮波形データを検索部42に索出させなくてもよい。
また、波形データベース44が記憶する圧縮波形データは、必ずしも素片を表すものである必要はなく、例えば、波形データベース44が記憶する表音文字が表す単位音声の波形を表す単位音声波形データ、あるいは当該単位音声波形データをエントロピー符号化して得られるデータであってもよい。なお、単位音声は、規則合成方式の手法で用いられる程度の短い音声であり、具体的には、音素や、VCV(Vowel-Consonant-Vowel)音節などの単位で区切られる音声である。
波形データベース44が素片波形データ(又は素片波形データをエントロピー符号化して得られれる圧縮波形データ)に代えて単位音声の波形を表す単位音声波形データ(又は単位音声波形データをエントロピー符号化して得られれるデータ)を記憶している場合、音響処理部41は、素片波形データを用いて音声波形データを生成する代わりに、単位音声波形データを音声波形データとして扱い、言語処理部1又は一致音片決定部52より供給された表音文字列内での各表音文字の並びに従った順序で、単位音声波形データを出力合成部54へと供給すればよい。
また、波形データベース44は、素片の波形を表すデータと、音素の波形を表すデータとを、両方記憶していてもよい。この場合、音響処理部41は、配信文字列等に含まれる表音文字が表す音素のデータを検索部42に索出させ、該当する音素が索出されなかった表音文字について、当該表音文字が表す音素を構成する素片を表すデータを検索部42に索出させ、索出された、素片を表すデータを用いて、音素を表すデータを生成するようにしてもよい。
また、話速変換部9が、音片データが表す音片の時間長を、発声スピードデータが示すスピードに合致させる手法は任意である。従って、話速変換部9は、例えば、検索部6より供給された音片データをリサンプリングして、この音片データのサンプル数を、一致音片決定部52の指示した発声スピードに合致する時間長に相当する数へと増減させてもよい。
また、本体ユニットM1は必ずしも話速変換部9を備えている必要はない。本体ユニットM1が話速変換部9を備えない場合、韻律予測部53が発話スピードを予測し、一致音片決定部52は、検索部6が取得した音片データのうち、所定の判別条件下で発話スピードが韻律予測部53による予測の結果に合致するものを選択し、一方、発話スピードが当該予測の結果に合致しないものを選択の対象から除外するものとしてもよい。なお、音片データベース7は、音片の読みが共通で発話スピードが互いに異なる複数の音片データを記憶していてもよい。
また、出力合成部54が、音声波形データが表す音素の時間長を、音片データが表す音片の発声スピードと整合させる手法も任意である。従って、出力合成部54は、例えば、一致音片決定部52より音片データに含まれる各区間が表す音素の時間長が元の時間長に対して増減した比率を特定した上、音声波形データをリサンプリングして、音声波形データのサンプル数を、一致音片決定部52の指示した発声スピードと整合する時間長に相当する数へと増減させてもよい。
また、発声スピードは音片毎に異なっていてもよい。(従って、発声スピードデータは、音片毎に異なる発声スピードを指定するものであってもよい。)そして、出力合成部54は、互いに発声スピードが異なる2個の音片の間に位置する各音声の音声波形データについては、当該2個の音片の発声スピードを補間(例えば、直線補間)することにより、当該2個の音片の間にあるこれらの音声の発声スピードを決定し、決定した発声スピードに合致するように、これらの音声を表す音声波形データを変換するようにしてもよい。
また、出力合成部54は、音響処理部41より返送された音声波形データが、フリーテキストや配信文字列を読み上げる音声を構成する音声を表すものであっても、これらの音声波形データを変換して、これらの音声の時間長を、例えば一致音片決定部52に供給されている発声スピードデータが示すスピードに合致させるようにしてもよい。
また、上述の音声合成システムでは、例えば韻律予測部53が、文章全体に対して韻律予測(発話スピードの予測も含む)を行ってもよいし、所定の単位ごとに韻律予測を行ってもよい。また、文章全体に対して韻律予測を行った場合、読みが一致する音片があれば更に韻律が所定条件内で一致するか否かを判別し、一致していれば当該音片を採用するようにしてもよい。一致する音片が存在しなかった部分については、規則合成処理部4が素片を基に音声を生成するものとし、ただし、素片を基に合成する部分のピッチやスピードを、文章全体若しくは所定の単位ごとに行われた韻律予測の結果に基づいて調整するものとしてもよい。これによって、音片と、素片を基に生成する音声とを組み合わせて合成する場合でも、自然な発話が行われる。
また、言語処理部1は、言語処理部1に入力された文字列に、韻律予測とは別に公知の自然言語解析処理を行い、一致音片決定部52が、自然言語解析処理の結果に基づいて音片の選択を行ってもよい。これによって、単語(名詞や動詞等の品詞)毎に文字列を解釈した結果を用いて音片選択を行うことが可能になり、単に表音文字列と一致する音片を選択する場合に比べて自然な発話を行うことができる。
また、音片データベース作成部11は、マイクロフォン、増幅器、サンプリング回路、A/D(Analog-to-Digital)コンバータ及びPCMエンコーダなどを備えていてもよい。この場合、音片データベース作成部11は、収録音片データセット記憶部10より音片データを取得する代わりに、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングしてA/D変換した後、サンプリングされた音声信号にPCM変調を施すことにより、音片データを作成してもよい。
また、音片データベース作成部11は、図示しない記録媒体ドライブ装置にセットされた記録媒体から、この記録媒体ドライブ装置を介して、音片データベース7に追加する新たな圧縮音片データの材料となる音片データや表音文字列を読み取ってもよい。
また、音片登録ユニットRは、必ずしも収録音片データセット記憶部10を備えている必要はない。
また、ピッチ成分データは音片データが表す音片のピッチ長の時間変化を表すデータであってもよい。この場合、一致音片決定部52は、ピッチ長が最も短い位置(つまり、周波数がもっとも高い位置)をピッチ成分データに基づいて特定し、この位置をアクセントの位置であると解釈すればよい。
(第2の実施の形態)
次に、この発明の第2の実施の形態に係る音声合成システムを説明する。
図3は、この発明の第2の実施の形態に係る音声合成システムの構成を示す図である。図示するように、この音声合成システムは、本体ユニットM2と、音片登録ユニットRとにより構成されている。
本体ユニットM2は、音片編集部5が形態素解析部51を備えておらず、一方で、一致音片決定部52が、EEPROM(Programmable Read Only Memory)やハードディスク装置等からなる不揮発性メモリを備えている、という2点を除き、第1の実施の形態における本体ユニットM1と実質的に同一の構成を有している。なお、言語処理部1、規則合成処理部4、一致音片決定部52、韻律予測部53、出力合成部54、検索部6、伸長部8又は話速変換部9を構成するプロセッサが、形態素解析部51の機能を兼ねて行ってもよい。
また、第2の実施の形態における音片登録ユニットRは、第1の実施の形態におけるものと実質的に同一の構成を有する。
本体ユニットM2の一致音片決定部52は、分割対象音片データを、この音声合成システムの製造者等の操作により書き換え可能に記憶する。
分割対象音片データは、読みの一致する音片を表す音片データが音片データベース7に登録されているにもかかわらず、一致音片決定部52の行う後述の処理において、音声合成に用いる音片データが選択される可能性が一定程度に達しない見込みである音片の読みを表す表音文字列を含んだリストからなる。なお、分割対象音片データに含められる表音文字列は、製造者等があらかじめ経験的に決定すればよい。また、一致音片決定部52は、分割対象音片データを自ら備えることなく、音片データベース7に記憶されている音片データの一部を分割対象音片データとして取り扱うようにしてもよい。(以下、分割対象音片データは、一致音片決定部52、若しくは音片データベース7が記憶する表音文字列からなるものとして説明する。)
(第2の実施の形態:本体ユニットの動作)
次に、第2の実施の形態の音声合成ユニットの動作を説明する。
まず、第2の実施の形態の音声合成システムの音片登録ユニットRの動作は、第1の実施の形態におけるものと実質的に同一である。
また、本体ユニットM2がフリーテキストデータ又は配信文字列データを取得した場合の動作は、第1の実施の形態における本体ユニットM1の動作と実質的に同一である。
次に、本体ユニットM2の音片編集部5の一致音片決定部52が、定型メッセージデータ、発声スピードデータ、及び照合レベルデータを取得した場合の動作を説明する。ただし、第2の実施の形態における定型メッセージデータは、定型メッセージを表音文字列として表すデータであるものとする。
なお、一致音片決定部52が定型メッセージデータや発声スピードデータや照合レベルデータを取得する手法は任意であり、例えば、第1の実施の形態における形態素解析部51あるいは一致音片決定部52が定型メッセージデータ、発声スピードデータあるいは照合レベルデータを取得する手法と同様の手法で定型メッセージデータや発声スピードデータや照合レベルデータを取得すればよい。
一致音片決定部52が、定型メッセージデータ、発声スピードデータ、及び照合レベルデータを取得すると、一致音片決定部52は、定型メッセージに含まれる音片の読みを表す表音文字列に一致する表音文字列を、自己が記憶する分割対象音片データより検索する。そして、一致するものが索出された表音文字列中には、当該表音文字列を区切る位置を示す区切り用記号(例えば、読点)を挿入する。
なお、一致音片決定部52が、表音文字列中で区切り用記号を挿入する箇所を決定する基準は任意であり、例えば、区切り用記号を挿入する箇所は表音文字列毎に予め決定されていて、分割対象音片データが当該箇所を示すデータを含んでいるものとし、一致音片決定部52は、このデータを参照することによって、区切り用記号を挿入する箇所を決定するものとすればよい。
次に、一致音片決定部52は、定型メッセージに含まれる表音文字列(ただし、区切り用記号を挿入された表音文字列については、当該区切り用記号により区切られて形成される、当該表音文字列の各部分)に合致する表音文字列が対応付けられている圧縮音片データをすべて索出するよう、検索部6に指示する。
検索部6が一致音片決定部52より指示を受けて以降の本体ユニットM2の各部の動作は、第1の実施の形態の本体ユニットM1の各部の動作と実質的に同一であり、当該動作の結果、素片波形データの個数の調整が完了した音声波形データと、一致音片決定部52より供給された音片データとが、定型メッセージデータが示す定型メッセージ内での各音片ないし音素の並びに従った順序で互いに結合されて得られるデータが、出力合成部54より、合成音声を表すデータとして出力される。
ただし、一致音片決定部52は、定型メッセージデータが表す定型メッセージの韻律を予測するよう韻律予測部53に指示する際、第1の実施の形態における形態素解析部51が生成する表音文字列に代えて、定型メッセージデータをそのまま韻律予測部53に供給すればよい。
以上説明した、この発明の第2の実施の形態の音声合成システムでも、音素より大きな単位であり得る音片の波形を表す音片データが、韻律の予測結果に基づいて、録音編集方式により自然につなぎ合わせられ、定型メッセージを読み上げる音声が合成される。ただし、適切な音片データを選択することができなかった音片は、音素より小さな単位である素片を表す圧縮波形データを用いて、規則合成方式の手法に従って合成される。
また、本体ユニットM2は、読みが一致する音片データが音片データベース7に登録されているにもかかわらず、音片データが表す音片とわずかに異なる韻律を有しているなどの原因で、一致音片決定部52により選択される可能性が低い音片については、そのような音片の読みを表す表音文字列を、区切り用の記号により、より短い音片を表す複数の部分へと分割する。例えば、定形メッセージデータとして「シュトコウソクトシンカンジョウセンヲ」という表音文字列が一致音片決定部52に入力された場合、一致音片決定部52は、この表音文字列内で、分割対象音片データが示す表音文字列と一致する部分を検索する。分割対象音片データと一致する部分がある場合には、当該表音文字列内に、区切り用符号として、例えば読点や「・」を付加する。具体的には、分割対象音片データに「シュトコウソクトシカンジョウセン」があった場合、「シュトコウソク」と「トシンカンジョウセン」とが互いに異なる音片に属するものであることを識別するため「・」が挿入され、「シュトコウソク・トシンカンジョウセンヲ」とされる。
こうして得られる各部分を表す適切な音片は、分割前の表音文字列が表す音片に比べて容易に選択されることが期待できる。従って、音片データが有効に活用され、読み及び韻律予測結果の多様な組み合わせに対応する膨大な量の音声データを逐一記憶することなく検索時間も短くなり、また、聴覚上の自然さで劣る規則合成方式による合成を行う部分を最小限に抑え、簡単な構成で自然な合成音声を高速、確実に得ることができる。
なお、この発明の第2の実施の形態の音声合成システムの構成も、上述のものに限られない。
例えば、上述の第2の実施例の形態では、第1の実施の形態に示した形態素解析部51を備えないとして説明したが、第2の実施の形態の音声合成システムも、形態素解析部51を備えていてよい。この場合、形態素解析部51は、表意文字列を表す定型メッセージデータを取得し、この定型メッセージデータに形態素解析を施した結果得られた表音文字列内に、区切り用記号を挿入するようにしてもよい。具体的には、例えば形態素解析部51が、表意文字列「首都高速都心環状線を」を表す定形メッセージデータを取得したとして、この表意文字列を表音文字列に変換した後、当該表音文字列内に、分割対象音片データと一致する表音文字列が含まれるかを検索する。一致する表音文字列が存在した場合には、当該表音文字列内に区切り用記号を挿入して、一致音片決定部52に供給する。この結果、上述の「首都高速都心環状線を」という表意文字列は、例えば「シュトコウソク・トシンカンジョウセン・ヲ」という表音文字列へと変換されることになり、一致音片決定部52が検索部6に行わせる音片の検索において、対応する音片が索出される可能性を格段に高めることができる。
また、一致音片決定部52が記憶する分割対象音片データに含まれる表音文字列は任意の基準に従って選ばれていてよい。また、一致音片決定部52が記憶するデータは必ずしもリストの形式をとっている必要はなく、区切り用の記号を挿入される対象の表音文字列が満たすべき条件を指定する任意の形式のデータからなっていてよい。
また、形態素解析部51又は音片データベース7が、分割対象音片データを、この音声合成システムの製造者等の操作により書き換え可能に記憶してもよい。なお、音片データベース7が分割対象音片データを記憶する場合、音片データベース7は、音片読みデータとは別個のものとして分割対象音片データを記憶してもよいし、また、音片読みデータの一部を分割対象音片データとして兼用してもよい。
また、この音声合成システムは必ずしも分割対象音片データを記憶している必要はなく、定型メッセージ内の表音文字列が所定の条件(例えば、表音文字列の長さが所定長を超える、等)に合致するか否かを判別し、合致する表音文字列に区切り用の記号を挿入するものとしてもよい。
また、形態素解析部51又は音片データベース7が、置換対象音片データを、この音声合成システムの製造者等の操作により書き換え可能に記憶してもよい。
置換対象音片データは、ある部分の読みが一致する音片の音片データが音片データベース7に登録されているものの、他の部分の読みがいずれの音片データが表す音片とも合致しない等のため、音声合成に用いる音片データを一致音片決定部52が選択する可能性が著しく低い見込みである音片の読みを表す表音文字列と、この表音文字列のうち、この表音文字列の他の部分とは互いに別個の文言として扱われるべき箇所を指定する置換部分指定データとからなる。なお、置換対象音片データにより表される表音文字列も、製造者等があらかじめ経験的に決定すればよい。
なお、音片データベース7が置換対象音片データを記憶する場合、音片データベース7は、音片読みデータとは別個のものとして置換対象音片データを記憶してもよいし、また、音片読みデータの一部を置換対象音片データとして兼用してもよい。
置換対象音片データを記憶している場合、形態素解析部51は、定型メッセージデータが表す表意文字列を表音文字列へといったん変換した後、この表音文字列の一部に一致する表音文字列、及び当該表音文字列についての置換部分指定データを、置換対象音片データより検索する。そして、元の表意文字列内で、一致する表音文字列及び置換部分指定データが索出された部分に相当する部分のうち、索出された置換部分指定データが指定する箇所を、所定の表記法による文字列へと置換する。例えば、置換を受ける前の表音文字列が平仮名より構成されている場合は、該当する部分を平仮名から片仮名へと置換すればよい。
具体的には、「都心環状線を」という表意文字列が形態素解析部51に供給され、形態素解析部51がこれを「としんかんじょうせんを」という表音文字列に変換したとして、一方で、置換対象音片データとして例えば「としんかんじょうせんを」が登録されており、更にこの「としんかんじょうせんを」のうち「を」の箇所を指定する置換部分指定データが登録されている場合、形態素解析部51は、自己に供給された元の表意文字列「都心環状線を」のうち、置換部分指定データが示す助詞「を」をカタカナ表記「ヲ」に変換し、「都心環状線ヲ」を得る。以後、この音声合成システムは、「都心環状線」と「ヲ」を異なる音片に対応する単語とみなして、変換後の表意文字列に、第1の実施の形態におけるものと同様の形態素解析を施すことによって表音文字列を改めて生成し、一致音片決定部52により、この表音文字列に相当する音声を構成する音片を表すものとして用いる音片データが決定されて、この音片データを用いて音声が合成され、出力される。
つまり、検索部6は、一致音片決定部52の指示に応答して音片データベース7を検索する際、定型メッセージデータのうち、上述の所定の表記法によって記されている部分は、他の部分とは互いに別個の文言として扱う。
以上、この発明の実施の形態を説明したが、この発明にかかる音声合成装置は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。
例えば、音片データベース7を構成する外部の不揮発性メモリに接続されたパーソナルコンピュータに上述の収録音片データセット記憶部10、音片データベース作成部11及び圧縮部12の動作を実行させるためのプログラムを格納した記録媒体(CD−ROM、フレキシブルディスク等)から該プログラムをインストールすることにより、上述の処理を実行する音片登録ユニットRを構成することができる。
そして、このプログラムを実行し音片登録ユニットRとして機能するパーソナルコンピュータが、図1の音声合成システムの音片登録ユニットRの動作に相当する処理として、図4に示す処理を行うようにすることもできる。
図4は、音片登録ユニットRの機能を行うパーソナルコンピュータが実行する処理を示すフローチャートである。
すなわち、このパーソナルコンピュータが音片データベース7に音片を登録する場合、まず、収録音片データセット記憶部10より、互いに対応付けられている表音文字列及び音片データを読み出し、又は、互いに対応付けられている表音文字列及び音片データを外部より取得して(図4、ステップS001)、得られた音片データが表す音声のピッチ成分の周波数の時間変化と、発声スピードとを特定する(ステップS002)。
なお、このパーソナルコンピュータは、ステップS002における発声スピードの特定は、例えば、この音片データのサンプル数を数えることにより行えばよい。
また、ピッチ成分の周波数の時間変化は、例えば、この音片データにケプストラム解析を施すことにより特定すればよい。具体的には、例えば、音片データが表す波形を時間軸上で多数の小部分へと区切り、得られたそれぞれの小部分のケプストラムを求め、このケプストラムの極大値を与える周波数のうちの最小値を、この小部分におけるピッチ成分の周波数として特定すればよい。なお、ピッチ成分の周波数の時間変化は、上述したように、例えば特開2003−108172号公報に開示された手法に従って音片データをピッチ波形データへと変換してから、このピッチ波形データに基づいて特定するようにすると良好な結果が期待できる。
一方、このパーソナルコンピュータは、取得した音片データをエントロピー符号化することにより圧縮音片データを作成し(ステップS003)、データ部DATを構成するデータとして、音片データベース7の記憶領域に書き込む(ステップS004)。
また、ステップS004でこのパーソナルコンピュータは、書き込んだ圧縮音片データが表す音片の読みを示すものとしてステップS001で取得した表音文字列を、音片読みデータとして音片データベース7の記憶領域に書き込む。
また、書き込んだ圧縮音片データの、音片データベース7の記憶領域内での先頭のアドレスを特定し、このアドレスを上述の(B)のデータとして音片データベース7の記憶領域に書き込む。
また、この圧縮音片データのデータ長を特定し、特定したデータ長を、(C)のデータとして音片データベース7の記憶領域に書き込む。
また、この圧縮音片データが表す音片の発声スピード及びピッチ成分の周波数の時間変化を特定した結果を示すデータを生成し、スピード初期値データ及びピッチ成分データとして音片データベース7の記憶領域に書き込む。
また、パーソナルコンピュータに上述の言語処理部1、一般単語辞書2、ユーザ単語辞書3、規則合成処理部4、音片編集部5、検索部6、音片データベース7、伸長部8及び話速変換部9の動作を実行させるためのプログラムを格納した記録媒体から該プログラムをインストールすることにより、上述の処理を実行する本体ユニットM1を構成することができる。
そして、このプログラムを実行し本体ユニットM1として機能するパーソナルコンピュータが、図1の音声合成システムの本体ユニットM1の動作に相当する処理として、図5〜図7に示す処理を行うようにすることもできる。
図5は、本体ユニットM1の機能を行うパーソナルコンピュータがフリーテキストデータを取得した場合の処理を示すフローチャートである。
図6は、本体ユニットM1の機能を行うパーソナルコンピュータが配信文字列データを取得した場合の処理を示すフローチャートである。
図7は、本体ユニットM1の機能を行うパーソナルコンピュータが定型メッセージデータ及び発声スピードデータを取得した場合の処理を示すフローチャートである。
すなわち、このパーソナルコンピュータが、外部より、上述のフリーテキストデータを取得すると(図5、ステップS101)、このフリーテキストデータが表すフリーテキストに含まれるそれぞれの表意文字について、その読みを表す表音文字を、一般単語辞書2やユーザ単語辞書3を検索することにより特定し、この表意文字を、特定した表音文字へと置換する(ステップS102)。なお、このパーソナルコンピュータがフリーテキストデータを取得する手法は任意である。
そして、このパーソナルコンピュータは、フリーテキスト内の表意文字をすべて表音文字へと置換した結果を表す表音文字列が得られると、この表音文字列に含まれるそれぞれの表音文字について、当該表音文字が表す単位音声の波形を波形データベース44より検索し、表音文字列に含まれるそれぞれの表音文字が表す音素を構成する素片の波形を表す圧縮波形データを索出し(ステップS103)、索出された圧縮波形データを、圧縮される前の素片波形データへと復元する(ステップS104)。
一方で、このパーソナルコンピュータは、フリーテキストデータに韻律予測の手法に基づいた解析を加えることにより、フリーテキストが表す音声の韻律を予測する(ステップS105)。そして、ステップS104で復元された素片波形データと、ステップS105における韻律の予測結果とに基づいて音声波形データを生成し(ステップS106)、得られた音声波形データを、表音文字列内での各表音文字の並びに従った順序で互いに結合し、合成音声データとして出力する(ステップS107)。なお、このパーソナルコンピュータが合成音声データを出力する手法は任意である。
また、このパーソナルコンピュータが、外部より、上述の配信文字列データを任意の手法で取得すると(図6、ステップS201)、この配信文字列データが表す表音文字列に含まれるそれぞれの表音文字について、上述のステップS103〜S104と同様に、当該表音文字が表す音素を構成する素片の波形を表す圧縮波形データを索出する処理、及び、索出された圧縮波形データを素片波形データへと復元する処理を行う(ステップS202)。
一方でこのパーソナルコンピュータは、配信文字列に韻律予測の手法に基づいた解析を加えることにより、配信文字列が表す音声の韻律を予測し(ステップS203)、ステップS202で復元された素片波形データと、ステップS203における韻律の予測結果とに基づいて音声波形データを生成し(ステップS204)、得られた音声波形データを、表音文字列内での各表音文字の並びに従った順序で互いに結合し、合成音声データとしてステップS107の処理と同様の処理により出力する(ステップS205)。
一方、このパーソナルコンピュータが、外部より、上述の定型メッセージデータ、照合レベルデータ及び発声スピードデータを任意の手法により取得すると(図7、ステップS301)、まず、定型メッセージデータに公知の手法による形態素解析を施すことにより、定型メッセージデータを構成する表意文字列を、表音文字列へと変換する(ステップS302)。
ただし、ステップS302での形態素解析に際して、このパーソナルコンピュータは、定型メッセージデータを構成する表意文字列中に所定の区切り用記号が含まれている場合、この区切り用記号の前及び後の表意文字列は、必ず互いに別個の単語に属するものとして扱う。
また、ステップS302でこのパーソナルコンピュータは、定型メッセージデータを構成する表意文字列中、所定の表記法で記述されている部分を、この表意文字列の他の部分とは区別される1個の単語をなすものとして扱う。
次に、このパーソナルコンピュータは、ステップS302の処理で得られた表音文字列に合致する表音文字列が対応付けられている圧縮音片データをすべて索出する(ステップS303)。
また、ステップS303では、該当する圧縮音片データに対応付けられている上述の音片読みデータ、スピード初期値データ及びピッチ成分データも索出する。なお、1個の音片につき複数の圧縮音片データが該当する場合は、該当する圧縮音片データすべてを索出する。一方、圧縮音片データを索出できなかった音片があった場合は、上述の欠落部分識別データを生成する。
次に、このパーソナルコンピュータは、索出された圧縮音片データを、圧縮される前の素片音片データへと復元する(ステップS304)。そして、復元された音片データを、上述の話速変換部9が行う処理と同様の処理により変換して、当該音片データが表す音片の時間長を、発声スピードデータが示すスピードに合致させる(ステップS305)。なお、発声スピードデータが供給されていない場合は、復元された音片データを変換しなくてもよい。
次に、このパーソナルコンピュータは、定型メッセージデータが表す定型メッセージに韻律予測の手法に基づいた解析を加えることにより、この定型メッセージの韻律を予測する(ステップS306)。そして、音片の時間長が変換された音片データのうちから、定型メッセージを構成する音片の波形に最も近い波形を表す音片データを、上述の一致音片決定部52が行う処理と同様の処理を行うことにより、外部より取得した照合レベルデータが示す基準に従って、音片1個につき1個ずつ選択する(ステップS307)。
具体的には、ステップS307でこのパーソナルコンピュータは、例えば、上述した(1)〜(3)の条件に従って音片データを特定する。すなわち、照合レベルデータの値が「1」である場合は、定型メッセージ内の音片と読みが合致する音片データをすべて、定型メッセージ内の音片の波形を表しているとみなす。また、照合レベルデータの値が「2」である場合は、読みを表す表音文字が合致し、更に、音片データのピッチ成分の周波数の時間変化を表すピッチ成分データの内容が定型メッセージに含まれる音片のアクセントの予測結果に合致する場合に限り、この音片データが定型メッセージ内の音片の波形を表しているとみなす。また、照合レベルデータの値が「3」である場合は、読みを表す表音文字及びアクセントが合致し、更に、音片データが表す音声の鼻濁音化や無声化の有無が、定型メッセージの韻律の予測結果に合致している場合に限り、この音片データが定型メッセージ内の音片の波形を表しているとみなす。
なお、照合レベルデータが示す基準に合致する音片データが1個の音片につき複数あった場合は、これら複数の音片データを、設定した条件より厳格な条件に従って1個に絞り込むものとする。また、照合レベルデータの値に相当する条件を満たす音片データを選択できない音片があった場合は、該当する音片を、圧縮音片データを索出できなかった音片として扱うことと決定し、例えば欠落部分識別データを生成するものとする。
一方、このパーソナルコンピュータは、欠落部分識別データを生成した場合、欠落部分識別データが示す音片の読みを表す表音文字列を定型メッセージデータより抽出し、この表音文字列につき、音素毎に、配信文字列データが表す表音文字列と同様に扱って上述のステップS202〜S204の処理と同様の処理を行うことにより、この表音文字列内の各表音文字が示す音声の波形を表す音声波形データを生成する(ステップS308)。
ただし、ステップS308でこのパーソナルコンピュータは、ステップS203の処理に相当する処理を行う代わりに、ステップS306における韻律予測の結果を用いて音声波形データを生成するようにしてもよい。
次に、このパーソナルコンピュータは、上述の出力合成部54が行う処理と同様の処理を行うことにより、ステップS308で生成された音声波形データに含まれる素片波形データの個数を調整し、当該音声波形データが表す音声の時間長を、ステップS307で選択された音片データが表す音片の発声スピードと整合するようにする(ステップS309)。
すなわち、ステップS309でこのパーソナルコンピュータは、例えば、ステップS307で選択された音片データに含まれる上述の各区間が表す音素の時間長が元の時間長に対して増減した比率を特定し、ステップS308で生成された音声波形データが表す音声の時間長が当該比率で変化するように、各音声波形データ内の素片波形データの個数を増加あるいは減少させればよい。なお、当該比率を特定するため、例えば、ステップS307で選択された音片データ(発声スピード変換後の音片データ)と、当該音片データがステップS305で変換を受ける前の元の音片データとの内で互いに同一の音声を表す区間を1個ずつ特定し、発声スピード変換後の音片データ内で特定した区間内に含まれる素片の個数が、元の音片データ内で特定した区間内に含まれる素片の個数に対して増減した比率を、音声の時間長の増減の比率として特定するようにすればよい。なお、音声波形データが表す音声の時間長が、発声スピード変換後の音片データが表す音片のスピードに既に整合している場合、このパーソナルコンピュータは音声波形データ内の素片波形データの個数を調整する必要はない。
そして、このパーソナルコンピュータは、ステップS309の処理を経た音声波形データと、ステップS307で選択した音片データとを、定型メッセージデータが示す定型メッセージ内での表音文字列の並びに従った順序で互いに結合し、合成音声を表すデータとして出力する(ステップS310)。
また、パーソナルコンピュータに図3の言語処理部1、一般単語辞書2、ユーザ単語辞書3、規則合成処理部4、音片編集部5、検索部6、音片データベース7、伸長部8及び話速変換部9の動作を実行させるためのプログラムを格納した記録媒体から該プログラムをインストールすることにより、上述の処理を実行する本体ユニットM2を構成することができる。
そして、このプログラムを実行し本体ユニットM2として機能するパーソナルコンピュータが、図1の音声合成システムの本体ユニットM2の動作に相当する処理として、図5及び図6に示す、本体ユニットM1の動作に相当する処理と実質的に同一の処理や、図8に示す処理を行うようにすることもできる。
図8は、本体ユニットM2の機能を行うパーソナルコンピュータが定型メッセージデータ及び発声スピードデータを取得した場合の処理を示すフローチャートである。
このパーソナルコンピュータが、外部より、上述の定型メッセージデータ及び発声スピードデータを任意の手法により取得すると(図8、ステップS401)、まず、取得した定型メッセージデータが表す定型メッセージ内の各表音文字列のうち、音片データベース7に音片データが登録されているにもかかわらず、後述のステップS408で音片データが選択される見込みが著しく低い音片の読みを表すものを特定し(ステップS402)、特定した表音文字列中に区切り用記号を挿入する(ステップS403)。
なお、ステップS402で該当する表音文字列を特定する手法は任意であり、例えば、このパーソナルコンピュータは、上述の一致音片決定部52が記憶するものと実質的に同一の分割対象音片データを記憶しておき、定型メッセージデータが表す定型メッセージ内の各表音文字列を検索キーとしてこの分割対象音片データを検索し、索出された表音文字列を、ステップS408で音片データが選択される見込みが著しく低い音片の読みを表すものとして特定すればよい。また、このパーソナルコンピュータは、表意文字列を表す定型メッセージデータを入力してこれを表音文字列に変換し、この表音文字列内に、分割対象音片データと一致する部分が存在する場合には、変換前の表意文字列内で当該部分に相当する部分内に区切り用記号を挿入した後、挿入後の表意文字列について形態素解析を再度行うようにしてもよい。また、このパーソナルコンピュータは置換対象音片データ及び置換部分指定データを記憶していてもよく、この場合、このパーソナルコンピュータは、入力した定型メッセージデータを入力して、この表意文字列内に、置換対象音片データと一致する音片を表す部分が存在する場合には、当該部分中、置換部分指定データが指定する部分を、他の部分と異なる音片に対応する単語であることを示す表記法に置換してから、形態素解析を施すようにしてもよい。
また、ステップS403で区切り用記号を挿入する箇所を決定する基準は任意であり、例えば、このパーソナルコンピュータは、定型メッセージデータに形態素解析を施し、当該形態素解析の結果特定された文節の境界に、区切り用記号を挿入するようにすればよい。
そして、このパーソナルコンピュータは、定型メッセージに含まれる表音文字列(ただし、区切り用記号を挿入された表音文字列については、当該区切り用記号により区切られて形成される、当該表音文字列の各部分)を、上述のステップS302の処理で得られた表音文字列と同一に扱い、ステップS303〜S310の処理と実質的に同一の処理を行うことにより、合成音声を表すデータを出力する(ステップS404〜S411)。ただし、このパーソナルコンピュータは、表音文字列のうち、他の部分と異なる音片に対応する単語であることを示す表記法により表記されている部分は、他の部分と異なる音片に属するものとして扱う。
なお、パーソナルコンピュータに本体ユニットM1、本体ユニットM2又は音片登録ユニットRの機能を行わせるプログラムは、例えば、通信回線の掲示板(BBS)にアップロードし、これを通信回線を介して配信してもよく、また、これらのプログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調してこれらのプログラムを復元するようにしてもよい。
そして、これらのプログラムを起動し、OSの制御下に、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。
なお、OSが処理の一部を分担する場合、あるいは、OSが本願発明の1つの構成要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラムを格納してもよい。この場合も、この発明では、その記録媒体には、コンピュータが実行する各機能又はステップを実行するためのプログラムが格納されているものとする。
この発明の第1の実施の形態に係る音声合成システムの構成を示すブロック図である。 音片データベースのデータ構造を模式的に示す図である。 この発明の第2の実施の形態に係る音声合成システムの構成を示すブロック図である。 図1の音片登録ユニットの機能を行うパーソナルコンピュータが実行する処理を示すフローチャートである。 図1の本体ユニットの機能を行うパーソナルコンピュータがフリーテキストデータを取得した場合の処理を示すフローチャートである。 図1の本体ユニットの機能を行うパーソナルコンピュータが配信文字列データを取得した場合の処理を示すフローチャートである。 図1の本体ユニットの機能を行うパーソナルコンピュータが定型メッセージデータ及び発声スピードデータを取得した場合の処理を示すフローチャートである。 図3の本体ユニットの機能を行うパーソナルコンピュータが定型メッセージデータ及び発声スピードデータを取得した場合の処理を示すフローチャートである。
符号の説明
M1,M2 本体ユニット
1 言語処理部
2 一般単語辞書
3 ユーザ単語辞書
41 音響処理部
42 検索部
43,8 伸長部
44 波形データベース
5 音片編集部
51 形態素解析部
52 一致音片決定部
53 韻律予測部
54 出力合成部
6 検索部
7 音片データベース
9 話速変換部
R 音片登録ユニット
10 収録音片データセット記憶部
11 音片データベース作成部
12 圧縮部
HDR ヘッダ部
IDX インデックス部
DIR ディレクトリ部
DAT データ部

Claims (21)

  1. 文章を表す文章情報を取得する文章情報取得手段と、
    前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
    文章を表す文章情報を取得する文章情報取得手段と、
    各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
    前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、より構成されており、
    前記選択手段は、取得した前記文章情報のうち、所定の区切り用記号が挿入されることにより分割されて形成される連続した複数の区間を、互いに別個の文言を表すものとして扱う、
    ことを特徴とする音声合成装置。
  2. 文章を表す文章情報を取得する文章情報取得手段と、
    前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
    各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
    前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、より構成されており、
    前記選択手段は、取得した前記文章情報のうち、所定の表記法により表記されている区間を、隣接する他の区間とは別個の文言を表すものとして扱う、
    ことを特徴とする音声合成装置。
  3. 文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間を、当該条件に合致しない文言を表す複数の部分へと分割する処理を行う文章分割手段と、
    前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
    各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
    前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、より構成される、
    ことを特徴とする音声合成装置。
  4. 前記文章分割手段は、前記選択手段により選択される可能性が一定程度に達しない音片データの読みを表す文言を、前記条件に合致する文言として扱うものである、
    ことを特徴とする請求項3に記載の音声合成装置。
  5. 前記文章分割手段は、前記文章情報取得手段が取得した文章を構成する文言のうち、その一部の読みが前記音片記憶手段に記憶される音片と一致し、且つ、当該所定区間全体では読みが一致する音片が前記音片記憶手段に記憶されていない文言を、前記条件に合致する文言として扱うものである、
    ことを特徴とする請求項3に記載の音声合成装置。
  6. 前記文章分割手段は、前記区間内に区切り用の記号を挿入することにより、前記区間を分割するものである、
    ことを特徴とする請求項3、4又は5に記載の音声合成装置。
  7. 前記文章分割手段は、前記条件を示す条件データを書き換え可能に記憶し、前記文章情報のうち、当該条件データが示す条件に合致する文言を表す区間を分割するものである、
    ことを特徴とする請求項3乃至6のいずれか1項に記載の音声合成装置。
  8. 文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間内の所定部分の表記を、所定の表記法による表記へと置換する処理を行う文章置換手段と、
    前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
    各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
    前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、より構成されており、
    前記選択手段は、前記処理を経た文章情報のうち、前記表記法により表記されている部分については、隣接する他の部分とは別個の文言を表すものとして扱う、
    ことを特徴とする音声合成装置。
  9. 前記文章置換手段は、前記選択手段により選択される可能性が一定程度に達しない音片データの読みを表す文言を、前記条件に合致する文言として扱うものである、
    ことを特徴とする請求項8に記載の音声合成装置。
  10. 前記文章置換手段は、前記文章情報取得手段が取得した文章を構成する文言のうち、その一部の読みが前記音片記憶手段に記憶される音片と一致し、且つ、当該所定区間全体では読みが一致する音片が前記音片記憶手段に記憶されていない文言を、前記条件に合致する文言として扱うものである、
    ことを特徴とする請求項8に記載の音声合成装置。
  11. 前記文章置換手段は、前記条件を示す条件データを書き換え可能に記憶し、前記文章情報のうち、当該条件データが示す条件に合致する文言を表す区間内の所定部分の表記を、前記表記法による表記へと置換するものである、
    ことを特徴とする請求項8、9又は10に記載の音声合成装置。
  12. 取得した前記文章情報が表す文章を構成する文言のうち、前記選択手段が音片データを選択できなかった文言について、当該文言を読み上げる音声の波形を表す音声データを合成する欠落部分合成手段を更に備え、
    前記合成手段は、前記選択手段が選択した音片データ及び前記欠落部分合成手段が合成した音声データを互いに結合することにより、合成音声を表すデータを生成する、
    ことを特徴とする請求項1乃至11のいずれか1項に記載の音声合成装置。
  13. 前記音片記憶手段は、音片データが表す音片のピッチの時間変化を表す韻律データを、当該音片データに対応付けて記憶しており、
    前記選択手段は、各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通しており、且つ、対応付けられている韻律データが表すピッチの時間変化が韻律の予測結果に最も近い音片データを選択する、
    ことを特徴とする請求項1乃至12のいずれか1項に記載の音声合成装置。
  14. 文章を表す文章情報を取得する文章情報取得ステップと、
    前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶ステップと、
    各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択ステップと、
    前記選択ステップで選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成ステップと、より構成されており、
    前記選択ステップでは、取得した前記文章情報のうち、所定の区切り用記号が挿入されることにより分割されて形成される連続した複数の区間を、互いに別個の文言を表すものとして扱う、
    ことを特徴とする音声合成方法。
  15. 文章を表す文章情報を取得する文章情報取得ステップと、
    前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶ステップと、
    各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択ステップと、
    前記選択ステップで選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成ステップと、より構成されており、
    前記選択ステップでは、取得した前記文章情報のうち、所定の表記法により表記されている区間を、隣接する他の区間とは別個の文言を表すものとして扱う、
    ことを特徴とする音声合成方法。
  16. 文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間を、当該条件に合致しない文言を表す複数の部分へと分割する処理を行う文章分割ステップと、
    前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶ステップと、
    各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択ステップと、
    前記選択ステップで選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成ステップと、より構成される、
    ことを特徴とする音声合成方法。
  17. 文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間内の所定部分の表記を、所定の表記法による表記へと置換する処理を行う文章置換ステップと、
    前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶ステップと、
    各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択ステップと、
    前記選択ステップで選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成ステップと、より構成されており、
    前記選択ステップでは、前記処理を経た文章情報のうち、前記表記法により表記されている部分については、隣接する他の部分とは別個の文言を表すものとして扱う、
    ことを特徴とする音声合成方法。
  18. コンピュータを、
    文章を表す文章情報を取得する文章情報取得手段と、
    前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
    各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
    前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、して機能させるためのプログラムであって、
    前記選択手段は、取得した前記文章情報のうち、所定の区切り用記号が挿入されることにより分割されて形成される連続した複数の区間を、互いに別個の文言を表すものとして扱う、
    ことを特徴とするプログラム。
  19. コンピュータを、
    文章を表す文章情報を取得する文章情報取得手段と、
    前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
    各前記音片データのうちから、取得した前記文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、取得した前記文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
    前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、して機能させるためのプログラムであって、
    前記選択手段は、取得した前記文章情報のうち、所定の表記法により表記されている区間を、隣接する他の区間とは別個の文言を表すものとして扱う、
    ことを特徴とするプログラム。
  20. コンピュータを、
    文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間を、当該条件に合致しない文言を表す複数の部分へと分割する処理を行う文章分割手段と、
    前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
    各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
    前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、
    して機能させるためのプログラム。
  21. コンピュータを、
    文章を表す文章情報を取得し、当該文章情報のうち、所定の条件に合致する文言を表す区間内の所定部分の表記を、所定の表記法による表記へと置換する処理を行う文章置換手段と、
    前記文章情報の少なくとも一部に対応する音片を表す音片データを複数記憶する音片記憶手段と、
    各前記音片データのうちから、前記処理を経た文章情報が表す文章を構成する文言と読みが共通する音片データを選択し、又は、前記処理を経た文章情報が表す文章を構成する文言と読みが共通していて且つ韻律が韻律予測結果に所定の条件下で合致する文言を表す音片データを選択する選択手段と、
    前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、して機能させるためのプログラムであって、
    前記選択手段は、前記処理を経た文章情報のうち、前記表記法により表記されている部分については、隣接する他の部分とは別個の文言を表すものとして扱う、
    ことを特徴とするプログラム。
JP2004333427A 2004-11-17 2004-11-17 音声合成装置、音声合成方法及びプログラム Pending JP2006145690A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004333427A JP2006145690A (ja) 2004-11-17 2004-11-17 音声合成装置、音声合成方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004333427A JP2006145690A (ja) 2004-11-17 2004-11-17 音声合成装置、音声合成方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2006145690A true JP2006145690A (ja) 2006-06-08

Family

ID=36625497

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004333427A Pending JP2006145690A (ja) 2004-11-17 2004-11-17 音声合成装置、音声合成方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2006145690A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102394061A (zh) * 2011-11-08 2012-03-28 中国农业大学 基于语义检索的文语转换方法及系统
CN110622240A (zh) * 2017-05-24 2019-12-27 日本放送协会 语音向导生成装置、语音向导生成方法及广播系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102394061A (zh) * 2011-11-08 2012-03-28 中国农业大学 基于语义检索的文语转换方法及系统
CN102394061B (zh) * 2011-11-08 2013-01-02 中国农业大学 基于语义检索的文语转换方法及系统
CN110622240A (zh) * 2017-05-24 2019-12-27 日本放送协会 语音向导生成装置、语音向导生成方法及广播系统
CN110622240B (zh) * 2017-05-24 2023-04-14 日本放送协会 语音向导生成装置、语音向导生成方法及广播系统

Similar Documents

Publication Publication Date Title
JP4516863B2 (ja) 音声合成装置、音声合成方法及びプログラム
KR101076202B1 (ko) 음성 합성 장치, 음성 합성 방법 및 프로그램이 기록된 기록 매체
JP4620518B2 (ja) 音声データベース製造装置、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム
JP4287785B2 (ja) 音声合成装置、音声合成方法及びプログラム
WO2011004502A1 (ja) 音声編集合成装置及び音声編集合成方法
JP4264030B2 (ja) 音声データ選択装置、音声データ選択方法及びプログラム
JP2005018036A (ja) 音声合成装置、音声合成方法及びプログラム
JP4411017B2 (ja) 話速変換装置、話速変換方法及びプログラム
JP2006145690A (ja) 音声合成装置、音声合成方法及びプログラム
JP4574333B2 (ja) 音声合成装置、音声合成方法及びプログラム
JPH08335096A (ja) テキスト音声合成装置
JP4407305B2 (ja) ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム
JP4209811B2 (ja) 音声選択装置、音声選択方法及びプログラム
JP2007108450A (ja) 音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラム
JP4620517B2 (ja) 音声データベース製造装置、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム
JP4184157B2 (ja) 音声データ管理装置、音声データ管理方法及びプログラム
JP2006145848A (ja) 音声合成装置、音片記憶装置、音片記憶装置製造装置、音声合成方法、音片記憶装置製造方法及びプログラム
JP4816067B2 (ja) 音声データベース製造装置、音声データベース、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム
JP2006195207A (ja) 音声合成装置、音声合成方法及びプログラム
JP4780188B2 (ja) 音声データ選択装置、音声データ選択方法及びプログラム
KR20100003574A (ko) 음성음원정보 생성 장치 및 시스템, 그리고 이를 이용한음성음원정보 생성 방법
JP2007240989A (ja) 音声合成装置、音声合成方法及びプログラム
JP2004361944A (ja) 音声データ選択装置、音声データ選択方法及びプログラム
JP2007240987A (ja) 音声合成装置、音声合成方法及びプログラム
JP2007240990A (ja) 音声合成装置、音声合成方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100302

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101005