JP2004361944A - 音声データ選択装置、音声データ選択方法及びプログラム - Google Patents

音声データ選択装置、音声データ選択方法及びプログラム Download PDF

Info

Publication number
JP2004361944A
JP2004361944A JP2004155305A JP2004155305A JP2004361944A JP 2004361944 A JP2004361944 A JP 2004361944A JP 2004155305 A JP2004155305 A JP 2004155305A JP 2004155305 A JP2004155305 A JP 2004155305A JP 2004361944 A JP2004361944 A JP 2004361944A
Authority
JP
Japan
Prior art keywords
data
unit
speech
sound
piece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004155305A
Other languages
English (en)
Inventor
Yasushi Sato
寧 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kenwood KK
Original Assignee
Kenwood KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kenwood KK filed Critical Kenwood KK
Priority to JP2004155305A priority Critical patent/JP2004361944A/ja
Publication of JP2004361944A publication Critical patent/JP2004361944A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 簡単な構成で高速に自然な合成音声を得るための音声データ選択装置等を提供することである。
【解決手段】 定型メッセージを表すデータが供給されると、音片編集部8は、定型メッセージ内の音片と読みが合致する音片の音片データを音片データベース10から索出させ、発声スピードデータが示すスピードに合致するよう、この音片データを変換させる。音片編集部8は、索出された音片データのうちから定型メッセージ内のそれぞれの音片に合致するものを1個ずつ選択する。この選択は、隣接する音片同士の境界でのピッチ成分の周波数の差を定型メッセージ全体での累計した値が最小となるように行う。選択できなかった音片については音響処理部4に単位音声毎の波形を表す波形データを供給させる。そして、選択した音片データや、音響処理部4に供給させた波形データを互いに結合して、合成音声を表すデータを生成する。
【選択図】 図1

Description

この発明は、音声データ選択装置、音声データ選択方法及びプログラムに関する。
音声を合成する手法として、録音編集方式と呼ばれる手法がある。録音編集方式は、駅の音声案内システムや、車載用のナビゲーション装置などに用いられている。
録音編集方式は、単語と、この単語を読み上げる音声を表す音声データとを対応付けておき、音声合成する対象の文章を単語に区切ってから、これらの単語に対応付けられた音声データを取得してつなぎ合わせる、という手法である(例えば、特許文献1参照)。
特開平10−49193号公報
しかし、音声データを単につなぎ合わせた場合、音声データ同士の境界では通常、音声のピッチ成分の周波数が不連続的に変化する。このため、合成音声は不自然なものとなる。
この問題を解決する手法としては、同一の音素を互いに異なった韻律で読み上げる音声を表す複数の音声データを用意し、一方で音声合成する対象の文章に韻律予測を施して、予測結果に合致する音声データを選び出してつなぎ合わせる、という手法が考えられる。
しかし、韻律予測は極めて複雑な処理であるので、韻律予測を用いたこの手法を実現するには、処理能力が高いプロセッサなどを用い、あるいは長時間をかけて処理を行わせる必要がある。従ってこの手法は、構成が簡単な装置を用いた高速な処理が要求される用途には適さない。
この発明は、上記実状に鑑みてなされたものであり、簡単な構成で高速に自然な合成音声を得るための音声データ選択装置、音声データ選択方法及びプログラムを提供することを目的とする。
上記目的を達成すべく、この発明の第1の観点にかかる音声データ選択装置は、
音声の波形を表す音声データを複数記憶する記憶手段と、
文章を表す文章情報を入力し、各前記音声データのうちから、前記文章を構成する音片と読みが共通する音片の波形を表している音声データを索出する検索手段と、
索出された音声データのうちから、前記文章を構成するそれぞれの音片に相当する音声データを1個ずつ、互いに隣接する音片同士の境界でのピッチの差を前記文章全体で累計した値が最小となるように選択する選択手段と、
より構成されることを特徴とする。
前記音声データ選択装置は、選択された音声データを互いに結合することにより、合成音声を表すデータを生成する音声合成手段を更に備えていてもよい。
また、この発明の第2の観点にかかる音声データ選択方法は、
音声の波形を表す音声データを複数記憶し、
文章を表す文章情報を入力し、各前記音声データのうちから、前記文章を構成する音片と読みが共通する音片の波形を表している音声データを索出し、
索出された音声データのうちから、前記文章を構成するそれぞれの音片に相当する音声データを1個ずつ、互いに隣接する音片同士の境界でのピッチの差を前記文章全体で累計した値が最小となるように選択する、
ことを特徴とする。
また、この発明の第3の観点にかかるプログラムは、
コンピュータを、
音声の波形を表す音声データを複数記憶する記憶手段と、
文章を表す文章情報を入力し、各前記音声データのうちから、前記文章を構成する音片と読みが共通する音片の波形を表している音声データを索出する検索手段と、
索出された音声データのうちから、前記文章を構成するそれぞれの音片に相当する音声データを1個ずつ、互いに隣接する音片同士の境界でのピッチの差を前記文章全体で累計した値が最小となるように選択する選択手段と、
して機能させるためのものであることを特徴とする。
以上説明したように、この発明によれば、簡単な構成で高速に自然な合成音声を得るための音声データ選択装置、音声データ選択方法及びプログラムが実現される。
以下、この発明の実施の形態を、音声合成システムを例とし、図面を参照して説明する。
図1は、この発明の実施の形態に係る音声合成システムの構成を示す図である。図示するように、この音声合成システムは、本体ユニットMと、音片登録ユニットRとにより構成されている。
本体ユニットMは、言語処理部1と、一般単語辞書2と、ユーザ単語辞書3と、音響処理部4と、検索部5と、伸長部6と、波形データベース7と、音片編集部8と、検索部9と、音片データベース10と、話速変換部11とにより構成されている。
言語処理部1、音響処理部4、検索部5、伸長部6、音片編集部8、検索部9及び話速変換部11は、いずれも、CPU(Central Processing Unit)やDSP(Digital Signal Processor)等のプロセッサや、このプロセッサが実行するためのプログラムを記憶するメモリなどより構成されており、それぞれ後述する処理を行う。
なお、言語処理部1、音響処理部4、検索部5、伸長部6、音片編集部8、検索部9及び話速変換部11の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。
一般単語辞書2は、PROM(Programmable Read Only Memory)やハードディスク装置等の不揮発性メモリより構成されている。一般単語辞書2には、表意文字(例えば、漢字など)を含む単語等と、この単語等の読みを表す表音文字(例えば、カナや発音記号など)とが、この音声合成システムの製造者等によって、あらかじめ互いに対応付けて記憶されている。
ユーザ単語辞書3は、EEPROM(Electrically Erasable/Programmable Read Only Memory)やハードディスク装置等のデータ書き換え可能な不揮発性メモリと、この不揮発性メモリへのデータの書き込みを制御する制御回路とにより構成されている。なお、プロセッサがこの制御回路の機能を行ってもよく、言語処理部1、音響処理部4、検索部5、伸長部6、音片編集部8、検索部9及び話速変換部11の一部又は全部の機能を行うプロセッサがユーザ単語辞書3の制御回路の機能を行うようにしてもよい。
ユーザ単語辞書3は、表意文字を含む単語等と、この単語等の読みを表す表音文字とを、ユーザの操作に従って外部より取得し、互いに対応付けて記憶する。ユーザ単語辞書3には、一般単語辞書2に記憶されていない単語等とその読みを表す表音文字とが格納されていれば十分である。
波形データベース7は、PROMやハードディスク装置等の不揮発性メモリより構成されている。波形データベース7には、表音文字と、この表音文字が表す単位音声の波形を表す波形データをエントロピー符号化して得られる圧縮波形データとが、この音声合成システムの製造者等によって、あらかじめ互いに対応付けて記憶されている。単位音声は、規則合成方式の手法で用いられる程度の短い音声であり、具体的には、音素や、VCV(Vowel-Consonant-Vowel)音節などの単位で区切られる音声である。なお、エントロピー符号化される前の波形データは、例えば、PCM(Pulse Code Modulation)されたデジタル形式のデータからなっていればよい。
音片データベース10は、PROMやハードディスク装置等の不揮発性メモリより構成されている。
音片データベース10には、例えば、図2に示すデータ構造を有するデータが記憶されている。すなわち、図示するように、音片データベース10に格納されているデータは、ヘッダ部HDR、インデックス部IDX、ディレクトリ部DIR及びデータ部DATの4種に分かれている。
なお、音片データベース10へのデータの格納は、例えば、この音声合成システムの製造者によりあらかじめ行われ、及び/又は、音片登録ユニットRが後述する動作を行うことにより行われる。
ヘッダ部HDRには、音片データベース10を識別するデータや、インデックス部IDX、ディレクトリ部DIR及びデータ部DATのデータ量、データの形式、著作権等の帰属などを示すデータが格納される。
データ部DATには、音片の波形を表す音片データをエントロピー符号化して得られる圧縮音片データが格納されている。
なお、音片とは、音声のうち音素1個以上を含む連続した1区間をいい、通常は単語1個分又は複数個分の区間からなる。
また、エントロピー符号化される前の音片データは、上述の圧縮波形データの生成のためエントロピー符号化される前の波形データと同じ形式のデータ(例えば、PCMされたデジタル形式のデータ)からなっていればよい。
ディレクトリ部DIRには、個々の圧縮音声データについて、
(A) この圧縮音片データが表す音片の読みを示す表音文字を表すデータ(音片読みデータ)、
(B) この圧縮音片データが格納されている記憶位置の先頭のアドレスを表すデータ、
(C) この圧縮音片データのデータ長を表すデータ、
(D) この圧縮音片データが表す音片の発声スピード(再生した場合の時間長)を表すデータ(スピード初期値データ)、
(E) この音片の先頭と末尾におけるピッチ成分の周波数を表すデータ(ピッチ成分データ)、
が、互いに対応付けられた形で格納されている。(なお、音片データベース10の記憶領域にはアドレスが付されているものとする。)
なお、図2は、データ部DATに含まれるデータとして、読みが「サイタマ」である音片の波形を表す、データ量1410hバイトの圧縮音片データが、アドレス001A36A6hを先頭とする論理的位置に格納されている場合を例示している。(なお、本明細書及び図面において、末尾に“h”を付した数字は16進数を表す。)
なお、上述の(A)〜(E)のデータの集合のうち少なくとも(A)のデータ(すなわち音片読みデータ)は、音片読みデータが表す表音文字に基づいて決められた順位に従ってソートされた状態で(例えば、表音文字がカナであれば、五十音順に従って、アドレス降順に並んだ状態で)、音片データベース10の記憶領域に格納されている。
インデックス部IDXには、ディレクトリ部DIRのデータのおおよその論理的位置を音片読みデータに基づいて特定するためのデータが格納されている。具体的には、例えば、音片読みデータがカナを表すものであるとして、カナ文字と、先頭1字がこのカナ文字であるような音片読みデータがどのような範囲のアドレスにあるかを示すデータとが、互いに対応付けて格納されている。
なお、一般単語辞書2、ユーザ単語辞書3、波形データベース7及び音片データベース10の一部又は全部の機能を単一の不揮発性メモリが行うようにしてもよい。
音片登録ユニットRは、図示するように、収録音片データセット記憶部12と、音片データベース作成部13と、圧縮部14とにより構成されている。なお、音片登録ユニットRは音片データベース10とは着脱可能に接続されていてもよく、この場合は、音片データベース10に新たにデータを書き込むときを除いては、音片登録ユニットRを本体ユニットMから切り離した状態で本体ユニットMに後述の動作を行わせてよい。
収録音片データセット記憶部12は、ハードディスク装置等のデータ書き換え可能な不揮発性メモリより構成されている。
収録音片データセット記憶部12には、音片の読みを表す表音文字と、この音片を人が実際に発声したものを集音して得た波形を表す音片データとが、この音声合成システムの製造者等によって、あらかじめ互いに対応付けて記憶されている。なお、この音片データは、例えば、PCMされたデジタル形式のデータからなっていればよい。
音片データベース作成部13及び圧縮部14は、CPU等のプロセッサや、このプロセッサが実行するためのプログラムを記憶するメモリなどより構成されており、このプログラムに従って後述する処理を行う。
なお、音片データベース作成部13及び圧縮部14の一部又は全部の機能を単一のプロセッサが行うようにしてもよく、また、言語処理部1、音響処理部4、検索部5、伸長部6、音片編集部8、検索部9及び話速変換部11の一部又は全部の機能を行うプロセッサが音片データベース作成部13や圧縮部14の機能を更に行ってもよい。また、音片データベース作成部13や圧縮部14の機能を行うプロセッサが、収録音片データセット記憶部12の制御回路の機能を兼ねてもよい。
音片データベース作成部13は、収録音片データセット記憶部12より、互いに対応付けられている表音文字及び音片データを読み出し、この音片データが表す音声の発声スピードと、先頭及び末尾でのピッチ成分の周波数とを特定する。
発声スピードの特定は、例えば、この音片データのサンプル数を数えることにより特定すればよい。
一方、ピッチ成分の周波数は、例えば、この音片データにケプストラム解析を施すことにより特定すればよい。具体的には、例えば、音片データが表す波形から、波形の先頭を含む小部分と、波形の末尾を含む小部分とを抽出し、得られたそれぞれの小部分の強度を、元の値の対数(対数の底は任意)に実質的に等しい値へと変換し、値が変換されたこの小部分のスペクトル(すなわち、ケプストラム)を、高速フーリエ変換の手法(あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法)により求める。そして、このケプストラムの極大値を与える周波数のうちの最小値を、この小部分におけるピッチ成分の周波数として特定する。
なお、ピッチ成分の周波数は、例えば、特開2003−108172号公報に開示された手法に従って音片データをピッチ波形データへと変換してから、このピッチ波形データに基づいて特定するようにすると良好な結果が期待できる。具体的には、音片データをフィルタリングしてピッチ信号を抽出し、抽出されたピッチ信号に基づいて、音片データが表す波形を単位ピッチ長の区間へと区切り、各区間について、ピッチ信号との相関関係に基づいて位相のずれを特定して各区間の位相を揃えることにより、音片データをピッチ波形信号へと変換すればよい。そして、得られたピッチ波形信号を音片データとして扱い、ケプストラム解析を行う等することにより、ピッチ成分の周波数を特定すればよい。
一方、音片データベース作成部13は、収録音片データセット記憶部12より読み出した音片データを圧縮部14に供給する。
圧縮部14は、音片データベース作成部13より供給された音片データをエントロピー符号化して圧縮音片データを作成し、音片データベース作成部13に返送する。
音片データの発声スピード及びピッチ成分の周波数の時間変化を特定し、この音片データがエントロピー符号化され圧縮音片データとなって圧縮部14より返送されると、音片データベース作成部13は、この圧縮音片データを、データ部DATを構成するデータとして、音片データベース10の記憶領域に書き込む。
また、音片データベース作成部13は、書き込んだ圧縮音片データが表す音片の読みを示すものとして収録音片データセット記憶部12より読み出した表音文字を、音片読みデータとして音片データベース10の記憶領域に書き込む。
また、書き込んだ圧縮音片データの、音片データベース10の記憶領域内での先頭のアドレスを特定し、このアドレスを上述の(B)のデータとして音片データベース10の記憶領域に書き込む。
また、この圧縮音片データのデータ長を特定し、特定したデータ長を、(C)のデータとして音片データベース10の記憶領域に書き込む。
また、この圧縮音片データが表す音片の発声スピード、及び、音声の先頭及び末尾におけるピッチ成分の周波数を特定した結果を示すデータを生成し、スピード初期値データ及びピッチ成分データとして音片データベース10の記憶領域に書き込む。
次に、この音声合成システムの動作を説明する。
まず、言語処理部1が、この音声合成システムに音声を合成させる対象としてユーザが用意した、表意文字を含む文章(フリーテキスト)を記述したフリーテキストデータを外部から取得したとして説明する。
なお、言語処理部1がフリーテキストデータを取得する手法は任意であり、例えば、図示しないインターフェース回路を介して外部の装置やネットワークから取得してもよいし、図示しない記録媒体ドライブ装置にセットされた記録媒体(例えば、フロッピー(登録商標)ディスクやCD−ROMなど)から、この記録媒体ドライブ装置を介して読み取ってもよい。また、言語処理部1の機能を行っているプロセッサが、自ら実行している他の処理で用いたテキストデータを、フリーテキストデータとして、言語処理部1の処理へと引き渡すようにしてもよい。
フリーテキストデータを取得すると、言語処理部1は、このフリーテキストに含まれるそれぞれの表意文字について、その読みを表す表音文字を、一般単語辞書2やユーザ単語辞書3を検索することにより特定する。そして、この表意文字を、特定した表音文字へと置換する。そして、言語処理部1は、フリーテキスト内の表意文字がすべて表音文字へと置換した結果得られる表音文字列を、音響処理部4へと供給する。
音響処理部4は、言語処理部1より表音文字列を供給されると、この表音文字列に含まれるそれぞれの表音文字について、当該表音文字が表す単位音声の波形を検索するよう、検索部5に指示する。
検索部5は、この指示に応答して波形データベース7を検索し、表音文字列に含まれるそれぞれの表音文字が表す単位音声の波形を表す圧縮波形データを索出する。そして、索出された圧縮波形データを伸長部6へと供給する。
伸長部6は、検索部5より供給された圧縮波形データを、圧縮される前の波形データへと復元し、検索部5へと返送する。検索部5は、伸長部6より返送された波形データを、検索結果として音響処理部4へと供給する。
音響処理部4は、検索部5より供給された波形データを、言語処理部1より供給された表音文字列内での各表音文字の並びに従った順序で、音片編集部8へと供給する。
音片編集部8は、音響処理部4より波形データを供給されると、この波形データを、供給された順序で互いに結合し、合成音声を表すデータ(合成音声データ)として出力する。フリーテキストデータに基づいて合成されたこの合成音声は、規則合成方式の手法により合成された音声に相当する。
なお、音片編集部8が合成音声データを出力する手法は任意であり、例えば、図示しないD/A(Digital-to-Analog)変換器やスピーカを介して、この合成音声データが表す合成音声を再生するようにしてもよい。また、図示しないインターフェース回路を介して外部の装置やネットワークに送出してもよいし、図示しない記録媒体ドライブ装置にセットされた記録媒体へ、この記録媒体ドライブ装置を介して書き込んでもよい。また、音片編集部8の機能を行っているプロセッサが、自ら実行している他の処理へと、合成音声データを引き渡すようにしてもよい。
次に、音響処理部4が、外部より配信された、表音文字列を表すデータ(配信文字列データ)を取得したとする。(なお、音響処理部4が配信文字列データを取得する手法も任意であり、例えば、言語処理部1がフリーテキストデータを取得する手法と同様の手法で配信文字列データを取得すればよい。)
この場合、音響処理部4は、配信文字列データが表す表音文字列を、言語処理部1より供給された表音文字列と同様に扱う。この結果、配信文字列データが表す表音文字列に含まれる表音文字に対応する圧縮波形データが検索部5により索出され、圧縮される前の波形データが伸長部6により復元される。復元された各波形データは音響処理部4を介して音片編集部8へと供給され、音片編集部8が、この波形データを、配信文字列データが表す表音文字列内での各表音文字の並びに従った順序で互いに結合し、合成音声データとして出力する。配信文字列データに基づいて合成されたこの合成音声データも、規則合成方式の手法により合成された音声を表す。
次に、音片編集部8が、定型メッセージデータ及び発声スピードデータを取得したとする。
なお、定型メッセージデータは、定型メッセージを表音文字列として表すデータであり、発声スピードデータは、定型メッセージデータが表す定型メッセージの発声スピードの指定値(この定型メッセージを発声する時間長の指定値)を示すデータである。
また、音片編集部8が定型メッセージデータや発声スピードデータを取得する手法は任意であり、例えば、言語処理部1がフリーテキストデータを取得する手法と同様の手法で定型メッセージデータや発声スピードデータを取得すればよい。
定型メッセージデータ及び発声スピードデータが音片編集部8に供給されると、音片編集部8は、定型メッセージに含まれる音片の読みを表す表音文字に合致する表音文字が対応付けられている圧縮音片データをすべて索出するよう、検索部9に指示する。
検索部9は、音片編集部8の指示に応答して音片データベース10を検索し、該当する圧縮音片データと、該当する圧縮音片データに対応付けられている上述の音片読みデータ、スピード初期値データ及びピッチ成分データとを索出し、索出された圧縮音片データを伸長部6へと供給する。1個の音片につき複数の圧縮音片データが該当する場合も、該当する圧縮音片データすべてが、音声合成に用いられるデータの候補として索出される。一方、圧縮音片データを索出できなかった音片があった場合、検索部9は、該当する音片を識別するデータ(以下、欠落部分識別データと呼ぶ)を生成する。
伸長部6は、検索部9より供給された圧縮音片データを、圧縮される前の音片データへと復元し、検索部9へと返送する。検索部9は、伸長部6より返送された音片データと、索出された音片読みデータ、スピード初期値データ及びピッチ成分データとを、検索結果として話速変換部11へと供給する。また、欠落部分識別データを生成した場合は、この欠落部分識別データも話速変換部11へと供給する。
一方、音片編集部8は、話速変換部11に対し、話速変換部11に供給された音片データを変換して、当該音片データが表す音片の時間長を、発声スピードデータが示すスピードに合致するようにすることを指示する。
話速変換部11は、音片編集部8の指示に応答し、検索部9より供給された音片データを指示に合致するように変換して、音片編集部8に供給する。具体的には、例えば、検索部9より供給された音片データの元の時間長を、索出されたスピード初期値データに基づいて特定した上、この音片データをリサンプリングして、この音片データのサンプル数を、音片編集部8の指示したスピードに合致する時間長にすればよい。
また、話速変換部11は、検索部9より供給された音片読みデータ及びピッチ成分データも音片編集部8に供給し、欠落部分識別データを検索部9より供給された場合は、更にこの欠落部分識別データも音片編集部8に供給する。
なお、発声スピードデータが音片編集部8に供給されていない場合、音片編集部8は、話速変換部11に対し、話速変換部11に供給された音片データを変換せずに音片編集部8に供給するよう指示すればよく、話速変換部11は、この指示に応答し、検索部9より供給された音片データをそのまま音片編集部8に供給すればよい。
音片編集部8は、話速変換部11より音片データ、音片読みデータ及びピッチ成分データを供給されると、供給された音片データのうちから、定型メッセージを構成する音片の波形とみなせる波形を表す音片データを、音片1個につき1個ずつ選択する。
具体的には、まず、音片編集部8は、話速変換部11より供給されたピッチ成分データに基づき、話速変換部11より供給された各音片データの先頭及び末尾の各時点でのピッチ成分の周波数を特定する。そして、話速変換部11より供給された音片データのうちから、定型メッセージ内で隣接する音片同士の境界でのピッチ成分の周波数の差の絶対値を定型メッセージ全体で累計した値が最小になる、という条件を満たすように、音片データを選択する。
音片データを選択する条件を、図3(a)〜(d)を参照して説明する。例えば、図3(a)に示すような、「このさきみぎかーぶです」という読みの定型メッセージを表す定型メッセージデータが音片編集部8に供給されたものとし、この定型メッセージが「このさき」、「みぎかーぶ」及び「です」という3個の音片からなるものとする。そして、図3(b)にリストを示すように、音片データベース10が、読みが「このさき」である圧縮音片データが3個(図3(b)において「A1」「A2」あるいは「A3」として表したもの)、読みが「みぎかーぶ」である圧縮音片データが2個(図3(b)において「B1」あるいは「B2」として表したもの)、読みが「です」である圧縮音片データが3個(図3(b)において「C1」「C2」あるいは「C3」として表したもの)、それぞれ索出され、伸長され、音片データとして音片編集部8へと供給されたとする。
一方、読みが「このさき」である各音片データが表す各音片の末尾におけるピッチ成分の周波数と読みが「みぎかーぶ」である各音片データが表す各音片の先頭におけるピッチ成分の周波数との差の絶対値は図3(c)に示す通りであったとする。(図3(c)は、例えば、音片データA1が表す音片の末尾におけるピッチ成分の周波数と音片データB1が表す音片の先頭におけるピッチ成分の周波数との差の絶対値は「123」であることを示している。なお、この絶対値の単位は、例えば「ヘルツ」である。)
また、読みが「みぎかーぶ」である各音片データが表す各音片の末尾におけるピッチ成分の周波数と読みが「です」である各音片データが表す各音片の先頭におけるピッチ成分の周波数との差の絶対値は図3(c)に示す通りであったとする。
この場合において、「このさきみぎかーぶです」という定型メッセージを読み上げる音声の波形を音片データを用いて生成した場合、隣接する音片同士の境界でのピッチ成分の周波数の差の絶対値の累計が最小になる組み合わせは、A3、B2及びC2という組み合わせである。従ってこの場合、音片編集部8は、図3(d)に示すように、音片データA3、B2及びC2を選択する。
この条件を満たす音片データを選択するために、音片編集部8は、例えば、定型メッセージ内で隣接する音片同士の境界でのピッチ成分の周波数の差の絶対値を距離として定義し、DP(Dynamic Programming)マッチングの手法により音片データを選ぶようにすればよい。
一方、音片編集部8は、話速変換部11より欠落部分識別データも供給されている場合には、欠落部分識別データが示す音片の読みを表す表音文字列を定型メッセージデータより抽出して音響処理部4に供給し、この音片の波形を合成するよう指示する。
指示を受けた音響処理部4は、音片編集部8より供給された表音文字列を、配信文字列データが表す表音文字列と同様に扱う。この結果、この表音文字列に含まれる表音文字が示す音声の波形を表す圧縮波形データが検索部5により索出され、この圧縮波形データが伸長部6により元の波形データへと復元され、検索部5を介して音響処理部4へと供給される。音響処理部4は、この波形データを音片編集部8へと供給する。
音片編集部8は、音響処理部4より波形データを返送されると、この波形データと、話速変換部11より供給された音片データのうち音片編集部8が選択したものとを、定型メッセージデータが示す定型メッセージ内での各音片の並びに従った順序で互いに結合し、合成音声を表すデータとして出力する。
なお、話速変換部11より供給されたデータに欠落部分識別データが含まれていない場合は、音響処理部4に波形の合成を指示することなく直ちに、音片編集部8が選択した音片データを、定型メッセージデータが示す定型メッセージ内での各音片の並びに従った順序で互いに結合し、合成音声を表すデータとして出力すればよい。
以上説明したように、この音声合成システムでは、音片データ同士の境界でのピッチ成分の周波数の不連続的な変化の量の累計が定型メッセージ全体で最小となるように音片データが選ばれ、録音編集方式により自然につなぎ合わせられるため、合成音声が自然なものとなる。また、この音声合成システムでは、処理が複雑な韻律予測は行われないので、簡単な構成で高速な処理にも追随できる。
なお、この音声合成システムの構成は上述のものに限られない。
例えば、波形データや音片データはPCM形式のデータである必要はなく、データ形式は任意である。
また、波形データベース7や音片データベース10は波形データや音片データを必ずしもデータ圧縮された状態で記憶している必要はない。波形データベース7や音片データベース10が波形データや音片データをデータ圧縮されていない状態で記憶している場合、本体ユニットMは伸長部6を備えている必要はない。
また、音片データベース作成部13は、図示しない記録媒体ドライブ装置にセットされた記録媒体から、この記録媒体ドライブ装置を介して、音片データベース10に追加する新たな圧縮音片データの材料となる音片データや表音文字列を読み取ってもよい。
また、音片登録ユニットRは、必ずしも収録音片データセット記憶部12を備えている必要はない。
また、音片データベース作成部13は、マイクロフォン、増幅器、サンプリング回路、A/D(Analog-to-Digital)コンバータ及びPCMエンコーダなどを備えていてもよい。この場合、音片データベース作成部13は、収録音片データセット記憶部12より音片データを取得する代わりに、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングしてA/D変換した後、サンプリングされた音声信号にPCM変調を施すことにより、音片データを作成してもよい。
また、ピッチ成分データは音片データが表す音片の先頭及び末尾でのピッチ長を表すデータであってもよい。この場合、音片編集部8は、話速変換部11より供給された各音片データの先頭及び末尾でのピッチ長を話速変換部11より供給されたピッチ成分データに基づいて特定し、定型メッセージ内で隣接する音片同士の境界でのピッチ長の差の絶対値を定型メッセージ全体で累計した値が最小になる、という条件を満たすように、音片データを選択すればよい。
また、音片編集部8は、音響処理部4より返送された波形データを話速変換部11に供給することにより、当該波形データが表す波形の時間長を、発声スピードデータが示すスピードに合致させるようにしてもよい。
また、音片編集部8は、例えば、言語処理部1と共にフリーテキストデータを取得し、このフリーテキストデータが表すフリーテキストに含まれる音片の波形とみなせる波形を表す音片データを、定型メッセージに含まれる音片の波形とみなせる波形を表す音片データを抽出する処理と実質的に同一の処理を行うことによって抽出して、音声の合成に用いてもよい。
この場合、音響処理部4は、音片編集部8が抽出した音片データが表す音片については、この音片の波形を表す波形データを検索部5に索出させなくてもよい。なお、音片編集部8は、音響処理部4が合成しなくてよい音片を音響処理部4に通知し、音響処理部4はこの通知に応答して、この音片を構成する単位音声の波形の検索を中止するようにすればよい。
また、音片編集部8は、例えば、音響処理部4と共に配信文字列データを取得し、この配信文字列データが表す配信文字列に含まれる音片の波形とみなせる波形を表す音片データを、定型メッセージに含まれる音片の波形とみなせる波形を表す音片データを抽出する処理と実質的に同一の処理を行うことによって抽出して、音声の合成に用いてもよい。この場合、音響処理部4は、音片編集部8が抽出した音片データが表す音片については、この音片の波形を表す波形データを検索部5に索出させなくてもよい。
以上、この発明の実施の形態を説明したが、この発明にかかる音声データ選択装置は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。
例えば、パーソナルコンピュータに上述の言語処理部1、一般単語辞書2、ユーザ単語辞書3、音響処理部4、検索部5、伸長部6、波形データベース7、音片編集部8、検索部9、音片データベース10及び話速変換部11の動作を実行させるためのプログラムを格納した媒体(CD−ROM、MO、フレキシブルディスク等)から該プログラムをインストールすることにより、上述の処理を実行する本体ユニットMを構成することができる。
また、パーソナルコンピュータに上述の収録音片データセット記憶部12、音片データベース作成部13及び圧縮部14の動作を実行させるためのプログラムを格納した媒体から該プログラムをインストールすることにより、上述の処理を実行する音片登録ユニットRを構成することができる。
そして、これらのプログラムを実行し本体ユニットMや音片登録ユニットRとして機能するパーソナルコンピュータが、図1の音声合成システムの動作に相当する処理として、図4〜図6に示す処理を行うものとする。
図4は、このパーソナルコンピュータがフリーテキストデータを取得した場合の処理を示すフローチャートである。
図5は、このパーソナルコンピュータが配信文字列データを取得した場合の処理を示すフローチャートである。
図6は、このパーソナルコンピュータが定型メッセージデータ及び発声スピードデータを取得した場合の処理を示すフローチャートである。
すなわち、まず、このパーソナルコンピュータが、外部より、上述のフリーテキストデータを取得すると(図4、ステップS101)、このフリーテキストデータが表すフリーテキストに含まれるそれぞれの表意文字について、その読みを表す表音文字を、一般単語辞書2やユーザ単語辞書3を検索することにより特定し、この表意文字を、特定した表音文字へと置換する(ステップS102)。なお、このパーソナルコンピュータがフリーテキストデータを取得する手法は任意である。
そして、このパーソナルコンピュータは、フリーテキスト内の表意文字をすべて表音文字へと置換した結果を表す表音文字列が得られると、この表音文字列に含まれるそれぞれの表音文字について、当該表音文字が表す単位音声の波形を波形データベース7より検索し、表音文字列に含まれるそれぞれの表音文字が表す単位音声の波形を表す圧縮波形データを索出する(ステップS103)。
次に、このパーソナルコンピュータは、索出された圧縮波形データを、圧縮される前の波形データへと復元し(ステップS104)、復元された波形データを、表音文字列内での各表音文字の並びに従った順序で互いに結合し、合成音声データとして出力する(ステップS105)。なお、このパーソナルコンピュータが合成音声データを出力する手法は任意である。
また、このパーソナルコンピュータが、外部より、上述の配信文字列データを任意の手法で取得すると(図5、ステップS201)、この配信文字列データが表す表音文字列に含まれるそれぞれの表音文字について、当該表音文字が表す単位音声の波形を波形データベース7より検索し、表音文字列に含まれるそれぞれの表音文字が表す単位音声の波形を表す圧縮波形データを索出する(ステップS202)。
次に、このパーソナルコンピュータは、索出された圧縮波形データを、圧縮される前の波形データへと復元し(ステップS203)、復元された波形データを、表音文字列内での各表音文字の並びに従った順序で互いに結合し、合成音声データとしてステップS105の処理と同様の処理により出力する(ステップS204)。
一方、このパーソナルコンピュータが、外部より、上述の定型メッセージデータ及び発声スピードデータを任意の手法により取得すると(図6、ステップS301)、まず、この定型メッセージデータが表す定型メッセージに含まれる音片の読みを表す表音文字に合致する表音文字が対応付けられている圧縮音片データをすべて索出する(ステップS302)。
また、ステップS302では、該当する圧縮音片データに対応付けられている上述の音片読みデータ、スピード初期値データ及びピッチ成分データも索出する。なお、1個の音片につき複数の圧縮音片データが該当する場合は、該当する圧縮音片データすべてを索出する。一方、圧縮音片データを索出できなかった音片があった場合は、上述の欠落部分識別データを生成する。
次に、このパーソナルコンピュータは、索出された圧縮音片データを、圧縮される前の音片データへと復元する(ステップS303)。そして、復元された音片データを、上述の音片編集部8が行う処理と同様の処理により変換して、当該音片データが表す音片の時間長を、発声スピードデータが示すスピードに合致させる(ステップS304)。なお、発声スピードデータが供給されていない場合は、復元された音片データを変換しなくてもよい。
次に、このパーソナルコンピュータは、音片の時間長が変換された音片データのうちから、定型メッセージを構成する音片の波形とみなせる波形を表す音片データを、上述の音片編集部8が行う処理と同様の処理を行うことにより、音片1個につき1個ずつ選択する(ステップS305〜S306)。
具体的には、まず、このパーソナルコンピュータは、音片の時間長が変換された各音片データの先頭及び末尾の各時点でのピッチ成分の周波数を、索出されたピッチ成分データに基づいて特定する(ステップS305)。そして、これらの音片データのうちから、定型メッセージ内で隣接する音片同士の境界でのピッチ成分の周波数の差の絶対値を定型メッセージ全体で累計した値が最小になる、という条件を満たすように、音片データを選択する(ステップS306)。この条件を満たす音片データを選択するために、このパーソナルコンピュータは、例えば、定型メッセージ内で隣接する音片同士の境界でのピッチ成分の周波数の差の絶対値を距離として定義し、DPマッチングの手法により音片データを選ぶようにすればよい。
一方、このパーソナルコンピュータは、欠落部分識別データを生成した場合、欠落部分識別データが示す音片の読みを表す表音文字列を定型メッセージデータより抽出し、この表音文字列につき、音素毎に、配信文字列データが表す表音文字列と同様に扱って上述のステップS202〜S203の処理を行うことにより、この表音文字列内の各表音文字が示す音声の波形を表す波形データを復元する(ステップS307)。
そして、このパーソナルコンピュータは、復元した波形データと、ステップS306で選択した音片データとを、定型メッセージデータが示す定型メッセージ内での各音片の並びに従った順序で互いに結合し、合成音声を表すデータとして出力する(ステップS308)。
なお、パーソナルコンピュータに本体ユニットMや音片登録ユニットRの機能を行わせるプログラムは、例えば、通信回線の掲示板(BBS)にアップロードし、これを通信回線を介して配信してもよく、また、これらのプログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調してこれらのプログラムを復元するようにしてもよい。
そして、これらのプログラムを起動し、OSの制御下に、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。
なお、OSが処理の一部を分担する場合、あるいは、OSが本願発明の1つの構成要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラムを格納してもよい。この場合も、この発明では、その記録媒体には、コンピュータが実行する各機能又はステップを実行するためのプログラムが格納されているものとする。
この発明の実施の形態に係る音声合成システムの構成を示すブロック図である。 音片データベースのデータ構造を模式的に示す図である。 (a)は、定型メッセージの読みを示す図であり、(b)は、音片編集部に供給された音片データのリストであり、(c)は、先行する音片の末尾におけるピッチ成分の周波数と後続の音片の先頭におけるピッチ成分の周波数との差の絶対値を示す図であり、(d)は、音片編集部がどの音片データを選択するかを示す図である。 この発明の実施の形態に係る音声合成システムの機能を行うパーソナルコンピュータがフリーテキストデータを取得した場合の処理を示すフローチャートである。 この発明の実施の形態に係る音声合成システムの機能を行うパーソナルコンピュータが配信文字列データを取得した場合の処理を示すフローチャートである。 この発明の実施の形態に係る音声合成システムの機能を行うパーソナルコンピュータが定型メッセージデータ及び発声スピードデータを取得した場合の処理を示すフローチャートである。
符号の説明
M 本体ユニット
1 言語処理部
2 一般単語辞書
3 ユーザ単語辞書
4 音響処理部
5 検索部
6 伸長部
7 波形データベース
8 音片編集部
9 検索部
10 音片データベース
11 話速変換部
R 音片登録ユニット
12 収録音片データセット記憶部
13 音片データベース作成部
14 圧縮部
HDR ヘッダ部
IDX インデックス部
DIR ディレクトリ部
DAT データ部

Claims (4)

  1. 音声の波形を表す音声データを複数記憶する記憶手段と、
    文章を表す文章情報を入力し、各前記音声データのうちから、前記文章を構成する音片と読みが共通する音片の波形を表している音声データを索出する検索手段と、
    索出された音声データのうちから、前記文章を構成するそれぞれの音片に相当する音声データを1個ずつ、互いに隣接する音片同士の境界でのピッチの差を前記文章全体で累計した値が最小となるように選択する選択手段と、
    より構成されることを特徴とする音声データ選択装置。
  2. 選択された音声データを互いに結合することにより、合成音声を表すデータを生成する音声合成手段を更に備える、
    ことを特徴とする請求項1に記載の音声データ選択装置。
  3. 音声の波形を表す音声データを複数記憶し、
    文章を表す文章情報を入力し、各前記音声データのうちから、前記文章を構成する音片と読みが共通する音片の波形を表している音声データを索出し、
    索出された音声データのうちから、前記文章を構成するそれぞれの音片に相当する音声データを1個ずつ、互いに隣接する音片同士の境界でのピッチの差を前記文章全体で累計した値が最小となるように選択する、
    ことを特徴とする音声データ選択方法。
  4. コンピュータを、
    音声の波形を表す音声データを複数記憶する記憶手段と、
    文章を表す文章情報を入力し、各前記音声データのうちから、前記文章を構成する音片と読みが共通する音片の波形を表している音声データを索出する検索手段と、
    索出された音声データのうちから、前記文章を構成するそれぞれの音片に相当する音声データを1個ずつ、互いに隣接する音片同士の境界でのピッチの差を前記文章全体で累計した値が最小となるように選択する選択手段と、
    して機能させるためのプログラム。
JP2004155305A 2004-05-25 2004-05-25 音声データ選択装置、音声データ選択方法及びプログラム Pending JP2004361944A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004155305A JP2004361944A (ja) 2004-05-25 2004-05-25 音声データ選択装置、音声データ選択方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004155305A JP2004361944A (ja) 2004-05-25 2004-05-25 音声データ選択装置、音声データ選択方法及びプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2003159880 Division 2003-06-04 2003-06-04

Publications (1)

Publication Number Publication Date
JP2004361944A true JP2004361944A (ja) 2004-12-24

Family

ID=34056319

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004155305A Pending JP2004361944A (ja) 2004-05-25 2004-05-25 音声データ選択装置、音声データ選択方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2004361944A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006095925A1 (ja) * 2005-03-11 2006-09-14 Kabushiki Kaisha Kenwood 音声合成装置、音声合成方法及びプログラム
JP2006330442A (ja) * 2005-05-27 2006-12-07 Kenwood Corp 音声案内システム、キャラクタ人形、携帯端末装置、音声案内装置及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006095925A1 (ja) * 2005-03-11 2006-09-14 Kabushiki Kaisha Kenwood 音声合成装置、音声合成方法及びプログラム
CN101171624B (zh) * 2005-03-11 2011-08-10 株式会社建伍 语音合成装置及语音合成方法
JP2006330442A (ja) * 2005-05-27 2006-12-07 Kenwood Corp 音声案内システム、キャラクタ人形、携帯端末装置、音声案内装置及びプログラム

Similar Documents

Publication Publication Date Title
JP4516863B2 (ja) 音声合成装置、音声合成方法及びプログラム
KR101076202B1 (ko) 음성 합성 장치, 음성 합성 방법 및 프로그램이 기록된 기록 매체
JP4620518B2 (ja) 音声データベース製造装置、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム
JP4287785B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP4264030B2 (ja) 音声データ選択装置、音声データ選択方法及びプログラム
JP4411017B2 (ja) 話速変換装置、話速変換方法及びプログラム
JP2004361944A (ja) 音声データ選択装置、音声データ選択方法及びプログラム
JP2005018036A (ja) 音声合成装置、音声合成方法及びプログラム
JP4209811B2 (ja) 音声選択装置、音声選択方法及びプログラム
JP4407305B2 (ja) ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム
JP4184157B2 (ja) 音声データ管理装置、音声データ管理方法及びプログラム
JP4574333B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP4780188B2 (ja) 音声データ選択装置、音声データ選択方法及びプログラム
JP2007108450A (ja) 音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラム
JP4620517B2 (ja) 音声データベース製造装置、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム
JP2006145690A (ja) 音声合成装置、音声合成方法及びプログラム
JP2006195207A (ja) 音声合成装置、音声合成方法及びプログラム
JP4816067B2 (ja) 音声データベース製造装置、音声データベース、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム
JP2006145848A (ja) 音声合成装置、音片記憶装置、音片記憶装置製造装置、音声合成方法、音片記憶装置製造方法及びプログラム
JP2007240989A (ja) 音声合成装置、音声合成方法及びプログラム
JP2007240987A (ja) 音声合成装置、音声合成方法及びプログラム
JP2007240988A (ja) 音声合成装置、データベース、音声合成方法及びプログラム
JP2007240990A (ja) 音声合成装置、音声合成方法及びプログラム
JP2001109489A (ja) 音声情報処理方法、装置および記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050825

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080430

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080619

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090106