JP2004361944A - 音声データ選択装置、音声データ選択方法及びプログラム - Google Patents
音声データ選択装置、音声データ選択方法及びプログラム Download PDFInfo
- Publication number
- JP2004361944A JP2004361944A JP2004155305A JP2004155305A JP2004361944A JP 2004361944 A JP2004361944 A JP 2004361944A JP 2004155305 A JP2004155305 A JP 2004155305A JP 2004155305 A JP2004155305 A JP 2004155305A JP 2004361944 A JP2004361944 A JP 2004361944A
- Authority
- JP
- Japan
- Prior art keywords
- data
- unit
- speech
- sound
- piece
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 定型メッセージを表すデータが供給されると、音片編集部8は、定型メッセージ内の音片と読みが合致する音片の音片データを音片データベース10から索出させ、発声スピードデータが示すスピードに合致するよう、この音片データを変換させる。音片編集部8は、索出された音片データのうちから定型メッセージ内のそれぞれの音片に合致するものを1個ずつ選択する。この選択は、隣接する音片同士の境界でのピッチ成分の周波数の差を定型メッセージ全体での累計した値が最小となるように行う。選択できなかった音片については音響処理部4に単位音声毎の波形を表す波形データを供給させる。そして、選択した音片データや、音響処理部4に供給させた波形データを互いに結合して、合成音声を表すデータを生成する。
【選択図】 図1
Description
録音編集方式は、単語と、この単語を読み上げる音声を表す音声データとを対応付けておき、音声合成する対象の文章を単語に区切ってから、これらの単語に対応付けられた音声データを取得してつなぎ合わせる、という手法である(例えば、特許文献1参照)。
この問題を解決する手法としては、同一の音素を互いに異なった韻律で読み上げる音声を表す複数の音声データを用意し、一方で音声合成する対象の文章に韻律予測を施して、予測結果に合致する音声データを選び出してつなぎ合わせる、という手法が考えられる。
しかし、韻律予測は極めて複雑な処理であるので、韻律予測を用いたこの手法を実現するには、処理能力が高いプロセッサなどを用い、あるいは長時間をかけて処理を行わせる必要がある。従ってこの手法は、構成が簡単な装置を用いた高速な処理が要求される用途には適さない。
音声の波形を表す音声データを複数記憶する記憶手段と、
文章を表す文章情報を入力し、各前記音声データのうちから、前記文章を構成する音片と読みが共通する音片の波形を表している音声データを索出する検索手段と、
索出された音声データのうちから、前記文章を構成するそれぞれの音片に相当する音声データを1個ずつ、互いに隣接する音片同士の境界でのピッチの差を前記文章全体で累計した値が最小となるように選択する選択手段と、
より構成されることを特徴とする。
音声の波形を表す音声データを複数記憶し、
文章を表す文章情報を入力し、各前記音声データのうちから、前記文章を構成する音片と読みが共通する音片の波形を表している音声データを索出し、
索出された音声データのうちから、前記文章を構成するそれぞれの音片に相当する音声データを1個ずつ、互いに隣接する音片同士の境界でのピッチの差を前記文章全体で累計した値が最小となるように選択する、
ことを特徴とする。
コンピュータを、
音声の波形を表す音声データを複数記憶する記憶手段と、
文章を表す文章情報を入力し、各前記音声データのうちから、前記文章を構成する音片と読みが共通する音片の波形を表している音声データを索出する検索手段と、
索出された音声データのうちから、前記文章を構成するそれぞれの音片に相当する音声データを1個ずつ、互いに隣接する音片同士の境界でのピッチの差を前記文章全体で累計した値が最小となるように選択する選択手段と、
して機能させるためのものであることを特徴とする。
図1は、この発明の実施の形態に係る音声合成システムの構成を示す図である。図示するように、この音声合成システムは、本体ユニットMと、音片登録ユニットRとにより構成されている。
なお、言語処理部1、音響処理部4、検索部5、伸長部6、音片編集部8、検索部9及び話速変換部11の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。
ユーザ単語辞書3は、表意文字を含む単語等と、この単語等の読みを表す表音文字とを、ユーザの操作に従って外部より取得し、互いに対応付けて記憶する。ユーザ単語辞書3には、一般単語辞書2に記憶されていない単語等とその読みを表す表音文字とが格納されていれば十分である。
音片データベース10には、例えば、図2に示すデータ構造を有するデータが記憶されている。すなわち、図示するように、音片データベース10に格納されているデータは、ヘッダ部HDR、インデックス部IDX、ディレクトリ部DIR及びデータ部DATの4種に分かれている。
なお、音片とは、音声のうち音素1個以上を含む連続した1区間をいい、通常は単語1個分又は複数個分の区間からなる。
また、エントロピー符号化される前の音片データは、上述の圧縮波形データの生成のためエントロピー符号化される前の波形データと同じ形式のデータ(例えば、PCMされたデジタル形式のデータ)からなっていればよい。
(A) この圧縮音片データが表す音片の読みを示す表音文字を表すデータ(音片読みデータ)、
(B) この圧縮音片データが格納されている記憶位置の先頭のアドレスを表すデータ、
(C) この圧縮音片データのデータ長を表すデータ、
(D) この圧縮音片データが表す音片の発声スピード(再生した場合の時間長)を表すデータ(スピード初期値データ)、
(E) この音片の先頭と末尾におけるピッチ成分の周波数を表すデータ(ピッチ成分データ)、
が、互いに対応付けられた形で格納されている。(なお、音片データベース10の記憶領域にはアドレスが付されているものとする。)
収録音片データセット記憶部12には、音片の読みを表す表音文字と、この音片を人が実際に発声したものを集音して得た波形を表す音片データとが、この音声合成システムの製造者等によって、あらかじめ互いに対応付けて記憶されている。なお、この音片データは、例えば、PCMされたデジタル形式のデータからなっていればよい。
発声スピードの特定は、例えば、この音片データのサンプル数を数えることにより特定すればよい。
圧縮部14は、音片データベース作成部13より供給された音片データをエントロピー符号化して圧縮音片データを作成し、音片データベース作成部13に返送する。
また、書き込んだ圧縮音片データの、音片データベース10の記憶領域内での先頭のアドレスを特定し、このアドレスを上述の(B)のデータとして音片データベース10の記憶領域に書き込む。
また、この圧縮音片データのデータ長を特定し、特定したデータ長を、(C)のデータとして音片データベース10の記憶領域に書き込む。
また、この圧縮音片データが表す音片の発声スピード、及び、音声の先頭及び末尾におけるピッチ成分の周波数を特定した結果を示すデータを生成し、スピード初期値データ及びピッチ成分データとして音片データベース10の記憶領域に書き込む。
まず、言語処理部1が、この音声合成システムに音声を合成させる対象としてユーザが用意した、表意文字を含む文章(フリーテキスト)を記述したフリーテキストデータを外部から取得したとして説明する。
音響処理部4は、検索部5より供給された波形データを、言語処理部1より供給された表音文字列内での各表音文字の並びに従った順序で、音片編集部8へと供給する。
なお、定型メッセージデータは、定型メッセージを表音文字列として表すデータであり、発声スピードデータは、定型メッセージデータが表す定型メッセージの発声スピードの指定値(この定型メッセージを発声する時間長の指定値)を示すデータである。
例えば、波形データや音片データはPCM形式のデータである必要はなく、データ形式は任意である。
また、波形データベース7や音片データベース10は波形データや音片データを必ずしもデータ圧縮された状態で記憶している必要はない。波形データベース7や音片データベース10が波形データや音片データをデータ圧縮されていない状態で記憶している場合、本体ユニットMは伸長部6を備えている必要はない。
また、音片登録ユニットRは、必ずしも収録音片データセット記憶部12を備えている必要はない。
この場合、音響処理部4は、音片編集部8が抽出した音片データが表す音片については、この音片の波形を表す波形データを検索部5に索出させなくてもよい。なお、音片編集部8は、音響処理部4が合成しなくてよい音片を音響処理部4に通知し、音響処理部4はこの通知に応答して、この音片を構成する単位音声の波形の検索を中止するようにすればよい。
例えば、パーソナルコンピュータに上述の言語処理部1、一般単語辞書2、ユーザ単語辞書3、音響処理部4、検索部5、伸長部6、波形データベース7、音片編集部8、検索部9、音片データベース10及び話速変換部11の動作を実行させるためのプログラムを格納した媒体(CD−ROM、MO、フレキシブルディスク等)から該プログラムをインストールすることにより、上述の処理を実行する本体ユニットMを構成することができる。
また、パーソナルコンピュータに上述の収録音片データセット記憶部12、音片データベース作成部13及び圧縮部14の動作を実行させるためのプログラムを格納した媒体から該プログラムをインストールすることにより、上述の処理を実行する音片登録ユニットRを構成することができる。
図4は、このパーソナルコンピュータがフリーテキストデータを取得した場合の処理を示すフローチャートである。
図5は、このパーソナルコンピュータが配信文字列データを取得した場合の処理を示すフローチャートである。
図6は、このパーソナルコンピュータが定型メッセージデータ及び発声スピードデータを取得した場合の処理を示すフローチャートである。
そして、これらのプログラムを起動し、OSの制御下に、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。
1 言語処理部
2 一般単語辞書
3 ユーザ単語辞書
4 音響処理部
5 検索部
6 伸長部
7 波形データベース
8 音片編集部
9 検索部
10 音片データベース
11 話速変換部
R 音片登録ユニット
12 収録音片データセット記憶部
13 音片データベース作成部
14 圧縮部
HDR ヘッダ部
IDX インデックス部
DIR ディレクトリ部
DAT データ部
Claims (4)
- 音声の波形を表す音声データを複数記憶する記憶手段と、
文章を表す文章情報を入力し、各前記音声データのうちから、前記文章を構成する音片と読みが共通する音片の波形を表している音声データを索出する検索手段と、
索出された音声データのうちから、前記文章を構成するそれぞれの音片に相当する音声データを1個ずつ、互いに隣接する音片同士の境界でのピッチの差を前記文章全体で累計した値が最小となるように選択する選択手段と、
より構成されることを特徴とする音声データ選択装置。 - 選択された音声データを互いに結合することにより、合成音声を表すデータを生成する音声合成手段を更に備える、
ことを特徴とする請求項1に記載の音声データ選択装置。 - 音声の波形を表す音声データを複数記憶し、
文章を表す文章情報を入力し、各前記音声データのうちから、前記文章を構成する音片と読みが共通する音片の波形を表している音声データを索出し、
索出された音声データのうちから、前記文章を構成するそれぞれの音片に相当する音声データを1個ずつ、互いに隣接する音片同士の境界でのピッチの差を前記文章全体で累計した値が最小となるように選択する、
ことを特徴とする音声データ選択方法。 - コンピュータを、
音声の波形を表す音声データを複数記憶する記憶手段と、
文章を表す文章情報を入力し、各前記音声データのうちから、前記文章を構成する音片と読みが共通する音片の波形を表している音声データを索出する検索手段と、
索出された音声データのうちから、前記文章を構成するそれぞれの音片に相当する音声データを1個ずつ、互いに隣接する音片同士の境界でのピッチの差を前記文章全体で累計した値が最小となるように選択する選択手段と、
して機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004155305A JP2004361944A (ja) | 2004-05-25 | 2004-05-25 | 音声データ選択装置、音声データ選択方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004155305A JP2004361944A (ja) | 2004-05-25 | 2004-05-25 | 音声データ選択装置、音声データ選択方法及びプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003159880 Division | 2003-06-04 | 2003-06-04 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004361944A true JP2004361944A (ja) | 2004-12-24 |
Family
ID=34056319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004155305A Pending JP2004361944A (ja) | 2004-05-25 | 2004-05-25 | 音声データ選択装置、音声データ選択方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004361944A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006095925A1 (ja) * | 2005-03-11 | 2006-09-14 | Kabushiki Kaisha Kenwood | 音声合成装置、音声合成方法及びプログラム |
JP2006330442A (ja) * | 2005-05-27 | 2006-12-07 | Kenwood Corp | 音声案内システム、キャラクタ人形、携帯端末装置、音声案内装置及びプログラム |
-
2004
- 2004-05-25 JP JP2004155305A patent/JP2004361944A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006095925A1 (ja) * | 2005-03-11 | 2006-09-14 | Kabushiki Kaisha Kenwood | 音声合成装置、音声合成方法及びプログラム |
CN101171624B (zh) * | 2005-03-11 | 2011-08-10 | 株式会社建伍 | 语音合成装置及语音合成方法 |
JP2006330442A (ja) * | 2005-05-27 | 2006-12-07 | Kenwood Corp | 音声案内システム、キャラクタ人形、携帯端末装置、音声案内装置及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4516863B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
KR101076202B1 (ko) | 음성 합성 장치, 음성 합성 방법 및 프로그램이 기록된 기록 매체 | |
JP4620518B2 (ja) | 音声データベース製造装置、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム | |
JP4287785B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP4264030B2 (ja) | 音声データ選択装置、音声データ選択方法及びプログラム | |
JP4411017B2 (ja) | 話速変換装置、話速変換方法及びプログラム | |
JP2004361944A (ja) | 音声データ選択装置、音声データ選択方法及びプログラム | |
JP2005018036A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP4209811B2 (ja) | 音声選択装置、音声選択方法及びプログラム | |
JP4407305B2 (ja) | ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム | |
JP4184157B2 (ja) | 音声データ管理装置、音声データ管理方法及びプログラム | |
JP4574333B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP4780188B2 (ja) | 音声データ選択装置、音声データ選択方法及びプログラム | |
JP2007108450A (ja) | 音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラム | |
JP4620517B2 (ja) | 音声データベース製造装置、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム | |
JP2006145690A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2006195207A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP4816067B2 (ja) | 音声データベース製造装置、音声データベース、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム | |
JP2006145848A (ja) | 音声合成装置、音片記憶装置、音片記憶装置製造装置、音声合成方法、音片記憶装置製造方法及びプログラム | |
JP2007240989A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2007240987A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2007240988A (ja) | 音声合成装置、データベース、音声合成方法及びプログラム | |
JP2007240990A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2001109489A (ja) | 音声情報処理方法、装置および記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050825 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080418 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080430 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080619 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090106 |