JP4286583B2 - 波形辞書作成支援システムおよびプログラム - Google Patents

波形辞書作成支援システムおよびプログラム Download PDF

Info

Publication number
JP4286583B2
JP4286583B2 JP2003137624A JP2003137624A JP4286583B2 JP 4286583 B2 JP4286583 B2 JP 4286583B2 JP 2003137624 A JP2003137624 A JP 2003137624A JP 2003137624 A JP2003137624 A JP 2003137624A JP 4286583 B2 JP4286583 B2 JP 4286583B2
Authority
JP
Japan
Prior art keywords
phoneme
corpus
information
storage unit
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003137624A
Other languages
English (en)
Other versions
JP2004341226A (ja
Inventor
智佳子 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2003137624A priority Critical patent/JP4286583B2/ja
Publication of JP2004341226A publication Critical patent/JP2004341226A/ja
Application granted granted Critical
Publication of JP4286583B2 publication Critical patent/JP4286583B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、音声合成用波形辞書の作成を支援するシステムに関し、特に、所望の波形辞書を作成するために補充することが必要なコーパス(追加コーパス)を効率的に探索するためのシステムに関する。
【0002】
【従来の技術】
従来、定型文章や単語を読み上げた音声データを収録して蓄積し、それらの音声データから、単語単位等で必要な音声データを抽出しつなぎ合わせることによって音声合成を行うシステムが知られている。このような音声データ(通常一人の発声者が発声した全ての音素を含む大量の音声波形、又はその特徴量が蓄積されているデータ)を蓄積したファイルは、波形辞書などと称されている。
【0003】
従来の音声合成システムにおいて、文章を合成する際には、その文章を合成するために必要な音声データを、音素や音節等の基準単位で波形辞書から検索し抽出する。そして、抽出された音声データを変換したり、複数の音声データを接続したりすることによって、入力されたテキストに対応した最適な合成音声を作成し、出力する。
【0004】
すなわち、入力された文章(テキスト)に含まれる音の全てが波形辞書に収録されていれば、そのテキストに対応する高品質な合成音声を作成することが可能である。しかし、その逆に、波形辞書に収録されていない音を合成することは不可能である。また、複数の音声データを接続することによって合成音声を作成した場合に、音質が劣化することもある。
【0005】
従って、任意のテキストを音声合成できるようにするためには、理論的には、波形辞書に多種多様な音声データを格納しておくことが必要となる。しかし、波形辞書のデータ容量が大きくなり過ぎると実装コストや検索効率の点で好ましくない。そこで、大規模コーパス辞書を参照することにより、利用者の用途に応じた波形辞書を適度な大きさで効率よく作成する音声合成用辞書作成装置が、本発明者により既に提案されている(特許文献1参照)。
【0006】
【特許文献1】
特開2001−296878号公報
【0007】
【発明が解決しようとする課題】
ところで、波形辞書に登録するための大量の音声データについては、一般的に、音声合成エンジンの開発者が、所望する声種・声質のナレータやタレント等と契約し、当該ナレータ等を長時間に渡って拘束して音声収録を行う。このため、時間と費用が嵩むという問題点がある。
【0008】
従って、例えば新たな音声合成システムを構築する場合や、既存の音声合成システムをバージョンアップする場合などに、波形辞書作成用の音声収録を最初からやり直すのは非効率的である。波形辞書自体を既存の辞書よりもレベルアップさせたい場合には、既存の波形辞書(収録済みの音声データ)に、追加収録によって得られた音声データを追加すれば、音声収録に要するコストおよび時間を削減できる。しかし、追加収録すべき音声データを洗い出す作業は容易ではないという問題があった。
【0009】
そこで、本発明は、収録済みの音声データがある場合に、所望の波形辞書を作成するために補充すべき音声データ(補充コーパス)を効率的に探索することが可能な波形辞書作成支援システムを提供することを目的とする。
【0010】
【課題を解決するための手段】
上記の目的を達成するために、本発明にかかる波形辞書作成支援システムは、音声波形データと当該音声の発話内容を表すテキストデータとを含む音声データを入力して分析し、当該音声データの音素情報を求める音声分析部と、前記音声分析部により求められた音素情報を少なくとも含む音声情報を保存する音声情報保存部と、波形辞書に必須な音素情報の条件を保存する必須音素情報保存部と、前記必須音素情報保存部に保存されている条件を満たすために前記音声情報保存部に保存されている音素情報に不足している音素列を検索し、検索結果として得られた音素列を不足音素列として出力する不足音素列検索部と、少なくとも前記必須音素情報の全てを含むコーパスが蓄積されたコーパス蓄積部と、前記コーパス蓄積部から、前記不足音素列検索部より出力された不足音素列を含むコーパスを検索し、検索結果として得られたコーパスを追加コーパスとして出力する補充コーパス作成部とを備えたことを特徴とする。
【0011】
この構成により、所望の波形辞書に応じた条件を必須音素情報保存部に保存しておけば、その条件を満たすために不足している音素列(すなわち、所望の波形辞書を作成するために音声情報保存部に追加しなければならない音素列)が不足音素列として検索され、その音素列を含むコーパスが追加コーパスとして出力される。これにより、収録済みの音声データがある場合に、所望の波形辞書を作成するために補充すべき音声データ(補充コーパス)を効率的に探索することが可能となる。
【0012】
なお、出力される追加コーパスは、テキストコーパスおよび音声コーパスのいずれであっても良い。追加コーパスとしてテキストコーパスを出力させたい場合はテキストコーパスが蓄積されたコーパス蓄積部を用い、音声コーパスを出力させたい場合は音声コーパスが蓄積されたコーパス蓄積部を用いれば良い。なお、追加コーパスをテキストコーパスとして出力させた場合は、このテキストコーパスに従って音声の追加収録を行い、追加収録済みの音声情報保存部に基づいて波形辞書を作成すれば良い。また、追加コーパスを音声コーパスとして出力させた場合は、ナレータ等による追加収録を必要とせず、その音声コーパスそのものを音声情報保存部に追加し、波形辞書を作成すれば良い。
【0013】
また、本発明にかかる波形辞書作成支援システムは、入力された音声波形データから発話内容を認識し、認識した発話内容をテキストデータとして前記音声波形データと共に前記音声分析部へ出力する音声認識部をさらに備えたことが好ましい。発話内容をテキスト入力する手間が省けるからである。
【0014】
また、本発明にかかる波形辞書作成支援システムにおいて、不足音素列検索部が、更に、合成する音質の品質等級を入力し、入力された品質等級に応じて前記必須音素情報保存部に保存された条件の中から満たすべき条件を決定し、決定した条件に応じて不足音素列を検索することが好ましい。所望の合成音声の品質を実現するために適したサイズ及び内容の波形辞書を作成することが可能となるからである。
【0015】
また、本発明にかかる波形辞書作成支援システムは、コーパス蓄積部が、分野または用途別に蓄積されたコーパス保存部を有し、前記補充コーパス作成部は、使用する分野または用途情報を入力し、入力された分野または用途情報に応じたコーパス保存部から追加コーパスを検索することが好ましい。分野または用途毎に蓄積されたコーパスから追加コーパスを検索することにより、音声合成システムの使用環境(分野または用途)に応じた波形辞書を作成することが可能となるからである。
【0016】
また、本発明にかかるコンピュータプログラムは、入力された音声波形データと当該音声の発話内容を表すテキストデータとを含む音声データを分析し、当該音声データの音素情報を求めるステップと、前記音声分析部により求められた音素情報を少なくとも含む音声情報を音声情報保存ファイルへ保存するステップと、波形辞書に必須な音素情報の条件を入力し、当該条件を満たすために前記音声情報保存ファイルに保存されている音素情報に不足している音素列を検索し、検索結果として得られた音素列を不足音素列として出力するステップと、少なくとも前記必須音素情報の全てを含むコーパスが蓄積されたコーパス蓄積ファイルから、前記不足音素列を含むコーパスを検索し、検索結果として得られたコーパスを追加コーパスとして出力するステップとを含む処理をコンピュータに実行させることを特徴とする。
【0017】
このプログラムをコンピュータにロードして実行することにより、所望の波形辞書を作成するために音声情報ファイルに追加しなければならない音素列が不足音素列として検索され、その音素列を含むコーパスが追加コーパスとして出力される。これにより、収録済みの音声データがある場合に、所望の波形辞書を作成するために補充すべき音声データ(補充コーパス)を効率的に探索することが可能となる。
【0018】
【発明の実施の形態】
(実施形態1)
以下、本発明の一実施形態について説明する。
【0019】
図1に示すように、本実施形態にかかる波形辞書作成支援システム1は、音声分析部11、不足音素列検索部12、補充コーパス作成部13、音声情報保存部14、必須音素情報保存部15、コーパス蓄積部16を備えている。
【0020】
音声分析部11は、収録済みの音声データを入力し分析する。なお、この実施形態で入力される「音声データ」とは、収録済みの音声波形データ(例えばPCMデータ)とテキストデータとを含む。また、コーパス蓄積部16は、テキストコーパスを蓄積した大規模コーパスデータベースである。
【0021】
収録された音声データが入力されると、音声分析部11は、入力された音声データを分析することにより、音素情報を求める。この音素情報には、少なくとも、発声内容を示すラベル情報(音素ラベル)が含まれる。音声分析部11は、入力された音声波形データに分析結果の音素情報を付与し、音素単位で検索可能な形態の音声データとして、音声情報保存部14に保存する。
【0022】
不足音素列検索部12は、音声情報保存部14に格納された音声データに、任意の文章を読み上げるために必要な音素列が全て揃っているか否かを調べ、不足している音素列(以下、「不足音素列」と称する)を求める。具体的には、必須音素情報保存部15を参照することにより、音声情報保存部14に保存されている収録済み音声データに不足している音素列を検索する。必須音素情報保存部15には、少なくとも、任意の文章を合成するために必須である、日本語の全音節データの音素列が保存されている。不足音素列検索部12は、必須音素情報保存部15に保存されている音素列であって、かつ、音声情報保存部14に保存されている音声情報にはない音素列を検索し、検索された音素列を不足音素列として出力する。
【0023】
補充コーパス作成部13は、不足音素列検索部12で求められた不足音素列を含むコーパスを、コーパス蓄積部16から検索し、追加コーパス(単語や文章)として出力する。追加コーパスの出力は、印刷出力、ディスプレイへの表示、ファイルへの出力など、任意の形式で行えば良い。
【0024】
このように、本実施形態にかかる波形辞書作成支援システム1は、収録済みの音声データから不足音素列を検索し、その不足音素列を含むコーパス(テキストコーパス)を追加コーパスとして出力する。従って、出力された追加コーパスのテキストをナレータなどに読み上げさせて音声データを追加収録すれば、任意の文章を読み上げるために必要な全ての音素情報を、音声情報保存部14に収録することができる。
【0025】
本実施形態の波形辞書作成支援システム1の適用例を、図2に示す。図2に示すように、ユーザ(ナレータを含む、以下同じ)が音声を収録するための収録システム2から、収録済みの音声データ(音声波形データおよびテキストデータ)を波形辞書作成支援システム1へ入力する。そして、波形辞書作成支援システム1から追加コーパスが出力されると、ユーザは、出力された追加コーパスに従って収録システム2へ追加収録を行う。波形辞書作成支援システム1は、さらなる追加コーパスがないかを調べ、追加コーパスがないと判断されたら、波形辞書作成システム3へ、音声情報保存部14に蓄積された音声データや音声情報を出力する。波形辞書作成システム3は、これらの音声データや音声情報に基づき、波形辞書4を作成する。作成された波形辞書4は、音声合成システム5が任意のテキストから合成音声を作成する際に利用される。
【0026】
なお、図2に示した矢印は、各システムで生成されるデータが他のシステムでどのように利用されるかを表すものに過ぎず、システム間の定常的な接続状態を示すものではない。例えば、音声合成システム5の動作時に、波形辞書4は参照可能でなければならないが、収録システム2、波形辞書作成支援システム1、および波形辞書作成システム3については、波形辞書4および音声合成システム5に接続されている必要はない。
【0027】
ここで、本実施形態の波形辞書作成支援システム1の他の適用例を、図3に示す。図3の例では、ネットワーク6を介して、ユーザが収録データを送付する点において、図2に示した例と異なっている。このため、図3の例では、ネットワーク6と各システムとの間に送受信部7がさらに設けられた構成である。
【0028】
ユーザは、電話やVoIP(Voice over Internet Protocol)等を利用して音声データを送付する。送受信部7は、ネットワーク6から音声データを受信して、収録システム2に入力して収録する。なお、収録は必ずしもしなくても良い。収録システム2から、収録済みの音声データ(音声波形データおよび発話内容を示すテキストデータ)が波形辞書作成支援システム1へ入力されると、波形辞書作成支援システム1は追加コーパスを求めて送受信部7へ出力する。追加コーパスは送受信部7からネットワーク6を介してユーザへ送られる。ユーザは、追加コーパスを受信し、受信した追加コーパスに従って、電話やVoIP等を利用して収録システム2へ追加収録を行う。この処理を、波形辞書作成支援システム1がさらなる追加コーパスはないと判断するまで繰り返す。
【0029】
追加コーパスがなくなったら、波形辞書作成支援システム1の音声情報保存部14に蓄積された音声情報を、波形辞書作成システム3へ出力する。波形辞書作成システム3は、これらの音声情報に基づき、波形辞書4を作成する。これにより、ユーザがネットワーク6および送受信部7を介して任意のテキストを入力すると、音声合成システム5は、波形辞書4を利用して音声合成を行い、合成音を送受信部7およびネットワーク6を介してユーザに送付する。
【0030】
前記「音声データ」は、音声波形データおよび発話内容を表すテキストデータを含む。「音声情報」は、音声分析部11で分析した結果であり、少なくとも音素ラベルを含む。後述の実施形態で説明するように音声分析部11においてピッチマーク付与や周波数分析を行う場合は、音声情報にはピッチマークやフォルマントも含まれる。なお、上述の例では、音声情報保存部14に音声データと音声情報の両方を蓄積するものとしたが、音声データは必ずしも蓄積しなくても良い。
【0031】
なお、図2と同様に、図3に示す矢印も、各システムで生成されるデータが他のシステムでどのように利用されるかを表すものに過ぎず、必ずしも各システム間の定常的な接続状態を示すものではない。
【0032】
本実施形態の波形辞書作成支援システム1のさらに他の適用例を、図4に示す。図4に示す例では、ネットワーク6を介した収録システム2への音声収録、波形辞書作成支援システム1による追加コーパスの生成およびユーザへの送信、波形辞書作成システム3による波形辞書4の作成までは、図3に示した例と同様である。ただし、図4に示す例の場合、音声合成システム5はユーザの手元にあり、作成された波形辞書4は、ネットワーク6を介してユーザに送付される。ユーザが音声合成システム5に任意のテキストを入力すると、音声合成システム5は、送付された波形辞書4を利用して、合成音を作成し出力する。
【0033】
(実施形態2)
以下、本発明にかかる波形辞書作成支援システムの他の実施形態について、具体的な例をあげて説明する。
【0034】
図5に示すように、本実施形態の波形辞書作成支援システム21では、音声分析部11には自動ラベリング部11a、音声情報保存部14には音素ラベル保存部14a、不足音素列検索部12には音素列検索部12a、必須音素情報保存部15には必須音素列保存部15aが、それぞれ設けられている。
【0035】
まず、音声分析部11に、音声データとしてPCMデータとテキストデータとが入力されると、自動ラベリング部11aが音素ラベリングを行う。音素ラベリングの結果は、音声情報保存部14の音素ラベル保存部14aに保存される。
【0036】
例えば発声内容が「朝早く、バンガローに電報が届いた。」、「青山には、新しいお店がたくさんある。」のような場合には、音素ラベルの例は、
a-s-a-h-a-y-a-k-u b-a-n-g-a-r-o-o-n-i d-e-n-p-o-g-a t-o-d-o-i-t-a a-o-y-a-m-a-n-i-h-a a-t-a-r-a-sh-i-i-o-m-i-s-e-x-a t-a-k-u-s-a-n-a-r-u.
である。
【0037】
次に、不足音素列検索部12では必須音素情報保存部15の必須音素列保存部15aの情報を元にして、音声情報保存部14に保存されている音素情報(音素ラベル)に不足している音素列(不足音素列)を求める。必須音素情報保存部15には、任意の日本語文章を読み上げるために必要な、全音節データの音素列が保存されている。本実施形態の場合、必須音素列保存部15aに、例えば、
母音 ・・・・・・・・・ (1)
母音+母音 ・・・・・・・・・ (2)
子音+母音 ・・・・・・・・・ (3)
の全パターンが保持されている。
【0038】
さらに、上記の (1)〜(3)の3パターンに追加して、
母音+子音+母音 ・・・・・・・・・ (4)
の3音素の全てを保持することも好ましい。
【0039】
あるいは、別の例として、(1)〜(3)の3パターンに追加して、接続すると音が悪くなりやすい、
母音+半母音+母音 ・・・・・・・ (5)
母音+鼻音+母音 ・・・・・・・ (6)
母音+弾音+母音 ・・・・・・・ (7)
等のパターンを保持することも好ましい。
【0040】
例えば、(1)〜(4)を保持する場合は、
a i u e o n
k-a k-i k-u … r-a r-i …
a-k-a a-k-i a-k-u …i-k-a i-k-i i-k-u … o-w-u o-w-e o-w-o…という音素列が、必須音素列保存部15aに保存される。
【0041】
また、接続する際に異音や雑音混入の原因になりやすい音素列については、4、5音素連鎖の形式で必須音素列保存部15aに保持しておけば、さらに高品質な音声合成が可能となる点で望ましい。
【0042】
不足音素列検索部12の音素列検索部12aは、音声情報保存部14の音素ラベル保存部14aと必須音素情報保存部15の必須音素列保存部15aとを対比することにより、音素ラベル保存部14aに必須音素列の全てが存在しているかどうかを検索し、不足音素列を求める。
【0043】
補充コーパス作成部13は、実施形態1で説明したように、コーパス蓄積部16に蓄積されているコーパスの中から、不足音素列を含むコーパスを検索し、検索結果を「追加コーパス」として出力する。
【0044】
以上のように、本実施形態の波形辞書作成支援システム21によれば、所望の波形辞書を作成するための必須の条件を必須音素情報保存部15に登録しておけば、その条件を満たすために追加することが必要な音素列(不足音素列)を含むコーパスが「追加コーパス」として出力される。これにより、追加コーパスの探索を効率的に行うことができる。
【0045】
なお、本実施形態の波形辞書作成支援システム21の適用例は、実施形態1において図2〜図4を用いて説明したものと同じであるため、その説明は省略する。
【0046】
(実施形態3)
以下、本発明にかかる波形辞書作成支援システムの他の実施形態について、具体的な例をあげて説明する。
【0047】
図6に示すように、本実施形態にかかる波形辞書作成支援システム31では、音声分析部11には自動ラベリング部11aとピッチマーク付与部11b、音声情報保存部14には音素ラベル保存部14aとピッチマーク保存部14b、不足音素列検索部12には音素列検索部12a、音素長情報照合部12b、およびピッチ情報照合部12c、必須音素情報保存部15には必須音素列保存部15a、音素長保存部15b、およびピッチ情報保存部15cが、それぞれ設けられている。
【0048】
音声分析部11に、音声データとしてPCMデータおよびテキストデータが入力されると、自動ラベリング部11aが音素ラベリング(境界位置決定を含む)を行い、ピッチマーク付与部11bがピッチマーク付与を行う。なお、本実施形態では音声データとしてPCMデータを用いる例を示したが、音声データであればその形式は任意である。音素ラベルとピッチマークは、それぞれ、音声情報保存部14の音素ラベル保存部14aとピッチマーク保存部14bに保存される。
【0049】
ここで保存される音素ラベルの例を以下に示す。例えば図7に示すような音声波形の場合には、音素名とその音素境界は、時系列上のサンプリング位置を用いて、下記(表1)のように表すことができる。
【0050】
【表1】
Figure 0004286583
【0051】
また、この場合に保存されるピッチマークは、図8に示すように、各ピッチの位置になり、例えば下記のように表される。
【0052】
o: 154 211 266 326 383 440 498 555 612 667 720 760
m: 810 834 889 861 879 917 958 990 1128 1133
a: 1175 1210 1255 1295 1333 1380 1420 1459 1492 1533
z: 1571 1608 1642 1688 …

不足音素列検索部12では、音素列検索部12aが、実施形態2と同様に、音声情報保存部14の音素ラベル保存部14aと必須音素情報保存部15の必須音素列保存部15aとを対比することにより、音素ラベル保存部14aに必須音素列の全てが存在しているかどうかを検索する。これにより、必須音素列保存部15aに存在する音素列であって、かつ、音素ラベル保存部14aに存在しない音素列を、不足音素列と判断する。
【0053】
また、音素長情報照合部12bは、音声情報保存部14の音素ラベル保存部14aに保存されている音素ラベルから、収録音声データの音素列の音素長を求め、求めた音素長が必須音素情報保存部15の音素長保存部15bにある合成時の音素長データより極端に短い場合(例えば長さが1/2以下の場合)は、当該音素長条件を満たす音素列が不足していると判断する。なお、音素長保存部15bに保存されている情報例としては、例えば以下のような、各音素の合成時の音素長のリストがあげられる。
【0054】
a-w-a: a:110msec w:40msec a:100msec
s-a: s:90msec a:100msec
a-i-a: a:110msec i:80msec a:100msec

また、ピッチ情報照合部12cは、音声情報保存部14のピッチマーク保存部14bに保存されているピッチマークから収録音声データのピッチを求め、求めたピッチが、必須音素情報保存部15のピッチ情報保存部15cにある合成時に必要なピッチとの間に大きな隔たりがある場合(例えば50%以上のピッチ差がある場合)は、当該ピッチ条件を満たす音素列が不足していると判断する。なお、ピッチ情報保存部15cに保存されている情報例としては、各PCMデータのピッチ情報から求められるベースピッチがあげられる。
【0055】
不足音素列検索部12は、音素列検索部12a、音素長情報照合部12b、ピッチ情報照合部12cのそれぞれで求められた不足音素列の和集合を、補充コーパス作成部13に出力する。
【0056】
補充コーパス作成部13は、実施形態1で説明したように、コーパス蓄積部16に蓄積されているコーパスの中から、不足音素列を含むコーパスを検索し、検索結果を「追加コーパス」として出力する。
【0057】
以上のように、本実施形態の波形辞書作成支援システム31によれば、音素列、音素長、ピッチに関する条件を全て満たすために補充すべき音素列が、不足音素列として検索され、その不足音素列を含むコーパスが、追加コーパスとして出力される。従って、出力された追加コーパスに基づいて追加収録を行えば、音素列、音素長、ピッチに関する条件を全て満たす波形辞書を作成することができ、この波形辞書を用いれば、より高品質な音声合成が可能となる。
【0058】
なお、本実施形態の波形辞書作成支援システム31の適用例は、実施形態1において図2〜図4を用いて説明したものと同じであるため、その説明は省略する。
【0059】
(実施形態4)
以下、本発明にかかる波形辞書作成支援システムの他の実施形態について、具体的な例をあげて説明する。
【0060】
図9に示すように、本実施形態にかかる波形辞書作成支援システム41では、音声分析部11には自動ラベリング部11a、ピッチマーク付与部11b、および周波数解析部11cが、音声情報保存部14には音素ラベル保存部14a、ピッチマーク保存部14b、およびフォルマント保存部14cが、不足音素列検索部12には音素列検索部12a、音素長情報照合部12b、ピッチ情報照合部12c、およびフォルマント情報照合部12dが、必須音素情報保存部15には必須音素列保存部15a、音素長保存部15b、ピッチ情報保存部15c、およびフォルマント情報保存部15dが、それぞれ設けられている。
【0061】
音声分析部11に音声データとしてPCMデータとテキストデータが入力されると、音声分析部11の自動ラベリング部11aおよびピッチマーク付与部11bは、実施形態3で説明したように音素ラベルおよびピッチマークの付与を行う。さらに、周波数解析部11cが、PCMデータの周波数解析を行い、各音素のフォルマント情報を、音声情報保存部14のフォルマント保存部14cに保存する。
【0062】
不足音素列検索部12では、音素列検索部12a、音素長情報照合部12b、ピッチ情報照合部12cが、実施形態3で説明したように、不足音素列をそれぞれ求める。さらに、フォルマント情報照合部12dが、フォルマント情報保存部15dのデータと、収録データのフォルマントとの照合を行い、大きな隔たりがないかを照合する。
【0063】
フォルマント情報保存部15dの保存データ例としては、各母音の第一フォルマントおよび第二フォルマントがあげられる。例えば、「i(い)」という音素の第一フォルマントの平均値Fi1と、第二フォルマントの平均値Fi2とを、フォルマント情報保存部15dに保存しておく。この場合、フォルマントの照合は、例えば以下のように行う。周波数解析部11cが、前述のようにPCMデータの周波数解析を行い、各音素の第一フォルマントfi1と第二フォルマントfi2とをフォルマント保存部14cに保存する。そして、フォルマント情報照合部12dが、フォルマント保存部14cに保存されている各音素列ごとに、第一フォルマントおよび第二フォルマントの平均値を求める。例えば、ある音素列中の「i」という音素の第一フォルマントfi1および第二フォルマントfi2と、フォルマント情報保存部15dの平均フォルマントFi1,Fi2との差diffを、例えば下記式により求める。
【0064】
diff = ( Fi1 − fi1 2 +( Fi2 − fi2 2
各音素についてdiffの閾値を設定しておき、閾値を超えた場合は、当該音素列を不足音素列と判断する。
【0065】
不足音素列検索部12は、音素列検索部12a、音素長情報照合部12b、ピッチ情報照合部12c、フォルマント情報照合部12dのそれぞれで求められた不足音素列の和集合を、補充コーパス作成部13に出力する。
【0066】
補充コーパス作成部13は、実施形態1で説明したように、コーパス蓄積部16に蓄積されているコーパスの中から、不足音素列を含むコーパスを検索し、検索結果を「追加コーパス」として出力する。
【0067】
以上のように、本実施形態の波形辞書作成支援システム41によれば、音素列、音素長、ピッチ、フォルマントに関する条件を全て満たすために補充すべき音素列が、不足音素列として検索され、その不足音素列を含むコーパスが、追加コーパスとして出力される。従って、出力された追加コーパスに基づいて追加収録を行えば、音素列、音素長、ピッチ、フォルマントに関する条件を全て満たす波形辞書を作成することができ、この波形辞書を用いれば、さらに高品質な音声合成が可能となる。
【0068】
なお、本実施形態の波形辞書作成支援システム41の適用例は、実施形態1において図2〜図4を用いて説明したものと同じであるため、その説明は省略する。
【0069】
(実施形態5)
以下、本発明にかかる波形辞書作成支援システムの他の実施形態について、具体的な例をあげて説明する。
【0070】
図10に示すように、本実施形態にかかる波形辞書作成支援システム51は、実施形態4にかかる波形辞書作成支援システム41と同様に、音声分析部11には自動ラベリング部11a、ピッチマーク付与部11b、および周波数解析部11cが、音声情報保存部14には音素ラベル保存部14a、ピッチマーク保存部14b、およびフォルマント保存部14cが、不足音素列検索部12には音素列検索部12a、音素長情報照合部12b、ピッチ情報照合部12c、およびフォルマント情報照合部12dが、必須音素情報保存部15には必須音素列保存部15a、音素長保存部15b、ピッチ情報保存部15c、およびフォルマント情報保存部15dが、それぞれ設けられている。
【0071】
ただし、本実施形態にかかる波形辞書作成支援システム51は、不足音素列検索部12に品質等級を表すデータが入力され、不足音素列検索部12が入力された品質等級のレベルに応じて不足音素列の検索を行う点において、実施形態4と異なる。
【0072】
入力される品質の等級は、数値や記号等によって表され、例えば、
1:音声品質最高レベル
2:音声品質中級レベル
3:音声品質最低レベル
のように、合成音声の品質として求められるレベルと対応付けられる。また、合成音声について求められる品質のレベルが高くなるほど必要となる波形辞書のサイズも大きくなるので、前記の品質等級「3」、「2」、「1」の順に、不足音素列検索部12が不足音素列の検索をより綿密に行うこととなる。
【0073】
例えば、不足音素列検索部12に、品質等級「3」が入力された場合は、不足音素列検索部12の音素列検索部12aは、必須音素情報保存部15の必須音素列保存部15aの「母音」、「母音+母音」、「子音+母音」を満足するために必要な不足音素列の検索を行う。
【0074】
また、品質等級「1」が入力された場合には、不足音素列検索部12の音素列検索部12aは、例えば、必須音素情報保存部15の必須音素列保存部15aの1音素(「母音」)〜4、5音素連鎖の必須音素も満足するために必要な不足音素列の検索を行い、更に、音素長、ピッチ情報、フォルマント情報を満足する最高品質を提供するために補充することが必要な不足音素列の検索を行う。
【0075】
なお、品質等級「2」が入力された場合は、不足音素列検索部12の音素列検索部12aは、例えば、必須音素情報保存部15の必須音素列保存部15aの1音素(「母音」)〜4、5音素連鎖の必須音素も満足するために必要な不足音素列のみの検索を行うなど、上述の品質等級「1」と品質等級「2」との中間的なレベルで不足音素列を検索する。
【0076】
不足音素列検索部12は、上述のように検索された不足音素列を、補充コーパス作成部13に出力する。補充コーパス作成部13は、実施形態1で説明したように、コーパス蓄積部16に蓄積されているコーパスの中から、不足音素列を含むコーパスを検索し、検索結果を「追加コーパス」として出力する。
【0077】
以上のように、本実施形態の波形辞書作成支援システム51によれば、入力された品質等級に応じた綿密さで不足音素列を検索し、検索結果として得られた不足音素列を含むコーパスが追加収録用のテキストデータ(追加コーパス)として出力される。これにより、求められる品質等級が高くなるほど、不足音素列をきめ細かく検索することとなるので、より自然な合成音声を得るための波形辞書を作成することが可能となる。一方、例えばコストや記憶容量などとの兼ね合いによって品質等級が低くても良い場合は、求められる品質等級を満足するために必要な最小限の不足音素列を検索することにより、波形辞書のサイズを小さく抑え、コストや記憶容量を節約することができる。
【0078】
なお、本実施形態の波形辞書作成支援システム51の適用例は、実施形態1において図2〜図4を用いて説明したものと同じであるため、その説明は省略する。
【0079】
(実施形態6)
以下、本発明にかかる波形辞書作成支援システムの他の実施形態について、具体的な例をあげて説明する。
【0080】
なお、本実施形態では、補充コーパス作成部13およびコーパス蓄積部16の具体的な構成例についてのみ説明するが、音声分析部11、不足音素列検索部12、音声情報保存部14、必須音素情報保存部15の構成は、本発明の目的を達成できる範囲であれば任意の構成とすることができる。なお、前述の実施形態2〜5のそれぞれで説明した態様の音声分析部11、不足音素列検索部12、音声情報保存部14、必須音素情報保存部15と、本実施形態で説明する補充コーパス作成部13およびコーパス蓄積部16とを組み合わせることができることは、言うまでもない。
【0081】
図11に示すように、本実施形態の波形辞書作成支援システム61では、コーパス蓄積部16に、テキストコーパスが分野別に収集され、分野別コーパス16a〜16dとして保存されている。なお、分野別コーパスの例としては、図11に示した「金融」、「官公庁」、「一般」、「自然会話調」等に限定されず、音声合成システム5の使用環境等に応じた任意の分野のコーパスを用いればよい。コーパス16a〜16dは、各々の分野で使用される定型文章を多数含んでいる。補充コーパス作成部13は、ユーザにより入力された分野名に基づき、コーパス蓄積部16における該当する分野のコーパスから、不足音素列を含むコーパスを検索する。
【0082】
コーパス蓄積部16に保存されている情報の例としては、
・テキスト文章、もしくは音素列、
・発話時に予想されるピッチ情報、
等があげられる。
【0083】
具体的には、金融コーパスのテキスト文章としては、
・「預金残高をご確認下さい。」
・「通帳の口座番号をご確認下さい。」
・「振り込み先の住所、氏名を入力して下さい。」
等があげられる。
【0084】
また、単語としては、
・「一円」、「二円」、…「千円」、「二千円」、…「一万円」、…(金額読み上げ)
・「預金」
・「通帳」
等があげられる。
【0085】
また、自然会話調のテキスト文章としては、
・「おはよう。」
・「元気?」
・「今日はいい天気だね。」
・「明日もし雨が降ったら、どこに行く?」
等のような、自然な会話文があげられる。
【0086】
このように、不足音素列を含む追加コーパスを、分野別に蓄積されたコーパスから選択することにより、音声合成システム5の使用環境に適したより自然な合成音声を得るための波形辞書4を作成することが可能となる。
【0087】
なお、図11に示した構成の変形例として、図12に示すように、音声分析部11が、収録済み音声データの分析結果である音素列(テキストデータ)を、音声情報保存部14のみならず、コーパス蓄積部16にも保存するようにしても良い。
【0088】
なお、本実施形態の波形辞書作成支援システム61の適用例は、実施形態1において図2〜図4を用いて説明したものと同じであるため、その説明は省略する。
【0089】
(実施形態7)
本発明にかかる波形辞書作成支援システムの他の実施形態について、図面を参照しながら説明する。
【0090】
本実施形態の波形辞書作成支援システムは、補充コーパス作成部およびコーパス蓄積部が、前述の各実施形態と異なっている。図13に示すように、本実施形態の波形辞書作成支援システム71は、実施形態1等で説明した補充コーパス作成部13およびコーパス蓄積部16の代わりに、補充コーパス作成部23および音声コーパス蓄積部26を備えている。
【0091】
なお、本実施形態では、補充コーパス作成部23およびコーパス蓄積部26についてのみ説明するが、音声分析部11、不足音素列検索部12、音声情報保存部14、必須音素情報保存部15の構成は、本発明の目的を達成できる範囲であれば任意の構成とすることができる。なお、前述の実施形態2〜5のそれぞれで説明した態様の音声分析部11、不足音素列検索部12、音声情報保存部14、必須音素情報保存部15と、本実施形態で説明する補充コーパス作成部23およびコーパス蓄積部26とを組み合わせることができることは、言うまでもない。
【0092】
本実施形態の波形辞書作成支援システム71では、音声コーパス蓄積部26に、音素ラベル、ピッチ等の波形データの情報を表す情報と共に、音波形データが蓄積されている。補充コーパス作成部23は、不足音素列検索部12で求められた不足音素列を含むコーパスを、音声コーパス蓄積部26から検索し、検索結果を追加音声データとして出力する。
【0093】
すなわち、実施形態1〜6にかかる波形辞書作成支援システムでは、追加コーパスとしてテキストが出力されるようになっており、そのテキストに従ってユーザが追加収録を行う必要があった。これに対して、本実施形態にかかる波形辞書作成支援システム71では、追加すべき音声データが、音声コーパス蓄積部26に蓄積されている音声コーパスから自動的に作成されるので、ユーザは追加収録を行う必要がないという利点がある。
【0094】
図14に、本実施形態の波形辞書作成支援システム71の適用例を示す。図14に示すように、波形辞書作成支援システム71から、音声情報保存部14に保存された音声データと、補充コーパス作成部23で作成される追加音声データとを、波形辞書作成システム3へ入力する。波形辞書作成システム3は、入力された音声データに基づき、波形辞書4を作成する。音声合成システム5は、この波形辞書4を用いて音声合成を行う。
【0095】
なお、図14に示した矢印は、各システムで生成されるデータが他のシステムでどのように利用されるかを表すものに過ぎず、システム間の定常的な接続状態を示すものではない。例えば、音声合成システム5の動作時に、波形辞書4は参照可能でなければならないが、波形辞書作成支援システム71や波形辞書作成システム3については、波形辞書4および音声合成システム5に接続されている必要はない。
【0096】
(実施形態8)
本発明にかかる波形辞書作成支援システムの他の実施形態について、図面を参照しながら説明する。なお、本実施形態は、実施形態7で説明した波形辞書作成支援システムのより具体的な例であるので、同様の機能を有する部分には同じ部材番号を付与し、詳細な説明は省略する。
【0097】
図15に示すように、本実施形態にかかる波形辞書作成支援システム81における音声分析部11、音声情報保存部14、不足音素列検索部12、必須音素情報保存部15の構成および機能は、図9に示す実施形態4と同様であるため、その説明を省略する。
【0098】
音声コーパス蓄積部26には、様々な話者による、波形データ、音素ラベル、ピッチマーク、フォルマントの情報が、波形データ保存部26a、音素ラベル保存部26b、ピッチマーク保存部26c、フォルマント保存部26dに、それぞれ保存されている。
【0099】
補充コーパス作成部23には、不足音素列検索部12から、例えば実施形態4で説明したように、(1)音素列そのものが音声情報保存部14に存在しないもの、(2)音声情報保存部14に保存されている音素列のうち、音素長、ピッチ、フォルマントのいずれかが所定の条件を満たさないもの、の和集合が不足音素列として入力される。そこで、補充コーパス作成部23は、音声コーパス蓄積部26から、不足音素列と音素ラベルが同じで、かつ、音素長、ピッチ、フォルマントの一致度の高いものを選択し、追加音声データとして出力する。
【0100】
波形辞書作成システム3には、音声情報保存部14に保存されている音声データ(音声波形データと、その音素ラベルやピッチマーク等)と、補充コーパス作成部23で作成された追加音声データとが入力される。波形辞書作成システム3は、これらに基づき、波形辞書4を作成する。この波形辞書4を用いることで、どのような文章でも読み上げることのできる音声合成システム5が実現される。
【0101】
(実施形態9)
本発明にかかる波形辞書作成支援システムの他の実施形態について、図面を参照しながら説明する。
【0102】
図16に示すように、本実施形態にかかる波形辞書作成支援システム91は、入力されるデータが音声波形データ(例えばPCMデータ)のみであり、音声分析部11の全段に音声認識を行う音声認識部17をさらに備えた点において、図1に示す実施形態1にかかる構成と異なっている。
【0103】
PCMデータが入力されると、音声認識部17は、PCMデータの音声認識を行い、発話内容を出力する。なお、音声認識部17による音声認識の手法については、公知の任意の手法を用いることが可能であるため、詳しい説明は省略する。
【0104】
音声分析部11は、PCMデータと発話内容から、少なくとも発声内容を示すラベル情報を付与し、音素単位で検索可能な形態の音声データとして、音声情報保存部14に保存する。
【0105】
不足音素列検索部12、必須音素情報保存部15、補充コーパス作成部13、コーパス蓄積部16の構成および機能については、前述の各実施形態で説明した構成および機能を適用することが可能である。
【0106】
なお、図16に示した補充コーパス作成部13およびコーパス蓄積部16の代わりに、実施形態7および8で説明した補充コーパス作成部23および音声コーパス蓄積部26を備えた構成とすることも可能である。
【0107】
また、本実施形態の波形辞書作成支援システム91の適用例は、収録システム2から波形辞書作成支援システム91へ入力されるデータがPCMデータである点を除いては、実施形態1において図2〜図4を用いて説明したものと同様であるため、その詳しい説明は省略する。
【0108】
以上のように、本実施形態にかかる波形辞書作成支援システム91では、収録システム2によって収録された音声のPCMデータだけを用いて波形辞書4を作成することが可能である。
【0109】
(実施形態10)
本発明の一実施形態として、本発明にかかる波形辞書作成支援システムをコンピュータで実現するためのプログラムの一例を、図面を参照しながら説明する。
【0110】
本実施形態にかかるプログラムは、図17に示すように、音声データを入力し(ステップS1)、入力された音声データを分析して音素情報を求め(ステップS2)、音素単位で検索可能な形態の音声データとして音声情報保存ファイルへ保存する(ステップS3)。次に、任意の日本語文章を読み上げるために必須とされる音素または音素列の条件を、当該条件があらかじめ保存された必須音素情報保存ファイルから入力する(ステップS4)。そして、ステップS4で入力された条件を満たすために音声情報保存ファイルに不足している音素列を検索し、検索結果を不足音素列として出力する(ステップS5)。続いて、大量のコーパスを蓄積したコーパス蓄積ファイルから、ステップS5で求められた不足音素列を含むコーパスを検索し、検索結果を追加コーパスとして出力する(ステップS6)。追加コーパスの出力は、印刷出力、ディスプレイへの表示、ファイルへの出力など、任意の形式で行えば良い。
【0111】
なお、ステップS2、ステップS5、ステップS6の処理については、上述の各実施形態で説明した音声分析部11、不足音素列検索部12、補充コーパス作成部13(または23)の処理内容を適用できるが、その詳細な説明は省略する。
【0112】
本実施形態にかかるプログラムは、CD−ROM等の任意の可搬型記録媒体を介して、あるいは、無線または有線の通信回線を介して、コンピュータに読み込まれ、実行されることにより、当該コンピュータを上述の各実施形態で説明した波形辞書作成支援システムとして機能させることとなる。
【0113】
(付記1) 音声波形データと当該音声の発話内容を表すテキストデータとを含む音声データを入力して分析し、当該音声データの音素情報を求める音声分析部と、
前記音声分析部により求められた音素情報を少なくとも含む音声情報を保存する音声情報保存部と、
波形辞書に必須な音素情報の条件を保存する必須音素情報保存部と、
前記必須音素情報保存部に保存されている条件を満たすために前記音声情報保存部に保存されている音素情報に不足している音素列を検索し、検索結果として得られた音素列を不足音素列として出力する不足音素列検索部と、
少なくとも前記必須音素情報の全てを含むコーパスが蓄積されたコーパス蓄積部と、
前記コーパス蓄積部から、前記不足音素列検索部より出力された不足音素列を含むコーパスを検索し、検索結果として得られたコーパスを追加コーパスとして出力する補充コーパス作成部とを備えたことを特徴とする波形辞書作成支援システム。
【0114】
(付記2) 入力された音声波形データから発話内容を認識し、認識した発話内容をテキストデータとして前記音声波形データと共に前記音声分析部へ出力する音声認識部をさらに備えた、付記1に記載の波形辞書作成支援システム。
【0115】
(付記3) 前記音声分析部が、入力された音声波形データに対して、音素ラベル付与、ピッチマーク付与、およびフォルマント検出から選ばれる少なくともいずれか一つを行った結果を、前記音素情報として前記音声情報保存部に保存し、
前記必須音素情報保存部に、波形辞書に必須な音素列に加えて、前記音声情報保存部に保存されている音素情報に関する条件が保存され、
前記不足音素列検索部が、前記音声情報保存部に保存されている音素列であっても、前記必須音素情報保存部における前記条件を満たさない場合は、当該音素列を不足音素列として出力する、付記1または2に記載の波形辞書作成支援システム。
【0116】
(付記4) 前記不足音素列検索部は、更に、合成する音質の品質等級を入力し、入力された品質等級に応じて前記必須音素情報保存部に保存された条件の中から満たすべき条件を決定し、決定した条件に応じて不足音素列を検索する、付記1または2に記載の波形辞書作成支援システム。
【0117】
(付記5) 前記コーパス蓄積部が、分野または用途別に蓄積されたコーパス保存部を有し、
前記補充コーパス作成部は、使用する分野または用途情報を入力し、入力された分野または用途情報に応じたコーパス保存部から追加コーパスを検索する、付記1〜3のいずれか一項に記載の波形辞書作成支援システム。
【0118】
(付記6) 入力された音声波形データと当該音声の発話内容を表すテキストデータとを含む音声データを分析し、当該音声データの音素情報を求めるステップと、
前記音声分析部により求められた音素情報を少なくとも含む音声情報を音声情報保存ファイルへ保存するステップと、
波形辞書に必須な音素情報の条件を入力し、当該条件を満たすために前記音声情報保存ファイルに保存されている音素情報に不足している音素列を検索し、検索結果として得られた音素列を不足音素列として出力するステップと、
少なくとも前記必須音素情報の全てを含むコーパスが蓄積されたコーパス蓄積ファイルから、前記不足音素列を含むコーパスを検索し、検索結果として得られたコーパスを追加コーパスとして出力するステップとを含む処理をコンピュータに実行させることを特徴とするコンピュータプログラム。
【0119】
【発明の効果】
以上のように、本発明によれば、収録済みの音声データがある場合に、所望の波形辞書を作成するために補充すべき音声データ(補充コーパス)を効率的に探索することが可能な波形辞書作成支援システムを提供することが可能となる。
【図面の簡単な説明】
【図1】 本発明の実施形態1にかかる波形辞書作成支援システムの概略構成を示すブロック図
【図2】 本発明の実施形態1にかかる波形辞書作成支援システムの適用例を示すブロック図
【図3】 本発明の実施形態1にかかる波形辞書作成支援システムの他の適用例を示すブロック図
【図4】 本発明の実施形態1にかかる波形辞書作成支援システムのさらに他の適用例を示すブロック図
【図5】 本発明の実施形態2にかかる波形辞書作成支援システムの概略構成を示すブロック図
【図6】 本発明の実施形態3にかかる波形辞書作成支援システムの概略構成を示すブロック図
【図7】 音素ラベリングの例を示す説明図
【図8】 ピッチマーク付与の例を示す説明図
【図9】 本発明の実施形態4にかかる波形辞書作成支援システムの概略構成を示すブロック図
【図10】 本発明の実施形態5にかかる波形辞書作成支援システムの概略構成を示すブロック図
【図11】 本発明の実施形態6にかかる波形辞書作成支援システムの概略構成を示すブロック図
【図12】 本発明の実施形態6にかかる波形辞書作成支援システムの変形例を示すブロック図
【図13】 本発明の実施形態7にかかる波形辞書作成支援システムの概略構成を示すブロック図
【図14】 本発明の実施形態7にかかる波形辞書作成支援システムの適用例を示すブロック図
【図15】 本発明の実施形態8にかかる波形辞書作成支援システムの概略構成を示すブロック図
【図16】 本発明の実施形態9にかかる波形辞書作成支援システムの概略構成を示すブロック図
【図17】 本発明の実施形態10にかかるコンピュータプログラムの概略動作を示すフローチャート
【符号の説明】
1 波形辞書作成支援システム
2 収録システム
3 波形辞書作成システム
4 波形辞書
5 音声合成システム
6 ネットワーク
7 送受信部
11 音声分析部
11a 自動ラベリング部
11b ピッチマーク付与部
11c 周波数解析部
12 不足音素列検索部
12a 音素列検索部
12b 音素長情報照合部
12c ピッチ情報照合部
12d フォルマント情報照合部
13 補充コーパス作成部
14 音声情報保存部
14a 音素ラベル保存部
14b ピッチマーク保存部
14c フォルマント保存部
15 必須音素情報保存部
15a 必須音素列保存部
15b 音素長保存部
15c ピッチ情報保存部
15d フォルマント情報保存部
16 コーパス蓄積部
17 音声認識部
23 補充コーパス作成部
26 音声コーパス蓄積部
21 波形辞書作成支援システム
31 波形辞書作成支援システム
41 波形辞書作成支援システム
51 波形辞書作成支援システム
61 波形辞書作成支援システム
71 波形辞書作成支援システム
81 波形辞書作成支援システム
91 波形辞書作成支援システム

Claims (5)

  1. 音声波形データと当該音声の発話内容を表すテキストデータとを含む音声データを入力して分析し、当該音声データの音素情報を求める音声分析部と、
    前記音声分析部により求められた音素情報を少なくとも含む音声情報を保存する音声情報保存部と、
    波形辞書に必須な音素情報の条件を保存する必須音素情報保存部と、
    前記必須音素情報保存部に保存されている条件を満たすために前記音声情報保存部に保存されている音素情報に不足している音素列を検索し、検索結果として得られた音素列を不足音素列として出力する不足音素列検索部と、
    少なくとも前記必須音素情報の全てを含むコーパスが蓄積されたコーパス蓄積部と、
    前記コーパス蓄積部から、前記不足音素列検索部より出力された不足音素列を含むコーパスを検索し、検索結果として得られたコーパスを追加コーパスとして出力する補充コーパス作成部とを備えたことを特徴とする波形辞書作成支援システム。
  2. 入力された音声波形データから発話内容を認識し、認識した発話内容をテキストデータとして前記音声波形データと共に前記音声分析部へ出力する音声認識部をさらに備えた、請求項1に記載の波形辞書作成支援システム。
  3. 前記不足音素列検索部は、更に、合成する音質の品質等級を入力し、入力された品質等級に応じて前記必須音素情報保存部に保存された条件の中から満たすべき条件を決定し、決定した条件に応じて不足音素列を検索する、請求項1または2に記載の波形辞書作成支援システム。
  4. 前記コーパス蓄積部が、分野または用途別に蓄積されたコーパス保存部を有し、
    前記補充コーパス作成部は、使用する分野または用途情報を入力し、入力された分野または用途情報に応じたコーパス保存部から追加コーパスを検索する、請求項1〜3のいずれか一項に記載の波形辞書作成支援システム。
  5. 入力された音声波形データと当該音声の発話内容を表すテキストデータとを含む音声データを分析し、当該音声データの音素情報を求めるステップと、
    前記音声分析部により求められた音素情報を少なくとも含む音声情報を音声情報保存ファイルへ保存するステップと、
    波形辞書に必須な音素情報の条件を入力し、当該条件を満たすために前記音声情報保存ファイルに保存されている音素情報に不足している音素列を検索し、検索結果として得られた音素列を不足音素列として出力するステップと、
    少なくとも前記必須音素情報の全てを含むコーパスが蓄積されたコーパス蓄積ファイルから、前記不足音素列を含むコーパスを検索し、検索結果として得られたコーパスを追加コーパスとして出力するステップとを含む処理をコンピュータに実行させることを特徴とするコンピュータプログラム。
JP2003137624A 2003-05-15 2003-05-15 波形辞書作成支援システムおよびプログラム Expired - Fee Related JP4286583B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003137624A JP4286583B2 (ja) 2003-05-15 2003-05-15 波形辞書作成支援システムおよびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003137624A JP4286583B2 (ja) 2003-05-15 2003-05-15 波形辞書作成支援システムおよびプログラム

Publications (2)

Publication Number Publication Date
JP2004341226A JP2004341226A (ja) 2004-12-02
JP4286583B2 true JP4286583B2 (ja) 2009-07-01

Family

ID=33527248

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003137624A Expired - Fee Related JP4286583B2 (ja) 2003-05-15 2003-05-15 波形辞書作成支援システムおよびプログラム

Country Status (1)

Country Link
JP (1) JP4286583B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4775119B2 (ja) * 2006-06-01 2011-09-21 沖電気工業株式会社 コーパス設計装置
JP4895759B2 (ja) * 2006-10-25 2012-03-14 三洋電機株式会社 音声メッセージ出力装置
JP2013072903A (ja) 2011-09-26 2013-04-22 Toshiba Corp 合成辞書作成装置および合成辞書作成方法

Also Published As

Publication number Publication date
JP2004341226A (ja) 2004-12-02

Similar Documents

Publication Publication Date Title
US10991360B2 (en) System and method for generating customized text-to-speech voices
US7716052B2 (en) Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US8825486B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US7124083B2 (en) Method and system for preselection of suitable units for concatenative speech
CN102549652B (zh) 信息检索装置
US8719028B2 (en) Information processing apparatus and text-to-speech method
US20110131038A1 (en) Exception dictionary creating unit, exception dictionary creating method, and program therefor, as well as speech recognition unit and speech recognition method
US20090254349A1 (en) Speech synthesizer
US8914291B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US20080120093A1 (en) System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device
US8315869B2 (en) Speech recognition apparatus, speech recognition method, and recording medium storing speech recognition program
EP2595144B1 (en) Voice data retrieval system and program product therefor
US20140236597A1 (en) System and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis
JP4286583B2 (ja) 波形辞書作成支援システムおよびプログラム
JP3911178B2 (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
EP1632932B1 (en) Voice response system, voice response method, voice server, voice file processing method, program and recording medium
EP1589524B1 (en) Method and device for speech synthesis
JP2003150185A (ja) 音声合成システムとその方法及びそれを実現するためのプログラム
JP2001331191A (ja) 音声合成装置および音声合成方法、携帯端末器、並びに、プログラム記録媒体
JP4787686B2 (ja) テキスト選択装置、その方法、そのプログラム、及びその記録媒体
JP2004272134A (ja) 音声認識装置及びコンピュータプログラム
CN117043741A (zh) 信息处理装置、信息处理方法和信息处理程序
JP4206230B2 (ja) 音声合成用データ削減方法、音声合成用データ削減装置および音声合成用データ削減プログラム
JP4297496B2 (ja) 音声合成方法及びその装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050902

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080403

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090319

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090325

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130403

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140403

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees