JP5029884B2 - 韻律生成装置、韻律生成方法、および、韻律生成プログラム - Google Patents

韻律生成装置、韻律生成方法、および、韻律生成プログラム Download PDF

Info

Publication number
JP5029884B2
JP5029884B2 JP2007135847A JP2007135847A JP5029884B2 JP 5029884 B2 JP5029884 B2 JP 5029884B2 JP 2007135847 A JP2007135847 A JP 2007135847A JP 2007135847 A JP2007135847 A JP 2007135847A JP 5029884 B2 JP5029884 B2 JP 5029884B2
Authority
JP
Japan
Prior art keywords
prosody
pattern
speech
extraction
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007135847A
Other languages
English (en)
Other versions
JP2008292587A (ja
Inventor
伸之 片江
健太郎 村瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007135847A priority Critical patent/JP5029884B2/ja
Publication of JP2008292587A publication Critical patent/JP2008292587A/ja
Application granted granted Critical
Publication of JP5029884B2 publication Critical patent/JP5029884B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、任意のテキストと、このテキストの内容を読み上げた人間の音声とを受け付け、受け付けた任意のテキストおよび人間の音声に基づいて、韻律パターンを生成する韻律生成装置、韻律生成方法、および、韻律生成プログラムに関する。
近年、テキストを音声に変換して出力する音声合成技術が各種のシステムあるいは装置に用いられている。例えば、IVR(自動音声応答:Interactive Voice Response)システム、車載情報端末、携帯電話での操作方法ガイダンスやメールの読み上げ、視覚障害者・発話障害者の支援システムなどである。このような音声合成技術においては、現状、人間の発声並みに自然で、表現力豊かな合成音声を生成することは困難である。
すなわち、合成音声の韻律は、一般に、テキストにおける単語の読みや品詞を解析する形態素解析、文節や係り受けの解析といった言語解析に基づき、アクセントの設定、イントネーションの設定、ポーズや話速の設定などを経て決定される。しかしながら、現状の処理技術では、文章の意味や前後の文脈を考慮した解析を、人間のように正確に行うことは困難で、解析結果に誤りが含まれることがある。このため、音声合成技術により生成された合成音声は、人間の発声と比較して、声の高さ、イントネーション、リズムなどの喋り方を決める韻律が不自然な箇所が含まれることがある。
そこで、合成音声の韻律の品質を高める方法として、予め合成音声するテキストが決まっている場合に、人間の発声から音声韻律パターンを抽出し、抽出した音声韻律パターンをそのまま用いて合成音声を生成する方法が知られている(例えば、特許文献1〜4参照)。この方法では、人間の発声とその音声韻律パターンの抽出作業が予め必要となるが、人間の発声から抽出された音声韻律パターンを用いて合成音声を生成するので、人間の発声並みに自然で、表現力豊かな合成音声を生成することができる。
特開平10−153998号公報 特開平9−292897号公報 特開平11−143483号公報 特開平7−140996号公報
しかしながら、上記従来の方法では、人間の発声から抽出された音声韻律パターンの抽出精度が低い場合、すなわち、音声韻律パターンの抽出誤りが生じている場合、韻律が不自然な合成音声になるという問題を生じる。
具体的には、人間の発声から音声韻律パターンを抽出するためには、人間の発声中の各音素における開始点と終了点を検出する音素ラベリング技術、人間の発声中の各時刻におけるピッチを検出するピッチ抽出技術などが必要である。これらの技術には様々な優れた方式が開発されているが、人間の発声は非常に多様で不規則であることから、100%の精度で音声韻律パターンを抽出することは不可能である。このため、ユーザが、GUI装置などを用いて、音声韻律パターンの抽出誤りを修正する必要がある。この作業は、音声に関する専門的な知識を必要とし、かつ、手間と時間がかかる。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、人間の発声から抽出された音声韻律パターンの抽出誤りを、人間の発声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することにより、修正韻律パターンを生成することが可能な韻律生成装置、韻律生成方法、および、韻律生成プログラムを提供することにある。
上記目的を達成するために本発明における韻律生成装置は、任意のテキストが入力されるテキスト入力部と、前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理部と、前記表音文字列データ、および、韻律生成規則に基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成部と、前記テキストを読み上げた人間の音声を音声データに変換する音声入力部と、前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出部と、前記音声韻律抽出部が前記音声データから前記音声韻律パターンを抽出する際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出部による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出部による抽出の信頼性が低いパターンと判定する信頼度判定部と、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が低いパターンの代わりに、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターン、および、前記規則韻律パターンに基づいて修正韻律パターンを生成する修正韻律生成部とを備えたことを特徴とする。なお、前記規則韻律パターン、前記音声韻律パターン、および、前記修正韻律パターンは、例えば、声の高さの変化パターンを表すピッチパターンである。
本発明の韻律生成装置によれば、修正韻律生成部により生成された修正韻律パターンは、音声韻律抽出部による抽出の信頼性が低いパターンの代わりに、音声韻律抽出部による抽出の信頼性が高いパターン、および、規則韻律パターンに基づいて生成されたパターンである。すなわち、修正韻律生成部により生成された修正韻律パターンは、音声韻律抽出部による抽出の信頼性が低いパターンを用いることなく、音声韻律抽出部による抽出の信頼性が高いパターン、および、適切な規則韻律パターンに基づいて生成されたパターンである。これにより、人間の発声から抽出された音声韻律パターンの抽出誤りを、人間の発声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することにより、修正韻律パターンを生成することが可能となる。
上記本発明における韻律生成装置においては、前記修正韻律生成部は、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンに近似するように前記規則韻律パターンを変形し、変形した規則韻律パターンと、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンとを接続することにより、修正韻律パターンを生成する韻律補完部を含む態様とするのが好ましい。
上記構成によれば、韻律補完部により生成された修正韻律パターンは、音声韻律抽出部による抽出の信頼性が高いパターンに近似するように適切な規則韻律パターンを変形し、変形した規則韻律パターンと、音声韻律抽出部による抽出の信頼性が高いパターンとを接続することにより生成されたパターンである。これにより、人間の発声から抽出された音声韻律パターンの抽出誤りを、人間の発声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することにより、修正韻律パターンを生成することが可能となる。
上記本発明における韻律生成装置においては、前記修正韻律生成部は、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンに近似するように前記規則韻律パターンを変形し、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンを用いることなく、変形した規則韻律パターンを用いることにより、修正韻律パターンを生成する韻律修正部を含む態様とするのが好ましい。
上記構成によれば、韻律修正部により生成された修正韻律パターンは、音声韻律抽出部による抽出の信頼性が高いパターンに近似するように適切な規則韻律パターンを変形し、音声韻律抽出部による抽出の信頼性が高いパターンを用いることなく、変形した規則韻律パターンを用いることにより生成されたパターンである。これにより、人間の発声から抽出された音声韻律パターンの抽出誤りを、人間の発声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することにより、修正韻律パターンを生成することが可能となる。
上記目的を達成するために本発明における韻律編集システムは、上記韻律生成装置と、前記韻律生成装置により生成された表音文字列データおよび修正韻律パターンの少なくとも1つを編集させるGUI装置とを備えたことを特徴とする。
本発明の韻律編集システムによれば、GUI装置は、韻律生成装置により生成された表音文字列データおよび修正韻律パターンの少なくとも1つを編集させるので、韻律生成装置により生成された表音文字列データおよび修正韻律パターンの少なくとも1つに対して、ユーザは、木目細かい調整を行うことが可能となる。
上記目的を達成するために本発明における音声合成システムは、上記韻律生成装置と、前記韻律生成装置により生成された修正韻律パターンに基づいて、合成音声を生成し出力する音声合成装置とを備えたことを特徴とする。
本発明の音声合成システムによれば、音声合成装置は、韻律生成装置により生成された修正韻律パターンに基づいて合成音声を生成し出力するので、出力された合成音声は、人間の発声が有する自然性・表現力を備えた合成音声となる。
上記目的を達成するために本発明における音声合成システムは、上記韻律生成装置と、前記韻律生成装置により生成された表音文字列データおよび修正韻律パターンの少なくとも1つを編集させるGUI装置と、前記韻律生成装置により生成された修正韻律パターン、および、前記GUI装置により編集された修正韻律パターンの少なくとも1つに基づいて、合成音声を生成し出力する音声合成装置とを備えたことを特徴とする。
本発明の音声合成システムによれば、音声合成装置は、韻律生成装置により生成された修正韻律パターンおよびGUI装置により編集された修正韻律パターンの少なくとも1つに基づいて合成音声を生成し出力するので、出力された合成音声は、人間の発声が有する自然性・表現力を備えた合成音声となる。
上記目的を達成するために本発明における韻律生成方法は、コンピュータが備えるテキスト入力部が、任意のテキストが入力されるテキスト入力工程と、前記コンピュータが備える言語処理部が、前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理工程と、前記コンピュータが備える規則韻律生成部が、前記表音文字列データ、および、統計的な韻律に関するデータに基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成工程と、前記コンピュータが備える音声入力部が、前記テキストを読み上げた人間の音声を音声データに変換する音声入力工程と、前記コンピュータが備える音声韻律抽出部が、前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出工程と、前記コンピュータが備える信頼度判定部が、前記音声韻律抽出工程にて前記音声データから前記音声韻律パターンが抽出された際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出工程による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出工程による抽出の信頼性が低いパターンと判定する信頼度判定工程と、前記コンピュータが備える修正韻律生成部が、前記音声韻律パターンのうち前記音声韻律抽出工程による抽出の信頼性が低いパターンの代わりに、前記音声韻律パターンのうち前記音声韻律抽出工程による抽出の信頼性が高いパターン、および、前記規則韻律パターンに基づいて修正韻律パターンを生成する修正韻律生成工程とを含むことを特徴とする。
上記目的を達成するために本発明における韻律生成プログラムは、任意のテキストが入力されるテキスト入力処理と、前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理と、前記表音文字列データ、および、統計的な韻律に関するデータに基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成処理と、前記テキストを読み上げた人間の音声を音声データに変換する音声入力処理と、前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出処理と、前記音声韻律抽出処理にて前記音声データから前記音声韻律パターンが抽出された際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出処理による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出処理による抽出の信頼性が低いパターンと判定する信頼性判定処理と、前記音声韻律パターンのうち前記音声韻律抽出処理による抽出の信頼性が低いパターンの代わりに、前記音声韻律パターンのうち前記音声韻律抽出処理による抽出の信頼性が高いパターン、および、前記規則韻律パターンに基づいて修正韻律パターンを生成する修正韻律生成処理とをコンピュータに実行させることを特徴とする。
なお、本発明における韻律生成方法および韻律生成プログラムは、上記の韻律生成装置と同様の効果を得る。
以上のように、本発明の韻律生成装置、韻律生成方法、および、韻律生成プログラムは、人間の発声から抽出された音声韻律パターンの抽出誤りを、人間の発声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することにより、修正韻律パターンを生成することが可能であるという効果を奏する。
以下、本発明のより具体的な実施形態について図面を参照しながら詳細に説明する。
[実施の形態1]
図1は、本実施形態に係る音声合成システム1の概略構成を示すブロック図である。すなわち、本実施形態に係る音声合成システム1は、韻律生成装置2、および、音声合成装置3を備えている。韻律生成装置2と音声合成装置3とは有線または無線により互いに接続されている。韻律生成装置2は、任意のテキストと、このテキストを読み上げた人間の音声とを受け付け、受け付けた任意のテキストおよび人間の音声に基づいて、修正韻律パターンを生成する装置である。音声合成装置3は、韻律生成装置2により生成された修正韻律パターンを受け付け、受け付けた修正韻律パターンに基づいて、合成音声を生成し出力する装置である。韻律生成装置2および音声合成装置3は、例えば、パーソナルコンピュータ、サーバマシンなどの汎用コンピュータによって構成される。なお、韻律生成装置2および音声合成装置3は、例えば、車載情報端末、携帯電話、家電製品などの電子機器に組み込まれたコンピュータによって構成されていてもよい。また、韻律生成装置2および音声合成装置3は、同一のハードウェア内にそれぞれ存在していてもよいし、異なるハードウェア内にそれぞれ存在していてもよい。
(韻律生成装置の構成)
韻律生成装置2は、テキスト入力部21、単語辞書22、言語処理部23、規則韻律生成部24、音声入力部25、音声韻律抽出部26、および、修正韻律生成部27を備えている。
テキスト入力部21は、任意のテキストが入力される。本実施形態においては、テキスト入力部21は、「音声ガイダンスに従ってプッシュボタンを押してください。」を表すテキストが入力されたものとする。テキスト入力部21は、例えば、キーボード、マウスなどの入力デバイスを介してユーザからテキストの入力を受け付けてもよいし、コンピュータが備えるメモリなどに記録されたデータを読み取ることによってテキストを受け付けてもよい。テキスト入力部21は、入力されたテキストを言語処理部23に出力する。
単語辞書22は、複数の単語の表記、読み、品詞、アクセント情報を格納する。アクセント情報は、例えば、アクセント型を示すデータである。例えば、韻律生成装置2が単語データを記録した記録媒体を読み取ることによって、単語辞書22には、上記の単語の表記、読み、品詞、アクセント情報が格納される。
言語処理部23は、単語辞書22を用いて、テキスト入力部21から出力されたテキストに対して形態素解析を行う。テキストは、言語処理部23において単語辞書22を用いて形態素解析を行うことにより、複数の単語に分割される。図2は、本実施形態に係る言語処理部23がテキストに対して形態素解析を行った結果を示す概念図である。図2に示すように、言語処理部23は、分割された各単語について、単語辞書22を用いることにより、品詞、および、読みを生成する。品詞は、普通名詞、動詞連用形、形容詞、形容動詞、格助詞、接続助詞などを含む。ここで、普通名詞、動詞連用形、形容詞、形容動詞などは、自立語に分類される。格助詞、接続助詞などは、付属語に分類される。読みは、単語の読みを示す。なお、読みは、アクセント核を含んでいる。ここで、アクセント核は、アクセントが「高」から「低」へ移行する位置である。本実施形態においては、アクセント核を「’」の記号で表し、例えば、「オ’ンセー」のように表記する。なお、形態素解析の方法として、例えば、ビタビ(Viterbi)アルゴリズムや最長一致法などが挙げられるが、本実施形態で用いられる形態素解析の方法は、特定のものに限定されない。
また、言語処理部23は、テキスト入力部21から出力されたテキストに対して行った形態素解析の結果に基づいて、複数の文節とその読みを生成する。図3は、本実施形態に係る言語処理部23により生成された複数の文節とその読みを示す概念図である。図3に示すように、言語処理部23は、「音声ガイダンスに」、「従って」、「プッシュボタンを」、「押してください。」の4つの文節を生成する。文節は、自立語の後に付属語が接続されたものである。例えば、「音声ガイダンスに」という文節は、普通名詞である「音声」および「ガイダンス」の複合名詞である「音声ガイダンス」が1個の自立語として扱われ、その後に、格助詞(付属語)である「に」が接続されている。また、言語処理部23は、任意のアクセント結合規則に従い、生成された文節に対して、適宜アクセント核を新たに設定することにより、読みを生成する。例えば、「音声」、「ガイダンス」、「に」のそれぞれの単語の読み「オ’ンセー」、「ガ’イダンス」、「ニ」がアクセント結合され、「オンセーガ’イダンスニ」という文節の読みが生成される。
さらに、言語処理部23は、任意の規則に従って、生成された複数の文節間の係り受け(修飾)関係の解析を行う。本実施形態においては、言語処理部23は、「音声ガイダンスに→従って」、「従って→押してください。」、「プッシュボタンを→押してください。」という係り受け関係を特定する。
言語処理部23は、上記の形態素解析、係り受け解析などの言語解析の結果に基づいて、表音文字列データを生成する。表音文字列データは、テキストの読みを示すデータである。本実施形態においては、言語処理部23は、「オンセーガ’イダンスニ_シタガッテ,プッシュボ’タンオ_オシテクダサ’イ.」を示す表音文字列データを生成する。ここで、「_」は、アクセント句の境界を表す記号である。アクセント句は、アクセントを構成する単位であって、上記の文節に概ね対応する。「,」は、アクセント句の境界を表す記号であり、かつ、フレーズの境界を表す記号である。フレーズは、文あるいは節を統語論的に分析した際の単位であって、複数の単語からなる。すなわち、本実施形態においては、「オンセーガ’イダンスニ_シタガッテ」、「プッシュボ’タンオ_オシテクダサ’イ.」がそれぞれ1フレーズとなる。「’」は、アクセント核を表す記号である。なお、上記の表音文字列データのフォーマットは、単なる一例であり、表音文字列データの表し方は、これに限定されない。言語処理部23は、生成した表音文字列データを規則韻律生成部24および音声韻律抽出部26に出力する。
規則韻律生成部24は、言語処理部23から出力された表音文字列データを音素記号列に変換する。本実施形態においては、規則韻律生成部24は、表音文字列データ「オンセーガ’イダンスニ_シタガッテ,プッシュボ’タンオ_オシテクダサ’イ.」を、音素記号列「oNse−gaidaNsunishitagaqteQpuqshbotaNooshitekudasaiQ」に変換する。ここで、「Q」は、ポーズを表す記号である。「N」は、「ン」を表す記号であって、「ニ」を表す記号である「ni」と区別するために、大文字にて表記している。規則韻律生成部24は、変換した音素記号列に基づいて、規則韻律パターンを生成する。なお、規則韻律パターンは、音素時間長パターン、規則ピッチパターン、および、パワーパターンを含む。このため、規則韻律生成部24は、音素時間長生成部24a、ピッチパターン生成部24b、および、パワー生成部24cを有している。
音素時間長生成部24aは、人間の発声における統計的な音素時間長を示すデータを記録した音素時間長テーブルを有している。音素時間長生成部24aは、音素記号列の各音素に基づいて、音素時間長テーブルからデータを抽出し、抽出したデータを結合することにより、音素時間長パターンを生成する。なお、音素時間長テーブルには、例えば、音素「a」の音素時間長を示すデータ、音素「i」の音素時間長を示すデータ、音素「u」の音素時間長を示すデータ、・・・が順に記録されている。
ピッチパターン生成部24bは、フレーズから生成されたフレーズ成分に、アクセント句から生成されたアクセント句成分を重畳することにより、規則ピッチパターンを生成する。図4は、フレーズ成分にアクセント句成分が重畳された状態を示す概念図である。図4に示すように、フレーズ成分F1には、アクセント句成分A1およびA2が重畳され、フレーズ成分F2には、アクセント句成分A3およびA4が重畳される。ここで、フレーズ成分F1およびF2は、右下がりの三角形のモデルとして表される。すなわち、一般に、人間の発声は、その出始めでは声は高いが、次第に声門下圧の低下などによって声の高さが低下する。つまり、フレーズ成分F1およびF2は、ピッチが時刻と共に低下する特性を表す声立て成分である。なお、右下がりの三角形のモデルが、統計的な規則ピッチパターンに関するデータであって、ピッチパターン生成部24bの図示しないメモリに予め記録されている。
また、アクセント句成分A1〜A4は、台形のモデルとして表される。ここで、例えば、アクセント句成分A1の場合について考える。アクセント句成分A1に対応する音素記号列「oNse−gaidaNsuni」は、表音文字列データ「オンセーガ’イダンスニ」に対応する。すなわち、一般に、人間の発声は、アクセント核が位置する前の部分「オンセーガ」の声が高くなり、アクセント核が位置する後の部分「イダンスニ」の声が低くなる。つまり、アクセント句成分A1は、音素記号列「oNse−ga」が高い特性を表す成分である。これと同様に、アクセント句成分A2は、音素記号列「shitagaqte」が高い特性を表す成分である。アクセント句成分A3は、音素記号列「puqshbo」が高い特性を表す成分である。アクセント句成分A4は、音素記号列「oshitekudasa」が高い特性を表す成分である。なお、台形のモデルが、統計的な規則ピッチパターンに関するデータであって、ピッチパターン生成部24bの図示しないメモリに予め記録されている。
ピッチパターン生成部24bは、フレーズ成分にアクセント句成分が重畳された場合における外形のパターンを規則ピッチパターンとする。図5は、本実施形態に係るピッチパターン生成部24bにより生成された規則ピッチパターンの一例を示す概念図である。図5に示すように、規則ピッチパターンは、フレーズ成分F1に、アクセント句成分A1およびA2が重畳され、かつ、フレーズ成分F2に、アクセント句成分A3およびA4が重畳された場合における外形のパターンである。
パワー生成部24cは、各音素に固有のパワー値を記録したパワー値テーブルを有している。なお、パワー値は、統計的なパワーに関するデータであって、声の大きさを表す値である。パワー生成部24cは、音素記号列の各音素に基づいて、パワー値テーブルからパワー値を抽出する。ここで、一般に、同じ音素であっても、規則ピッチパターンが高いほどパワー値は大きく、規則ピッチパターンが低いほどパワー値は小さくなる。パワー生成部24cは、パワー値テーブルから抽出したパワー値を、規則ピッチパターンの高低に応じて補正することにより、パワーパターンを生成する。
すなわち、上記の方法によって生成された音素時間長パターン、規則ピッチパターン、および、パワーパターンを含む規則韻律パターンは、統計的には妥当な韻律パターンとなるが、平均的な韻律パターンであるため、表現力にやや乏しい韻律パターンとなる。韻律生成部24は、音素時間長パターン、規則ピッチパターン、および、パワーパターンを含む規則韻律パターンを修正韻律生成部27に出力する。なお、音素時間長パターン、規則ピッチパターン、および、パワーパターンの生成方法は、上記の方法に限定されない。また、上記では、音素時間長パターン、規則ピッチパターン、および、パワーパターンの生成に統計的なデータを使用する例を示したが、ヒューリスティックに生成された韻律生成規則に基づいて、音素時間長パターン、規則ピッチパターン、および、パワーパターンの生成を行うことも可能である。
音声入力部25は、テキスト入力部21が受け付けたテキストを読み上げた人間の音声を受け付ける機能を有している。このため、音声入力部25は、例えば、マイクロフォンから構成される。本実施形態においては、音声入力部25は、「音声ガイダンスに従ってプッシュボタンを押してください。」を読み上げた人間の音声を受け付ける。音声入力部25は、受け付けた人間の音声を計算機で処理可能なデジタルの音声データに変換する。音声入力部25は、変換した音声データを音声韻律抽出部26に出力する。なお、音声入力部25は、予め録音装置に録音された人間の発声を再生することによって得られるアナログ音声の他、CD(Compact Disc)あるいはMD(Mini Disc)などの記録媒体に記録されたデジタルの音声データや、有線あるいは無線の通信網で送信されるデジタルの音声データなどを直接受け付けてもよい。また、音声入力部25は、受け付けた音声データが圧縮されている場合、圧縮されている音声データを伸長する機能を有していてもよい。
音声韻律抽出部26は、規則韻律生成部24と同様、言語処理部23から出力された表音文字列データを音素記号列に変換する。本実施形態においては、音声韻律抽出部26は、表音文字列データ「オンセーガ’イダンスニ_シタガッテ,プッシュボ’タンオ_オシテクダサ’イ.」を、音素記号列「oNse−gaidaNsunishitagaqteQpuqshbotaNooshitekudasaiQ」に変換する。音声韻律抽出部26は、変換した音素記号列に基づいて、音声入力部25から出力された音声データから音声韻律パターンを抽出する。なお、音声韻律パターンは、音素時間長パターン、音声ピッチパターン、および、パワーパターンを含む。このため、音声韻律抽出部26は、音素時間長抽出部26a、ピッチパターン抽出部26b、信頼度判定部26c、および、パワー抽出部26dを有している。
音素時間長抽出部26aは、どの音素がどういう特徴量になりやすいかという情報を統計的にモデル化したデータを記録した音素モデルを有している。音素時間長抽出部26aは、音素記号列の各音素に基づいて、音素モデルからモデル化したデータを抽出する。音素時間長抽出部26aは、抽出したデータと音声データとを照合することにより、抽出したデータと最も類似する音声データの区間を特定する。音素時間長抽出部26aは、特定した区間に音素境界を設定することにより、音声データから音素時間長パターンを抽出する。このような抽出方法は、一般に、音素ラベリングと呼ばれている。なお、音素モデルは、例えば、MFCC(Mel Frequency Cepstral Coefficients)などのパラメータを用いて表される。また、音声入力部25から出力された音声データもMFCCなどのパラメータに変換した後に、HMM(Hidden Markov Model)、DP(Dynamic Programming)などの照合方法によって照合することが一般的である。
ピッチパターン抽出部26bは、相関処理法を用いることにより、音声データから音声ピッチパターンを抽出する。ここで、相関処理法は、相関処理が波形の位相歪みに強いことを利用した方法である。本実施形態においては、相関処理法の一例として、自己相関関数(ACF:autocorrelation function)を用いた場合について説明するが、これに限定されない。例えば、自己相関関数に代えて、変形相関、SIFTアルゴリズム、平均振幅差関数(AMDF)などの他の相関処理法を用いてもよい。また、相関処理法に代えて、波形処理法、スペクトル処理法などの他の方法を用いてもよい。
ここで、自己相関関数は、音声データ自体にどの程度の類似性があるのかを表す関数である。自己相関関数は、下記の(数1)にて定義される。なお、下記の(数1)において、φ(m)は相関値を表す。x(n)は音声データの時系列を表す。Nは切り出して分析に用いる音声データの標本数を表す。mは0、1、2、・・・、N−1である。
Figure 0005029884
つまり、ピッチパターン抽出部26bは、音声データの時系列x(n)を上記の(数1)に適用することにより、相関値φ(m)を算出する。ピッチパターン抽出部26bは、算出した相関値φ(m)から極大値(ピーク値)を抽出し、極大値の周期の逆数を算出することにより、音声データから音声ピッチパターンを抽出する。このとき、信頼度判定部26cは、ピッチパターン抽出部26bが音声データから音声ピッチパターンを抽出する際における、抽出の信頼度を取得する。本実施形態においては、信頼度判定部26cは、ピッチパターン抽出部26bが算出した相関値φ(m)をそのまま信頼度として利用する。また、信頼度判定部26cは、音声ピッチパターンのうち信頼度が閾値以上のパターンをピッチパターン抽出部26bによる抽出の信頼性が高いパターンと判定する。一方、信頼度判定部26cは、音声ピッチパターンのうち信頼度が閾値未満のパターンをピッチパターン抽出部26bによる抽出の信頼性が低いパターンと判定する。
以下では、ピッチパターン抽出部26bによる音声ピッチパターンの抽出処理、および、信頼度判定部26cによる信頼性の判定処理について、図6および図7を参照しながら具体的に説明する。図6は、任意の母音の音声データの時系列x(n)を示す概念図である。図6に示す音声データの時系列x(n)を上記の(数1)に適用すると、相関値φ(m)が求まる。図7は、図6に示す音声データの時系列x(n)を上記の(数1)に適用した場合における相関値φ(m)を示す概念図である。図7に示すように、相関値φ(m)は、A、B、Cの時点で極大値となるが、ピッチパターン抽出部26bは、最も値が大きいCの時点における極大値Mを選択する。ピッチパターン抽出部26bは、Cの時点における極大値Mの周期Tの逆数を算出することにより、音声データから音声ピッチパターンを抽出する。
ここで、信頼度判定部26cは、Cの時点における極大値Mが閾値S以上であるか否かを判定する。つまり、信頼度判定部26cは、極大値Mが閾値S以上であれば、ピッチパターン抽出部26bによる抽出の信頼性は高いと判定する。一方、信頼度判定部26cは、極大値Mが閾値S未満であれば、ピッチパターン抽出部26bによる抽出の信頼性は低いと判定する。図6に示す例では、Cの時点における極大値Mは閾値S以上であるので、信頼度判定部26cは、ピッチパターン抽出部26bによる抽出の信頼性は高いと判定する。すなわち、一般に、母音a,i,u,e,o、撥音N、半母音y,w、鼻音n,mなどの音声データの時系列は、はっきりとした周期性を有するので(例えば、図6参照)、相関値φ(m)の極大値が閾値S以上となり易く、ピッチパターン抽出部26cによる抽出の信頼性は高くなる。一方、有声破裂音/摩擦音b,d,g,j,zなどの音声データの時系列は、あいまいな周期性を有するので、相関値φ(m)の極大値が閾値S未満となり易く、ピッチパターン抽出部26cによる抽出の信頼性は低くなる。なお、無声破裂音/摩擦音p,t,k,s,sh,h、促音q、ポーズQなどの音声データの時系列は、周期性がないため極大値が観測されず、結果としてピッチは抽出されない。ここで、母音、撥音、半母音、鼻音などであっても、直前あるいは直後に有声破裂音/摩擦音、ポーズQなどがあれば、相関値φ(m)である極大値が閾値S未満となり易く、ピッチパターン抽出部26cによる抽出の信頼性は低くなる。なお、閾値Sは、信頼度判定部26cの図示しないメモリに予め記録されている。
図8は、本実施形態に係るピッチパターン抽出部26bにより抽出された音声ピッチパターンの一例を示す概念図である。図8に示すように、音声ピッチパターンは、信頼度判定部26cにより抽出の信頼性が高いと判定されたピッチについては実線のパターンにて表し、信頼度判定部26cにより抽出の信頼性が低いと判定されたピッチについては点線のパターンにて表している。すなわち、図8における点線のパターンは、信頼度判定部26cにより抽出の信頼性が低いと判定されたパターンであるので、ピッチパターン抽出部26bによる音声ピッチパターンの抽出誤りが生じているパターンである可能性が高い。つまり、図8に示す音声ピッチパターンをそのまま用いて合成音声を生成すると、点線のパターンに対応する音素の部分で韻律が不自然な合成音声となる可能性が高い。
パワー抽出部26dは、音声入力部25から出力された音声データからパワーパターンを抽出する。パワーパターンは、音声データに例えば20msec程度の一定の窓長を設定し、この窓内の音声データの自乗和をとることにより算出される。
音声韻律抽出部26は、上記の方法によって抽出された音素時間長パターン、音声ピッチパターン、および、パワーパターンを含む音声韻律パターンを修正韻律生成部27に出力する。なお、音素時間長パターン、音声ピッチパターン、および、パワーパターンの抽出方法は、上記の方法に限定されない。
修正韻律生成部27は、音声ピッチパターンのうちピッチパターン抽出部26bによる抽出の信頼性が低いパターンの代わりに、音声ピッチパターンのうちピッチパターン抽出部26bによる抽出の信頼性が高いパターン、および、規則ピッチパターンに基づいて修正ピッチパターンを生成する。このため、修正韻律生成部27は、韻律補完部27aを有している。
韻律補完部27aは、音声韻律抽出部26から出力された音声ピッチパターンのうち、ピッチパターン抽出部26bによる抽出の信頼性が高いパターンを抽出する。図9は、図8に示す音声ピッチパターンのうち、ピッチパターン抽出部26bによる抽出の信頼性が高いパターンの一例を示す概念図である。すなわち、図9に示すパターンは、図8に示す音声ピッチパターンのうち、実線のパターンのみを抽出したパターンである。
また、韻律補完部27aは、音声ピッチパターンのうちピッチパターン抽出部26bによる抽出の信頼性が高いパターン(図9参照)に近似するように、規則韻律生成部24から出力された規則ピッチパターンを変形する。ここで、図9に示すパターンのアクセント句における時系列をP(n)、図5に示す規則ピッチパターンのアクセント句における時系列をQ(n)、変形後の規則ピッチパターンのアクセント句における時系列をQ´(n)とする。本実施形態においては、韻律補完部27aは、下記の(数2)および(数3)を用いることにより、時系列Q(n)を時系列Q´(n)に変形する。なお、(数2)において、Pdは、Q(n)の傾斜変更量を表す。Tsは、Q(n)の時間伸縮率を表す。Tmは、Q(n)の時間移動幅を表す。Fsは、Q(n)のピッチ伸縮率を表す。Fmは、Q(n)のピッチ移動幅を表す。また、(数3)において、Dは、P(n)とQ´(n)との誤差を表す。つまり、本実施形態に係る韻律補完部27aは、(数3)における誤差Dが最小となるように、(数2)のPd、Ts、Tm、Fs、Fmを算出し、算出したPd、Ts、Tm、Fs、Fmに基づいて、時系列Q(n)を時系列Q´(n)に変形する。韻律補完部27aは、これをアクセント句毎に行う。なお、時系列Q(n)を時系列Q´(n)に変形する方法はこれに限定されない。例えば、韻律補完部27aは、フレーズ毎に処理を行ってもよいし、下記の(数2)および(数3)に代えて、任意の公知の数式を用いてもよい。
Figure 0005029884
Figure 0005029884
図10は、音声ピッチパターンのうちピッチパターン抽出部26bによる抽出の信頼性が高いと判定されたパターン(図9参照)に近似するように変形された規則ピッチパターンの一例を示す概念図である。図10に示すように、変形された規則ピッチパターンは、点線のパターンにて表している。なお、図10に示す実線のパターンは、図9に示すパターンである。
韻律補完部27aは、上記にて変形された規則ピッチパターンと、音声ピッチパターンのうちピッチパターン抽出部26cによる抽出の信頼性が高いパターンとを接続することにより、修正ピッチパターンを生成する。すなわち、韻律補完部27aは、図10に示す実線のパターンをそのまま用い、この実線のパターンと点線のパターンとを接続する。さらに、韻律補完部27aは、実線のパターンと点線のパターンとの接続部分を滑らかにするために、任意の公知の手法に従ってスムージングを行う。図11は、韻律補完部27aによりスムージングされたピッチパターンの一例を示す概念図である。図11に示す○印は、実線のパターンと点線のパターンとの接続部分であって、スムージングされた箇所を示す。このような処理を行うことにより、修正ピッチパターンが生成される。図12は、韻律補完部27aにより生成された修正ピッチパターンの一例を示す概念図である。
なお、韻律補完部27aは、音声韻律抽出部26から出力された音素時間長パターン、および、パワーパターンについてもそれぞれ抽出誤りを修正する。例えば、音素時間長パターンの場合、まず、信頼度判定部26cは、音素時間長抽出部26aが音声データから音素時間長パターンを抽出する際におけるこの抽出の信頼度を算出する。例えば、信頼度判定部26cは、音素モデルから抽出したモデル化したデータと、音声データの各区間とを照合することにより算出された類似度を信頼度として利用する。また、信頼度判定部26cは、音素時間長パターンのうち信頼度が閾値以上のパターンを音素時間長抽出部26aによる抽出の信頼性が高いパターンと判定する。一方、信頼度判定部26cは、音素時間長パターンのうち信頼度が閾値未満のパターンを音素時間長抽出部26aによる抽出の信頼性が低いパターンと判定する。これにより、韻律補完部27aは、音素時間長パターンのうち音素時間長抽出部26aによる抽出の信頼性が低いパターンの代わりに、音素時間長パターンのうち音素時間長抽出部26aによる抽出の信頼性が高いパターン、および、音素時間長生成部24aにより生成された音素時間長パターンに基づいて修正音素時間長パターンを生成する。また、例えば、パワーパターンの場合、韻律補完部27aは、任意の公知の手法に従って抽出誤りを修正し、修正パワーパターンを生成する。
韻律補完部27aは、上記の方法によって生成された修正音素時間長パターン、修正ピッチパターン、および、修正パワーパターンを含む修正韻律パターンを音声合成装置3に出力する。
ところで、上記の韻律生成装置2は、パーソナルコンピュータなどの任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記のテキスト入力部21、言語処理部23、規則韻律生成部24、音声入力部25、音声韻律抽出部26、および、修正韻律生成部27は、コンピュータのCPUがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、テキスト入力部21、言語処理部23、規則韻律生成部24、音声入力部25、音声韻律抽出部26、および、修正韻律生成部27の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。また、単語辞書22は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。
(音声合成装置の構成)
音声合成装置3は、波形辞書31、波形生成部32、および、合成音声出力部33を備えている。
波形辞書31は、複数の波形データを格納する。例えば、音声合成装置3が波形データを記録した記録媒体を読み取ることによって、波形辞書31には、上記の波形データが格納される。
波形生成部32は、韻律生成装置2から出力された修正韻律パターンに基づいて、波形辞書31を用いて合成音声の波形を生成する。波形生成部32は、生成した合成音声の波形を合成音声出力部33に出力する。
合成音声出力部33は、波形生成部32から出力された合成音声の波形に基づいて、合成音声を生成する。合成音声出力部33は、生成した合成音声を音声合成装置3の外部に出力する。すなわち、合成音声出力部33により出力された合成音声は、韻律生成装置2により生成された修正韻律パターンを用いているので、人間の発声が有する自然性・表現力を備えた合成音声となる。
ところで、上記の音声合成装置3は、パーソナルコンピュータなどの任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記の波形生成部32および合成音声出力部33は、コンピュータのCPUがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、波形生成部32および合成音声出力部33の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。また、波形辞書31は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。
以上、音声合成システム1の構成について説明したが、音声合成システム1の構成は、図1に示す構成に限定されない。例えば、韻律生成装置2におけるテキスト入力部21の代わりに、音声認識部を備えるようにしてもよい。
図13は、本実施形態の変形例に係る音声合成システム1aの概略構成を示すブロック図である。図13において、図1と同様の機能を有する構成については、同じ参照符号を付記している。韻律生成装置2は、図1に示すテキスト入力部21の代わりに、音声認識部28を備えている。音声認識部28は、人間の音声を認識する機能を有している。このため、音声認識部28は、音声入力部25から出力された音声データを特徴量に変換する。音声認識部28は、変換した特徴量を用いて、音響モデルおよび言語モデル(共に図示せず)を参照しながら、人間の音声を表すのに最も確率的に高い語彙や文字並びを認識結果として出力する。つまり、音声認識部28は、認識結果を言語処理部23に出力する。これにより、ユーザが、韻律生成装置2にテキストを入力する必要がないので、ユーザによる手間を削減することが可能となる。
(音声合成システムの動作)
次に、上記の構成に係る音声合成システム1の動作について、図14を参照しながら説明する。
図14は、音声合成システム1の動作の一例を示すフローチャートである。すなわち、図14に示すように、テキスト入力部21は、任意のテキストが入力される(工程Op1)。言語処理部23は、単語辞書22を用いて、工程Op1にて入力されたテキストに対して言語解析を行う(工程Op2)。なお、言語解析は、上記の形態素解析、係り受け解析などである。言語処理部23は、工程Op2の言語解析の結果に基づいて、テキストの読みを示す表音文字列データを生成する(工程Op3)。規則韻律生成部24は、工程Op3にて生成された表音文字列データを音素記号列に変換し、変換した音素記号列に基づいて、規則韻律パターンを生成する(工程Op4)。なお、規則韻律パターンは、音素時間長パターン、規則ピッチパターン、および、パワーパターンを含む。
音声入力部25は、工程Op1にて入力されたテキストを読み上げた人間の音声を受け付け、受け付けた人間の音声を音声データに変換する(工程Op5)。音声韻律抽出部26は、工程Op3にて生成された表音文字列データを音素記号列に変換し、変換した音素記号列に基づいて、工程Op5にて変換された音声データから音声韻律パターンを抽出する(工程Op6)。なお、音声韻律パターンは、音素時間長パターン、音声ピッチパターン、および、パワーパターンを含む。ここで、例えば、音声韻律抽出部26のピッチパターン抽出部26bは、上記の(数1)にて定義される自己相関関数を用いることにより、工程Op5にて変換された音声データから音声ピッチパターンを抽出する。
信頼度判定部26cは、ピッチパターン抽出部26bが音声データから音声ピッチパターンを抽出する際におけるこの抽出の信頼度を算出する(工程Op7)。本実施形態においては、信頼度判定部26cは、ピッチパターン抽出部26bが算出した相関値φ(m)をそのまま信頼度として利用する。また、信頼度判定部26cは、音声ピッチパターンのうち信頼度が閾値以上のパターンをピッチパターン抽出部26bによる抽出の信頼性が高いパターンと判定し、音声ピッチパターンのうち信頼度が閾値未満のパターンをピッチパターン抽出部26bによる抽出の信頼性が低いパターンと判定する(工程Op8)。
韻律補完部27aは、工程Op8にて信頼性が高いと判定されたパターン(図9参照)に近似するように、工程Op4にて生成された規則ピッチパターンを変形する(工程Op9)。例えば、韻律補完部27aは、上記の(数2)および(数3)を用いることにより、規則ピッチパターンを変形する。そして、韻律補完部27aは、工程Op8にて信頼性が高いと判定されたパターンをそのまま用い、工程Op8にて信頼性が高いと判定されたパターンと、工程Op9にて変形された規則ピッチパターンとを接続する(工程Op10)。韻律補完部27aは、工程Op10にて接続された接続部分を滑らかにするために、任意の公知の手法に従ってスムージングを行い、修正ピッチパターンを生成する(工程Op11)。そして、韻律補完部27aは、工程Op11にて生成された修正ピッチパターンを含む修正韻律パターンを音声合成装置3に出力する(工程Op12)。
次に、音声合成装置3の波形生成部32は、工程Op12にて出力された修正韻律パターンに基づいて、波形辞書31を用いて合成音声の波形を生成する(工程Op13)。合成音声出力部33は、工程Op13にて生成された合成音声の波形に基づいて、合成音声を生成する(工程Op14)。合成音声出力部33は、工程Op14にて生成された合成音声を音声合成装置3の外部に出力する(工程Op15)。
以上のように、本実施形態に係る韻律生成装置2によれば、韻律補完部27aにより生成された修正ピッチパターンは、ピッチパターン抽出部26bによる抽出の信頼性が高いパターンに近似するように適切な規則ピッチパターンを変形し、変形した規則ピッチパターンと、ピッチパターン抽出部26bによる抽出の信頼性が高いパターンとを接続することにより生成されたパターンである。これにより、人間の発声から抽出された音声ピッチパターンの抽出誤りを、人間の発声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することにより、修正ピッチパターンを生成することが可能となる。
[実施の形態2]
図15は、本実施形態に係る音声合成システム10の概略構成を示すブロック図である。すなわち、本実施形態に係る音声合成システム10は、図1に示す韻律生成装置2の代わりに、韻律生成装置4を備えている。なお、図15において、図1と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。
韻律生成装置4は、図1に示す修正韻律生成部27の代わりに、修正韻律生成部41を備えている。なお、上記の修正韻律生成部41は、コンピュータのCPUがこの機能を実現するプログラムに従って動作することによっても具現化される。
修正韻律生成部41は、音声ピッチパターンのうちピッチパターン抽出部26bによる抽出の信頼性が低いパターンの代わりに、音声ピッチパターンのうちピッチパターン抽出部26bによる抽出の信頼性が高いパターン、および、規則ピッチパターンに基づいて修正ピッチパターンを生成する。このため、修正韻律生成部41は、韻律修正部41aを有している。
韻律修正部41aは、音声韻律抽出部26から出力された音声ピッチパターンのうち、ピッチパターン抽出部26bによる抽出の信頼性が高いパターンを抽出する(図9参照)。また、韻律修正部41aは、音声韻律抽出部26から出力された音声ピッチパターンのうち、ピッチパターン抽出部26bによる抽出の信頼性が高いパターン(図9参照)に近似するように、規則韻律生成部24から出力された規則ピッチパターンを変形する(図10参照)。ここまでは図1に示す韻律補完部27aの処理と同様である。
図16は、図10に示す太線のパターンを除去し、変形された規則ピッチパターンのみを示した概念図である。韻律修正部41aは、変形された規則ピッチパターンにおけるアクセント句の境界部分を滑らかにするために、任意の公知の手法に従ってスムージングを行う。図17は、韻律修正部41aによりスムージングされたピッチパターンの一例を示す概念図である。図17に示す○印は、変形された規則ピッチパターンにおけるアクセント句の境界部分であって、スムージングされた箇所を示す。このような処理を行うことにより、修正ピッチパターンが生成される。図18は、韻律修正部41aにより生成された修正ピッチパターンの一例を示す概念図である。韻律修正部41aは、図18に示す修正ピッチパターンを音声合成装置3に出力する。
以上のように、本実施形態に係る韻律生成装置4によれば、韻律修正部41aにより生成された修正ピッチパターンは、ピッチパターン抽出部26bによる抽出の信頼性が高いパターンに近似するように適切な規則ピッチパターンを変形し、ピッチパターン抽出部26bによる抽出の信頼性が高いパターンを用いることなく、変形した規則ピッチパターンを用いることにより生成されたパターンである。これにより、人間の発声から抽出された音声ピッチパターンの抽出誤りを、人間の発声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することにより、修正ピッチパターンを生成することが可能となる。
[実施の形態3]
図19は、本実施形態に係る音声合成システム(韻律編集システム)11の概略構成を示すブロック図である。すなわち、本実施形態に係る音声合成システム11は、図1に示す音声合成システム1に加えて、GUI(Graphical User Interface)装置5を備えている。GUI装置5と韻律生成装置2とは有線または無線により互いに接続されている。また、GUI装置5と音声合成装置3とは有線または無線により互いに接続されている。なお、図19において、図1と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。また、図19において、韻律生成装置2の各構成部材21〜27、および、音声合成装置3の各構成部材31〜33の図示を省略している。さらに、上記のGUI装置5は、図13に示す音声合成システム1a、および、図15に示す音声合成システム10に備えられていてもよい。
GUI装置5は、韻律生成装置2により生成された表音文字列データおよび修正韻律パターンをユーザに編集させる装置である。このため、GUI装置5は、ユーザに対して表音文字列データおよび修正韻律パターンを提示し、入力デバイスを用いて提示された表音文字列データおよび修正韻律パターンを編集可能なユーザインターフェース機能を提供する。それゆえ、GUI装置5は、表示部51、および、編集部52を備えている。なお、上記の表示部51および編集部52は、コンピュータのCPUがこの機能を実現するプログラムに従って動作することによっても具現化される。
表示部51は、液晶ディスプレイ、有機ELディスプレイ、プラズマディスプレイ、CRTディスプレイなどの任意の表示デバイスから構成される。編集部52は、キーボード、マウス、テンキー、タッチパネルなどの任意の入力デバイスから構成される。
図20は、表示部51に表示される表示画面の一例を示す概念図である。図20に示すように、表示部51の表示画面は、テキスト編集部51a、言語処理ボタン51b、言語処理結果編集部51c、規則韻律生成ボタン51d、規則韻律パターン表示部51e、音声入力ボタン51f、音声韻律抽出ボタン51g、音声韻律パターン表示部51h、自動修正ボタン51i、修正韻律パターン表示部51j、および、波形生成ボタン51kを有している。
テキスト編集部51aは、任意のテキストをユーザに入力させる。図20に示す例では、テキスト編集部51aには、「音声ガイダンスに従ってプッシュボタンを押してください。」を表すテキストがユーザにより入力されている。なお、GUI装置5に予め用意されているテキストファイルをユーザが指定し、指定したテキストファイルを開くことにより、テキスト編集部51aにテキストが入力されるようにしてもよい。
言語処理ボタン51bは、韻律生成装置2の言語処理部23に対して、テキスト編集部51aに入力されたテキストの言語解析を指示するためのボタンである。
言語処理結果編集部51cは、言語処理部23による言語解析の結果に基づいて生成された表音文字列データを表示する。図20に示す例では、言語処理結果編集部51cには、表音文字列データ「オンセーガ’イダンスニ_シタガッテ,プッシュボ’タンオ_オシテクダサ’イ.」が表示されている。また、言語処理結果編集部51cは、表示された表音文字列データをユーザに編集させる機能を有している。これにより、言語処理部23による言語解析が誤っている場合、すなわち、表示された表音文字列データが誤っている場合、例えば、ユーザは、アクセント核の位置を変更し、あるいは、アクセント句やフレーズの境界を変更することにより、正しい表音文字列データに変更することが可能となる。
規則韻律生成ボタン51dは、韻律生成装置2の規則韻律生成部24に対して、言語処理結果編集部51cに表示された表音文字列データに基づいて規則韻律パターンを生成するように指示するボタンである。
規則韻律パターン表示部51eは、規則韻律生成部24により生成された規則韻律パターンを表示する。図20に示す例では、規則韻律パターン表示部51eには、規則韻律パターンのうち、規則ピッチパターンおよび音素時間長パターンが表示されている。なお、規則韻律パターン表示部51eには、パワーパターンが表示されていてもよい。
音声入力ボタン51fは、テキスト編集部51aに入力されたテキストを読み上げた人間の音声をGUI装置5に入力させるためのボタンである。例えば、ユーザが、音声入力ボタン51fを指示し、テキストを読み上げると、テキストを読み上げた人間の音声がGUI装置5に録音される。このため、GUI装置5にはマイクロフォンが内蔵または接続されている。なお、ユーザが、音声入力ボタン51fを指示すると、音声データファイルが表示され、表示された音声データファイルを指示することにより、人間の音声をGUI装置5に入力させるようにしてもよい。
音声韻律抽出ボタン51gは、韻律生成装置2の音声韻律抽出部26に対して、音声入力ボタン51fにより入力された人間の音声から音声韻律パターンを抽出するように指示するボタンである。
音声韻律パターン表示部51hは、音声韻律抽出部26により抽出された音声韻律パターンを表示する。図20に示す例では、音声韻律パターン表示部51hには、音声韻律パターンのうち、音声ピッチパターンおよび音素時間長パターンが表示されている。音声ピッチパターンは、信頼度判定部26cにより抽出の信頼性が高いと判定されたピッチについては実線のパターンにて表し、信頼度判定部26cにより抽出の信頼性が低いと判定されたピッチについては点線のパターンにて表している。なお、音声韻律パターン表示部51hには、パワーパターンが表示されていてもよい。
自動修正ボタン51iは、韻律生成装置2の韻律補完部27aに対して、音声韻律パターン表示部51hに表示された抽出の信頼性が高い音声ピッチパターン、および、規則韻律パターン表示部51eに表示された規則ピッチパターンに基づいて修正ピッチパターンを生成するように指示するボタンである。なお、自動修正ボタン51iは、修正ピッチパターンを生成することに加えて、修正音素時間長パターンの生成を指示するボタンでもある。
修正韻律パターン表示部51jは、韻律補完部27aにより生成された修正韻律パターンを表示する。図20に示す例では、修正韻律パターン表示部51jには、修正韻律パターンのうち、修正ピッチパターンおよび修正音素時間長パターンが表示されている。なお、修正韻律パターン表示部51eには、修正パワーパターンが表示されていてもよい。ここで、本実施形態においては、修正韻律パターン表示部51jは、表示された修正ピッチパターンを、ユーザが入力デバイスを用いて操作することにより移動させ、修正ピッチパターンを新たに再設定させることができる。一例として、ユーザは、マウスのポインタを移動させたい修正ピッチパターンに触れた状態でその触れた位置(指示位置)を上方向または下方向に移動(ドラッグ)させ、所望の位置でドロップすると、修正ピッチパターンは、移動された所望の位置に配置される。なお、修正韻律パターン表示部51jは、修正ピッチパターンを、スペクトログラムに重ねて表示することが好ましい。
波形生成ボタン51kは、音声合成装置3の波形生成部32に対して、修正韻律パターン表示部51eに表示された修正韻律パターンに基づいて合成音声の波形を生成するように指示するボタンである。これにより、音声合成装置3は、波形生成ボタン51kにより生成された合成音声の波形に基づいて、合成音声を出力することが可能となる。それゆえ、ユーザは、音声合成装置3から出力された合成音声に基づいて、修正韻律パターン表示部51jに表示された修正ピッチパターンを変更することが可能となる。
以上のように、本実施形態に係る音声合成システム11によれば、GUI装置5は、韻律生成装置2により生成された表音文字列データおよび修正韻律パターンの少なくとも1つを編集させるので、韻律生成装置2により生成された表音文字列データおよび修正韻律パターンの少なくとも1つに対して、ユーザは、木目細かい調整を行うことが可能となる。
なお、第1〜第3の実施形態において、韻律生成装置またはGUI装置から出力された修正韻律パターンを音声合成装置に出力し、音声合成装置が、修正韻律パターンに基づいて合成音声を生成し出力する例について説明したが、これに限定されない。例えば、韻律生成装置またはGUI装置から出力された修正韻律パターンを用いて、音声合成用の韻律辞書、音声合成用の波形辞書、音声認識用の音響モデルなどを生成するようにしてもよい。
すなわち、本発明は上述した第1〜第3の実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
以上の実施の形態に関し、更に以下の付記を開示する。
(付記1)
任意のテキストが入力されるテキスト入力部と、
前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理部と、
前記表音文字列データ、および、韻律生成規則に基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成部と、
前記テキストを読み上げた人間の音声を音声データに変換する音声入力部と、
前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出部と、
前記音声韻律抽出部が前記音声データから前記音声韻律パターンを抽出する際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出部による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出部による抽出の信頼性が低いパターンと判定する信頼度判定部と、
前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が低いパターンの代わりに、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターン、および、前記規則韻律パターンに基づいて修正韻律パターンを生成する修正韻律生成部とを備えたことを特徴とする韻律生成装置。
(付記2)
前記修正韻律生成部は、
前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンに近似するように前記規則韻律パターンを変形し、変形した規則韻律パターンと、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンとを接続することにより、修正韻律パターンを生成する韻律補完部を含む、請求項1に記載の韻律生成装置。
(付記3)
前記修正韻律生成部は、
前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンに近似するように前記規則韻律パターンを変形し、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンを用いることなく、変形した規則韻律パターンを用いることにより、修正韻律パターンを生成する韻律修正部を含む、請求項1に記載の韻律生成装置。
(付記4)
前記規則韻律パターン、前記音声韻律パターン、および、前記修正韻律パターンは、声の高さの変化パターンを表すピッチパターンである、付記1〜3のいずれか一項に記載の韻律生成装置。
(付記5)
付記1〜4のいずれか一項に記載の韻律生成装置と、
前記韻律生成装置により生成された表音文字列データおよび修正韻律パターンの少なくとも1つを編集させるGUI装置とを備えたことを特徴とする韻律編集システム。
(付記6)
付記1〜4のいずれか一項に記載の韻律生成装置と、
前記韻律生成装置により生成された修正韻律パターンに基づいて、合成音声を生成し出力する音声合成装置とを備えたことを特徴とする音声合成システム。
(付記7)
付記1〜4のいずれか一項に記載の韻律生成装置と、
前記韻律生成装置により生成された表音文字列データおよび修正韻律パターンの少なくとも1つを編集させるGUI装置と、
前記韻律生成装置により生成された修正韻律パターン、および、前記GUI装置により編集された修正韻律パターンの少なくとも1つに基づいて、合成音声を生成し出力する音声合成装置とを備えたことを特徴とする音声合成システム。
(付記8)
コンピュータが備えるテキスト入力部が、任意のテキストが入力されるテキスト入力工程と、
前記コンピュータが備える言語処理部が、前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理工程と、
前記コンピュータが備える規則韻律生成部が、前記表音文字列データ、および、韻律生成規則に基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成工程と、
前記コンピュータが備える音声入力部が、前記テキストを読み上げた人間の音声を音声データに変換する音声入力工程と、
前記コンピュータが備える音声韻律抽出部が、前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出工程と、
前記コンピュータが備える信頼度判定部が、前記音声韻律抽出工程にて前記音声データから前記音声韻律パターンが抽出された際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出工程による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出工程による抽出の信頼性が低いパターンと判定する信頼度判定工程と、
前記コンピュータが備える修正韻律生成部が、前記音声韻律パターンのうち前記音声韻律抽出工程による抽出の信頼性が低いパターンの代わりに、前記音声韻律パターンのうち前記音声韻律抽出工程による抽出の信頼性が高いパターン、および、前記規則韻律パターンに基づいて修正韻律パターンを生成する修正韻律生成工程とを含むことを特徴とする韻律生成方法。
(付記9)
任意のテキストが入力されるテキスト入力処理と、
前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理と、
前記表音文字列データ、および、韻律生成規則に基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成処理と、
前記テキストを読み上げた人間の音声を音声データに変換する音声入力処理と、
前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出処理と、
前記音声韻律抽出処理にて前記音声データから前記音声韻律パターンが抽出された際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出処理による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出処理による抽出の信頼性が低いパターンと判定する信頼性判定処理と、
前記音声韻律パターンのうち前記音声韻律抽出処理による抽出の信頼性が低いパターンの代わりに、前記音声韻律パターンのうち前記音声韻律抽出処理による抽出の信頼性が高いパターン、および、前記規則韻律パターンに基づいて修正韻律パターンを生成する修正韻律生成処理とをコンピュータに実行させることを特徴とする韻律生成プログラム。
以上のように、本発明は、任意のテキストと、このテキストを読み上げた人間の音声とを受け付け、受け付けた任意のテキストおよび人間の音声に基づいて、韻律パターンを生成する韻律生成装置、韻律生成方法、または、韻律生成プログラムとして有用である。
本発明の第1の実施形態に係る音声合成システムの概略構成を示すブロック図である。 上記音声合成システムの韻律生成装置における言語処理部が文字列データに対して形態素解析を行った結果を示す概念図である。 上記言語処理部により生成された複数の文節とその読みを示す概念図である。 フレーズ成分にアクセント句成分が重畳された状態を示す概念図である。 上記韻律生成装置におけるピッチパターン生成部により生成された規則ピッチパターンの一例を示す概念図である。 任意の母音の音声データの時系列を示す概念図である。 図6に示す音声データの時系列を自己相関関数に適用した場合における相関値を示す概念図である。 上記韻律生成装置におけるピッチパターン抽出部により抽出された音声ピッチパターンの一例を示す概念図である。 図8に示す音声ピッチパターンのうち、上記韻律生成装置における信頼度判定部により抽出の信頼性が高いと判定されたパターンの一例を示す概念図である。 図9に示すパターンに近似するように変形された規則ピッチパターンの一例を示す概念図である。 上記韻律生成装置における韻律補完部によりスムージングされたピッチパターンの一例を示す概念図である。 上記韻律補完部により生成された修正ピッチパターンの一例を示す概念図である。 本発明の第1の実施形態の変形例に係る音声合成システムの概略構成を示すブロック図である。 上記音声合成システムの動作の一例を示すフローチャートである。 本発明の第2の実施形態に係る音声合成システムの概略構成を示すブロック図である。 図10に示す太線のパターンを除去し、変形された規則ピッチパターンのみを示した概念図である。 上記音声合成システムの韻律生成装置における韻律修正部によりスムージングされたピッチパターンの一例を示す概念図である。 上記韻律修正部により生成された修正ピッチパターンの一例を示す概念図である。 本発明の第3の実施形態に係る音声合成システムの概略構成を示すブロック図である。 上記音声合成システムのGUI装置における表示部に表示された表示画面の一例を示す概念図である。
符号の説明
1、1a、10、11 音声合成システム
2、4 韻律生成装置
3 音声合成装置
5 GUI装置
21 テキスト入力部
23 言語処理部
24 規則韻律生成部
24a 音素時間長生成部
24b ピッチパターン生成部
24c パワー生成部
25 音声入力部
26 音声韻律抽出部
26a 音素時間長抽出部
26b ピッチパターン抽出部
26c 信頼度判定部
26d パワー抽出部
27、41 修正韻律生成部
27a 韻律補完部
41a 韻律修正部

Claims (7)

  1. 任意のテキストが入力されるテキスト入力部と、
    前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理部と、
    前記表音文字列データ、および、韻律生成規則に基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成部と、
    前記テキストを読み上げた人間の音声を音声データに変換する音声入力部と、
    前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出部と、
    前記音声韻律抽出部が前記音声データから前記音声韻律パターンを抽出する際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出部による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出部による抽出の信頼性が低いパターンと判定する信頼度判定部と、
    前記規則韻律パターンを、前記音声韻律抽出部による抽出の信頼性が高いパターンに近似して変形させることにより、前記音声韻律抽出部による抽出の信頼性が低いパターンを補完して、修正韻律パターンを生成する修正韻律生成部とを備えたことを特徴とする韻律生成装置。
  2. 前記修正韻律生成部は、
    前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンに近似するように前記規則韻律パターンを変形し、変形した規則韻律パターンと、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンとを接続することにより、修正韻律パターンを生成する韻律補完部を含む、請求項1に記載の韻律生成装置。
  3. 前記修正韻律生成部は、
    前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンに近似するように前記規則韻律パターンを変形し、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンを用いることなく、変形した規則韻律パターンを用いることにより、修正韻律パターンを生成する韻律修正部を含む、請求項1に記載の韻律生成装置。
  4. 前記規則韻律パターン、前記音声韻律パターン、および、前記修正韻律パターンは、声の高さの変化パターンを表すピッチパターンである、請求項1〜3のいずれか一項に記載の韻律生成装置。
  5. 請求項1〜4のいずれか一項に記載の韻律生成装置と、
    前記韻律生成装置により生成された表音文字列データおよび修正韻律パターンの少なくとも1つを編集させるGUI装置とを備えたことを特徴とする韻律編集システム。
  6. コンピュータが備えるテキスト入力部が、任意のテキストが入力されるテキスト入力工程と、
    前記コンピュータが備える言語処理部が、前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理工程と、
    前記コンピュータが備える規則韻律生成部が、前記表音文字列データ、および、韻律生成規則に基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成工程と、
    前記コンピュータが備える音声入力部が、前記テキストを読み上げた人間の音声を音声
    データに変換する音声入力工程と、
    前記コンピュータが備える音声韻律抽出部が、前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出工程と、
    前記コンピュータが備える信頼度判定部が、前記音声韻律抽出工程にて前記音声データから前記音声韻律パターンが抽出された際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出工程による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出工程による抽出の信頼性が低いパターンと判定する信頼度判定工程と、
    前記コンピュータが備える修正韻律生成部が、前記規則韻律パターンを、前記音声韻律抽出工程による抽出の信頼性が高いパターンに近似して変形させることにより、前記音声韻律抽出工程による抽出の信頼性が低いパターンを補完して、修正韻律パターンを生成する修正韻律生成工程とを含むことを特徴とする韻律生成方法。
  7. 任意のテキストが入力されるテキスト入力処理と、
    前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理と、
    前記表音文字列データ、および、韻律生成規則に基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成処理と、
    前記テキストを読み上げた人間の音声を音声データに変換する音声入力処理と、
    前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出処理と、
    前記音声韻律抽出処理にて前記音声データから前記音声韻律パターンが抽出された際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出処理による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出処理による抽出の信頼性が低いパターンと判定する信頼性判定処理と、
    前記規則韻律パターンを、前記音声韻律抽出処理による抽出の信頼性が高いパターンに近似して変形させることにより、前記音声韻律抽出処理による抽出の信頼性が低いパターンを補完して、修正韻律パターンを生成する修正韻律生成処理とをコンピュータに実行させることを特徴とする韻律生成プログラム。
JP2007135847A 2007-05-22 2007-05-22 韻律生成装置、韻律生成方法、および、韻律生成プログラム Expired - Fee Related JP5029884B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007135847A JP5029884B2 (ja) 2007-05-22 2007-05-22 韻律生成装置、韻律生成方法、および、韻律生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007135847A JP5029884B2 (ja) 2007-05-22 2007-05-22 韻律生成装置、韻律生成方法、および、韻律生成プログラム

Publications (2)

Publication Number Publication Date
JP2008292587A JP2008292587A (ja) 2008-12-04
JP5029884B2 true JP5029884B2 (ja) 2012-09-19

Family

ID=40167393

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007135847A Expired - Fee Related JP5029884B2 (ja) 2007-05-22 2007-05-22 韻律生成装置、韻律生成方法、および、韻律生成プログラム

Country Status (1)

Country Link
JP (1) JP5029884B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5576817B2 (ja) * 2011-03-15 2014-08-20 富士通フロンテック株式会社 自動取引装置、音声読み上げ方法及び音声読み上げプログラム
WO2016043322A1 (ja) * 2014-09-19 2016-03-24 株式会社コティレドン・テクノロジー 音声合成方法、プログラム及び装置
JP6004358B1 (ja) * 2015-11-25 2016-10-05 株式会社テクノスピーチ 音声合成装置および音声合成方法
JP6553584B2 (ja) * 2016-12-12 2019-07-31 日本電信電話株式会社 基本周波数モデルパラメータ推定装置、方法、及びプログラム
JP6729539B2 (ja) 2017-11-29 2020-07-22 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム
JP7180642B2 (ja) * 2020-07-01 2022-11-30 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09292897A (ja) * 1996-04-26 1997-11-11 Sanyo Electric Co Ltd 音声合成装置
JPH10153998A (ja) * 1996-09-24 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JP2002258885A (ja) * 2001-02-27 2002-09-11 Sharp Corp テキスト音声合成装置およびプログラム記録媒体
JP2006337476A (ja) * 2005-05-31 2006-12-14 Canon Inc 音声合成方法および装置

Also Published As

Publication number Publication date
JP2008292587A (ja) 2008-12-04

Similar Documents

Publication Publication Date Title
JP5119700B2 (ja) 韻律修正装置、韻律修正方法、および、韻律修正プログラム
US8219398B2 (en) Computerized speech synthesizer for synthesizing speech from text
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
JP4054507B2 (ja) 音声情報処理方法および装置および記憶媒体
US20100066742A1 (en) Stylized prosody for speech synthesis-based applications
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP5029884B2 (ja) 韻律生成装置、韻律生成方法、および、韻律生成プログラム
CN104008752A (zh) 语音识别装置及方法、以及半导体集成电路装置
JP5398295B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
O'Shaughnessy Modern methods of speech synthesis
JP2003186489A (ja) 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
JP6436806B2 (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
KR20010018064A (ko) 음운환경과 묵음구간 길이를 이용한 텍스트/음성변환 장치 및그 방법
JP2013195928A (ja) 音声素片切出装置
Chettri et al. Nepali text to speech synthesis system using esnola method of concatenation
JP2021148942A (ja) 声質変換システムおよび声質変換方法
WO2008056604A1 (en) Sound collection system, sound collection method, and collection processing program
JP4841339B2 (ja) 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム
JPH07140996A (ja) 音声規則合成装置
US20070055524A1 (en) Speech dialog method and device
Ademi et al. Natural language processing and text-to-speech technology
JP6191094B2 (ja) 音声素片切出装置
JP5012444B2 (ja) 韻律生成装置、韻律生成方法、および、韻律生成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110915

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120531

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120613

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150706

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees