JP2009020264A - 音声合成装置及び音声合成方法並びにプログラム - Google Patents

音声合成装置及び音声合成方法並びにプログラム Download PDF

Info

Publication number
JP2009020264A
JP2009020264A JP2007182081A JP2007182081A JP2009020264A JP 2009020264 A JP2009020264 A JP 2009020264A JP 2007182081 A JP2007182081 A JP 2007182081A JP 2007182081 A JP2007182081 A JP 2007182081A JP 2009020264 A JP2009020264 A JP 2009020264A
Authority
JP
Japan
Prior art keywords
prosody
voice
section
speech
real voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007182081A
Other languages
English (en)
Other versions
JP4964695B2 (ja
Inventor
Kenji Nagamatsu
健司 永松
Ryota Kamoshita
亮太 鴨志田
Yusuke Fujita
雄介 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2007182081A priority Critical patent/JP4964695B2/ja
Publication of JP2009020264A publication Critical patent/JP2009020264A/ja
Application granted granted Critical
Publication of JP4964695B2 publication Critical patent/JP4964695B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】合成音声区間と部分的に一致する肉声区間を検出して、その肉声区間の韻律(抑揚・リズム)情報を合成音声に付与し、肉声と合成音声を自然に結合させる。
【解決手段】録音音声格納手段、入力テキスト解析手段、録音音声選択手段、接続境界算出手段、規則合成手段、接続合成手段に加えて、合成音声区間のうちで録音済みの肉声と部分的に一致する区間を決定する肉声韻律区間決定手段と、その一致部分の肉声韻律を抽出する肉声韻律抽出手段と、抽出された肉声韻律を使って合成音声区間全体の韻律情報を生成するハイブリッド韻律生成手段を備える。
【選択図】図2

Description

本発明は、音声合成装置および音声合成方法に関係する。特に、合成音声と肉声とを併用してアナウンス音声を作成するハイブリッド音声合成装置に関係する。
鉄道や公共施設での自動アナウンス、または銀行や証券会社などでの電話による情報提供システムのように、音声を使って情報を提供するシステムが大きく普及してきている。これらの応用分野で利用される音声メッセージには、固定的な表現が多いという特徴がある。例えば、鉄道での放送例では、「まもなく、5番線に東京行きがまいります」というアナウンス音声は、「5番線」「東京」という部分を変更して様々なバリエーションが利用されることが多い。
そのため、このような固定的な表現が多い自動アナウンス分野で利用されるアナウンスシステムでは、固定的な表現部分を肉声音声の部品として用意しておき、それらを適宜組み合わせることによってアナウンス音声を作成する。例えば、上記のアナウンス例では、「まもなく」「5番線に」「東京行きが」「まいります」という音声部品を結合することで文章としてのアナウンス音声を作成するという手法が採用されている。これを録音編集方式と呼び、上記のようなアナウンス分野では、現在主流となっている方式(システム)である。
この録音編集方式では、肉声部品を結合するという方法であるため、肉声感という点での品質は高い。しかし、細切れの音声部品を結合させるため、抑揚やリズムが合わせづらくなり、音声の自然性という観点での品質は落ちてしまう。さらに、音声部品はあらかじめ録音しておかねばならないため、新しい語句が追加された場合には再録音が必要となり、コストや利便性にかける方式となっている。
一方、音声合成やTTS(Text−to−Speech)技術と呼ばれる規則合成方式を用いて音声を合成すると、任意の文章を読み上げる音声データを生成することが可能となる。この規則合成方式については、「ディジタル音声処理」(古井貞煕、東海大学出版会)や「Progress in Speech Synthesis」(VAN SANTEN他、Springer)などに詳細な記述がある。しかし、この方式は任意の文章を音声に変換することが可能な反面、肉声感や自然性という点では、録音編集方式に及ばない。
そこで、上記の録音編集方式の問題点を解決するために、録音編集方式と規則合成方式を併用したハイブリッド方式というものが考えられている。これは、定型的な表現部分、たとえば、上記の文例では「まもなく」や「まいります」などには録音された肉声音声部品を用い、内容が変更される可能性がある「5番線に」や「東京行きが」の部分については、TTS技術で生成された合成音声部品を用いて、それらを結合して音声メッセージを作成するという手法である。これによって、録音編集方式の肉声感を保ちつつも、任意の語句に対応できるというTTS技術の柔軟性を兼ね備えることが可能となる。
しかし、抑揚やリズムの自然性が低いという録音編集方式の問題点は、このハイブリッド方式でも残るため、それを解決する手法として例えば次のような可変位置でのハイブリッド方式が考えられる。これは、合成音声部分と肉声部分との結合位置を、上記のハイブリッド方式の例のように語句・文節単位とするのではなく、無声子音やパワーの小さい音素位置を動的に探索するなどしてより自由に結合位置を決定することで、音声部品間の結合位置を目立たないようにすることを特徴する。さらに、合成音声部分の抑揚・リズムをその前後の肉声部分に合わせて調整することで全体の自然性を向上させることができる。
また、逆の観点から、定型的な表現が多い場合に音声合成方式の肉声感や自然性を向上させる技術も発明されている。例えば、特許文献1に示す発明では、音声合成を行う際に、定型的な表現部分の韻律(抑揚・リズム)情報として、肉声そのものから取得した情報を利用する技術を開示している。この技術を用いることで、音声合成方式ではありながらも、定型的な表現部分では肉声とほぼ同等の抑揚・リズムの自然性が得られることとなる。
特開平11−249677号公報
上記の可変位置ハイブリッド方式を用いることで、肉声部分と合成音声部分との結合位置が目立たなくなり、合成音声部分の抑揚・リズムが肉声に合うように調整されることで、その自然性も向上することになる。しかし、その調整技術がまだ不十分なため、合成音声部分が合成音声であるということが分かってしまい、その結果、品質を大きく下げてしまうという問題がある。
そこで、特許文献1が開示する技術を音声合成部分に適用して、その自然性を肉声とほぼ同等にすることで解決するという手法が考えられる。しかし、二つの手法を単純に組み合わせるだけでは解決することができない。これは、上記の可変位置ハイブリッド方式を実施したシステムで音声メッセージを作成する場合に、合成音声技術が使われる区間と同じ内容、より正確には同じ音韻の肉声が録音されている場合にのみ、かつ同じ音韻部分にのみ、特許文献1の技術を適用できるからである。つまり、同じ内容の肉声が録音されていない場合は適用自体が不可能である。合成音声が使われる区間は任意の語句であることを考えると、同じ内容の肉声が録音されているという可能性はかなり低いと想定せざるをえない。
本発明は上記の問題を鑑みてなされたものであり、可変位置ハイブリッド方式を実施した場合の合成音声区間と部分的に一致する肉声区間を検出して、その肉声区間の韻律(抑揚・リズム)情報を合成音声に付与することで問題を解決する。そして、肉声と合成音声を従来技術よりも自然に結合させることで、肉声感・自然性がともに高い音声メッセージを作成可能なハイブリッド音声合成装置を提供することを目的とする。
本発明は、音声に変換するテキストを受け付けて発音テキストに変換する入力テキスト解析処理と、予め設定された文書を肉声により記録した肉声データと前記文章を予め格納した録音音声格納部の前記文章と前記発音テキストを比較して、音声合成に使用する肉声データ及び文章を前記録音音声格納部から選択する録音音声選択処理と、前記発音テキストと前記選択された文章から音声合成により音声を生成する合成音声区間と前記肉声データから音声を生成する肉声区間との境目を決定する接続境界算出処理と、前記接続境界算出処理で決定された合成音声を使用する合成音声区間において前記肉声データの韻律を使用する肉声韻律区間を決定する肉声韻律区間決定処理と、前記肉声韻律区間決定処理で決定された前記区間の韻律を前記選択した肉声データから抽出する肉声韻律抽出処理と、前記抽出された肉声による韻律と、前記韻律モデルから合成音声区間全体の韻律情報を生成するハイブリッド韻律生成処理と、前記決定された合成音声区間に基づいて、予め設定された音声素片と前記韻律情報により音声合成データを生成する規則合成処理と、前記肉声区間に対応する肉声データと、前記生成された音声合成データとを接続して入力されたテキストに対応する合成音声文章を生成する接続合成処理と、を含む。
したがって、本発明により、肉声データと合成音声を結合して、肉声感・自然性の高い音声メッセージを作成することが可能なハイブリッド音声合成装置において、その合成音声区間の自然性をさらに向上させることができる。これにより、さらに自然性が高く高品質な音声メッセージの作成が可能となる。
以下、本発明の一実施形態を添付図面に基づいて説明する。
図1は、本発明の第1の実施形態を示す音声合成装置のブロック図である。音声合成装置1は、演算処理を行うCPU(プロセッサ)3と、データやプログラムを格納するメモリ2と、データやプログラムを格納するストレージ装置5と、演算結果などを表示する表示装置4と、音声を出力する音声再生装置6を含んで構成される。メモリ2には、テキストを生成するプログラムとしてテキスト生成部7と、テキスト生成部7が出力したテキストを音声に変換する音声合成部8がロードされ、CPU3により実行される。音声合成部8では、テキストを音声データに変換して出力し、CPU3は音声データを音声再生装置6に送信して音声の出力を指令する。
なお、テキスト生成部7は、後述するように、カーナビゲーション装置等における誘導情報をテキストで生成するソフトウェアモジュールとして機能するものである。また、ストレージ装置5には、後述するように音声合成部8が利用する各種データが格納される。
図2は、図1に示した音声合成部8の機能ブロック図である。
図2において、本発明の音声合成装置1および音声合成手法の基本的構成は、テキスト生成部7から入力されたテキスト10の内容を解析して録音された肉声部品(肉声録音音声データ)を使う部分と合成音声部品を使う部分とを切り分けるための発音テキスト21を生成する入力テキスト解析部20と、音声合成に使われる文章録音音声(=肉声録音音声データ)を多数格納した録音音声格納部30から肉声部品(=肉声録音音声データの一部または全部)の素材として使用可能な録音文章を決定する録音音声選択部40と、選択された録音文章の中から音声合成による合成音声区間と肉声録音音声データからなる肉声区間との境目(境界)を決定する接続境界算出部50と、合成音声を使用する合成音声区間において肉声録音音声データの韻律をそのまま使用できる箇所を決定する肉声韻律区間決定部60と、肉声録音音声データの韻律を使うと決定された箇所に対応する韻律情報を肉声録音音声データから抽出する肉声韻律抽出部70と、抽出された韻律情報に基づいて新規に音声合成する部分の韻律を補完して音声合成する区間全体のハイブリッド韻律情報を生成するハイブリッド韻律生成部80と、生成されたハイブリッド韻律情報に基づいて音声素片データベース110と韻律モデル120内のデータを用いて音声合成を行う規則合成部100と、肉声部品区間と合成音声区間とを接続して入力されたテキストに対応する合成音声文章全体を生成する接続合成部90とで構成される。
次に、本発明の基本的構成な図2において、各要素を具体的にどのような装置として構成すればよいかを説明する。ここでは、本音声合成装置1をカーナビゲーションシステムでのガイダンス音声を音声合成する装置として実装する場合について具体的な説明を行う。
まず、入力テキスト10は、例えばキーボードやタッチパネル等でのデジタルペンを用いて入力され、電子データとして入力テキスト解析部20に渡される。これらの他にも、文字認識装置(OCR)を使うなど様々な入力装置が考えられる。また、あらかじめ音声合成される入力テキストをストレージ装置5のデータベースに格納しておいても良いし、図示しないテキスト処理装置やテキスト処理手法を用いて新たなテキストを動的に生成してもかまわない。
本第1実施形態の場合では、入力テキスト10として図3に示す「まもなく、渋谷南バイパスの先を右折です。」というデータが音声合成装置1へ入力されたものとして処理の流れを説明する。
次に、録音音声格納部30は、音声合成される文章に対して肉声部品として使用可能な肉声録音音声データを多数格納したデータベースである。録音音声格納部30は、音声コーパスとも呼ばれる、様々なデータベース装置、データ格納技術を用いて実現は容易である。
本実施形態において、肉声録音音声データは、所定の文章を人間がしゃべった音声(文章録音音声)を予め記録したものである。録音音声格納部30の一例としては、例えば、図4に示す構造の表(またはリレーショナルデータベース)の形態でデータが格納しておくことができる。ここで肉声録音音声データ自体は、録音音声格納部30内の音声ファイル220に予め格納されている。さらに、録音音声格納部30には、音声ファイル220の肉声録音音声データをテキストに変換したものが録音音声テキスト210として格納され、録音音声テキスト210の発音をテキストに変換した情報が録音音声発音テキスト230に格納されている。また、録音音声テキスト210に対応する音声ファイル220と録音音声発音テキスト230は、ID200により一連のデータとして対応付けられる。これらID200に対応する録音音声テキスト210、音声ファイル220及び録音音声発音テキスト230を録音音声情報とする。
図4に示す録音音声発音テキスト230には、アクセントの位置やフレーズの区切りなどを示す記号は削除して、音節(ア、カ、ギなどの母音と子音の組で構成される単位)のみを示すカナ文字だけで記述しているが、アクセント等の記号も含めた発音記号列テキストというフォーマットで格納しておくことも可能である。そのほかにも、音素文字列、または音素ID列など、その音声がどのような音素(A、K、G、Iなどの母音と子音を合わせた単位)で構成されているかを示すに足る情報が格納されていれば良い。以下では、音節の単位、音素の単位など分けずに、より抽象的に音韻と呼ぶこととする。
次に、入力テキスト解析部20は、テキスト生成部7から入力されたテキスト10に対してテキスト解析処理、または自然言語解析処理とよばれる解析処理を行い、のちの録音音声選択部40や接続境界算出部50などで利用しやすい形態の情報を抽出、または変換することを目的とする。ここでの具体的な処理は肉声韻律区間としてどのような種類を選択するかなどの実装に依存するものとなる。本第1実施形態の場合、図3に示した入力テキスト10を、図5に示す発音テキスト21に変換する処理を行う。図3の入力テキスト10を図5の発音テキスト21に変換する手法としては、自然言語解析処理、具体的には単語辞書データを用いた形態素解析を行うことで実現できる。この手法については、例えば、「自然言語処理」(長尾真編、岩波書店)などに開示されている。また、別の手法としては、辞書データが不要なパターンマッチング技術を使うことも可能であろう。その場合は、録音音声格納部30には、図4の録音音声発音テキスト230の代わりに、図6に示すようなマッチングパターンを持っておくことで実現できる。図6のマッチングパターンは、ID2001に対応する録音音声テキスト2101と、録音音声テキスト2101の要部を含むマッチングパターン2102とから構成される。この場合は、文字列マッチング処理(上記文献などで広く開示されている)を適用することで、記号「*」をワイルドカード(どんな文字列とでもマッチング可能)とみなして、最も良く(ワイルドカード部分が最も短くなる)一致する録音音声情報を検索するという処理となる。
次に、録音音声選択部40は、入力テキスト解析部20で解析された情報(図5の発音テキスト21)に基づいて、入力テキスト10に最も近い、つまり同じ内容の肉声部分を多く含む肉声録音音声データ(音声ファイル220)を録音音声格納部30から選択するための処理である。
この処理は、発音テキスト21と録音音声発音テキスト230で共通に含まれる音節の数をカウントすることで実現可能である。第1実施形態の場合、図5の入力テキスト解析結果(発音テキスト21)と、録音音声格納部30に格納されているそれぞれの肉声録音音声データの録音音声発音テキスト230との比較を実施する。
この比較の結果、図7に示すような一致音節数を各肉声録音音声データに対して算出することができる。図7は、録音音声格納部30の録音音声テキスト210に対応する録音音声発音テキスト230のうち、発音テキスト21と発音が一致した音節数240をテーブルとして示したものである。この中で、最も一致音節数240が大きな肉声録音音声データを含む録音音声情報を録音音声選択部40の出力結果とすればよい。ここでの音節比較処理は、音節比較の順序を入れ替えないようにしなければならない。例えば、図8(a)は、図4に示したID=2の録音音声発音テキスト230と発音テキスト21の比較結果を示す。図8(a)において、「マモナク」までは一対一で対応してきて、「シ」「ブ」「ヤ」について一致する音節がなく、再び「ミナミ」以降は一対一で対応する音声が存在するため簡単に比較処理が可能であるが、発音テキストによってはテキスト左側の音節を優先して一致させることで後半部の一致音節数が少なくなる場合も存在する。このような場合に対しては、例えば文字列比較方式を最左最短一致方式にしたり、または、複数の一致パターンを生成させてすべての中で最も一致音節数が多い一致パターンを選択するという処理にしたりするなどして、より適切な一致音声を選択することは可能である。
また、図8(b)は、ID=2とは一部が異なる録音音声発音テキスト230と発音テキスト21の比較結果を示す。この例のように、図8(a)よりも一致音節数が多くなるが、非一致部分、すなわち後ほど音声合成処理によって合成音声部品が生成される区間が極端に短くなる場合も出現する。音声合成処理によっては短い合成音声の生成に適しない方式もあるため、このような場合には図8(a)の一致パターンを優先させるなど、利用する音声合成部の処理内容によって比較結果の順序づけをすることも考えられる。これらの図8(a)と図8(b)などの一致パターンの優先順位の決定方法としては、例えば、入力テキスト10から求めた発音テキスト21と録音音節発音テキスト230とを比較して、録音音声発音テキスト230内で不一致だった箇所の文字数ごとに、図16に示す不一致コストを参照して、図15に示すようにトータルの不一致コストというものを計算することができる。この不一致コストを比較することで、一致音節数は少なくても、より不一致コストの小さな図15(a)の一致パターンを優先するということが可能となる。なお、図16は不一致文字数と不一致コストの関係を予め設定したテーブルである。
ここで、図8に示す不一致コストの設定方法は、本発明では録音音声情報(図15に示す録音音声発音テキスト230に相当する肉声録音音声データ)のうち、入力テキスト10(発音テキスト21)の音節と一致した部分のみがそのまま利用されるということを考慮して、肉声(肉声録音音声データ)の間に結合される合成音声区間の長さに応じて設定しておく必要がある。図8の例では、単純に不一致文字数のみに応じて不一致コストを定義しているが、不一致文字およびその前後の音韻がどのような種類のものかという音韻環境に応じて不一致コストを設定することもできる。このような設定方法を採れば、肉声録音音声データの無音区間で結合される場合には、たとえ不一致文字数が極端に少なくも、不一致コストを小さくすることで、よりスムーズな一致パターンを優先させるということも可能となる。
この順序づけの変更方法は、音声合成部(規則合成部100)として、どのような特徴のものを採用するか決定した時点で、すなわち、本発明のシステムを実施した時点で、また、この録音音声選択部40での処理は、音節単位ではなく、より細かな音素単位にすることもでき、処理の手法については音節と同様となる。
ここで、音節単位で処理するか、音素単位で処理するかは、音声合成部(規則合成部100)がどこまで小さい単位でも音声合成に対応しているかに依存する。もし、規則合成部100が音節単位での音声合成までしか対応していないのであれば、この録音音声選択部40と関連する録音音声格納部30、さらに以降の接続境界算出部50からハイブリッド韻律生成部80まですべてが、音節単位での処理を行わなければならない。
一方、規則合成部100が音素単位での音声合成に対応しているのであれば、録音音声格納部30からハイブリッド韻律生成部80までの処理は、音節単位と音素単位のどちらを選ぶことも可能である。本発明の目的である、肉声(肉声録音音声データ)と合成音声をよりスムーズに結合することを目的とするのであれば、より詳細な単位である音素単位での処理を基本とすることが望ましい。
次に、接続境界算出部50では、録音音声選択部40で選択された肉声録音音声データ(音声ファイル220)に対して、どの部分を肉声そのままの肉声部品として利用し、どの部分を合成音声処理で生成された合成音声部品を使うかを決定する。一番簡単な手法としては、録音音声選択部40で実行された音節比較処理の結果で、一致した音節部分については肉声録音音声データ(音声ファイル220)の肉声を使い、それ以外の非一致部分については音声合成で生成された合成音声部品を使うという方法を用いることができる。
しかしながら、実際の音声(肉声)では、音節間がなめらかにつながった音声となっているため、単純にすべての音節間で肉声と合成音声を滑らかに結合可能なわけではない。この課題を解決する手法として、次に説明する可変位置ハイブリッド方式と呼ぶべきものがある。
このハイブリッド方式の手法によると、すべての音節、またはすべての音素間で、それらの接続のしやすさ(肉声と合成音声の結合のしやすさ)を示す接続コストを算出し、最も接続コストの小さな箇所で接続(肉声と合成音声の結合)が行われるように、合成音声部品の長さを伸ばすという処理がなされる。
より具体的には、無声子音先頭のポーズ位置や、音声パワーが十分に小さくなる音素境界を選択し、この音素境界まで合成音声部分を拡大するという処理を行うことができる。すなわち、肉声と合成音声の結合位置が常に一定ではなく、内容に応じて結合位置を動的に変更するという手法である。
例えば、本第1実施形態のケースで、図8(a)の比較によって肉声録音音声データID2が選択された場合を考える(図9)。この場合、音素・音節の一致比較処理のみで決定された肉声利用部分は「マモナク」「ミナミバイパスオウセツデス」となり、その途中の「シブヤ」は音声合成で生成された合成音声部品を利用する。しかし、「シブヤ」の「ヤ」と「ミナミバイパス」の「ミ」は両方とも有声音声であり、その間で音声を結合するとノイズが生じることになる。
そこで、無音区間や音声パワーの小さな箇所まで合成音声部分を拡大する処理を行う。図9の例の場合、「シブヤ」の直前は無音区間であるので、こちらの結合位置は変化しない。一方、「シブヤ」の後ろ側は、次に無音区間、まはた音声パワーが小さい箇所を探索すると「バイパス」の「パ」の箇所が見つかる。音節「パ」の先頭には破裂音音素「p」が存在しており、ここでは一旦、音声信号が0となる無音区間が生じる。この無音箇所で肉声(肉声録音音声データ)と合成音声を結合するとノイズを生じない。この結果、接続境界算出部50からは、図10に示すように、選択された録音音声ID=2と、肉声部品を使う区間である「マモナク」と「パスノサキオウセツデス」、そして、合成音声部品を使う区間となる「シブヤミナミバイ」が出力される。
次に、肉声韻律区間決定部60は、合成音声部品として音声合成処理される音節区間のうち、元の肉声録音音声データの韻律情報が利用できる区間を決定する処理を行う。この処理が本発明の基本的な部分であり、上記従来の可変位置ハイブリッド方式などの技術によって、肉声(肉声録音音声データ)と合成音声の結合を滑らかに行える箇所にまで(接続境界算出部50において)拡大された合成音声区間の中から肉声録音音声データから抽出された韻律情報を利用できる箇所を特定する処理を基本とする。
以下、第1実施形態のケースで具体的に説明する。接続境界算出部50によって、図8(a)に示される一致音節部分(上下の実線)が、肉声韻律区間決定部60によって図9に示される一致音節部分へと縮小される。つまり、非一致部分である合成音声部分が「シブヤ」から「シブヤミナミバイ」にまで拡大されている。
ここで図10のような処理結果の情報が肉声韻律区間決定部60に入力されると、合成音声区間「シブヤミナミバイ」と、この合成音声区間に対応する肉声録音音声データの区間「ナカノミナミバイ」との比較処理が行われる。ここでの比較も、上述の最左最短一致などの文字列マッチング手法を用いて一致部分を決定することができる。
肉声韻律区間決定部60は、音節単位の最長一致法を用いて、合成音声区間「シブヤミナミバイ」の中で元の肉声録音音声データと音韻(音節)が一致する区間を図11の破線で示すように「ミナミバイ」と決定することができる。
以上の処理から、肉声韻律区間決定部60は、図12に示すように合成音声区間「シブヤミナミバイ」の中から肉声録音音声データの韻律を用いる肉声韻律区間を「ミナミバイ」として出力する。すなわち、肉声韻律区間決定部60は、肉声区間と、合成音声区間に加えて、合成音声を利用する区間で肉声録音音声データの韻律のみを利用する肉声韻律区間の情報を付加する。
次に、肉声韻律抽出部70では、肉声韻律区間決定部60から出力された合成音声区間に対応する肉声録音音声の区間の韻律情報の抽出処理を行う。韻律情報とは、音声の基本周波数と音素・音節の継続時間長と音声パワーの時間変化を示す情報をさす。この韻律抽出処理は、例えば、音声認識技術を使った自動セグメンテーション処理によって、入力音声を構成する音素、または音節が何か、およびその位置を決定することで実現できる。基本周波数や音声パワーについては、音声信号処理技術で用いられている一般的なF0(基本周波数)抽出処理やパワー計算処理などを利用することで実現できる。または、あらかじめ上記の韻律情報を肉声録音音声データ全体に対して抽出しておき、肉声韻律抽出部70での処理では、合成音声区間に相当する韻律情報部分を抜き出すという手法でも実現できる。第1実施形態のケースの場合にこの肉声韻律抽出部70から出力される情報の例を図12に示す。ここでは、合成音声区間「シブヤミナミバイ」に対応する肉声録音音声データの区間「ナカノミナミバイ」の韻律情報(基本周波数の始点と終点、継続時間長)が各音節ごとに抽出されている。
次に、ハイブリッド韻律生成部80では、肉声韻律抽出部70から出力された肉声録音音声データの一部区間に対する韻律情報を元に、合成音声区間に対する韻律情報を生成する。この処理は、肉声韻律抽出部70で抽出された韻律情報のうち、肉声録音音声データと合成音声とで一致する部分はその情報を用い、一致しない部分は抽出された情報を無視して、または抽出された情報を参考にして合成音声に対応する区間の韻律情報を生成する処理を行う。
第1実施形態のケースで具体的に説明する。ハイブリッド韻律生成部80では、肉声韻律抽出部70から図12に示す肉声録音音声データ区間「ナカノミナミバイ」に対する韻律情報が入力された場合、その肉声録音音声データ区間に対応する合成音声区間「シブヤミナミバイ」の中で抽出された韻律情報が利用できる部分を決定する。ハイブリッド韻律生成部80での決定処理も、上記のさまざまな処理で利用されてきた文字列一致処理などを用いて実現可能である。この例の場合、「ミナミバイ」の部分は音節が一致するため、その部分の韻律情報としては肉声録音音声データから抽出された韻律情報を利用することができる。一方、音節が一致しない区間「シブヤ」については、規則合成部に含まれている韻律生成処理を使って「シブヤ」に対する韻律情報を新たに生成しても良いし、または「ナカノ」の韻律情報からある韻律変換処理(例えば、基本周波数や音素継続長を、その前後の箇所と連続になるように一律に伸縮・移動させるなどの処理)によって生成することも可能である。
図13に、ハイブリッド韻律生成部80が韻律生成処理を行って「シブヤ」に対する韻律情報を生成した韻律情報付き音節列の一例を示す。この韻律生成処理については、「ディジタル音声処理」(古井貞煕、東海大学出版会)や「Progress in Speech Synthesis」(VAN SANTEN他、Springer)などで開示されている。
次に規則合成部100では、ハイブリッド韻律生成部80から出力された韻律情報付き音節列(図13)を入力として、韻律情報付き音節列に指定された韻律が実現されるように音声合成処理を行う。その際、合成音声の部品である音声素片データベース110と韻律モデル120を参照して合成音声への変換処理を行う。この規則合成処理についても上記の文献などで広く開示されているため、説明は省略する。第1実施形態のケースでは、この処理の結果、図13の韻律を実現した合成音声部品「シブヤミナミバイ」が音声合成処理によって図14で示すように生成される。
最後に、接続合成部90によって、録音音声選択部40と接続境界算出部50から出力された肉声録音音声データの部品と、規則合成部100から出力された合成音声部品とが接続合成(結合)処理されて、ハイブリッド合成音声130として出力される。この接続合成処理には、単純に合成音声を結合するだけの処理で実現することも可能であり、その結合部分にTD−PSOLA(Time Domain Pitch Synchronous Overlap Add)などの波形重畳信号処理などを用いて、より滑らかに接合されることも可能である。
第1実施形態のケースでは、接続境界算出部50から出力された肉声録音音声データの部品「マモナク」と「パスノサキオウセツデス」に、規則合成部100から出力された合成音声部品「シブヤミナミバイ」とが結合されて、「マモナク」「シブヤミナミバイ」「パスノサキオウセツデス」に対応するハイブリッド合成音声が出力されることになる。
ここで出力されたハイブリッド合成音声では、「マモナク」と「パスノサキオウセツデス」の区間は完全に肉声録音音声データであり、「シブヤミナミバイ」の区間は合成音声ではあるが、「ミナミバイ」部分は肉声録音音声データの韻律をそのまま実現した合成音声であるため、韻律的に自然で、かつ後半の「パスノサキオウセツデス」と韻律が連続に繋がる合成音声を実現できている。このように本発明によれば、前述の可変位置ハイブリッド合成方式を実施した場合の合成音声区間と部分的に一致する肉声区間を検出して、その肉声区間の韻律(抑揚・リズム)情報を合成音声に付与し、肉声と合成音声を従来技術よりも自然に結合させることで、肉声感・自然性がともに高い音声メッセージを作成可能なハイブリッド音声合成装置を提供することが可能となる。
なお、上記において、肉声韻律区間決定部60は、入力テキスト10を変換した発音テキスト21と、録音音声発音テキスト230とを、音節単位での最長一致に基づいて肉声録音音声データの韻律を用いる例を示したが、発音テキスト21と、録音音声発音テキスト230との比較を音素単位での最長一致を用いても良い。
<実施形態2>
次に本発明を、カーナビゲーションシステムに特化した場合の実施形態について説明する。
図17は、本発明をカーナビゲーションシステムとして実施した場合の構成図である。前記第1実施形態の図2における入力テキスト10が、図17ではカーナビゲーション装置(特にその中の発声内容決定部)310から受け渡される。また、図2において接続合成部90から出力されていたハイブリッド合成音声130が、本第2実施形態の図17では、直接、スピーカー(アンプを含む)などの音声再生装置320から出力されるようになる。それ以外の構成は第1実施形態の図2と共通であり、各処理部における処理の内容、およびそれらの処理の流れは、基本的に前記第1実施形態に説明したものと同様となる。
そこで、ここでは、本発明の音声合成部8における処理フローについて、図18のフローチャートを用いて説明する。
まず、図18に示すハイブリッド合成処理が起動すると、カーナビゲーション装置の発声内容決定部で決定された読み上げ(発声)テキストが入力されるまで待ち状態となる。もし、読み上げテキストが入力された場合、その入力テキスト10は入力テキスト解析処理410に渡されて、音声合成処理のための内部表現形式へと変換される。この処理の詳細については、第1実施形態の入力テキスト解析部20で説明した通りである。
続いて、内部表現データが録音音声選択処理420へと渡され、録音音声格納部30に格納されている肉声録音音声データ(音声ファイル220)の中から、録音音声発音テキスト230が入力テキスト10(発音テキスト21)に最もよく一致するパターンの肉声録音音声データ(音声情報)が選択される。この選択処理の詳細については、第1実施形態の録音音声選択部40で説明した通りである。
もし、この録音音声選択処理420において、適切な一致パターンを選択できなかった場合は、入力テキスト10、および内部表現データが規則合成処理430に渡され、入力テキスト全文が合成音声に変換されて出力される。すなわち、適切な一致パターンがない場合は、読み上げ(発声)テキストはすべて合成音声で出力される。
一方、録音音声選択処理420で録音音声発音テキスト230の中から適切な一致パターンを選択できた場合は、一致した録音音声情報(図4に示すデータの横一列の録音音声情報)が接続境界算出処理へと渡される。この処理の詳細については、第1実施形態の接続境界算出部50で説明した通りである。
つづいて、肉声韻律区間決定処理440が起動される。この処理では、接続境界算出処理で判定されたすべての接続境界(選択された肉声録音音声データの中の境界)に対して、肉声韻律を使用する肉声韻律区間なのか、合成音声を使用する合成音声区間なのかの決定処理が繰り返して実行される。この処理の詳細については、第1実施形態の肉声韻律区間決定部60で説明した通りである。
つづいて、肉声韻律抽出処理450が起動される。この処理では、肉声韻律区間決定処理440において、肉声韻律区間として判定されたすべての区間に対して、韻律抽出処理を繰り返し実行する。この処理の詳細については、第1実施形態の肉声韻律抽出部70で説明した通りである。
つづいて、ハイブリッド韻律生成処理460が起動される。この処理では、肉声韻律区間決定処理440において、合成音声区間として判定されたすべての区間、さらにその区間内のすべての音韻に対して、韻律情報の生成処理を繰り返し実行する。この処理の詳細については、第1実施形態のハイブリッド韻律生成部80で説明した通りである。
つづいて、規則合成処理470が起動される。この処理では、ハイブリッド韻律生成処理で生成された韻律情報にしたがって、すべての合成音声区間を、それぞれ合成音声へと変換する処理を行う。この処理の詳細については、第1実施形態の規則合成部100で説明した通りである。
つづいて、肉声区間切り出し処理480が起動される。この処理は、入力テキストとよく一致して音声格納部から選択された肉声録音音声データデータ(音声ファイル220)を分割して、肉声韻律区間決定処理440が決定した肉声韻律区間に相当する部分の肉声録音音声データデータのみを切り出して出力する処理を行う。
最後に、接続合成処理490が起動される。この処理では、規則合成処理470、および肉声区間切り出し処理480からそれぞれ出力された、合成音声区間に相当する合成音声データと、肉声韻律区間に相当する肉声録音音声データデータとを、それらの区間の順番に応じて、順次、繰り返しながら接続して出力する処理を行う。この結果、この処理から最後に出力されるのは、入力テキストに対応するハイブリッド合成音声(一部が合成音声で一部が肉声の肉声録音音声データ)データとなる。
<実施形態3>
次に、図19を用いて、本発明をユーザインタフェースを備えたハイブリッド合成音声の編集ツールとして実施した場合の実施形態について説明する。
図19は、図1、図2に示す本発明の基本構成に、テキスト入力部510、ユーザ入力部520、情報表示部530を加えた構成である。
ここで、テキスト入力部510は、本発明の音声合成装置1に対して、読み上げ(発声)テキストを入力するための入力装置であり、例えば、キーボードなど、従来のユーザインタフェース機器を用いることができる。
このテキスト入力部510でテキストが入力されると、前記第1実施形態、もしくは第2実施形態で説明したような処理が実行され、ハイブリッド合成音声130が出力されることになる。
ただし、本第3実施形態においては、録音音声選択部40からハイブリッド韻律生成部80までの各処理部で処理された結果の情報が、別途、情報表示部530へと渡されて(点線の矢印)、ユーザに提示することが可能となっている。また同様に、ユーザ入力部520を通してユーザが指定した情報を、録音音声選択部40からハイブリッド韻律生成部80までの各処理部に渡すことで、各部が出力する情報を特定の内容に変更することを可能としている。
情報表示部530は、様々な情報をユーザに提示するための装置であり、例えばディスプレイ装置などのグラフィカル表示装置を用いることができる。例えば、この情報表示部530は、前記第1実施形態の図1に示した表示装置4を用いればよい。この情報表示部530で表示される情報の一例を図20に示す。
図20では、上部の入力テキスト欄531に入力された読み上げテキストを、入力テキスト解析部20に渡した結果の解析結果情報(発音テキスト21)、さらに、録音音声選択部40で自動的に一致判定されて選択されたID2の録音音声のテキスト(録音音声発音テキスト230)が表示されている。また、一致判定の根拠となる音韻の一致度合いが対応する線の数によって表示されている。このように、録音音声選択部40でどのような録音音声が、どのような一致判定のもとで選択されたかを表示することができる。
また、図20では、接続境界算出部50、肉声韻律区間決定部60の結果、肉声録音音声データを使うと決定された区間を斜体の文字で表示している。このように、入力テキストのうち、どの区間が合成音声で、どの区間が肉声録音音声データとなるのかをグラフィカルに表示することができる。このような表示の仕方は、この他にも、色で分けたり、矩形や角丸矩形で囲い分けるなど、さまざまな表示方法が考えられる。
さらに、図20の中央部には、肉声韻律抽出部70で抽出された肉声区間に対する韻律情報、およびハイブリッド韻律生成部80で生成された合成音声区間に対するハイブリッド韻律情報532である。このように、時間と周波数(F0)のグラフとして表示することで、出力されるハイブリッド合成音声がどのような音声になるのかを直感的に示すことが可能となる。
一方、ユーザ入力部520はユーザインタフェース機器であり、例えば、マウスやキーボードなどを通してユーザに情報(例えば、録音音声選択部で選択すべき録音音声のIDなど)を入力・指定させて、その情報を適切な処理部(例えば、録音音声のIDは録音音声選択部40へ、接続境界情報は接続境界算出部50へ)へと渡す処理を行う。ここで、ユーザが指定可能な情報としては、録音音声選択部40で選択されたものの代わりに出力すべき録音音声IDであったり、接続境界算出部50や肉声韻律区間決定部60で決定されるものの代わりに出力すべき肉声−合成音声区間の区分であったりする。これらの情報を、例えば、マウスを画面下部の録音音声テキストの上でクリックすることで、代替の録音音声テキストをメニュー表示させて、その中から実際に選択すべきものをユーザに指定させるということを可能とする。
同様に、図20の情報表示部530の解析結果に示される肉声区間(斜体で表示される部分)と合成音声区間(通常表示される部分)を、それぞれマウスでクリック、またはドラッグするなどのインタラクションを行わせて、どの部分を合成音声とするか、どの部分を肉声とするかをユーザに指定させることを可能とする。
さらには、その上の韻律情報のグラフ表示画面において、合成音声区間に対して、ハイブリッド韻律生成部80が出力した韻律情報(グラフ中、点線で表示される曲線)をマウスでドラッグ等で移動させることで、生成すべき韻律情報を直接ユーザが指定可能とする。
以上のようにして、ユーザが直接指定した情報は、それぞれ対応する処理部に渡されて、各処理部が自動的に算出した処理結果の代わりに出力されるようにする。このような構成を採ることにより、情報表示部530とユーザ入力部520を通して、ユーザが直接、ハイブリッド合成音声の中身を指定することが可能となる。
なお、上記各実施形態において、肉声韻律区間決定部60は、入力テキスト10を変換した発音テキスト21と、録音音声発音テキスト230とを、音節単位での最長一致に基づいて肉声録音音声データの韻律を用いる例を示したが、各音素または音節に付随する言語情報の一致に基づいて肉声録音音声データの韻律を用いる区間を決定してもよい。さらに、言語情報は、録音音声発音テキスト230に含まれるアクセント核(アクセントの下がる位置)を上記位置情報として用いて肉声録音音声データの韻律を使用する区間を決定しても良い。アクセント核を含む言語情報は、入力テキスト解析部20における解析処理の中間情報として取得することが可能である。また、録音音声格納部30に格納されている音声データ(図4)に対しては、あらかじめテキスト解析処理を適用した結果、得られたそれらの言語情報を付加して格納しておくことで、上記のアクセント核を始めとする言語情報による一致を判定して、肉声韻律区間の決定を行うことが可能となる。
以上説明したように、本発明によれば、可変位置ハイブリッド合成方式を実施した場合の合成音声区間と部分的に一致する肉声区間を検出して、その肉声区間の韻律(抑揚・リズム)情報を合成音声に付与し、肉声と合成音声を従来技術よりも自然に結合させることで、肉声感・自然性がともに高い音声メッセージを作成可能なハイブリッド音声合成装置を提供することが可能となる。特に、音声で誘導を行うカーナビゲーション装置や、音声で案内を行う装置に適用することができる。
本発明の第1の実施形態を示し、音声合成装置のシステム構成を示すブロック図。 同じく、本発明の第1の実施形態を示し、音声合成部の処理の流れを示すブロック図。 入力テキストの一例を示す説明図である。 録音音声格納部に格納されるデータの一例を示す説明図である。 入力テキストを変換した発音テキストの一例を示す説明図である。 マッチングパターンの一例を示す説明図である。 録音音声発音テキストのうち、発音テキスト21と発音が一致した音節数を示すテーブルである。 発音テキストと録音音声発音テキストの一致音節数を示す説明図で、(a)は、ID=2の録音音声発音テキストと発音テキストの比較結果を示し、(b)は他の録音音声発音テキストと発音テキストの比較結果を示す。 発音テキストと録音音声発音テキストの一致音節数を示す説明図で、無音区間や音声パワーの小さな箇所まで合成音声部分を拡大する処理を示す。 接続境界算出部が出力する録音音声、肉声区間及び合成音声区間の一例を示す説明図である。 合成音声区間の中で元の肉声録音音声と音韻(音節)が一致する区間を決定する様子を示す説明図である。 肉声韻律区間決定部が出力する録音音声、肉声区間、合成音声区間及び肉声韻律の一例を示す説明図である。 音節。基本周波数(Hz)及び継続時間(msec)の解析結果を示すテーブルである。 ハイブリッド韻律生成部での出力結果を示す説明図である。 発音テキストと録音音声発音テキストの一致音節数を示す説明図で、(a)は、ID=2の録音音声発音テキストと発音テキストの比較結果を示し、(b)は他の録音音声発音テキストと発音テキストの比較結果を示す。 不一致文字数と不一致コストの関係を示すテーブルである。 本発明の第2の実施形態を示し、音声合成部の処理の流れを示すブロック図。 同じく、第2の実施形態を示し、音声合成部における処理の一例を示すフローチャートである。 本発明の第3の実施形態を示し、音声合成部の処理の流れを示すブロック図。 同じく、第3の実施形態を示し、情報表示部で表示される情報の一例を示す説明図である。
符号の説明
20 入力テキスト解析部
30 録音音声格納部
40 録音音声選択部
50 接続境界算出部
60 肉声韻律区間決定部
70 肉声韻律抽出部
80 ハイブリッド韻律生成部
90 接続合成部
100 規則合成部
110 音声素片データベース
120 韻律モデル
130 ハイブリッド合成音声
200 録音音声ID
210 録音音声テキスト
220 録音音声ファイル
230 録音音声発音テキスト

Claims (17)

  1. 音声に変換するテキストを受け付けて発音テキストに変換する入力テキスト解析部と、
    予め設定された文書を肉声により記録した肉声データと前記文章を予め格納する録音音声格納部と、
    前記録音音声格納部に格納された文章と前記発音テキストを比較して、音声合成に使用する肉声データ及び文章を録音音声格納部から選択する録音音声選択部と、
    前記発音テキストと前記選択された文章から音声合成により音声を生成する合成音声区間と前記肉声データから音声を生成する肉声区間との境目を決定する接続境界算出部と、
    前記決定された合成音声区間に基づいて、予め設定された音声素片と韻律モデルにより音声合成データを生成する規則合成部と、
    前記肉声区間に対応する肉声データと、前記生成された音声合成データとを接続して入力されたテキストに対応する合成音声文章を生成する接続合成部と、を備えたハイブリッド音声合成装置において、
    前記接続境界算出部で決定された合成音声を使用する合成音声区間において前記肉声データの韻律を使用する肉声韻律区間を決定する肉声韻律区間決定部と、
    前記肉声韻律区間決定部で決定された前記区間の韻律を前記選択した肉声データから抽出する肉声韻律抽出部と、
    前記抽出された肉声による韻律と、前記韻律モデルから合成音声区間全体の韻律情報を生成するハイブリッド韻律生成部と、を備え、
    前記規則合成部は、
    前記合成音声区間ついて、前記音声素片と前記韻律情報により音声合成データを生成することを特徴とするハイブリッド音声合成装置。
  2. 前記肉声韻律区間決定部は、
    前記発音テキストと前記選択された文章の比較を行う際に、音節単位での最長一致に基づいて前記肉声データの韻律を使用する箇所を決定することを特徴とする請求項1に記載のハイブリッド音声合成装置。
  3. 前記肉声韻律区間決定部は、
    前記発音テキストと前記選択された文章の比較を行う際に、音素単位での最長一致に基づいて前記肉声データの韻律を使用する箇所を決定することを特徴とする請求項1に記載のハイブリッド音声合成装置。
  4. 前記肉声韻律区間決定部は、
    前記音節または音素に付随する言語情報の一致に基づいて肉声データの韻律を用いる区間を決定することを特徴とする請求項2または請求項3に記載のハイブリッド音声合成装置。
  5. 前記言語情報は、アクセント核の位置情報であることを特徴とする請求項4に記載のハイブリッド音声合成装置。
  6. 前記接続境界算出部は、
    前記合成音声区間と肉声区間との境目に関する情報を受け付けて、当該情報に基づいて前記境目を決定することを特徴とする請求項1ないし請求項5のいずれかひとつに記載のハイブリッド音声合成装置。
  7. 前記接続境界算出部は、
    前記合成音声区間と肉声区間との境目に関する情報を受け付けて、当該情報に基づいて前記境目を決定し、
    前記肉声韻律区間決定部は、
    前記合成音声区間において前記肉声データの韻律を使用する肉声韻律区間に関する情報を受け付けて当該情報に基づいて前記肉声韻律区間を決定することを特徴とする請求項1ないし請求項5のいずれかひとつに記載のハイブリッド音声合成装置。
  8. 前記ハイブリッド韻律生成部は、
    前記合成音声区間のうち、前記肉声韻律区間については前記音声素片と前記抽出された肉声による韻律を設定し、前記肉声韻律区間を除く合成音声区間については前記韻律モデルの韻律を設定して、当該合成音声区間全体の韻律情報を生成することを特徴とする請求項1に記載のハイブリッド音声合成装置。
  9. 音声に変換するテキストを受け付けて発音テキストに変換する入力テキスト解析処理と、
    予め設定された文書を肉声により記録した肉声データと前記文章を予め格納した録音音声格納部の前記文章と前記発音テキストを比較して、音声合成に使用する肉声データ及び文章を前記録音音声格納部から選択する録音音声選択処理と、
    前記発音テキストと前記選択された文章から音声合成により音声を生成する合成音声区間と前記肉声データから音声を生成する肉声区間との境目を決定する接続境界算出処理と、
    前記決定された合成音声区間に基づいて、予め設定された音声素片と韻律モデルにより音声合成データを生成する規則合成処理と、
    前記肉声区間に対応する肉声データと、前記生成された音声合成データとを接続して入力されたテキストに対応する合成音声文章を生成する接続合成処理と、を計算機で実行すことにより合成音声文章を生成するハイブリッド音声合成方法において、
    前記接続境界算出処理で決定された合成音声を使用する合成音声区間において前記肉声データの韻律を使用する肉声韻律区間を決定する肉声韻律区間決定処理と、
    前記肉声韻律区間決定処理で決定された前記区間の韻律を前記選択した肉声データから抽出する肉声韻律抽出処理と、
    前記抽出された肉声による韻律と、前記韻律モデルから合成音声区間全体の韻律情報を生成するハイブリッド韻律生成処理と、を備え、
    前記規則合成処理は、
    前記合成音声区間ついて、前記音声素片と前記韻律情報により音声合成データを生成する処理を含むことを特徴とするハイブリッド音声合成方法。
  10. 前記肉声韻律区間決定処理は、
    前記発音テキストと前記選択された文章の比較を行う際に、音節単位での最長一致に基づいて前記肉声データの韻律を使用する箇所を決定することを特徴とする請求項9に記載のハイブリッド音声合成方法。
  11. 前記肉声韻律区間決定処理は、
    前記発音テキストと前記選択された文章の比較を行う際に、音素単位での最長一致に基づいて前記肉声データの韻律を使用する箇所を決定することを特徴とする請求項9に記載のハイブリッド音声合成方法。
  12. 前記肉声韻律区間決定処理は、
    前記音節または音素に付随する言語情報の一致に基づいて肉声データの韻律を用いる区間を決定することを特徴とする請求項10または請求項11に記載のハイブリッド音声合成方法。
  13. 前記言語情報は、アクセント核の位置情報であることを特徴とする請求項12に記載のハイブリッド音声合成方法。
  14. 前記接続境界算出処理は、
    前記合成音声区間と肉声区間との境目に関する情報を受け付けて、当該情報に基づいて前記境目を決定することを特徴とする請求項9ないし請求項13のいずれかひとつに記載のハイブリッド音声合成方法。
  15. 前記接続境界算出処理は、
    前記合成音声区間と肉声区間との境目に関する情報を受け付けて、当該情報に基づいて前記境目を決定し、
    前記肉声韻律区間決定処理は、
    前記合成音声区間において前記肉声データの韻律を使用する肉声韻律区間に関する情報を受け付けて当該情報に基づいて前記肉声韻律区間を決定することを特徴とする請求項9ないし請求項13のいずれかひとつに記載のハイブリッド音声合成方法。
  16. 前記ハイブリッド韻律生成処理は、
    前記合成音声区間のうち、前記肉声韻律区間については前記音声素片と前記抽出された肉声による韻律を設定し、前記肉声韻律区間を除く合成音声区間については前記韻律モデルの韻律を設定して、当該合成音声区間全体の韻律情報を生成することを特徴とする請求項9に記載のハイブリッド音声合成方法。
  17. 受け付けたテキストを合成音声に変換するプログラムであって、
    音声に変換するテキストを受け付けて発音テキストに変換する入力テキスト解析処理と、
    予め設定された文書を肉声により記録した肉声データと前記文章を予め格納した録音音声格納部の前記文章と前記発音テキストを比較して、音声合成に使用する肉声データ及び文章を前記録音音声格納部から選択する録音音声選択処理と、
    前記発音テキストと前記選択された文章から音声合成により音声を生成する合成音声区間と前記肉声データから音声を生成する肉声区間との境目を決定する接続境界算出処理と、
    前記接続境界算出処理で決定された合成音声を使用する合成音声区間において前記肉声データの韻律を使用する肉声韻律区間を決定する肉声韻律区間決定処理と、
    前記肉声韻律区間決定処理で決定された前記区間の韻律を前記選択した肉声データから抽出する肉声韻律抽出処理と、
    前記抽出された肉声による韻律と、前記韻律モデルから合成音声区間全体の韻律情報を生成するハイブリッド韻律生成処理と、
    前記決定された合成音声区間に基づいて、予め設定された音声素片と前記韻律情報により音声合成データを生成する規則合成処理と、
    前記肉声区間に対応する肉声データと、前記生成された音声合成データとを接続して入力されたテキストに対応する合成音声文章を生成する接続合成処理と、を計算機に機能させることを特徴とするプログラム。
JP2007182081A 2007-07-11 2007-07-11 音声合成装置及び音声合成方法並びにプログラム Expired - Fee Related JP4964695B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007182081A JP4964695B2 (ja) 2007-07-11 2007-07-11 音声合成装置及び音声合成方法並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007182081A JP4964695B2 (ja) 2007-07-11 2007-07-11 音声合成装置及び音声合成方法並びにプログラム

Publications (2)

Publication Number Publication Date
JP2009020264A true JP2009020264A (ja) 2009-01-29
JP4964695B2 JP4964695B2 (ja) 2012-07-04

Family

ID=40359959

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007182081A Expired - Fee Related JP4964695B2 (ja) 2007-07-11 2007-07-11 音声合成装置及び音声合成方法並びにプログラム

Country Status (1)

Country Link
JP (1) JP4964695B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013054839A1 (ja) 2011-10-14 2013-04-18 サイバーアイ・エンタテインメント株式会社 画像認識システムを備えた知識情報処理サーバシステム
WO2016103652A1 (ja) * 2014-12-24 2016-06-30 日本電気株式会社 音声処理装置、音声処理方法、および記録媒体
CN111583901A (zh) * 2020-04-02 2020-08-25 湖南声广信息科技有限公司 一种广播电台智能天气预报系统及天气预报语音切分方法
CN112185417A (zh) * 2020-10-21 2021-01-05 平安科技(深圳)有限公司 人工合成语音检测方法、装置、计算机设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0527789A (ja) * 1991-07-24 1993-02-05 Matsushita Electric Ind Co Ltd 音声合成装置
JPH1138989A (ja) * 1997-07-14 1999-02-12 Toshiba Corp 音声合成装置及び方法
JPH11249677A (ja) * 1998-03-02 1999-09-17 Hitachi Ltd 音声合成装置の韻律制御方法
JPH11338488A (ja) * 1998-05-26 1999-12-10 Ricoh Co Ltd 音声合成装置及び音声合成方法
JP2002169581A (ja) * 2000-11-29 2002-06-14 Matsushita Electric Ind Co Ltd 音声合成方法およびその装置
JP2004233774A (ja) * 2003-01-31 2004-08-19 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法及び装置、並びに音声合成プログラム
JP2005018037A (ja) * 2003-06-05 2005-01-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2005321520A (ja) * 2004-05-07 2005-11-17 Mitsubishi Electric Corp 音声合成装置及びそのプログラム
JP2007212884A (ja) * 2006-02-10 2007-08-23 Fujitsu Ltd 音声合成装置、音声合成方法、及びコンピュータプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0527789A (ja) * 1991-07-24 1993-02-05 Matsushita Electric Ind Co Ltd 音声合成装置
JPH1138989A (ja) * 1997-07-14 1999-02-12 Toshiba Corp 音声合成装置及び方法
JPH11249677A (ja) * 1998-03-02 1999-09-17 Hitachi Ltd 音声合成装置の韻律制御方法
JPH11338488A (ja) * 1998-05-26 1999-12-10 Ricoh Co Ltd 音声合成装置及び音声合成方法
JP2002169581A (ja) * 2000-11-29 2002-06-14 Matsushita Electric Ind Co Ltd 音声合成方法およびその装置
JP2004233774A (ja) * 2003-01-31 2004-08-19 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法及び装置、並びに音声合成プログラム
JP2005018037A (ja) * 2003-06-05 2005-01-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2005321520A (ja) * 2004-05-07 2005-11-17 Mitsubishi Electric Corp 音声合成装置及びそのプログラム
JP2007212884A (ja) * 2006-02-10 2007-08-23 Fujitsu Ltd 音声合成装置、音声合成方法、及びコンピュータプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013054839A1 (ja) 2011-10-14 2013-04-18 サイバーアイ・エンタテインメント株式会社 画像認識システムを備えた知識情報処理サーバシステム
WO2016103652A1 (ja) * 2014-12-24 2016-06-30 日本電気株式会社 音声処理装置、音声処理方法、および記録媒体
CN111583901A (zh) * 2020-04-02 2020-08-25 湖南声广信息科技有限公司 一种广播电台智能天气预报系统及天气预报语音切分方法
CN111583901B (zh) * 2020-04-02 2023-07-11 湖南声广科技有限公司 一种广播电台智能天气预报系统及天气预报语音切分方法
CN112185417A (zh) * 2020-10-21 2021-01-05 平安科技(深圳)有限公司 人工合成语音检测方法、装置、计算机设备及存储介质
CN112185417B (zh) * 2020-10-21 2024-05-10 平安科技(深圳)有限公司 人工合成语音检测方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
JP4964695B2 (ja) 2012-07-04

Similar Documents

Publication Publication Date Title
JP7178028B2 (ja) 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム
US11443733B2 (en) Contextual text-to-speech processing
US9424833B2 (en) Method and apparatus for providing speech output for speech-enabled applications
US8825486B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US7809572B2 (en) Voice quality change portion locating apparatus
US8219398B2 (en) Computerized speech synthesizer for synthesizing speech from text
US9978359B1 (en) Iterative text-to-speech with user feedback
JP2003295882A (ja) 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
JP4038211B2 (ja) 音声合成装置,音声合成方法および音声合成システム
US8914291B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US20100066742A1 (en) Stylized prosody for speech synthesis-based applications
US8155963B2 (en) Autonomous system and method for creating readable scripts for concatenative text-to-speech synthesis (TTS) corpora
KR20170057623A (ko) 언어장애인을 위한 다언어 어휘의 발음 합성 및 문자화 장치
JP4964695B2 (ja) 音声合成装置及び音声合成方法並びにプログラム
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
US9484014B1 (en) Hybrid unit selection / parametric TTS system
Toman et al. Unsupervised and phonologically controlled interpolation of Austrian German language varieties for speech synthesis
JP5819147B2 (ja) 音声合成装置、音声合成方法およびプログラム
JPH08335096A (ja) テキスト音声合成装置
JP2006349787A (ja) 音声合成方法および装置
Kaveri et al. A novel approach for hindi text description to speech and expressive speech synthesis
Ananthi et al. Syllable based concatenative synthesis for text to speech conversion
Wisetpaitoon et al. End-to-End Thai Text-to-Speech with Linguistic Unit
JP2016122033A (ja) 記号列生成装置、音声合成装置、音声合成システム、記号列生成方法、及びプログラム
JP6197362B2 (ja) 音声合成方法、プログラム、及び装置

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20100113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111101

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120228

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120328

R150 Certificate of patent or registration of utility model

Ref document number: 4964695

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150406

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees