JP2011180368A

JP2011180368A - 合成音声修正装置および合成音声修正方法

Info

Publication number: JP2011180368A
Application number: JP2010044311A
Authority: JP
Inventors: Hideki Kojima; 英樹小島
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-03-01
Filing date: 2010-03-01
Publication date: 2011-09-15

Abstract

【課題】効率的に合成音声の修正を行うことのできる合成音声修正装置を提供する。
【解決手段】任意のテキストの読みを示す表音文字列データに対応する合成音声を出力するとともに、当該テキストを画面表示する合成音声出力表示部と、画面表示した前記テキストにおいて、ユーザが指摘した修正位置を取得する修正位置取得部と、前記修正位置に基づいて、前記合成音声にかかる再合成区間を特定する再合成区間特定部と、特定した前記再合成区間のテキストの読みを示す表音文字列データに対応する合成音声の候補を再合成候補として生成する再合成候補生成部と、前記再合成候補を識別可能にしてユーザに提示する再合成候補提示部と、識別可能にしてユーザに提示した前記再合成候補の中からユーザが選択した再合成候補を少なくとも含む合成音声を出力する再合成音声出力部とを備える。
【選択図】図１

Description

本発明は、合成音声の修正を行うための合成音声修正装置および合成音声修正方法に関する。

各種の装置において、合成音声が数多く採用されてきている。例えば、ナビゲーションシステム、自動販売機またはホームセキュリティシステム等において合成音声が採用されてきている。合成音声を用いることにより、ナレータの声を録音した録音音声を用いる場合に比べて、安定した声質で音声出力を行うことができる。なぜなら、録音音声は、ナレータの声質の経年変化による影響等を受けやすいため、安定した声質で音声出力を行うことが困難だからである。

具体的にいえば、合成音声を用いる場合、ナレータの代わりに波形辞書（音声を合成するための、音声データのデータベース）を予め作成しておけば、この波形辞書に記録された当初のナレータ声質を用いて、いつでも合成音声を作成することができる。

ところで、合成音声を作成する場合、ピッチ変換等によって、合成音の音質劣化が生じ得る。このような音質劣化を修正するためには、音の悪い素片に代えて、なるべく音の良い素片を用いるように、素片を変更するための修正作業を行わなければならない。このような修正作業における合成音声の良否判断は、人間が実際に合成音声を聞いたときの感覚によって判断する必要があるため、煩雑で手間のかかる作業となり得る。

一方、合成音声の修正に関する従来技術としては、ユーザが指摘した音の悪い素片を使わないようにして再合成処理を行うものや、ユーザが指摘した音の悪い素片にペナルティーを課して、その素片を選ばれ難くするものが知られている（例えば、特許文献１参照。）。また、ユーザが指摘した音の良い素片の優先順位を上げることにより、その素片を選ばれ易くするものも知られている（例えば、特許文献２参照。）。さらに、ユーザがピッチ等の韻律パラメータを直接編集して、合成音声を修正するものも知られている（例えば、特許文献３参照。）。

特開２００２−０５５６９３号公報特開２００７−１４８１７２号公報特開平１１−２０２８８４号公報

しかしながら、音の悪い素片を使わないようにして再合成処理を行うという上記従来技術においては、一度音が悪い素片であると指摘されると、この素片が二度と使えなくなってしまうという問題がある。例えば、ある音素環境で音が悪くても、他の音素環境ではそれほど音が悪くないという場合もあり得る。このため、上記従来技術のように、指摘されたある素片を全く使えなくしてしまうことには問題がある。

また、ユーザが指摘した音の悪い素片にペナルティーを課して、その素片を選ばれ難くするという上記従来技術においては、音が悪い素片を指摘して再合成しても、一度の再合成で音が良くなるという保障はなく、何度も悪い素片の指摘と再合成を繰り返す必要があり、修正作業を効率的に行うことができないという問題がある。

さらに、ユーザが指摘した音の良い素片の優先順位を上げることにより、その素片を選ばれ易くするという上記の従来技術においては、音の良い合成音を積極的に選ぶ訳ではないので、上記音の悪い素片を選ばれ難くするという従来技術と同様に、ユーザが何度も音の悪い素片を指摘しなければならず、修正を効率的に行うことができないという問題がある。

本発明は、上記のような点に鑑みてなされたものであり、効率的に合成音声の修正を行うことのできる合成音声修正装置および合成音声修正方法を提供することを目的とする。

上記の目的を達成するために、以下に開示する合成音声修正装置は、任意のテキストの読みを示す表音文字列データに対応する合成音声を出力するとともに、当該テキストを画面表示する合成音声出力表示部と、画面表示した前記テキストにおいて、ユーザが指摘した修正位置を取得する修正位置取得部と、前記修正位置に基づいて、前記合成音声にかかる再合成区間を特定する再合成区間特定部と、特定した前記再合成区間のテキストの読みを示す表音文字列データに対応する合成音声の候補を再合成候補として生成する再合成候補生成部と、前記再合成候補を識別可能にしてユーザに提示する再合成候補提示部と、識別可能にしてユーザに提示した前記再合成候補の中からユーザが選択した再合成候補を少なくとも含む合成音声を出力する再合成音声出力部とを備える。

本願明細書の開示によれば、効率的に合成音声の修正を行うことが可能となる。

合成音声修正装置における各機能部の関係の一例を示す図である。図１に示した合成音声修正装置１を、ＣＰＵを有するコンピュータ装置を用いて実現したハードウェア構成の例を示す図である。合成音声修正装置１のＣＰＵ２２で実行される合成音声生成プログラムおよび合成音声修正プログラム２４ａに基づく合成音声修正処理のオペレーションチャートの一例を示す図である。ディスプレイ２１のテキスト入力領域４１内に入力されたテキストおよび生成ボタン４２の具体例を示す図である。テキスト入力領域４１内に入力されたテキストを合成音声の出力時に表示する例を示す図である。再合成候補を識別可能に提示した画面の一例を示す図である。素片の選択処理の一例を説明するための模式図である。素片の選択処理において選択される素片とスコアの関係の一例を説明するための模式図である。素片の選択処理において選択される素片とスコアの関係の一例を説明するための模式図である。ピッチ平滑はめ込み部１２における処理の一例を示す図である。再合成候補を識別可能に提示した画面の一例を示す図である。再合成候補を識別可能に提示した画面の一例を示す図である。再合成候補を識別可能に提示した画面の一例を示す図である。再合成候補を識別可能に提示した画面の一例を示す図である。再合成候補を識別可能に提示した画面の一例を示す図である。合成音声修正装置における各機能部の関係の一例を示す図である。図１２に示した合成音声修正装置１を、ＣＰＵを用いて実現したハードウェア構成の例を示す図である。合成音声修正装置１のＣＰＵ２２で実行される合成音声生成プログラムおよび合成音声修正プログラム２４ａに基づく合成音声修正処理のオペレーションチャートの一例を示す図である。

以下においては、本発明の実施形態について図面を用いて具体的に説明する。

［１．第１の実施形態］
以下、本実施形態にかかる合成音声修正装置を、コンピュータ装置を用いて構成する場合の例について説明する。なお、本実施形態にかかる合成音声修正装置を、例えば携帯電話またはＰＤＡ（Personal Digital Assistance）等の装置を用いて構成してもよい。

［１−１．システム構成］
図１は、本実施形態にかかる合成音声修正装置における各機能部の関係の一例を示す図である。本実施形態にかかる合成音声修正装置１は、例えば、修正機能付きの合成音声作成装置として機能するものである。なお、１ａは、修正機能のない合成音声作成装置として機能する部分である。

なお、合成音声の作成原理としては、例えば、(1)単語等を単位として予め録音されている音声波形をつなぎ合わせる録音編集方式、(2)単音節・単音または１ピッチ単位の音声素片波形を連結する素片編集合成方式、(3)発声された音声波形をいったん分析し情報要素の形に変換・記録し、それを元の音声に復元する分析合成方式、(4)分析合成の処理をさらに高度に普遍化した純粋合成方式または、(5)人間の発声機構を模擬した機械（ロボット）を用いて合成音を作成する方式等が挙げられる。

本実施形態においては、一例として、上記(2)素片編集合成方式を用いて音声合成を行う場合について説明するが、他の方式についても本発明を適用することができる。

図１に示す合成音声修正装置１は、言語処理部２、韻律生成部３、素片選択部４、波形生成部５、合成音声出力表示部６、修正位置取得部７、再合成区間特定部８、再合成候補生成部９、再合成候補提示部１３および再合成音声出力部１４を備える。また、再合成候補生成部９は、例えば、部分素片選択部１０、部分波形生成部１１およびピッチ平滑はめ込み部１２を備える。なお、ピッチ平滑はめ込み部１２は、本発明に必須の構成要件ではない。さらに、合成音声修正装置１は、韻律コーパス１５および波形辞書データ１６を備える。

言語処理部２は、漢字仮名混じりの入力テキストを表音文字列（音声の読みやアクセントを表わす記号列）に変換する。韻律生成部３は、韻律コーパス１５を参照して、言語処理部２が出力した表音文字列に対応する韻律データ（声の高さ、声の大きさ、発声の速さといった言語情報を除いた音声の情報）を生成する。素片選択部４は、素片の音素環境、ピッチ（音の高さ）、接続容易性、選ばれる素片列の長さなどを考慮して、波形辞書データ１６から、適切な素片を複数選択する。なお、波形辞書データ１６は、例えば、コーパスベース合成に用いられる音声データベースである。波形生成部５は、素片選択部４が選択した複数の素片をつなげて合成音声を生成する。

合成音声出力表示部６は、任意のテキストの読みを示す表音文字列データに対応する合成音声を音声出力する指令を、例えばスピーカ等の出力装置に対して行うとともに、当該テキストを画面表示する指令を、例えばディスプレイ等の表示装置に対して行う。

修正位置取得部７は、画面表示した前記テキストにおいて、ユーザが指摘した修正位置を取得する。再合成区間特定部８は、前記修正位置に基づいて、前記合成音声にかかる再合成区間を特定する。再合成候補生成部９は、特定した前記再合成区間のテキストの読みを示す表音文字列データに対応する合成音声の候補を再合成候補として生成する。

また、再合成候補生成部９は、前記表音文字列データから推定される理想的な音素片の組合せに対する、前記再合成候補を構成する音素片の組合せの適合度に基づくスコアを算出してもよい。

再合成候補提示部１３は、前記再合成候補を識別可能にしてユーザに提示する。例えば、再合成候補提示部１３は、再合成候補の順が識別できる態様で表示装置に表示させることで、複数の再合成候補を提示することができる。

再合成音声出力部１４は、識別可能にしてユーザに提示した前記再合成候補の中からユーザが選択した再合成候補を少なくとも含む合成音声を音声出力する指令を、例えばスピーカ等の出力装置に対して行う。

部分素片選択部１０は、再合成区間特定部８において特定された再合成区間における合成音声を作成するために、波形辞書データ１６を参照して素片を選択する。部分波形生成部１１は、部分素片選択部１０が選択した素片をつなぎ合わせて合成音声を作成する。ピッチ平滑はめ込み部１２は、部分波形生成部１１が作成した合成音声を元の合成音声にはめ込む処理を行う。

このように、生成した複数の再合成候補を識別可能にしてユーザに提示し、ユーザが選択した再合成候補を少なくとも含む合成音声を出力するように構成することにより、効率的に合成音声の修正を行うことが可能となる。

なお、図１の合成音声修正装置１において示した各機能部は、プログラムによって実現されるＣＰＵの機能を含む概念である。ここで、プログラムとは、ＣＰＵにより直接実行可能なプログラムだけでなく、ソース形式のプログラム、圧縮処理がされたプログラム、暗号化されたプログラム等を含む概念である。

［１−２．ハードウェア構成］
図２は、図１に示した合成音声修正装置１を、ＣＰＵを有するコンピュータ装置を用いて実現したハードウェア構成の例を示す図である。上記合成音声修正装置１は、ディスプレイ２１、ＣＰＵ２２、メモリ２３、ハードディスク２４、キーボード／マウス２５およびスピーカ２６を少なくとも備える。ハードディスク２４には、ＯＳ（オペレーティング・システム、図示せず。）の他、合成音声修正プログラム２４ａ、韻律コーパス１５および波形辞書データ１６等が記録される。ＣＰＵ２２は、ＯＳおよび合成音声修正プログラム２４ａ等に基づく処理を実行する。スピーカ２６は、波形データとして生成された合成音声を音声出力する。

図１に示した合成音声修正装置１を構成する、合成音声出力表示部６、修正位置取得部７、再合成区間特定部８、再合成候補生成部９、再合成候補提示部１３および再合成音声出力部１４は、ＣＰＵ２２上において合成音声修正プログラム２４ａを実行することによって実現される。

［１−３．合成音声修正処理の内容］
上述の図１および図２に加え、図３〜図６を用いて、上記合成音声修正装置１における合成音声修正プログラム２４ａの処理内容を説明する。合成音声修正装置１には、図示しない合成音声生成プログラムがインストールされている。ＣＰＵ２２は、これらの合成音声生成プログラムおよび合成音声修正プログラム２４ａを実行することによって、合成音声を生成して出力する。図３は、合成音声修正装置１のＣＰＵ２２で実行される合成音声生成プログラムおよび合成音声修正プログラム２４ａに基づく合成音声修正処理のオペレーションチャートの一例を示す図である。図４Ａは、ディスプレイ２１のテキスト入力領域４１内に入力されたテキストおよび生成ボタン４２の具体例を示す図である。

図３の合成音声修正処理において、ＣＰＵ２２は、生成ボタン４２が押下されたか否かを判断する（Ｏｐ３０１）。例えば、Ｏｐ３０１における生成ボタンの押下の判断は、図４Ａに示す生成ボタン４２の押下の有無に基づいて行う。この場合、ユーザは、テキスト入力領域４１内に、合成音声を作成したいテキストとして「朝早く、電報が届いた。」を入力した後に、生成ボタン４２を押下する。

ＣＰＵ２２は、生成ボタンが押下されたと判断すると（Ｏｐ３０１、Ｙｅｓ）、テキスト入力領域４１内に入力されたテキストを取得する（Ｏｐ３０２）。例えば、ＣＰＵ２２は、図４Ａのテキスト入力領域４１内に、入力されたテキスト「朝早く、電報が届いた。」を取得する。

ＣＰＵ２２は、取得したテキストを表音文字列（発音記号列）に変換する（Ｏｐ３０３）。例えば、ＣＰＵ２２は、取得したテキスト「朝早く、電報が届いた。」を、表音文字列「ア’サハ＊ヤク，デンポーガ＆トド＊イタ．」に変換する。ここで、表音文字列とは、読みを表わす記号列をいう。表音文字列において使用される「’」や「＊」はアクセント位置を示す記号であり、「＆」は直前の音節が鼻濁音であることを示す記号である。なお、表音文字列の形式は必ずしも、上記の表記方法に限定されるものではなく、読みやアクセント位置などを適切に表現、認識できるものであれば、他の形式であってもよい。

ＣＰＵ２２は、取得したテキストを変換して得た表音文字列に基づいて、韻律データを生成する（Ｏｐ３０４）。例えば、ＣＰＵ２２は、韻律コーパス１５から、「ア’サハ＊ヤク，デンポーガ＆トド＊イタ．」に基づいて、適切な韻律を示すピッチパターン等を抽出し、抽出した各韻律をつなぎ合わせて韻律データを生成する。ここで、ピッチパターンは、例えば、音声波形のフレーズ成分とアクセント成分とを、インパルス応答関数およびステップ応答関数で近似して得ることができる。

ＣＰＵ２２は、生成した韻律データに基づいて、波形辞書データ１６を参照し、合成音声の作成に用いる素片を選択する（Ｏｐ３０５）。例えば、ＣＰＵ２２は、「ア’サハ＊ヤク，デンポーガ＆トド＊イタ．」のピッチパターン等に適合する各素片を複数選択する。ここで、素片（音声素片、音素片）とは、例えば、最小の言語成分であって、音声波形を短時間区間ごとに分析した場合における１区間に相当する波形である。

ＣＰＵ２２は、波形辞書データ１６から選択した各素片をつなぎ合わせ、合成音声の波形を生成する（Ｏｐ３０６）。例えば、ＣＰＵ２２は、ピッチ変換率や各素片の前後の音素環境に基づいて、表音文字列「ア’サハ＊ヤク，デンポーガ＆トド＊イタ．」の韻律データに対する、各素片の組合せの適合度を定量化したスコアを算出して合成音声の波形データを生成し、スコアの最も高い素片の組合せを、最終的な波形データとして決定する。

この場合のスコアを算出するための適合度（類似度）は、例えば、表音文字列「ア’サハ＊ヤク，デンポーガ＆トド＊イタ．」から推定される理想的な素片の組合せの音響的特徴（フォルマント周波数、基本周波数、パワー、ケプストラム係数などに基づく音響的特徴）と、選択した素片の組合せの音響的特徴との関係によって算出できる。なお、適合度は、これらに限定されるものではなく、理想的な素片の組合せと、選択した素片の組合せとの何らかの関係を利用するものであればよい。つまり、適合度は、選択した音声素片候補の尤もらしさを示す値（尤度）でもある。

ＣＰＵ２２は、生成した波形を合成音声として出力する（Ｏｐ３０７）。例えば、スピーカ２６から波形データの合成音声を出力する。また、合成音声を出力した後において、入力されたテキストはテキスト入力領域４１内に表示されている。この場合、例えば、ＣＰＵ２２は、テキスト入力領域４１内のテキスト上において、ユーザから指定（例えば、クリック等）された文字の位置を認識可能に表示する。

ＣＰＵ２２は、合成音声の作成対象となった入力テキスト上のいずれかの部分が指定されたか否かを判断する（Ｏｐ３０８）。図４Ｂは、テキスト入力領域４１内に入力されたテキストを合成音声の出力時に表示する例を示す図である。例えば、合成音声の「朝早く、電報が届いた。」のうち、「電報が」の部分に不自然な合成音声であった場合、ユーザは、「電報が」の部分を修正したいと考える。この場合、ユーザは、キーボード／２５を操作して、マウスマウスカーソル４３を「電報」の付近をクリックする。なお、クリック以外の方法で修正位置を指定してもよい。例えば、ドラッグにより複数のテキスト文字を範囲選択するようにしてもよい。また、ディスプレイ２１にタッチパネル機能が付随している場合には、タッチ位置に基づいて指定されたことを判断してもよい。

ＣＰＵ２２は、入力テキスト上において指定された位置に基づいて、再合成区間を特定する（Ｏｐ３０９）。例えば、ＣＰＵ２２は、クリックされた座標位置に基づいて、この座標位置に最も近いテキスト文字を認識する。そして、認識した文字を含む所定の範囲を所定の範囲を特定する。例えば、所定の範囲の特定は、文節、アクセント句または呼気段落等に基づいて行えばよい。なお、この所定の範囲は、音節や音素より比較的長い範囲が望ましく、ユーザが音の悪い部分を正確に指定できなかった場合でも、そこを含む大体の範囲を特定できるようにすることが好ましい。

例えば、文節（文法において一つの文の成分をなす節）に基づいて所定の範囲を特定する場合、図４Ｂにおいて、クリックされた座標位置が「電報」の「報」の文字であれば、「報」を含む文節である「電報が」が再合成区間として特定されることになる。

また、アクセント句（アクセントが１つ付く文法的または意味的なまとまり）に基づいて再合成区間を特定する場合には、図４Ｂにおいて、クリックされた座標位置が「電報」の「報」の文字であれば、「報」を含むアクセント句としての「電報が」が再合成区間として特定されることになる。

さらに、呼気段落（人間が一息で発声する単位）に基づいて再合成区間を特定する場合には、図４Ｂにおいて、クリックされた座標位置が「電報」の「報」の文字であれば、「報」を含む呼気段落としての「電報が」が再合成区間として特定されることになる。

ＣＰＵ２２は、特定した再合成区間の合成音声を生成するために使用する素片を、波形辞書データ１６から複数組選択する（Ｏｐ３１０）。例えば、再合成区間として特定した「電報が」の文節の合成音声を生成するための素片を、１位からＮ位までの順位を付けて選択する。つまり、入力テキスト「朝早く、電報が届いた。」の「電報が」に対応する素片のみを部分的に選択する。なお、素片の選択時においては、上記Ｏｐ３０４で生成した韻律データを用いて適当な素片を選択する。

図５Ａは、上記Ｏｐ３１０における素片の選択処理の一例を説明するための模式図である。図５Ｂおよび図５Ｃは、素片の選択処理において選択される素片とスコアの関係の一例を説明するための模式図である。

例えば、図５Ａは、「電報が」という部分を再合成する場合における処理ステップごとの具体例を示している。図５Ａにおける各素片（例えば、素片１、素片２、素片３、…）に対しては、波形辞書データ１６から取得したピッチ変換率や前後の音素環境に基づいて点数（スコア）が与えられる。なお、図５Ａにおいては、素片（アーク）を「電話」の「電」、または、「ン［デン］ワ」のように簡略化して記載しているが、現実の波形辞書では、これよりも長い文の集合であることが多く、「３番目の文の５音素目から７音素目」のような形式で記述されている場合もある。この場合、例えば、「ン［デン］ワ」は、素片［デン］と音素環境を示している。つまり、素片［デン］の音素環境は、前から続く音が「ン」であり、後に続くの音が「ワ」であることを示している。なお「Ｑ」は音のない静音の音素環境を示す。

素片（アーク）と素片（アーク）の接続点をノードと表し、例えば、ノードにおける素片選択処理の途中の結果として表５０〜５３が生成され、これらの各表はメモリ２３に書き込まれる。ノード０からノード３まで、どの素片（アーク）を採用するかによって、選ばれる素片の組合せ（素片列）が変わってくる。そして、各ノードにおいて選択した素片の点数を全て足した累積点数により順位付けが行なわれる。例えば、この順位付けの処理は動的計画法（ダイナミック・プログラミング、略してＤＰと呼ばれる）に基づいて行なわれる。

この処理を簡単に説明すると、まず、ノード０からノード３に向かって、順に素片選択処理を実行し、各ノードの表を埋めてゆく。例えば、ノード０からノード１に至る処理では、「電報が」における１番目の素片が選択される。ここでは、１番目の素片として「素片１」および「素片２」の２通りが選択される。「素片１」を選択した場合の点数（スコア）は「９０」であり、「素片２」を選択した場合の点数は「６０」である。これらの点数は、例えば、素片の音素環境等を用いて定量的に算出することができる。ノード１からノード２に至る処理では、１番目の素片に続く２番目の素片が選択される。ここでは、１番目で選択された２通りの素片のそれぞれに続く別の素片として、さらに２通りの素片（「素片３」および「素片４」）が選択される。

図５Ａに示すノード２（５２）において１番点数（スコア）が良いのは、「素片４（ッ［ポー］オ）を通ってノード１（５１）の１位から来た経路」で、その累積点数は「１５５点」となる。また、ノード２（５２）において２番目に点数が良いのは、「素片３（ン［ポー］オ）を通ってノード１（５１）の１位から来た経路」で、その累積点数は「１５０点」となる。

なお、上述したように、各ノードにおける点数（スコア）は、例えば、表音文字列「ア’サハ＊ヤク，デンポーガ＆トド＊イタ．」から推定される理想的な素片の音響的特徴（フォルマント周波数、基本周波数、パワー、ケプストラム係数などに基づく音響的特徴）と、選択した素片の音響的特徴との関係によって算出できる。なお、適合度は、これらに限定されるものではなく、理想的な素片と、選択した素片との何らかの関係を利用するものであればよい。

ノード３（５３）においても同様の手順で累積点数を算出すると、ノード３（５３）からノード０（５０）に向かって逆順に辿ることにより、各スコアの素片列が得られることになる。例えば、図５Ｂに示すように、ノード３におけるスコア１位（２３５）の素片列（Ｑ［デン］チ＋ッ［ポー］オ＋シ［ガ］Ｑ）を得る場合、ノード３（５３）の１位を見て、素片５を通ってノード２（５２）の１位に戻る。ノード２（５２）の１位を見ると、素片４を通ってノード１（５１）の１位に戻るように書いてあるので、ノード１（５１）の１位に戻る。ノード１（５１）の１位を見ると、素片１を通ってノード０（５０）に戻ることが分かる。これを並べると、「素片１」、「素片４」、「素片５」となるので、得られる素片列は、「電池」の「電」（Ｑ［デン］チ）、「月報」の「報」（ッ［ポー］オ）、「私が」の「が」（シ［ガ］Ｑ）となる。同様に図５Ｃは、ノード３（５３）におけるスコア３位（２０５）の場合の素片列の選択状態を示している。なお、この例では、４位まで調べれば充分だが、実際の例では例えば何千個もの候補が得られる場合があるため、上位Ｎ位のみをソーティングして残すようにしてもよい。

ＣＰＵ２２は、Ｏｐ３１０において選択された各素片をつなぎ合わせて、再合成区間における合成音声を生成する（Ｏｐ３１１）。例えば、この合成音声は、図５Ａのノード３に示したスコアごとに生成される。

ＣＰＵ２２は、Ｏｐ３１１において生成された各合成音声を、Ｏｐ３０６において生成した元の合成音声にはめ込む処理を行う（Ｏｐ３１２）。図６は、ピッチ平滑はめ込み部１２における処理の一例を示す図である。再合成区間の合成音声６３（以下、再合成音声とする）を元の合成音声６１、６２にはめ込む処理においては、再合成音声の両端の１ピッチ周期づつと、元の合成音の前後の１ピッチ周期づつを窓掛け加算することにより、はめ込み後の合成音声６４を平滑化する、これにより、元も合成音声と再合成音声とを滑らかに接続（連結）することができる。なお、図５Ａにおける窓は、コサイン窓を前提としているが、コサイン窓に限らず、三角窓など滑らかに接続できる窓を用いてもよい。

ＣＰＵ２２は、複数の再合成音声を元の合成音声にはめ込んで得られた再合成候補を、それぞれ識別可能にしてユーザに提示する（Ｏｐ３１３）。図４Ｃは、再合成候補を識別可能に提示した画面の一例を示す図である。図４Ｃにおいては、テキスト入力領域４１の近傍に再合成候補選択のサブ画面４４が表示される。また、ユーザがキーボード／マウス２５を操作して音声出力ボタン４５ａ、４６ａまたは４７ａを押下すると、再合成候補としての合成音声を音声出力可能に構成されている。

ＣＰＵ２２は、各再合成候補を、上記スコアに基づく順位にしたがって表示する。よって、サブ画面４４において、４５の「候補１」は、上記Ｏｐ３０６において生成した「電報が」を含む現在の合成音声を示す。また、４６の「候補２」は、上記Ｏｐ３１０において算出したスコアに基づく順位が２番目の合成音声を示す。さらに、４７の「候補３」は、上記Ｏｐ３１０において算出したスコアに基づく順位が３番目の合成音声を示す。なお、４番目以下は表示していないが、各スコアの差が少ない場合には表示することが望ましい。

ＣＰＵ２２は、いずれかの再合成候補が選択されたか否かを判断し（Ｏｐ３１４）、選択されたと判断する場合（Ｏｐ３１４、Ｙｅｓ）、選択された再合成候補を音声出力する。例えば、ユーザは、音声出力ボタン４６ａまたは４７ａ等を押下して、４６の「候補２」または４７の「候補２」の再合成音声を音声出力することにより、各再合成候補を聞き比べることができる。各再合成候補を聞き比べることにより、ユーザの感覚に最も適した合成音声を得ることができる。これは、上記Ｏｐ３１０において算出したスコアによる素片選択が、必ずしも人間の知覚（特に聴覚）と一致する素片を選択しているとは限らないからである。

ＣＰＵ２２は、修正ボタンが押下されたか否かを判断し（Ｏｐ３１６）、押下されたと判断する場合（Ｏｐ３１６、Ｙｅｓ）、選択された再合成候補を保存する。例えば、ユーザは、各再合成候補を聞き比べた後、現在の合成音声を修正する必要があると判断する場合には、キーボード／マウス２５を操作して修正ボタン４６ｂまたは４７ｂを押下する。これにより、４６の「候補２」または４７の「候補３」の再合成候補を、テキスト入力領域４１内に入力したテキスト「朝早く、電報が届いた。」に対応する合成音声として採用することができる。

［１−４．まとめ］
以上に説明したとおり、上記の合成音声修正装置１は、生成した複数の再合成候補を識別可能にしてユーザに提示し、ユーザが選択した再合成候補を含む合成音声を出力する。このため、音の良い素片をユーザに選ばせる際に、候補となる素片群をユーザに提示して、どの合成音声を優先的に聞くべきかを明確にすることができる。これにより、ユーザは、現在の合成音声と再合成された候補とを聞き比べて、効率的に合成音声の修正を行うことが可能となる。

この実施形態において、言語処理部２は、一例として、図３のＯｐ３０３の処理機能を含む。韻律生成部３は、一例として、図３のＯｐ３０４の処理機能を含む。素片選択部４は、一例として、図３のＯｐ３０５の処理機能を含む。波形生成部５は、一例として、図３のＯｐ３０６の処理機能を含む。合成音声出力表示部６は、一例として、図３のＯｐ３０７の処理機能を含む。修正位置取得部７は、一例として、図３のＯｐ３０８の処理機能を含む。再合成区間特定部８は、一例として、図３のＯｐ３０９の処理機能を含む。再合成候補生成部９は、一例として、図３のＯｐ３１０〜Ｏｐ３１２の処理機能を含む。再合成候補提示部１３は、一例として、図３のＯｐ３１３の処理機能を含む。再合成音声出力部１４は、一例として、図３のＯｐ３１５の処理機能を含む。部分素片選択部１０は、一例として、図３のＯｐ３１０の処理機能を含む。部分波形生成部１１は、一例として、図３のＯｐ３１１の処理機能を含む。ピッチ平滑はめ込み部１２は、一例として、図３のＯｐ３１２の処理機能を含む。

［２．第２の実施形態］
本実施形態にかかる合成音声修正装置も、第１の実施形態と同様に、コンピュータ装置、携帯電話またはＰＤＡ（Personal Digital Assistance）等の装置を用いて構成可能である。

［２−１．システム構成およびハードウェア構成］
本実施形態にかかる合成音声修正装置１のシステム構成およびハードウェア構成の一例は、図１および図２を用いて説明した第１の実施形態と基本的に同様である。

［２−２．合成音声修正処理の内容］
本実施形態の合成音声修正装置１における合成音声修正プログラム２４ａの処理内容は、図３〜図６を用いて説明した第１の実施形態と基本的に同様である。つまり、第１の実施形態と同様に、入力テキストに対して合成音声を出力し、指定された修正位置に対応する再合成候補を複数生成して提示するものである。但し、本実施形態では、図４Ｃに示した再合成候補の提示方法が異なる。

図７は、第１の実施形態とは別の提示方法で、再合成候補を識別可能に提示した画面の一例を示す図である。図７において、テキスト入力領域４１の近傍に表示される再合成候補選択のサブ画面７０では、各再合成候補（例えば、７１〜７３）について、「順位」７１ａ〜７３ａ（１位、２位、３位、…）および「スコア」７１ｂ〜７３ｂが表示される。このため、ユーザが各再合成候補（候補１、候補２、候補３、…）を聞き比べる際に、各再合成候補を識別することができる。これにより、ユーザは、スコアおよびスコア順位に基づいて、効率的に合成音声の修正作業を行うことができる。

図８は、第１の実施形態とは別の提示方法で、再合成候補を識別可能に提示した画面の一例を示す図である。図８において、テキスト入力領域４１の近傍に表示される再合成候補選択のサブ画面８０では、各再合成候補（例えば、８１〜８３）について、再合成候補の生成に用いた音素片および音素環境に関する情報である８１ａ〜８３ａが表示される。例えば、８２においては、素片列「Q[デン]ポッ[ポー]オシ[ガ]Q」８２ａが表示される。このため、ユーザが各再合成候補（候補１、候補２、候補３、…）を聞き比べる際に、各再合成候補を識別するとともに、音素片および音素環境に関する情報を把握することができる。これにより、ユーザは、音素片および音素環境に関する情報に基づいて、効率的に合成音声の修正作業を行うことができる。

図９は、第１の実施形態とは別の提示方法で、再合成候補を識別可能に提示した画面の一例を示す図である。図９において、テキスト入力領域４１の近傍に表示される再合成候補選択のサブ画面９０では、各再合成候補（例えば、９１〜９３）について、スコアを算出するための要素として、再合成候補の生成に用いた音素片の数である９１ａ〜９３ａが表示される。例えば、９２においては、「素片３個」８２ａが表示される。このため、ユーザが各再合成候補（候補１、候補２、候補３、…）を聞き比べる際に、各再合成候補を識別するとともに、再合成候補の生成に用いた音素片の数を把握することができる。これにより、ユーザは、再合成候補の生成に用いた音素片の数に基づいて、効率的に合成音声の修正作業を行うことができる。

図１０は、第１の実施形態とは別の提示方法で、再合成候補を識別可能に提示した画面の一例を示す図である。図１０において、テキスト入力領域４１の近傍に表示される再合成候補選択のサブ画面１００では、各再合成候補（例えば、１０１〜１０３）について、スコアを算出するための要素として、波形辞書の音素片のピッチから生成した再合成候補のピッチへのピッチ変換率を示す図形（グラフ）１０１ａ〜１０３ａが表示される。このため、ユーザが各再合成候補（候補１、候補２、候補３、…）を聞き比べる際に、各再合成候補を識別するとともに、波形辞書の音素片のピッチから生成した再合成候補のピッチへのピッチ変換率を把握することができる。これにより、ユーザは、再合成候補の生成に用いたピッチ変換率に基づいて、効率的に合成音声の修正作業を行うことができる。

図１１は、第１の実施形態とは別の提示方法で、再合成候補を識別可能に提示した画面の一例を示す図である。図１１において、テキスト入力領域４１の近傍に表示される再合成候補選択のサブ画面１１０では、各再合成候補（例えば、１１１〜１１３）について、スコアを算出するための要素として、波形辞書の素片の音素長と、生成した再合成候補の音素長との差を示す図形（グラフ）１１１ａ〜１１３ａが表示される。つまり、素片を取得した波形辞書に記録されている当該素片の音素長と、前記合成音声を生成するために前記素片を変換した変換後の素片の音素長との差を、前記再合成候補とともに表示する。

ここで、音素長とは、素片の各音韻の継続時間長である。例えば、この場合、波形辞書の素片の音素長と、生成した再合成候補の音素長との差が小さいほど、スコアが大きくなるように算出する。一例として、２つの音素長の差についての絶対値にマイナスの符号を付した値をスコアとすることが可能である。

このため、ユーザが各再合成候補（候補１、候補２、候補３、…）を聞き比べる際に、各再合成候補を識別するとともに、波形辞書の素片の音素長と生成した再合成候補の音素長との差を把握することができる。これにより、ユーザは、波形辞書の素片の音素長と生成した再合成候補の音素長との差に基づいて、効率的に合成音声の修正作業を行うことができる。

［３．第３の実施形態］
本実施形態にかかる合成音声修正装置も、第１の実施形態と同様に、コンピュータ装置、携帯電話またはＰＤＡ（Personal Digital Assistance）等の装置を用いて構成可能である。

本実施形態においては、第１の実施形態において示した合成音声修正装置１において、合成音声を修正した際に、修正の対象となった元の合成音声を記録しておき、次回の合成処理時に採用され難くするように構成する例について説明する。

［３−１．システム構成およびハードウェア構成］
図１２は、本実施形態にかかる合成音声修正装置における各機能部の関係の一例を示す図である。図１２に示す合成音声修正装置１は、第１の実施形態において示した各機能部１〜１６に加えて、さらに、修正素片記録部１７および修正素片データ１８を含む。

修正素片記録部１７は、合成音声出力表示部６において出力した合成音声を、再合成候補を含む合成音声により修正する指示を受けると、合成音声出力表示部６において出力した合成音声のうち、修正前の再合成区間に対応する部分の合成音声を生成するために用いられた素片を、修正素片として、修正素片データ１８に記録する。

再合成候補生成部９の部分素片選択部１０は、修正素片記録部１８を参照して、再合成区間特定部８において特定された再合成区間における合成音声を作成するために、波形辞書データ１６を参照して素片を選択する。

このように、再合成区間に特定された範囲の合成に用いられた素片列を、修正素片データ１８に記録することにより、修正を要する可能性が高い素片列（悪い素片列）が選ばれ難くなるように学習することが可能となる。

その他の本実施形態にかかる合成音声修正装置１のシステム構成およびハードウェア構成の一例は、図１および図２を用いて説明した第１の実施形態と基本的に同様である。図１３は、本実施形態図の合成音声修正装置１を、ＣＰＵを用いて実現したハードウェア構成の例を示す図である。修正素片データ１８は、ハードディスク２４において保持される。図１２に示した合成音声修正装置１を構成する修正素片記録部１７は、ＣＰＵ２３上において合成音声修正プログラム２４ａを実行することによって実現される。

［３−２．合成音声修正処理の内容］
図１４は、合成音声修正装置１のＣＰＵ２２で実行される合成音声生成プログラムおよび合成音声修正プログラム２４ａに基づく合成音声修正処理のオペレーションチャートの一例を示す図である。図１４のオペレーションチャートにおけるＯｐ３０１〜Ｏｐ３１７は、第１の実施形態と同様である。

ＣＰＵ２２は、再合成候補を選択して修正指示が行われたと判断すると、選択された再合成候補を保存するとともに（Ｏｐ３１７）、合成音声出力表示部６において出力した合成音声のうち、修正前の再合成区間に対応する部分の合成音声を生成するために用いられた素片を、修正素片として、修正素片データ１８に記録する。

その後の処理において、ＣＰＵ２２は、特定した再合成区間の合成音声を生成するために使用する素片を、波形辞書データ１６から複数組選択する（Ｏｐ３１０）。この場合、ＣＰＵ２２は、選択した素片が修正素片データ１８に保持されていると判断すると、この素片を含む素片列のスコアを下げる処理を行う。なお、スコアを下げる対象は、素片単位で判断してもよいし、素片列単位で判断してもよい。

これにより、次回以降の素片選択部４の処理において、修正素片データ１８に記録した悪い素片列を再び選ばれ難くなるように学習することが可能となる。つまり、次回以降の合成音声出力表示部６の処理において、精度の高い合成音声を出力することができ、修正作業において聞き比べる再合成候補の数を低減することができる。

［４．その他の実施形態］
上記第１〜第３の実施形態において説明した構成の一部または全部を、２以上組合せた構成としてもよい。特に、第２の実施形態に示した再合成候補を識別可能にする提示方法においては、ユーザの選択により切り替えて表示してもよい。例えば、所定操作により、表示する情報（スコア、スコア順位、音素片および音素環境に関する情報、音素片の数、ピッチ変換率、音素長の差）を切り替えて表示してもよい。

上記実施形態においては、再合成区間の合成音声を元の合成音声にはめ込んだ後の再合成候補を音声出力するようにしているが、はめ込み処理を行わずに、再合成区間の合成音のみ、または、再合成区間の合成音を含む一部の合成音声区間（アクセント句、文節、呼気段落によって決定したもの）のみを音声出力するようにしてもよい。

上記実施形態においては、素片編集合成方式を用いて音声合成を行う例を説明したが、他の方式を用いても、再合成区間における再合成候補の適合度を示すスコアを計算し、スコアに基づく順位とともに再合成候補を提示することができる。例えば、他の方式としては、上述した、録音編集方式、分析合成方式または純粋合成方式等を用いることができる。

例えば、録音編集方式、分析合成方式または純粋合成方式においても同様に、音声を「音」、「音節」、「形態素」、「単語」「成句」、「文節」などの要素データを用いて合成音声を作成する際に、韻律データに対する適合度や、各要素データのつながりの適合度をスコアとして算出すればよい。

上記実施形態においては、図１、図１２に示す各機能ブロックを、ソフトウェアを実行するＣＰＵの処理によって実現している。しかし、その一部もしくは全てを、ロジック回路等のハードウェアによって実現してもよい。なお、プログラムの一部の処理をさらに、オペレーティング・システム（ＯＳ）にさせるようにしてもよい。

１合成音声修正装置
２言語処理部
３韻律生成部
４素片選択部
５波形生成部
６合成音声出力表示部
７修正位置取得部
８再合成区間特定部
９再合成候補生成部
１０部分素片選択部
１１部分波形生成部
１２ピッチ平滑はめ込み部
１３再合成候補提示部
１４再合成音声出力部
１５韻律コーパス
１６波形辞書データ
１７修正素片データ

Claims

任意のテキストの読みを示す表音文字列データに対応する合成音声を出力するとともに、当該テキストを画面表示する合成音声出力表示部と、
画面表示した前記テキストにおいて、ユーザが指摘した修正位置を取得する修正位置取得部と、
前記修正位置に基づいて、前記合成音声にかかる再合成区間を特定する再合成区間特定部と、
特定した前記再合成区間のテキストの読みを示す表音文字列データに対応する合成音声の候補を再合成候補として生成する再合成候補生成部と、
前記再合成候補を識別可能にしてユーザに提示する再合成候補提示部と、
識別可能にしてユーザに提示した前記再合成候補の中からユーザが選択した再合成候補を少なくとも含む合成音声を出力する再合成音声出力部とを備える合成音声修正装置。
前記再合成候補生成部は、前記表音文字列データから推定される理想的な音素片の組合せに対する、前記再合成候補を構成する音素片の組合せの適合度に基づくスコアを算出し、
前記再合成候補提示部は、前記再合成候補を前記スコアの順に提示する、請求項１の合成音声修正装置。
前記再合成候補提示部は、前記スコアを、前記再合成候補とともに表示する、請求項２の合成音声修正装置。
前記再合成区間特定部は、アクセント句、文節または呼気段落に基づいて、前記合成音声にかかる再合成区間を特定する、請求項１〜３のいずれか一項に記載の合成音声修正装置。
前記再合成候補提示部は、前記再合成候補生成部において再合成候補の生成に用いた前記スコアを算出するための要素を、前記再合成候補とともに表示する、請求項１〜４のいずれか一項に記載の合成音声修正装置。
前記再合成候補提示部は、前記スコアを算出するための要素として、前記再合成候補生成部において再合成候補の生成に用いた音素片および音素環境に関する情報を、前記再合成候補とともに表示する、請求項１〜５のいずれか一項に記載の合成音声修正装置。
前記再合成候補提示部は、前記スコアを算出するための要素として、前記再合成候補生成部において再合成候補の生成に用いた音素片の数を、前記再合成候補とともに表示する、請求項１〜６のいずれか一項に記載の合成音声修正装置。
前記再合成候補提示部は、前記スコアを算出するための要素として、前記再合成候補生成部において用いた波形辞書の音素片のピッチから、生成した再合成候補のピッチへのピッチ変換率を、前記再合成候補とともに表示する、請求項１〜７のいずれか一項に記載の合成音声修正装置。
前記再合成候補提示部は、前記スコアを算出するための要素として、素片を取得した波形辞書に記録されている当該素片の音素長と、前記合成音声を生成するために前記素片を変換した変換後の素片の音素長との差を、前記再合成候補とともに表示する、請求項１〜８のいずれか一項に記載の合成音声修正装置。
前記合成音声出力表示部において出力した合成音声を、前記再合成候補を含む合成音声により修正する指示を受けると、
前記合成音声出力表示部において出力した合成音声のうち、前記再合成区間に対応する部分の修正前の合成音声を生成するために用いられた素片を、修正素片として記録する修正素片記録部をさらに備え、
前記再合成候補生成部は、前記修正素片記録部を参照して、前記再合成候補を生成する、請求項１〜９のいずれか一項に記載の合成音声修正装置。
任意のテキストの読みを示す表音文字列データに対応する合成音声を出力するとともに、当該テキストを画面表示する合成音声出力表示処理と、
画面表示した前記テキストにおいて、ユーザが指摘した修正位置を取得する修正位置取得処理と、
前記修正位置に基づいて、前記合成音声にかかる再合成区間を特定する再合成区間特定処理と、
特定した前記再合成区間のテキストの読みを示す表音文字列データに対応する合成音声の候補を再合成候補として生成する再合成候補生成処理と、
前記再合成候補を識別可能にしてユーザに提示する再合成候補提示処理と、
識別可能にしてユーザに提示した前記再合成候補の中からユーザが選択した再合成候補を少なくとも含む合成音声を出力する再合成音声出力処理とをコンピュータに実行させる、合成音声修正プログラム。
任意のテキストの読みを示す表音文字列データに対応する合成音声を出力するとともに、当該テキストを画面表示する合成音声出力表示工程と、
画面表示した前記テキストにおいて、ユーザが指摘した修正位置を取得する修正位置取得工程と、
前記修正位置に基づいて、前記合成音声にかかる再合成区間を特定する再合成区間特定工程と、
特定した前記再合成区間のテキストの読みを示す表音文字列データに対応する合成音声の候補を再合成候補として生成する再合成候補生成工程と、
前記再合成候補を識別可能にしてユーザに提示する再合成候補提示工程と、
識別可能にしてユーザに提示した前記再合成候補の中からユーザが選択した再合成候補を少なくとも含む合成音声を出力する再合成音声出力工程とを含む合成音声修正方法。