JP6170384B2

JP6170384B2 - 音声データベース生成システム、音声データベース生成方法、及びプログラム

Info

Publication number: JP6170384B2
Application number: JP2013186498A
Authority: JP
Inventors: 慶華孫; 永松　健司; 健司永松; 竹雄森; 孝則貴堂
Original assignee: Hitachi ULSI Systems Co Ltd
Current assignee: Hitachi Solutions Technology Ltd
Priority date: 2013-09-09
Filing date: 2013-09-09
Publication date: 2017-07-26
Anticipated expiration: 2033-09-09
Also published as: JP2015052748A

Description

本発明は、音声データベース生成システム、方法、及びプログラムに関し、例えば、特定話者（ユーザ）の声で音声合成を実現するための音声データベースを生成する技術に関するものである。

近年、生活の多くの場面で音声合成処理された音声を耳にする機会が増えている。波形接続方式の導入などにより、音質的にもかなり改善が進んでおり、車載用ナビゲーション装置、公共施設における自動放送装置、メール読み上げ装置、自動通訳システムなど、音声を用いて自動的に情報を提供するサービスが広く普及している。

音声合成技術は大きく、波形接続方式とパラメータ合成方式に分類される。波形接続方式の音声合成では、録音した音声をそのまま用いるため、肉声感が高いが、大量な音声データが必要のため、データサイズが大きい。一方、ＨＭＭ（Hidden Markov Model）を代表としたパラメータ合成手法では、大量の肉声の蓄積を必要としないので、データサイズが非常に小さいが、合成した有声音の肉声感が低い。

近年、自分の声（親族の声など）で音声を合成したいというニーズが高まっている。これに応えるために、既にいくつかの手法がすでに提案されている。例えば、特許文献１には、少量のユーザ音声を用いて、複数話者から学習した平均声パラメータを変形することにより、ユーザの声を近づける手法が提案されている。

特表２００４−５２２１８６号公報

しかしながら、特許文献１に開示されているような手法を用いる場合、パラメータ音声合成に特有な機械音となるため、音質が悪い。また、この手法は、パラメータ全体をユーザの音声にシフトしていくため、音質の劣化が顕著となる。

一方、より音質の高い波形接続方式を用いた場合、ユーザの声から音声データベース（以降、ＤＢとする）を作成するために、予め少なくとも８０文章以上の音声収録が必要である。これはユーザにとって非常に負担が大きい。特に、従来の手法では、８０文章がすべて揃わなければ、音声合成ができないため、手軽に作成することが難しい。より高音質の音声合成を実現するために、数時間から数十時間の音声が必要となるため、ユーザの声で音声合成を実現するため、膨大な労力が必要となる。さらに、発声について素人であるユーザが８０以上もの文章を適切に読み上げるのは困難であり、ユーザへの負担が過大となってしまう。

本発明はこのような状況に鑑みてなされたものであり、ユーザへの負担を減らし、高品質で話者（ユーザ）の音質に近い音声データベース（ＤＢ）を提供するものである。

上記課題を解決するために、本発明では、プロセッサは、第１のテキストを特定ユーザが読み上げることにより入力された音声の声質を評価し、予め用意され、それぞれ音質が異なる、複数の既存音声データベースの中から特定ユーザの声質に最も近い既存音声データベースを選択する。また、プロセッサは、第１のテキストとは異なる第２のテキストを特定ユーザが読み上げることにより入力された音声を用いて特定ユーザのラベル付き音声素片を生成し、予め設定された素片置き換えルールに従って、選択された既存音声データベースの音声素片を特定ユーザのラベル付き音声素片によって置き換えることにより音声データベースを更新する。

なお、本発明では、素片置き換えの基準として、コンテキストや素片の音韻・韻律特徴を用いている。また、読み上げテキストの生成に用いる基準は、置き換えられる素片の数や置き換えられる素片の重要度（使用頻度など）を用いるようにしても良い。

この構成では、ごく少量の発話（１単語や１文から）から、ユーザに近い既存話者音声データベースを選択し、ユーザに似た音声データベースを初期化してから、少しずつ録音を蓄積していくと、ユーザの声から作成した音声素片と、音声データベースに入っていた既存話者の音声素片と置き換えることによって、合成音声が段々とユーザの声に近づけることができる。

本発明によれば、合成音声の高品質を維持しながら、少量の録音データからユーザの声に似た音声合成が実現でき、録音のデータを増やせば増やすほど、合成音声がユーザの声に近づいていくという効果を期待することができる。

本発明の実施形態によるユーザ音声ＤＢ作成装置のハードウェア概略構成を示すブロック図（１）である。本発明の実施形態によるユーザ音声ＤＢ作成装置のハードウェア概略構成を示すブロック図（２）である。本発明の実施形態によるユーザ音声ＤＢ作成装置及び音声合成装置のハードウェア概略構成を示すブロック図（１）である。本発明の実施形態によるユーザ音声ＤＢ作成装置及び音声合成装置のハードウェア概略構成を示すブロック図（２）である。本発明の実施形態によるユーザ音声ＤＢ作成装置及び音声合成装置のハードウェア概略構成を示すブロック図（３）である。ユーザ音声ＤＢ作成装置の機能的構成を示すブロック図である。テキスト提示の仕方の例を示す図である。ユーザ音声ＤＢ作成装置の音声収録部の機能的構成を示すブロック図である。ユーザ音声ＤＢ作成装置のＤＢ初期化部の機能的構成を示すブロック図である。音声合成装置の機能的構成を示すブロック図である。ユーザ音声ＤＢ作成装置のＤＢ更新部の機能的構成（１）を示すブロック図である。素片間距離評価尺度（評価ルール）に用いることができるコンテキストの例を示す図である。ユーザ音声ＤＢ作成装置のＤＢ更新部の機能的構成（２）を示すブロック図である。ユーザ音声ＤＢ作成装置のテキスト生成部の機能的構成を示すブロック図である。ユーザ音声ＤＢ作成装置で実行される全体的な処理動作を説明するためのフローチャートである。

本発明による実施形態では、波形接続方式の音声合成において、用いる音声データベース（以降、音声ＤＢとする）を目標話者（以降、ユーザとする）の音声に近づけるために、まず、ユーザに録音用テキストを提示し、ユーザの声を収録する。そして、初回のみユーザの声を評価し、事前に用意されている複数の音声ＤＢから、最もユーザの声に似ている音声ＤＢ（既存音声ＤＢ）を選択する。それ以降、ユーザの発話から取得された音声に基づいて音声素片を作成し、ユーザの音声素片と既存話者の音声素片（既存音声ＤＢの音声素片）と置き換えることで、合成音声が既存話者の声質からユーザの音声に変化する。さらに、次の読み上げ用テキストを生成するために、大量テキストコーパスから、最も効率よく素片を置き換えられるように自動生成することで、素片の置き換えが効率よく行うことができる。

以下、添付図面を参照して本発明の実施形態について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。

本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。

更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。

なお、以後の説明では「テーブル」形式によって本発明の各情報について説明することもあるが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、ＤＢ、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「ＤＢ」、「キュー」等について単に「情報」と呼ぶことがある。

＜ユーザ音声ＤＢ作成装置の構成＞
図１Ａは、本発明の実施形態によるユーザ音声ＤＢ作成装置の概略構成例を示す図である。
当該ユーザ音声ＤＢ作成装置１００は、記憶装置１０１と、音声入力Ｉ／Ｆ（インタフェース）１０２と、ＣＰＵ１０３と、主記憶装置であるメモリ１０４と、スピーカーに接続するための音声出力Ｉ／Ｆ１０５と、テキスト提示Ｉ／Ｆ１０６と、を有し、これらの構成部はバス１０７によって相互に接続されている。

ユーザ音声ＤＢ作成装置１００は、例えば、カーナビゲーション装置、携帯電話機、パーソナルコンピュータ等のデバイスに、ユーザ音声ＤＢ作成ユニットとして組み込まれている。そのため、図１に示した各ハードウェアは、ユーザ音声ＤＢ作成装置が組み込まれたデバイスの構成を用いて実現しても良いし、ユーザ音声ＤＢ作成装置が組み込まれたデバイスとは別個に設けられていても良い。

ユーザ音声ＤＢ作成にすべての機能を一つのデバイスだけで実現しても良いが、図１Ｂに示す変形例のように、ユーザインタフェース（音声入力Ｉ／Ｆ１１１０−１及び１１１０−２・・・、通信Ｉ／Ｆ１１１１−１及び１１１１−２・・・、音声出力Ｉ／Ｆ１１１２−１及び１１１２−２・・・、テキスト提示Ｉ／Ｆ１１１３−１及び１１１３−２・・・）を端末側のデバイスに設け、後述する「素片作成部」、「ＤＢ初期化部」、「ＤＢ更新部」などの機能の全部もしくは一部を実現するハードウェアをサーバ１１０１に設け、その間に通信Ｉ／Ｆ１１０４、１１１１−１及び１１１１−２・・・によって相互に接続されている場合も考えられる。

＜ユーザ音声ＤＢ作成機能と音声合成機能を有する音声処理システムの構成＞
図１Ｃ乃至１Ｅはそれぞれ、ユーザ音声ＤＢ作成機能と音声合成機能を有するシステムの概略構成例を示す図である。図１Ａ或いは１Ｂによるユーザ音声ＤＢ作成装置で作成した音声ＤＢを使って音声合成するためには、音声合成の機能を実現するハードウェア（音声合成装置）から、ユーザ音声ＤＢを格納する記憶装置にアクセスできなければならない。図１Ｃ乃至１Ｅは、そのためのいくつかの形態を示している。

図１Ｃは、同じデバイス（ハードウェア（コンピュータ装置））でユーザ音声ＤＢ作成装置と音声合成装置を実現する場合であり、音声合成装置は直接に記憶装置に格納されているユーザ音声ＤＢ作成装置で作成した音声ＤＢをアクセスできる。

図１Ｄは、ユーザ音声ＤＢ作成装置と音声合成装置を別々のデバイスで構成し、音声処理システムを実現する形態を示している。当該システムでは、データ入・出力装置を用いて、データの受け渡しを行う。ここで、データ入・出力装置とは、ＤＶＤ、ＣＤ、ＵＳＢメモリなどの移動データ記録媒体を書き込み・読み込みできるデバイスのことである。

図１Ｅも、ユーザ音声ＤＢ作成装置と音声合成装置を別々のデバイスで構成し、音声処理システムを実現する形態を示している。図１Ｅによるシステムでは、音声合成装置１００−２は通信Ｉ／Ｆ１１１−１、１１１−２及びネットワーク１１０６を経由して、記憶装置に格納されているユーザ音声ＤＢ作成装置１００−１で作成した音声ＤＢにアクセスできるようになっている。

図１Ａ乃至Ｅにおいて、ユーザ音声ＤＢ作成装置や音声合成装置のＣＰＵ１０３、１１０２、１０３−１、及び１０３−２はそれぞれ、ユーザ音声ＤＢ作成装置や音声合成装置の全体の制御を司る。
メモリ１０４、１１０３、１０４−１、及び１０４−２は、ＣＰＵ１０３等のワークエリアとして使用される。

記憶装置１０１、１１０５、１０１−１、及び１０１−２は、不揮発性の記憶媒体であり、具体的には、例えば、ＨＤＤ（ハードディスク）、ＦＤ（フレキシブルディスク）、フラッシュメモリ等を用いることができる。当該記憶装置には、例えば、後記する音質評価プログラムや素片置き換えプログラム等の各種プログラム、音声合成用既存音声データベース等の各種データが記録される。

音声入力Ｉ／Ｆ１０２、１０２−１、１１１０−１、１１１０−２・・・は、マイクロフォンなどの音声入力装置（不図示）を接続するインタフェースであり、入力装置から音声の入力を受け付ける。

音声出力Ｉ／Ｆ１０５、１１１２−１、１１１２−２、１０５−１、及び１０５−２は、スピーカーなどの音声出力装置（不図示）を接続するインタフェースである。

通信Ｉ／Ｆ１１０４、１１１１−１、１１１１−２、１１１−１、及び１１１−２は、装置の間にデータを交換する（通信する）ためのハードウェアである。例えば、有線ＬＡＮカード、無線ＬＡＮカード、モデムなどが考えられる。

テキスト提示Ｉ／Ｆ１０６、１１１３−１、１１１３−２は、パソコンモニターや携帯画面など、テキストを表示できる装置である。音声でテキストをユーザに提示する場合、テキスト提示Ｉ／Ｆは音声出力Ｉ／Ｆで代用（併用）することも可能である。

＜ユーザ音声ＤＢ作成装置の機能的構成の概要＞
図２は、ユーザ音声ＤＢ作成装置の機能構成を示す図である。
図２に示すように、ユーザ音声ＤＢ作成装置１００−１は、テキスト提示部（テキスト提示プログラム）２０１と、音声収録部（音声収録プログラム）２０２と、ＤＢ初期化部（ＤＢ初期化プログラム）２０３と、ＤＢ更新部（ＤＢ更新プログラム）２０４と、テキスト生成部（テキスト生成プログラム）２０５と、を機能として有している。以下、それぞれについて詳細に説明する。

テキスト提示部２０１は、ユーザが発話すべきテキストを提示するインタフェースであり、例えば、パソコンのモニタ、携帯画面などの画面表示装置や、スピーカーはヘッドフォンなどの音声再生装置などである。テキストを正しく読ませるために、テキストのみではなく、その読み方まで提示すると、より良い（システムにとって）発話が得られる。例えば、画面にテキストに一緒に読み情報やアクセント情報などを同時に提示する。もしくは、テキストを音声に変換して、サンプル音声を提供する。なお、画面と音声と組み合わせて提示することもできる。図３Ａ乃至Ｅには、いくつかのテキスト提示の例が示されている。

例えば、図３Ａは、画面に読み上げテキスト（文字列）「これは日立の合成音声です。」のみを画面に表示し、ユーザに読み上げるべきテキストを提示する例を示している。図３Ｂは、画面に読み上げテキスト（文字列）「これは日立の合成音声です。」を表示するとともに、テキストの読み情報（日本語の場合、ふりがな、ローマ字など）もユーザに提示する例を示している。図３Ｃは、画面に読み上げテキスト（文字列）「これは日立の合成音声です。」を表示するとともに、テキストの読み情報と韻律情報（アクセント記号やイントネーション記号など）もユーザに提示する例を示している。図３Ｄは、音声出力Ｉ／Ｆ（スピーカー）から、読み上げテキストの音声（のみ）を再生してユーザに提示する例を示している。この場合、読み情報と韻律情報と、同時に提示することが可能となるため、ユーザがより正しく発話されることが期待できる。しかし、音声の揮発性を考えると、長い文章を覚えられない可能性もあるので、図３Ｅで示したように、画面と音声を併用してユーザに提示したほうが、より高い品質の発話音声が得られると期待できる。

＜音声収録部の詳細＞
図４は、音声収録部２０２で実行される処理を説明するための図である。音声収録部２０２は、音声入力インタフェース２０２１を有し、マイクロフォンなどの音声からデジタル信号に変換する。当該音声収録部２０２を用いてユーザの発話を録音し、システム（ユーザ音声ＤＢ作成装置）に音声波形を入力する。

ここで、より高品質な音声ＤＢを作成するためには、発話正確度判別処理２０２２を実行しても良いが、必須の処理ではない。発話正確度判別処理２０２２は、ユーザの発話した音声が提示したテキスト（読み情報や韻律情報も考慮）通りに読み上げられているかどうかを判別する処理である。例えば、読み間違いがあるかどうか（例えば、読み上げられたテキストを音声認識して得られた結果（認識結果：テキスト）が読み上げられたテキストと異なっているか判定することにより読み間違いを検出する）、提示したアクセントと同じかどうか（例えば、読み上げられたテキストの音声データからアクセントを抽出し、アクセントの正誤を判定する）、雑音が入っているかどうか、ポーズの位置があっているかどうかなどをチェックし、要求（予め設定された閾値）を満たしていない音声について、テキスト提示部２０１に指示を送り、ユーザに再読み上げを要求する（処理２０２３）。ただし、この発話正確度判別処理２０２２のチェックが厳しくなると、ユーザが複数回に発話しなければならなく、大きな負担がかかるため、閾値を低く設定したほうが良い。

そして、ＤＢ初期化部２０３は、初回の処理時のみ、ユーザによって入力された音声（音声収録部２０２によって取得された音声）に基づいて既存ＤＢを選択し、それを使用する音声ＤＢ２０６として登録する。当該ＤＢ初期化部２０３の詳細については、さらに図５を参照して説明する。

一方、次回処理時からは、ＤＢ更新部２０４が、ユーザによって入力された音声から音声ＤＢ（選択された既存ＤＢ）２０６を順次更新していくことになる。当該ＤＢ更新部２０４の詳細については、さらに図６を参照して説明する。

＜ＤＢ初期化部の詳細＞
図５は、ＤＢ初期化部２０３で実行される処理を説明するための図である。
初回の処理時には、音声収録部２０２から出力された音声が、ＤＢ初期化部２０３に入力される。ＤＢ初期化部２０３は、話者音声評価処理２０３１を実行する。この話者音声評価処理２０３１では、音声収録部２０２からの入力音声を用いて話者声質が評価（例えば、声紋等の音声の特徴量を評価）され、事前に用意した複数の音声ＤＢ（１）〜（Ｎ）の中から、最もユーザの声質に似たＤＢが選ばれる。話者音質評価処理２０３１によって選択された既存話者ＤＢ２０３２が初期音声ＤＢ２０６として設定される。なお、話者声質評価のための技術については、すでに複数の手法が提案されていて、例えば、特開２０１２−１４１３５４号公報や特開２０１２−１４１３５４号公報等に開示されている技術がある。ここで、さらにユーザの声に似させるために、音質変更処理（モーフィング）２０３３を実行しても良い。音質変換処理を実行する場合、異なる話者からの音声素片を接続するときに起きやすい音声の不連続現象を抑えることも可能である。具体的には、例えば、特開２０１１−５３４０４号公報や特開２０１１−５３４０４号公報等に開示されている手法を用いて、選択されたＤＢに含まれるすべての音声素片を音質変更し、話者の声質に近づけることができる。ただし、この変質変換処理（モーフィング）２０３３は音質向上させるためのものであり、必須の処理ではない。

＜音声合成処理＞
図６は、音声合成装置１００−２で実行される処理を説明するための図である。図６による形態では、音声合成装置１００−２は、ユーザ音声ＤＢ作成装置１００−１とは独立しており、ユーザ音声ＤＢ作成装置１００−１で作成された音声ＤＢを用いて、音声合成処理を実行する。以下、音声合成装置による処理（機能）について簡単に説明する。

音声合成装置１００−２は、テキスト解析処理６０１と、素片選択処理６０３と、波形接続処理６０５を実行し、波形接続音声合成方式により、テキストから音声に変換する。

まず、テキスト解析処理６０１では、入力テキストから、読みやアクセントなどの言語情報が解析され、「中間言語」と呼ばれる発音記号列（６０２）が生成される。なお、中間言語が直接入力される場合には、テキスト解析処理は不要となる。

素片選択処理６０３では、入力される中間言語をもとに、音声ＤＢ（初回はＤＢ初期化部で生成され、それ以降ＤＢ更新部で更新される）２０６から、最も良い音声素片の系列６０４が選択される。

最後に、波形接続処理６０５では、素片選択処理６０３によって選択された音声波形（音声素片６０４）がつなぎ合わせられて、合成音声６０６が出力される。

＜ＤＢ更新部の詳細＞
ＤＢ更新部２０４は、既存音声ＤＢ２０６に格納されている音声素片をユーザ（話者）の音声から生成された音声素片で置き換える処理を行うが、基となるユーザ音声は、自然な状態で行われる会話から抽出された音声であっても良いし、既存ＤＢを更新するために意図的に読み上げて入力された音声であっても良い。

図７Ａは、ＤＢ更新部２０４の処理内容の一形態を示す図である。ＤＢ更新部２０４は、音声素片作成処理２０４１と、素片置き換え処理２０４４を実行する。

まず、ＤＢ更新部２０４は、音声収録部２０２によって収録された音声を受信する。
ＤＢ更新部２０４は、音声素片作成処理において、入力された音声波形に対して、素片単位（音素単位や音節単位が一般的に使われる）に自動セグメンテーションや自動ラベリングなど（例えば、特開平６−２６６３８９号公報参照）を行い、ユーザ声のラベル付き音声素片２０４２を作成する。音声素片作成処理２０４１では、音声を切り出すセグメンテーション処理と、切り出された音声波形にラベルを付与するラベリング処理が実行される。その後、生成されたラベル付き音声素片が、素片置き換え処理に用いられる。例えば、音声収録部２０２から入力されている音声「こんにちは」（白色）を、音声素片作成処理によって、/コ//ン//ニ//チ//ワ/と５つの音素単位（この例では音素単位にしているが、音節単位や半音素単位、フレーム単位など音声合成に用いられる素片単位も用いることが可能である）の音声波形（音声断片）に切り分けられた後、それぞれの音声波形にラベルが自動付与される。例えば、この例では五つの音声波形にそれぞれ“コ”“ン”“ニ”“チ”“ワ”と音素表記だけのラベルがつけられている。ラベルには、音素の種類を示す音素表記、前後の音韻環境を示す先行・後続音素表記、該当音素が文、フレーズ、ワードに占める位置などのコンテキスト情報、音声波形から抽出される基本周波数（以降、Ｆ０）、継続長、パワーなどの韻律情報、音声波形から抽出されケプストラムなどの音韻情報などが考えられる。

ＤＢ更新処理部２０４は、素片置き換え処理２０４４によって、ユーザの音声素片で音声ＤＢ２０６に含まれている従来話者の音声素片を置き換える。この処理を継続していくことにより、音声ＤＢ２０６に含まれるユーザ声の音声素片の比率を増やすことができる。より具体的に、素片置き換え処理２０４４では、音声素片作成処理２０４１によって作成されたそれぞれの音素素片について、事前に定義された素片間距離評価尺度（評価ルール）２０４３を用いて、音声ＤＢ２０６に含まれている従来話者声の音声素片と距離を計算し、「置き換え可能」と判断した素片との置き換えを行うようにしている。どの素片に関しても「置き換え可能」とならなかった場合は、そのユーザ声音声素片が音声ＤＢ２０６に追加（新規登録）される。ＤＢ更新部２０４の処理によって、音声ＤＢ２０６に含まれるユーザ声の音声素片が増える。この音声ＤＢ２０６を用いて音声合成した場合、ユーザ声の素片が選択される確率が高くなり、合成音声をユーザの声に近づけることが可能となる。

当該実施の形態では、音素間距離評価尺度を「音素表記が一致？」と定義しているので、作成されたユーザ声（白色）の五つのラベル付き音声素片のそれぞれについて、データベースにある従来話者声（灰色）の音声素片と比較し、音素表記が一致しているものに対して、置き換えを行われる。ここで、置き換えられた従来話者声の音声素片は廃棄される。その結果、音声ＤＢ２０６に含まれる従来話者声の音声素片が５つ減り、ユーザ声の音声素片が５つ増え、音声ＤＢ２０６がユーザ声で更新されたことになる。更新される前にユーザ声素片は入力されていないので、音声ＤＢ２０６を用いた音声合成では、従来話者の声の音声でしか音声合成できないのに対して、更新された音声ＤＢ２０６には、ユーザ声の音声素片も入っているため、合成した音声がユーザの声になる確率が高くなる。しかし、従来手法のように、少しずつパラメータを修正し、ユーザの声に近づけるのと違って、合成時にユーザ声の素片が選ばれなければ、ユーザの声に近づけるとこができない。その代わりに、従来手法のようにパラメータを修正することによる音質の劣化が起りにくいと考えられる。つまり、上述のように音声ＤＢ２０６を更新しても、高い合成音質を保障される。ここで、より多くのユーザ素片が合成時に使われる確率を上げるために、ユーザ素片が全体音声ＤＢに占める確率を上げることや、使われやすい素片を優先的に置き換えることが必要となる。そのため、次にユーザに読ませるテキストの選別が重要となる。つまり、効率よく（よりユーザ素片の使われる確率を上げる）置き換えを行うために、録音テキストを現在ＤＢの状態を考慮した最適化が必要となる。

なお、素片間距離評価尺度（評価ルール）としては様々な内容が考えられる。最もシンプルなものは、上述のように、音素表記のみを比較し、同じ音素表記を持つ素片をすべて置き換えてしまう手法である。しかし、このような単純な手法では、生成された音声ＤＢ２０６の品質が落ちてしまう可能性もある。

そこで、より高品質のＤＢに更新するために、前後のコンテキストを音声素片間距離尺度とする手法が考えられる。例えば、トライフォン（Triphone）を考慮した音声素片置き換えルールでは、当該音声素片の音素表記のみならず、当該音声素片の先行・後続音声素片についても、音素表記を比較し、先行・当該・後続音声素片のすべての音素表記が一致した場合のみ、置き換えるようにする。ここで、考慮できるコンテキストは、図７Ｂ（素変換距離評価尺度に用いることができるコンテキストの例）に示したものが考えられる。これらのコンテキストを複数に用いて、音素間距離を評価することも考えられる。この場合、「先行音素を外した場合は２ポイント」、「当該音節が当該韻律ワードに占める位置が異なった場合は５ポイント」・・・などを定義すれば、コンテキストの違いを定量的に評価することができるようになる。

当該音素表記やコンテキストで素片間距離尺度を定義した場合、ある程度音声の違いを評価できるが、人間の聴覚上における音声の違いを評価するために、スペクトル、ピッチ、パワーなどの音声物理特徴量を用いた素片間距離尺度を定義するようにしても良い。ここで、音声物理特徴量とは、声道形状の特徴に関係するケプストラム、FFTCep、MelCep、MFCCなど、声帯振動の特徴に関係する基本振動周波数（Ｆ０）、パワーなどが考えられる。

図７Ｃは、別の態様によるＤＢ更新部２０４の処理内容を説明するための図である。当該態様では、テキスト提示部２０１によって提示されたテキストを読み上げてユーザの音声が得られた場合、まず、当該音声に基づいて、音声素片作成処理２０４１によってラベル付き音声素片２０４２が生成される。一方、当該テキストに対して現在の音声ＤＢ２０６を用いて音声合成処理７０１が実行される（音声合成処理は、音声合成装置１００−２を用いて実行しても良いし、ユーザ音声ＤＢ作成装置１００−１内で実行するようにしても良い）。そして、実際に音声合成に用いた従来話者の音声素片２０４５と、ユーザ音声から生成された音声素片２０４２とが入れ替えられる（つまり、合成音声に使われた従来話者の素片がすべてユーザ素片と置き換えられることになる）。図７Ｃで示したように、テキスト“こんにちは”に対して音声ＤＢ２０６を用いて音声合成した場合、/コ//ン//ニ//チ/は従来話者の素片が使われて、/ワ/はユーザ声の素片が使われたとして、使われた/コ//ン//ニ//チ/の４つの音素素片について、ユーザ声の音素素片と置き換えられることになる。なお、ここでは「ワ」の素片はすでにユーザ素片としているため置き換えられない。

＜テキスト生成部の詳細＞
図８は、テキスト生成部２０５の処理（機能）を説明するための図である。
テキスト生成部２０５は、テキスト評価ルール２０５１に基づいて、予め用意されているテキストコーパス８０１に格納されているテキストの中から最も評価の高いテキストを選択するテキスト評価処理２０５２を実行し、テキスト提示部２０１によって次に提示すべきテキスト（収録用テキスト）２０５３を生成する。

テキスト生成部２０５は、テキスト評価処理２０５２において、ある文書をユーザに発話させた場合、収録するユーザ声から作られるユーザ声音声素片を用いて、音声ＤＢ２０６を更新したときに、どれぐらいの素片を置き換えられて、置き換えられる従来話者の素片が良く使われている素片かどうかなどを計算（評価）する。この評価に基づいて、最適なテキストを選ぶことができる。例えば、図８で示す一例では、テキスト評価ルールは、「”置きかえられる素片の数を最大にする”テキストを選択する」と定義されている。ここで、テキストコーパスの中にある「こんにちは」、「こんばんは」、「おはよう」の３つのテキストについて、ユーザが読み上げた音声を用いて素片ＤＢを更新した場合に、置き換えられる従来話者音声素片の数を計算（予測）する。まず「こんにちは」の場合、既に処理したテキストであるため、置き換えられる従来話者の音声素片が存在せず、置き換えられる素片の数がゼロである。そして、「こんばんは」の場合、従来話者の音声素片/ハ゛/が置き換えられるため、置き換えられる素片の数が１である。さらに、「おはよう」の場合、従来話者の音声素片/オ//ハ//ヨ//ウ/が置き換えられるため、置き換えられる素片の数が４である。つまり、「こんにちは」、「こんばんは」、「おはよう」の３つのテキストについては、「おはよう」をユーザに読み上げさせるのが最も効率よく素片を置き換えられるということになる。

さらに、上述の素片置き換え処理２０４４の説明で挙げた全ての音素間距離評価尺度についても、同じように置き換えられる素片の数を計算（予測）し、最適な読み上げテキストを探索できる。

なお、「”置きかえられる素片の数を最大にする”テキストを選択する」というテキスト評価ルールは、ユーザ素片の数が多ければ多いほど、合成時に使われる確率が高くなるという仮説を基にしている。しかし、実際に音声ＤＢに各音声素片の使われる確率がかなり異なっていることが分かっている。例えば、５万文書を音声合成した場合、5000回以上使われた音声素片もあれば、１回も使われていなかった素片もある。同じ数の素片を置き換えられたとしても、使われる頻度の高い素片を置き換えたほうが、よりユーザ素片の使われる確率が向上できる。そのため、音声ＤＢに含まれているすべての素片について、使われる頻度（確率）を付与（計算）する。

したがって、「”置きかえられる素片の使用頻度を最大にする”テキストを選択する」というルールにすると、より効率よく音声ＤＢ２０６を更新することができる。例えば、素片/ハ゛//オ//ハ//ヨ//ウ/の使用頻度がそれぞれ１００，３０，１５，１３，２０だとする。テキストコーパスの中にある「こんにちは」、「こんばんは」、「おはよう」の３つのテキストについて、ユーザが読み上げた音声を用いて音声ＤＢ２０６を更新する場合に、置き換えられる従来話者音声素片の使用頻度（合計値）を計算（予測）する。まず、「こんにちは」の場合、置き換えられる従来話者の音声素片が存在しないため、置き換えられる素片の使用頻度がゼロである。そして、「こんばんは」の場合、従来話者の音声素片／バ／が置き換えられるため、置き換えられる素片の使用頻度が１００である。一方、「おはよう」の場合、従来話者の音声素片/オ//ハ//ヨ//ウ/が置き換えられるため、置き換えられる素片の頻度が３０＋１５＋１３＋２０＝７８である。つまり、「こんにちは」、「こんばんは」、「おはよう」の３つのテキストについて、「こんばんは」をユーザに読み上げさせるのが最も効率よく素片を置き換えられることになる。

＜ユーザ音声ＤＢ作成装置の全体処理＞
図９は、ユーザ音声ＤＢ作成装置で実行される処理の全体的概要を示す図である。
図９に示されるように、ユーザ音声ＤＢ作成装置１００では、初回の処理（既存ＤＢの選択（初期化処理９０３））以降、テキストを話者（ユーザ）に提示するテキスト提示処理９０１と、音声収録処理９０２と、ＤＢ更新処理９０４と、テキスト評価処理９０５と、テキスト生成処理９０６が繰り返される。なお、各処理の詳細については既に説明したので、ここでは再度説明しない。

このような処理を繰り返していくことにより、音声ＤＢ２０６に含まれるユーザ声の素片の比率の大きくなっていく。したがって、音声ＤＢ２０６を用いて生成された合成音声は、高音質を保ちながら、ユーザの声に近づけることが可能である。

＜その他＞
本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ（又はＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、プログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのＣＰＵなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。

さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はＣＤ−ＲＷ、ＣＤ−Ｒ等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ（又はＣＰＵやＭＰＵ）が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。

最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教授に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益であることが判るかもしれない。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが解るであろう。例えば、記述したソフトウェアは、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。

１００、１００−１・・・ユーザ音声ＤＢ作成装置
１００−２・・・音声合成装置
１０１、１０１−１、１０１−２、１１０５・・・記憶装置
１０２、１０２−１、１０２−２、１１１０−１、１１１０−２・・・音声入力インタフェース
１０３、１０３−１、１０３−２、１１０２、１１０８−１、１１０８−２・・・ＣＰＵ
１０４、１０４−１、１０４−２、１１０３、１１０９−１、１１０９−２・・・メモリ
１０５、１０５−１、１０５−２、１１１２−１、１１１２−２・・・音声出力インタフェース
１０６、１１１３−１、１１１３−２・・・テキスト提示インタフェース
１０７、１０７−１、１０７−２、１１０７、１１１８−１、１１１８−２・・・バス
１０８・・・データ出力装置
１０９・・・データ入力装置
１１１−１、１１１−２、１１０４、１１１１−１、１１１１−２・・・通信インタフェース
１１０１・・・サーバ
１１０６・・・ネットワーク
１１０７−１、１１０７−２・・・端末

Claims

音声合成処理に用いる音声データベースを生成する音声データベース生成システムであって、
それぞれ音質が異なる、複数の既存音声データベースと、
前記複数の既存音声データベースから１つの既存音声データベースを選択し、特定ユーザ用の音声データベースを生成するための処理を実行するプロセッサと、を有し、
前記プロセッサは、
第１のテキストを特定ユーザが読み上げることにより入力された音声の声質を評価し、前記特定ユーザの声質に最も近い既存音声データベースを選択する処理と、
前記第１のテキストとは異なる第２のテキストを前記特定ユーザが読み上げることにより入力された音声を用いて前記特定ユーザのラベル付き音声素片を生成し、予め設定された素片置き換えルールに従って、前記選択された既存音声データベースの音声素片を前記特定ユーザのラベル付き音声素片によって置き換えることにより音声データベースを更新する処理と、
を実行することを特徴とする音声データベース生成システム。
請求項１において、
さらに、複数のテキストコーパスを格納するテキストコーパス記憶部を有し、
前記プロセッサは、予め設定されたテキスト評価ルールに従って、前記テキストコーパス記憶部に格納されている前記複数のテキストコーパスのうち何れのテキストコーパスが最も効率よく前記既存音声データベースの音声素片を置き換えることができるかを評価することにより、前記特定ユーザに提示すべき前記第２のテキストを生成する処理を実行することを特徴とする音声データベース生成システム。
請求項２において、
前記プロセッサは、前記選択された既存音声データベースを用いて前記第２のテキストに対して音声合成処理を実行して置き換え候補となるラベル付き音声素片を生成する処理を実行し、
前記音声データベースを更新する処理において、前記プロセッサは、前記特定ユーザのラベル付き音声素片によって前記置き換え候補となるラベル付き音声素片を置き換えることを特徴とする音声データベース生成システム。
請求項２において、
前記音声データベースを更新する処理において、前記プロセッサは、前記特定ユーザのラベル付き音声素片について、置き換え対象の音声素片の音素表記だけでなく、当該置き換え対象の音声素片に先行する音声素片及び後続する音声素片の音素表記をも比較し、前記先行音声素片、前記置き換え対象の音声素片、及び前記後続する音声素片の全ての音素表記が一致した場合のみ、前記置き換え対象の音声素片で前記選択された既存音声データベースの音声素片を置き換えることを特徴とする音声データベース生成システム。
請求項２において、
前記プロセッサは、さらに、
前記特定ユーザによって入力された音声に対して音声認識処理又は／及びアクセント抽出処理を実行することにより、前記特定ユーザによって入力された音声が前記第１又は第２のテキストの通りに読み上げられたか否かを判定する発話正確度判定処理と、
前記発話正確度判定処理の判定結果が予め設定された所定の条件を満たさない場合に前記第１又は第２のテキストを再度読み上げるように前記特定ユーザに要求する処理と、
を実行することを特徴とする音声データベース生成システム。
音声合成処理に用いる音声データベースを生成する音声データベース生成方法であって、
プロセッサが、第１のテキストを特定ユーザが読み上げることにより入力された音声の声質を評価し、予め用意され、それぞれ音質が異なる、複数の既存音声データベースの中から前記特定ユーザの声質に最も近い既存音声データベースを選択するステップと、
前記プロセッサが、前記第１のテキストとは異なる第２のテキストを前記特定ユーザが読み上げることにより入力された音声を用いて前記特定ユーザのラベル付き音声素片を生成し、予め設定された素片置き換えルールに従って、前記選択された既存音声データベースの音声素片を前記特定ユーザのラベル付き音声素片によって置き換えることにより音声データベースを更新するステップと、
を含むことを特徴とする音声データベース生成方法。
請求項６において、さらに、
前記プロセッサが、予め設定されたテキスト評価ルールに従って、予め用意されたテキストコーパス記憶部に格納されている複数のテキストコーパスのうち何れのテキストコーパスが最も効率よく前記既存音声データベースの音声素片を置き換えることができるかを評価することにより、前記特定ユーザに提示すべき前記第２のテキストを生成するステップを含むことを特徴とする音声データベース生成方法。
請求項７において、
さらに、前記プロセッサが、前記選択された既存音声データベースを用いて前記第２のテキストに対して音声合成処理を実行して置き換え候補となるラベル付き音声素片を生成するステップを含み、
前記音声データベースを更新するステップにおいて、前記プロセッサは、前記特定ユーザのラベル付き音声素片によって前記置き換え候補となるラベル付き音声素片を置き換えることを特徴とする音声データベース生成方法。
請求項７において、
前記音声データベースを更新するステップにおいて、前記プロセッサは、前記特定ユーザのラベル付き音声素片について、置き換え対象の音声素片の音素表記だけでなく、当該置き換え対象の音声素片に先行する音声素片及び後続する音声素片の音素表記をも比較し、前記先行音声素片、前記置き換え対象の音声素片、及び前記後続する音声素片の全ての音素表記が一致した場合のみ、前記置き換え対象の音声素片で前記選択された既存音声データベースの音声素片を置き換えることを特徴とする音声データベース生成方法。
請求項７において、さらに、
前記プロセッサが、前記特定ユーザによって入力された音声に対して音声認識処理又は／及びアクセント抽出処理を実行することにより、前記特定ユーザによって入力された音声が前記第１又は第２のテキストの通りに読み上げられたか否かを判定する発話正確度判定ステップと、
前記プロセッサが、前記発話正確度判定ステップにおける判定結果が予め設定された所定の条件を満たさない場合に前記第１又は第２のテキストを再度読み上げるように前記特定ユーザに要求するステップと、
を含むことを特徴とする音声データベース生成方法。
音声合成処理に用いる音声データベースを生成するためのプログラムであって、
コンピュータに、
第１のテキストを特定ユーザが読み上げることにより入力された音声の声質を評価し、予め用意され、それぞれ音質が異なる、複数の既存音声データベースの中から前記特定ユーザの声質に最も近い既存音声データベースを選択する処理と、
前記第１のテキストとは異なる第２のテキストを前記特定ユーザが読み上げることにより入力された音声を用いて前記特定ユーザのラベル付き音声素片を生成し、予め設定された素片置き換えルールに従って、前記選択された既存音声データベースの音声素片を前記特定ユーザのラベル付き音声素片によって置き換えることにより音声データベースを更新する処理と、
を実行させるためのプログラム。