JP4741208B2

JP4741208B2 - 音声合成用読み上げテキストデータ選択プログラムおよび音声合成用読み上げテキストデータ選択装置

Info

Publication number: JP4741208B2
Application number: JP2004213332A
Authority: JP
Inventors: 寛之世木; 健小早川; 徹都木
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2004-07-21
Filing date: 2004-07-21
Publication date: 2011-08-03
Anticipated expiration: 2024-07-21
Also published as: JP2006030892A

Description

本発明は、音声合成に用いる音声合成用データベースを作成する際に、必要となる最小限の読み上げテキストデータを、予め用意しておいた読み上げテキストデータの中から選択する音声合成用読み上げテキストデータ選択プログラムおよび音声合成用読み上げテキストデータ選択装置に関する。

従来、音声合成に用いる様々な音（音声データ）を集めた音声合成用データベースを作成する際に、様々な音を読み上げるためのテキストデータ（読み上げテキストデータ）を選択する方法として、例えば、「集合被覆問題における貪欲近似アルゴリズム」（非特許文献１参照）を用いた方法を利用することができる。

この「集合被覆問題における貪欲近似アルゴリズム」を用いた方法において、集合被覆問題（ｓｅｔ−ｃｏｖｅｒｉｎｇｐｒｏｂｌｅｍ）のある事例（Ｘ，Ｆ）は、有限集合Ｘ（有限個数の要素（構成要素、元）ｘからなるもの）と、この有限集合Ｘの部分集合Ｓの族Ｆ（部分集合Ｓのグループ、部分集合Ｓが属しているもの）とからなる。また、有限集合Ｘの各要素ｘは、族Ｆにグループ化された（族Ｆに属している）少なくとも１つの部分集合Ｓに含まれる。つまり、部分集合Ｓ∈Ｆ（族Ｆに属している部分集合Ｓ）は、要素ｘを覆っている（覆う［ｃｏｖｅｒｓ］）と言える。そして、この集合被覆問題とは、有限集合Ｘの全ての要素ｘを覆う最小のサイズの族Ｃ⊆Ｆ（族Ｆに含まれる族Ｃ）を見つけることである。

また、貪欲近似アルゴリズム（Ｇｒｅｅｄｙ−Ｓｅｔ−Ｃｏｖｅｒ）とは、集合被覆問題のある事例（Ｘ，Ｆ）において、最小サイズの族Ｃを見つけていく段階で、まだ、覆われていない要素ｘを最も多く覆う部分集合Ｓから先に選択していくことである。
すなわち、「集合被覆問題における貪欲近似アルゴリズム」を用いた方法は、要素（構成要素、この場合、音声データ）ｘを最も多く含む部分集合Ｓ（この場合、読み上げテキストデータ）から順に選択していくというアルゴリズムである。

アルゴリズムイントロダクション第３巻、近代科学社、Ｔ．コルメン他著、ｐｐ３１３−３１７

しかしながら、従来の「集合被覆問題における貪欲近似アルゴリズム」を用いた方法では、構成要素（音声データ）を最も多く含む部分集合（読み上げテキストデータ）を見つけるために、１つの部分集合（読み上げテキストデータ）を選択するたびに、構成要素（音声データ）数の再計算およびソート処理をしなければならず、処理時間がかかるという問題がある。

また、従来の「集合被覆問題における貪欲近似アルゴリズム」を用いた方法では、構成要素（音声データ）数のソート処理を実行するために、各部分集合（読み上げテキストデータ）に含まれる構成要素（音声データ）をメモリー上に展開する必要があるため、部分集合（読み上げテキストデータ）が大きくなると、膨大なメモリーの容量を確保することが困難になるという問題がある。

そこで、本発明では、前記した問題を解決し、部分集合である読み上げテキストデータを選択するたびに、構成要素である音声データ数の再計算やソート処理を実行する必要がなく、処理時間を短縮することができ、音声データを展開するメモリーの容量を抑制することができる音声合成用読み上げテキストデータ選択プログラムおよび音声合成用読み上げテキストデータ選択装置を提供することを目的とする。

前記課題を解決するため、請求項１記載の音声合成用読み上げテキストデータ選択プログラムは、音声合成する際に合成単位となる音声データ単位を予め設定した回数含む読み上げテキストデータを選択するために、前記音声データが登録されている音声データ単位辞書を備えたコンピュータを、読み上げテキストデータ入力手段、読み上げテキストデータ分割手段、音声データ単位カウント手段、読み上げテキストデータ選択手段、選択読み上げテキストデータ出力手段、として機能させる構成とした。

かかる構成によれば、音声合成用読み上げテキストデータ選択プログラムは、読み上げテキストデータ入力手段によって、読み上げテキストデータを入力し、この入力された読み上げテキストデータを、読み上げテキストデータ分割手段によって、音声データ単位辞書に登録されている音声データ単位に分割する。音声データ単位辞書は、集合被覆問題における貪欲近似アルゴリズムにおける部分集合に該当する読み上げテキストデータを、当該アルゴリズムの要素に該当する音声データ単位に分割するために、様々な音（音声データ）について、予め設定した分割単位が多数収められているものである。

続いて、音声合成用読み上げテキストデータ選択プログラムは、音声データ単位カウント手段によって、読み上げテキストデータに含まれている音声データ単位の数を計数し（カウントし）、この音声データ単位カウント手段で計数されたカウント値が、初期処理時においては、カウント値の最大値として予め設定した回数より大きく、それ以降においては、それまでに計数されたカウント値の中で最大値以上であるときは、この音声データ単位カウント手段で計数されたカウント値が計数された読み上げテキストデータを選択し、それまでに計数されたカウント値に当該カウント値を置き換える。ここでは、単純に音声データの数が最も多い読み上げテキストデータを残していく。つまり、音声データ単位の数が読み上げテキストデータ毎にカウントされ、カウントされた音声データ単位の数が現時点で最大値以上であれば、この音声データ単位の数が最大値以上になった読み上げテキストデータが選択されることになる。ただし、音声データ単位カウント手段では、音声データ単位の数が、予め設定された回数以上、すでに含まれている音声データ単位については、カウントしない。つまり、音声データ単位カウント手段は、読み上げテキストデータの中に、予め設定された回数以上、読み上げテキストデータ選択手段で選択された読み上げテキストデータにすでに含まれている音声データ単位があるときは、当該音声データ単位を計数しない。

そして、音声合成用読み上げテキストデータ選択プログラムは、選択読み上げテキストデータ出力手段によって、読み上げテキストデータ選択手段で選択された読み上げテキストデータを、選択読み上げテキストデータ（音声合成用読み上げテキストデータ）として出力する。

請求項２に記載の音声合成用読み上げテキストデータ選択装置は、音声合成する際に合成単位となる音声データ単位を予め設定した回数含む読み上げテキストデータを選択する音声合成用読み上げテキストデータ選択装置であって、音声データ単位辞書と、テキストデータ入力手段と、読み上げテキストデータ分割手段と、音声データ単位カウント手段と、読み上げテキストデータ選択手段と、選択読み上げテキストデータ出力手段と、を備える構成とした。

かかる構成によれば、音声合成用読み上げテキストデータ選択装置は、読み上げテキストデータ入力手段によって、読み上げテキストデータを入力し、この入力された読み上げテキストデータを、読み上げテキストデータ分割手段によって、音声単位辞書に登録されている音声データ単位に分割する。続いて、音声合成用読み上げテキストデータ選択装置は、音声データ単位カウント手段によって、読み上げテキストデータに含まれている音声データ単位の数を計数し（カウントし）、この音声データ単位カウント手段で計数されたカウント値が、初期処理時においては、カウント値の最大値として予め設定した回数より大きく、それ以降においては、それまでに計数されたカウント値の中で最大値以上であるときは、読み上げテキストデータ選択手段によって、この音声データ単位カウント手段で計数されたカウント値が計数された読み上げテキストデータを選択し、それまでに計数されたカウント値に当該カウント値を置き換える。そして、音声合成用読み上げテキストデータ選択装置は、選択読み上げテキストデータ出力手段によって、読み上げテキストデータ選択手段で選択された読み上げテキストデータを、選択読み上げテキストデータ（音声合成用読み上げテキストデータ）として出力する。このとき、音声データ単位カウント手段は、読み上げテキストデータの中に、予め設定された回数以上、読み上げテキストデータ選択手段で選択された読み上げテキストデータにすでに含まれている音声データ単位があるときは、当該音声データ単位を計数しない。

請求項１または２記載の発明によれば、入力された読み上げテキストデータを音声データ単位に分割する際に、１つ１つの読み上げテキストデータをメモリ等に展開したまま保持せずに、音声データ単位の数が最大値の読み上げテキストデータを逐次選択していくことで、読み上げテキストデータを選択するたびに、音声データ数の再計算やソート処理を実行する必要がなく、処理時間を短縮することができ、音声データを展開するメモリーの容量を抑制することができる。

次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
〈音声合成用読み上げテキストデータ選択装置の構成〉
図１は、音声合成用読み上げテキストデータ選択装置のブロック図である。この図１に示すように、音声合成用読み上げテキストデータ選択装置１は、無作為に収集した読み上げテキストデータを入力すると、音声合成用データベース（図示せず）を作成するのに、最小限のデータ量となる選択読み上げテキストデータ（音声合成用読み上げテキストデータ）を出力するもので、読み上げテキストデータ入力手段３と、読み上げテキストデータ分割手段５と、音声データ単位辞書記憶手段７と、音声データ単位カウント手段９と、読み上げテキストデータ選択手段１１と、選択読み上げテキストデータ出力手段１３とを備えている。

読み上げテキストデータ入力手段３は、当該装置１の外部から任意数の読み上げテキストデータを入力するものである。この読み上げテキストデータは、音声合成装置（図示せず）に備えられる音声合成用データベース（図示せず）に蓄積させる音声データの「読み」に関するデータである。

例えば、ニュース原稿を読み上げる合成音を、音声合成装置（図示せず）で音声合成する場合には読み上げテキストデータは、ニュース原稿が主体となる。また、主に株価等の数値を読み上げる合成音を、音声合成装置（図示せず）で音声合成する場合には読み上げテキストデータは、数値に関するものが主体となる。

読み上げテキストデータ分割手段５は、読み上げテキストデータ入力手段３で入力された読み上げテキストデータを、音声データ単位辞書記憶手段７に記憶されている音声データ単位辞書を参照して分割するものである。この読み上げテキストデータ分割手段５は、音声データ単位辞書に登録（収録）されている音声データ単位に、読み上げテキストデータを分割し、分割した結果を、音声データ単位カウント手段９に出力するものである。

音声データ単位辞書記憶手段７は、ハードディスク等の記憶媒体によって構成されており、音声データ単位辞書を記憶しているものである。この音声データ単位辞書は、音声データを予め設定した単位で区切った音声データ単位を収録しているものとする。

音声データ単位カウント手段９は、読み上げテキストデータ分割手段５で読み上げテキストデータが音声データ単位に分割された数をカウントするものである。ただし、音声データ単位の数が、予め設定した回数以上、すでに含まれている音声データ単位についてはカウントしない。この音声データ単位カウント手段９でカウントされたカウント値は、読み上げテキストデータ選択手段１１に出力される。

読み上げテキストデータ選択手段１１は、音声データ単位カウント手段９でカウントされた音声データ単位の数（カウント値）がそれまでに入力されたカウント値の中で、最大値以上であれば、このカウント値がカウントされた読み上げテキストデータを選択するものである。なお、この実施形態では、読み上げテキストデータ選択手段１１によって選択される読み上げテキストデータに含まれる音声データ単位の回数（予め設定した回数）を初めは「１」（任意数）としている。音声データ単位カウント手段９でカウントされたカウント値が、予め設定した回数「１」より大きくなった場合は、その設定した回数をカウント値に置き換える。

選択読み上げテキストデータ出力手段１３は、読み上げテキストデータ選択手段１１で選択された読み上げテキストデータを、選択読み上げテキストデータ（音声合成用読み上げテキストデータ）として出力するものである。

ここで、音声合成用読み上げテキストデータ選択装置１の具体的な処理について、入力される読み上げテキストデータを例示して説明する。
例えば、「九十九」から「一」までの数字を一つずつ小さくなるように列べたもの（九十九、九十八、九十七、・・・、三、二、一）が、読み上げテキストデータとして、読み上げテキストデータ入力手段３に入力され、且つ、音声データ単位辞書記憶手段７には、「一」、「二」、「三」、「四」、「五」、「六」、「七」、「八」、「九」、「十」、「二十」、「三十」、「四十」、「五十」、「六十」、「七十」、「八十」、「九十」が音声データ単位として登録されている場合について説明する。

そして、この音声合成用読み上げテキストデータ選択装置１では、音声データ単位が１回含まれていれば、入力された読み上げテキストデータを、選択読み上げテキストデータとして選択するものとしている。

まず、一番初めに入力される読み上げテキストデータ「九十九」は、読み上げテキストデータ分割手段５で分割されて音声データ単位カウント手段９でカウントされた結果、音声データ単位として「九十」と「九」との２つが含まれていることが判明する。この結果、読み上げテキストデータ選択手段１１によって選択される。

次に、二番目に入力される読み上げテキストデータ「九十八」は、読み上げテキストデータ分割手段５で分割されて音声データ単位カウント手段９でカウントされた結果、音声データ単位として「九十」と「八」との２つが含まれていることが判明する。しかし、すでに、「九十」は選択されているので、カウントしたカウント値は「八」の１つだけとされ、「九十九」よりもカウント値が少ないので、読み上げテキストデータ選択手段１１によって選択されない。さらに、「九十七」から「八十九」までは、同様の理由で（カウント値が１になってしまうので）、読み上げテキストデータ選択手段１１によって選択されない。

そして、読み上げテキストデータ「八十八」は音声データ単位「八十」と「八」との二つが含まれていると判明するので、読み上げテキストデータ選択手段１１によって選択される。以降、「七十七」、「六十六」、「五十五」、「四十四」、「三十三」、「二十二」、「十一」が読み上げテキストデータ選択手段１１によって選択されることになる。そして、選択読み上げテキストデータとして「十一」が選択読み上げテキストデータ出力手段１３から出力された時点で、当該装置１の動作が終了する。つまり、「十一」を選択した時点で音声データ単位辞書記憶手段７に記憶されている音声データ単位辞書に含まれている音声データ単位が選択読み上げテキストデータに全て含まれていることになる。

なお、この例では、音声データ単位辞書記憶手段７には、前後の音素環境を考慮していない「桁」（数値列）を用いているが、前後の音素環境を考慮した音素であるトライフォンや、前後の桁を考慮した桁等の音性データ単位を用いれば、天気予報でよく使用されるフレーズ「くもり」、「はれ」、「になるでしょう。」等を音声合成する際に利用する、音声合成用データベースを作成するための音声合成用読み上げテキストデータを選択することも可能である。

〈音声合成用読み上げテキストデータ選択装置の動作〉
次に、図２に示すフローチャートを参照して、音声合成用読み上げテキストデータ選択装置１の動作を説明する（適宜、図１参照）。
まず、音声合成用読み上げテキストデータ選択装置１は、読み上げテキストデータを読み上げテキストデータ入力手段３によって入力し（ステップＳ１）、音声データ単位辞書記憶手段７に記憶されている音声データ単位辞書を参照して、読み上げテキストデータ分割手段５によって、入力された読み上げテキストデータを音声データ単位に分割する（ステップＳ２）。

続いて、音声合成用読み上げテキストデータ選択装置１は、音声データ単位カウント手段９によって、読み上げテキストデータ分割手段５で分割された音声データ単位の数を計数（カウント）し（ステップＳ３）、読み上げテキストデータ選択手段１１によって、音声データ単位の数に基づいて、読み上げテキストデータ（音声データ単位の数であるカウント値が最大値以上のもの）を選択する（ステップＳ４）。

そして、音声合成用読み上げテキストデータ選択装置１は、選択読み上げテキストデータ出力手段１３によって、読み上げテキストデータ選択手段１１で選択された読み上げテキストデータを、選択読み上げテキストデータ（音声合成用読み上げテキストデータ）として外部に出力する（ステップＳ５）。

なお、音声合成用読み上げテキストデータ選択装置１は、選択された読み上げテキストデータに含まれる全ての音声データ単位の個数（数）が予め設定した回数より大きいか否かを判定し（ステップＳ６）、大きいと判定されなかった場合（ステップＳ６、Ｎｏ）には１文章に含まれる音声データの単位の最大値を１にして（ステップＳ７）、ステップＳ１に戻る。また、大きいと判定された場合（ステップＳ６、Ｙｅｓ）には動作を終了する。

音声合成用読み上げテキストデータ選択装置１によれば、読み上げテキストデータ入力手段３によって、読み上げテキストデータが入力され、この入力された読み上げテキストデータが、読み上げテキストデータ分割手段５によって、音声データ単位辞書記憶手段７に記憶される音声データ単位辞書に登録されている音声データ単位に分割される。続いて、音声データ単位カウント手段９によって、読み上げテキストデータに含まれている音声データ単位の数がカウントされ、このカウントされた音声データ単位の数に基づいて、読み上げテキストデータ選択手段１１によって、読み上げテキストデータ（音声データ単位の数であるカウント値が最大値以上のもの）が選択される。そして、選択読み上げテキストデータ出力手段１３によって、読み上げテキストデータ選択手段１１で選択された読み上げテキストデータが、選択読み上げテキストデータ（音声合成用読み上げテキストデータ）として出力される。

このため、入力された読み上げテキストデータを音声データ単位に分割する際に、１つ１つの読み上げテキストデータをメモリ等に展開したまま保持せずに、音声データ単位の数が最大値の読み上げテキストデータを逐次選択していくことで、読み上げテキストデータを選択するたびに、音声データ数の再計算やソート処理を実行する必要がなく、処理時間を短縮することができ、音声データを展開するメモリーの容量を抑制することができる。

なお、この音声合成用読み上げテキストデータ選択装置１を使用して、読み上げテキストデータを選択した場合、例えば、数値等を読み上げる読み上げテキストデータの場合、１億個もの読み上げテキストデータを二千個程度の読み上げテキストデータに減少させることができた。

以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、音声合成用読み上げテキストデータ選択装置１として説明したが、当該装置１の各構成の処理を汎用的または特殊なコンピュータ言語で記述した音声合成用読み上げテキストデータ選択プログラムとすることも可能である。この場合、当該装置１と同様の効果を得ることができる。

本発明の実施形態に係る音声合成用読み上げテキストデータ選択装置のブロック図である。図１に示した音声合成用読み上げテキストデータ選択装置の動作を説明したフローチャートである。

符号の説明

１音声合成用読み上げテキストデータ選択装置
３読み上げテキストデータ入力手段
５読み上げテキストデータ分割手段
７音声データ単位辞書記憶手段
９音声データ単位カウント手段
１１読み上げテキストデータ選択手段
１３選択読み上げテキストデータ出力手段

Claims

音声合成する際に合成単位となる音声データ単位を予め設定した回数含む読み上げテキストデータを選択するために、前記音声データが登録されている音声データ単位辞書を備えたコンピュータを、
前記読み上げテキストデータを入力する読み上げテキストデータ入力手段、
この読み上げテキストデータ入力手段で入力された読み上げテキストデータを、前記音声データ単位辞書に登録されている音声データ単位に分割する読み上げテキストデータ分割手段、
この読み上げテキストデータ分割手段で分割された読み上げテキストデータに含まれている前記音声データ単位を計数する音声データ単位カウント手段、
この音声データ単位カウント手段で計数されたカウント値が、初期処理時においては、カウント値の最大値として予め設定した回数より大きく、それ以降においては、それまでに計数されたカウント値の中で最大値以上であるときは、この音声データ単位カウント手段で計数されたカウント値が計数された読み上げテキストデータを選択し、前記それまでに計数されたカウント値に当該カウント値を置き換える読み上げテキストデータ選択手段、
この読み上げテキストデータ選択手段で選択された読み上げテキストデータを、選択読み上げテキストデータとして出力する選択読み上げテキストデータ出力手段、
として機能させ、
前記音声データ単位カウント手段は、
前記読み上げテキストデータの中に、前記予め設定された回数以上、前記読み上げテキストデータ選択手段で選択された読み上げテキストデータにすでに含まれている前記音声データ単位があるときは、当該音声データ単位を計数しない
ことを特徴とする音声合成用読み上げテキストデータ選択プログラム。
音声合成する際に合成単位となる音声データ単位を予め設定した回数含む読み上げテキストデータを選択する音声合成用読み上げテキストデータ選択装置であって、
前記音声データが登録されている音声データ単位辞書と、
前記読み上げテキストデータを入力する読み上げテキストデータ入力手段と、
この読み上げテキストデータ入力手段で入力された読み上げテキストデータを、前記音声データ単位辞書に登録されている音声データ単位に分割する読み上げテキストデータ分割手段と、
この読み上げテキストデータ分割手段で分割された読み上げテキストデータに含まれている前記音声データ単位を計数する音声データ単位カウント手段と、
この音声データ単位カウント手段で計数されたカウント値が、初期処理時においては、カウント値の最大値として予め設定した回数より大きく、それ以降においては、それまでに計数されたカウント値の中で最大値以上であるときは、この音声データ単位カウント手段で計数されたカウント値が計数された読み上げテキストデータを選択し、前記それまでに計数されたカウント値に当該カウント値を置き換える読み上げテキストデータ選択手段と、
この読み上げテキストデータ選択手段で選択された読み上げテキストデータを、選択読み上げテキストデータとして出力する選択読み上げテキストデータ出力手段と、
を備え、
前記音声データ単位カウント手段は、
前記読み上げテキストデータの中に、前記予め設定された回数以上、前記読み上げテキストデータ選択手段で選択された読み上げテキストデータにすでに含まれている前記音声データ単位があるときは、当該音声データ単位を計数しない
ことを特徴とする音声合成用読み上げテキストデータ選択装置。