JP5155836B2

JP5155836B2 - 収録テキスト生成装置、その方法、そのプログラム

Info

Publication number: JP5155836B2
Application number: JP2008307679A
Authority: JP
Inventors: 孝中村; 昇宮崎
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-12-02
Filing date: 2008-12-02
Publication date: 2013-03-06
Anticipated expiration: 2028-12-02
Also published as: JP2010134040A

Description

この発明は、テキスト音声合成技術で用いる音声データベースに追加収録する収録テキストを生成する収録テキスト生成装置、当該収録テキストの音声データを音声データベースに追加収録する音声データベース生成装置、それらの方法、それらのプログラムに関する。

従来の音声合成技術において、超大規模記憶装置の安価な供給、計算機の計算処理能力の急速な向上により、数時間から数十時間の音声を収録し、記憶装置に記憶しておくことが可能になった。これにより、事前に収録した音声をデータベース化して記憶装置に記憶し、ユーザが合成したいテキスト・韻律情報に応じて、記憶装置に記憶した音声データを適切に選択し接続することで、高品質な合成音声を出力可能な音声合成方式が開発されている（例えば、特許文献１参照）。
特許第２７６１５５２号明細書

この方式においては、データベース化した音声以外の声質を持った音声は出力できないため、任意の声質を持つ音声を合成した場合は、声質ごとの音声を収録しデータベース化する必要がある。

収録した音声データをデータベース化するには、合成単位ごとにセグメンテーションするなどの作業を要するために、短時間、低コストで音声データベースを構築することは、大きな課題である。なお、ここでいう合成単位とは、音声合成システムで用いる音声を表現するための最小の構成単位、又はその組み合わせを表すものとし、システムの構成により異なるものとする。例えば、音素、半音素、ｄｉｐｈｎｅ、モーラ等がある。

また、上記従来の技術では、少量の音声データから構築した音声データベースを用いて音声を合成した場合に、音声を合成するのに必要な音声データに不足ができる可能性が高くなり、合成音声の品質が高品質でない可能性がある。その際に、既存の音声データベースに対し追加で音声を収録することで音声合成の品質を向上させたい場合がある。しかし、追加する音声データベースそのものが大規模になってしまう場合、音声収録およびデータベース構築に大きなコストを要してしまう。

また従来技術では、追加する音声データを言語的なバリエーション（カバレッジなど）の向上という観点で決定するものであるが、これでは平均的なデータを集めようとするばかりで、必ずしも合成音声品質の向上に結びつくとは限らない。
この発明は、追加する音声データをできるだけ少量にしつつ、できるだけ音声品質を向上させる収録テキスト生成装置、音声データベース生成装置である。

この発明の収録テキスト生成装置は、音声データベース記憶部と、合成部と、大規模音声データ記憶部と、大規模テキスト記憶部と、対象検索部と、歪み計算部と、収録重要度リスト作成部と、収録候補テキスト記憶部と、収録テキスト決定部と、を具備する。音声データベース記憶部には、音声データベースが記憶されている。合成部は、音声データベースを用いて合成対象テキストに含まれる各テキストについて音声合成を行うことで、合成音声を出力する。大規模音声データ記憶部には、大規模音声データが記憶されている。大規模テキスト記憶部には、大規模音声データに対応する大規模テキストが記憶されている。対象検索部は、大規模テキストから合成対象テキストを検索し、検索された共通テキストと対応する音声データを大規模音声データから取り出し、照合音声として求める。歪み計算部は、合成音声と照合音声との歪み値を合成単位ごとに計算する。収録重要度リスト作成部は、予め定められた閾値より歪み値が高い高歪み値合成単位の高歪み値属性値が示された収録重要度リストを作成する。収録候補テキスト記憶部には、収録候補テキストが記憶されている。収録テキスト決定部は、収録候補テキストから、高歪み値属性値を含む収録テキストを取り出し、出力する。

この発明のテキスト生成装置により出力された収録テキストの音声データを、補強対象である音声データベースに対して追加収録する（補強する）ことで、当該追加する音声データをできるだけ少量にでき、かつ、補強後の音声データベースを用いた音声合成による合成音声の品質を効果的に向上させることができる。

以下に、発明を実施するための最良の形態を示す。なお、同じ機能を持つ構成部や同じ処理を行う過程には同じ番号を付し、重複説明を省略する。

図１、図２に、収録テキスト生成装置１００の機能構成例を示し、図３に処理フローを示す。音声データベース記憶部２には、補強対象である音声データベース（複数の音素片）が記憶されており、合成対象テキスト記憶部４には、合成対象テキストが記憶されている。合成対象テキストは、任意のテキストでよい。

合成部６は、音声データベースを用いて合成対象テキストに含まれる各テキストについて音声合成を行うことで、合成音声を出力する（ステップＳ２）。音声合成の手法は、如何なるものであってもよい。例えば、波形接続音声合成技術を用いる場合、入力されたテキストに対し、形態素解析、アクセント付与を行い、韻律を付与し、音声データベース上から付与された発音、韻律に適合する音声素片を選択し、適切に接続することで合成音声を作成できる。作成された合成音声は、一旦、合成音声記憶部８に記憶され、話者正規化部１０に入力される。

一方、大規模音声データ記憶部１２には、大規模な音声データである大規模音声データが記憶されている。大規模音声データは如何なるものであってもよいが、合成音声と同一言語であることが必要であり、デジタルデータであること、性別や話者を識別できること、非音声の雑音が少ないことが望ましい。そして、大規模テキスト記憶部１４には、大規模音声データに対応する大規模テキストが記憶されている。ここで、大規模テキストは大規模音声データを書き起こしたものであることが好ましい。理由は後ほど説明する。

話者正規化部１０は、合成音声および大規模音声データに対し、話者正規化を行うことで、話者正規化済合成音声および話者正規化済大規模音声データを求める（ステップＳ６）。具体的には、話者正規化部１０は、話者性成分を計算し、正規化を行う。話者正規化を行う理由は、合成音声と大規模音声データの話者間、録音した空間、収録機器の違いなどを正規化するためである。話者性の定義、及び正規化手法は如何なるものであってもよい。例えば、ＣＭＮ法（Cepstral Mean Normalization ケプストラム平均正規化）を用いる場合、話者性をケプストラム系列の各次元ごとの長時間平均を定義し、ケプストラムの長時間平均を減算することで正規化する。また、ＶＴＬＮ法(vocal tract length normalization 声道長正規化)を用いる場合には、話者性を声道長を表現する周波数軸変換関数と定義し、変換係数の正規化により話者正規化を行う。

対象検索部２０は、大規模テキストから合成対象テキストを検索する。検索された合成対象テキストを共通テキストとし、対象検索部２０は、当該共通テキストと対応する音声データを話者正規化済大規模音声データから取り出す（ステップＳ６）。取り出した音声データを照合音声とする。詳細に説明すると、大規模テキストから合成対象テキストを検索し、合成対象テキストを含む音声データを話者正規化済音声データから取り出す。次に、その音声データから合成対象テキストと一致する音声を照合する。当該照合の範囲について、合成音声の中でどの音声単位を照合範囲とするかは問わない。例えば、１文全てであっても良いし、無音で区切られたどの区間（ポーズ句）であっても良いし、１つのアクセント句であっても良い。照合をとる手法は如何なるものであっても良い。例えば、ＤＰマッチング（動的計画法：Dynamic Programing）を用いても良いし、話者正規化済み音声データから取り出した音声データを音声認識して（テキスト出力して）、テキスト上での照合を行っても良い。対象検索部２０の処理を換言すると、話者正規化済合成音声と発生系列が一致する音声を話者正規化済大規模音声データから照合し、その結果を照合音声として出力する。

歪み計算部２４は、話者正規化済合成音声と照合音声との歪み値を合成単位ごとに計算する（ステップＳ８）。歪み値計算部２４から出力される情報を歪み値系列情報とする。ここで合成単位とは、音素、半音素、ｄｉｐｈｏｎｅ、モーラなどである。歪み値とは、話者正規化済合成音声の各合成単位を、照合音声の各合成音声と比べて、歪んでいる度合いを示すものである。歪み値の計算手法として、例えば、時間軸上において振幅や位相などの音声情報の距離を用いてもよい。その他の手法としてはＦＦＴなどを用いて周波数領域に変換し、周波数軸上でのケプストラムのユークリッド距離などの尺度を用いてもよい。図４に、合成対象テキストの一文が「お元気ですか」の場合の、歪み値系列情報の例を示す。四角で囲っている部分については、後ほど説明する。図４の例では、行Ａに「お元気ですか」のテキストが示され、行Ｂには、当該テキストの合成単位が示されている、この例では、行Ｂの合成単位は音素とする。もし合成単位がモーラである場合には、「お」「げ」「ん」「き」「で」「す」「か」となる。また、行Ｃには各合成単位ごとに属性値が示される。

ここで、属性値とは、合成単位に対して詳細な情報（以下、「合成単位情報」という。）を付加したものである。例えば、合成単位が音素である場合には、図４に示すように属性値を、例えば合成単位情報として前後の音素を付加することで、前後環境付き音素（トライフォン）とすればよい。また、合成単位情報として、当該音素が単語のどのあたりに位置するか（つまり、単語の最初に位置するか、最後の方に位置するか等）の情報を付加して、属性値としてもよい。合成単位情報はこれらに限られない。また合成単位情報を付加せずに、属性値を合成単位そのものとしてもよい。図４の例では、属性値は、前後環境付き音素（トライフォン）であることから、例えば「元」の合成単位（音素）「ｇ」の属性値は「ｏ−ｇ＋ｅ」である。また、図４の例では音素ｘ、ｙ、ｚについて「ｘ−ｙ＋ｚ」は「音素ｙの前に音素ｘがあり、音素ｙの後に音素ｚがある」ことを示している。

行Ｄには、合成単位（属性値）と対応付けられて歪み値が示される。歪み値とは、実際の発声（つまり、話者正規化済大規模音声データ）との歪みの度合いを表していることから、歪み値が高い合成単位とは、音声データベース中の合成単位のうち脆弱性が高い合成単位といえる。歪み値系列情報は、図４では、テキスト（行Ａ）、合成単位（行Ｂ）、属性値（行Ｃ）、歪み値（行Ｄ）が示されているが、少なくとも、歪み値は属性値と対応付けられたものであればよい。出力された歪み値系列情報は一旦、歪み値記憶部２６に記憶される。

収録重要度リスト作成部２８は、予め定められた閾値より歪み値が高い高歪み値合成単位の属性値が示された収録重要度リストを作成する（ステップＳ１０）。図５に歪み値系列情報が図４である場合の収録重要度リストの一例を示す。詳細に説明すると、まず、収録重要度リスト作成部２８は、入力された歪み値系列情報に示されている歪み値と予め定められた閾値αとを比較して、閾値αよりも高い歪み値が高い合成単位を決定する。つまり、音声合成処理における脆弱性の高い、音声データベース中の音声データの合成単位を検出していることと同義である。従って、歪み値とは、音声データベースの補強の重要性（優先度）を示す重要度ともいえる。この決定された合成単位を高歪み値合成単位とし、高歪み値合成単位の属性値を高歪み値属性値とする。

図４の例では、閾値αを３０とすると、図４で四角で囲っているとおり、「お元気ですか」の「元」に含まれる合成単位（音素）「ｅ」と（歪み値３５）、「で」に含まれる合成単位（音素）「ｅ」と（歪み値３１）、「す」に含まれる合成単位（音素）「ｕ」と（歪み値３２）、の歪み値が閾値α（＝３０）を超えているため、これら３つの合成単位を高歪み値合成単位として決定する。そして、列Ａに高歪み値属性値が示され、列Ｂに、高歪み値属性値と対応する歪み値（３５、３１、３２）が示された収録重要度リストを収録重要度リスト作成部２８が作成し、出力する。収録重重要度リストは一旦、収録重要度リスト記憶部３０に記憶される。

一方、収録候補テキスト記憶部３２には、収録候補となるテキストである収録候補テキストが記憶されている。収録候補テキストは例えば、ウェブ上のテキストから収集できる。

収録テキスト決定部３４は、収録候補テキストから、高歪み値属性値を含む収録テキストを取り出し、出力する（ステップＳ１２）。また、収録テキスト決定部３４は、歪み値の降順に、高歪み値属性値を含む収録テキストを取り出すことが好ましい。つまり、収録テキスト決定部３４は、歪み値が高い高歪み値属性値を含む収録テキストから順番に取り出すものであることが好ましい。何故なら、上述の通り、歪み値というのは、合成単位の脆弱性を示すものであり、脆弱性が高い合成単位（属性値）から優先的に補強することで、収録テキストの量を軽減でき、より低コストで音声データベースを構築（補強）できるからである。また、歪み値に応じた点数を付加し、当該点数の最も高いものから収録テキストを取り出すようにしても良い。

図５の例では、高歪み値属性値は、「ｇ−ｅ＋ｎ」、「ｄ−ｅ＋ｓ」、「ｓ−ｕ＋ｋ」であり、収録テキスト決定部３４は、これら３つの高歪み値属性値を含むテキストを収録候補テキスト記憶部３２から取り出す。図６に、収録テキスト決定部３４が高歪み値属性値を含むテキストを取り出す際の、一例を示す。図６では、収録候補テキストが「威厳のある芸術家を迎賓館で招く。」「あっという間にゲームセットだ。」「現実的な攻撃方法で限定せよ。」の３テキストである場合を示す。これら３テキストをそれぞれテキストＡ〜Ｃとする。まず、収録テキスト決定部３４は、これら３テキストについて、収録重要度リスト中の高歪み値属性値と同一の属性値について求める。この例では、収録重要度リストの高歪み値属性値は、前後環境付き音素（トライフォン）であるので、これら３文に対して、前後環境付き音素（トライフォン）を求める。文Ａ〜Ｃの前後環境付き音素をそれぞれ、図６に示すように、前後環境付き音素列ａ〜ｃとする。例えば、前後環境付き音素列ａは、「♯−ｉ＋ｇ」「ｉ−ｇ＋ｅ」「ｇ−ｅ＋ｎ」「ｅ−ｎ＋ｎ」・・・になる。そして、収録テキスト決定部３４は、求めた前後環境付き音素列ａ〜ｃに対し、高歪み値属性値「ｇ−ｅ＋ｎ」が存在する個数を求める。図６に示すように、前後環境付き音素列ａでは、属性値「ｇ−ｅ＋ｎ」の数は１個であり、前後環境付き音素列ｂでは、高歪み値属性値「ｇ−ｅ＋ｎ」の数は０個であり、前後環境付き音素列ｃでは、高歪み値属性値「ｇ−ｅ＋ｎ」の数は２個である。収録テキスト決定部３４は高歪み値属性値を多く含む収録テキストから順番に取り出すことが好ましい。何故なら、高歪み値属性値を多く含む収録テキストを用いることで、収録テキストの数を少なくすることができ、結果として、音声データベース構築の低コスト化を図れるからである。この例では、高歪み値属性値「ｇ−ｅ＋ｎ」を２個含むテキストＣ、「ｇ−ｅ＋ｎ」を１個含むテキストＡの順番で、収録テキスト決定部３４はテキストＡ、Ｃを取り出す。また、「ｇ−ｅ＋ｎ」を含まないテキストＢについては、除外する。

そして、合成対象テキスト中の全てのテキストに対して処理をしたか否かが判断され（ステップＳ１４）、全て終了すると、収録テキストは出力され（ステップＳ１６）、収録テキスト記憶部３６に記憶される。そして、記憶された収録テキストについては、人間が当該収録テキストを読み上げ、録音することで、音声データ（以下、「収録音声データ」という。）に変換して、音声データベース記憶部２に追加収録させる。読み上げる人間は音声データベースの音声の人間と同一人物であることが望ましいが、違う人間が読み上げて公知技術である声質変動技術などを用いて、音声データベースの声質と同一の声質に変動させ、追加収録音声としてもよい。このように人間が読み上げることで、出力された収録テキストを正確に音声データベース記憶部２に反映させることができる。また、収録テキストを音声変換部３８（破線で示す）で、収録音声データに変換し、声質変動術を用いて音声データベースと同一の声質に変動させ、音声データベース記憶部２に追加収録させてもよい。この場合には、音声データベースの補強処理を自動化できる。収録テキスト生成装置１００に音声変換部３８を付加したものを音声データベース生成装置２００とする。

このように、音声データベースが持つ脆弱性（歪み値）を歪み計算部２４で求め、歪み値の高い合成単位（属性値）を含む収録テキストを元に音声データを音声データベース記憶部２に追加する。従って、音声データベースの脆弱な部分のみを補強することになり、結果として音声データベース追加する音声データをできるだけ少量にでき、かつ追加後の音声データベースを用いた音声合成による合成音声の音質を効果的に向上させることが出来る。

また、大規模音声データ記憶部１２中の大規模音声データと、合成音声記憶部８中の合成音声について、話者正規化部１０による話者正規化する必要がない場合がある。例えば、合成音声と大規模音声データの話者間、録音した空間、収録機器の違いなどがない場合には、話者正規化部１０は無くても良い。この場合、対象検索部２０は、共通テキストと対応する音声データを大規模音声データ記憶部１２中の大規模音声データから取り出す。また、歪み計算部２４は、照合音声と合成音声記憶部８中の合成音声とで、歪み値を計算する。

また、収録テキスト決定部３４が、歪み値が高い高歪み値属性値を含む収録テキストから順番に取り出すものではない場合がある。例えば、高歪み値属性値を含む収録テキストを均一に取り出す場合である。この場合には、収録重要度リスト（図５参照）には、歪み値を示す必要はない。

また、収録重要度リストにおいて、属性値を合成単位そのものとする場合（図５の例では、属性値「ｇ−ｅ＋ｎ」を「ｅ」とし、属性値「ｄ−ｅ＋ｓ」を「ｅ」とし、属性値「ｓ−ｕ＋ｋ」を「ｕ」とする場合）には、高歪み値合成単位を示す必要はない。

また、大規模テキストは大規模音声データを書き起こしたものであることが好ましい。何故なら、大規模テキストと大規模音声データとが完全に対応するものとなり、対象検索部２０の照合音声を求める処理がより正確に行われるようになるからである。

＜ハードウェア構成＞
本発明は上述の実施の形態に限定されるものではない。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

また、上述の構成をコンピュータによって実現する場合、収録テキスト生成装置１００が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
また、本実施例で説明した収録テキスト生成装置１００は、ＣＰＵ（Central Processing Unit）、入力部、出力部、補助記憶装置、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）及びバスを有している（何れも図示せず）。
ＣＰＵは、読み込まれた各種プログラムに従って様々な演算処理を実行する。補助記憶装置は、例えば、ハードディスク、ＭＯ（Magneto-Optical disc）、半導体メモリ等であり、ＲＡＭは、ＳＲＡＭ(Static Random Access Memory)、ＤＲＡＭ (Dynamic Random Access Memory)等である。また、バスは、ＣＰＵ、入力部、出力部、補助記憶装置、ＲＡＭ及びＲＯＭを通信可能に接続している。

＜ハードウェアとソフトウェアとの協働＞
本実施例の単語追加装置は、上述のようなハードウェアに所定のプログラムが読み込まれ、ＣＰＵがそれを実行することによって構築される。以下、このように構築される各装置の機能構成を説明する。
収録テキスト生成装置１００の合成部６、話者正規化部１０、対象検索部２０、歪み値計算部２４、収録重要度リスト作成部２８、収録テキスト決定部３４は、所定のプログラムがＣＰＵに読み込まれ、実行されることによって構築される演算部である。収録テキスト生成装置１００の各記憶部は上記補助記憶装置として機能する。

本実施例の収録テキスト生成装置、音声データベース生成装置の前半部分の機能構成例を示したブロック図。本実施例の収録テキスト生成装置、音声データベース生成装置の後半部分の機能構成例を示したブロック図。本実施例の収録テキスト生成装置の処理フローを示した図。本実施例の歪み値系列情報を示した図。本実施例の収録重要度リストを示した図。収録テキストを取り出す際の例を示した図。

Claims

音声データベースが記憶されている音声データベース記憶部と、
前記音声データベースを用いて合成対象テキストに含まれる各テキストについて音声合成を行うことで、合成音声を出力する合成部と、
大規模音声データが記憶されている大規模音声データ記憶部と、
前記大規模音声データに対応する大規模テキストが記憶されている大規模テキスト記憶部と、
前記大規模テキストから前記合成対象テキストを検索し、検索された共通テキストと対応する音声データを前記大規模音声データから取り出し、照合音声として求める対象検索部と、
前記合成音声と前記照合音声との歪み値を合成単位ごとに計算する歪み計算部と、
予め定められた閾値より歪み値が高い高歪み値合成単位の高歪み値属性値と、当該高歪み値属性値と対応する歪み値が示された収録重要度リストを作成する収録重要度リスト作成部と、
収録候補テキストが記憶されている収録候補テキスト記憶部と、
前記収録候補テキストから、前記歪み値の降順に、前記高歪み値属性値を多く含む収録テキストから順番に取り出し、出力する収録テキスト決定部と、を具備する収録テキスト生成装置。
請求項１記載の収録テキスト生成装置であって、
更に、
前記合成音声および前記大規模音声データに対し、話者正規化を行うことで、話者正規化済合成音声および話者正規化済大規模音声データを求める話者正規化部を有し、
前記対象検索部は、前記共通テキストと対応する音声データを前記大規模音声データから取り出し、照合音声として求めるものであり、
前記歪み計算部は、前記話者正規化済合成音声と前記照合音声との歪み値を合成単位ごとに計算するものであることを特徴とする収録テキスト生成装置。
請求項１または２に記載の収録テキスト生成装置であって、
前記大規模テキストは、前記大規模音声データの音声を書き起こしたものであることを特徴とする収録テキスト生成装置。
音声データベース記憶部に記憶されている音声データベースを用いて合成対象テキストに含まれる各テキストについて音声合成を行うことで、合成音声を出力する合成過程と、
大規模テキスト記憶部に記憶されている大規模テキストから前記合成対象テキストを検索し、検索された共通テキストと対応する音声データを前記大規模テキストに対応する大規模音声データから取り出し、照合音声として求める対象検索過程と、
前記合成音声と前記照合音声との歪み値を合成単位ごとに計算する歪み計算部と、
予め定められた閾値より歪み値が高い高歪み値合成単位の高歪み値属性値と、当該高歪み値属性値と対応する歪み値が示された収録重要度リストを作成する収録重要度リスト作成過程と、
収録候補テキストが記憶されている収録候補テキスト記憶過程と、
収録候補テキスト記憶部に記憶されている前記収録候補テキストから、前記歪み値の降順に、前記高歪み値属性値を多く含む収録テキストから順番に取り出し、出力する収録テキスト決定過程と、を具備する収録テキスト生成方法。
請求項１〜３何れかに記載の収録テキスト生成装置としてコンピュータを動作させるプログラム。