JP5155836B2 - 収録テキスト生成装置、その方法、そのプログラム - Google Patents

収録テキスト生成装置、その方法、そのプログラム Download PDF

Info

Publication number
JP5155836B2
JP5155836B2 JP2008307679A JP2008307679A JP5155836B2 JP 5155836 B2 JP5155836 B2 JP 5155836B2 JP 2008307679 A JP2008307679 A JP 2008307679A JP 2008307679 A JP2008307679 A JP 2008307679A JP 5155836 B2 JP5155836 B2 JP 5155836B2
Authority
JP
Japan
Prior art keywords
text
speech
scale
distortion value
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008307679A
Other languages
English (en)
Other versions
JP2010134040A (ja
Inventor
孝 中村
昇 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008307679A priority Critical patent/JP5155836B2/ja
Publication of JP2010134040A publication Critical patent/JP2010134040A/ja
Application granted granted Critical
Publication of JP5155836B2 publication Critical patent/JP5155836B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

この発明は、テキスト音声合成技術で用いる音声データベースに追加収録する収録テキストを生成する収録テキスト生成装置、当該収録テキストの音声データを音声データベースに追加収録する音声データベース生成装置、それらの方法、それらのプログラムに関する。
従来の音声合成技術において、超大規模記憶装置の安価な供給、計算機の計算処理能力の急速な向上により、数時間から数十時間の音声を収録し、記憶装置に記憶しておくことが可能になった。これにより、事前に収録した音声をデータベース化して記憶装置に記憶し、ユーザが合成したいテキスト・韻律情報に応じて、記憶装置に記憶した音声データを適切に選択し接続することで、高品質な合成音声を出力可能な音声合成方式が開発されている(例えば、特許文献1参照)。
特許第2761552号明細書
この方式においては、データベース化した音声以外の声質を持った音声は出力できないため、任意の声質を持つ音声を合成した場合は、声質ごとの音声を収録しデータベース化する必要がある。
収録した音声データをデータベース化するには、合成単位ごとにセグメンテーションするなどの作業を要するために、短時間、低コストで音声データベースを構築することは、大きな課題である。なお、ここでいう合成単位とは、音声合成システムで用いる音声を表現するための最小の構成単位、又はその組み合わせを表すものとし、システムの構成により異なるものとする。例えば、音素、半音素、diphne、モーラ等がある。
また、上記従来の技術では、少量の音声データから構築した音声データベースを用いて音声を合成した場合に、音声を合成するのに必要な音声データに不足ができる可能性が高くなり、合成音声の品質が高品質でない可能性がある。その際に、既存の音声データベースに対し追加で音声を収録することで音声合成の品質を向上させたい場合がある。しかし、追加する音声データベースそのものが大規模になってしまう場合、音声収録およびデータベース構築に大きなコストを要してしまう。
また従来技術では、追加する音声データを言語的なバリエーション(カバレッジなど)の向上という観点で決定するものであるが、これでは平均的なデータを集めようとするばかりで、必ずしも合成音声品質の向上に結びつくとは限らない。
この発明は、追加する音声データをできるだけ少量にしつつ、できるだけ音声品質を向上させる収録テキスト生成装置、音声データベース生成装置である。
この発明の収録テキスト生成装置は、音声データベース記憶部と、合成部と、大規模音声データ記憶部と、大規模テキスト記憶部と、対象検索部と、歪み計算部と、収録重要度リスト作成部と、収録候補テキスト記憶部と、収録テキスト決定部と、を具備する。音声データベース記憶部には、音声データベースが記憶されている。合成部は、音声データベースを用いて合成対象テキストに含まれる各テキストについて音声合成を行うことで、合成音声を出力する。大規模音声データ記憶部には、大規模音声データが記憶されている。大規模テキスト記憶部には、大規模音声データに対応する大規模テキストが記憶されている。対象検索部は、大規模テキストから合成対象テキストを検索し、検索された共通テキストと対応する音声データを大規模音声データから取り出し、照合音声として求める。歪み計算部は、合成音声と照合音声との歪み値を合成単位ごとに計算する。収録重要度リスト作成部は、予め定められた閾値より歪み値が高い高歪み値合成単位の高歪み値属性値が示された収録重要度リストを作成する。収録候補テキスト記憶部には、収録候補テキストが記憶されている。収録テキスト決定部は、収録候補テキストから、高歪み値属性値を含む収録テキストを取り出し、出力する。
この発明のテキスト生成装置により出力された収録テキストの音声データを、補強対象である音声データベースに対して追加収録する(補強する)ことで、当該追加する音声データをできるだけ少量にでき、かつ、補強後の音声データベースを用いた音声合成による合成音声の品質を効果的に向上させることができる。
以下に、発明を実施するための最良の形態を示す。なお、同じ機能を持つ構成部や同じ処理を行う過程には同じ番号を付し、重複説明を省略する。
図1、図2に、収録テキスト生成装置100の機能構成例を示し、図3に処理フローを示す。音声データベース記憶部2には、補強対象である音声データベース(複数の音素片)が記憶されており、合成対象テキスト記憶部4には、合成対象テキストが記憶されている。合成対象テキストは、任意のテキストでよい。
合成部6は、音声データベースを用いて合成対象テキストに含まれる各テキストについて音声合成を行うことで、合成音声を出力する(ステップS2)。音声合成の手法は、如何なるものであってもよい。例えば、波形接続音声合成技術を用いる場合、入力されたテキストに対し、形態素解析、アクセント付与を行い、韻律を付与し、音声データベース上から付与された発音、韻律に適合する音声素片を選択し、適切に接続することで合成音声を作成できる。作成された合成音声は、一旦、合成音声記憶部8に記憶され、話者正規化部10に入力される。
一方、大規模音声データ記憶部12には、大規模な音声データである大規模音声データが記憶されている。大規模音声データは如何なるものであってもよいが、合成音声と同一言語であることが必要であり、デジタルデータであること、性別や話者を識別できること、非音声の雑音が少ないことが望ましい。そして、大規模テキスト記憶部14には、大規模音声データに対応する大規模テキストが記憶されている。ここで、大規模テキストは大規模音声データを書き起こしたものであることが好ましい。理由は後ほど説明する。
話者正規化部10は、合成音声および大規模音声データに対し、話者正規化を行うことで、話者正規化済合成音声および話者正規化済大規模音声データを求める(ステップS6)。具体的には、話者正規化部10は、話者性成分を計算し、正規化を行う。話者正規化を行う理由は、合成音声と大規模音声データの話者間、録音した空間、収録機器の違いなどを正規化するためである。話者性の定義、及び正規化手法は如何なるものであってもよい。例えば、CMN法(Cepstral Mean Normalization ケプストラム平均正規化)を用いる場合、話者性をケプストラム系列の各次元ごとの長時間平均を定義し、ケプストラムの長時間平均を減算することで正規化する。また、VTLN法(vocal tract length normalization 声道長正規化)を用いる場合には、話者性を声道長を表現する周波数軸変換関数と定義し、変換係数の正規化により話者正規化を行う。
対象検索部20は、大規模テキストから合成対象テキストを検索する。検索された合成対象テキストを共通テキストとし、対象検索部20は、当該共通テキストと対応する音声データを話者正規化済大規模音声データから取り出す(ステップS6)。取り出した音声データを照合音声とする。詳細に説明すると、大規模テキストから合成対象テキストを検索し、合成対象テキストを含む音声データを話者正規化済音声データから取り出す。次に、その音声データから合成対象テキストと一致する音声を照合する。当該照合の範囲について、合成音声の中でどの音声単位を照合範囲とするかは問わない。例えば、1文全てであっても良いし、無音で区切られたどの区間(ポーズ句)であっても良いし、1つのアクセント句であっても良い。照合をとる手法は如何なるものであっても良い。例えば、DPマッチング(動的計画法:Dynamic Programing)を用いても良いし、話者正規化済み音声データから取り出した音声データを音声認識して(テキスト出力して)、テキスト上での照合を行っても良い。対象検索部20の処理を換言すると、話者正規化済合成音声と発生系列が一致する音声を話者正規化済大規模音声データから照合し、その結果を照合音声として出力する。
歪み計算部24は、話者正規化済合成音声と照合音声との歪み値を合成単位ごとに計算する(ステップS8)。歪み値計算部24から出力される情報を歪み値系列情報とする。ここで合成単位とは、音素、半音素、diphone、モーラなどである。歪み値とは、話者正規化済合成音声の各合成単位を、照合音声の各合成音声と比べて、歪んでいる度合いを示すものである。歪み値の計算手法として、例えば、時間軸上において振幅や位相などの音声情報の距離を用いてもよい。その他の手法としてはFFTなどを用いて周波数領域に変換し、周波数軸上でのケプストラムのユークリッド距離などの尺度を用いてもよい。図4に、合成対象テキストの一文が「お元気ですか」の場合の、歪み値系列情報の例を示す。四角で囲っている部分については、後ほど説明する。図4の例では、行Aに「お元気ですか」のテキストが示され、行Bには、当該テキストの合成単位が示されている、この例では、行Bの合成単位は音素とする。もし合成単位がモーラである場合には、「お」「げ」「ん」「き」「で」「す」「か」となる。また、行Cには各合成単位ごとに属性値が示される。
ここで、属性値とは、合成単位に対して詳細な情報(以下、「合成単位情報」という。)を付加したものである。例えば、合成単位が音素である場合には、図4に示すように属性値を、例えば合成単位情報として前後の音素を付加することで、前後環境付き音素(トライフォン)とすればよい。また、合成単位情報として、当該音素が単語のどのあたりに位置するか(つまり、単語の最初に位置するか、最後の方に位置するか等)の情報を付加して、属性値としてもよい。合成単位情報はこれらに限られない。また合成単位情報を付加せずに、属性値を合成単位そのものとしてもよい。図4の例では、属性値は、前後環境付き音素(トライフォン)であることから、例えば「元」の合成単位(音素)「g」の属性値は「o−g+e」である。また、図4の例では音素x、y、zについて「x−y+z」は「音素yの前に音素xがあり、音素yの後に音素zがある」ことを示している。
行Dには、合成単位(属性値)と対応付けられて歪み値が示される。歪み値とは、実際の発声(つまり、話者正規化済大規模音声データ)との歪みの度合いを表していることから、歪み値が高い合成単位とは、音声データベース中の合成単位のうち脆弱性が高い合成単位といえる。歪み値系列情報は、図4では、テキスト(行A)、合成単位(行B)、属性値(行C)、歪み値(行D)が示されているが、少なくとも、歪み値は属性値と対応付けられたものであればよい。出力された歪み値系列情報は一旦、歪み値記憶部26に記憶される。
収録重要度リスト作成部28は、予め定められた閾値より歪み値が高い高歪み値合成単位の属性値が示された収録重要度リストを作成する(ステップS10)。図5に歪み値系列情報が図4である場合の収録重要度リストの一例を示す。詳細に説明すると、まず、収録重要度リスト作成部28は、入力された歪み値系列情報に示されている歪み値と予め定められた閾値αとを比較して、閾値αよりも高い歪み値が高い合成単位を決定する。つまり、音声合成処理における脆弱性の高い、音声データベース中の音声データの合成単位を検出していることと同義である。従って、歪み値とは、音声データベースの補強の重要性(優先度)を示す重要度ともいえる。この決定された合成単位を高歪み値合成単位とし、高歪み値合成単位の属性値を高歪み値属性値とする。
図4の例では、閾値αを30とすると、図4で四角で囲っているとおり、「お元気ですか」の「元」に含まれる合成単位(音素)「e」と(歪み値35)、「で」に含まれる合成単位(音素)「e」と(歪み値31)、「す」に含まれる合成単位(音素)「u」と(歪み値32)、の歪み値が閾値α(=30)を超えているため、これら3つの合成単位を高歪み値合成単位として決定する。そして、列Aに高歪み値属性値が示され、列Bに、高歪み値属性値と対応する歪み値(35、31、32)が示された収録重要度リストを収録重要度リスト作成部28が作成し、出力する。収録重重要度リストは一旦、収録重要度リスト記憶部30に記憶される。
一方、収録候補テキスト記憶部32には、収録候補となるテキストである収録候補テキストが記憶されている。収録候補テキストは例えば、ウェブ上のテキストから収集できる。
収録テキスト決定部34は、収録候補テキストから、高歪み値属性値を含む収録テキストを取り出し、出力する(ステップS12)。また、収録テキスト決定部34は、歪み値の降順に、高歪み値属性値を含む収録テキストを取り出すことが好ましい。つまり、収録テキスト決定部34は、歪み値が高い高歪み値属性値を含む収録テキストから順番に取り出すものであることが好ましい。何故なら、上述の通り、歪み値というのは、合成単位の脆弱性を示すものであり、脆弱性が高い合成単位(属性値)から優先的に補強することで、収録テキストの量を軽減でき、より低コストで音声データベースを構築(補強)できるからである。また、歪み値に応じた点数を付加し、当該点数の最も高いものから収録テキストを取り出すようにしても良い。
図5の例では、高歪み値属性値は、「g−e+n」、「d−e+s」、「s−u+k」であり、収録テキスト決定部34は、これら3つの高歪み値属性値を含むテキストを収録候補テキスト記憶部32から取り出す。図6に、収録テキスト決定部34が高歪み値属性値を含むテキストを取り出す際の、一例を示す。図6では、収録候補テキストが「威厳のある芸術家を迎賓館で招く。」「あっという間にゲームセットだ。」「現実的な攻撃方法で限定せよ。」の3テキストである場合を示す。これら3テキストをそれぞれテキストA〜Cとする。まず、収録テキスト決定部34は、これら3テキストについて、収録重要度リスト中の高歪み値属性値と同一の属性値について求める。この例では、収録重要度リストの高歪み値属性値は、前後環境付き音素(トライフォン)であるので、これら3文に対して、前後環境付き音素(トライフォン)を求める。文A〜Cの前後環境付き音素をそれぞれ、図6に示すように、前後環境付き音素列a〜cとする。例えば、前後環境付き音素列aは、「♯−i+g」「i−g+e」「g−e+n」「e−n+n」・・・になる。そして、収録テキスト決定部34は、求めた前後環境付き音素列a〜cに対し、高歪み値属性値「g−e+n」が存在する個数を求める。図6に示すように、前後環境付き音素列aでは、属性値「g−e+n」の数は1個であり、前後環境付き音素列bでは、高歪み値属性値「g−e+n」の数は0個であり、前後環境付き音素列cでは、高歪み値属性値「g−e+n」の数は2個である。収録テキスト決定部34は高歪み値属性値を多く含む収録テキストから順番に取り出すことが好ましい。何故なら、高歪み値属性値を多く含む収録テキストを用いることで、収録テキストの数を少なくすることができ、結果として、音声データベース構築の低コスト化を図れるからである。この例では、高歪み値属性値「g−e+n」を2個含むテキストC、「g−e+n」を1個含むテキストAの順番で、収録テキスト決定部34はテキストA、Cを取り出す。また、「g−e+n」を含まないテキストBについては、除外する。
そして、合成対象テキスト中の全てのテキストに対して処理をしたか否かが判断され(ステップS14)、全て終了すると、収録テキストは出力され(ステップS16)、収録テキスト記憶部36に記憶される。そして、記憶された収録テキストについては、人間が当該収録テキストを読み上げ、録音することで、音声データ(以下、「収録音声データ」という。)に変換して、音声データベース記憶部2に追加収録させる。読み上げる人間は音声データベースの音声の人間と同一人物であることが望ましいが、違う人間が読み上げて公知技術である声質変動技術などを用いて、音声データベースの声質と同一の声質に変動させ、追加収録音声としてもよい。このように人間が読み上げることで、出力された収録テキストを正確に音声データベース記憶部2に反映させることができる。また、収録テキストを音声変換部38(破線で示す)で、収録音声データに変換し、声質変動術を用いて音声データベースと同一の声質に変動させ、音声データベース記憶部2に追加収録させてもよい。この場合には、音声データベースの補強処理を自動化できる。収録テキスト生成装置100に音声変換部38を付加したものを音声データベース生成装置200とする。
このように、音声データベースが持つ脆弱性(歪み値)を歪み計算部24で求め、歪み値の高い合成単位(属性値)を含む収録テキストを元に音声データを音声データベース記憶部2に追加する。従って、音声データベースの脆弱な部分のみを補強することになり、結果として音声データベース追加する音声データをできるだけ少量にでき、かつ追加後の音声データベースを用いた音声合成による合成音声の音質を効果的に向上させることが出来る。
また、大規模音声データ記憶部12中の大規模音声データと、合成音声記憶部8中の合成音声について、話者正規化部10による話者正規化する必要がない場合がある。例えば、合成音声と大規模音声データの話者間、録音した空間、収録機器の違いなどがない場合には、話者正規化部10は無くても良い。この場合、対象検索部20は、共通テキストと対応する音声データを大規模音声データ記憶部12中の大規模音声データから取り出す。また、歪み計算部24は、照合音声と合成音声記憶部8中の合成音声とで、歪み値を計算する。
また、収録テキスト決定部34が、歪み値が高い高歪み値属性値を含む収録テキストから順番に取り出すものではない場合がある。例えば、高歪み値属性値を含む収録テキストを均一に取り出す場合である。この場合には、収録重要度リスト(図5参照)には、歪み値を示す必要はない。
また、収録重要度リストにおいて、属性値を合成単位そのものとする場合(図5の例では、属性値「g−e+n」を「e」とし、属性値「d−e+s」を「e」とし、属性値「s−u+k」を「u」とする場合)には、高歪み値合成単位を示す必要はない。
また、大規模テキストは大規模音声データを書き起こしたものであることが好ましい。何故なら、大規模テキストと大規模音声データとが完全に対応するものとなり、対象検索部20の照合音声を求める処理がより正確に行われるようになるからである。
<ハードウェア構成>
本発明は上述の実施の形態に限定されるものではない。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、収録テキスト生成装置100が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
また、本実施例で説明した収録テキスト生成装置100は、CPU(Central Processing Unit)、入力部、出力部、補助記憶装置、RAM(Random Access Memory)、ROM(Read Only Memory)及びバスを有している(何れも図示せず)。
CPUは、読み込まれた各種プログラムに従って様々な演算処理を実行する。補助記憶装置は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、RAMは、SRAM(Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等である。また、バスは、CPU、入力部、出力部、補助記憶装置、RAM及びROMを通信可能に接続している。
<ハードウェアとソフトウェアとの協働>
本実施例の単語追加装置は、上述のようなハードウェアに所定のプログラムが読み込まれ、CPUがそれを実行することによって構築される。以下、このように構築される各装置の機能構成を説明する。
収録テキスト生成装置100の合成部6、話者正規化部10、対象検索部20、歪み値計算部24、収録重要度リスト作成部28、収録テキスト決定部34は、所定のプログラムがCPUに読み込まれ、実行されることによって構築される演算部である。収録テキスト生成装置100の各記憶部は上記補助記憶装置として機能する。
本実施例の収録テキスト生成装置、音声データベース生成装置の前半部分の機能構成例を示したブロック図。 本実施例の収録テキスト生成装置、音声データベース生成装置の後半部分の機能構成例を示したブロック図。 本実施例の収録テキスト生成装置の処理フローを示した図。 本実施例の歪み値系列情報を示した図。 本実施例の収録重要度リストを示した図。 収録テキストを取り出す際の例を示した図。

Claims (5)

  1. 音声データベースが記憶されている音声データベース記憶部と、
    前記音声データベースを用いて合成対象テキストに含まれる各テキストについて音声合成を行うことで、合成音声を出力する合成部と、
    大規模音声データが記憶されている大規模音声データ記憶部と、
    前記大規模音声データに対応する大規模テキストが記憶されている大規模テキスト記憶部と、
    前記大規模テキストから前記合成対象テキストを検索し、検索された共通テキストと対応する音声データを前記大規模音声データから取り出し、照合音声として求める対象検索部と、
    前記合成音声と前記照合音声との歪み値を合成単位ごとに計算する歪み計算部と、
    予め定められた閾値より歪み値が高い高歪み値合成単位の高歪み値属性値と、当該高歪み値属性値と対応する歪み値が示された収録重要度リストを作成する収録重要度リスト作成部と、
    収録候補テキストが記憶されている収録候補テキスト記憶部と、
    前記収録候補テキストから、前記歪み値の降順に、前記高歪み値属性値を多く含む収録テキストから順番に取り出し、出力する収録テキスト決定部と、を具備する収録テキスト生成装置。
  2. 請求項1記載の収録テキスト生成装置であって、
    更に、
    前記合成音声および前記大規模音声データに対し、話者正規化を行うことで、話者正規化済合成音声および話者正規化済大規模音声データを求める話者正規化部を有し、
    前記対象検索部は、前記共通テキストと対応する音声データを前記大規模音声データから取り出し、照合音声として求めるものであり、
    前記歪み計算部は、前記話者正規化済合成音声と前記照合音声との歪み値を合成単位ごとに計算するものであることを特徴とする収録テキスト生成装置。
  3. 請求項1または2に記載の収録テキスト生成装置であって、
    前記大規模テキストは、前記大規模音声データの音声を書き起こしたものであることを特徴とする収録テキスト生成装置。
  4. 音声データベース記憶部に記憶されている音声データベースを用いて合成対象テキストに含まれる各テキストについて音声合成を行うことで、合成音声を出力する合成過程と、
    大規模テキスト記憶部に記憶されている大規模テキストから前記合成対象テキストを検索し、検索された共通テキストと対応する音声データを前記大規模テキストに対応する大規模音声データから取り出し、照合音声として求める対象検索過程と、
    前記合成音声と前記照合音声との歪み値を合成単位ごとに計算する歪み計算部と、
    予め定められた閾値より歪み値が高い高歪み値合成単位の高歪み値属性値と、当該高歪み値属性値と対応する歪み値が示された収録重要度リストを作成する収録重要度リスト作成過程と、
    収録候補テキストが記憶されている収録候補テキスト記憶過程と、
    収録候補テキスト記憶部に記憶されている前記収録候補テキストから、前記歪み値の降順に、前記高歪み値属性値を多く含む収録テキストから順番に取り出し、出力する収録テキスト決定過程と、を具備する収録テキスト生成方法。
  5. 請求項1〜何れかに記載の収録テキスト生成装置としてコンピュータを動作させるプログラム。
JP2008307679A 2008-12-02 2008-12-02 収録テキスト生成装置、その方法、そのプログラム Expired - Fee Related JP5155836B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008307679A JP5155836B2 (ja) 2008-12-02 2008-12-02 収録テキスト生成装置、その方法、そのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008307679A JP5155836B2 (ja) 2008-12-02 2008-12-02 収録テキスト生成装置、その方法、そのプログラム

Publications (2)

Publication Number Publication Date
JP2010134040A JP2010134040A (ja) 2010-06-17
JP5155836B2 true JP5155836B2 (ja) 2013-03-06

Family

ID=42345411

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008307679A Expired - Fee Related JP5155836B2 (ja) 2008-12-02 2008-12-02 収録テキスト生成装置、その方法、そのプログラム

Country Status (1)

Country Link
JP (1) JP5155836B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6170384B2 (ja) * 2013-09-09 2017-07-26 株式会社日立超エル・エス・アイ・システムズ 音声データベース生成システム、音声データベース生成方法、及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008056604A1 (fr) * 2006-11-06 2008-05-15 Nec Corporation Système de collecte de son, procédé de collecte de son et programme de traitement de collecte

Also Published As

Publication number Publication date
JP2010134040A (ja) 2010-06-17

Similar Documents

Publication Publication Date Title
US11605371B2 (en) Method and system for parametric speech synthesis
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
JP4213755B2 (ja) 音声翻訳装置、方法およびプログラム
US6961705B2 (en) Information processing apparatus, information processing method, and storage medium
US20080177543A1 (en) Stochastic Syllable Accent Recognition
US20080243508A1 (en) Prosody-pattern generating apparatus, speech synthesizing apparatus, and computer program product and method thereof
JP5175325B2 (ja) 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
US20080288256A1 (en) Reducing recording time when constructing a concatenative tts voice using a reduced script and pre-recorded speech assets
US20100250254A1 (en) Speech synthesizing device, computer program product, and method
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
JP6680933B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP2009128490A (ja) 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体
Gutkin et al. Building statistical parametric multi-speaker synthesis for bangladeshi bangla
Bernard et al. Shennong: A Python toolbox for audio speech features extraction
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP5155836B2 (ja) 収録テキスト生成装置、その方法、そのプログラム
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP5840075B2 (ja) 音声波形データベース生成装置、方法、プログラム
EP1589524B1 (en) Method and device for speech synthesis
JP2014228580A (ja) 音声モデル生成装置、方法、プログラム
US12020687B2 (en) Method and system for a parametric speech synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110228

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120710

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121207

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5155836

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees