JP2004138661A

JP2004138661A - 音声素片データベース作成方法、音声合成方法、音声素片データベース作成装置、音声合成装置、音声データベース作成プログラム、音声合成プログラム

Info

Publication number: JP2004138661A
Application number: JP2002300714A
Authority: JP
Inventors: Hideyuki Mizuno; 水野　秀之; Masanobu Abe; 阿部　匡伸; Osamu Mizuno; 水野　理
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-10-15
Filing date: 2002-10-15
Publication date: 2004-05-13
Anticipated expiration: 2022-10-15
Also published as: JP3981619B2

Abstract

【課題】言語的及び音響的にも重要な言いまわしのテキスト表現に対して高品質な合成音声が生成可能な音声素片データベースを作成する。
【解決手段】音声素片を接続して入力された文章に対応する音声を合成する際の音声素片を記録した音声素片データベースを作成する音声素片データベース作成方法において、テキストデータベース中の各テキストから各テキストの形態素解析処理と韻律推定により音韻系列及びピッチパターン、テンポ、ポーズ等の韻律的な特徴量を推定する韻律解析過程と、音韻系列及び韻律特徴量によって各テキストの音響的重要度を求め、言語的重要文と一致しない音響的重要度の高い音響的重要度文を抽出する音響的重要文抽出過程と、言語的重要文と音響的重要文に対応した音声収録する音声収録過程と、音声収録過程で収録した音声データに音韻ラベルを付し、音声素片データベースに記録するデータベース記録過程とを有することを特徴とする。
【選択図】　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声合成方法に用いる音声素片データベースの作成方法、この音声素片データベース作成方法で作成した音声素片データベースを用いて音声合成を実行する音声合成方法及び装置、プログラムに関する。
【０００２】
【従来の技術】
従来の音声合成技術において、近年では大容量な記憶装置の使用コストの低下と計算機の計算能力の向上に伴って、数十分から数時間に及ぶ音声をそのまま大容量の記憶装置に蓄積しておき、入力されたテキスト及び韻律情報に応じて音声データから音声素片を適切に選択し、そのまま接続するか又は韻律情報に応じてそれらを変形して接続することで高品質な音声を合成する音声合成方法が提案されている（特許文献１、非特許文献１）。
しかしながら、いかに大容量の記憶装置に数時間に及ぶ音声データを蓄積することが可能になったとしても、音声を録音しかつ音声合成に利用できるように音声素片としてセグメンテーションするなどにより音声データベースとして整備する必要があるため、そのための時間的、費用的なコストから現実的に集めることが可能な音声の量は決まってくるため、高品質な合成音声のためにいかに短期間に小コストで音声を収集するかというのは大きな課題であった。
【０００３】
そのため、入力テキストを音声合成する際に使用すべき音声素片が収録されている確率が音響的に見て最大となるように音声データベースを設計する方法（非特許文献２）や、合成処理による劣化を避けるため同一内容の発声を韻律的に多重化する方法（非特許文献３）などが提案されている。
その他の公知文献として、
基本周波数パターンを精密に決定することができる音声基本周波数パターン生成装置に関しては例えば（特許文献２）に記載されている。
更に、合成音声パワーを効率よく、しかも精度良く制御でき、波形構成型の音声合成方式など、肉声に近い品質の合成音を得ることが可能な音声合成方法に関しては（特許文献３）に記載されている。
【０００４】
更に、文法を殆ど知らないユーザでも書き換えのための経験則がなくても、なるべくそのままの形で簡単に記述でき、更に、経験則の追加や削除を容易に行うことが可能な文章書き換え方法に関しては（特許文献４）に記載されている。
更に、重要文の摘出手法としては、特に知識（辞書）を用いないＬｅａｄ法や単語の出現頻度に基づく手法が（非特許文献４）に記載されている。また、テキスト構造に基づく手段が（非特許文献５）に記載されている。また、、機械学習の１手法であるＳｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ（以下ＳＶＭと表記）に基づく重要文の摘出手法が（非特許文献６）に記載されている。
更に、意味的に重要な単語の分類については（非特許文献７）に記載されている。
更に、テキストから音韻系列、ピッチパターン、音韻長等の音韻情報及び音韻情報を求める手法は（非特許文献８）に記載されている。
更に、統計的言語モデルに関しては（非特許文献９）記載されている。
【０００５】
【特許文献１】
特許第２７６１５５２号明細書
【特許文献２】
特開平５−８８６９０号公報
【特許文献３】
特開平６−９５６９６号公報
【特許文献４】
特開２０００−５７１４２公報
【非特許文献１】
Ｍ．Ｂｅｕｔｎａｇｅｌ，Ａ．Ｃｏｎｋｉｅ，Ｊ．Ｓｃｈｏｒｏｅｔｅｒ，Ｙ．Ｓｔｙｌｉａｎｏｕ，ａｎｄ　Ａ．Ｓｙｄｒａｌ，“Ｃｈｏｏｓｅ　ｔｈｅ　ｂｅｓｔ　ｔｏ　ｍｏｄｉｆｙ　ｔｈｅ　ｌｅａｓｔ：Ａ　ｎｅｗ　ｇｅｎｅｒａｔｉｏｎ　ｃｏｎｃａｔｅｎａｔｉｖｅ　ｓｙｎｔｈｅｓｉｓ　ｓｙｓｔｅｍ”，Ｐｒｏｃ．Ｅｕｒｏｓｐｅｅｃｈ’９９，
【非特許文献２】
Ｃｈｕ，Ｍ．，Ｙａｎｇ，Ｈ．ａｎｄ　Ｃｈａｎｇ，Ｅ．，“Ｓｅｌｅｃｔｉｎｇ　Ｎｏｎ−ｕｎｉｆｏｒｍ　Ｕｎｉｔｓ　Ｆｒｏｍ　ａ　Ｖｅｒｙ　Ｌａｒｇｅ　Ｃｏｒｐｕｓ　ｆｏｒ　Ｃｏｎｃａｔｅｎａｔｉｖｅ　Ｓｐｅｅｃｈ　Ｓｙｎｔｈｅｓｉｚｅｒ”，ＩＣＡＳＳＰ　２００１，Ｖｏｌ．２，ＳＰＥＥＣＨ−Ｌ２．２，２００１．
【非特許文献３】
枡田他、“韻律的に多重なデータベースの設計と評価”、音響学会講演論文集、ｐｐ．２９１−２９２、２００１
【非特許文献４】
Ｅｄｍｕｎｄｓｏｎ，Ｈ．１９６９．Ｎｅｗ　ｍｅｔｈｏｄｓ　ｉｎ　ａｕｔｏｍａｔｉｃ　ａｂｓｔｒａｃｔｉｎｇ￥　Ｊｏｕｒｎａｌ　ｏｆ　ＡＣＭ，１６（２），２６４−２８５，Ｚｅｃｈｎｅｒ，Ｋ．１９９６．Ｆａｓｔ　Ｇｅｎｅｒａｔｉｏｎ　ｏｆ　Ａｂｓｔｒａｃｔｓ　ｆｒｏｍ　Ｇｅｎｅｒａｌ　Ｄｏｍａｉｎ　Ｔｅｘｔ　Ｃｏｒｐｏｒａ　ｂｙ　Ｅｘｔｒａｃｔｉｎｇ　Ｒｅｌｅｖａｎｔ　Ｓｅｎｔｅｎｃｅｓ￥　Ｉｎ　Ｐｒｏｃ．ｏｆ　ｔｈｅ　１６ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓｔｉｃｓ，９８６−９８９
【非特許文献５】
Ｍｉｉｋｅ，Ｓ．，Ｉｔｏｈ，Ｅ．，Ｏｎｏ，Ｋ．，Ｓｕｍｉｔａ，Ｋ．１９９４．Ａ　ｆｕｌｌ−ｔｅｘｔ　Ｒｅｔｒｉｅｖａｌ　Ｓｙｓｔｅｍ　ｗｉｔｈ　ａ　Ｄｙｎａｍｉｃ　Ａｂｓｔｒａｃｔ　Ｇｅｎｅｒａｔｉｏｎ　Ｆｕｎｃｔｉｏｎ￥　Ｉｎ　Ｐｒｏｃ．ｏｆ　ｔｈｅ　１７ｔｈ　Ａｎｎｕａｌ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　ＡＣＭ−ＳＩＧＩＲ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｒｅｓｅａｒｃｈ　ａｎｄ　Ｄｅｖｅｌｏｐｍｅｎｔ　ｉｎ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｒｅｔｒｉｅｖａｌ，１５２−１６１
【非特許文献６】
平尾、前田、松本、“Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅによる重要文抽出”、情処研報、２００１−Ｆｉ−６３，Ｖｏｌ．２００１，Ｎｏ．７４，ｐｐ．１２１−１２７
【非特許文献７】
日本語語彙体系（ＮＴＴコミュニケーション科学研究所監修：日本語語彙体系、岩波書店、１９９９）
【非特許文献８】
電子通信学会論文誌“規則による音声合成のための音韻時間長制御”、匂坂他、Ｖｏｌ．６７−Ａ，６２９−６３６（１９８４）
【非特許文献９】
北　研二、“確率的言語モデル”、東京大学出版会、１９９９．ｐ．２４
【０００６】
【発明が解決しようとする課題】
前述した従来の音響的・韻律的な面から音声データベースを設計する方法では、言語的な面で見たときに重要な単語や言いまわしに対する考慮が全くないため、心理的に非常に重要な音響を与える意味的に重要な単語や意味的なまとまりをもつ言いまわしを収録できる保証は全く無い。
そのため、前記手法に基づく収録リストに基づいて音声を収録した場合は、前記収集した音声を利用した音声合成において、音響面や韻律面というミクロで見て平均的には高品質な合成音を実現可能とは言えるものの、言語的に重要な部分において高品質な合成音が実現できない場合があり、実際の音声によるコミュニケーションという意味において問題があった。
【０００７】
また、言語が持つ表層的な文字表現の多様性を考慮すると、音響面・韻律面から統計的な情報だけで音声を収録することは、一般的な表現形式のみを重視する傾向があり、いかなる表現に対しても高品質な合成音声を生成することを保証することはほぼ不可能と言えた。
この発明の目的は、いかなる表現に対しても高品質な合成音声を生成することを保証することができる音声素片データベース作成方法、この音声素片データベースを用いた音声合成方法、音声素片データベース作成装置、音声合成装置、音声素片データベース作成プログラム、音声合成プログラムを提案しようとするものである。
【０００８】
【課題を解決するための手段】
この発明では更に音声素片を接続して入力された文章に対応する音声を合成する際の音声素片を記録した音声素片データベースを作成する音声素片データベース作成方法において、テキストデータ格納したテキストデータベースにおいて、各テキストの言語的重要度を求め言語的重要度の高い言語的重要文を抽出する言語的重要文抽出過程と、テキストデータベース中の各テキストから各テキストの形態素解析処理と韻律推定により音韻系列及びピッチパターン、テンポ、ポーズ等の韻律的な特徴量を推定する韻律解析過程と、音韻系列及び韻律特徴量によって各テキストの音響的重要度を求め、言語的重要文と一致しない音響的重要度の高い音響的重要度文を抽出する音響的重要文抽出過程と、言語的重要文と音響的重要文に対応した音声収録する音声収録過程と、音声収録過程で収録した音声データに音韻ラベルを付し、音声素片データベースに記録するデータベース記録過程とを有する音声素片データベース作成方法を提案する。
【０００９】
この発明では更に音声素片を接続して入力された文章に対応する音声を合成する際の音声素片を記録した音声素片データベースを作成する音声素片データベース作成方法において、テキストデータを格納したテキストデータベースにおいて、各テキストの表現を言い換え処理により意味的に等価な別の表現に変換する言い換え過程と、言い換え過程により言い換えられたテキストから、各テキストの言語的重要度を求め言語的重要度の高い言語的重要文を抽出する言語的重要文抽出過程と、テキストデータベース中の各テキストから各テキストの形態素解析処理と韻律推定により音韻系列及びピッチパターン、テンポ、ポーズ等の韻律的な特徴量を推定する韻律解析過程と、音韻系列及び韻律特徴量によって各テキストの音響的重要度を求め、言語的な重要文と一致しない音響的重要文を抽出する音響的重要文抽出過程と、言語的重要文と音響的重要文に対応した音声を収録する音声収録過程と、音声収録過程で収録した音声データに音韻ラベルを付し、音声素片データベースに記録するデータベース記録過程とを有する音声素片データベース作成方法を提案する。
【００１０】
この発明では更に前記音声素片データベース作成方法の何れかにより作成された音声素片データベースから複数の音声素片を選択し、選択された音声素片を接続することにより音声を合成する音声合成方法において、
入力テキストの表現を言い換え処理により意味的に等価な別の表現に変換する言い換え過程と、言い換えられたテキストを解析するテキスト解析過程と、テキスト解析過程から得られた読み、及び韻律情報に基づいて、音声素片データベースから最適な音声素片を検索し、それらの音声素片を接続することにより音声を合成する音声合成過程とを有する音声合成方法を提案する。
【００１１】
この発明では更に音声素片を接続して入力された文章に対応する音声を合成する際の音声素片を記録した音声素片データベースを作成する音声素片データベース作成装置において、テキストデータを格納したテキストデータベースにおいて、各テキストの言語的重要度を求め言語的重要度の高い言語的重要文を抽出する言語的重要文抽出手段と、テキストデータベース中の各テキストから各テキスト形態素解析処理と韻律推定により音韻系列及びピッチパターン、テンポ、ポーズ等の韻律的な特徴量を推定する韻律推定手段と、音韻系列及び韻律特徴量によって各テキストの音響的重要度を求め、前記言語的重要文と一致しない音響的重要度の高い音響的重要文を抽出する音響的重要文抽出手段と、言語的重要文と音響的重要文に対応した音声を収録する音声収録手段と、音声収録手段で収録した音声データに音韻ラベルを付し、音声素片データベースに記録するデータベース記録手段とを有する音声素片データベース作成装置を提案する。
【００１２】
この発明では更に音声素片を接続して入力された文章に対応する音声を合成する際の音声素片を記録した音声素片データベースを作成する音声素片データベース作成装置において、テキストデータを格納したテキストデータベースにおいて、各テキストの表現を言い換え処理により意味的に等価な別の表現に変換する言い換え手段と、言い換え手段により言い換えられたテキストから、各テキストの言語的重要度を求め言語的重要度の高い言語的重要文を抽出する言語的重要文抽出手段と、テキストデータベース中の各テキストからテキスト解析処理と韻律推定により音韻系列及びピッチパターン、テンポ、ポーズ等の韻律的な特徴量によって各テキストの音響的重要度を求め前記言語的な重要文と一致しない音響的重要文を抽出する音響的重要文抽出手段と、言語的重要文と音響的重要文に対応した音声を収録する音声収録手段と、音声収録手段で収録した音声データに音韻ラベルを付し、音声素片データベースに記録するデータベース記録手段とを有する音声素片データベース作成装置を提案する。
【００１３】
この発明では更に前記音声素片データベース作成装置の何れかにより作成された音声素片データベースから複数の音声素片を選択し、選択された音声素片を接続することにより音声を合成する音声合成装置において、入力テキストの表現を言い換え処理により意味的に等価な別の表現に変換する言い換え手段と、言い換えられたテキストを解析するテキスト解析手段と、テキスト解析手段から得られた読み、及び韻律情報に基づいて、音声素片データベースから最適な音声素片を検索し、それらの音声素片を接続することにより音声を合成する音声合成手段とを有する音声合成装置を提案する。
この発明では更にコンピュータが解読可能な符号によって記述され、コンピュータに請求項１又は２記載の音声素片データベース作成方法の少なくとも何れか一方を実行させる音声データベース作成プログラムを提案する。
この発明では更にコンピュータが解読可能な符号によって記述され、コンピュータに請求項３に記載の音声合成方法を実行させる音声合成プログラムを提案する。
【００１４】
作用
この発明による音声素片テキストデータベース作成方法及び装置により作成された音声素片テキストデータベースは言語的な尺度で重要なテキストに基づいて音声を収集したから、言語的に重要な言いまわしなどのテキスト表現に対して高品質な合成音声が生成可能である。更に、音響的な尺度において重要なテキストに基づいた多音声も音声素片データベースに記録したから、一般的な内容のテキストにおいても高品質な合成音声を生成することができる。
更に、音声合成の際に入力テキストを言い換え処理により意味的に等価なまま、予め決められたテキスト表現形式に変換することを前提とすることで、合成すべきテキスト表現を予め決められた表現形式にまで圧縮することが可能となる。このため、言い換え処理を行なったテキストにおいて、言語的及び音響的に重要なテキストに基づいて音声を収集し、音声素片データベースに記録することで飛躍的に音声の収集効率を上げることができる。
【００１５】
【発明の実施の形態】
図１にこの発明による音声素片データベース作成装置の一実施例を示す。この図１に示した音声素片データベース作成装置の構成及び動作をこの発明による音声素片データベース作成方法と共に説明する。
図中１はテキストデータベースを示す。このテキストデータベースには例えば日本語テキストが多量に収納されている。形態素解析手段２はテキストデータベース１から日本語テキストを取り出し、テキストの形態素解析を行ない、単語境界の決定と、単語の品詞の付与、単語の読み、アクセント等の形態素を抽出する。
【００１６】
次に、前記抽出された形態素に基づいて言語的重要文抽出手段３により言語的重要文を抽出する。言語的重要文の抽出手段としては、特に知識を用いないＬｅａｄ法や単語の出現頻度に基づく手法、（例えば非特許文献４）あるいはテキスト構造に基づく手法（例えば非特許文献５）などいろいろあるが、ここでは機械学習の１手法であるＳｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ　（以下ＳＶＭと表記）に基づく（非特許文献６に記載されている手法）を１例に説明する。
図２にＳＶＭに基づく言語的重要文抽出処理の概念図を示す。まず予めＳＶＭを学習しておく。学習過程を図２Ａに示す。始めに、ステップＳ２１−１でテキストの種別として重要文と非重要文とに分類してある学習用テキストデータを入力する。
【００１７】
次に、ステップＳ２２−１で前記の学習用テキストデータに対してテキスト属性分析処理により属性を求める。属性とは、例えば下記のようなものである。
文の位置（文章中における当該文の出現位置）、文の長さ、単語重要度の総和、キーワードの密度、固有表現の有無（固有名詞、数値等の単語の有無）、各形態素の有無（各種形態素の文中での有無）、重要単語の有無（文中に含まれる重要な単語の有無）
ここで、前記単語重要度は例えばＴＦ・ＩＤＦ法等既存の簡単な方法によるものでも求めることができる。また、前記キーワードも単語重要度の値の大きいものをキーワードとすればよく、キーワードの密度は下記のように求めることができる。
ＦＤ＝Σｗ（ｋ，１）＊ａ（ｋ）
ａ（ｋ）＝ｗ（ｔ）（単語ｔが位置ｋに出現するとき）、０（それ以外）
ｗ（ｋ，１）１を窓の中心とする窓関数ｗ（ｋ）
また意味的に重要な単語については、非特許文献７に記載されているシソーラスにおける階層の深さなどによって求めることができる。
【００１８】
次に、ステップＳ２３−１でＳＶＭにより学習を行なう。ここでいう学習とは、訓練データとして、
（ｘ１，ｙ１），・・・・・（ｘｍ，ｙｍ）ｘｉ∈Ｒｎ，ｙｉ∈［１，−１］：
ｘｉは事例ｉにおけるｎ次元の属性のベクトル、ｙｉは正例のとき１、負例のとき−１が与えられたとき、ｘｉを以下のような分離平面で正例（例えば重要文）、負例（例えば非重要文）に分類したときマージン（最も負例より正例側の境界面と最も正例よりの負例の境界面の距離）が最大となるように次式のｗとｂを決定することを意味する。
Ｗ・ｘ＋ｂ＝０，ｗ∈Ｒｎ，ｂ∈Ｒ
言語的重要文抽出処理では、前記記述したステップＳ２３−１で学習したＳＶＭを用いる。図２Ｂに抽出過程を示す。まず、ステップＳ２１−２でテキストデータベースから判別対象のテキストを取り出し、ステップＳ２２−２でテキスト属性分析処理により前記のようにテキストの属性を求める。次にステップＳ２３−２でＳＶＭ分類処理により重要文かどうかを判別する。判別方法は、前記の学習過程で求めたｗとｂを利用して下記の判別関数を構成し、
ｆ（ｘ）＝ｓｇｎ（ｗ・ｘ＋ｂ）
例えば、学習過程で、重要文を正例とした場合は、ｆ（ｘ）＝１なら重要文、−１なら非重要文として判別する。
【００１９】
重要文として判別されたテキストを重要文リストに加える。後は単純にテキストデータベースに含まれる全てのテキストを前記のように判別することで、重要文リストを取得することができる。
以上、述べたように言語的重要文を抽出し、言語的重要文リストを取得することが可能である。もちろん重要文抽出の方法は前記で述べたようにＳＶＭに基づく方法には限らない。
次に、音響的重要文抽出方法について説明する。韻律解析手段４により、テキストから音韻系列、ピッチパターン、音韻長等の音韻情報及び韻律情報を求める。これは読み・アクセント解析と韻律解析（参考文献：特許文献２、特許文献３、非特許文８）により求めることができる。次に、前記音韻情報と韻律情報に基づいて音響的統計分析手段５で音響的統計分析処理を行い音響的に異なるパターンの統計的な分析を行なう。例えば、図３に示すような音韻種別、音韻の長さ、前後の音韻環境、ピッチの高さ、音韻長といった属性で分類した音韻属性について頻度分布を求める。
【００２０】
次に、前記統計的分析により得られた結果に基づいて、音響的重要文抽出手段６で音響的重要文抽出処理を行い前記言語的重要文で抽出済みでない文を音響属性の頻度から決定しテキストの音響的重要度を決定する。具体的には音韻Ｗｉの重みを下式
Ｗｉ＝Ａｊｆ／Ｎ
Ｗ：音韻ｉの重み、Ａｊｆ：音韻Ｗｉの音韻属性Ａｊの頻度、Ｎ：全音韻属性出現数で
定義した場合、Ｌ個の音韻を含む文の音響的重要度Ｓｗは
Ｓｗ＝Σ_ｉ＝１ ^Ｌｗｉ
で求められ、音響的重要文は、前記音響的重要度で全文をソートし、既に言語的重要文として得られた分を除いて、重要度最大の文から、予め決められた全文数以内又は重要度となる文になるまでを音響的重要文として抽出し、前記言語的重要文とを併せて収録リストを収録リスト取得手段７で取得する。
【００２１】
次に、取得した収録リストに従って例えば発声者に音声を発声してもらい音声収録手段８で音声を収録する。
音声収録後、ラベリング手段９で、音声に音韻ラベルを付加すると共にその他にピッチマーク等音声合成に必要なデータを付与し、音韻ラベルが付加された音声データをデータベース記録手段１０により音声素片データベース１１に記録する。
図４乃至図６に音声素片データベース１１に記録した音声素片データの一例を示す。この例では各音声データにテキストタグを付加して記録した場合を示す。つまり音声領域データと、音声領域データの発音内容に対応した単語分類されたテキストタグデータと、各単語の形態素（品詞データ）、を各単語が発声されている音声データ中での音声データ対応位置（ｍｓ）、ラベルデータ領域等で構成される。
【００２２】
ラベルデータ領域は例えば図５に示すように音韻単位で音韻種別、前音韻環境、後音韻環境、平均周波数Ｆ_０（Ｈｚ）、平均周波数の傾斜（Ｈｚ／ｍｓ）、時間長（ｍｓ）、パワー（ｄＢ）等で構成される。
ここで音声領域データに関しては他のデータと一緒に格納するのではなく、分離して別のデータ領域に格納してもよい。テキストタグ付き音声素片データベースの他の例としては図６に示すように、音声領域データと、音声領域データの発声内容に対応して単語分類されたテキストタグデータと、形態素（品詞データ）、掛かり受けデータ、音声データ対応位置（ｍｓ）と、図５に示したラベルデータ等で構成することができる。
【００２３】
図７に本発明の音声素片データベース作成装置の他の実施例を示す。この実施例では大量のテキストデータベース１の日本語テキストからテキストを取り出し音声素片データベース作成用言い換え処理手段１２で言い換え処理を行う。ここで、言い換え処理とは、ある文の文字表現を文のもつ内容を変えずに別の文字表現に変換する処理を言う。言い換え処理の処理フローの一例を図８に示す。入力テキスト文に対して、まずステップＳ８１で形態素解析を行なって形態素を抽出し、次にステップＳ８２で構文解析を行なうことで文の構造を求める。
例えば入力文“彼女は大きな犬に噛まれた。”に対してステップＳ８１とＳ８２で実行した形態素解析と構文解析により、図９に示すような解析木を得る。
【００２４】
次に、ステップＳ８３で変換規則の適用により文を変換する。
例えば下記のような変換規則を適用すると、
名詞句１：“は”＋名詞句２：“に”＋動詞句（受動）―＞名詞句２：“が”＋名詞句１：“を”＋動詞句（標準）入力文“彼女は大きな犬に噛まれた。”は、
“大きな犬”：“が”＋“彼女”：“を”＋“噛んだ。”＝＞“大きな犬が彼女を噛んだ。”
と変換することができる。
【００２５】
上記の変換ルールは人手で作ることもできるし、変換例文から解析的な手法により求める（参考文献：特許文献４）こともできる。
更に、ステップＳ８４で、言語モデルの適用を行なって、上記変換された文の調整を行う。この言語モデル処理は単語の意味的な関係や部分的な変換規則により上記変換された文が言語的適格性を保証されないため、言語モデルに基づいて文の修正や書き換えの無効化などを行ない言語的適格性を保証するために実行される。
ここで用いる言語モデルとしては、例えば統計的言語モデル（参考文献：非特許文献９）等を用いることができ、代表的な手法であるＮ単語の連鎖確率に基づくＮｇｒａｍモデル（非特許文献９）等により、変換文の適格性を確率として求め、確率の低い文に対しては確率が高くなるようなＮ単語の順序の入れ換えによる文の修正や、修正不可能な確率の低い文は棄却すること等処理後、言い換え分として出力する。
【００２６】
例えば、入力文“僕は代表に選ばれた”に上記変換規則を適用すると、
僕は１位に選ばれた−＞１位が僕を選んだ
となる。
ここで、予め大量の文章から学習しておいた図１０に示す単語トライグラム表から“１位”、“が”、“僕”、“を”、“選んだ”に対するトライグラム確率は、０．２・０．０２・０．０１・０．６・０．３５＝８．４×１０^−６となるが、このなかで、“１位”、“が”、“僕”のトライグラム確率が低いことがわかる。
ここで“１位”、“僕”を含む他のトライグラムを調べると、“１位”、“に”、“僕”が０．７と高いため、“が”を“に”に修正することで、トライグラム確率は、０．２・０．３・０．７・０．５・０．３５＝７．３５×１０^−３となり、３行程確率が向上することがわかる。従って、“１位が僕を選んだ”という文は“１位に僕を選んだ”に修正することができる。
変換後の文に対する以下の処理については図１の場合と同様であるので省略するが、この実施例のように予め言い換え処理を行なうことにより文字表現のばらつきが減るため、後の処理過程における言語的重要文や音響重要文の抽出において抽出精度が高くなり結果的に非常に効率のよい音声素片データベースが作成可能となる。
【００２７】
図１１に音声合成装置の一実施例を示す。
入力テキストに対し、始めに音声合成用言い換え手段１３で言い換え処理を行ない入力テキストの表現を変換する。
次に、変換されたテキストに対して、テキスト解析手段１４でテキスト解析用辞書１８を用いてテキスト解析を行ない、読み・アクセントの解析を行う。
次に、前記読み・アクセントに基づいて韻律生成手段１５で平均周波数Ｆ_０、パワー、音韻長を求める。
次に前記平均周波数Ｆ_０、パワー、音韻長及び、前記読みから決まる音韻系列に基づいて、音声素片選択手段１６で適切な音声素片を前記図１又は図７で示したような処理によって作成された音声素片データベース１９から選択する。
【００２８】
最後に音声合成手段１７において前記選択された音声素片をそのまま、又は変形して接続し合成音として出力する。
図１及び図７を用いて説明したこの発明による音声素片データベース作成装置のブロック図において形態素解析手段２、言語的重要文抽出手段３、韻律解析手段４、音響的統計分析手段５、音響的重要文抽出手段６、収録リスト取得手段７、音声収録手段８、ラベリング手段９、データベース記録手段１０、音声素片データベース作成用言い換え手段１２を全て処理ステップと読み換えることによりこの発明による音声素片データベース作成方法の処理手順を説明することができる。
【００２９】
この発明による音声素片データベース作成方法をコンピュータが解読可能な符号によって記述された音声素片データベース作成プログラムをコンピュータのＣＰＵによって解読させ、実行させることにより実現することができる。この発明による音声素片データベース作成プログラムはコンピュータが読み取り可能な例えば磁気ディスク或はＣＤ―ＲＯＭのような記録媒体に記録され、記録媒体からコンピュータにインストールされるか、又は通信回線を通じてコンピュータにインストールされて実行される。
また、図１１に示した音声合成装置のブロック図においても、音声合成用言い換え手段１３、テキスト解析手段１４、韻律生成手段１５、音声素片選択手段１６、音声合成手段１７を全て処理ステップとして読み換えることにより、この発明による音声合成方法の処理手順を説明することができる。
【００３０】
この発明による音声合成方法もコンピュータが解読可能な符号によって記述された音声合成プログラムをコンピュータに実行させることによって実現される。この発明による音声合成プログラムも上述と同様にコンピュータが読み取り可能な例えば磁気ディスク或はＣＤ―ＲＯＭのような記録媒体に記録され、これらの記録媒体からコンピュータにインストールされるか、又は通信回線を通じてコンピュータにインストールされ、ＣＰＵに解読されて実行される。
【００３１】
【発明の効果】
以上説明したように、この発明によれば言語的な尺度で重要なテキストに基づいて音声を収録し音声データベースに記録するから、言語的に重要な言いまわしなどのテキスト表現に対して高品質な合成音声が生成可能である。更に音響的な尺度において重要なテキストに基づいて音声をも音声データベースに記録することにより、一般的なテキストにおいても高品質な合成音声が生成可能となる。
更に、音声合成の際に入力テキストを言い換え処理により意味的に等価なまま予め決められたテキスト表現形式に変換することを前提とすることで、合成すべきテキスト表現を予め決められた表現形式にまで圧縮することが可能となる。そのため、前記言い換え処理を行ったテキストにおいて、言語的及び音響的に重要なテキストに基づいて音声を収録し音声データベースに記録することで飛躍的に音声の収録率を上げることが可能となる。
【図面の簡単な説明】
【図１】この発明による音声素片データベース作成装置の一実施例を説明するためのブロック図。
【図２】図１に示した実施例に用いた言語的重要文抽出手段で実行する言語的重要文抽出処理の手順を説明するためのフローチャート図。
【図３】図１に示した実施例で用いた音響的統計分析手段の処理で得られる頻度分布表を説明するための図。
【図４】この説明の音声素片データベース作成装置で作成される音声素片データベースの一例を説明するための図。
【図５】図４に示した音声素片データベースに格納されるラベルデータ領域の構成を説明するための図。
【図６】図４に示した音声素片データベースの他の例を示す図。
【図７】この発明の音声素片データベース作成装置の他の例を説明するためのブロック図。
【図８】図７に示した実施例に用いた言い換え手段１２の動作を説明するためのフローチャート。
【図９】図７に示した実施例に用いた言い換え処理で用いる構文木の一例を説明するための図。
【図１０】図７に示した実施例に用いた言い換え処理で用いる単語トライグラム表を説明するための図。
【図１１】この発明の音声合成装置及び音声合成方法を説明するためのブロック図。
【符号の説明】１　　テキストデータベース　　１１　　音声素片データベース
２　　形態素解析手段　　　　　１２　　音声素片データベース作成用
３　　言語的重要文抽出手段　　　　　　言い換え手段
４　　韻律解析手段　　　　　　１３　　音声合成用言い換え手段
５　　音響的統計分析手段　　　１４　　テキスト解析手段
６　　音響的重要文抽出手段　　１５　　韻律生成手段
７　　収録リスト取得手段　　　１６　　音声素片選択手段
８　　音声収録手段　　　　　　１７　　音声合成手段
９　　ラベリング手段　　　　　１８　　テキスト解析用辞書
１０　データベース記録手段　　１９　　音声素片データベース

Claims

音声素片を接続して入力された文章に対応する音声を合成する際の音声素片を記録した音声素片データベースを作成する音声素片データベース作成方法において、
テキストデータ格納したテキストデータベースにおいて、各テキストの言語的重要度を求め言語的重要度の高い言語的重要文を抽出する言語的重要文抽出過程と、
前記テキストデータベース中の各テキストから各テキストの形態素解析処理と韻律推定により音韻系列及びピッチパターン、テンポ、ポーズ等の韻律的な特徴量を推定する韻律解析過程と、
前記音韻系列及び韻律特徴量によって各テキストの音響的重要度を求め、前記言語的重要文と一致しない音響的重要度の高い音響的重要度文を抽出する音響的重要文抽出過程と、
前記言語的重要文と音響的重要文に対応した音声収録する音声収録過程と、
前記音声収録過程で収録した音声データに音韻ラベルを付し、音声素片データベースに記録するデータベース記録過程と、
を有することを特徴とする音声素片データベース作成方法。
音声素片を接続して入力された文章に対応する音声を合成する際の音声素片を記録した音声素片データベースを作成する音声素片データベース作成方法において、
テキストデータを格納したテキストデータベースにおいて、各テキストの表現を言い換え処理により意味的に等価な別の表現に変換する言い換え過程と、
前記言い換え過程により言い換えられたテキストから、各テキストの言語的重要度を求め言語的重要度の高い言語的重要文を抽出する言語的重要文抽出過程と、
前記テキストデータベース中の各テキストから各テキストの形態素解析処理と韻律推定により音韻系列及びピッチパターン、テンポ、ポーズ等の韻律的な特徴量を推定する韻律解析過程と、
前記音韻系列及び韻律特徴量によって各テキストの音響的重要度を求め、前記言語的な重要文と一致しない音響的重要文を抽出する音響的重要文抽出過程と、前記言語的重要文と音響的重要文に対応した音声を収録する音声収録過程と、前記音声収録過程で収録した音声データに音韻ラベルを付し、音声素片データベースに記録するデータベース記録過程と、
を有することを特徴とする音声素片データベース作成方法。
請求項１又は２記載の音声素片データベース作成方法の何れかにより作成された音声素片データベースから複数の音声素片を選択し、選択された音声素片を接続することにより音声を合成する音声合成方法において、
入力テキストの表現を言い換え処理により意味的に等価な別の表現に変換する言い換え過程と、
前記言い換えられたテキストを解析するテキスト解析過程と、
前記テキスト解析過程から得られた読み、及び韻律情報に基づいて、音声素片データベースから最適な音声素片を検索し、それらの音声素片を接続することにより音声を合成する音声合成過程と、
を有することを特徴とする音声合成方法。
音声素片を接続して入力された文章に対応する音声を合成する際の音声素片を記録した音声素片データベースを作成する音声素片データベース作成装置において、
テキストデータを格納したテキストデータベースにおいて、各テキストの言語的重要度を求め言語的重要度の高い言語的重要文を抽出する言語的重要文抽出手段と、
前記テキストデータベース中の各テキストから各テキスト形態素解析処理と韻律推定により音韻系列及びピッチパターン、テンポ、ポーズ等の韻律的な特徴量を推定する韻律推定手段と、
前記音韻系列及び韻律特徴量によって各テキストの音響的重要度を求め、前記言語的重要文と一致しない音響的重要度の高い音響的重要文を抽出する音響的重要文抽出手段と、
前記言語的重要文と音響的重要文に対応した音声を収録する音声収録手段と、前記音声収録手段で収録した音声データに音韻ラベルを付し、音声素片データベースに記録するデータベース記録手段と、
を有することを特徴とする音声素片データベース作成装置。
音声素片を接続して入力された文章に対応する音声を合成する際の音声素片を記録した音声素片データベースを作成する音声素片データベース作成装置において、
テキストデータを格納したテキストデータベースにおいて、各テキストの表現を言い換え処理により意味的に等価な別の表現に変換する言い換え手段と、
前記言い換え手段により言い換えられたテキストから、各テキストの言語的重要度を求め言語的重要度の高い言語的重要文を抽出する言語的重要文抽出手段と、
前記テキストデータベース中の各テキストからテキスト解析処理と韻律推定により音韻系列及びピッチパターン、テンポ、ポーズ等の韻律的な特徴量によって各テキストの音響的重要度を求め前記言語的な重要文と一致しない音響的重要文を抽出する音響的重要文抽出手段と、
前記言語的重要文と音響的重要文に対応した音声を収録する音声収録手段と、前記音声収録手段で収録した音声データに音韻ラベルを付し、音声素片データベースに記録するデータベース記録手段と、
を有することを特徴とする音声素片データベース作成装置。
請求項４又は５記載の音声素片データベース作成装置の何れかにより作成された音声素片データベースから複数の音声素片を選択し、選択された音声素片を接続することにより音声を合成する音声合成装置において、
入力テキストの表現を言い換え処理により意味的に等価な別の表現に変換する言い換え手段と、
前記言い換えられたテキストを解析するテキスト解析手段と、
前記テキスト解析手段から得られた読み、及び韻律情報に基づいて、音声素片データベースから最適な音声素片を検索し、それらの音声素片を接続することにより音声を合成する音声合成手段と、
を有することを特徴とする音声合成装置。
コンピュータが解読可能な符号によって記述され、コンピュータに前記請求項１又は２記載の音声素片データベース作成方法の少なくとも何れか一方を実行させる音声データベース作成プログラム。
コンピュータが解読可能な符号によって記述され、コンピュータに前記請求項３に記載の音声合成方法を実行させる音声合成プログラム。