JP2004138661A - 音声素片データベース作成方法、音声合成方法、音声素片データベース作成装置、音声合成装置、音声データベース作成プログラム、音声合成プログラム - Google Patents
音声素片データベース作成方法、音声合成方法、音声素片データベース作成装置、音声合成装置、音声データベース作成プログラム、音声合成プログラム Download PDFInfo
- Publication number
- JP2004138661A JP2004138661A JP2002300714A JP2002300714A JP2004138661A JP 2004138661 A JP2004138661 A JP 2004138661A JP 2002300714 A JP2002300714 A JP 2002300714A JP 2002300714 A JP2002300714 A JP 2002300714A JP 2004138661 A JP2004138661 A JP 2004138661A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- text
- voice
- database
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】音声素片を接続して入力された文章に対応する音声を合成する際の音声素片を記録した音声素片データベースを作成する音声素片データベース作成方法において、テキストデータベース中の各テキストから各テキストの形態素解析処理と韻律推定により音韻系列及びピッチパターン、テンポ、ポーズ等の韻律的な特徴量を推定する韻律解析過程と、音韻系列及び韻律特徴量によって各テキストの音響的重要度を求め、言語的重要文と一致しない音響的重要度の高い音響的重要度文を抽出する音響的重要文抽出過程と、言語的重要文と音響的重要文に対応した音声収録する音声収録過程と、音声収録過程で収録した音声データに音韻ラベルを付し、音声素片データベースに記録するデータベース記録過程とを有することを特徴とする。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、音声合成方法に用いる音声素片データベースの作成方法、この音声素片データベース作成方法で作成した音声素片データベースを用いて音声合成を実行する音声合成方法及び装置、プログラムに関する。
【0002】
【従来の技術】
従来の音声合成技術において、近年では大容量な記憶装置の使用コストの低下と計算機の計算能力の向上に伴って、数十分から数時間に及ぶ音声をそのまま大容量の記憶装置に蓄積しておき、入力されたテキスト及び韻律情報に応じて音声データから音声素片を適切に選択し、そのまま接続するか又は韻律情報に応じてそれらを変形して接続することで高品質な音声を合成する音声合成方法が提案されている(特許文献1、非特許文献1)。
しかしながら、いかに大容量の記憶装置に数時間に及ぶ音声データを蓄積することが可能になったとしても、音声を録音しかつ音声合成に利用できるように音声素片としてセグメンテーションするなどにより音声データベースとして整備する必要があるため、そのための時間的、費用的なコストから現実的に集めることが可能な音声の量は決まってくるため、高品質な合成音声のためにいかに短期間に小コストで音声を収集するかというのは大きな課題であった。
【0003】
そのため、入力テキストを音声合成する際に使用すべき音声素片が収録されている確率が音響的に見て最大となるように音声データベースを設計する方法(非特許文献2)や、合成処理による劣化を避けるため同一内容の発声を韻律的に多重化する方法(非特許文献3)などが提案されている。
その他の公知文献として、
基本周波数パターンを精密に決定することができる音声基本周波数パターン生成装置に関しては例えば(特許文献2)に記載されている。
更に、合成音声パワーを効率よく、しかも精度良く制御でき、波形構成型の音声合成方式など、肉声に近い品質の合成音を得ることが可能な音声合成方法に関しては(特許文献3)に記載されている。
【0004】
更に、文法を殆ど知らないユーザでも書き換えのための経験則がなくても、なるべくそのままの形で簡単に記述でき、更に、経験則の追加や削除を容易に行うことが可能な文章書き換え方法に関しては(特許文献4)に記載されている。
更に、重要文の摘出手法としては、特に知識(辞書)を用いないLead法や単語の出現頻度に基づく手法が(非特許文献4)に記載されている。また、テキスト構造に基づく手段が(非特許文献5)に記載されている。また、、機械学習の1手法であるSupport Vector Machine(以下SVMと表記)に基づく重要文の摘出手法が(非特許文献6)に記載されている。
更に、意味的に重要な単語の分類については(非特許文献7)に記載されている。
更に、テキストから音韻系列、ピッチパターン、音韻長等の音韻情報及び音韻情報を求める手法は(非特許文献8)に記載されている。
更に、統計的言語モデルに関しては(非特許文献9)記載されている。
【0005】
【特許文献1】
特許第2761552号明細書
【特許文献2】
特開平5−88690号公報
【特許文献3】
特開平6−95696号公報
【特許文献4】
特開2000−57142公報
【非特許文献1】
M.Beutnagel,A.Conkie,J.Schoroeter,Y.Stylianou,and A.Sydral,“Choose the best to modify the least:A new generation concatenative synthesis system”,Proc.Eurospeech’99,
【非特許文献2】
Chu,M.,Yang,H.and Chang,E.,“Selecting Non−uniform Units From a Very Large Corpus for Concatenative Speech Synthesizer”,ICASSP 2001,Vol.2,SPEECH−L2.2,2001.
【非特許文献3】
枡田他、“韻律的に多重なデータベースの設計と評価”、音響学会講演論文集、pp.291−292、2001
【非特許文献4】
Edmundson,H.1969.New methods in automatic abstracting¥ Journal of ACM,16(2),264−285,Zechner,K.1996.Fast Generation of Abstracts from General Domain Text Corpora by Extracting Relevant Sentences¥ In Proc.of the 16th International Conference on Computational Linguistics,986−989
【非特許文献5】
Miike,S.,Itoh,E.,Ono,K.,Sumita,K.1994.A full−text Retrieval System with a Dynamic Abstract Generation Function¥ In Proc.of the 17th Annual International ACM−SIGIR Conference on Research and Development in Information Retrieval,152−161
【非特許文献6】
平尾、前田、松本、“Support Vector Machineによる重要文抽出”、情処研報、2001−Fi−63,Vol.2001,No.74,pp.121−127
【非特許文献7】
日本語語彙体系(NTTコミュニケーション科学研究所監修:日本語語彙体系、岩波書店、1999)
【非特許文献8】
電子通信学会論文誌“規則による音声合成のための音韻時間長制御”、匂坂他、Vol.67−A,629−636(1984)
【非特許文献9】
北 研二、“確率的言語モデル”、東京大学出版会、1999.p.24
【0006】
【発明が解決しようとする課題】
前述した従来の音響的・韻律的な面から音声データベースを設計する方法では、言語的な面で見たときに重要な単語や言いまわしに対する考慮が全くないため、心理的に非常に重要な音響を与える意味的に重要な単語や意味的なまとまりをもつ言いまわしを収録できる保証は全く無い。
そのため、前記手法に基づく収録リストに基づいて音声を収録した場合は、前記収集した音声を利用した音声合成において、音響面や韻律面というミクロで見て平均的には高品質な合成音を実現可能とは言えるものの、言語的に重要な部分において高品質な合成音が実現できない場合があり、実際の音声によるコミュニケーションという意味において問題があった。
【0007】
また、言語が持つ表層的な文字表現の多様性を考慮すると、音響面・韻律面から統計的な情報だけで音声を収録することは、一般的な表現形式のみを重視する傾向があり、いかなる表現に対しても高品質な合成音声を生成することを保証することはほぼ不可能と言えた。
この発明の目的は、いかなる表現に対しても高品質な合成音声を生成することを保証することができる音声素片データベース作成方法、この音声素片データベースを用いた音声合成方法、音声素片データベース作成装置、音声合成装置、音声素片データベース作成プログラム、音声合成プログラムを提案しようとするものである。
【0008】
【課題を解決するための手段】
この発明では更に音声素片を接続して入力された文章に対応する音声を合成する際の音声素片を記録した音声素片データベースを作成する音声素片データベース作成方法において、テキストデータ格納したテキストデータベースにおいて、各テキストの言語的重要度を求め言語的重要度の高い言語的重要文を抽出する言語的重要文抽出過程と、テキストデータベース中の各テキストから各テキストの形態素解析処理と韻律推定により音韻系列及びピッチパターン、テンポ、ポーズ等の韻律的な特徴量を推定する韻律解析過程と、音韻系列及び韻律特徴量によって各テキストの音響的重要度を求め、言語的重要文と一致しない音響的重要度の高い音響的重要度文を抽出する音響的重要文抽出過程と、言語的重要文と音響的重要文に対応した音声収録する音声収録過程と、音声収録過程で収録した音声データに音韻ラベルを付し、音声素片データベースに記録するデータベース記録過程とを有する音声素片データベース作成方法を提案する。
【0009】
この発明では更に音声素片を接続して入力された文章に対応する音声を合成する際の音声素片を記録した音声素片データベースを作成する音声素片データベース作成方法において、テキストデータを格納したテキストデータベースにおいて、各テキストの表現を言い換え処理により意味的に等価な別の表現に変換する言い換え過程と、言い換え過程により言い換えられたテキストから、各テキストの言語的重要度を求め言語的重要度の高い言語的重要文を抽出する言語的重要文抽出過程と、テキストデータベース中の各テキストから各テキストの形態素解析処理と韻律推定により音韻系列及びピッチパターン、テンポ、ポーズ等の韻律的な特徴量を推定する韻律解析過程と、音韻系列及び韻律特徴量によって各テキストの音響的重要度を求め、言語的な重要文と一致しない音響的重要文を抽出する音響的重要文抽出過程と、言語的重要文と音響的重要文に対応した音声を収録する音声収録過程と、音声収録過程で収録した音声データに音韻ラベルを付し、音声素片データベースに記録するデータベース記録過程とを有する音声素片データベース作成方法を提案する。
【0010】
この発明では更に前記音声素片データベース作成方法の何れかにより作成された音声素片データベースから複数の音声素片を選択し、選択された音声素片を接続することにより音声を合成する音声合成方法において、
入力テキストの表現を言い換え処理により意味的に等価な別の表現に変換する言い換え過程と、言い換えられたテキストを解析するテキスト解析過程と、テキスト解析過程から得られた読み、及び韻律情報に基づいて、音声素片データベースから最適な音声素片を検索し、それらの音声素片を接続することにより音声を合成する音声合成過程とを有する音声合成方法を提案する。
【0011】
この発明では更に音声素片を接続して入力された文章に対応する音声を合成する際の音声素片を記録した音声素片データベースを作成する音声素片データベース作成装置において、テキストデータを格納したテキストデータベースにおいて、各テキストの言語的重要度を求め言語的重要度の高い言語的重要文を抽出する言語的重要文抽出手段と、テキストデータベース中の各テキストから各テキスト形態素解析処理と韻律推定により音韻系列及びピッチパターン、テンポ、ポーズ等の韻律的な特徴量を推定する韻律推定手段と、音韻系列及び韻律特徴量によって各テキストの音響的重要度を求め、前記言語的重要文と一致しない音響的重要度の高い音響的重要文を抽出する音響的重要文抽出手段と、言語的重要文と音響的重要文に対応した音声を収録する音声収録手段と、音声収録手段で収録した音声データに音韻ラベルを付し、音声素片データベースに記録するデータベース記録手段とを有する音声素片データベース作成装置を提案する。
【0012】
この発明では更に音声素片を接続して入力された文章に対応する音声を合成する際の音声素片を記録した音声素片データベースを作成する音声素片データベース作成装置において、テキストデータを格納したテキストデータベースにおいて、各テキストの表現を言い換え処理により意味的に等価な別の表現に変換する言い換え手段と、言い換え手段により言い換えられたテキストから、各テキストの言語的重要度を求め言語的重要度の高い言語的重要文を抽出する言語的重要文抽出手段と、テキストデータベース中の各テキストからテキスト解析処理と韻律推定により音韻系列及びピッチパターン、テンポ、ポーズ等の韻律的な特徴量によって各テキストの音響的重要度を求め前記言語的な重要文と一致しない音響的重要文を抽出する音響的重要文抽出手段と、言語的重要文と音響的重要文に対応した音声を収録する音声収録手段と、音声収録手段で収録した音声データに音韻ラベルを付し、音声素片データベースに記録するデータベース記録手段とを有する音声素片データベース作成装置を提案する。
【0013】
この発明では更に前記音声素片データベース作成装置の何れかにより作成された音声素片データベースから複数の音声素片を選択し、選択された音声素片を接続することにより音声を合成する音声合成装置において、入力テキストの表現を言い換え処理により意味的に等価な別の表現に変換する言い換え手段と、言い換えられたテキストを解析するテキスト解析手段と、テキスト解析手段から得られた読み、及び韻律情報に基づいて、音声素片データベースから最適な音声素片を検索し、それらの音声素片を接続することにより音声を合成する音声合成手段とを有する音声合成装置を提案する。
この発明では更にコンピュータが解読可能な符号によって記述され、コンピュータに請求項1又は2記載の音声素片データベース作成方法の少なくとも何れか一方を実行させる音声データベース作成プログラムを提案する。
この発明では更にコンピュータが解読可能な符号によって記述され、コンピュータに請求項3に記載の音声合成方法を実行させる音声合成プログラムを提案する。
【0014】
作用
この発明による音声素片テキストデータベース作成方法及び装置により作成された音声素片テキストデータベースは言語的な尺度で重要なテキストに基づいて音声を収集したから、言語的に重要な言いまわしなどのテキスト表現に対して高品質な合成音声が生成可能である。更に、音響的な尺度において重要なテキストに基づいた多音声も音声素片データベースに記録したから、一般的な内容のテキストにおいても高品質な合成音声を生成することができる。
更に、音声合成の際に入力テキストを言い換え処理により意味的に等価なまま、予め決められたテキスト表現形式に変換することを前提とすることで、合成すべきテキスト表現を予め決められた表現形式にまで圧縮することが可能となる。このため、言い換え処理を行なったテキストにおいて、言語的及び音響的に重要なテキストに基づいて音声を収集し、音声素片データベースに記録することで飛躍的に音声の収集効率を上げることができる。
【0015】
【発明の実施の形態】
図1にこの発明による音声素片データベース作成装置の一実施例を示す。この図1に示した音声素片データベース作成装置の構成及び動作をこの発明による音声素片データベース作成方法と共に説明する。
図中1はテキストデータベースを示す。このテキストデータベースには例えば日本語テキストが多量に収納されている。形態素解析手段2はテキストデータベース1から日本語テキストを取り出し、テキストの形態素解析を行ない、単語境界の決定と、単語の品詞の付与、単語の読み、アクセント等の形態素を抽出する。
【0016】
次に、前記抽出された形態素に基づいて言語的重要文抽出手段3により言語的重要文を抽出する。言語的重要文の抽出手段としては、特に知識を用いないLead法や単語の出現頻度に基づく手法、(例えば非特許文献4)あるいはテキスト構造に基づく手法(例えば非特許文献5)などいろいろあるが、ここでは機械学習の1手法であるSupport Vector Machine (以下SVMと表記)に基づく(非特許文献6に記載されている手法)を1例に説明する。
図2にSVMに基づく言語的重要文抽出処理の概念図を示す。まず予めSVMを学習しておく。学習過程を図2Aに示す。始めに、ステップS21−1でテキストの種別として重要文と非重要文とに分類してある学習用テキストデータを入力する。
【0017】
次に、ステップS22−1で前記の学習用テキストデータに対してテキスト属性分析処理により属性を求める。属性とは、例えば下記のようなものである。
文の位置(文章中における当該文の出現位置)、文の長さ、単語重要度の総和、キーワードの密度、固有表現の有無(固有名詞、数値等の単語の有無)、各形態素の有無(各種形態素の文中での有無)、重要単語の有無(文中に含まれる重要な単語の有無)
ここで、前記単語重要度は例えばTF・IDF法等既存の簡単な方法によるものでも求めることができる。また、前記キーワードも単語重要度の値の大きいものをキーワードとすればよく、キーワードの密度は下記のように求めることができる。
FD=Σw(k,1)*a(k)
a(k)=w(t)(単語tが位置kに出現するとき)、0(それ以外)
w(k,1)1を窓の中心とする窓関数w(k)
また意味的に重要な単語については、非特許文献7に記載されているシソーラスにおける階層の深さなどによって求めることができる。
【0018】
次に、ステップS23−1でSVMにより学習を行なう。ここでいう学習とは、訓練データとして、
(x1,y1),・・・・・(xm,ym)xi∈Rn,yi∈[1,−1]:
xiは事例iにおけるn次元の属性のベクトル、yiは正例のとき1、負例のとき−1が与えられたとき、xiを以下のような分離平面で正例(例えば重要文)、負例(例えば非重要文)に分類したときマージン(最も負例より正例側の境界面と最も正例よりの負例の境界面の距離)が最大となるように次式のwとbを決定することを意味する。
W・x+b=0,w∈Rn,b∈R
言語的重要文抽出処理では、前記記述したステップS23−1で学習したSVMを用いる。図2Bに抽出過程を示す。まず、ステップS21−2でテキストデータベースから判別対象のテキストを取り出し、ステップS22−2でテキスト属性分析処理により前記のようにテキストの属性を求める。次にステップS23−2でSVM分類処理により重要文かどうかを判別する。判別方法は、前記の学習過程で求めたwとbを利用して下記の判別関数を構成し、
f(x)=sgn(w・x+b)
例えば、学習過程で、重要文を正例とした場合は、f(x)=1なら重要文、−1なら非重要文として判別する。
【0019】
重要文として判別されたテキストを重要文リストに加える。後は単純にテキストデータベースに含まれる全てのテキストを前記のように判別することで、重要文リストを取得することができる。
以上、述べたように言語的重要文を抽出し、言語的重要文リストを取得することが可能である。もちろん重要文抽出の方法は前記で述べたようにSVMに基づく方法には限らない。
次に、音響的重要文抽出方法について説明する。韻律解析手段4により、テキストから音韻系列、ピッチパターン、音韻長等の音韻情報及び韻律情報を求める。これは読み・アクセント解析と韻律解析(参考文献:特許文献2、特許文献3、非特許文8)により求めることができる。次に、前記音韻情報と韻律情報に基づいて音響的統計分析手段5で音響的統計分析処理を行い音響的に異なるパターンの統計的な分析を行なう。例えば、図3に示すような音韻種別、音韻の長さ、前後の音韻環境、ピッチの高さ、音韻長といった属性で分類した音韻属性について頻度分布を求める。
【0020】
次に、前記統計的分析により得られた結果に基づいて、音響的重要文抽出手段6で音響的重要文抽出処理を行い前記言語的重要文で抽出済みでない文を音響属性の頻度から決定しテキストの音響的重要度を決定する。具体的には音韻Wiの重みを下式
Wi=Ajf/N
W:音韻iの重み、Ajf:音韻Wiの音韻属性Ajの頻度、N:全音韻属性出現数で
定義した場合、L個の音韻を含む文の音響的重要度Swは
Sw=Σi=1 Lwi
で求められ、音響的重要文は、前記音響的重要度で全文をソートし、既に言語的重要文として得られた分を除いて、重要度最大の文から、予め決められた全文数以内又は重要度となる文になるまでを音響的重要文として抽出し、前記言語的重要文とを併せて収録リストを収録リスト取得手段7で取得する。
【0021】
次に、取得した収録リストに従って例えば発声者に音声を発声してもらい音声収録手段8で音声を収録する。
音声収録後、ラベリング手段9で、音声に音韻ラベルを付加すると共にその他にピッチマーク等音声合成に必要なデータを付与し、音韻ラベルが付加された音声データをデータベース記録手段10により音声素片データベース11に記録する。
図4乃至図6に音声素片データベース11に記録した音声素片データの一例を示す。この例では各音声データにテキストタグを付加して記録した場合を示す。つまり音声領域データと、音声領域データの発音内容に対応した単語分類されたテキストタグデータと、各単語の形態素(品詞データ)、を各単語が発声されている音声データ中での音声データ対応位置(ms)、ラベルデータ領域等で構成される。
【0022】
ラベルデータ領域は例えば図5に示すように音韻単位で音韻種別、前音韻環境、後音韻環境、平均周波数F0(Hz)、平均周波数の傾斜(Hz/ms)、時間長(ms)、パワー(dB)等で構成される。
ここで音声領域データに関しては他のデータと一緒に格納するのではなく、分離して別のデータ領域に格納してもよい。テキストタグ付き音声素片データベースの他の例としては図6に示すように、音声領域データと、音声領域データの発声内容に対応して単語分類されたテキストタグデータと、形態素(品詞データ)、掛かり受けデータ、音声データ対応位置(ms)と、図5に示したラベルデータ等で構成することができる。
【0023】
図7に本発明の音声素片データベース作成装置の他の実施例を示す。この実施例では大量のテキストデータベース1の日本語テキストからテキストを取り出し音声素片データベース作成用言い換え処理手段12で言い換え処理を行う。ここで、言い換え処理とは、ある文の文字表現を文のもつ内容を変えずに別の文字表現に変換する処理を言う。言い換え処理の処理フローの一例を図8に示す。入力テキスト文に対して、まずステップS81で形態素解析を行なって形態素を抽出し、次にステップS82で構文解析を行なうことで文の構造を求める。
例えば入力文“彼女は大きな犬に噛まれた。”に対してステップS81とS82で実行した形態素解析と構文解析により、図9に示すような解析木を得る。
【0024】
次に、ステップS83で変換規則の適用により文を変換する。
例えば下記のような変換規則を適用すると、
名詞句1:“は”+名詞句2:“に”+動詞句(受動)―>名詞句2:“が”+名詞句1:“を”+動詞句(標準)入力文“彼女は大きな犬に噛まれた。”は、
“大きな犬”:“が”+“彼女”:“を”+“噛んだ。”=>“大きな犬が彼女を噛んだ。”
と変換することができる。
【0025】
上記の変換ルールは人手で作ることもできるし、変換例文から解析的な手法により求める(参考文献:特許文献4)こともできる。
更に、ステップS84で、言語モデルの適用を行なって、上記変換された文の調整を行う。この言語モデル処理は単語の意味的な関係や部分的な変換規則により上記変換された文が言語的適格性を保証されないため、言語モデルに基づいて文の修正や書き換えの無効化などを行ない言語的適格性を保証するために実行される。
ここで用いる言語モデルとしては、例えば統計的言語モデル(参考文献:非特許文献9)等を用いることができ、代表的な手法であるN単語の連鎖確率に基づくNgramモデル(非特許文献9)等により、変換文の適格性を確率として求め、確率の低い文に対しては確率が高くなるようなN単語の順序の入れ換えによる文の修正や、修正不可能な確率の低い文は棄却すること等処理後、言い換え分として出力する。
【0026】
例えば、入力文“僕は代表に選ばれた”に上記変換規則を適用すると、
僕は1位に選ばれた−>1位が僕を選んだ
となる。
ここで、予め大量の文章から学習しておいた図10に示す単語トライグラム表から“1位”、“が”、“僕”、“を”、“選んだ”に対するトライグラム確率は、0.2・0.02・0.01・0.6・0.35=8.4×10−6となるが、このなかで、“1位”、“が”、“僕”のトライグラム確率が低いことがわかる。
ここで“1位”、“僕”を含む他のトライグラムを調べると、“1位”、“に”、“僕”が0.7と高いため、“が”を“に”に修正することで、トライグラム確率は、0.2・0.3・0.7・0.5・0.35=7.35×10−3となり、3行程確率が向上することがわかる。従って、“1位が僕を選んだ”という文は“1位に僕を選んだ”に修正することができる。
変換後の文に対する以下の処理については図1の場合と同様であるので省略するが、この実施例のように予め言い換え処理を行なうことにより文字表現のばらつきが減るため、後の処理過程における言語的重要文や音響重要文の抽出において抽出精度が高くなり結果的に非常に効率のよい音声素片データベースが作成可能となる。
【0027】
図11に音声合成装置の一実施例を示す。
入力テキストに対し、始めに音声合成用言い換え手段13で言い換え処理を行ない入力テキストの表現を変換する。
次に、変換されたテキストに対して、テキスト解析手段14でテキスト解析用辞書18を用いてテキスト解析を行ない、読み・アクセントの解析を行う。
次に、前記読み・アクセントに基づいて韻律生成手段15で平均周波数F0、パワー、音韻長を求める。
次に前記平均周波数F0、パワー、音韻長及び、前記読みから決まる音韻系列に基づいて、音声素片選択手段16で適切な音声素片を前記図1又は図7で示したような処理によって作成された音声素片データベース19から選択する。
【0028】
最後に音声合成手段17において前記選択された音声素片をそのまま、又は変形して接続し合成音として出力する。
図1及び図7を用いて説明したこの発明による音声素片データベース作成装置のブロック図において形態素解析手段2、言語的重要文抽出手段3、韻律解析手段4、音響的統計分析手段5、音響的重要文抽出手段6、収録リスト取得手段7、音声収録手段8、ラベリング手段9、データベース記録手段10、音声素片データベース作成用言い換え手段12を全て処理ステップと読み換えることによりこの発明による音声素片データベース作成方法の処理手順を説明することができる。
【0029】
この発明による音声素片データベース作成方法をコンピュータが解読可能な符号によって記述された音声素片データベース作成プログラムをコンピュータのCPUによって解読させ、実行させることにより実現することができる。この発明による音声素片データベース作成プログラムはコンピュータが読み取り可能な例えば磁気ディスク或はCD―ROMのような記録媒体に記録され、記録媒体からコンピュータにインストールされるか、又は通信回線を通じてコンピュータにインストールされて実行される。
また、図11に示した音声合成装置のブロック図においても、音声合成用言い換え手段13、テキスト解析手段14、韻律生成手段15、音声素片選択手段16、音声合成手段17を全て処理ステップとして読み換えることにより、この発明による音声合成方法の処理手順を説明することができる。
【0030】
この発明による音声合成方法もコンピュータが解読可能な符号によって記述された音声合成プログラムをコンピュータに実行させることによって実現される。この発明による音声合成プログラムも上述と同様にコンピュータが読み取り可能な例えば磁気ディスク或はCD―ROMのような記録媒体に記録され、これらの記録媒体からコンピュータにインストールされるか、又は通信回線を通じてコンピュータにインストールされ、CPUに解読されて実行される。
【0031】
【発明の効果】
以上説明したように、この発明によれば言語的な尺度で重要なテキストに基づいて音声を収録し音声データベースに記録するから、言語的に重要な言いまわしなどのテキスト表現に対して高品質な合成音声が生成可能である。更に音響的な尺度において重要なテキストに基づいて音声をも音声データベースに記録することにより、一般的なテキストにおいても高品質な合成音声が生成可能となる。
更に、音声合成の際に入力テキストを言い換え処理により意味的に等価なまま予め決められたテキスト表現形式に変換することを前提とすることで、合成すべきテキスト表現を予め決められた表現形式にまで圧縮することが可能となる。そのため、前記言い換え処理を行ったテキストにおいて、言語的及び音響的に重要なテキストに基づいて音声を収録し音声データベースに記録することで飛躍的に音声の収録率を上げることが可能となる。
【図面の簡単な説明】
【図1】この発明による音声素片データベース作成装置の一実施例を説明するためのブロック図。
【図2】図1に示した実施例に用いた言語的重要文抽出手段で実行する言語的重要文抽出処理の手順を説明するためのフローチャート図。
【図3】図1に示した実施例で用いた音響的統計分析手段の処理で得られる頻度分布表を説明するための図。
【図4】この説明の音声素片データベース作成装置で作成される音声素片データベースの一例を説明するための図。
【図5】図4に示した音声素片データベースに格納されるラベルデータ領域の構成を説明するための図。
【図6】図4に示した音声素片データベースの他の例を示す図。
【図7】この発明の音声素片データベース作成装置の他の例を説明するためのブロック図。
【図8】図7に示した実施例に用いた言い換え手段12の動作を説明するためのフローチャート。
【図9】図7に示した実施例に用いた言い換え処理で用いる構文木の一例を説明するための図。
【図10】図7に示した実施例に用いた言い換え処理で用いる単語トライグラム表を説明するための図。
【図11】この発明の音声合成装置及び音声合成方法を説明するためのブロック図。
【符号の説明】1 テキストデータベース 11 音声素片データベース
2 形態素解析手段 12 音声素片データベース作成用
3 言語的重要文抽出手段 言い換え手段
4 韻律解析手段 13 音声合成用言い換え手段
5 音響的統計分析手段 14 テキスト解析手段
6 音響的重要文抽出手段 15 韻律生成手段
7 収録リスト取得手段 16 音声素片選択手段
8 音声収録手段 17 音声合成手段
9 ラベリング手段 18 テキスト解析用辞書
10 データベース記録手段 19 音声素片データベース
Claims (8)
- 音声素片を接続して入力された文章に対応する音声を合成する際の音声素片を記録した音声素片データベースを作成する音声素片データベース作成方法において、
テキストデータ格納したテキストデータベースにおいて、各テキストの言語的重要度を求め言語的重要度の高い言語的重要文を抽出する言語的重要文抽出過程と、
前記テキストデータベース中の各テキストから各テキストの形態素解析処理と韻律推定により音韻系列及びピッチパターン、テンポ、ポーズ等の韻律的な特徴量を推定する韻律解析過程と、
前記音韻系列及び韻律特徴量によって各テキストの音響的重要度を求め、前記言語的重要文と一致しない音響的重要度の高い音響的重要度文を抽出する音響的重要文抽出過程と、
前記言語的重要文と音響的重要文に対応した音声収録する音声収録過程と、
前記音声収録過程で収録した音声データに音韻ラベルを付し、音声素片データベースに記録するデータベース記録過程と、
を有することを特徴とする音声素片データベース作成方法。 - 音声素片を接続して入力された文章に対応する音声を合成する際の音声素片を記録した音声素片データベースを作成する音声素片データベース作成方法において、
テキストデータを格納したテキストデータベースにおいて、各テキストの表現を言い換え処理により意味的に等価な別の表現に変換する言い換え過程と、
前記言い換え過程により言い換えられたテキストから、各テキストの言語的重要度を求め言語的重要度の高い言語的重要文を抽出する言語的重要文抽出過程と、
前記テキストデータベース中の各テキストから各テキストの形態素解析処理と韻律推定により音韻系列及びピッチパターン、テンポ、ポーズ等の韻律的な特徴量を推定する韻律解析過程と、
前記音韻系列及び韻律特徴量によって各テキストの音響的重要度を求め、前記言語的な重要文と一致しない音響的重要文を抽出する音響的重要文抽出過程と、前記言語的重要文と音響的重要文に対応した音声を収録する音声収録過程と、前記音声収録過程で収録した音声データに音韻ラベルを付し、音声素片データベースに記録するデータベース記録過程と、
を有することを特徴とする音声素片データベース作成方法。 - 請求項1又は2記載の音声素片データベース作成方法の何れかにより作成された音声素片データベースから複数の音声素片を選択し、選択された音声素片を接続することにより音声を合成する音声合成方法において、
入力テキストの表現を言い換え処理により意味的に等価な別の表現に変換する言い換え過程と、
前記言い換えられたテキストを解析するテキスト解析過程と、
前記テキスト解析過程から得られた読み、及び韻律情報に基づいて、音声素片データベースから最適な音声素片を検索し、それらの音声素片を接続することにより音声を合成する音声合成過程と、
を有することを特徴とする音声合成方法。 - 音声素片を接続して入力された文章に対応する音声を合成する際の音声素片を記録した音声素片データベースを作成する音声素片データベース作成装置において、
テキストデータを格納したテキストデータベースにおいて、各テキストの言語的重要度を求め言語的重要度の高い言語的重要文を抽出する言語的重要文抽出手段と、
前記テキストデータベース中の各テキストから各テキスト形態素解析処理と韻律推定により音韻系列及びピッチパターン、テンポ、ポーズ等の韻律的な特徴量を推定する韻律推定手段と、
前記音韻系列及び韻律特徴量によって各テキストの音響的重要度を求め、前記言語的重要文と一致しない音響的重要度の高い音響的重要文を抽出する音響的重要文抽出手段と、
前記言語的重要文と音響的重要文に対応した音声を収録する音声収録手段と、前記音声収録手段で収録した音声データに音韻ラベルを付し、音声素片データベースに記録するデータベース記録手段と、
を有することを特徴とする音声素片データベース作成装置。 - 音声素片を接続して入力された文章に対応する音声を合成する際の音声素片を記録した音声素片データベースを作成する音声素片データベース作成装置において、
テキストデータを格納したテキストデータベースにおいて、各テキストの表現を言い換え処理により意味的に等価な別の表現に変換する言い換え手段と、
前記言い換え手段により言い換えられたテキストから、各テキストの言語的重要度を求め言語的重要度の高い言語的重要文を抽出する言語的重要文抽出手段と、
前記テキストデータベース中の各テキストからテキスト解析処理と韻律推定により音韻系列及びピッチパターン、テンポ、ポーズ等の韻律的な特徴量によって各テキストの音響的重要度を求め前記言語的な重要文と一致しない音響的重要文を抽出する音響的重要文抽出手段と、
前記言語的重要文と音響的重要文に対応した音声を収録する音声収録手段と、前記音声収録手段で収録した音声データに音韻ラベルを付し、音声素片データベースに記録するデータベース記録手段と、
を有することを特徴とする音声素片データベース作成装置。 - 請求項4又は5記載の音声素片データベース作成装置の何れかにより作成された音声素片データベースから複数の音声素片を選択し、選択された音声素片を接続することにより音声を合成する音声合成装置において、
入力テキストの表現を言い換え処理により意味的に等価な別の表現に変換する言い換え手段と、
前記言い換えられたテキストを解析するテキスト解析手段と、
前記テキスト解析手段から得られた読み、及び韻律情報に基づいて、音声素片データベースから最適な音声素片を検索し、それらの音声素片を接続することにより音声を合成する音声合成手段と、
を有することを特徴とする音声合成装置。 - コンピュータが解読可能な符号によって記述され、コンピュータに前記請求項1又は2記載の音声素片データベース作成方法の少なくとも何れか一方を実行させる音声データベース作成プログラム。
- コンピュータが解読可能な符号によって記述され、コンピュータに前記請求項3に記載の音声合成方法を実行させる音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002300714A JP3981619B2 (ja) | 2002-10-15 | 2002-10-15 | 収録リスト取得装置と音声素片データベース作成装置、及びそれらの装置プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002300714A JP3981619B2 (ja) | 2002-10-15 | 2002-10-15 | 収録リスト取得装置と音声素片データベース作成装置、及びそれらの装置プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004138661A true JP2004138661A (ja) | 2004-05-13 |
JP3981619B2 JP3981619B2 (ja) | 2007-09-26 |
Family
ID=32449327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002300714A Expired - Fee Related JP3981619B2 (ja) | 2002-10-15 | 2002-10-15 | 収録リスト取得装置と音声素片データベース作成装置、及びそれらの装置プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3981619B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006030892A (ja) * | 2004-07-21 | 2006-02-02 | Nippon Hoso Kyokai <Nhk> | 音声合成用読み上げテキストデータ選択プログラムおよび音声合成用読み上げテキストデータ選択装置 |
JP2011221486A (ja) * | 2010-03-26 | 2011-11-04 | Toshiba Corp | 音声編集方法、装置及び音声合成方法 |
JP2017102328A (ja) * | 2015-12-03 | 2017-06-08 | 日本電信電話株式会社 | 文章セット生成装置、文章セット生成方法、プログラム |
CN112686018A (zh) * | 2020-12-23 | 2021-04-20 | 科大讯飞股份有限公司 | 一种文本分割方法、装置、设备及存储介质 |
-
2002
- 2002-10-15 JP JP2002300714A patent/JP3981619B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006030892A (ja) * | 2004-07-21 | 2006-02-02 | Nippon Hoso Kyokai <Nhk> | 音声合成用読み上げテキストデータ選択プログラムおよび音声合成用読み上げテキストデータ選択装置 |
JP2011221486A (ja) * | 2010-03-26 | 2011-11-04 | Toshiba Corp | 音声編集方法、装置及び音声合成方法 |
JP2017102328A (ja) * | 2015-12-03 | 2017-06-08 | 日本電信電話株式会社 | 文章セット生成装置、文章セット生成方法、プログラム |
CN112686018A (zh) * | 2020-12-23 | 2021-04-20 | 科大讯飞股份有限公司 | 一种文本分割方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP3981619B2 (ja) | 2007-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bulyko et al. | A bootstrapping approach to automating prosodic annotation for limited-domain synthesis | |
Sridhar et al. | Exploiting acoustic and syntactic features for automatic prosody labeling in a maximum entropy framework | |
Le et al. | Automatic speech recognition for under-resourced languages: application to Vietnamese language | |
Wang et al. | Complete recognition of continuous Mandarin speech for Chinese language with very large vocabulary using limited training data | |
Chang et al. | A system for spoken query information retrieval on mobile devices | |
JP2003036093A (ja) | 音声入力検索システム | |
US6477495B1 (en) | Speech synthesis system and prosodic control method in the speech synthesis system | |
Cooper | Text-to-speech synthesis using found data for low-resource languages | |
Lorenzo-Trueba et al. | Simple4all proposals for the albayzin evaluations in speech synthesis | |
Sloan et al. | Prosody prediction from syntactic, lexical, and word embedding features | |
HaCohen-Kerner et al. | Language and gender classification of speech files using supervised machine learning methods | |
JP3981619B2 (ja) | 収録リスト取得装置と音声素片データベース作成装置、及びそれらの装置プログラム | |
Liu et al. | A maximum entropy based hierarchical model for automatic prosodic boundary labeling in mandarin | |
JP4004376B2 (ja) | 音声合成装置、音声合成プログラム | |
Zhao et al. | Improving model stability and training efficiency in fast, high quality expressive voice conversion system | |
NithyaKalyani et al. | Speech summarization for tamil language | |
Furui | Spontaneous speech recognition and summarization | |
JP2004347732A (ja) | 言語自動識別方法及び装置 | |
Dong et al. | Pitch contour model for Chinese text-to-speech using CART and statistical model | |
Rista et al. | CASR: A Corpus for Albanian Speech Recognition | |
JP6002598B2 (ja) | 強調位置予測装置、その方法、およびプログラム | |
Sun | Using End-to-end Multitask Model for Simultaneous Language Identification and Phoneme Recognition | |
JP2008181537A (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
JP2001265792A (ja) | 自動要約文生成装置、自動要約文生成方法及び自動要約文生成方法を記録した媒体 | |
Zhang et al. | A novel decoding framework for extractive speech summarization with Rhetorical Structure modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050128 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20061018 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070501 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070530 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070626 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070702 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100706 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110706 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120706 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130706 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |