JP2001306087A - 音声データベース作成装置および音声データベース作成方法および記録媒体 - Google Patents

音声データベース作成装置および音声データベース作成方法および記録媒体

Info

Publication number
JP2001306087A
JP2001306087A JP2000131529A JP2000131529A JP2001306087A JP 2001306087 A JP2001306087 A JP 2001306087A JP 2000131529 A JP2000131529 A JP 2000131529A JP 2000131529 A JP2000131529 A JP 2000131529A JP 2001306087 A JP2001306087 A JP 2001306087A
Authority
JP
Japan
Prior art keywords
phoneme
unit
boundary position
boundary
developed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000131529A
Other languages
English (en)
Inventor
Junichi Takami
淳一 鷹見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2000131529A priority Critical patent/JP2001306087A/ja
Publication of JP2001306087A publication Critical patent/JP2001306087A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声データベース作成に伴う作業者の負担を
著しく軽減させる。 【解決手段】 仮名文字で記述された読みを、それを発
声した場合に出現し得る音素列候補に展開する仮名文字
展開部1と、仮名文字展開部1で展開された音素列候補
の中で、実際の音声データに最も良く適合する音素列を
選択する音素列選択部2と、音素列選択部2で選択され
た音素列に従って音声データの各音素の境界位置を算出
する音素セグメンテーション部3と、音素列選択部2お
よび音素セグメンテーション部3で得られた結果を対話
的に修正するための音素境界位置エディタ部4とを有し
ている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声データベース
作成装置および音声データベース作成方法および記録媒
体に関する。
【従来の技術】高性能な音声認識や、高音質な音声合成
を行うためには、音声認識用の高精度な音響モデル、あ
るいは音声合成用の高品質な音声素片が必要であり、そ
れらの学習、あるいは抽出を行うための音声データベー
スの整備が不可欠となる。
【0002】音声データベースの作成を行う際に、もっ
とも厄介な問題は、大量に収集した音声サンプルに対し
て、いかに少ない人的労力で、高い精度の音素ラベル情
報を付与するかという点である。
【0003】ここで、音素ラベル情報の付与とは、連続
して発声された音声データに対して、音声の波形や周波
数スペクトルなどを参考にしながら、それに含まれる個
々の音素の種類を記述した音素ラベル、およびその開始
時刻と終了時刻に関する情報を付与する作業であり、一
般に、その作業にはかなりの労力と熟練が要求される。
【0004】
【発明が解決しようとする課題】本発明は、音声データ
ベース作成に伴う作業者の負担を著しく軽減させること
の可能な音声データベース作成装置および音声データベ
ース作成方法および記録媒体を提供することを目的とし
ている。
【0005】
【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の発明は、仮名文字で記述された読み
を、それを発声した場合に出現し得る音素列候補に展開
する仮名文字展開部と、仮名文字展開部で展開された音
素列候補の中で、実際の音声データに最も良く適合する
音素列を選択する音素列選択部と、音素列選択部で選択
された音素列に従って音声データの各音素の境界位置を
算出する音素セグメンテーション部と、音素列選択部お
よび音素セグメンテーション部で得られた結果を対話的
に修正するための音素境界位置エディタ部とを有してい
ることを特徴としている。
【0006】また、請求項2記載の発明は、請求項1記
載の音声データベース作成装置において、前記音素セグ
メンテーション部は、音声データに対して所定の音響モ
デルを使用して複数の音素列候補の探索経路を算出する
ことで、仮名文字展開部で展開された個々の音素の境界
位置の平均値および分散を算出し、仮名文字展開部で展
開された個々の音素の境界位置の平均値と分散によって
定義される正規分布を、仮名文字展開部で展開された個
々の音素の境界位置の信頼度を表す指標として用いるこ
とを特徴としている。
【0007】また、請求項3記載の発明は、請求項2記
載の音声データベース作成装置において、前記音素セグ
メンテーション部は、複数の候補から仮名文字展開部で
展開された個々の音素の境界位置の平均および分散を求
める際に、複数の探索経路から求められる音素の境界位
置の情報に対して、その経路のスコアに応じた重みを乗
じて集計することを特徴としている。
【0008】また、請求項4記載の発明は、請求項2記
載の音声データベース作成装置において、前記音素セグ
メンテーション部は、大量の候補を高速に算出するため
に、A*探索法を利用することを特徴としている。
【0009】また、請求項5記載の発明は、請求項1記
載の音声データベース作成装置において、前記音素セグ
メンテーション部は、音声データに対して所定の音響モ
デルを使用して複数の音素列候補の探索経路を算出する
ことで、仮名文字展開部で展開された個々の音素の境界
位置の平均値および分散を算出し、仮名文字展開部で展
開された個々の音素の境界位置の平均値と分散によって
定義される正規分布を、仮名文字展開部で展開された個
々の音素の境界位置の信頼度を表す指標として用い、ま
た、前記音素境界位置エディタ部は、音声セグメンテー
ション部において得られたそれぞれの音素境界位置の信
頼度を表す正規分布から求められる音素境界位置の信頼
度の値を提示することを特徴としている。
【0010】また、請求項6記載の発明は、請求項1記
載の音声データベース作成装置において、前記音素セグ
メンテーション部は、音声データに対して所定の音響モ
デルを使用して複数の音素列候補の探索経路を算出する
ことで、仮名文字展開部で展開された個々の音素の境界
位置の平均値および分散を算出し、仮名文字展開部で展
開された個々の音素の境界位置の平均値と分散によって
定義される正規分布を、仮名文字展開部で展開された個
々の音素の境界位置の信頼度を表す指標として用い、ま
た、前記音素境界位置エディタ部は、音素セグメンテー
ション部において得られたそれぞれの音素境界位置の信
頼度を表す正規分布から求められる音素境界位置の信頼
度の値に応じて、カーソルの色を変化させることを特徴
としている。
【0011】また、請求項7記載の発明は、請求項1記
載の音声データベース作成装置において、前記音素セグ
メンテーション部は、音声データに対して所定の音響モ
デルを使用して複数の音素列候補の探索経路を算出する
ことで、仮名文字展開部で展開された個々の音素の境界
位置の平均値および分散を算出し、仮名文字展開部で展
開された個々の音素の境界位置の平均値と分散によって
定義される正規分布を、仮名文字展開部で展開された個
々の音素の境界位置の信頼度を表す指標として用い、ま
た、前記音素境界位置エディタ部は、音素セグメンテー
ション部において得られたそれぞれの音素境界位置の分
散に応じて、マニュアル操作で移動可能な音素境界位置
の範囲に制限を設けることを特徴としている。
【0012】また、請求項8記載の発明は、仮名文字で
記述された読みを、それを発声した場合に出現し得る音
素列候補に展開し、展開された音素列候補の中で、実際
の音声データに最も良く適合する音素列を選択させ、選
択された音素列に従って音声データの各音素の境界位置
を算出し、算出された各音素の境界位置を対話的に修正
することで、音声データベースを作成することを特徴と
している。
【0013】また、請求項9記載の発明は、仮名文字で
記述された読みを、それを発声した場合に出現し得る音
素列候補に展開し、展開された音素列候補の中で、実際
の音声データに最も良く適合する音素列を選択させ、選
択された音素列に従って音声データの各音素の境界位置
を算出し、算出された各音素の境界位置を対話的に修正
することで、音声データベースを作成する処理をコンピ
ュータに実行させるためのプログラムを記録したコンピ
ュータ読取可能な記録媒体を特徴としている。
【0014】
【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図1は本発明に係る音声データベー
ス作成装置の構成例を示す図である。図1を参照する
と、この音声データベース作成装置は、音声認識のため
の音響モデル学習用サンプルの作成や、音声合成のため
の音声素片の作成などの用途に使用される音素ラベル付
きの音声データベースを作成するためのものであって、
仮名文字で記述された読みを、それを発声した場合に出
現し得る音素列候補に展開する仮名文字展開部1と、仮
名文字展開部1で展開された音素列候補の中で、実際の
音声データに最も良く適合する音素列を選択する音素列
選択部2と、音素列選択部2で選択された音素列に従っ
て音声データの各音素の境界位置を算出する音素セグメ
ンテーション部3と、音素列選択部2および音素セグメ
ンテーション部3で得られた結果を対話的に修正するた
めの音素境界位置エディタ部4とを有している。
【0015】ここで、仮名文字展開部1は、仮名文字で
表記された読み情報から音素記号列への展開を行なう機
能を有している。仮名文字で表記された読み情報から音
素記号列への展開を行なうための具体的な処理内容は、
最終的な音素体系をどのように定めるかに依存するが、
一般的には、以下の3段階の変換により実現することが
できる。
【0016】すなわち、第1段階として、表記記号とし
ての仮名文字から表音記号としての仮名文字への展開を
行なう。
【0017】日本語の表記文字としての仮名文字は、ほ
とんどのものが実際の発音と一対一に対応しているが、
エ段母音の後の「い」や、オ段母音の後の「う」に関し
ては、文字通り「い」や「え」と発音される他に、先行
母音の長音化という形で発音される場合がある。例えば
「そうさ」を発音する場合、「ソウサ」と「ソーサ」の
2通りの可能性が存在する。
【0018】また、が行の音節については、子音"g"の
音が鼻音化する場合としない場合の2通りの可能性が存
在する。例えば「にほんご」を発音する場合、「ニホン
ゴ」と「ニホンコ゜」の2通りの可能性が存在する(ただ
し「コ゜」は、鼻音化した「ゴ」の音を表すものとす
る)。
【0019】このような規則を考慮して、表記記号とし
ての仮名文字を表音記号としての仮名文字へ展開する規
則は、一般に一対多対応の変換規則となり、例えば次の
ように記述することができる。
【0020】「こう」 → 「コウ」、「コー」 「が」 → 「ガ」、「カ゜」 「っ」 → 「ッ」
【0021】この規則を、表記記号としての仮名文字に
対してこの表の出現順に繰返し適用する(展開規則に複
数の可能性がある規則を適用する場合には、その数だけ
候補の複製を作成した後、それぞれの規則を適用する)
ことによって、表音記号としての仮名文字候補を得るこ
とができる。
【0022】例えば、「がっこう」の場合、まず「こ
う」の部分(この時点で「がっコウ」と「がっコー」の
2つの候補が得られる)、次に「が」の部分(この時点で
「ガっコウ」と「ガっコー」と「カ゜っコウ」と「カ゜
っコー」との4つの候補が得られる)、最後に「っ」の
部分がそれぞれ変換されて、最終的に、「ガッコウ」と
「ガッコー」と「カ゜ッコウ」と「カ゜ッコー」との4
つの候補が得られることになる。
【0023】なお、この部分の処理で使用される変換規
則は、採用する音素体系には依存しない。
【0024】次に、第2段階として、表音記号としての
仮名文字から音素列への展開を行なう。
【0025】この段階では、個々の表音文字から実際の
音素並びへの変換を行う。母音“i”や“u”の無声化
の可能性についても、この段階で考慮する。
【0026】この部分の処理で使用される変換規則は、
採用する音素体系に依存するが、この部分も第1段階と
同様、一般に一対多対応の変換規則により記述される。
【0027】この変換規則は、例えば次のようになる。
【0028】「カ゜」 → “G a” 「ガ」 → “+ g a” 「ッ」 → “Q” 「コ」 → “− K o” 「ウ」 → “u” 「ー」 → “L”
【0029】この変換により、「ガッコウ」「ガッコ
ー」「カ゜ッコウ」「カ゜ッコー」の4通りの表音記号
は、「_ + g a Q− k o u _」「_ + g a
Q −k o L _」「_ G a Q − k o u _」
「_ G a Q − k o L _」の4通りの音素列に展
開される。
【0030】次に、第3段階として、音素コンテキスト
を考慮した音素列の変換を行なう。すなわち、第3段階
では、第2段階までの変換で考慮されていない音素コン
テキストの影響を反映させるための変換を行なう。
【0031】このための規則は、例えば次のようにな
る。 “Q −” → “Q,−” (促音と無音の区別はできないため、こ の2つを融合ラベルとする) “_ G” → “_ + g” (語頭のが行音は鼻音化しない) “ L” → “L” (長音記号は先行母音にくっつける)
【0032】この規則を適用した場合、同じ音素列の候
補が複数生成される可能性があるため、そのような候補
は1つで代表させることで、最終的な音素列を得ること
ができる。
【0033】例えば、第2段階で得られた「_ + g
a Q − k o u _」「_ + ga Q − k oL
_」「_ G a Q − k o u _」「_ G a Q −
koL_」の4通りの音素列については、最終的に
「_ + g a Q,− k o u_」「_ + g a Q,
− k oL _」の2つの音素列が得られる。
【0034】また、音素列選択部2は、仮名文字展開部
1で得られた複数の音素列の中から、実際の音声サンプ
ルに適したものを選択するための処理を行なうようにな
っている。従って、仮名文字展開部1で得られた音素列
が1種類だけのものであった場合、音素列選択部2にお
ける処理は省略される。
【0035】音素列選択部2における実際の処理は、各
音素列候補に対する認識スコア(尤度)を求めて、認識ス
コアの大きい順に各音素列候補に順位付けを行ない、最
大の認識スコアを示した候補を音素セグメンテーション
部3に与えるというものである。
【0036】音素列選択部2で使用される音声認識手法
は、仮名文字展開部1で得られる音素列の候補数が、通
常の単語であれば多くても数十〜百程度の範囲に収まる
ことを考えると、一般に数百語程度の認識が可能な認識
手法であればどのようなものであっても構わない。
【0037】ただし、音素列選択部2での認識処理は、
一般の音声認識に比べて、その識別対象がどれもかなり
類似したものとなるため、候補間の僅かな差異を的確に
識別することのできる高い認識能力を持つものである必
要がある。
【0038】また、音素セグメンテーション部3は、音
素列選択部2で選択された音素列に従って音声データの
各音素の境界位置を算出するようになっている。具体的
に、音素の境界位置の算出処理,すなわち、音素セグメ
ンテーションを実行する方法としては、Viterbi
探索による方法が知られている。
【0039】Viterbi探索による方法は、与えら
れた音響パラメータに対して、音素ラベル列に従って音
素HMM(HMM:隠れマルコフモデル)を連結した単
語HMMを適用し、最適な状態経路を探索するというも
のである。これにより、最適経路に基づく音素境界を一
意に決定することができる。
【0040】しかし、実際の音声は、調音結合の影響な
どにより、明確な音素境界を決定できない場合も多く、
Viterbi探索による方法で得られる音素境界情報
にもかなりの曖昧性(誤差)が含まれていることが予想さ
れる。
【0041】そこで、より有効な音素境界情報として、
音素境界位置だけでなくその信頼度を定量的に表すこと
のできる何らかの指標を導入したい。そこで、本発明で
は、N個(N>1)の音素列候補の探索経路から得られ
る複数の音素境界情報からそのばらつき(分散)を求め、
これを信頼度の指標として用いることができる。ここ
で、N個(N>1)の音素列候補としては、候補の中で
上位第1位から第N位までの候補が用いられる。この上
位第1位から第N位までの候補を、以下では、N−be
st候補と称する。また、探索経路としては、Vite
rbi経路を用いることができる。
【0042】一般に、N−best候補(複数候補)の
Viterbi経路を求める場合、第2位候補以下に
は、第1位候補の経路とごく一部分のアライメントのみ
が異なるような経路が大量に湧き出してくる。この場
合、個々の経路から得られる情報量が少ないため、仮に
N−best候補(複数候補)の探索を行なっても、1
0音素程度から成る音声に対して全ての音素境界のばら
つきを推定できる十分な数の候補を得るためには、候補
の数(Nの値)を相当大きく(数百〜数千程度に)しなけ
ればならない。このような探索を単純なViterbi
探索法の応用(N−best対応化)で行なうことは非現
実的である。
【0043】そこで、そのような探索を高速で実現する
ことができ、大語彙の音声認識手法としても実績のある
A*探索法を使用することができる。A*探索法には、最
適解が高速に探索できることに加えて、高速かつ柔軟な
N−best解の探索が可能であるという大きな利点が
ある。ここでは、この特徴を活かして、候補数を100
0程度とするN−best候補の算出を行なう。すなわ
ち、音素セグメンテーション部3は、大量の候補(大量
のN−best候補)を高速に算出するための手段とし
て、A*探索法を利用し、各候補から得られたそれぞれ
の音素境界位置の平均値および分散を求めることで、各
音素境界位置を正規分布として求めることができる。
【0044】このように、音素セグメンテーション部3
は、音声データに対してHMM(隠れマルコフモデル)
に代表される音響モデルを使用してN個(N>1)の音
素列候補(N−best候補)の探索経路(Viter
bi経路)を算出することで、仮名文字展開部1で展開
された個々の音素の境界位置の点推定値(平均値)だけで
なく、その区間推定値(分散)についても算出し、仮名文
字展開部1で展開された個々の音素の境界位置の平均値
と分散によって定義される正規分布を、仮名文字展開部
1で展開された個々の音素の境界位置の信頼度を表す指
標として用いるようになっている。
【0045】なお、この音素境界位置の正規分布を求め
る際に、N個の候補から得られる音素境界位置から単純
に平均値や分散を計算するのではなく、各候補から得ら
れる音素境界位置に対して、その候補のスコアに応じた
重み付けを行なった後で平均値や分散を計算すること
で、最終的に得られる正規分布の信頼性の向上を図るこ
とも可能である。
【0046】すなわち、音素セグメンテーション部3
は、N個(N>1)の候補(N−best候補)から仮
名文字展開部1で展開された個々の音素の境界位置の平
均および分散を求める際に、N個の探索経路(Vite
rbi経路)から求められる音素の境界位置の情報に対
して、その経路のスコアに応じた重みを乗じて集計する
ことで、より信頼性の高い平均値および分散値を求める
ことができる。
【0047】音素のラベリング処理は、現在の技術レベ
ルでは完全に自動化することは難しい。そのため、最終
的には、人間が自動的に得られた結果の妥当性を判断
し、必要に応じて編集を行なう必要がある。
【0048】音素境界位置エディタ部4は、仮名文字展
開部1,音素列選択部2,音素セグメンテーション部3
で得られた結果を作業者に分かり易く提示するようにな
っており、これによって、編集作業の支援を図ることが
可能に構成されている。
【0049】図2は音素境界位置エディタ部4の画面表
示例を示す図である。
【0050】図2において、(a)は音素列提示窓であ
り、音素列提示窓(a)には、仮名文字展開部1で得られ
た複数の音素列が、音素列選択部2で得られたスコアの
順に表示されている。初期状態では、図2にハッチング
で示すように最も高いスコアを持つ音素列が選択されて
いるが、別の候補を選択することで、音素セグメンテー
ション部3に与える音素列を変更することができる。
【0051】また、図2において、(b)は全体波形表示
窓であり、全体波形表示窓(b)は、編集作業の対象とな
っている音声波形全体や、音素セグメンテーション部3
で得られた各音素の境界位置を表示するためのものであ
る。なお、全体波形表示窓(b)には、後述のように、拡
大波形表示窓/音素境界編集用窓(c)に表示する部分波
形の範囲指定用窓(e)も併せて表示される。
【0052】また、図2において、(c)は拡大波形表示
/音素境界編集用窓であり、拡大波形表示/音素境界編
集用窓(c)は、全体波形表示窓(b)や、全体波形表示窓
(b)内に表示される範囲指定窓(e)で選択された部分の波
形を表示するための窓である。なお、拡大波形表示/音
素境界編集用窓(c)に表示される部分波形の範囲指定窓
(e)の大きさは、マウス操作によって自由に伸縮するこ
とができ、その結果に応じて拡大する範囲を変更するこ
とができる。また、拡大波形表示/音素境界編集用窓
(c)において、音素境界位置の変更を、この窓(c)内に表
示されるカーソル(d)を移動することで行なうことがで
きるようになっている。
【0053】カーソル(d)を移動する場合には、以下の
モードを選択することができる。
【0054】すなわち、第1のモードとして、音素セグ
メンテーション部3で得られている各音素境界の正規分
布の値をそのまま表示するモードを選択できる。この第
1のモードでは、音素境界位置エディタ部4は、音声セ
グメンテーション部3において得られたそれぞれの音素
境界位置の信頼度を表す正規分布から求められる音素境
界位置の信頼度の値を提示する(表示する)ことによっ
て、編集中の音素境界位置の妥当性を作業者に提示する
ことができる。
【0055】また、第2のモードとして、音素セグメン
テーション部3で得られている各音素境界の正規分布の
値に応じて、カーソルの色を変化させるモードを選択で
きる。この第2モードでは、音素境界位置エディタ部4
は、音素セグメンテーション部3において得られたそれ
ぞれの音素境界位置の信頼度を表す正規分布から求めら
れる音素境界位置の信頼度の値に応じて、カーソルの色
を変化させる(例えば信頼度が高い時には赤で、信頼度
が低くなるに従って、赤→黄→緑→青を連続的に変化さ
せる)ことによって、編集中の境界位置の妥当性を直感
的に分かり易い形で作業者に提示することができる。
【0056】また、第3のモードとして、音素セグメン
テーション部3で得られている各音素境界の分散の値に
応じて、カーソルの移動可能範囲に制限を設けるモード
を選択できる。この第3モードでは、音素境界位置エデ
ィタ部4は、音素セグメンテーション部3において得ら
れたそれぞれの音素境界位置の区間推定値(分散)に応じ
て、マニュアル操作で移動可能な音素境界位置の範囲に
制限を設けることができる。
【0057】また、上記第1,第2,第3のモードを適
宜組み合わせることもできる。
【0058】なお、拡大波形表示/音素境界編集用窓
(c)で行なわれた音素境界の編集結果は、直ちに全体波
形表示窓(b)内に表示されている音素境界位置にも反映
される。
【0059】このように、本発明では、仮名文字で記述
された読みを、それを発声した場合に出現し得る音素列
候補に仮名文字展開部1で展開し、仮名文字展開部1で
展開された音素列候補の中で、実際の音声データに最も
良く適合する音素列を音素列選択部2で選択させ、音素
列選択部2で選択された音素列に従って音声データの各
音素の境界位置を音素セグメンテーション部3で算出
し、音素列選択部2および音素セグメンテーション部3
で得られた結果を音素境界位置エディタ部4で対話的に
修正するようになっているので、高精度な音素ラベル付
き音声データベースを半自動的に作成することができ
る。
【0060】図3は図1の音声データベース作成装置の
ハードウェア構成例を示す図である。図3を参照する
と、この音声データベース作成装置は、例えばワークス
テーションやパーソナルコンピュータ等で実現され、全
体を制御するCPU21と、CPU21の制御プログラ
ム等が記憶されているROM22と、CPU21のワー
クエリア等として使用されるRAM23と、キーボード
やマウスなどの操作部24と、ディスプレイ26とを有
している。
【0061】ここで、CPU21は、図1の仮名文字展
開部1,音素列選択部2,音素セグメンテーション部
3,音素境界位置エディタ部4の機能を有している。
【0062】なお、CPU21におけるこのような仮名
文字展開部1,音素列選択部2,音素セグメンテーショ
ン部3,音素境界位置エディタ部4等としての機能は、
例えばソフトウェアパッケージ(具体的には、CD−R
OM等の情報記録媒体)の形で提供することができ、こ
のため、図3の例では、情報記録媒体30がセットさせ
るとき、これを駆動する媒体駆動装置31が設けられて
いる。
【0063】換言すれば、本発明の音声データベース作
成装置は、操作部,ディスプレイ等を備えた汎用の計算
機システムにCD−ROM等の情報記録媒体に記録され
たプログラムを読み込ませて、この汎用計算機システム
のマイクロプロセッサに音声データベース作成処理を実
行させる装置構成においても実施することが可能であ
る。この場合、本発明の音声データベース作成処理を実
行するためのプログラム(すなわち、ハードウェアシス
テムで用いられるプログラム)は、媒体に記録された状
態で提供される。プログラムなどが記録される情報記録
媒体としては、CD−ROMに限られるものではなく、
ROM,RAM,フレキシブルディスク,メモリカード
等が用いられても良い。媒体に記録されたプログラム
は、ハードウェアシステムに組み込まれている記憶装
置、例えばハードディスク装置にインストールされるこ
とにより、このプログラムを実行して、音声データベー
ス作成処理機能を実現することができる。
【0064】
【発明の効果】以上に説明したように、請求項1乃至請
求項9記載の発明によれば、仮名文字で記述された読み
を、それを発声した場合に出現し得る音素列候補に展開
する仮名文字展開部と、仮名文字展開部で展開された音
素列候補の中で、実際の音声データに最も良く適合する
音素列を選択する音素列選択部と、音素列選択部で選択
された音素列に従って音声データの各音素の境界位置を
算出する音素セグメンテーション部と、音素列選択部お
よび音素セグメンテーション部で得られた結果を対話的
に修正するための音素境界位置エディタ部とを有してい
るので、高精度な音素ラベル付き音声データベースを半
自動的に作成することができる。すなわち、実際の音声
サンプルに対応する音素列の決定や個々の音素境界位置
の決定という、一般に知識や経験が要求される作業が自
動化されるため、音声データベースの作成に必要な人的
労力が軽減され、未熟練者でも高品質な音声データベー
スの作成することができる。
【0065】特に、請求項2記載の発明によれば、請求
項1記載の音声データベース作成装置において、前記音
素セグメンテーション部は、音声データに対して所定の
音響モデルを使用して複数の音素列候補の探索経路を算
出することで、仮名文字展開部で展開された個々の音素
の境界位置の平均値および分散を算出し、仮名文字展開
部で展開された個々の音素の境界位置の平均値と分散に
よって定義される正規分布を、仮名文字展開部で展開さ
れた個々の音素の境界位置の信頼度を表す指標として用
いるようになっており、自動的に推定された音素境界位
置に含まれる誤差の可能性に関する情報を信頼度という
形でデータベースの利用者に提供することができるた
め、利用者側での対処が容易になる。
【0066】また、請求項3記載の発明によれば、請求
項2記載の音声データベース作成装置において、前記音
素セグメンテーション部は、複数の候補から仮名文字展
開部で展開された個々の音素の境界位置の平均および分
散を求める際に、複数の探索経路から求められる音素の
境界位置の情報に対して、その経路のスコアに応じた重
みを乗じて集計することで、より信頼性の高い平均値お
よび分散値を求めることができる。すなわち、音素境界
位置の算出時に、各候補のスコアを利用するために、よ
り推定精度の高い音素境界情報を算出することが可能に
なる。
【0067】また、請求項4記載の発明によれば、請求
項2記載の音声データベース作成装置において、前記音
素セグメンテーション部は、大量の候補を高速に算出す
るために、A*探索法を利用するようになっており、こ
の場合には、候補の探索において多数の候補算出が可能
になるため、そこから得られる音素境界位置の点推定値
(平均値)や区間推定値(分散)といった統計量の信頼度を
高めることが可能になる。
【0068】また、請求項5記載の発明によれば、請求
項1記載の音声データベース作成装置において、前記音
素セグメンテーション部は、音声データに対して所定の
音響モデルを使用して複数の音素列候補の探索経路を算
出することで、仮名文字展開部で展開された個々の音素
の境界位置の平均値および分散を算出し、仮名文字展開
部で展開された個々の音素の境界位置の平均値と分散に
よって定義される正規分布を、仮名文字展開部で展開さ
れた個々の音素の境界位置の信頼度を表す指標として用
い、また、前記音素境界位置エディタ部は、音声セグメ
ンテーション部において得られたそれぞれの音素境界位
置の信頼度を表す正規分布から求められる音素境界位置
の信頼度の値を提示するので、編集中の音素境界位置の
妥当性を作業者に提示することができ(換言すれば、自
動的に推定された音素境界位置の信頼度の値を表示する
ことによって、編集作業の妥当性を作業者に正確に提示
することができ)、音素境界位置の編集結果の質を高い
レベルに維持することが可能になる。
【0069】また、請求項6記載の発明によれば、請求
項1記載の音声データベース作成装置において、前記音
素セグメンテーション部は、音声データに対して所定の
音響モデルを使用して複数の音素列候補の探索経路を算
出することで、仮名文字展開部で展開された個々の音素
の境界位置の平均値および分散を算出し、仮名文字展開
部で展開された個々の音素の境界位置の平均値と分散に
よって定義される正規分布を、仮名文字展開部で展開さ
れた個々の音素の境界位置の信頼度を表す指標として用
い、また、前記音素境界位置エディタ部は、音素セグメ
ンテーション部において得られたそれぞれの音素境界位
置の信頼度を表す正規分布から求められる音素境界位置
の信頼度の値に応じて、カーソルの色を変化させるの
で、編集中の境界位置の妥当性を直感的に分かり易い形
で作業者に提示することができ(換言すれば、自動的に
推定された音素境界位置の信頼度に応じてカーソルの色
を変化させることによって、編集作業の妥当性を直感的
に分かり易い形で作業者に提示することができ)、音素
境界位置の編集結果の質を高いレベルに維持することが
可能になる。
【0070】また、請求項7記載の発明によれば、請求
項1記載の音声データベース作成装置において、前記音
素セグメンテーション部は、音声データに対して所定の
音響モデルを使用して複数の音素列候補の探索経路を算
出することで、仮名文字展開部で展開された個々の音素
の境界位置の平均値および分散を算出し、仮名文字展開
部で展開された個々の音素の境界位置の平均値と分散に
よって定義される正規分布を、仮名文字展開部で展開さ
れた個々の音素の境界位置の信頼度を表す指標として用
い、また、前記音素境界位置エディタ部は、音素セグメ
ンテーション部において得られたそれぞれの音素境界位
置の分散に応じて、マニュアル操作で移動可能な音素境
界位置の範囲に制限を設けるので(すなわち、分散が小
さい音素境界に関しては、作業者の未熟さに起因するミ
スなどによってその位置が大きく変更されることがない
ように強い制約を設け、分散が大きい音素境界に関して
はその値に応じてある程度自由に変更可能にすることに
よって)、音素境界位置の編集結果の質を高いレベルに
維持することが可能になる。
【図面の簡単な説明】
【図1】本発明に係る音声データベース作成装置の構成
例を示す図である。
【図2】音素境界位置エディタ部の画面表示例を示す図
である。
【図3】図1の音声データベース作成装置のハードウェ
ア構成例を示す図である。
【符号の説明】
1 仮名文字展開部 2 音素列選択部 3 音素セグメンテーション部 4 音素境界位置エディタ部

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 仮名文字で記述された読みを、それを発
    声した場合に出現し得る音素列候補に展開する仮名文字
    展開部と、仮名文字展開部で展開された音素列候補の中
    で、実際の音声データに最も良く適合する音素列を選択
    する音素列選択部と、音素列選択部で選択された音素列
    に従って音声データの各音素の境界位置を算出する音素
    セグメンテーション部と、音素列選択部および音素セグ
    メンテーション部で得られた結果を対話的に修正するた
    めの音素境界位置エディタ部とを有していることを特徴
    とする音声データベース作成装置。
  2. 【請求項2】 請求項1記載の音声データベース作成装
    置において、前記音素セグメンテーション部は、音声デ
    ータに対して所定の音響モデルを使用して複数の音素列
    候補の探索経路を算出することで、仮名文字展開部で展
    開された個々の音素の境界位置の平均値および分散を算
    出し、仮名文字展開部で展開された個々の音素の境界位
    置の平均値と分散によって定義される正規分布を、仮名
    文字展開部で展開された個々の音素の境界位置の信頼度
    を表す指標として用いることを特徴とする音声データベ
    ース作成装置。
  3. 【請求項3】 請求項2記載の音声データベース作成装
    置において、前記音素セグメンテーション部は、複数の
    候補から仮名文字展開部で展開された個々の音素の境界
    位置の平均および分散を求める際に、複数の探索経路か
    ら求められる音素の境界位置の情報に対して、その経路
    のスコアに応じた重みを乗じて集計することを特徴とす
    る音声データベース作成装置。
  4. 【請求項4】 請求項2記載の音声データベース作成装
    置において、前記音素セグメンテーション部は、大量の
    候補を高速に算出するために、A*探索法を利用するこ
    とを特徴とする音声データベース作成装置。
  5. 【請求項5】 請求項1記載の音声データベース作成装
    置において、前記音素セグメンテーション部は、音声デ
    ータに対して所定の音響モデルを使用して複数の音素列
    候補の探索経路を算出することで、仮名文字展開部で展
    開された個々の音素の境界位置の平均値および分散を算
    出し、仮名文字展開部で展開された個々の音素の境界位
    置の平均値と分散によって定義される正規分布を、仮名
    文字展開部で展開された個々の音素の境界位置の信頼度
    を表す指標として用い、また、前記音素境界位置エディ
    タ部は、音声セグメンテーション部において得られたそ
    れぞれの音素境界位置の信頼度を表す正規分布から求め
    られる音素境界位置の信頼度の値を提示することを特徴
    とする音声データベース作成装置。
  6. 【請求項6】 請求項1記載の音声データベース作成装
    置において、前記音素セグメンテーション部は、音声デ
    ータに対して所定の音響モデルを使用して複数の音素列
    候補の探索経路を算出することで、仮名文字展開部で展
    開された個々の音素の境界位置の平均値および分散を算
    出し、仮名文字展開部で展開された個々の音素の境界位
    置の平均値と分散によって定義される正規分布を、仮名
    文字展開部で展開された個々の音素の境界位置の信頼度
    を表す指標として用い、また、前記音素境界位置エディ
    タ部は、音素セグメンテーション部において得られたそ
    れぞれの音素境界位置の信頼度を表す正規分布から求め
    られる音素境界位置の信頼度の値に応じて、カーソルの
    色を変化させることを特徴とする音声データベース作成
    装置。
  7. 【請求項7】 請求項1記載の音声データベース作成装
    置において、前記音素セグメンテーション部は、音声デ
    ータに対して所定の音響モデルを使用して複数の音素列
    候補の探索経路を算出することで、仮名文字展開部で展
    開された個々の音素の境界位置の平均値および分散を算
    出し、仮名文字展開部で展開された個々の音素の境界位
    置の平均値と分散によって定義される正規分布を、仮名
    文字展開部で展開された個々の音素の境界位置の信頼度
    を表す指標として用い、また、前記音素境界位置エディ
    タ部は、音素セグメンテーション部において得られたそ
    れぞれの音素境界位置の分散に応じて、マニュアル操作
    で移動可能な音素境界位置の範囲に制限を設けることを
    特徴とする音声データベース作成装置。
  8. 【請求項8】 仮名文字で記述された読みを、それを発
    声した場合に出現し得る音素列候補に展開し、展開され
    た音素列候補の中で、実際の音声データに最も良く適合
    する音素列を選択させ、選択された音素列に従って音声
    データの各音素の境界位置を算出し、算出された各音素
    の境界位置を対話的に修正することで、音声データベー
    スを作成することを特徴とする音声データベース作成方
    法。
  9. 【請求項9】 仮名文字で記述された読みを、それを発
    声した場合に出現し得る音素列候補に展開し、展開され
    た音素列候補の中で、実際の音声データに最も良く適合
    する音素列を選択させ、選択された音素列に従って音声
    データの各音素の境界位置を算出し、算出された各音素
    の境界位置を対話的に修正することで、音声データベー
    スを作成する処理をコンピュータに実行させるためのプ
    ログラムを記録したコンピュータ読取可能な記録媒体。
JP2000131529A 2000-04-26 2000-04-26 音声データベース作成装置および音声データベース作成方法および記録媒体 Pending JP2001306087A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000131529A JP2001306087A (ja) 2000-04-26 2000-04-26 音声データベース作成装置および音声データベース作成方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000131529A JP2001306087A (ja) 2000-04-26 2000-04-26 音声データベース作成装置および音声データベース作成方法および記録媒体

Publications (1)

Publication Number Publication Date
JP2001306087A true JP2001306087A (ja) 2001-11-02

Family

ID=18640411

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000131529A Pending JP2001306087A (ja) 2000-04-26 2000-04-26 音声データベース作成装置および音声データベース作成方法および記録媒体

Country Status (1)

Country Link
JP (1) JP2001306087A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297188A (ja) * 2001-03-30 2002-10-11 Konami Computer Entertainment Yokyo Inc 音声編集装置及び音声編集プログラム
WO2003098597A1 (fr) * 2002-05-16 2003-11-27 Japan Science And Technology Agency Dispositif d'extraction de noyau syllabique et progiciel associe
JP2004133477A (ja) * 2002-10-14 2004-04-30 Sony Internatl Europ Gmbh 音声認識方法、音声認識方法のためのコンピュータプログラム、及びそのコンピュータプログラムが記録された記憶媒体
WO2004072952A1 (ja) * 2003-02-17 2004-08-26 Kabushiki Kaisha Kenwood 音声合成処理システム
JP2008180750A (ja) * 2007-01-23 2008-08-07 Oki Electric Ind Co Ltd 音声ラベリング支援システム
JP2008233542A (ja) * 2007-03-20 2008-10-02 Fujitsu Ltd 韻律修正装置、韻律修正方法、および、韻律修正プログラム
JP2009020387A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 楽曲を制作するための装置およびプログラム
JP2011013594A (ja) * 2009-07-06 2011-01-20 Nippon Telegr & Teleph Corp <Ntt> 音素分割装置、方法及びプログラム
JP2013238664A (ja) * 2012-05-11 2013-11-28 Yamaha Corp 音声素片切出装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297188A (ja) * 2001-03-30 2002-10-11 Konami Computer Entertainment Yokyo Inc 音声編集装置及び音声編集プログラム
WO2003098597A1 (fr) * 2002-05-16 2003-11-27 Japan Science And Technology Agency Dispositif d'extraction de noyau syllabique et progiciel associe
US7627468B2 (en) 2002-05-16 2009-12-01 Japan Science And Technology Agency Apparatus and method for extracting syllabic nuclei
JP2004133477A (ja) * 2002-10-14 2004-04-30 Sony Internatl Europ Gmbh 音声認識方法、音声認識方法のためのコンピュータプログラム、及びそのコンピュータプログラムが記録された記憶媒体
WO2004072952A1 (ja) * 2003-02-17 2004-08-26 Kabushiki Kaisha Kenwood 音声合成処理システム
JP2008180750A (ja) * 2007-01-23 2008-08-07 Oki Electric Ind Co Ltd 音声ラベリング支援システム
JP2008233542A (ja) * 2007-03-20 2008-10-02 Fujitsu Ltd 韻律修正装置、韻律修正方法、および、韻律修正プログラム
JP2009020387A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 楽曲を制作するための装置およびプログラム
JP2011013594A (ja) * 2009-07-06 2011-01-20 Nippon Telegr & Teleph Corp <Ntt> 音素分割装置、方法及びプログラム
JP2013238664A (ja) * 2012-05-11 2013-11-28 Yamaha Corp 音声素片切出装置

Similar Documents

Publication Publication Date Title
JP4189051B2 (ja) 発音測定装置および方法
US7401018B2 (en) Foreign language learning apparatus, foreign language learning method, and medium
US8015011B2 (en) Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases
US7921014B2 (en) System and method for supporting text-to-speech
US7454343B2 (en) Speech synthesizer, speech synthesizing method, and program
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP6645063B2 (ja) ターゲット文字列の推定
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
JP2001306087A (ja) 音声データベース作成装置および音声データベース作成方法および記録媒体
US8275614B2 (en) Support device, program and support method
JP5079718B2 (ja) 外国語学習支援システム、及びプログラム
JP2008268478A (ja) アクセント調整可能な音声合成装置
JP2006313176A (ja) 音声合成装置
JP4584511B2 (ja) 規則音声合成装置
JP5062178B2 (ja) 音声収録システム、音声収録方法、および収録処理プログラム
KR20040061070A (ko) 음성인식시스템에서의 음성인식장치 및 그 방법
JP2002287785A (ja) 音声セグメンテーション装置及びその方法並びにその制御プログラム
JP3378547B2 (ja) 音声認識方法及び装置
JP2011197542A (ja) 韻律パターン生成装置
JP2016142936A (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
JP6340839B2 (ja) 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム
JPH10247097A (ja) 自然発話音声波形信号接続型音声合成装置
US20240005906A1 (en) Information processing device, information processing method, and information processing computer program product
JP2013195928A (ja) 音声素片切出装置
KR20100072962A (ko) 복수의 끊어 읽기 모델을 이용한 음성 합성 장치 및 그 방법