JP2001306087A

JP2001306087A - 音声データベース作成装置および音声データベース作成方法および記録媒体

Info

Publication number: JP2001306087A
Application number: JP2000131529A
Authority: JP
Inventors: Junichi Takami; 淳一鷹見
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2000-04-26
Filing date: 2000-04-26
Publication date: 2001-11-02

Abstract

(57)【要約】【課題】音声データベース作成に伴う作業者の負担を
著しく軽減させる。【解決手段】仮名文字で記述された読みを、それを発
声した場合に出現し得る音素列候補に展開する仮名文字
展開部１と、仮名文字展開部１で展開された音素列候補
の中で、実際の音声データに最も良く適合する音素列を
選択する音素列選択部２と、音素列選択部２で選択され
た音素列に従って音声データの各音素の境界位置を算出
する音素セグメンテーション部３と、音素列選択部２お
よび音素セグメンテーション部３で得られた結果を対話
的に修正するための音素境界位置エディタ部４とを有し
ている。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声データベース
作成装置および音声データベース作成方法および記録媒
体に関する。

【従来の技術】高性能な音声認識や、高音質な音声合成
を行うためには、音声認識用の高精度な音響モデル、あ
るいは音声合成用の高品質な音声素片が必要であり、そ
れらの学習、あるいは抽出を行うための音声データベー
スの整備が不可欠となる。

【０００２】音声データベースの作成を行う際に、もっ
とも厄介な問題は、大量に収集した音声サンプルに対し
て、いかに少ない人的労力で、高い精度の音素ラベル情
報を付与するかという点である。

【０００３】ここで、音素ラベル情報の付与とは、連続
して発声された音声データに対して、音声の波形や周波
数スペクトルなどを参考にしながら、それに含まれる個
々の音素の種類を記述した音素ラベル、およびその開始
時刻と終了時刻に関する情報を付与する作業であり、一
般に、その作業にはかなりの労力と熟練が要求される。

【０００４】

【発明が解決しようとする課題】本発明は、音声データ
ベース作成に伴う作業者の負担を著しく軽減させること
の可能な音声データベース作成装置および音声データベ
ース作成方法および記録媒体を提供することを目的とし
ている。

【０００５】

【課題を解決するための手段】上記目的を達成するため
に、請求項１記載の発明は、仮名文字で記述された読み
を、それを発声した場合に出現し得る音素列候補に展開
する仮名文字展開部と、仮名文字展開部で展開された音
素列候補の中で、実際の音声データに最も良く適合する
音素列を選択する音素列選択部と、音素列選択部で選択
された音素列に従って音声データの各音素の境界位置を
算出する音素セグメンテーション部と、音素列選択部お
よび音素セグメンテーション部で得られた結果を対話的
に修正するための音素境界位置エディタ部とを有してい
ることを特徴としている。

【０００６】また、請求項２記載の発明は、請求項１記
載の音声データベース作成装置において、前記音素セグ
メンテーション部は、音声データに対して所定の音響モ
デルを使用して複数の音素列候補の探索経路を算出する
ことで、仮名文字展開部で展開された個々の音素の境界
位置の平均値および分散を算出し、仮名文字展開部で展
開された個々の音素の境界位置の平均値と分散によって
定義される正規分布を、仮名文字展開部で展開された個
々の音素の境界位置の信頼度を表す指標として用いるこ
とを特徴としている。

【０００７】また、請求項３記載の発明は、請求項２記
載の音声データベース作成装置において、前記音素セグ
メンテーション部は、複数の候補から仮名文字展開部で
展開された個々の音素の境界位置の平均および分散を求
める際に、複数の探索経路から求められる音素の境界位
置の情報に対して、その経路のスコアに応じた重みを乗
じて集計することを特徴としている。

【０００８】また、請求項４記載の発明は、請求項２記
載の音声データベース作成装置において、前記音素セグ
メンテーション部は、大量の候補を高速に算出するため
に、Ａ*探索法を利用することを特徴としている。

【０００９】また、請求項５記載の発明は、請求項１記
載の音声データベース作成装置において、前記音素セグ
メンテーション部は、音声データに対して所定の音響モ
デルを使用して複数の音素列候補の探索経路を算出する
ことで、仮名文字展開部で展開された個々の音素の境界
位置の平均値および分散を算出し、仮名文字展開部で展
開された個々の音素の境界位置の平均値と分散によって
定義される正規分布を、仮名文字展開部で展開された個
々の音素の境界位置の信頼度を表す指標として用い、ま
た、前記音素境界位置エディタ部は、音声セグメンテー
ション部において得られたそれぞれの音素境界位置の信
頼度を表す正規分布から求められる音素境界位置の信頼
度の値を提示することを特徴としている。

【００１０】また、請求項６記載の発明は、請求項１記
載の音声データベース作成装置において、前記音素セグ
メンテーション部は、音声データに対して所定の音響モ
デルを使用して複数の音素列候補の探索経路を算出する
ことで、仮名文字展開部で展開された個々の音素の境界
位置の平均値および分散を算出し、仮名文字展開部で展
開された個々の音素の境界位置の平均値と分散によって
定義される正規分布を、仮名文字展開部で展開された個
々の音素の境界位置の信頼度を表す指標として用い、ま
た、前記音素境界位置エディタ部は、音素セグメンテー
ション部において得られたそれぞれの音素境界位置の信
頼度を表す正規分布から求められる音素境界位置の信頼
度の値に応じて、カーソルの色を変化させることを特徴
としている。

【００１１】また、請求項７記載の発明は、請求項１記
載の音声データベース作成装置において、前記音素セグ
メンテーション部は、音声データに対して所定の音響モ
デルを使用して複数の音素列候補の探索経路を算出する
ことで、仮名文字展開部で展開された個々の音素の境界
位置の平均値および分散を算出し、仮名文字展開部で展
開された個々の音素の境界位置の平均値と分散によって
定義される正規分布を、仮名文字展開部で展開された個
々の音素の境界位置の信頼度を表す指標として用い、ま
た、前記音素境界位置エディタ部は、音素セグメンテー
ション部において得られたそれぞれの音素境界位置の分
散に応じて、マニュアル操作で移動可能な音素境界位置
の範囲に制限を設けることを特徴としている。

【００１２】また、請求項８記載の発明は、仮名文字で
記述された読みを、それを発声した場合に出現し得る音
素列候補に展開し、展開された音素列候補の中で、実際
の音声データに最も良く適合する音素列を選択させ、選
択された音素列に従って音声データの各音素の境界位置
を算出し、算出された各音素の境界位置を対話的に修正
することで、音声データベースを作成することを特徴と
している。

【００１３】また、請求項９記載の発明は、仮名文字で
記述された読みを、それを発声した場合に出現し得る音
素列候補に展開し、展開された音素列候補の中で、実際
の音声データに最も良く適合する音素列を選択させ、選
択された音素列に従って音声データの各音素の境界位置
を算出し、算出された各音素の境界位置を対話的に修正
することで、音声データベースを作成する処理をコンピ
ュータに実行させるためのプログラムを記録したコンピ
ュータ読取可能な記録媒体を特徴としている。

【００１４】

【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図１は本発明に係る音声データベー
ス作成装置の構成例を示す図である。図１を参照する
と、この音声データベース作成装置は、音声認識のため
の音響モデル学習用サンプルの作成や、音声合成のため
の音声素片の作成などの用途に使用される音素ラベル付
きの音声データベースを作成するためのものであって、
仮名文字で記述された読みを、それを発声した場合に出
現し得る音素列候補に展開する仮名文字展開部１と、仮
名文字展開部１で展開された音素列候補の中で、実際の
音声データに最も良く適合する音素列を選択する音素列
選択部２と、音素列選択部２で選択された音素列に従っ
て音声データの各音素の境界位置を算出する音素セグメ
ンテーション部３と、音素列選択部２および音素セグメ
ンテーション部３で得られた結果を対話的に修正するた
めの音素境界位置エディタ部４とを有している。

【００１５】ここで、仮名文字展開部１は、仮名文字で
表記された読み情報から音素記号列への展開を行なう機
能を有している。仮名文字で表記された読み情報から音
素記号列への展開を行なうための具体的な処理内容は、
最終的な音素体系をどのように定めるかに依存するが、
一般的には、以下の３段階の変換により実現することが
できる。

【００１６】すなわち、第１段階として、表記記号とし
ての仮名文字から表音記号としての仮名文字への展開を
行なう。

【００１７】日本語の表記文字としての仮名文字は、ほ
とんどのものが実際の発音と一対一に対応しているが、
エ段母音の後の「い」や、オ段母音の後の「う」に関し
ては、文字通り「い」や「え」と発音される他に、先行
母音の長音化という形で発音される場合がある。例えば
「そうさ」を発音する場合、「ソウサ」と「ソーサ」の
２通りの可能性が存在する。

【００１８】また、が行の音節については、子音"g"の
音が鼻音化する場合としない場合の2通りの可能性が存
在する。例えば「にほんご」を発音する場合、「ニホン
ゴ」と「ニホンコ゜」の2通りの可能性が存在する(ただ
し「コ゜」は、鼻音化した「ゴ」の音を表すものとす
る)。

【００１９】このような規則を考慮して、表記記号とし
ての仮名文字を表音記号としての仮名文字へ展開する規
則は、一般に一対多対応の変換規則となり、例えば次の
ように記述することができる。

【００２０】「こう」 → 「コウ」、「コー」「が」 → 「ガ」、「カ゜」「っ」 → 「ッ」

【００２１】この規則を、表記記号としての仮名文字に
対してこの表の出現順に繰返し適用する(展開規則に複
数の可能性がある規則を適用する場合には、その数だけ
候補の複製を作成した後、それぞれの規則を適用する)
ことによって、表音記号としての仮名文字候補を得るこ
とができる。

【００２２】例えば、「がっこう」の場合、まず「こ
う」の部分(この時点で「がっコウ」と「がっコー」の
２つの候補が得られる)、次に「が」の部分(この時点で
「ガっコウ」と「ガっコー」と「カ゜っコウ」と「カ゜
っコー」との４つの候補が得られる)、最後に「っ」の
部分がそれぞれ変換されて、最終的に、「ガッコウ」と
「ガッコー」と「カ゜ッコウ」と「カ゜ッコー」との４
つの候補が得られることになる。

【００２３】なお、この部分の処理で使用される変換規
則は、採用する音素体系には依存しない。

【００２４】次に、第２段階として、表音記号としての
仮名文字から音素列への展開を行なう。

【００２５】この段階では、個々の表音文字から実際の
音素並びへの変換を行う。母音“ｉ”や“ｕ”の無声化
の可能性についても、この段階で考慮する。

【００２６】この部分の処理で使用される変換規則は、
採用する音素体系に依存するが、この部分も第１段階と
同様、一般に一対多対応の変換規則により記述される。

【００２７】この変換規則は、例えば次のようになる。

【００２８】「カ゜」 → “Ｇａ” 「ガ」 → “＋ｇａ” 「ッ」 → “Ｑ” 「コ」 → “− Ｋｏ” 「ウ」 → “ｕ” 「ー」 → “Ｌ”

【００２９】この変換により、「ガッコウ」「ガッコ
ー」「カ゜ッコウ」「カ゜ッコー」の４通りの表音記号
は、「＿＋ｇａＱ− ｋｏｕ＿」「＿＋ｇａ
Ｑ −ｋｏＬ＿」「＿ＧａＱ − ｋｏｕ＿」
「＿ＧａＱ − ｋｏＬ＿」の４通りの音素列に展
開される。

【００３０】次に、第３段階として、音素コンテキスト
を考慮した音素列の変換を行なう。すなわち、第３段階
では、第２段階までの変換で考慮されていない音素コン
テキストの影響を反映させるための変換を行なう。

【００３１】このための規則は、例えば次のようにな
る。 “Ｑ −” → “Ｑ,−” (促音と無音の区別はできないため、この２つを融合ラベルとする) “＿Ｇ” → “＿＋ｇ” (語頭のが行音は鼻音化しない) “ Ｌ” → “Ｌ” (長音記号は先行母音にくっつける)

【００３２】この規則を適用した場合、同じ音素列の候
補が複数生成される可能性があるため、そのような候補
は１つで代表させることで、最終的な音素列を得ること
ができる。

【００３３】例えば、第２段階で得られた「＿＋ｇ
ａＱ − ｋｏｕ＿」「＿＋ｇａＱ − ｋｏＬ
＿」「＿ＧａＱ − ｋｏｕ＿」「＿ＧａＱ −
ｋｏＬ＿」の４通りの音素列については、最終的に
「＿＋ｇａＱ,− ｋｏｕ＿」「＿＋ｇａＱ,
− ｋｏＬ＿」の２つの音素列が得られる。

【００３４】また、音素列選択部２は、仮名文字展開部
１で得られた複数の音素列の中から、実際の音声サンプ
ルに適したものを選択するための処理を行なうようにな
っている。従って、仮名文字展開部１で得られた音素列
が１種類だけのものであった場合、音素列選択部２にお
ける処理は省略される。

【００３５】音素列選択部２における実際の処理は、各
音素列候補に対する認識スコア(尤度)を求めて、認識ス
コアの大きい順に各音素列候補に順位付けを行ない、最
大の認識スコアを示した候補を音素セグメンテーション
部３に与えるというものである。

【００３６】音素列選択部２で使用される音声認識手法
は、仮名文字展開部１で得られる音素列の候補数が、通
常の単語であれば多くても数十〜百程度の範囲に収まる
ことを考えると、一般に数百語程度の認識が可能な認識
手法であればどのようなものであっても構わない。

【００３７】ただし、音素列選択部２での認識処理は、
一般の音声認識に比べて、その識別対象がどれもかなり
類似したものとなるため、候補間の僅かな差異を的確に
識別することのできる高い認識能力を持つものである必
要がある。

【００３８】また、音素セグメンテーション部３は、音
素列選択部２で選択された音素列に従って音声データの
各音素の境界位置を算出するようになっている。具体的
に、音素の境界位置の算出処理，すなわち、音素セグメ
ンテーションを実行する方法としては、Ｖｉｔｅｒｂｉ
探索による方法が知られている。

【００３９】Ｖｉｔｅｒｂｉ探索による方法は、与えら
れた音響パラメータに対して、音素ラベル列に従って音
素ＨＭＭ（ＨＭＭ：隠れマルコフモデル）を連結した単
語ＨＭＭを適用し、最適な状態経路を探索するというも
のである。これにより、最適経路に基づく音素境界を一
意に決定することができる。

【００４０】しかし、実際の音声は、調音結合の影響な
どにより、明確な音素境界を決定できない場合も多く、
Ｖｉｔｅｒｂｉ探索による方法で得られる音素境界情報
にもかなりの曖昧性(誤差)が含まれていることが予想さ
れる。

【００４１】そこで、より有効な音素境界情報として、
音素境界位置だけでなくその信頼度を定量的に表すこと
のできる何らかの指標を導入したい。そこで、本発明で
は、Ｎ個（Ｎ＞１）の音素列候補の探索経路から得られ
る複数の音素境界情報からそのばらつき(分散)を求め、
これを信頼度の指標として用いることができる。ここ
で、Ｎ個（Ｎ＞１）の音素列候補としては、候補の中で
上位第１位から第Ｎ位までの候補が用いられる。この上
位第１位から第Ｎ位までの候補を、以下では、Ｎ−ｂｅ
ｓｔ候補と称する。また、探索経路としては、Ｖｉｔｅ
ｒｂｉ経路を用いることができる。

【００４２】一般に、Ｎ−ｂｅｓｔ候補（複数候補）の
Ｖｉｔｅｒｂｉ経路を求める場合、第２位候補以下に
は、第１位候補の経路とごく一部分のアライメントのみ
が異なるような経路が大量に湧き出してくる。この場
合、個々の経路から得られる情報量が少ないため、仮に
Ｎ−ｂｅｓｔ候補（複数候補）の探索を行なっても、１
０音素程度から成る音声に対して全ての音素境界のばら
つきを推定できる十分な数の候補を得るためには、候補
の数（Ｎの値）を相当大きく(数百〜数千程度に)しなけ
ればならない。このような探索を単純なＶｉｔｅｒｂｉ
探索法の応用(Ｎ−ｂｅｓｔ対応化)で行なうことは非現
実的である。

【００４３】そこで、そのような探索を高速で実現する
ことができ、大語彙の音声認識手法としても実績のある
Ａ*探索法を使用することができる。Ａ*探索法には、最
適解が高速に探索できることに加えて、高速かつ柔軟な
Ｎ−ｂｅｓｔ解の探索が可能であるという大きな利点が
ある。ここでは、この特徴を活かして、候補数を１００
０程度とするＮ−ｂｅｓｔ候補の算出を行なう。すなわ
ち、音素セグメンテーション部３は、大量の候補（大量
のＮ−ｂｅｓｔ候補）を高速に算出するための手段とし
て、Ａ*探索法を利用し、各候補から得られたそれぞれ
の音素境界位置の平均値および分散を求めることで、各
音素境界位置を正規分布として求めることができる。

【００４４】このように、音素セグメンテーション部３
は、音声データに対してＨＭＭ（隠れマルコフモデル）
に代表される音響モデルを使用してＮ個（Ｎ＞１）の音
素列候補（Ｎ−ｂｅｓｔ候補）の探索経路（Ｖｉｔｅｒ
ｂｉ経路）を算出することで、仮名文字展開部１で展開
された個々の音素の境界位置の点推定値(平均値)だけで
なく、その区間推定値(分散)についても算出し、仮名文
字展開部１で展開された個々の音素の境界位置の平均値
と分散によって定義される正規分布を、仮名文字展開部
１で展開された個々の音素の境界位置の信頼度を表す指
標として用いるようになっている。

【００４５】なお、この音素境界位置の正規分布を求め
る際に、Ｎ個の候補から得られる音素境界位置から単純
に平均値や分散を計算するのではなく、各候補から得ら
れる音素境界位置に対して、その候補のスコアに応じた
重み付けを行なった後で平均値や分散を計算すること
で、最終的に得られる正規分布の信頼性の向上を図るこ
とも可能である。

【００４６】すなわち、音素セグメンテーション部３
は、Ｎ個（Ｎ＞１）の候補（Ｎ−ｂｅｓｔ候補）から仮
名文字展開部１で展開された個々の音素の境界位置の平
均および分散を求める際に、Ｎ個の探索経路（Ｖｉｔｅ
ｒｂｉ経路）から求められる音素の境界位置の情報に対
して、その経路のスコアに応じた重みを乗じて集計する
ことで、より信頼性の高い平均値および分散値を求める
ことができる。

【００４７】音素のラベリング処理は、現在の技術レベ
ルでは完全に自動化することは難しい。そのため、最終
的には、人間が自動的に得られた結果の妥当性を判断
し、必要に応じて編集を行なう必要がある。

【００４８】音素境界位置エディタ部４は、仮名文字展
開部１，音素列選択部２，音素セグメンテーション部３
で得られた結果を作業者に分かり易く提示するようにな
っており、これによって、編集作業の支援を図ることが
可能に構成されている。

【００４９】図２は音素境界位置エディタ部４の画面表
示例を示す図である。

【００５０】図２において、(a)は音素列提示窓であ
り、音素列提示窓(a)には、仮名文字展開部１で得られ
た複数の音素列が、音素列選択部２で得られたスコアの
順に表示されている。初期状態では、図２にハッチング
で示すように最も高いスコアを持つ音素列が選択されて
いるが、別の候補を選択することで、音素セグメンテー
ション部３に与える音素列を変更することができる。

【００５１】また、図２において、(b)は全体波形表示
窓であり、全体波形表示窓(b)は、編集作業の対象とな
っている音声波形全体や、音素セグメンテーション部３
で得られた各音素の境界位置を表示するためのものであ
る。なお、全体波形表示窓(b)には、後述のように、拡
大波形表示窓／音素境界編集用窓(c)に表示する部分波
形の範囲指定用窓(e)も併せて表示される。

【００５２】また、図２において、(c)は拡大波形表示
／音素境界編集用窓であり、拡大波形表示／音素境界編
集用窓(c)は、全体波形表示窓(b)や、全体波形表示窓
(b)内に表示される範囲指定窓(e)で選択された部分の波
形を表示するための窓である。なお、拡大波形表示／音
素境界編集用窓(c)に表示される部分波形の範囲指定窓
(e)の大きさは、マウス操作によって自由に伸縮するこ
とができ、その結果に応じて拡大する範囲を変更するこ
とができる。また、拡大波形表示／音素境界編集用窓
(c)において、音素境界位置の変更を、この窓(c)内に表
示されるカーソル(d)を移動することで行なうことがで
きるようになっている。

【００５３】カーソル(d)を移動する場合には、以下の
モードを選択することができる。

【００５４】すなわち、第１のモードとして、音素セグ
メンテーション部３で得られている各音素境界の正規分
布の値をそのまま表示するモードを選択できる。この第
１のモードでは、音素境界位置エディタ部４は、音声セ
グメンテーション部３において得られたそれぞれの音素
境界位置の信頼度を表す正規分布から求められる音素境
界位置の信頼度の値を提示する（表示する）ことによっ
て、編集中の音素境界位置の妥当性を作業者に提示する
ことができる。

【００５５】また、第２のモードとして、音素セグメン
テーション部３で得られている各音素境界の正規分布の
値に応じて、カーソルの色を変化させるモードを選択で
きる。この第２モードでは、音素境界位置エディタ部４
は、音素セグメンテーション部３において得られたそれ
ぞれの音素境界位置の信頼度を表す正規分布から求めら
れる音素境界位置の信頼度の値に応じて、カーソルの色
を変化させる(例えば信頼度が高い時には赤で、信頼度
が低くなるに従って、赤→黄→緑→青を連続的に変化さ
せる)ことによって、編集中の境界位置の妥当性を直感
的に分かり易い形で作業者に提示することができる。

【００５６】また、第３のモードとして、音素セグメン
テーション部３で得られている各音素境界の分散の値に
応じて、カーソルの移動可能範囲に制限を設けるモード
を選択できる。この第３モードでは、音素境界位置エデ
ィタ部４は、音素セグメンテーション部３において得ら
れたそれぞれの音素境界位置の区間推定値(分散)に応じ
て、マニュアル操作で移動可能な音素境界位置の範囲に
制限を設けることができる。

【００５７】また、上記第１，第２，第３のモードを適
宜組み合わせることもできる。

【００５８】なお、拡大波形表示／音素境界編集用窓
(c)で行なわれた音素境界の編集結果は、直ちに全体波
形表示窓(b)内に表示されている音素境界位置にも反映
される。

【００５９】このように、本発明では、仮名文字で記述
された読みを、それを発声した場合に出現し得る音素列
候補に仮名文字展開部１で展開し、仮名文字展開部１で
展開された音素列候補の中で、実際の音声データに最も
良く適合する音素列を音素列選択部２で選択させ、音素
列選択部２で選択された音素列に従って音声データの各
音素の境界位置を音素セグメンテーション部３で算出
し、音素列選択部２および音素セグメンテーション部３
で得られた結果を音素境界位置エディタ部４で対話的に
修正するようになっているので、高精度な音素ラベル付
き音声データベースを半自動的に作成することができ
る。

【００６０】図３は図１の音声データベース作成装置の
ハードウェア構成例を示す図である。図３を参照する
と、この音声データベース作成装置は、例えばワークス
テーションやパーソナルコンピュータ等で実現され、全
体を制御するＣＰＵ２１と、ＣＰＵ２１の制御プログラ
ム等が記憶されているＲＯＭ２２と、ＣＰＵ２１のワー
クエリア等として使用されるＲＡＭ２３と、キーボード
やマウスなどの操作部２４と、ディスプレイ２６とを有
している。

【００６１】ここで、ＣＰＵ２１は、図１の仮名文字展
開部１，音素列選択部２，音素セグメンテーション部
３，音素境界位置エディタ部４の機能を有している。

【００６２】なお、ＣＰＵ２１におけるこのような仮名
文字展開部１，音素列選択部２，音素セグメンテーショ
ン部３，音素境界位置エディタ部４等としての機能は、
例えばソフトウェアパッケージ(具体的には、ＣＤ−Ｒ
ＯＭ等の情報記録媒体)の形で提供することができ、こ
のため、図３の例では、情報記録媒体３０がセットさせ
るとき、これを駆動する媒体駆動装置３１が設けられて
いる。

【００６３】換言すれば、本発明の音声データベース作
成装置は、操作部，ディスプレイ等を備えた汎用の計算
機システムにＣＤ−ＲＯＭ等の情報記録媒体に記録され
たプログラムを読み込ませて、この汎用計算機システム
のマイクロプロセッサに音声データベース作成処理を実
行させる装置構成においても実施することが可能であ
る。この場合、本発明の音声データベース作成処理を実
行するためのプログラム(すなわち、ハードウェアシス
テムで用いられるプログラム)は、媒体に記録された状
態で提供される。プログラムなどが記録される情報記録
媒体としては、ＣＤ−ＲＯＭに限られるものではなく、
ＲＯＭ，ＲＡＭ，フレキシブルディスク，メモリカード
等が用いられても良い。媒体に記録されたプログラム
は、ハードウェアシステムに組み込まれている記憶装
置、例えばハードディスク装置にインストールされるこ
とにより、このプログラムを実行して、音声データベー
ス作成処理機能を実現することができる。

【００６４】

【発明の効果】以上に説明したように、請求項１乃至請
求項９記載の発明によれば、仮名文字で記述された読み
を、それを発声した場合に出現し得る音素列候補に展開
する仮名文字展開部と、仮名文字展開部で展開された音
素列候補の中で、実際の音声データに最も良く適合する
音素列を選択する音素列選択部と、音素列選択部で選択
された音素列に従って音声データの各音素の境界位置を
算出する音素セグメンテーション部と、音素列選択部お
よび音素セグメンテーション部で得られた結果を対話的
に修正するための音素境界位置エディタ部とを有してい
るので、高精度な音素ラベル付き音声データベースを半
自動的に作成することができる。すなわち、実際の音声
サンプルに対応する音素列の決定や個々の音素境界位置
の決定という、一般に知識や経験が要求される作業が自
動化されるため、音声データベースの作成に必要な人的
労力が軽減され、未熟練者でも高品質な音声データベー
スの作成することができる。

【００６５】特に、請求項２記載の発明によれば、請求
項１記載の音声データベース作成装置において、前記音
素セグメンテーション部は、音声データに対して所定の
音響モデルを使用して複数の音素列候補の探索経路を算
出することで、仮名文字展開部で展開された個々の音素
の境界位置の平均値および分散を算出し、仮名文字展開
部で展開された個々の音素の境界位置の平均値と分散に
よって定義される正規分布を、仮名文字展開部で展開さ
れた個々の音素の境界位置の信頼度を表す指標として用
いるようになっており、自動的に推定された音素境界位
置に含まれる誤差の可能性に関する情報を信頼度という
形でデータベースの利用者に提供することができるた
め、利用者側での対処が容易になる。

【００６６】また、請求項３記載の発明によれば、請求
項２記載の音声データベース作成装置において、前記音
素セグメンテーション部は、複数の候補から仮名文字展
開部で展開された個々の音素の境界位置の平均および分
散を求める際に、複数の探索経路から求められる音素の
境界位置の情報に対して、その経路のスコアに応じた重
みを乗じて集計することで、より信頼性の高い平均値お
よび分散値を求めることができる。すなわち、音素境界
位置の算出時に、各候補のスコアを利用するために、よ
り推定精度の高い音素境界情報を算出することが可能に
なる。

【００６７】また、請求項４記載の発明によれば、請求
項２記載の音声データベース作成装置において、前記音
素セグメンテーション部は、大量の候補を高速に算出す
るために、Ａ*探索法を利用するようになっており、こ
の場合には、候補の探索において多数の候補算出が可能
になるため、そこから得られる音素境界位置の点推定値
(平均値)や区間推定値(分散)といった統計量の信頼度を
高めることが可能になる。

【００６８】また、請求項５記載の発明によれば、請求
項１記載の音声データベース作成装置において、前記音
素セグメンテーション部は、音声データに対して所定の
音響モデルを使用して複数の音素列候補の探索経路を算
出することで、仮名文字展開部で展開された個々の音素
の境界位置の平均値および分散を算出し、仮名文字展開
部で展開された個々の音素の境界位置の平均値と分散に
よって定義される正規分布を、仮名文字展開部で展開さ
れた個々の音素の境界位置の信頼度を表す指標として用
い、また、前記音素境界位置エディタ部は、音声セグメ
ンテーション部において得られたそれぞれの音素境界位
置の信頼度を表す正規分布から求められる音素境界位置
の信頼度の値を提示するので、編集中の音素境界位置の
妥当性を作業者に提示することができ（換言すれば、自
動的に推定された音素境界位置の信頼度の値を表示する
ことによって、編集作業の妥当性を作業者に正確に提示
することができ）、音素境界位置の編集結果の質を高い
レベルに維持することが可能になる。

【００６９】また、請求項６記載の発明によれば、請求
項１記載の音声データベース作成装置において、前記音
素セグメンテーション部は、音声データに対して所定の
音響モデルを使用して複数の音素列候補の探索経路を算
出することで、仮名文字展開部で展開された個々の音素
の境界位置の平均値および分散を算出し、仮名文字展開
部で展開された個々の音素の境界位置の平均値と分散に
よって定義される正規分布を、仮名文字展開部で展開さ
れた個々の音素の境界位置の信頼度を表す指標として用
い、また、前記音素境界位置エディタ部は、音素セグメ
ンテーション部において得られたそれぞれの音素境界位
置の信頼度を表す正規分布から求められる音素境界位置
の信頼度の値に応じて、カーソルの色を変化させるの
で、編集中の境界位置の妥当性を直感的に分かり易い形
で作業者に提示することができ（換言すれば、自動的に
推定された音素境界位置の信頼度に応じてカーソルの色
を変化させることによって、編集作業の妥当性を直感的
に分かり易い形で作業者に提示することができ）、音素
境界位置の編集結果の質を高いレベルに維持することが
可能になる。

【００７０】また、請求項７記載の発明によれば、請求
項１記載の音声データベース作成装置において、前記音
素セグメンテーション部は、音声データに対して所定の
音響モデルを使用して複数の音素列候補の探索経路を算
出することで、仮名文字展開部で展開された個々の音素
の境界位置の平均値および分散を算出し、仮名文字展開
部で展開された個々の音素の境界位置の平均値と分散に
よって定義される正規分布を、仮名文字展開部で展開さ
れた個々の音素の境界位置の信頼度を表す指標として用
い、また、前記音素境界位置エディタ部は、音素セグメ
ンテーション部において得られたそれぞれの音素境界位
置の分散に応じて、マニュアル操作で移動可能な音素境
界位置の範囲に制限を設けるので（すなわち、分散が小
さい音素境界に関しては、作業者の未熟さに起因するミ
スなどによってその位置が大きく変更されることがない
ように強い制約を設け、分散が大きい音素境界に関して
はその値に応じてある程度自由に変更可能にすることに
よって）、音素境界位置の編集結果の質を高いレベルに
維持することが可能になる。

【図面の簡単な説明】

【図１】本発明に係る音声データベース作成装置の構成
例を示す図である。

【図２】音素境界位置エディタ部の画面表示例を示す図
である。

【図３】図１の音声データベース作成装置のハードウェ
ア構成例を示す図である。

【符号の説明】

１仮名文字展開部２音素列選択部３音素セグメンテーション部４音素境界位置エディタ部

Claims

【特許請求の範囲】

【請求項１】仮名文字で記述された読みを、それを発
声した場合に出現し得る音素列候補に展開する仮名文字
展開部と、仮名文字展開部で展開された音素列候補の中
で、実際の音声データに最も良く適合する音素列を選択
する音素列選択部と、音素列選択部で選択された音素列
に従って音声データの各音素の境界位置を算出する音素
セグメンテーション部と、音素列選択部および音素セグ
メンテーション部で得られた結果を対話的に修正するた
めの音素境界位置エディタ部とを有していることを特徴
とする音声データベース作成装置。
【請求項２】請求項１記載の音声データベース作成装
置において、前記音素セグメンテーション部は、音声デ
ータに対して所定の音響モデルを使用して複数の音素列
候補の探索経路を算出することで、仮名文字展開部で展
開された個々の音素の境界位置の平均値および分散を算
出し、仮名文字展開部で展開された個々の音素の境界位
置の平均値と分散によって定義される正規分布を、仮名
文字展開部で展開された個々の音素の境界位置の信頼度
を表す指標として用いることを特徴とする音声データベ
ース作成装置。
【請求項３】請求項２記載の音声データベース作成装
置において、前記音素セグメンテーション部は、複数の
候補から仮名文字展開部で展開された個々の音素の境界
位置の平均および分散を求める際に、複数の探索経路か
ら求められる音素の境界位置の情報に対して、その経路
のスコアに応じた重みを乗じて集計することを特徴とす
る音声データベース作成装置。
【請求項４】請求項２記載の音声データベース作成装
置において、前記音素セグメンテーション部は、大量の
候補を高速に算出するために、Ａ*探索法を利用するこ
とを特徴とする音声データベース作成装置。
【請求項５】請求項１記載の音声データベース作成装
置において、前記音素セグメンテーション部は、音声デ
ータに対して所定の音響モデルを使用して複数の音素列
候補の探索経路を算出することで、仮名文字展開部で展
開された個々の音素の境界位置の平均値および分散を算
出し、仮名文字展開部で展開された個々の音素の境界位
置の平均値と分散によって定義される正規分布を、仮名
文字展開部で展開された個々の音素の境界位置の信頼度
を表す指標として用い、また、前記音素境界位置エディ
タ部は、音声セグメンテーション部において得られたそ
れぞれの音素境界位置の信頼度を表す正規分布から求め
られる音素境界位置の信頼度の値を提示することを特徴
とする音声データベース作成装置。
【請求項６】請求項１記載の音声データベース作成装
置において、前記音素セグメンテーション部は、音声デ
ータに対して所定の音響モデルを使用して複数の音素列
候補の探索経路を算出することで、仮名文字展開部で展
開された個々の音素の境界位置の平均値および分散を算
出し、仮名文字展開部で展開された個々の音素の境界位
置の平均値と分散によって定義される正規分布を、仮名
文字展開部で展開された個々の音素の境界位置の信頼度
を表す指標として用い、また、前記音素境界位置エディ
タ部は、音素セグメンテーション部において得られたそ
れぞれの音素境界位置の信頼度を表す正規分布から求め
られる音素境界位置の信頼度の値に応じて、カーソルの
色を変化させることを特徴とする音声データベース作成
装置。
【請求項７】請求項１記載の音声データベース作成装
置において、前記音素セグメンテーション部は、音声デ
ータに対して所定の音響モデルを使用して複数の音素列
候補の探索経路を算出することで、仮名文字展開部で展
開された個々の音素の境界位置の平均値および分散を算
出し、仮名文字展開部で展開された個々の音素の境界位
置の平均値と分散によって定義される正規分布を、仮名
文字展開部で展開された個々の音素の境界位置の信頼度
を表す指標として用い、また、前記音素境界位置エディ
タ部は、音素セグメンテーション部において得られたそ
れぞれの音素境界位置の分散に応じて、マニュアル操作
で移動可能な音素境界位置の範囲に制限を設けることを
特徴とする音声データベース作成装置。
【請求項８】仮名文字で記述された読みを、それを発
声した場合に出現し得る音素列候補に展開し、展開され
た音素列候補の中で、実際の音声データに最も良く適合
する音素列を選択させ、選択された音素列に従って音声
データの各音素の境界位置を算出し、算出された各音素
の境界位置を対話的に修正することで、音声データベー
スを作成することを特徴とする音声データベース作成方
法。
【請求項９】仮名文字で記述された読みを、それを発
声した場合に出現し得る音素列候補に展開し、展開され
た音素列候補の中で、実際の音声データに最も良く適合
する音素列を選択させ、選択された音素列に従って音声
データの各音素の境界位置を算出し、算出された各音素
の境界位置を対話的に修正することで、音声データベー
スを作成する処理をコンピュータに実行させるためのプ
ログラムを記録したコンピュータ読取可能な記録媒体。