JP2002140095A - 音声データベース作成支援システム - Google Patents

音声データベース作成支援システム

Info

Publication number
JP2002140095A
JP2002140095A JP2000335610A JP2000335610A JP2002140095A JP 2002140095 A JP2002140095 A JP 2002140095A JP 2000335610 A JP2000335610 A JP 2000335610A JP 2000335610 A JP2000335610 A JP 2000335610A JP 2002140095 A JP2002140095 A JP 2002140095A
Authority
JP
Japan
Prior art keywords
phoneme
boundary position
sequence
editor
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000335610A
Other languages
English (en)
Inventor
Junichi Takami
淳一 鷹見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2000335610A priority Critical patent/JP2002140095A/ja
Publication of JP2002140095A publication Critical patent/JP2002140095A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 音声データベース作成に伴う困難な作業をで
きる限り自動化し、作業者に要求される知識や経験、す
なわち作業者の労力をより一層軽減させることの可能な
音声データベース作成支援システムを提供する。 【解決手段】 エディタ手段4は、音素列照合手段2お
よび音素セグメンテーション手段3で得られる(自動的
に推定された)音素の境界位置を例えば対話的に修正す
るための音素境界位置エディタとしての機能とともに、
仮名文字単位の区切り情報を含んだ形で展開された音素
列候補から中間表現としての音素グラフ構造(リスト構
造)を作成し、音素グラフ構造のうち、複数の候補が存
在する部分音素列を作業者が選択,変更し易いハイパー
テキストの形で表示する機能を有している。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音素ラベル付き音
声データベースの作成を支援する音声データベース作成
支援システムに関する。
【0002】
【従来の技術】音声認識のための音響モデル学習用サン
プル作成や、音声合成のための音声素片作成などのため
に、音素ラベル情報が付与された音声データベースを作
成する音声データベース作成支援システムが必要とされ
ている。なお、ここで、音素ラベル情報の付与とは、連
続して発声された音声データに対して、音声の波形や周
波数スペクトルなどを参考にしながら、それに含まれる
個々の音素の種類を記述した音素ラベル、および、その
開始時刻と終了時刻に関する情報を付与する作業であ
る。
【0003】また、音声データベース作成支援システム
によって作成される音声データベースは、実際には、以
下のように用いられる。すなわち、例えば音声認識のた
めの音響モデルを構築する場面で利用するのであれば、
音声サンプルとそこに含まれている各音素の境界位置情
報に基づいてHMM(隠れマルコフモデル)などを学習
することになり、また音声合成用の音声素片作成の場合
には、各音素の境界位置情報に基づいて素片を抽出する
ことになる。
【0004】
【発明が解決しようとする課題】この種の音声データベ
ース作成支援システムでは、高性能な音声認識や高音質
な音声合成を行うためには、音声認識用の高精度な音響
モデル、あるいは、音声合成用の高品質な音声素片が必
要であり、それらの学習あるいは抽出を行うための音声
データベースの整備が不可欠となる。
【0005】ところで、音声データベースの作成を行う
際に、もっとも厄介な問題は、大量に収集した音声サン
プルに対して、いかに少ない人的労力で、高い精度の音
素ラベル情報を付与するかという点である。
【0006】なお、ここで、音素ラベル情報の付与と
は、前述したように、連続して発声された音声データに
対して、音声の波形や周波数スペクトルなどを参考にし
ながら、それに含まれる個々の音素の種類を記述した音
素ラベル、および、その開始時刻と終了時刻に関する情
報を付与する作業であり、一般に、このような音素ラベ
ル情報の付与作業にはかなりの労力と熟練が要求され
る。
【0007】本発明は、このような音声データベース作
成に伴う困難な作業をできる限り自動化し、作業者に要
求される知識や経験、すなわち作業者の労力をより一層
軽減させることの可能な音声データベース作成支援シス
テムを提供することを目的としている。
【0008】すなわち、本発明は、高精度な音素ラベル
情報が付与された音声データベースを作業者の労力を軽
減して作成することの可能な音声データベース作成支援
システムを提供することを目的としている。
【0009】
【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の発明は、仮名文字で記述された読み
を、それを発声した場合に出現し得る音素列候補に展開
するための仮名文字展開手段と、展開された音素列候補
に対して実際の音声データに基づいて順位付けを行う音
素列照合手段と、音素列照合手段によって得られた最も
順位の高い音素列、または、作業者が指定した音素列に
従って、音声データの各音素の境界位置を算出する音素
セグメンテーション手段と、エディタ手段とを有し、エ
ディタ手段は、音素列照合手段および音素セグメンテー
ション手段で得られる音素の境界位置を修正するための
音素境界位置エディタとしての機能とともに、仮名文字
単位の区切り情報を含んだ形で展開された音素列候補か
ら中間表現としての音素グラフ構造を作成し、音素グラ
フ構造のうち、複数の候補が存在する部分音素列を作業
者が選択,変更し易いハイパーテキストの形で表示する
機能を有していることを特徴としている。
【0010】また、請求項2記載の発明は、仮名文字で
記述された読みを、それを発声した場合に出現し得る音
素列候補に展開するための仮名文字展開手段と、展開さ
れた音素列候補に対して実際の音声データに基づいて順
位付けを行う音素列照合手段と、音素列照合手段によっ
て得られた最も順位の高い音素列、または、作業者が指
定した音素列に従って、音声データの各音素の境界位置
を算出する音素セグメンテーション手段と、エディタ手
段とを有し、エディタ手段は、音素列照合手段および音
素セグメンテーション手段で得られる音素の境界位置を
修正するための音素境界位置エディタとしての機能とと
もに、作業者が変更した部分音素列の影響によってその
前後の部分音素列も入れ替える必要が生じた場合でも、
その変更が必要最小限の範囲に留めることで、それまで
の作業結果ができるだけ保存されるように変更を行う機
能を有していることを特徴としている。
【0011】また、請求項3記載の発明は、仮名文字で
記述された読みを、それを発声した場合に出現し得る音
素列候補に展開するための仮名文字展開手段と、展開さ
れた音素列候補に対して実際の音声データに基づいて順
位付けを行う音素列照合手段と、音素列照合手段によっ
て得られた最も順位の高い音素列、または、作業者が指
定した音素列に従って、音声データの各音素の境界位置
を算出する音素セグメンテーション手段と、エディタ手
段とを有し、エディタ手段は、音素列照合手段および音
素セグメンテーション手段で得られる音素の境界位置を
修正するための音素境界位置エディタとしての機能とと
もに、作業者による部分音素列の変更によって、音素列
の一部の境界位置を再推定する必要が生じた場合でも、
変更前の各音素の境界位置情報を最大限に活用すること
で、それまでの作業結果ができるだけ保存されるように
変更を行う機能を有していることを特徴としている。
【0012】また、請求項4記載の発明は、請求項3記
載の音声データベース作成支援システムにおいて、作業
者による部分音素列の変更によって、音素列の一部の境
界位置を再推定する必要が生じた場合に、変更の前後で
音素の数が同じ場合には、変更前の音素境界位置をその
ままの順序で新しい音素列に適用し、変更によって音素
数が変化する場合には、変更前の音素区間を分割するこ
とによって新たな境界位置を推定するようになっている
ことを特徴としている。
【0013】また、請求項5記載の発明は、仮名文字で
記述された読みを、それを発声した場合に出現し得る音
素列候補に展開するための仮名文字展開手段と、展開さ
れた音素列候補に対して実際の音声データに基づいて順
位付けを行う音素列照合手段と、音素列照合手段によっ
て得られた最も順位の高い音素列、または、作業者が指
定した音素列に従って、音声データの各音素の境界位置
を算出する音素セグメンテーション手段と、エディタ手
段とを有し、エディタ手段は、音素列照合手段および音
素セグメンテーション手段で得られる音素の境界位置を
修正するための音素境界位置エディタとしての機能とと
もに、作業者による部分音素列の変更によって新たに指
定された音素列が、音素列候補全体の中で何番目に尤も
らしい候補であるかという情報を表示する機能を有して
いることを特徴としている。
【0014】
【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図1は本発明に係る音声データベー
タ作成支援システムの構成例を示す図である。図1を参
照すると、この音声データベータ作成支援システムは、
仮名文字で記述された読みを、それを発声した場合に出
現し得る音素列候補に展開するための仮名文字展開手段
1と、仮名文字展開手段1によって展開された音素列候
補に対して実際の音声データに基づいて順位付けを行う
音素列照合手段2と、音素列照合手段2によって得られ
た最も順位の高い音素列、または、作業者が指定した音
素列に従って、音声データの各音素の境界位置を算出す
る(自動的に推定する)音素セグメンテーション手段3
と、エディタ手段4とを有している。
【0015】より詳しくは、仮名文字展開手段1は、読
み仮名を、それを発声した場合に出現し得る複数通りの
音素並び(音素列候補)に展開するようになっている。
【0016】また、音素列照合手段2は、複数通りの音
素並び(音素列候補)について、実際に発声された音声
データに最も良く合致していると思われるものの順に順
位付けをするようになっている。
【0017】また、音素セグメンテーション手段3は、
音素列照合手段2によって得られた最も順位の高い音素
列、または、作業者が指定した音素列を、実際の音声デ
ータに適用し、各音素の境界位置を自動的に推定するよ
うになっている。
【0018】また、エディタ手段4は、自動推定によっ
て得られた音素並び(音素列)あるいは音素境界位置に
含まれる推定誤りを修正する機能を有している。
【0019】本発明は、自動的に推定された音素列が実
際の発声された音声に合致していないと判断された場合
に、自動的に推定された音素列をできるだけ少ない労力
で修正する(自動的に推定された音素列には誤りが含ま
れている可能性があるという前提の下で、その修正のた
めの作業を簡便化する)ことの可能な支援システムを提
供することを意図している。
【0020】第1の実施形態 本発明の第1の実施形態では、エディタ手段4は、音素
列照合手段2および音素セグメンテーション手段3で得
られる(自動的に推定された)音素の境界位置を例えば
対話的に修正するための音素境界位置エディタとしての
機能とともに、仮名文字単位の区切り情報を含んだ形で
展開された音素列候補から中間表現としての音素グラフ
構造(リスト構造)を作成し、音素グラフ構造のうち、
複数の候補が存在する部分音素列を作業者が選択,変更
し易いハイパーテキストの形で表示する機能を有してい
る。
【0021】本発明の音声データベータ作成支援システ
ムは、具体的に、次のようして音声データベータの作成
を支援する。
【0022】すなわち、仮名文字で記述された単語や文
を音素列で表記する場合、一般に複数の候補の可能性が
生じる。実際にどのような音素列になるかについては、
音素の定義によって異なるが、例えば、本願の発明者が
現在使用している音素定義に従って「にほんご」という
表記に対する音素列を求めた場合には、「ご」の鼻音化
の有無によって、“n i h o x,+ g o” と “n i h o
G,G o” の2通りの候補が得られる。さらに、「ちゅう
がっこう」という単語では12通りの候補が得られ、
「こくりつだいがく」では48通りもの候補が得られ
る。
【0023】音声データベースを作成する際の作業工程
の第1段階目は、このような複数の音素列候補の中か
ら、実際に収録されている音声に最も相応しい候補を選
択するというものである。ただし、音素列の候補数が多
数となる場合、それらを並べて表示し、その中から適切
なものを選ぶという方法ではかなりの手間がかかり、効
率の良い作業は期待できない。
【0024】そこで、本発明の第1の実施形態では、こ
の部分の作業を簡素化するために、仮名文字から音素列
を生成する際に、仮名文字単位の区切り情報を含んだ形
で展開することによって音素のグラフ構造(リスト構
造)を作成し、複数の候補が存在する部分音素列につい
ては、その部分のみを選択,変更できるようなハイパー
テキストの形で表示するようになっている。
【0025】例えば、先の「にほんご」の例では、音素
列への展開によって、”{n i} {h o} {x} {,+ g o}”と
“{n i} {h o} {G} {,G o}” の2通りの候補を作成す
る。ここで、“{” と “}” で囲まれた部分がそれぞ
れ仮名1文字分に相当している。このように仮名文字の
区切り情報が含まれた音素列に展開することによって、
音素グラフ構造を簡単に作成することができる。この例
の場合は、“n i h o [x|G] [,+ g o|,G o]”とな
る。
【0026】このような音素グラフ構造を用いれば、多
数の音素列候補が存在するような場合でも、簡素に表現
することができる。例えば「こくりつだいがく」に対応
する48通りの候補に対して、音素列照合手段2で以下
のような順位付けが行われたとする。 1 “{- k o} {- k u} {r i} {- ts U} {d a} i {+ g a} {- k u}” 2 “{- k o} {- k u} {r i} {- ts U} {+ d a} i {+ g a} {- k u}” 3 “{- k o} {- k u} {r i} {- ts U} {d a} i {g a} {- k u}” 4 “{- k o} {- k u} {r i} {- ts U} {+ d a} i {g a} {- k u}” 5 “{- k o} {- k u} {r i} {- ts,u0} {+ d a} i {+ g a} {- k u}” 6 “{- k o} {- k,u0} {r i} {- ts U} {d a} i {+ g a} {- k u}” 7 “{- k o} {- k u} {r i} {- ts U} {d a} i {G a} {- k u}” 8 “{- k o} {- k u} {r i} {- ts,u0} {d a} i {+ g a} {- k u}” 9 “{- k o} {- k,u0} {r i} {- ts U} {+ d a} i {+ g a} {- k u}” 10 “{- k o} {- k u} {r i} {- ts U} {+ d a} i {G a} {- k u}” 11 “{- k o} {- k u} {r i} {- ts,u0} {+ d a} i {g a} {- k u}” 12 “{- k o} {- k,u0} {r i} {- ts U} {d a} i {g a} {- k u}” 13 “{- k o} {- k u} {r i} {- ts,u0} {d a} i {g a} {- k u}” 14 “{- k o} {- k,u0} {r i} {- ts U} {+ d a} i {g a} {- k u}” 15 “{- k o} {- k,u0} {r i} {- ts,u0} {+ d a} i {+ g a} {- k u}” 16 “{- k o} {- k u} {r i} {- ts,u0} {+ d a} i {G a} {- k u}” 17 “{- k o} {- k,u0} {r i} {- ts U} {d a} i {G a} {- k u}” 18 “{- k o} {- k,u0} {r i} {- ts,u0} {d a} i {+ g a} {- k u}” 19 “{- k o} {- k u} {r i} {- ts,u0} {d a} i {G a} {- k u}” 20 “{- k o} {- k,u0} {r i} {- ts U} {+ d a} i {G a} {- k u}” 21 “{- k o} {- k u} {r i} {- ts U} {d a} i {+ g a} {- k,u0}” 22 “{- k o} {- k u} {r i} {- ts U} {+ d a} i {+ g a} {- k,u0}” 23 “{- k o} {- k,u0} {r i} {- ts,u0} {+ d a} i {g a} {- k u}” 24 “{- k o} {- k,u0} {r i} {- ts,u0} {d a} i {g a} {- k u}” 25 “{- k o} {- k u} {r i} {- ts U} {d a} i {g a} {- k,u0}” 26 “{- k o} {- k u} {r i} {- ts U} {+ d a} i {g a} {- k,u0}” 27 “{- k o} {- k,u0} {r i} {- ts,u0} {+ d a} i {G a} {- k u}” 28 “{- k o} {- k u} {r i} {- ts,u0} {+ d a} i {+ g a} {- k,u0}” 29 “{- k o} {- k,u0} {r i} {- ts,u0} {d a} i {G a} {- k u}” 30 “{- k o} {- k,u0} {r i} {- ts U} {d a} i {+ g a} {- k,u0}” 31 “{- k o} {- k u} {r i} {- ts U} {d a} i {G a} {- k,u0}” 32 “{- k o} {- k u} {r i} {- ts,u0} {d a} i {+ g a} {- k,u0}” 33 “{- k o} {- k,u0} {r i} {- ts U} {+ d a} i {+ g a} {- k,u0}” 34 “{- k o} {- k u} {r i} {- ts U} {+ d a} i {G a} {- k,u0}” 35 “{- k o} {- k u} {r i} {- ts,u0} {+ d a} i {g a} {- k,u0}” 36 “{- k o} {- k,u0} {r i} {- ts U} {d a} i {g a} {- k,u0}” 37 “{- k o} {- k u} {r i} {- ts,u0} {d a} i {g a} {- k,u0}” 38 “{- k o} {- k,u0} {r i} {- ts U} {+ d a} i {g a} {- k,u0}” 39 “{- k o} {- k,u0} {r i} {- ts,u0} {+ d a} i {+ g a} {- k,u0}” 40 “{- k o} {- k u} {r i} {- ts,u0} {+ d a} i {G a} {- k,u0}” 41 “{- k o} {- k,u0} {r i} {- ts U} {d a} i {G a} {- k,u0}” 42 “{- k o} {- k,u0} {r i} {- ts,u0} {d a} i {+ g a} {- k,u0}” 43 “{- k o} {- k u} {r i} {- ts,u0} {d a} i {G a} {- k,u0}” 44 “{- k o} {- k,u0} {r i} {- ts U} {+ d a} i {G a} {- k,u0}” 45 “{- k o} {- k,u0} {r i} {- ts,u0} {+ d a} i {g a} {- k,u0}” 46 “{- k o} {- k,u0} {r i} {- ts,u0} {d a} i {g a} {- k,u0}” 47 “{- k o} {- k,u0} {r i} {- ts,u0} {+ d a} i {G a} {- k,u0}” 48 “{- k o} {- k,u0} {r i} {- ts,u0} {d a} i {G a} {- k,u0}”
【0027】これらの音素列候補に対して、複数の候補
が存在する個所をそれぞれ上位の候補から順に並べるこ
とで、以下のような音素グラフ構造(リスト構造)が得
られる。 “- k o [- k u|- k u0] r i [- ts U|- ts,u0] [d a|
+ d a] i [+ g a|g a|G a] [- k u|- k u0]”
【0028】ここで、 “[” と “]” で囲まれた部分
において、最も左側が最上位の候補であり、最も右側が
最下位の候補である。
【0029】上記音素グラフ構造を画面(エディタ画
面)上に提示する場合には、複数の候補が存在する部分
文字列(すなわち “[” と “]” で囲まれた部分)を
キーやマウス等で簡単に選択し、変更することのできる
ハイパーテキストの形で表示する(後述の図3,図4,
図5に第1の実施形態の具体例を示した)。
【0030】このように、第1の実施形態では、仮名文
字単位の区切り情報を含んだ形で展開された音素列候補
から中間表現としての音素グラフ構造(リスト構造)を
作成し、音素グラフ構造のうち、複数の候補が存在する
部分音素列を作業者が選択,変更し易いハイパーテキス
トの形で表示するようになっているので、音素列候補が
多数ある場合でも、ユーザが所望する音素列候補を容易
に選択することができる。
【0031】第2の実施形態 また、本発明の第2の実施形態では、エディタ手段4
は、音素列照合手段2および音素セグメンテーション手
段3で得られる音素の境界位置を例えば対話的に修正す
るための音素境界位置エディタとしての機能とともに、
作業者が変更した部分音素列の影響によってその前後の
部分音素列も入れ替える必要が生じた場合でも、その変
更が必要最小限の範囲に留めることで、それまでの作業
結果ができるだけ保存されるように変更を行う機能を有
している。
【0032】具体例として、先の「にほんご」に対応す
る音素グラフ構造は、“n i h o [x|G] [,+ g o|,G
o]”のように、2箇所で複数の候補が存在しているが、
前方の候補と後方の候補は互いに密接に関連しており、
前方を “G” にすれば、後方の候補は自動的に “,G
o” となる。
【0033】このように、ある部分の部分音素列の変更
がその前後の音素列にも影響を及ぼす場合、その変更が
作業の途中で行われた場合でも、それまでの作業結果を
有効に活用することで、作業効率の劣化を防ぐことがで
きる。
【0034】この機能について、以下で説明する。例え
ば、仮名文字「がんがん」に対する音素列が、以下の順
で得られたとする。 1 “{+ g a} x {,+ g a} x” 2 “{g a} x {,+ g a} x” 3 “{G a} x {,+ g a} x” 4 “{+ g a} G {,G a} x” 5 “{g a} G {,G a} x” 6 “{G a} G {,G a} x”
【0035】これに対する音素グラフ構造(リスト構
造)は、“[+ g a|g a|G a] [x|G][,+ g a|,G a]
x”であり、2番目の候補と3番目の候補は互いに影響
しあっている(すなわち、2番目の候補を “G” にす
れば、3番目の候補は “,G a”となる)。
【0036】今、第1位の候補 “+ g a x,+ g a x”
の先頭部分に変更が加えられて、“Ga x,+ g a x” が
選択されたとする(これは第3位の候補である)。ここ
で、この候補が正しいものであれば(すなわち、音素候
補中に含まれていれば)、それを順位の先頭に移動し、
同時に、“G a” で始まる候補を順序関係を保ったまま
リストの上位に移動する。この結果、候補の順序は、 1’ “{G a} x {,+ g a} x” 2’ “{G a} G {,G a} x” 3’ “{+ g a} x {,+ g a} x” 4’ “{g a} x {,+ g a} x” 5’ “{+ g a} G {,G a} x” 6’ “{g a} G {,G a} x” となり、音素グラフ構造(リスト構造)も“[G a|+ g a
|g a] [x|G] [,+ g a|,G a] x”のように変更され
る。
【0037】これに続いて、2番目の個所で “G” が
選択されたとする。この場合、音素列は、“G a G,+ g
a x” となるが、このような候補は存在しない。そこ
で、候補の上位から順に、2番目の個所が “G” であ
るよう音素列を探す。この場合、2’ の候補に “G a
G,G a x” が見つかる。そこでこれを変更後の音素列と
し、先程と同様に順序の変更を行う。その結果、候補の
順序は、 1'' “{G a} G {,G a} x” 2'' “{+ g a} G {,G a} x” 3'' “{g a} G {,G a} x” 4'' “{G a} x {,+ g a} x” 5'' “{+ g a} x {,+ g a} x” 6'' “{g a} x {,+ g a} x” となり、音素グラフ構造(リスト構造)は“[G a|+ g
a|g a] [G|x] [,G a|,+ g a] x”となる。
【0038】このような処理を行うことで、部分文字列
の変更を繰り返し行った場合でも、音素列選択に関する
過去の編集結果が失われないため、作業効率の劣化が生
じない。
【0039】第3の実施形態 また、本発明の第3の実施形態では、エディタ手段4
は、音素列照合手段2および音素セグメンテーション手
段3で得られる音素の境界位置を例えば対話的に修正す
るための音素境界位置エディタとしての機能とともに、
作業者による部分音素列の変更によって、音素列の一部
の境界位置を再推定する必要が生じた場合でも、変更前
の各音素の境界位置情報を最大限に活用することで、そ
れまでの作業結果ができるだけ保存されるように変更を
行う機能を有している。
【0040】具体例として、ある音素列 “p1 p2 p3 p4
p5 p6 p7” に対して音素セグメンテーション部でそれ
ぞれの音素の開始時刻が以下のように推定されたとす
る。p1 の開始時刻: t1 p2 の開始時刻: t2 p3 の開始時刻: t3 p4 の開始時刻: t4 p5 の開始時刻: t5 p6 の開始時刻: t6 p7 の開始時刻: t7
【0041】その後、作業者によって一部の音素が変更
された場合、その部分の境界をどのように定めるかとい
う問題がある。初期値を求めるのと同様に、新たな音素
列に対して、音素セグメンテーション手段3によって全
ての境界位置を再推定してしまう方法も考えられるが、
この場合には、音素を変更する以前に行った境界位置に
対する編集結果は全て失われてしまう。
【0042】そこで、第3の実施形態では、以下のよう
な方法で新たな音素列に対する境界位置を求める。
【0043】すなわち、変更前と変更後とで音素数が同
じ場合を考える。例えば、p4 とp5がそれぞれ p8 と p9
に変更された場合を考える。このときには、元の音素
の境界位置をそのまま適用して、 p1 の開始時刻: t1 p2 の開始時刻: t2 p3 の開始時刻: t3 p8 の開始時刻: t4 p9 の開始時刻: t5 p6 の開始時刻: t6 p7 の開始時刻: t7 とする。
【0044】次に、変更前と変更後で音素数が変わる場
合を考える。例えば、“p4, p5, p6” の部分が “p8,
p9” に変更され、“p1 p2 p3 p8 p9 p7” となった場
合(例えば、Gaが+gaになる場合)を考える。この
場合には、変更の前後で音素が一致しているものは元の
境界位置をそのまま使用し、そうでない音素について
は、変更前の部分音素列と変更後の部分音素列の先頭の
音素(この場合は、p4とp8)の時刻を一致させ、残りの
音素は当該区間を等分割して求める。つまり、 p1 の開始時刻: t1 p2 の開始時刻: t2 p3 の開始時刻: t3 p8 の開始時刻: t4 p9 の開始時刻: t4 + (t7 − t4) / 2 p7 の開始時刻: t7 とする。
【0045】これは、変更によって音素数が減る場合の
例であるが、変更によって音素数が増える場合でも同様
である。例えば、“p4, p5” の部分が “p8, p9 p10”
に変更され、“p1 p2 p3 p8 p9 p10 p6 p7” となった
場合には、各音素の境界位置は、以下のようになる。 p1 の開始時刻: t1 p2 の開始時刻: t2 p3 の開始時刻: t3 p8 の開始時刻: t4 p9 の開始時刻: t4 + (t6 − t4) / 3 p10 の開始時刻: t4 + (t6 − t4) * 2 / 3 p6 の開始時刻: t6 p7 の開始時刻: t7
【0046】このように、第3の実施形態では、部分文
字列の変更を繰り返し行った場合でも、音素境界位置に
関する過去の編集結果が最大限に活用されるため(変更
のない箇所はできる限り操作しないため)、作業効率の
劣化が生じない。
【0047】すなわち、第3の実施形態では、作業者に
よる部分音素列の変更によって、音素列の一部の境界位
置を再推定する必要が生じた場合に、変更の前後で音素
の数が同じ場合には、変更前の音素境界位置をそのまま
の順序で新しい音素列に適用し、変更によって音素数が
変化する場合には、変更前の音素区間を適当に分割する
ことによって新たな境界位置を推定するようになってお
り、音声認識を用いずに、例えば比例配分する簡単な処
理で、新たな境界位置を推定することができる(後述の
図2,図6に第3の実施形態の具体例を示した)。
【0048】第4の実施形態 また、本発明の第4の実施形態では、エディタ手段4
は、音素列照合手段2および音素セグメンテーション手
段3で得られる音素の境界位置を例えば対話的に修正す
るための音素境界位置エディタとしての機能とともに、
作業者による部分音素列の変更によって新たに指定され
た音素列が、音素列候補全体の中で何番目に尤もらしい
候補であるかという情報を表示する機能を有している。
【0049】この機能を実現するためには、音素列照合
部で得られた各音素列の順位を保存しておき、その後の
操作によって新たな音素列が選択される度に、それが何
番目の候補であるかを求めれば良い。
【0050】例えば、前述した「こくりつだいがく」の
例で、 “- k o - k u r i - ts,u0 d a i + g a - k u” が選択された場合、これは第8位の候補であるため、画
面上に「48候補中 8位」といった表示を行う(後述
の図2,図6に第4の実施形態の具体例を示した)。
【0051】このように、作業者による部分音素列の変
更によって新たに指定された音素列が、音素列候補全体
の中で何番目に尤もらしい候補であるかという情報を表
示する機能を有している場合、作業者が行った変更が、
どの程度適切なものであるかの目安が示されるため、作
業ミスを減らし、データベースの品質向上を図ることが
できると同時に、編集作業時の迷いを低減することがで
きるため、作業効率を向上させることができる。
【0052】次に、本発明の具体例を説明する。図2は
エディタ画面全体の一例を示す図である。図2におい
て、符号5は仮名文字で記述された読みを表示する部分
であり、符号6は音素ラベル構造(より正確には、選択
された音素列候補)を表示する部分であり、符号7は後
述のように部分6に表示されている音素列候補が何番目
の順位のものかを表示する部分であり、符号8は部分6
に表示されている音素列候補の音素ラベル情報(波形情
報,音素境界位置情報)を表示する部分である。
【0053】図2の例では、エディタ画面の部分5に
は、仮名文字で記述された読みとして、「こくりつだい
がく」が表示され、また、部分6には、「こくりつだい
がく」の48個の音素列候補のうち、1つの選択された
音素列候補「- k o - k u r i- ts U + d a i G a - k
u」が表示されている。また、部分7には、1つの選択
された音素列候補「- k o - k u r i - ts U + d a i G
a - k u」の順位「48候補中 20位」が表示されて
いる。
【0054】また、図3は図2のエディタ画面上に表示
されている音素ラベル構造(選択された音素列候補)の
部分6だけを取り出した図である。図3において、音素
ラベル構造(より正確には、選択された音素列候補)を
表示する部分6の四角の枠で囲まれた部分9,10,1
1,12,13が、複数の候補が存在する部分文字列の
箇所であり、ハイパーテキストの形となっている。すな
わち、この四角の枠で囲まれた部分をクリック(ポイン
ト)することにより、この部分の複数の候補が表示さ
れ、ユーザは、表示された複数の候補のうちの1つの候
補を選択することができる(候補を変更することができ
る)ようになっている。
【0055】例えば、図3の表示において、「Ga」の
部分12をクリックすると、図4に示すように、この部
分12について複数の候補「ga」,「+ga」がメニ
ュー15で表示される。そして、ユーザがこのメニュー
15において「+ga」をクリック(ポイント)する
と、「+ga」が選択され、エディタ画面の部分6には
図5に示すような音素列候補「- k o - k u r i - ts U
+ d a i + g a - k u」が表示される。すなわち、当初
「- k o - k u r i - ts U + d a i G a - k u」であっ
た音素列候補を、「- k o - k u r i - ts U + d a i +
g a - k u」の音素列候補に容易に変更できる。そし
て、エディタ画面全体は図6に示すようになる。すなわ
ち、音素列候補を変更すると、エディタ画面の部分8に
は、変更された音素列候補の音素ラベル情報(波形情
報,境界位置情報)が自動的に表示される。また、エデ
ィタ画面の部分7には、変更された音素列候補が何番目
の順位のものかが自動的に表示される。
【0056】本発明によって作成された音声データベー
スは、種々の用途に利用される。例えば音声認識のため
の音響モデルを構築するのに利用される場合には、音声
サンプルとそこに含まれている各音素の境界位置情報に
基づいてHMM(隠れマルコフモデル)などを学習する
ことになり、また、音声合成用の音声素片の作成に利用
される場合には、各音素の境界位置情報に基づいて音声
素片が抽出される。
【0057】
【発明の効果】以上に説明したように、請求項1記載の
発明によれば、仮名文字で記述された読みを、それを発
声した場合に出現し得る音素列候補に展開するための仮
名文字展開手段と、展開された音素列候補に対して実際
の音声データに基づいて順位付けを行う音素列照合手段
と、音素列照合手段によって得られた最も順位の高い音
素列、または、作業者が指定した音素列に従って、音声
データの各音素の境界位置を算出する音素セグメンテー
ション手段と、エディタ手段とを有し、エディタ手段
は、音素列照合手段および音素セグメンテーション手段
で得られる音素の境界位置を修正するための音素境界位
置エディタとしての機能とともに、仮名文字単位の区切
り情報を含んだ形で展開された音素列候補から中間表現
としての音素グラフ構造を作成し、音素グラフ構造のう
ち、複数の候補が存在する部分音素列を作業者が選択,
変更し易いハイパーテキストの形で表示する機能を有し
ているので、多数の音素列候補の中から発話内容に従っ
た適切な音素列候補を選択するための作業効率を向上さ
せることができる。
【0058】また、請求項2記載の発明によれば、仮名
文字で記述された読みを、それを発声した場合に出現し
得る音素列候補に展開するための仮名文字展開手段と、
展開された音素列候補に対して実際の音声データに基づ
いて順位付けを行う音素列照合手段と、音素列照合手段
によって得られた最も順位の高い音素列、または、作業
者が指定した音素列に従って、音声データの各音素の境
界位置を算出する音素セグメンテーション手段と、エデ
ィタ手段とを有し、エディタ手段は、音素列照合手段お
よび音素セグメンテーション手段で得られる音素の境界
位置を修正するための音素境界位置エディタとしての機
能とともに、作業者が変更した部分音素列の影響によっ
てその前後の部分音素列も入れ替える必要が生じた場合
でも、その変更が必要最小限の範囲に留めることで、そ
れまでの作業結果ができるだけ保存されるように変更を
行う機能を有しており、作業の途中で部分音素列の変更
を行った場合でも、過去の作業結果がリセットされてし
まうことなく最大限に活用されるので、作業効率を向上
させることができる。
【0059】また、請求項3,請求項4記載の発明によ
れば、仮名文字で記述された読みを、それを発声した場
合に出現し得る音素列候補に展開するための仮名文字展
開手段と、展開された音素列候補に対して実際の音声デ
ータに基づいて順位付けを行う音素列照合手段と、音素
列照合手段によって得られた最も順位の高い音素列、ま
たは、作業者が指定した音素列に従って、音声データの
各音素の境界位置を算出する音素セグメンテーション手
段と、エディタ手段とを有し、エディタ手段は、音素列
照合手段および音素セグメンテーション手段で得られる
音素の境界位置を修正するための音素境界位置エディタ
としての機能とともに、作業者による部分音素列の変更
によって、音素列の一部の境界位置を再推定する必要が
生じた場合でも、変更前の各音素の境界位置情報を最大
限に活用することで、それまでの作業結果ができるだけ
保存されるように変更を行う機能を有しており、作業の
途中で部分音素列の変更を行った場合でも、過去の作業
結果がリセットされてしまうことなく最大限に活用され
るので、作業効率を向上させることができる。
【0060】また、請求項5記載の発明によれば、仮名
文字で記述された読みを、それを発声した場合に出現し
得る音素列候補に展開するための仮名文字展開手段と、
展開された音素列候補に対して実際の音声データに基づ
いて順位付けを行う音素列照合手段と、音素列照合手段
によって得られた最も順位の高い音素列、または、作業
者が指定した音素列に従って、音声データの各音素の境
界位置を算出する音素セグメンテーション手段と、エデ
ィタ手段とを有し、エディタ手段は、音素列照合手段お
よび音素セグメンテーション手段で得られる音素の境界
位置を修正するための音素境界位置エディタとしての機
能とともに、作業者による部分音素列の変更によって新
たに指定された音素列が、音素列候補全体の中で何番目
に尤もらしい候補であるかという情報を表示する機能を
有しており、作業者が行った変更がどの程度適切なもの
であるかの目安が示されるので、作業ミスを減らしデー
タベースの品質向上を図ることができると同時に、編集
作業時の迷いを低減することができ、作業効率を向上さ
せることができる。
【図面の簡単な説明】
【図1】本発明に係る音声データベース作成支援システ
ムの構成例を示す図である。
【図2】エディタ手段の機能を説明するための図であ
る。
【図3】ハイパーテキストの形での表示を説明するため
の図である。
【図4】ハイパーテキストの形での表示を説明するため
の図である。
【図5】ハイパーテキストの形での表示を説明するため
の図である。
【図6】エディタ手段の機能を説明するための図であ
る。
【符号の説明】
1 仮名文字展開手段 2 音素列照合手段 3 音素セグメンテーション手段 4 エディタ手段
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/00 G10L 3/00 551P 15/28

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 仮名文字で記述された読みを、それを発
    声した場合に出現し得る音素列候補に展開するための仮
    名文字展開手段と、展開された音素列候補に対して実際
    の音声データに基づいて順位付けを行う音素列照合手段
    と、音素列照合手段によって得られた最も順位の高い音
    素列、または、作業者が指定した音素列に従って、音声
    データの各音素の境界位置を算出する音素セグメンテー
    ション手段と、エディタ手段とを有し、エディタ手段
    は、音素列照合手段および音素セグメンテーション手段
    で得られる音素の境界位置を修正するための音素境界位
    置エディタとしての機能とともに、仮名文字単位の区切
    り情報を含んだ形で展開された音素列候補から中間表現
    としての音素グラフ構造を作成し、音素グラフ構造のう
    ち、複数の候補が存在する部分音素列を作業者が選択,
    変更し易いハイパーテキストの形で表示する機能を有し
    ていることを特徴とする音声データベース作成支援シス
    テム。
  2. 【請求項2】 仮名文字で記述された読みを、それを発
    声した場合に出現し得る音素列候補に展開するための仮
    名文字展開手段と、展開された音素列候補に対して実際
    の音声データに基づいて順位付けを行う音素列照合手段
    と、音素列照合手段によって得られた最も順位の高い音
    素列、または、作業者が指定した音素列に従って、音声
    データの各音素の境界位置を算出する音素セグメンテー
    ション手段と、エディタ手段とを有し、エディタ手段
    は、音素列照合手段および音素セグメンテーション手段
    で得られる音素の境界位置を修正するための音素境界位
    置エディタとしての機能とともに、作業者が変更した部
    分音素列の影響によってその前後の部分音素列も入れ替
    える必要が生じた場合でも、その変更が必要最小限の範
    囲に留めることで、それまでの作業結果ができるだけ保
    存されるように変更を行う機能を有していることを特徴
    とする音声データベース作成支援システム。
  3. 【請求項3】 仮名文字で記述された読みを、それを発
    声した場合に出現し得る音素列候補に展開するための仮
    名文字展開手段と、展開された音素列候補に対して実際
    の音声データに基づいて順位付けを行う音素列照合手段
    と、音素列照合手段によって得られた最も順位の高い音
    素列、または、作業者が指定した音素列に従って、音声
    データの各音素の境界位置を算出する音素セグメンテー
    ション手段と、エディタ手段とを有し、エディタ手段
    は、音素列照合手段および音素セグメンテーション手段
    で得られる音素の境界位置を修正するための音素境界位
    置エディタとしての機能とともに、作業者による部分音
    素列の変更によって、音素列の一部の境界位置を再推定
    する必要が生じた場合でも、変更前の各音素の境界位置
    情報を最大限に活用することで、それまでの作業結果が
    できるだけ保存されるように変更を行う機能を有してい
    ることを特徴とする音声データベース作成支援システ
    ム。
  4. 【請求項4】 請求項3記載の音声データベース作成支
    援システムにおいて、作業者による部分音素列の変更に
    よって、音素列の一部の境界位置を再推定する必要が生
    じた場合に、変更の前後で音素の数が同じ場合には、変
    更前の音素境界位置をそのままの順序で新しい音素列に
    適用し、変更によって音素数が変化する場合には、変更
    前の音素区間を分割することによって新たな境界位置を
    推定するようになっていることを特徴とする音声データ
    ベース作成支援システム。
  5. 【請求項5】 仮名文字で記述された読みを、それを発
    声した場合に出現し得る音素列候補に展開するための仮
    名文字展開手段と、展開された音素列候補に対して実際
    の音声データに基づいて順位付けを行う音素列照合手段
    と、音素列照合手段によって得られた最も順位の高い音
    素列、または、作業者が指定した音素列に従って、音声
    データの各音素の境界位置を算出する音素セグメンテー
    ション手段と、エディタ手段とを有し、エディタ手段
    は、音素列照合手段および音素セグメンテーション手段
    で得られる音素の境界位置を修正するための音素境界位
    置エディタとしての機能とともに、作業者による部分音
    素列の変更によって新たに指定された音素列が、音素列
    候補全体の中で何番目に尤もらしい候補であるかという
    情報を表示する機能を有していることを特徴とする音声
    データベース作成支援システム。
JP2000335610A 2000-11-02 2000-11-02 音声データベース作成支援システム Pending JP2002140095A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000335610A JP2002140095A (ja) 2000-11-02 2000-11-02 音声データベース作成支援システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000335610A JP2002140095A (ja) 2000-11-02 2000-11-02 音声データベース作成支援システム

Publications (1)

Publication Number Publication Date
JP2002140095A true JP2002140095A (ja) 2002-05-17

Family

ID=18811324

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000335610A Pending JP2002140095A (ja) 2000-11-02 2000-11-02 音声データベース作成支援システム

Country Status (1)

Country Link
JP (1) JP2002140095A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013238664A (ja) * 2012-05-11 2013-11-28 Yamaha Corp 音声素片切出装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013238664A (ja) * 2012-05-11 2013-11-28 Yamaha Corp 音声素片切出装置

Similar Documents

Publication Publication Date Title
US7603278B2 (en) Segment set creating method and apparatus
US7996226B2 (en) System and method of developing a TTS voice
US8041569B2 (en) Speech synthesis method and apparatus using pre-recorded speech and rule-based synthesized speech
US20080167875A1 (en) System for tuning synthesized speech
US20170047060A1 (en) Text-to-speech method and multi-lingual speech synthesizer using the method
JP7223574B2 (ja) マンガ生成システムおよびマンガ生成方法
US7742921B1 (en) System and method for correcting errors when generating a TTS voice
GB2457855A (en) Speech recognition system and speech recognition system program
US20190362022A1 (en) Audio file labeling process for building datasets at scale
US20070203702A1 (en) Speech synthesizer, speech synthesizing method, and program
US7139712B1 (en) Speech synthesis apparatus, control method therefor and computer-readable memory
CN104485107A (zh) 名称的语音识别方法、语音识别系统和语音识别设备
JP7111758B2 (ja) 音声認識誤り訂正装置、音声認識誤り訂正方法及び音声認識誤り訂正プログラム
JP6941494B2 (ja) エンドツーエンド日本語音声認識モデル学習装置およびプログラム
US8275614B2 (en) Support device, program and support method
JP7314079B2 (ja) データ生成装置、データ生成方法およびプログラム
US20140257816A1 (en) Speech synthesis dictionary modification device, speech synthesis dictionary modification method, and computer program product
JP2006030326A (ja) 音声合成装置
JP2006313176A (ja) 音声合成装置
JP2001306087A (ja) 音声データベース作成装置および音声データベース作成方法および記録媒体
JP2002140095A (ja) 音声データベース作成支援システム
JP2006236037A (ja) 音声対話コンテンツ作成方法、装置、プログラム、記録媒体
JPH1097529A (ja) 作詞支援装置、作詞支援方法および記憶媒体
JP4173404B2 (ja) 文セット自動生成装置、文セット自動生成プログラム、記憶媒体
JP3961858B2 (ja) 翻字装置及びそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070406

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070501

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071009