JP2002140095A

JP2002140095A - 音声データベース作成支援システム

Info

Publication number: JP2002140095A
Application number: JP2000335610A
Authority: JP
Inventors: Junichi Takami; 淳一鷹見
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2000-11-02
Filing date: 2000-11-02
Publication date: 2002-05-17

Abstract

(57)【要約】【課題】音声データベース作成に伴う困難な作業をで
きる限り自動化し、作業者に要求される知識や経験、す
なわち作業者の労力をより一層軽減させることの可能な
音声データベース作成支援システムを提供する。【解決手段】エディタ手段４は、音素列照合手段２お
よび音素セグメンテーション手段３で得られる（自動的
に推定された）音素の境界位置を例えば対話的に修正す
るための音素境界位置エディタとしての機能とともに、
仮名文字単位の区切り情報を含んだ形で展開された音素
列候補から中間表現としての音素グラフ構造（リスト構
造）を作成し、音素グラフ構造のうち、複数の候補が存
在する部分音素列を作業者が選択，変更し易いハイパー
テキストの形で表示する機能を有している。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音素ラベル付き音
声データベースの作成を支援する音声データベース作成
支援システムに関する。

【０００２】

【従来の技術】音声認識のための音響モデル学習用サン
プル作成や、音声合成のための音声素片作成などのため
に、音素ラベル情報が付与された音声データベースを作
成する音声データベース作成支援システムが必要とされ
ている。なお、ここで、音素ラベル情報の付与とは、連
続して発声された音声データに対して、音声の波形や周
波数スペクトルなどを参考にしながら、それに含まれる
個々の音素の種類を記述した音素ラベル、および、その
開始時刻と終了時刻に関する情報を付与する作業であ
る。

【０００３】また、音声データベース作成支援システム
によって作成される音声データベースは、実際には、以
下のように用いられる。すなわち、例えば音声認識のた
めの音響モデルを構築する場面で利用するのであれば、
音声サンプルとそこに含まれている各音素の境界位置情
報に基づいてＨＭＭ（隠れマルコフモデル）などを学習
することになり、また音声合成用の音声素片作成の場合
には、各音素の境界位置情報に基づいて素片を抽出する
ことになる。

【０００４】

【発明が解決しようとする課題】この種の音声データベ
ース作成支援システムでは、高性能な音声認識や高音質
な音声合成を行うためには、音声認識用の高精度な音響
モデル、あるいは、音声合成用の高品質な音声素片が必
要であり、それらの学習あるいは抽出を行うための音声
データベースの整備が不可欠となる。

【０００５】ところで、音声データベースの作成を行う
際に、もっとも厄介な問題は、大量に収集した音声サン
プルに対して、いかに少ない人的労力で、高い精度の音
素ラベル情報を付与するかという点である。

【０００６】なお、ここで、音素ラベル情報の付与と
は、前述したように、連続して発声された音声データに
対して、音声の波形や周波数スペクトルなどを参考にし
ながら、それに含まれる個々の音素の種類を記述した音
素ラベル、および、その開始時刻と終了時刻に関する情
報を付与する作業であり、一般に、このような音素ラベ
ル情報の付与作業にはかなりの労力と熟練が要求され
る。

【０００７】本発明は、このような音声データベース作
成に伴う困難な作業をできる限り自動化し、作業者に要
求される知識や経験、すなわち作業者の労力をより一層
軽減させることの可能な音声データベース作成支援シス
テムを提供することを目的としている。

【０００８】すなわち、本発明は、高精度な音素ラベル
情報が付与された音声データベースを作業者の労力を軽
減して作成することの可能な音声データベース作成支援
システムを提供することを目的としている。

【０００９】

【課題を解決するための手段】上記目的を達成するため
に、請求項１記載の発明は、仮名文字で記述された読み
を、それを発声した場合に出現し得る音素列候補に展開
するための仮名文字展開手段と、展開された音素列候補
に対して実際の音声データに基づいて順位付けを行う音
素列照合手段と、音素列照合手段によって得られた最も
順位の高い音素列、または、作業者が指定した音素列に
従って、音声データの各音素の境界位置を算出する音素
セグメンテーション手段と、エディタ手段とを有し、エ
ディタ手段は、音素列照合手段および音素セグメンテー
ション手段で得られる音素の境界位置を修正するための
音素境界位置エディタとしての機能とともに、仮名文字
単位の区切り情報を含んだ形で展開された音素列候補か
ら中間表現としての音素グラフ構造を作成し、音素グラ
フ構造のうち、複数の候補が存在する部分音素列を作業
者が選択，変更し易いハイパーテキストの形で表示する
機能を有していることを特徴としている。

【００１０】また、請求項２記載の発明は、仮名文字で
記述された読みを、それを発声した場合に出現し得る音
素列候補に展開するための仮名文字展開手段と、展開さ
れた音素列候補に対して実際の音声データに基づいて順
位付けを行う音素列照合手段と、音素列照合手段によっ
て得られた最も順位の高い音素列、または、作業者が指
定した音素列に従って、音声データの各音素の境界位置
を算出する音素セグメンテーション手段と、エディタ手
段とを有し、エディタ手段は、音素列照合手段および音
素セグメンテーション手段で得られる音素の境界位置を
修正するための音素境界位置エディタとしての機能とと
もに、作業者が変更した部分音素列の影響によってその
前後の部分音素列も入れ替える必要が生じた場合でも、
その変更が必要最小限の範囲に留めることで、それまで
の作業結果ができるだけ保存されるように変更を行う機
能を有していることを特徴としている。

【００１１】また、請求項３記載の発明は、仮名文字で
記述された読みを、それを発声した場合に出現し得る音
素列候補に展開するための仮名文字展開手段と、展開さ
れた音素列候補に対して実際の音声データに基づいて順
位付けを行う音素列照合手段と、音素列照合手段によっ
て得られた最も順位の高い音素列、または、作業者が指
定した音素列に従って、音声データの各音素の境界位置
を算出する音素セグメンテーション手段と、エディタ手
段とを有し、エディタ手段は、音素列照合手段および音
素セグメンテーション手段で得られる音素の境界位置を
修正するための音素境界位置エディタとしての機能とと
もに、作業者による部分音素列の変更によって、音素列
の一部の境界位置を再推定する必要が生じた場合でも、
変更前の各音素の境界位置情報を最大限に活用すること
で、それまでの作業結果ができるだけ保存されるように
変更を行う機能を有していることを特徴としている。

【００１２】また、請求項４記載の発明は、請求項３記
載の音声データベース作成支援システムにおいて、作業
者による部分音素列の変更によって、音素列の一部の境
界位置を再推定する必要が生じた場合に、変更の前後で
音素の数が同じ場合には、変更前の音素境界位置をその
ままの順序で新しい音素列に適用し、変更によって音素
数が変化する場合には、変更前の音素区間を分割するこ
とによって新たな境界位置を推定するようになっている
ことを特徴としている。

【００１３】また、請求項５記載の発明は、仮名文字で
記述された読みを、それを発声した場合に出現し得る音
素列候補に展開するための仮名文字展開手段と、展開さ
れた音素列候補に対して実際の音声データに基づいて順
位付けを行う音素列照合手段と、音素列照合手段によっ
て得られた最も順位の高い音素列、または、作業者が指
定した音素列に従って、音声データの各音素の境界位置
を算出する音素セグメンテーション手段と、エディタ手
段とを有し、エディタ手段は、音素列照合手段および音
素セグメンテーション手段で得られる音素の境界位置を
修正するための音素境界位置エディタとしての機能とと
もに、作業者による部分音素列の変更によって新たに指
定された音素列が、音素列候補全体の中で何番目に尤も
らしい候補であるかという情報を表示する機能を有して
いることを特徴としている。

【００１４】

【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図１は本発明に係る音声データベー
タ作成支援システムの構成例を示す図である。図１を参
照すると、この音声データベータ作成支援システムは、
仮名文字で記述された読みを、それを発声した場合に出
現し得る音素列候補に展開するための仮名文字展開手段
１と、仮名文字展開手段１によって展開された音素列候
補に対して実際の音声データに基づいて順位付けを行う
音素列照合手段２と、音素列照合手段２によって得られ
た最も順位の高い音素列、または、作業者が指定した音
素列に従って、音声データの各音素の境界位置を算出す
る（自動的に推定する）音素セグメンテーション手段３
と、エディタ手段４とを有している。

【００１５】より詳しくは、仮名文字展開手段１は、読
み仮名を、それを発声した場合に出現し得る複数通りの
音素並び（音素列候補）に展開するようになっている。

【００１６】また、音素列照合手段２は、複数通りの音
素並び（音素列候補）について、実際に発声された音声
データに最も良く合致していると思われるものの順に順
位付けをするようになっている。

【００１７】また、音素セグメンテーション手段３は、
音素列照合手段２によって得られた最も順位の高い音素
列、または、作業者が指定した音素列を、実際の音声デ
ータに適用し、各音素の境界位置を自動的に推定するよ
うになっている。

【００１８】また、エディタ手段４は、自動推定によっ
て得られた音素並び（音素列）あるいは音素境界位置に
含まれる推定誤りを修正する機能を有している。

【００１９】本発明は、自動的に推定された音素列が実
際の発声された音声に合致していないと判断された場合
に、自動的に推定された音素列をできるだけ少ない労力
で修正する（自動的に推定された音素列には誤りが含ま
れている可能性があるという前提の下で、その修正のた
めの作業を簡便化する）ことの可能な支援システムを提
供することを意図している。

【００２０】第１の実施形態本発明の第１の実施形態では、エディタ手段４は、音素
列照合手段２および音素セグメンテーション手段３で得
られる（自動的に推定された）音素の境界位置を例えば
対話的に修正するための音素境界位置エディタとしての
機能とともに、仮名文字単位の区切り情報を含んだ形で
展開された音素列候補から中間表現としての音素グラフ
構造（リスト構造）を作成し、音素グラフ構造のうち、
複数の候補が存在する部分音素列を作業者が選択，変更
し易いハイパーテキストの形で表示する機能を有してい
る。

【００２１】本発明の音声データベータ作成支援システ
ムは、具体的に、次のようして音声データベータの作成
を支援する。

【００２２】すなわち、仮名文字で記述された単語や文
を音素列で表記する場合、一般に複数の候補の可能性が
生じる。実際にどのような音素列になるかについては、
音素の定義によって異なるが、例えば、本願の発明者が
現在使用している音素定義に従って「にほんご」という
表記に対する音素列を求めた場合には、「ご」の鼻音化
の有無によって、“n i h o x,+ g o” と “n i h o
G,G o” の２通りの候補が得られる。さらに、「ちゅう
がっこう」という単語では１２通りの候補が得られ、
「こくりつだいがく」では４８通りもの候補が得られ
る。

【００２３】音声データベースを作成する際の作業工程
の第１段階目は、このような複数の音素列候補の中か
ら、実際に収録されている音声に最も相応しい候補を選
択するというものである。ただし、音素列の候補数が多
数となる場合、それらを並べて表示し、その中から適切
なものを選ぶという方法ではかなりの手間がかかり、効
率の良い作業は期待できない。

【００２４】そこで、本発明の第１の実施形態では、こ
の部分の作業を簡素化するために、仮名文字から音素列
を生成する際に、仮名文字単位の区切り情報を含んだ形
で展開することによって音素のグラフ構造（リスト構
造）を作成し、複数の候補が存在する部分音素列につい
ては、その部分のみを選択，変更できるようなハイパー
テキストの形で表示するようになっている。

【００２５】例えば、先の「にほんご」の例では、音素
列への展開によって、”{n i} {h o} {x} {,+ g o}”と
“{n i} {h o} {G} {,G o}” の２通りの候補を作成す
る。ここで、“{” と “}” で囲まれた部分がそれぞ
れ仮名１文字分に相当している。このように仮名文字の
区切り情報が含まれた音素列に展開することによって、
音素グラフ構造を簡単に作成することができる。この例
の場合は、“n i h o [x｜G] [,+ g o｜,G o]”とな
る。

【００２６】このような音素グラフ構造を用いれば、多
数の音素列候補が存在するような場合でも、簡素に表現
することができる。例えば「こくりつだいがく」に対応
する４８通りの候補に対して、音素列照合手段２で以下
のような順位付けが行われたとする。 1 “{- k o} {- k u} {r i} {- ts U} {d a} i {+ g a} {- k u}” 2 “{- k o} {- k u} {r i} {- ts U} {+ d a} i {+ g a} {- k u}” 3 “{- k o} {- k u} {r i} {- ts U} {d a} i {g a} {- k u}” 4 “{- k o} {- k u} {r i} {- ts U} {+ d a} i {g a} {- k u}” 5 “{- k o} {- k u} {r i} {- ts,u0} {+ d a} i {+ g a} {- k u}” 6 “{- k o} {- k,u0} {r i} {- ts U} {d a} i {+ g a} {- k u}” 7 “{- k o} {- k u} {r i} {- ts U} {d a} i {G a} {- k u}” 8 “{- k o} {- k u} {r i} {- ts,u0} {d a} i {+ g a} {- k u}” 9 “{- k o} {- k,u0} {r i} {- ts U} {+ d a} i {+ g a} {- k u}” 10 “{- k o} {- k u} {r i} {- ts U} {+ d a} i {G a} {- k u}” 11 “{- k o} {- k u} {r i} {- ts,u0} {+ d a} i {g a} {- k u}” 12 “{- k o} {- k,u0} {r i} {- ts U} {d a} i {g a} {- k u}” 13 “{- k o} {- k u} {r i} {- ts,u0} {d a} i {g a} {- k u}” 14 “{- k o} {- k,u0} {r i} {- ts U} {+ d a} i {g a} {- k u}” 15 “{- k o} {- k,u0} {r i} {- ts,u0} {+ d a} i {+ g a} {- k u}” 16 “{- k o} {- k u} {r i} {- ts,u0} {+ d a} i {G a} {- k u}” 17 “{- k o} {- k,u0} {r i} {- ts U} {d a} i {G a} {- k u}” 18 “{- k o} {- k,u0} {r i} {- ts,u0} {d a} i {+ g a} {- k u}” 19 “{- k o} {- k u} {r i} {- ts,u0} {d a} i {G a} {- k u}” 20 “{- k o} {- k,u0} {r i} {- ts U} {+ d a} i {G a} {- k u}” 21 “{- k o} {- k u} {r i} {- ts U} {d a} i {+ g a} {- k,u0}” 22 “{- k o} {- k u} {r i} {- ts U} {+ d a} i {+ g a} {- k,u0}” 23 “{- k o} {- k,u0} {r i} {- ts,u0} {+ d a} i {g a} {- k u}” 24 “{- k o} {- k,u0} {r i} {- ts,u0} {d a} i {g a} {- k u}” 25 “{- k o} {- k u} {r i} {- ts U} {d a} i {g a} {- k,u0}” 26 “{- k o} {- k u} {r i} {- ts U} {+ d a} i {g a} {- k,u0}” 27 “{- k o} {- k,u0} {r i} {- ts,u0} {+ d a} i {G a} {- k u}” 28 “{- k o} {- k u} {r i} {- ts,u0} {+ d a} i {+ g a} {- k,u0}” 29 “{- k o} {- k,u0} {r i} {- ts,u0} {d a} i {G a} {- k u}” 30 “{- k o} {- k,u0} {r i} {- ts U} {d a} i {+ g a} {- k,u0}” 31 “{- k o} {- k u} {r i} {- ts U} {d a} i {G a} {- k,u0}” 32 “{- k o} {- k u} {r i} {- ts,u0} {d a} i {+ g a} {- k,u0}” 33 “{- k o} {- k,u0} {r i} {- ts U} {+ d a} i {+ g a} {- k,u0}” 34 “{- k o} {- k u} {r i} {- ts U} {+ d a} i {G a} {- k,u0}” 35 “{- k o} {- k u} {r i} {- ts,u0} {+ d a} i {g a} {- k,u0}” 36 “{- k o} {- k,u0} {r i} {- ts U} {d a} i {g a} {- k,u0}” 37 “{- k o} {- k u} {r i} {- ts,u0} {d a} i {g a} {- k,u0}” 38 “{- k o} {- k,u0} {r i} {- ts U} {+ d a} i {g a} {- k,u0}” 39 “{- k o} {- k,u0} {r i} {- ts,u0} {+ d a} i {+ g a} {- k,u0}” 40 “{- k o} {- k u} {r i} {- ts,u0} {+ d a} i {G a} {- k,u0}” 41 “{- k o} {- k,u0} {r i} {- ts U} {d a} i {G a} {- k,u0}” 42 “{- k o} {- k,u0} {r i} {- ts,u0} {d a} i {+ g a} {- k,u0}” 43 “{- k o} {- k u} {r i} {- ts,u0} {d a} i {G a} {- k,u0}” 44 “{- k o} {- k,u0} {r i} {- ts U} {+ d a} i {G a} {- k,u0}” 45 “{- k o} {- k,u0} {r i} {- ts,u0} {+ d a} i {g a} {- k,u0}” 46 “{- k o} {- k,u0} {r i} {- ts,u0} {d a} i {g a} {- k,u0}” 47 “{- k o} {- k,u0} {r i} {- ts,u0} {+ d a} i {G a} {- k,u0}” 48 “{- k o} {- k,u0} {r i} {- ts,u0} {d a} i {G a} {- k,u0}”

【００２７】これらの音素列候補に対して、複数の候補
が存在する個所をそれぞれ上位の候補から順に並べるこ
とで、以下のような音素グラフ構造（リスト構造）が得
られる。 “- k o [- k u｜- k u0] r i [- ts U|- ts,u0] [d a|
+ d a] i [+ g a｜g a｜G a] [- k u|- k u0]”

【００２８】ここで、 “[” と “]” で囲まれた部分
において、最も左側が最上位の候補であり、最も右側が
最下位の候補である。

【００２９】上記音素グラフ構造を画面（エディタ画
面）上に提示する場合には、複数の候補が存在する部分
文字列（すなわち “[” と “]” で囲まれた部分）を
キーやマウス等で簡単に選択し、変更することのできる
ハイパーテキストの形で表示する（後述の図３，図４，
図５に第１の実施形態の具体例を示した）。

【００３０】このように、第１の実施形態では、仮名文
字単位の区切り情報を含んだ形で展開された音素列候補
から中間表現としての音素グラフ構造（リスト構造）を
作成し、音素グラフ構造のうち、複数の候補が存在する
部分音素列を作業者が選択，変更し易いハイパーテキス
トの形で表示するようになっているので、音素列候補が
多数ある場合でも、ユーザが所望する音素列候補を容易
に選択することができる。

【００３１】第２の実施形態また、本発明の第２の実施形態では、エディタ手段４
は、音素列照合手段２および音素セグメンテーション手
段３で得られる音素の境界位置を例えば対話的に修正す
るための音素境界位置エディタとしての機能とともに、
作業者が変更した部分音素列の影響によってその前後の
部分音素列も入れ替える必要が生じた場合でも、その変
更が必要最小限の範囲に留めることで、それまでの作業
結果ができるだけ保存されるように変更を行う機能を有
している。

【００３２】具体例として、先の「にほんご」に対応す
る音素グラフ構造は、“n i h o [x｜G] [,+ g o｜,G
o]”のように、２箇所で複数の候補が存在しているが、
前方の候補と後方の候補は互いに密接に関連しており、
前方を “G” にすれば、後方の候補は自動的に “,G
o” となる。

【００３３】このように、ある部分の部分音素列の変更
がその前後の音素列にも影響を及ぼす場合、その変更が
作業の途中で行われた場合でも、それまでの作業結果を
有効に活用することで、作業効率の劣化を防ぐことがで
きる。

【００３４】この機能について、以下で説明する。例え
ば、仮名文字「がんがん」に対する音素列が、以下の順
で得られたとする。 1 “{+ g a} x {,+ g a} x” 2 “{g a} x {,+ g a} x” 3 “{G a} x {,+ g a} x” 4 “{+ g a} G {,G a} x” 5 “{g a} G {,G a} x” 6 “{G a} G {,G a} x”

【００３５】これに対する音素グラフ構造（リスト構
造）は、“[+ g a｜g a｜G a] [x｜G][,+ g a｜,G a]
x”であり、２番目の候補と３番目の候補は互いに影響
しあっている（すなわち、２番目の候補を “G” にす
れば、３番目の候補は “,G a”となる）。

【００３６】今、第１位の候補 “+ g a x,+ g a x”
の先頭部分に変更が加えられて、“Ga x,+ g a x” が
選択されたとする（これは第３位の候補である）。ここ
で、この候補が正しいものであれば（すなわち、音素候
補中に含まれていれば）、それを順位の先頭に移動し、
同時に、“G a” で始まる候補を順序関係を保ったまま
リストの上位に移動する。この結果、候補の順序は、 1’ “{G a} x {,+ g a} x” 2’ “{G a} G {,G a} x” 3’ “{+ g a} x {,+ g a} x” 4’ “{g a} x {,+ g a} x” 5’ “{+ g a} G {,G a} x” 6’ “{g a} G {,G a} x” となり、音素グラフ構造（リスト構造）も“[G a|+ g a
｜g a] [x｜G] [,+ g a｜,G a] x”のように変更され
る。

【００３７】これに続いて、２番目の個所で “G” が
選択されたとする。この場合、音素列は、“G a G,+ g
a x” となるが、このような候補は存在しない。そこ
で、候補の上位から順に、２番目の個所が “G” であ
るよう音素列を探す。この場合、２’ の候補に “G a
G,G a x” が見つかる。そこでこれを変更後の音素列と
し、先程と同様に順序の変更を行う。その結果、候補の
順序は、 1'' “{G a} G {,G a} x” 2'' “{+ g a} G {,G a} x” 3'' “{g a} G {,G a} x” 4'' “{G a} x {,+ g a} x” 5'' “{+ g a} x {,+ g a} x” 6'' “{g a} x {,+ g a} x” となり、音素グラフ構造（リスト構造）は“[G a｜+ g
a｜g a] [G｜x] [,G a｜,+ g a] x”となる。

【００３８】このような処理を行うことで、部分文字列
の変更を繰り返し行った場合でも、音素列選択に関する
過去の編集結果が失われないため、作業効率の劣化が生
じない。

【００３９】第３の実施形態また、本発明の第３の実施形態では、エディタ手段４
は、音素列照合手段２および音素セグメンテーション手
段３で得られる音素の境界位置を例えば対話的に修正す
るための音素境界位置エディタとしての機能とともに、
作業者による部分音素列の変更によって、音素列の一部
の境界位置を再推定する必要が生じた場合でも、変更前
の各音素の境界位置情報を最大限に活用することで、そ
れまでの作業結果ができるだけ保存されるように変更を
行う機能を有している。

【００４０】具体例として、ある音素列 “p1 p2 p3 p4
p5 p6 p7” に対して音素セグメンテーション部でそれ
ぞれの音素の開始時刻が以下のように推定されたとす
る。p1 の開始時刻: t1 p2 の開始時刻: t2 p3 の開始時刻: t3 p4 の開始時刻: t4 p5 の開始時刻: t5 p6 の開始時刻: t6 p7 の開始時刻: t7

【００４１】その後、作業者によって一部の音素が変更
された場合、その部分の境界をどのように定めるかとい
う問題がある。初期値を求めるのと同様に、新たな音素
列に対して、音素セグメンテーション手段３によって全
ての境界位置を再推定してしまう方法も考えられるが、
この場合には、音素を変更する以前に行った境界位置に
対する編集結果は全て失われてしまう。

【００４２】そこで、第３の実施形態では、以下のよう
な方法で新たな音素列に対する境界位置を求める。

【００４３】すなわち、変更前と変更後とで音素数が同
じ場合を考える。例えば、p4 とp5がそれぞれ p8 と p9
に変更された場合を考える。このときには、元の音素
の境界位置をそのまま適用して、 p1 の開始時刻: t1 p2 の開始時刻: t2 p3 の開始時刻: t3 p8 の開始時刻: t4 p9 の開始時刻: t5 p6 の開始時刻: t6 p7 の開始時刻: t7 とする。

【００４４】次に、変更前と変更後で音素数が変わる場
合を考える。例えば、“p4, p5, p6” の部分が “p8,
p9” に変更され、“p1 p2 p3 p8 p9 p7” となった場
合（例えば、Ｇａが＋ｇａになる場合）を考える。この
場合には、変更の前後で音素が一致しているものは元の
境界位置をそのまま使用し、そうでない音素について
は、変更前の部分音素列と変更後の部分音素列の先頭の
音素（この場合は、p4とp8）の時刻を一致させ、残りの
音素は当該区間を等分割して求める。つまり、 p1 の開始時刻: t1 p2 の開始時刻: t2 p3 の開始時刻: t3 p8 の開始時刻: t4 p9 の開始時刻: t4 + (t7 − t4) / 2 p7 の開始時刻: t7 とする。

【００４５】これは、変更によって音素数が減る場合の
例であるが、変更によって音素数が増える場合でも同様
である。例えば、“p4, p5” の部分が “p8, p9 p10”
に変更され、“p1 p2 p3 p8 p9 p10 p6 p7” となった
場合には、各音素の境界位置は、以下のようになる。 p1 の開始時刻: t1 p2 の開始時刻: t2 p3 の開始時刻: t3 p8 の開始時刻: t4 p9 の開始時刻: t4 + (t6 − t4) / 3 p10 の開始時刻: t4 + (t6 − t4) * 2 / 3 p6 の開始時刻: t6 p7 の開始時刻: t7

【００４６】このように、第３の実施形態では、部分文
字列の変更を繰り返し行った場合でも、音素境界位置に
関する過去の編集結果が最大限に活用されるため（変更
のない箇所はできる限り操作しないため）、作業効率の
劣化が生じない。

【００４７】すなわち、第３の実施形態では、作業者に
よる部分音素列の変更によって、音素列の一部の境界位
置を再推定する必要が生じた場合に、変更の前後で音素
の数が同じ場合には、変更前の音素境界位置をそのまま
の順序で新しい音素列に適用し、変更によって音素数が
変化する場合には、変更前の音素区間を適当に分割する
ことによって新たな境界位置を推定するようになってお
り、音声認識を用いずに、例えば比例配分する簡単な処
理で、新たな境界位置を推定することができる（後述の
図２，図６に第３の実施形態の具体例を示した）。

【００４８】第４の実施形態また、本発明の第４の実施形態では、エディタ手段４
は、音素列照合手段２および音素セグメンテーション手
段３で得られる音素の境界位置を例えば対話的に修正す
るための音素境界位置エディタとしての機能とともに、
作業者による部分音素列の変更によって新たに指定され
た音素列が、音素列候補全体の中で何番目に尤もらしい
候補であるかという情報を表示する機能を有している。

【００４９】この機能を実現するためには、音素列照合
部で得られた各音素列の順位を保存しておき、その後の
操作によって新たな音素列が選択される度に、それが何
番目の候補であるかを求めれば良い。

【００５０】例えば、前述した「こくりつだいがく」の
例で、 “- k o - k u r i - ts,u0 d a i + g a - k u” が選択された場合、これは第８位の候補であるため、画
面上に「４８候補中８位」といった表示を行う（後述
の図２，図６に第４の実施形態の具体例を示した）。

【００５１】このように、作業者による部分音素列の変
更によって新たに指定された音素列が、音素列候補全体
の中で何番目に尤もらしい候補であるかという情報を表
示する機能を有している場合、作業者が行った変更が、
どの程度適切なものであるかの目安が示されるため、作
業ミスを減らし、データベースの品質向上を図ることが
できると同時に、編集作業時の迷いを低減することがで
きるため、作業効率を向上させることができる。

【００５２】次に、本発明の具体例を説明する。図２は
エディタ画面全体の一例を示す図である。図２におい
て、符号５は仮名文字で記述された読みを表示する部分
であり、符号６は音素ラベル構造（より正確には、選択
された音素列候補）を表示する部分であり、符号７は後
述のように部分６に表示されている音素列候補が何番目
の順位のものかを表示する部分であり、符号８は部分６
に表示されている音素列候補の音素ラベル情報（波形情
報，音素境界位置情報）を表示する部分である。

【００５３】図２の例では、エディタ画面の部分５に
は、仮名文字で記述された読みとして、「こくりつだい
がく」が表示され、また、部分６には、「こくりつだい
がく」の４８個の音素列候補のうち、１つの選択された
音素列候補「- k o - k u r i- ts U + d a i G a - k
u」が表示されている。また、部分７には、１つの選択
された音素列候補「- k o - k u r i - ts U + d a i G
a - k u」の順位「４８候補中２０位」が表示されて
いる。

【００５４】また、図３は図２のエディタ画面上に表示
されている音素ラベル構造（選択された音素列候補）の
部分６だけを取り出した図である。図３において、音素
ラベル構造（より正確には、選択された音素列候補）を
表示する部分６の四角の枠で囲まれた部分９，１０，１
１，１２，１３が、複数の候補が存在する部分文字列の
箇所であり、ハイパーテキストの形となっている。すな
わち、この四角の枠で囲まれた部分をクリック（ポイン
ト）することにより、この部分の複数の候補が表示さ
れ、ユーザは、表示された複数の候補のうちの１つの候
補を選択することができる（候補を変更することができ
る）ようになっている。

【００５５】例えば、図３の表示において、「Ｇａ」の
部分１２をクリックすると、図４に示すように、この部
分１２について複数の候補「ｇａ」，「＋ｇａ」がメニ
ュー１５で表示される。そして、ユーザがこのメニュー
１５において「＋ｇａ」をクリック（ポイント）する
と、「＋ｇａ」が選択され、エディタ画面の部分６には
図５に示すような音素列候補「- k o - k u r i - ts U
+ d a i + g a - k u」が表示される。すなわち、当初
「- k o - k u r i - ts U + d a i G a - k u」であっ
た音素列候補を、「- k o - k u r i - ts U + d a i +
g a - k u」の音素列候補に容易に変更できる。そし
て、エディタ画面全体は図６に示すようになる。すなわ
ち、音素列候補を変更すると、エディタ画面の部分８に
は、変更された音素列候補の音素ラベル情報（波形情
報，境界位置情報）が自動的に表示される。また、エデ
ィタ画面の部分７には、変更された音素列候補が何番目
の順位のものかが自動的に表示される。

【００５６】本発明によって作成された音声データベー
スは、種々の用途に利用される。例えば音声認識のため
の音響モデルを構築するのに利用される場合には、音声
サンプルとそこに含まれている各音素の境界位置情報に
基づいてＨＭＭ（隠れマルコフモデル）などを学習する
ことになり、また、音声合成用の音声素片の作成に利用
される場合には、各音素の境界位置情報に基づいて音声
素片が抽出される。

【００５７】

【発明の効果】以上に説明したように、請求項１記載の
発明によれば、仮名文字で記述された読みを、それを発
声した場合に出現し得る音素列候補に展開するための仮
名文字展開手段と、展開された音素列候補に対して実際
の音声データに基づいて順位付けを行う音素列照合手段
と、音素列照合手段によって得られた最も順位の高い音
素列、または、作業者が指定した音素列に従って、音声
データの各音素の境界位置を算出する音素セグメンテー
ション手段と、エディタ手段とを有し、エディタ手段
は、音素列照合手段および音素セグメンテーション手段
で得られる音素の境界位置を修正するための音素境界位
置エディタとしての機能とともに、仮名文字単位の区切
り情報を含んだ形で展開された音素列候補から中間表現
としての音素グラフ構造を作成し、音素グラフ構造のう
ち、複数の候補が存在する部分音素列を作業者が選択，
変更し易いハイパーテキストの形で表示する機能を有し
ているので、多数の音素列候補の中から発話内容に従っ
た適切な音素列候補を選択するための作業効率を向上さ
せることができる。

【００５８】また、請求項２記載の発明によれば、仮名
文字で記述された読みを、それを発声した場合に出現し
得る音素列候補に展開するための仮名文字展開手段と、
展開された音素列候補に対して実際の音声データに基づ
いて順位付けを行う音素列照合手段と、音素列照合手段
によって得られた最も順位の高い音素列、または、作業
者が指定した音素列に従って、音声データの各音素の境
界位置を算出する音素セグメンテーション手段と、エデ
ィタ手段とを有し、エディタ手段は、音素列照合手段お
よび音素セグメンテーション手段で得られる音素の境界
位置を修正するための音素境界位置エディタとしての機
能とともに、作業者が変更した部分音素列の影響によっ
てその前後の部分音素列も入れ替える必要が生じた場合
でも、その変更が必要最小限の範囲に留めることで、そ
れまでの作業結果ができるだけ保存されるように変更を
行う機能を有しており、作業の途中で部分音素列の変更
を行った場合でも、過去の作業結果がリセットされてし
まうことなく最大限に活用されるので、作業効率を向上
させることができる。

【００５９】また、請求項３，請求項４記載の発明によ
れば、仮名文字で記述された読みを、それを発声した場
合に出現し得る音素列候補に展開するための仮名文字展
開手段と、展開された音素列候補に対して実際の音声デ
ータに基づいて順位付けを行う音素列照合手段と、音素
列照合手段によって得られた最も順位の高い音素列、ま
たは、作業者が指定した音素列に従って、音声データの
各音素の境界位置を算出する音素セグメンテーション手
段と、エディタ手段とを有し、エディタ手段は、音素列
照合手段および音素セグメンテーション手段で得られる
音素の境界位置を修正するための音素境界位置エディタ
としての機能とともに、作業者による部分音素列の変更
によって、音素列の一部の境界位置を再推定する必要が
生じた場合でも、変更前の各音素の境界位置情報を最大
限に活用することで、それまでの作業結果ができるだけ
保存されるように変更を行う機能を有しており、作業の
途中で部分音素列の変更を行った場合でも、過去の作業
結果がリセットされてしまうことなく最大限に活用され
るので、作業効率を向上させることができる。

【００６０】また、請求項５記載の発明によれば、仮名
文字で記述された読みを、それを発声した場合に出現し
得る音素列候補に展開するための仮名文字展開手段と、
展開された音素列候補に対して実際の音声データに基づ
いて順位付けを行う音素列照合手段と、音素列照合手段
によって得られた最も順位の高い音素列、または、作業
者が指定した音素列に従って、音声データの各音素の境
界位置を算出する音素セグメンテーション手段と、エデ
ィタ手段とを有し、エディタ手段は、音素列照合手段お
よび音素セグメンテーション手段で得られる音素の境界
位置を修正するための音素境界位置エディタとしての機
能とともに、作業者による部分音素列の変更によって新
たに指定された音素列が、音素列候補全体の中で何番目
に尤もらしい候補であるかという情報を表示する機能を
有しており、作業者が行った変更がどの程度適切なもの
であるかの目安が示されるので、作業ミスを減らしデー
タベースの品質向上を図ることができると同時に、編集
作業時の迷いを低減することができ、作業効率を向上さ
せることができる。

【図面の簡単な説明】

【図１】本発明に係る音声データベース作成支援システ
ムの構成例を示す図である。

【図２】エディタ手段の機能を説明するための図であ
る。

【図３】ハイパーテキストの形での表示を説明するため
の図である。

【図４】ハイパーテキストの形での表示を説明するため
の図である。

【図５】ハイパーテキストの形での表示を説明するため
の図である。

【図６】エディタ手段の機能を説明するための図であ
る。

【符号の説明】

１仮名文字展開手段２音素列照合手段３音素セグメンテーション手段４エディタ手段

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/00 Ｇ１０Ｌ 3/00 ５５１Ｐ 15/28

Claims

【特許請求の範囲】

【請求項１】仮名文字で記述された読みを、それを発
声した場合に出現し得る音素列候補に展開するための仮
名文字展開手段と、展開された音素列候補に対して実際
の音声データに基づいて順位付けを行う音素列照合手段
と、音素列照合手段によって得られた最も順位の高い音
素列、または、作業者が指定した音素列に従って、音声
データの各音素の境界位置を算出する音素セグメンテー
ション手段と、エディタ手段とを有し、エディタ手段
は、音素列照合手段および音素セグメンテーション手段
で得られる音素の境界位置を修正するための音素境界位
置エディタとしての機能とともに、仮名文字単位の区切
り情報を含んだ形で展開された音素列候補から中間表現
としての音素グラフ構造を作成し、音素グラフ構造のう
ち、複数の候補が存在する部分音素列を作業者が選択，
変更し易いハイパーテキストの形で表示する機能を有し
ていることを特徴とする音声データベース作成支援シス
テム。
【請求項２】仮名文字で記述された読みを、それを発
声した場合に出現し得る音素列候補に展開するための仮
名文字展開手段と、展開された音素列候補に対して実際
の音声データに基づいて順位付けを行う音素列照合手段
と、音素列照合手段によって得られた最も順位の高い音
素列、または、作業者が指定した音素列に従って、音声
データの各音素の境界位置を算出する音素セグメンテー
ション手段と、エディタ手段とを有し、エディタ手段
は、音素列照合手段および音素セグメンテーション手段
で得られる音素の境界位置を修正するための音素境界位
置エディタとしての機能とともに、作業者が変更した部
分音素列の影響によってその前後の部分音素列も入れ替
える必要が生じた場合でも、その変更が必要最小限の範
囲に留めることで、それまでの作業結果ができるだけ保
存されるように変更を行う機能を有していることを特徴
とする音声データベース作成支援システム。
【請求項３】仮名文字で記述された読みを、それを発
声した場合に出現し得る音素列候補に展開するための仮
名文字展開手段と、展開された音素列候補に対して実際
の音声データに基づいて順位付けを行う音素列照合手段
と、音素列照合手段によって得られた最も順位の高い音
素列、または、作業者が指定した音素列に従って、音声
データの各音素の境界位置を算出する音素セグメンテー
ション手段と、エディタ手段とを有し、エディタ手段
は、音素列照合手段および音素セグメンテーション手段
で得られる音素の境界位置を修正するための音素境界位
置エディタとしての機能とともに、作業者による部分音
素列の変更によって、音素列の一部の境界位置を再推定
する必要が生じた場合でも、変更前の各音素の境界位置
情報を最大限に活用することで、それまでの作業結果が
できるだけ保存されるように変更を行う機能を有してい
ることを特徴とする音声データベース作成支援システ
ム。
【請求項４】請求項３記載の音声データベース作成支
援システムにおいて、作業者による部分音素列の変更に
よって、音素列の一部の境界位置を再推定する必要が生
じた場合に、変更の前後で音素の数が同じ場合には、変
更前の音素境界位置をそのままの順序で新しい音素列に
適用し、変更によって音素数が変化する場合には、変更
前の音素区間を分割することによって新たな境界位置を
推定するようになっていることを特徴とする音声データ
ベース作成支援システム。
【請求項５】仮名文字で記述された読みを、それを発
声した場合に出現し得る音素列候補に展開するための仮
名文字展開手段と、展開された音素列候補に対して実際
の音声データに基づいて順位付けを行う音素列照合手段
と、音素列照合手段によって得られた最も順位の高い音
素列、または、作業者が指定した音素列に従って、音声
データの各音素の境界位置を算出する音素セグメンテー
ション手段と、エディタ手段とを有し、エディタ手段
は、音素列照合手段および音素セグメンテーション手段
で得られる音素の境界位置を修正するための音素境界位
置エディタとしての機能とともに、作業者による部分音
素列の変更によって新たに指定された音素列が、音素列
候補全体の中で何番目に尤もらしい候補であるかという
情報を表示する機能を有していることを特徴とする音声
データベース作成支援システム。