JP2007256349A

JP2007256349A - 音声データ収録システムおよび音声データ収録方法

Info

Publication number: JP2007256349A
Application number: JP2006077247A
Authority: JP
Inventors: Satoshi Watanabe; 聡渡辺; Tsutomu Kaneyasu; 勉兼安
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2006-03-20
Filing date: 2006-03-20
Publication date: 2007-10-04

Abstract

【課題】所望する素片を正確かつ迅速に音声データベースに記憶することが可能な，音声データ収録システムおよび音声データ収録方法を提供すること。
【解決手段】音声データ収録システムは，収録者により入力された音声情報を取得する音声情報入力部１１０と，音声情報に基づいて参照信号を生成する信号生成部１２０と，参照信号と，音声／信号変換部から入力される音声データ信号とを比較し，音声データ信号の音声情報が参照信号の音声情報を基準とした所定の範囲に含まれるか否かを判断し，該判断結果に基づいて音声データ信号を音声データベース１８０に伝達する評価部１５０と，を含むことを特徴とする。
【選択図】図１

Description

本発明は，音声データベースを作成する際に用いる音声データ収録システムおよび音声データ収録方法に関する。

音声合成とは，一般に，音声データベースに記憶された音声データを組合わせて，所望の音声を生成することをいう。音声合成の方式の１つである規則合成方式（ＴＴＳ：ＴｅｘｔＴｏＳｐｅａｃｈ）は，１つの発音記号に相当する十分な量の素片を記憶した音声データベースを用い，音声データベースに記憶された素片を組合わせて所望の音声を得る方式である。

具体的には，音声合成装置には，外部から連続音声の音素毎の情報を示す音声情報が入力される。ここで，音素とは発声可能な音声の最小単位をいう。そして，各音素の音声情報に最も適合する素片を音声データベースからそれぞれ選択し，該選択された素片同士を接続することで連続音声を生成することができる。したがって，音声データベースが記憶する素片を単純に増やすことにより，音声データベース上から素片を選択する際の検索範囲が増加するので，生成する音声を所望する音声に近づけること（音質向上）ができる。

このような素片を音声データベースに記憶する場合，従来は，収録者が発声者に記憶したい素片の音声情報（「望む口調」）を説明し，発声者がこれに従って発声していた。そして，収録者が発声者の発した発声音を聴取し，「望む口調」にある程度近いものであると自己の音感に基づいて評価した場合，該発声音を音声データベースに素片として記憶していた。しかし，収録者が発声者に「望む口調」を説明するには，多大な時間を要し，また，「望む口調」が発声者に正確に伝わらないという問題があった。また，収録者によって発声音に対する評価がまちまちになる場合が生じていた。

一方，特許文献１に記載の音声データベース作成方法によると，収録者が「望む口調」を音声合成装置により合成音声で作成し，その合成音声を発声者に参照音として提供しており，発声者が「望む口調」を把握する過程の効率化を図っている。
特開２０００‐２５０５７２

しかし，人間が，自己の聴覚により，数１０ｍｓｅｃ単位での発声音の継続時間の差異や，数Ｈｚ単位でのピッチ情報の差異などの細かい音響的差異を認識し，これを評価することは困難であるため，正確な素片を音声データベースに記憶することができないという問題があった。

そこで，本発明は，上記問題に鑑みてなされたものであり，本発明の目的とするところは，所望する素片を正確かつ迅速に音声データベースに記憶することが可能な，新規かつ改良された音声データ収録システムおよび音声データ収録方法を提供することにある。

上記課題を解決するために，本発明のある観点によれば，音声データ収録装置と，信号／音声変換装置と，音声／信号変換装置と，音声データベースとを含み，発声者による発声音の音声データ信号を音声データベースに記憶する音声データ収録システムが提供される。本システムを利用する音声データ収録装置としては，発声者に要求する発声音についての音声情報を取得する音声情報入力部と，音声情報に基づいて参照信号を生成する信号生成部と，参照信号と，音声データ信号とを比較し，音声データ信号の音声情報が参照信号の音声情報を基準とした所定の範囲に含まれるか否かを判断し，該判断結果に基づいて音声データ信号を音声データベースに伝達する評価部と，を含み，信号／音声変換装置は，参照信号を参照音に変換して発声者に提供するものを挙げることができる。かかる構成によれば，発声者は参照音を聴取し，参照音を真似て発声するため，参照音を音のガイドとして活用しながら収集をすることができ，発声者の利便性に優れたものである。また，発声者による発声音と参照音との類似性の評価に基づく発声音の合否の判断は，コンピュータによって画一的な基準により実行される。したがって，発声者による発声と，発声音および参照音の類似性の評価とを効率的に行うことができる。

また，本発明の別の観点によれば，発声者に要求する発声音についての音声情報を取得する音声情報入力部と，音声情報に基づいて参照信号を生成する信号生成部と，参照信号と，音声データ信号に変換された発声音とを比較し，音声データ信号の音声情報が参照信号の音声情報を基準とした所定の閾値範囲に含まれるか否か判断し，所定の範囲に含まれると判断された音声データ信号を音声データベースに伝達する評価部と，を含むことを特徴とする，音声データ収録装置が提供される。かかる構成によれば，上記音声データ収録システム同様，発声者は聴取した参照音を参考にして発声する。また，発声者による発声音と参照音の類似性の評価および判断はコンピュータによって画一的な基準に基づき実行される。したがって，発声者による発声と，発声音および参照音の類似性の評価とを効率的に行うことができる。

音声情報は，音声データ信号のピッチ情報と継続時間のいずれか一方または双方を含むとしてもよい。かかる構成によれば，ピッチ情報と継続時間のいずれか一方または双方のパラメータによって確実に音声情報から参照信号を生成することができる。

判断結果に基づいて表示情報を生成する表示情報生成部をさらに含むとしてもよい。かかる構成によれば，表示情報生成部は，評価部から入力される評価および判断に関するデータに基づいて，例えば外部装置である表示部に表示するための表示情報を生成する。したがって，発声者は表示部の表示から，自己の発声音の評価を認識することができる。

表示情報は，音声データ信号および参照信号の継続時間の比較データと，発声音および参照音のピッチ情報の比較データとを含むとしてもよい。かかる構成によれば，発声者は，評価部の合否以外にも，自己の発声音が，参照音と比較してどのように適切でなかったかを認識することができ，自己の発声を効果的に修正して，次回の発声をすることが可能となる。

信号生成部は，あらかじめ準備された音声を合成して参照信号を生成するとしてもよい。かかる構成によれば，発声者はより人間の音声に近い参照音を参考にして発声することができる。

信号生成部は，正弦波により参照信号を生成するとしてもよい。かかる構成によれば，参照信号を容易に作成することができ，また，発声者はスペクトル情報を含まない参照音を参考にして発声することができる。

また，本発明の別の観点によれば，音声データベースに音声データ信号を記憶する音声データ収録方法であって，発声者に要求する発声音についての音声情報を取得するステップと，音声情報に基づいて参照信号を生成するステップと，参照信号を参照音に変換して発声者に提供するステップと，発声者による発声音を音声データ信号に変換するステップと，参照信号と，音声データ信号とを比較し，音声データ信号の音声情報が参照信号の音声情報を基準とした所定の範囲に含まれるか否かを判断するステップと，所定の閾値範囲に含まれると判断された音声データ信号を，音声データベースに伝達するステップと，を含むことを特徴とする，音声データ収録方法が提供される。かかる構成によれば，上記音声データ収録システム同様，発声者は参照音を聴取し，参照音を真似て発声する。また，発声者による発声音と参照音の類似性の評価はコンピュータによって画一的な基準に基づき実行される。したがって，発声者による発声と，発声音および参照音の類似性の評価とを効率的に行うことができる。

以上説明したように本発明にかかる音声データ収録システムおよび音声データ収録方法によれば，所望する素片を正確かつ迅速に音声データベースに記憶することができる。

以下に添付図面を参照しながら，本発明の好適な実施の形態について詳細に説明する。なお，本明細書及び図面において，実質的に同一の機能構成を有する構成要素については，同一の符号を付することにより重複説明を省略する。

まず，規則合成方式による音声合成方法について，図８を用いて説明する。

図８は，音声合成装置２００の構成を示した説明図である。音声合成装置２００は，テキスト入力部２１０，テキスト解析部２２０，単語データベース（ＤＢ）２３０，音声情報推定部２４０，素片選択部２５０，音声データベース（ＤＢ）２６０，素片接続部２７０および音声データ出力部２８０を含む。

テキスト入力部２１０は，使用者により入力された音声のテキスト情報を取得し，これをテキスト解析部２２０に出力する。テキスト情報とは，合成したい音声を文字で示した情報であり，漢字やひらがなを含む。このようなテキスト情報の入力は，例えば，キーボードを介して行われても，スキャナを介して行われるとしてもよい。

テキスト解析部２２０は，テキスト入力部２１０から入力されたテキスト情報に基づき，中間言語を作成する。具体的には，まず，テキスト解析部２２０はテキスト情報に含まれていた漢字やひらがなをカナ文字変換する。次に，カナ文字変換されたテキスト情報にアクセントを付して，中間言語に相当するアクセント付きカナ文字列を作成する。上記中間言語を作成する際には，テキスト情報に含まれる漢字の読み方や，単語のアクセントの位置を記憶している単語データベース２３０が用いられる。

音声情報推定部２４０は，テキスト解析部２２０から中間言語を入力されると，中間言語を発声可能な音声の最小単位である音素からなる音素列とし，各音素の継続時間やピッチ情報を推定する。ピッチ情報とは，音素の高さ（声帯の振動数）に関する情報である。

図９は，上述のようなテキスト情報，中間言語および音声情報の一例を示した説明図である。図９（ａ）はテキスト情報を，図９（ｂ）は中間言語を，図９（ｃ）は音声情報を示している。

図９（ａ）は，テキスト入力部２１０が取得した「あらゆる現実」というテキスト情報の一例を示している。テキスト解析部２２０は，このようなテキスト情報が入力されると，単語データベース２３０を用いて「アラユルゲンジツ」というカナ文字列に変換し，さらに，「ラ」と「ン」に，図９（ｂ）のようにアクセントを付した中間言語を作成する。音声情報推定部２４０は，入力された中間言語から，「ａｒａｙｕｒｕｇｅｎｊｉｔｕ」からなる音素列と，音素列を構成する各音素毎の継続時間およびピッチ情報を図９（ｃ）のように推定する。なお，図９（ｃ）の縦軸はピッチを，横軸は時間を示している。

素片選択部２５０は，音声情報推定部２４０から推定された音声情報が入力されると，
十分な量の素片が記憶された音声データベース２６０を検索し，上記音声情報に最も適合する素片および／または素片の組合わせを選択する。より詳細には，入力された各音素と，音声データベース２６０に記憶された素片との音声情報を比較し，各音素に最も類似する素片を音声データベース２６０からそれぞれ選択する。なお，各音素と音声データベース２６０上の素片との類似性だけでなく，選択される素片同士の連続性を考慮して素片を選択をすることもできる。

素片接続部２７０は，素片選択部２５０により音声データベース２６０から選択された素片同士を接続し，合成音声信号を作成する。例えば，素片接続部２７０は，隣接する２素片の波形の相互相関を用いて，位相の同期する接続点を探索し，該接続点で各素片を接続する。

合成音声出力部２８０は，素片接続部２７０により作成された合成音声信号の供給を受けて，これを外部装置に出力する。外部装置としては，例えば，スピーカ，イヤホンおよびヘッドホンなどが該当する。

このような規則合成方式による音声合成方法において，音声データベース２６０に素片を幅広く記憶しておくことで，より所望する音声に近い合成音声を得ることができる。しかし，膨大な素片を音声データベース２６０に記憶する際に，発声者の発声音の評価を収録者の音感に基づいて行うとすると，細かい音響的差異を人間が認識することは困難であるため，正確な素片を音声データベースに記憶することができない。

本発明の実施の一形態によれば，所望する素片を正確かつ迅速に音声データベースに記憶することが可能な音声データ収録装置１００が提供される。以下，本実施形態による音声データ収録装置１００について説明する。

（第１の実施形態）
まず，本発明の第１の実施形態にかかる音声データ収録システム１００により音声データベース１８０に素片を記憶する流れについて説明する。本実施形態では，単音素（例えば，「あ」の場合／ａ／，「あー」の場合／ａａ／など）単位での素片の記憶を行う場合の例を示す。ここで，「／」は，音素の区切りを示している。

図１は，本実施形態による音声データ収録システム１００の信号の流れを示したブロック図である。音声データ収録システム１００は，音声データ収録装置１０４と，ヘッドホン１３０と，マイクロホン１４０と，表示部１６０と，音声データベース１８０とを含む。音声データ収録装置１０４は，音声情報入力部１１０と，音声合成部１２０と，評価部１５０とを含む。

音声情報入力部１１０は，発声者に要求される発声音についての音声情報を取得する。音声情報は，音素の音素名，継続時間およびピッチ情報を含み，上述したように，テキスト解析部２２０および音声情報推定部２４０による処理の過程を経て音声情報入力部１１０に入力されるとしてもよい。ここでピッチ情報は，音素の音声区間におけるピッチの平均値であっても，音素の音声区間において５ｍｓごとに計算したピッチを要素とするピッチ列であってもよい。

信号生成部としての音声合成部１２０は，音声情報入力部１１０から入力される音声情報に基づいて参照信号を生成する。より詳細には，音声合成部１２０は，音声データベースを内蔵し，上記音声情報に最も適合する素片を該音声データベースから選択し，これを参照信号とする。このような音声合成部１２０は，素片単位での継続時間およびピッチ情報に従って参照信号を生成する機能を要し，上述したような音声合成装置２００を用いることもできる。なお，複数の連続する素片を同時に収録する場合は，各素片の継続時間およびピッチ情報に従って参照信号を生成する機能を要する。

ヘッドホン１３０は，音声合成部１２０と接続されており，上記参照信号を参照音に変換して発声者に提供し，信号／音声変換部として機能する。発声者は，参照音を参考にして発声する。マイクロホン１４０は，発声者の入力音声（以下，発声音。）を音声データ信号に変換して評価部１５０に出力し，音声／信号変換部として機能する。ヘッドホン１３０およびマイクロホン１４０には，必要に応じて，アンプなどの増幅器を設けるとしてもよい。

評価部１５０は，音声合成部１２０からの参照信号の入力と，マイクロホン１４０からの音声データ信号の入力とを受けて，音声データ信号の音声情報が参照信号の音声情報を基準とした所定の範囲に含まれるか否かを判断する。評価部１５０は，該判断結果を表示部１６０に出力する。また，評価部１５０は，音声データ信号の音声情報が上記所定の範囲に含まれると判断すれば，音声データ信号を音声データベース１８０に出力し，音声データベース１８０は該音声データ信号を記憶する。このような評価部１５０の詳細については後述する。

表示部１６０は，評価部１５０による判断結果の入力を受け，該判断結果を発声者が認識できるように表示する。表示部１６０には，例えば液晶ディスプレイを用いることができる。また，評価部１５０による判断結果は，視覚により認識できる媒体に限らず，聴覚により認識できる媒体を介して発声者に通知することとしてもよい。

次に，本実施形態による音声データ収録装置１０４の評価部１５０の詳細を図２を用いて説明する。

図２は，評価部１５０の構成を示した説明図である。評価部１５０は，継続時間算出部１５２と，継続時間比較部１５４と，ピッチ情報算出部１５６と，ピッチ情報比較部１５７と，合否評価部１５８とを含む。

継続時間算出部１５２は，マイクロホン１４０を介して発声音の音声データ信号を入力されると，該音声データ信号の振幅に基づいて音声区間の始点，終点を判断し，音声データ信号の継続時間を算出する。継続時間算出部１５２は，算出した音声データ信号の音声区間および継続時間を，継続時間比較部１５４およびピッチ情報算出部１５６に出力する。

継続時間比較部１５４は，上記音声データ信号の継続時間と，音声合成部１２０から入力される参照信号の継続時間とを比較し，継続時間差を算出する。そして，該継続時間差を合否評価部１５８に出力する。

ピッチ情報算出部１５６は，マイクロホン１４０を介して発声音の音声データ信号が入力されると，時間窓（フレーム）を用いて該音声データ信号のピッチ情報を算出する。具体的には，上記継続時間算出部１５２から音声データ信号の音声区間が入力されると，まず，音声区間の開始時点に分析フレームの中心を位置させ，該分析フレームにより音声データ信号を切り出す。そして，切り出した音声データ信号に対して自己相関関数を用いたピッチ算出処理を行い，結果を音声区間の開始時点のピッチとする。

以降，ピッチ情報算出部１５６は，フレーム周期を５ｍｓとして同様に音声データ信号のピッチを順次算出し，算出されたピッチはそれぞれピッチ情報を構成する要素となる。したがって，ピッチ情報は音声データ信号のピッチを５ｍｓおきに示す情報として機能することができる。そして，分析フレームの中心が，音声区間の終了時点を越えた時点でピッチ情報算出を終了する。なお，フレーム周期は５ｍｓに限られず，また，各分析フレームにより切り出される音声データ信号の音声区間は，一部重複していてもよい。

図３は，上記計算により求められる音声データ信号の音声情報を示した説明図である。図示の例では，音素／ａ／，継続時間０．０９８秒である音声データ信号の音声情報を示している。ピッチ情報は，継続時間が０．０９８秒であるため，継続時間０．０９８秒をフレーム周期の５ｍｓで除し，１を加算して得られる２０のピッチを要素として含んでいる。

ピッチ情報比較部１５７は，上記音声データ信号のピッチ情報と，信号合成部１２０から入力される参照信号のピッチ情報とを比較する。ここで，音声データ信号と参照信号とのピッチ情報を構成するピッチの要素数は，上記ピッチ情報を算出する際のフレーム周期や，上記継続時間の差異により異なる。したがって，直接上記各ピッチ情報同士を比較してもよいが，以下述べる方法により比較してもよい。

まず，上記音声データ信号および参照信号の音声区間をＮ等分する。したがって，音声データ信号および参照信号は，共にＮ個に分割された音声区間を有することとなる。次に，音声データ信号および参照信号のＮ個に分割された各音声区間のピッチの平均値を，上記ピッチ情報より求める。これにより，音声データ信号および参照信号は，共にＮ個の要素からなる平均ピッチ情報を得ることができる。

図３では，音声データ信号を４等分して平均ピッチ情報を算出する様子を示している。音声データ信号の継続時間が０．０９８秒であるため，１つの音声区間はおよそ０．０２５秒となる。したがって，フレーム周期が５ｍｓであるため，各音声区間に含まれる５つのピッチの平均値を求めることで，４つの平均ピッチを要素とする平均ピッチ情報を得ることができる。同様に，参照信号の音声区間を４等分することで，４つの平均ピッチを要素とする平均ピッチ情報を得ることができる。

なお，図３の例では各音声区間に均等に５つのピッチを割当てることができたが，例えば，音声データ信号の継続時間が０．０２４秒であった場合には，各音声区間にピッチの数を均等に割当てることができない。

すなわち，音声データ信号の継続時間が０．０２４秒である場合は，音声データ信号は，第一音声区間（０．０００〜０．００６秒），第二音声区間（０．００６〜０．０１２秒），第三音声区間（０．０１２〜０．０１８秒）および第四音声区間（０．０１８〜０．０２４秒）の４つの音声区間に分割される。

一方，ピッチは５ｍｓ間隔で求められるので，ピッチ１（０．０００秒），ピッチ２（０．００５秒），ピッチ３（０．０１０秒），ピッチ４（０．０１５秒）およびピッチ５（０．０２０秒）の５つのピッチが抽出される。なお，括弧内の時間は分析フレームの中心時点を意味している。

したがって，ピッチの数（５）を単純に音声区間の数（４）で除算するのでは，一の音声区間にどのピッチを割当てるかを特定することができない。

そこで，各ピッチを，ピッチ抽出時の分析フレームの中心時点が属する音声区間に割当てるとしてもよい。具体的には，第一音声区間（０．０００〜０．００６秒）にピッチ１（０．０００秒）およびピッチ２（０．００５秒）を，第二音声区間（０．００６〜０．０１２秒）にピッチ３（０．０１０秒）を，第三音声区間（０．０１２〜０．０１８秒）にピッチ４（０．０１５秒）を，第四音声区間（０．０１８〜０．０２４秒）にピッチ５（０．０２０秒）を割当てることができる。

このように各ピッチを割当てることにより，音声区間によってピッチ要素数は異なったとしても，各音声区間の平均ピッチを求めることが可能である。参照信号についても同様の処理をすることができる。

最後に，音声データ信号の平均ピッチ情報を構成する各平均ピッチと，参照信号の平均ピッチ情報を構成する各平均ピッチとを比較し，各平均ピッチのピッチ差の二乗和を計算する。そして，該計算結果を合否評価部１５８に出力する。

合否評価部１５８は，あらかじめ継続時間およびピッチ情報についての所定の範囲（許容範囲）を保持しており，継続時間比較部１５４から入力される継続時間差が上記継続時間の許容範囲に含まれるか否か，およびピッチ情報比較部１５７から入力される計算結果が上記ピッチ情報の許容範囲に含まれるか否かを判断する。そして，合否評価部１５８は，判断の結果に拘らず，表示部１６０に該判断結果を出力する。また，合格であると判断した場合は，同時に，該音声データ信号を音声データベース１８０に出力する。不合格であると判断した場合は，該音声データ信号は収録者により破棄されるとしてもよい。

上記判断基準の一例を以下に示す。継続時間の許容範囲を，例えば参照信号の継続時間の±５％と設定した場合には，上記継続時間差が参照信号の継続時間の±５％の範囲内であれば継続時間は基準を満たし，上記継続時間差が参照信号の継続時間の±５％の範囲外であれば継続時間は基準を満たさないと判断される。ピッチ情報の許容範囲も同様に上記ピッチ差の二乗和の閾値を１００と設定した場合には，上記ピッチ差の二乗和が１００を下回っていればピッチ情報は基準を満たし，上記ピッチ差の二乗和が１００を上回っていればピッチ情報は基準を満たさないと判断される。

そして，上記継続時間およびピッチ情報が共に基準を満たした場合に，発声音が合格であると判断する。一方，上記継続時間およびピッチ情報の一方でも基準を満たしていなければ，不合格であると判断する。

上記では，単音素発声の場合を例にとって説明してきたが，有声音の連鎖，たとえば母音連鎖などを対象とした収録でも同様の処理で合否判定を行うことができる。このとき，複数の連続する音素の音声データ信号を一体とし，継続時間およびピッチ情報の合否を判断することとしてもよい。

かかる構成によれば，全体の継続時間およびピッチ情報のみからでは音声データ信号の個々の音素の境界時点を判断できず，正確な継続時間の素片を記憶できないようにも思われる。しかし，音声データ信号と参照信号の音素の境界時点が異なれば，同時に音声データ信号のピッチ情報にも反映され，上記ピッチ差の二乗和が大きくなると考えられる。したがって，個々の音素の継続時間が異なればピッチ情報の基準を満たさず発声音は不合格と判断されるため，このような問題は生じない。

また，ピッチを持たない子音や無声化母音の音声データ信号も，音声データ収録装置１００により効果的に音声データベース１８０に記憶することができる。この場合，ピッチを持たない子音や無声化母音の音声データ信号も，振幅の有無から継続時間を算出することは可能であるため，合否評価部１５８は，継続時間情報のみで合否を判断することができる。

なお，本実施形態による音声データ収録システム１００によれば，評価部１５０が自動的に発声音の合否の判断を行うことが可能であるため，収録者は必ずしも必要でなく，発声者のみで音声データ信号を音声データベース１８０に記憶することができる。

以上説明したように，本実施形態にかかる音声データ収録装置１００によれば，発声者による発声音の音声データ信号と参照信号との音声情報とを比較し，類似性を評価する評価部１５０を備え，より画一的に発声音の合否の判断を行うことができる。

（第２の実施形態）
次に，本発明の第２の実施形態による音声データ収録システム１００について説明する。

図４は，本実施形態による音声データ収録システム１００の信号の流れを示したブロック図である。音声データ収録システム１００は，音声データ収録装置１０４と，ヘッドホン１３０と，マイクロホン１４０と，表示部１６０と，音声データベース１８０とを含む。音声データ収録装置１０４は，音声情報入力部１１０と，音声合成部１２０と，評価部１５０と，表示情報生成部１７２とを含む。

第１の実施形態による音声データ収録装置１０４とは，評価部１５０および表示部１６０の間に，表示情報生成部１７２が設けられている点で相違する。他の構成，動作については第１の実施形態と実質的に同一であるので，説明を省略する。

表示情報生成部１７２は，評価部１５０と接続され，評価部における発声音の音声データ信号に関する比較結果，例えば，発声音の合否判断結果，参照信号と音声データ信号の継続時間の比較データや，ピッチ情報の比較データが入力される。そして，表示情報生成部１７２は，評価部１５０から入力された比較結果に基づいて所定の表示情報を生成し，該表示情報を表示部１６０に出力する。

図５は，表示部１６０に表示される表示情報の一例を示した説明図である。図示の例では，参照音の参照信号（実線）と発声音の音声データ信号（点線）の比較状況をグラフを用いて示している。なお，グラフの横軸は時間（ｓ），縦軸はピッチ（Ｈｚ）を示している。発声時間に着目すると，ｄで示した時間分だけ発声音が短かったことが分かる。また，ピッチは斜線で示した分だけ差異があったことを確認することができる。

従来の方法によれば，発声の適切でなかった点を収録者から口頭で説明されても，どの程度適切でなかったかを理解することは困難であったが，かかる構成によれば，発声者は，発声音が不合格と判断された場合，参照音を示す点線と，発声音を示す実線とを比較することにより，自分の発声のどこが適切でなかったかを認識することができる。

例えば，発声音が全体的に短すぎた，後半部のピッチを高くしすぎた，全体的に低すぎたなどを確認することができ，再度発声する際に，自らの発声を修正することができる。したがって，当該手法は音声収録の効率化の観点から有効である。

図６は，表示部１６０に表示される表示情報の他の例を示した説明図である。図示の例では，表示部１６０は，継続時間比較データ１６４およびピッチ情報比較データ１６６を表示している。

継続時間比較データ１６４は，発声音の継続時間についての比較結果をヒストグラムを用いて表示している。斜線領域１６５は，継続時間の許容範囲を示しており，図示の例では参照信号の継続時間の±５％を継続時間の許容範囲と設定した場合を示している。発声音が該斜線領域１６５に含まれていれば，継続時間は基準を満たしていると判断される。

表示例では，発声音と参照音の継続時間の差異は３％であり，これは継続時間の許容範囲に含まれているため基準を満たしていると判断された場合を示している。このように，同一方向に伸びるヒストグラムを用いて参照音と発声音の継続時間を表示し，また，発声音が参照音の継続時間とどれだけ差異があったかを数量的に示すことにより，自己の発声の継続時間の過不足について瞬時に把握することができる。

ピッチ情報比較データ１６６は，発声音のピッチ情報についての比較結果を，ヒストグラムを用いて表示している。境界線Ｔ_Ｈは，ピッチ情報閾値を示しており，発声音の上記ピッチ差の二乗和が境界線Ｔ_Ｈを下回っていればピッチ情報は基準を満たしていると評価される。表示例では，発声音と参照音の上記ピッチ差の二乗和は，境界線Ｔ_Ｈ（ピッチ情報閾値）を２３％上回っており，ピッチ情報は基準を満たしていないと判断された場合を示している。かかる構成により，自己の発声音と参照音とのピッチ差の二乗和の大きさ確認することができる。

以上，図５および図６を用いて表示部１６０の表示例を説明したが，表示情報情報生成部１８０により生成される表示情報はこれに限られない。例えば，図５および図６に示した表示情報を複合的に生成することとしてもよい。

（第３の実施形態）
次に，本発明の第３の実施形態にかかる音声データ収録システム１００ついて説明する。一般に，音声合成により生成した参照信号を参照音として発声者に提供した場合，参照音は，ピッチ情報や継続時間以外にスペクトル情報などを含むため人間の音声に近くなる。しかし，上記スペクトル情報を含む参照音を発声者に提供すると，発声者がスペクトル情報に影響され，発声者の本来の発声が妨げられる場合があった。

本発明の実施の一形態によれば，かかる問題点を是正した音声データ収録システム１００が提供される。以下，音声データ収録システム１００について図７を用いて説明する。

図７は，本実施形態による音声データ収録システム１００の信号の流れを示したブロック図である。音声データ収録システム１００は，音声データ収録装置１０４と，ヘッドホン１３０と，マイクロホン１４０と，表示部１６０と，音声データベース１８０とを含む。音声データ収録装置１０４は，音声情報入力部１１０と，正弦波生成部１９０と，評価部１５０とを含む。

音声情報入力部１１０は，発声者に要求する発声音についての音声情報，具体的には，継続時間と，ピッチ情報とを収録者により入力される。ここで，本実施形態による音声データ収録装置１０４は，参照信号として正弦波を用いるため，音声情報に音素名は不要である。

信号生成部としての正弦波生成部１９０は，音声情報入力部１１０からの入力に基づき，正弦波を生成し，これをヘッドホンを介して発声者に提供する。正弦波は，ピッチ情報および継続時間のみを音声情報として含むものであり，スペクトル情報などの余分な情報がない。したがって，発声者は，参照音のスペクトル情報に惑わされることなく，本来の発声をすることができる。

また，正弦波生成部１９０には，既存の音声合成装置を用いる必要がないため，容易に参照信号を生成することができる。

なお，本実施形態にかかる正弦波生成部１９０により生成される参照音を聴取しただけでは，発声者は発声すべき音素を認識できない場合があるので，要求する音素名を表示部１６０に提供するよう構成するとしてもよい。

以上，添付図面を参照しながら本発明の好適な実施形態について説明したが，本発明は係る例に限定されないことは言うまでもない。当業者であれば，特許請求の範囲に記載された範疇内において，各種の変更例または修正例に想到し得ることは明らかであり，それらについても当然に本発明の技術的範囲に属するものと了解される。

本実施形態による音声データ収録システムの信号の流れを示したブロック図である。評価部の構成を示した説明図である。音声データ信号の音声情報を示した説明図である。第２の本実施形態による音声データ収録システムの信号の流れを示したブロック図である。表示部に表示される表示情報の一例を示した説明図である。表示部に表示される表示情報の他の例を示した説明図である。第３の本実施形態による音声データ収録システムの信号の流れを示したブロック図である。音声合成装置の構成を示した説明図である。テキスト情報，中間言語および音声情報の一例を示した説明図である。

符号の説明

１００音声データ収録システム
１０４音声データ収録装置
１１０音声情報入力部
１２０音声合成部
１３０ヘッドホン
１４０マイクロホン
１５０評価部
１６０表示部
１７２表示情報生成部
１８０音声データベース
１９０正弦波生成部

Claims

音声データ収録装置と，信号／音声変換装置と，音声／信号変換装置と，音声データベースとを含み，発声者による発声音の音声データ信号を前記音声データベースに記憶する音声データ収録システムであって：
前記音声データ収録装置は，
発声者に要求する発声音についての音声情報を取得する音声情報入力部と；
前記音声情報に基づいて参照信号を生成する信号生成部と；
前記参照信号と，前記音声データ信号とを比較し，前記音声データ信号の音声情報が前記参照信号の音声情報を基準とした所定の範囲に含まれるか否かを判断し，判断結果に基づいて前記音声データ信号を前記音声データベースに伝達する評価部と；
を含み，
前記信号／音声変換装置は，前記参照信号を参照音に変換して前記発声者に提供することを特徴とする，音声データ収録システム。
前記音声情報は，音声データ信号のピッチ情報と継続時間のいずれか一方もしくは双方を含むことを特徴とする，請求項１に記載の音声データ収録システム。
前記判断結果に基づいて表示情報を生成する表示情報生成部をさらに含むことを特徴とする，請求項１又は２のいずれかに記載の音声データ収録システム。
前記表示情報は，前記音声データ信号および前記参照信号の継続時間の比較データと，前記発声音および前記参照音のピッチ情報の比較データとを含むことを特徴とする，請求項３に記載の音声データ収録システム。
前記信号生成部は，あらかじめ準備された音声を合成して参照信号を生成することを特徴とする，請求項１〜４のいずれかに記載の音声データ収録システム。
前記信号生成部は，正弦波により参照信号を生成することを特徴とする，請求項１〜５のいずれかに記載の音声データ収録システム。
音声データベースに音声データ信号を記憶する音声データ収録方法であって：
発声者に要求する発声音についての音声情報を取得するステップと；
前記音声情報に基づいて参照信号を生成するステップと；
前記参照信号を参照音に変換して発声者に提供するステップと；
前記発声者による発声音を音声データ信号に変換するステップと；
前記音声データ信号と前記参照信号とを比較し，前記音声データ信号の音声情報が前記参照信号の音声情報を基準とした所定の範囲に含まれるか否かを判断するステップと；
前記所定の範囲に含まれると判断された前記音声データ信号を音声データベースに伝達するステップと；
を含むことを特徴とする，音声データ収録方法。