JP2007256349A - 音声データ収録システムおよび音声データ収録方法 - Google Patents

音声データ収録システムおよび音声データ収録方法 Download PDF

Info

Publication number
JP2007256349A
JP2007256349A JP2006077247A JP2006077247A JP2007256349A JP 2007256349 A JP2007256349 A JP 2007256349A JP 2006077247 A JP2006077247 A JP 2006077247A JP 2006077247 A JP2006077247 A JP 2006077247A JP 2007256349 A JP2007256349 A JP 2007256349A
Authority
JP
Japan
Prior art keywords
audio
information
signal
audio data
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006077247A
Other languages
English (en)
Inventor
Satoshi Watanabe
聡 渡辺
Tsutomu Kaneyasu
勉 兼安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2006077247A priority Critical patent/JP2007256349A/ja
Publication of JP2007256349A publication Critical patent/JP2007256349A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】所望する素片を正確かつ迅速に音声データベースに記憶することが可能な,音声データ収録システムおよび音声データ収録方法を提供すること。
【解決手段】音声データ収録システムは,収録者により入力された音声情報を取得する音声情報入力部110と,音声情報に基づいて参照信号を生成する信号生成部120と,参照信号と,音声/信号変換部から入力される音声データ信号とを比較し,音声データ信号の音声情報が参照信号の音声情報を基準とした所定の範囲に含まれるか否かを判断し,該判断結果に基づいて音声データ信号を音声データベース180に伝達する評価部150と,を含むことを特徴とする。
【選択図】 図1

Description

本発明は,音声データベースを作成する際に用いる音声データ収録システムおよび音声データ収録方法に関する。
音声合成とは,一般に,音声データベースに記憶された音声データを組合わせて,所望の音声を生成することをいう。音声合成の方式の1つである規則合成方式(TTS:Text To Speach)は,1つの発音記号に相当する十分な量の素片を記憶した音声データベースを用い,音声データベースに記憶された素片を組合わせて所望の音声を得る方式である。
具体的には,音声合成装置には,外部から連続音声の音素毎の情報を示す音声情報が入力される。ここで,音素とは発声可能な音声の最小単位をいう。そして,各音素の音声情報に最も適合する素片を音声データベースからそれぞれ選択し,該選択された素片同士を接続することで連続音声を生成することができる。したがって,音声データベースが記憶する素片を単純に増やすことにより,音声データベース上から素片を選択する際の検索範囲が増加するので,生成する音声を所望する音声に近づけること(音質向上)ができる。
このような素片を音声データベースに記憶する場合,従来は,収録者が発声者に記憶したい素片の音声情報(「望む口調」)を説明し,発声者がこれに従って発声していた。そして,収録者が発声者の発した発声音を聴取し,「望む口調」にある程度近いものであると自己の音感に基づいて評価した場合,該発声音を音声データベースに素片として記憶していた。しかし,収録者が発声者に「望む口調」を説明するには,多大な時間を要し,また,「望む口調」が発声者に正確に伝わらないという問題があった。また,収録者によって発声音に対する評価がまちまちになる場合が生じていた。
一方,特許文献1に記載の音声データベース作成方法によると,収録者が「望む口調」を音声合成装置により合成音声で作成し,その合成音声を発声者に参照音として提供しており,発声者が「望む口調」を把握する過程の効率化を図っている。
特開2000‐250572
しかし,人間が,自己の聴覚により,数10msec単位での発声音の継続時間の差異や,数Hz単位でのピッチ情報の差異などの細かい音響的差異を認識し,これを評価することは困難であるため,正確な素片を音声データベースに記憶することができないという問題があった。
そこで,本発明は,上記問題に鑑みてなされたものであり,本発明の目的とするところは,所望する素片を正確かつ迅速に音声データベースに記憶することが可能な,新規かつ改良された音声データ収録システムおよび音声データ収録方法を提供することにある。
上記課題を解決するために,本発明のある観点によれば,音声データ収録装置と,信号/音声変換装置と,音声/信号変換装置と,音声データベースとを含み,発声者による発声音の音声データ信号を音声データベースに記憶する音声データ収録システムが提供される。本システムを利用する音声データ収録装置としては,発声者に要求する発声音についての音声情報を取得する音声情報入力部と,音声情報に基づいて参照信号を生成する信号生成部と,参照信号と,音声データ信号とを比較し,音声データ信号の音声情報が参照信号の音声情報を基準とした所定の範囲に含まれるか否かを判断し,該判断結果に基づいて音声データ信号を音声データベースに伝達する評価部と,を含み,信号/音声変換装置は,参照信号を参照音に変換して発声者に提供するものを挙げることができる。かかる構成によれば,発声者は参照音を聴取し,参照音を真似て発声するため,参照音を音のガイドとして活用しながら収集をすることができ,発声者の利便性に優れたものである。また,発声者による発声音と参照音との類似性の評価に基づく発声音の合否の判断は,コンピュータによって画一的な基準により実行される。したがって,発声者による発声と,発声音および参照音の類似性の評価とを効率的に行うことができる。
また,本発明の別の観点によれば,発声者に要求する発声音についての音声情報を取得する音声情報入力部と,音声情報に基づいて参照信号を生成する信号生成部と,参照信号と,音声データ信号に変換された発声音とを比較し,音声データ信号の音声情報が参照信号の音声情報を基準とした所定の閾値範囲に含まれるか否か判断し,所定の範囲に含まれると判断された音声データ信号を音声データベースに伝達する評価部と,を含むことを特徴とする,音声データ収録装置が提供される。かかる構成によれば,上記音声データ収録システム同様,発声者は聴取した参照音を参考にして発声する。また,発声者による発声音と参照音の類似性の評価および判断はコンピュータによって画一的な基準に基づき実行される。したがって,発声者による発声と,発声音および参照音の類似性の評価とを効率的に行うことができる。
音声情報は,音声データ信号のピッチ情報と継続時間のいずれか一方または双方を含むとしてもよい。かかる構成によれば,ピッチ情報と継続時間のいずれか一方または双方のパラメータによって確実に音声情報から参照信号を生成することができる。
判断結果に基づいて表示情報を生成する表示情報生成部をさらに含むとしてもよい。かかる構成によれば,表示情報生成部は,評価部から入力される評価および判断に関するデータに基づいて,例えば外部装置である表示部に表示するための表示情報を生成する。したがって,発声者は表示部の表示から,自己の発声音の評価を認識することができる。
表示情報は,音声データ信号および参照信号の継続時間の比較データと,発声音および参照音のピッチ情報の比較データとを含むとしてもよい。かかる構成によれば,発声者は,評価部の合否以外にも,自己の発声音が,参照音と比較してどのように適切でなかったかを認識することができ,自己の発声を効果的に修正して,次回の発声をすることが可能となる。
信号生成部は,あらかじめ準備された音声を合成して参照信号を生成するとしてもよい。かかる構成によれば,発声者はより人間の音声に近い参照音を参考にして発声することができる。
信号生成部は,正弦波により参照信号を生成するとしてもよい。かかる構成によれば,参照信号を容易に作成することができ,また,発声者はスペクトル情報を含まない参照音を参考にして発声することができる。
また,本発明の別の観点によれば,音声データベースに音声データ信号を記憶する音声データ収録方法であって,発声者に要求する発声音についての音声情報を取得するステップと,音声情報に基づいて参照信号を生成するステップと,参照信号を参照音に変換して発声者に提供するステップと,発声者による発声音を音声データ信号に変換するステップと,参照信号と,音声データ信号とを比較し,音声データ信号の音声情報が参照信号の音声情報を基準とした所定の範囲に含まれるか否かを判断するステップと,所定の閾値範囲に含まれると判断された音声データ信号を,音声データベースに伝達するステップと,を含むことを特徴とする,音声データ収録方法が提供される。かかる構成によれば,上記音声データ収録システム同様,発声者は参照音を聴取し,参照音を真似て発声する。また,発声者による発声音と参照音の類似性の評価はコンピュータによって画一的な基準に基づき実行される。したがって,発声者による発声と,発声音および参照音の類似性の評価とを効率的に行うことができる。
以上説明したように本発明にかかる音声データ収録システムおよび音声データ収録方法によれば,所望する素片を正確かつ迅速に音声データベースに記憶することができる。
以下に添付図面を参照しながら,本発明の好適な実施の形態について詳細に説明する。なお,本明細書及び図面において,実質的に同一の機能構成を有する構成要素については,同一の符号を付することにより重複説明を省略する。
まず,規則合成方式による音声合成方法について,図8を用いて説明する。
図8は,音声合成装置200の構成を示した説明図である。音声合成装置200は,テキスト入力部210,テキスト解析部220,単語データベース(DB)230,音声情報推定部240,素片選択部250,音声データベース(DB)260,素片接続部270および音声データ出力部280を含む。
テキスト入力部210は,使用者により入力された音声のテキスト情報を取得し,これをテキスト解析部220に出力する。テキスト情報とは,合成したい音声を文字で示した情報であり,漢字やひらがなを含む。このようなテキスト情報の入力は,例えば,キーボードを介して行われても,スキャナを介して行われるとしてもよい。
テキスト解析部220は,テキスト入力部210から入力されたテキスト情報に基づき,中間言語を作成する。具体的には,まず,テキスト解析部220はテキスト情報に含まれていた漢字やひらがなをカナ文字変換する。次に,カナ文字変換されたテキスト情報にアクセントを付して,中間言語に相当するアクセント付きカナ文字列を作成する。上記中間言語を作成する際には,テキスト情報に含まれる漢字の読み方や,単語のアクセントの位置を記憶している単語データベース230が用いられる。
音声情報推定部240は,テキスト解析部220から中間言語を入力されると,中間言語を発声可能な音声の最小単位である音素からなる音素列とし,各音素の継続時間やピッチ情報を推定する。ピッチ情報とは,音素の高さ(声帯の振動数)に関する情報である。
図9は,上述のようなテキスト情報,中間言語および音声情報の一例を示した説明図である。図9(a)はテキスト情報を,図9(b)は中間言語を,図9(c)は音声情報を示している。
図9(a)は,テキスト入力部210が取得した「あらゆる現実」というテキスト情報の一例を示している。テキスト解析部220は,このようなテキスト情報が入力されると,単語データベース230を用いて「アラユルゲンジツ」というカナ文字列に変換し,さらに,「ラ」と「ン」に,図9(b)のようにアクセントを付した中間言語を作成する。音声情報推定部240は,入力された中間言語から,「arayurugenjitu」からなる音素列と,音素列を構成する各音素毎の継続時間およびピッチ情報を図9(c)のように推定する。なお,図9(c)の縦軸はピッチを,横軸は時間を示している。
素片選択部250は,音声情報推定部240から推定された音声情報が入力されると,
十分な量の素片が記憶された音声データベース260を検索し,上記音声情報に最も適合する素片および/または素片の組合わせを選択する。より詳細には,入力された各音素と,音声データベース260に記憶された素片との音声情報を比較し,各音素に最も類似する素片を音声データベース260からそれぞれ選択する。なお,各音素と音声データベース260上の素片との類似性だけでなく,選択される素片同士の連続性を考慮して素片を選択をすることもできる。
素片接続部270は,素片選択部250により音声データベース260から選択された素片同士を接続し,合成音声信号を作成する。例えば,素片接続部270は,隣接する2素片の波形の相互相関を用いて,位相の同期する接続点を探索し,該接続点で各素片を接続する。
合成音声出力部280は,素片接続部270により作成された合成音声信号の供給を受けて,これを外部装置に出力する。外部装置としては,例えば,スピーカ,イヤホンおよびヘッドホンなどが該当する。
このような規則合成方式による音声合成方法において,音声データベース260に素片を幅広く記憶しておくことで,より所望する音声に近い合成音声を得ることができる。しかし,膨大な素片を音声データベース260に記憶する際に,発声者の発声音の評価を収録者の音感に基づいて行うとすると,細かい音響的差異を人間が認識することは困難であるため,正確な素片を音声データベースに記憶することができない。
本発明の実施の一形態によれば,所望する素片を正確かつ迅速に音声データベースに記憶することが可能な音声データ収録装置100が提供される。以下,本実施形態による音声データ収録装置100について説明する。
(第1の実施形態)
まず,本発明の第1の実施形態にかかる音声データ収録システム100により音声データベース180に素片を記憶する流れについて説明する。本実施形態では,単音素(例えば,「あ」の場合/a/,「あー」の場合/aa/など)単位での素片の記憶を行う場合の例を示す。ここで,「/」は,音素の区切りを示している。
図1は,本実施形態による音声データ収録システム100の信号の流れを示したブロック図である。音声データ収録システム100は,音声データ収録装置104と,ヘッドホン130と,マイクロホン140と,表示部160と,音声データベース180とを含む。音声データ収録装置104は,音声情報入力部110と,音声合成部120と,評価部150とを含む。
音声情報入力部110は,発声者に要求される発声音についての音声情報を取得する。音声情報は,音素の音素名,継続時間およびピッチ情報を含み,上述したように,テキスト解析部220および音声情報推定部240による処理の過程を経て音声情報入力部110に入力されるとしてもよい。ここでピッチ情報は,音素の音声区間におけるピッチの平均値であっても,音素の音声区間において5msごとに計算したピッチを要素とするピッチ列であってもよい。
信号生成部としての音声合成部120は,音声情報入力部110から入力される音声情報に基づいて参照信号を生成する。より詳細には,音声合成部120は,音声データベースを内蔵し,上記音声情報に最も適合する素片を該音声データベースから選択し,これを参照信号とする。このような音声合成部120は,素片単位での継続時間およびピッチ情報に従って参照信号を生成する機能を要し,上述したような音声合成装置200を用いることもできる。なお,複数の連続する素片を同時に収録する場合は,各素片の継続時間およびピッチ情報に従って参照信号を生成する機能を要する。
ヘッドホン130は,音声合成部120と接続されており,上記参照信号を参照音に変換して発声者に提供し,信号/音声変換部として機能する。発声者は,参照音を参考にして発声する。マイクロホン140は,発声者の入力音声(以下,発声音。)を音声データ信号に変換して評価部150に出力し,音声/信号変換部として機能する。ヘッドホン130およびマイクロホン140には,必要に応じて,アンプなどの増幅器を設けるとしてもよい。
評価部150は,音声合成部120からの参照信号の入力と,マイクロホン140からの音声データ信号の入力とを受けて,音声データ信号の音声情報が参照信号の音声情報を基準とした所定の範囲に含まれるか否かを判断する。評価部150は,該判断結果を表示部160に出力する。また,評価部150は,音声データ信号の音声情報が上記所定の範囲に含まれると判断すれば,音声データ信号を音声データベース180に出力し,音声データベース180は該音声データ信号を記憶する。このような評価部150の詳細については後述する。
表示部160は,評価部150による判断結果の入力を受け,該判断結果を発声者が認識できるように表示する。表示部160には,例えば液晶ディスプレイを用いることができる。また,評価部150による判断結果は,視覚により認識できる媒体に限らず,聴覚により認識できる媒体を介して発声者に通知することとしてもよい。
次に,本実施形態による音声データ収録装置104の評価部150の詳細を図2を用いて説明する。
図2は,評価部150の構成を示した説明図である。評価部150は,継続時間算出部152と,継続時間比較部154と,ピッチ情報算出部156と,ピッチ情報比較部157と,合否評価部158とを含む。
継続時間算出部152は,マイクロホン140を介して発声音の音声データ信号を入力されると,該音声データ信号の振幅に基づいて音声区間の始点,終点を判断し,音声データ信号の継続時間を算出する。継続時間算出部152は,算出した音声データ信号の音声区間および継続時間を,継続時間比較部154およびピッチ情報算出部156に出力する。
継続時間比較部154は,上記音声データ信号の継続時間と,音声合成部120から入力される参照信号の継続時間とを比較し,継続時間差を算出する。そして,該継続時間差を合否評価部158に出力する。
ピッチ情報算出部156は,マイクロホン140を介して発声音の音声データ信号が入力されると,時間窓(フレーム)を用いて該音声データ信号のピッチ情報を算出する。具体的には,上記継続時間算出部152から音声データ信号の音声区間が入力されると,まず,音声区間の開始時点に分析フレームの中心を位置させ,該分析フレームにより音声データ信号を切り出す。そして,切り出した音声データ信号に対して自己相関関数を用いたピッチ算出処理を行い,結果を音声区間の開始時点のピッチとする。
以降,ピッチ情報算出部156は,フレーム周期を5msとして同様に音声データ信号のピッチを順次算出し,算出されたピッチはそれぞれピッチ情報を構成する要素となる。したがって,ピッチ情報は音声データ信号のピッチを5msおきに示す情報として機能することができる。そして,分析フレームの中心が,音声区間の終了時点を越えた時点でピッチ情報算出を終了する。なお,フレーム周期は5msに限られず,また,各分析フレームにより切り出される音声データ信号の音声区間は,一部重複していてもよい。
図3は,上記計算により求められる音声データ信号の音声情報を示した説明図である。図示の例では,音素/a/,継続時間0.098秒である音声データ信号の音声情報を示している。ピッチ情報は,継続時間が0.098秒であるため,継続時間0.098秒をフレーム周期の5msで除し,1を加算して得られる20のピッチを要素として含んでいる。
ピッチ情報比較部157は,上記音声データ信号のピッチ情報と,信号合成部120から入力される参照信号のピッチ情報とを比較する。ここで,音声データ信号と参照信号とのピッチ情報を構成するピッチの要素数は,上記ピッチ情報を算出する際のフレーム周期や,上記継続時間の差異により異なる。したがって,直接上記各ピッチ情報同士を比較してもよいが,以下述べる方法により比較してもよい。
まず,上記音声データ信号および参照信号の音声区間をN等分する。したがって,音声データ信号および参照信号は,共にN個に分割された音声区間を有することとなる。次に,音声データ信号および参照信号のN個に分割された各音声区間のピッチの平均値を,上記ピッチ情報より求める。これにより,音声データ信号および参照信号は,共にN個の要素からなる平均ピッチ情報を得ることができる。
図3では,音声データ信号を4等分して平均ピッチ情報を算出する様子を示している。音声データ信号の継続時間が0.098秒であるため,1つの音声区間はおよそ0.025秒となる。したがって,フレーム周期が5msであるため,各音声区間に含まれる5つのピッチの平均値を求めることで,4つの平均ピッチを要素とする平均ピッチ情報を得ることができる。同様に,参照信号の音声区間を4等分することで,4つの平均ピッチを要素とする平均ピッチ情報を得ることができる。
なお,図3の例では各音声区間に均等に5つのピッチを割当てることができたが,例えば,音声データ信号の継続時間が0.024秒であった場合には,各音声区間にピッチの数を均等に割当てることができない。
すなわち,音声データ信号の継続時間が0.024秒である場合は,音声データ信号は,第一音声区間(0.000〜0.006秒),第二音声区間(0.006〜0.012秒),第三音声区間(0.012〜0.018秒)および第四音声区間(0.018〜0.024秒)の4つの音声区間に分割される。
一方,ピッチは5ms間隔で求められるので,ピッチ1(0.000秒),ピッチ2(0.005秒),ピッチ3(0.010秒),ピッチ4(0.015秒)およびピッチ5(0.020秒)の5つのピッチが抽出される。なお,括弧内の時間は分析フレームの中心時点を意味している。
したがって,ピッチの数(5)を単純に音声区間の数(4)で除算するのでは,一の音声区間にどのピッチを割当てるかを特定することができない。
そこで,各ピッチを,ピッチ抽出時の分析フレームの中心時点が属する音声区間に割当てるとしてもよい。具体的には,第一音声区間(0.000〜0.006秒)にピッチ1(0.000秒)およびピッチ2(0.005秒)を,第二音声区間(0.006〜0.012秒)にピッチ3(0.010秒)を,第三音声区間(0.012〜0.018秒)にピッチ4(0.015秒)を,第四音声区間(0.018〜0.024秒)にピッチ5(0.020秒)を割当てることができる。
このように各ピッチを割当てることにより,音声区間によってピッチ要素数は異なったとしても,各音声区間の平均ピッチを求めることが可能である。参照信号についても同様の処理をすることができる。
最後に,音声データ信号の平均ピッチ情報を構成する各平均ピッチと,参照信号の平均ピッチ情報を構成する各平均ピッチとを比較し,各平均ピッチのピッチ差の二乗和を計算する。そして,該計算結果を合否評価部158に出力する。
合否評価部158は,あらかじめ継続時間およびピッチ情報についての所定の範囲(許容範囲)を保持しており,継続時間比較部154から入力される継続時間差が上記継続時間の許容範囲に含まれるか否か,およびピッチ情報比較部157から入力される計算結果が上記ピッチ情報の許容範囲に含まれるか否かを判断する。そして,合否評価部158は,判断の結果に拘らず,表示部160に該判断結果を出力する。また,合格であると判断した場合は,同時に,該音声データ信号を音声データベース180に出力する。不合格であると判断した場合は,該音声データ信号は収録者により破棄されるとしてもよい。
上記判断基準の一例を以下に示す。継続時間の許容範囲を,例えば参照信号の継続時間の±5%と設定した場合には,上記継続時間差が参照信号の継続時間の±5%の範囲内であれば継続時間は基準を満たし,上記継続時間差が参照信号の継続時間の±5%の範囲外であれば継続時間は基準を満たさないと判断される。ピッチ情報の許容範囲も同様に上記ピッチ差の二乗和の閾値を100と設定した場合には,上記ピッチ差の二乗和が100を下回っていればピッチ情報は基準を満たし,上記ピッチ差の二乗和が100を上回っていればピッチ情報は基準を満たさないと判断される。
そして,上記継続時間およびピッチ情報が共に基準を満たした場合に,発声音が合格であると判断する。一方,上記継続時間およびピッチ情報の一方でも基準を満たしていなければ,不合格であると判断する。
上記では,単音素発声の場合を例にとって説明してきたが,有声音の連鎖,たとえば母音連鎖などを対象とした収録でも同様の処理で合否判定を行うことができる。このとき,複数の連続する音素の音声データ信号を一体とし,継続時間およびピッチ情報の合否を判断することとしてもよい。
かかる構成によれば,全体の継続時間およびピッチ情報のみからでは音声データ信号の個々の音素の境界時点を判断できず,正確な継続時間の素片を記憶できないようにも思われる。しかし,音声データ信号と参照信号の音素の境界時点が異なれば,同時に音声データ信号のピッチ情報にも反映され,上記ピッチ差の二乗和が大きくなると考えられる。したがって,個々の音素の継続時間が異なればピッチ情報の基準を満たさず発声音は不合格と判断されるため,このような問題は生じない。
また,ピッチを持たない子音や無声化母音の音声データ信号も,音声データ収録装置100により効果的に音声データベース180に記憶することができる。この場合,ピッチを持たない子音や無声化母音の音声データ信号も,振幅の有無から継続時間を算出することは可能であるため,合否評価部158は,継続時間情報のみで合否を判断することができる。
なお,本実施形態による音声データ収録システム100によれば,評価部150が自動的に発声音の合否の判断を行うことが可能であるため,収録者は必ずしも必要でなく,発声者のみで音声データ信号を音声データベース180に記憶することができる。
以上説明したように,本実施形態にかかる音声データ収録装置100によれば,発声者による発声音の音声データ信号と参照信号との音声情報とを比較し,類似性を評価する評価部150を備え,より画一的に発声音の合否の判断を行うことができる。
(第2の実施形態)
次に,本発明の第2の実施形態による音声データ収録システム100について説明する。
図4は,本実施形態による音声データ収録システム100の信号の流れを示したブロック図である。音声データ収録システム100は,音声データ収録装置104と,ヘッドホン130と,マイクロホン140と,表示部160と,音声データベース180とを含む。音声データ収録装置104は,音声情報入力部110と,音声合成部120と,評価部150と,表示情報生成部172とを含む。
第1の実施形態による音声データ収録装置104とは,評価部150および表示部160の間に,表示情報生成部172が設けられている点で相違する。他の構成,動作については第1の実施形態と実質的に同一であるので,説明を省略する。
表示情報生成部172は,評価部150と接続され,評価部における発声音の音声データ信号に関する比較結果,例えば,発声音の合否判断結果,参照信号と音声データ信号の継続時間の比較データや,ピッチ情報の比較データが入力される。そして,表示情報生成部172は,評価部150から入力された比較結果に基づいて所定の表示情報を生成し,該表示情報を表示部160に出力する。
図5は,表示部160に表示される表示情報の一例を示した説明図である。図示の例では,参照音の参照信号(実線)と発声音の音声データ信号(点線)の比較状況をグラフを用いて示している。なお,グラフの横軸は時間(s),縦軸はピッチ(Hz)を示している。発声時間に着目すると,dで示した時間分だけ発声音が短かったことが分かる。また,ピッチは斜線で示した分だけ差異があったことを確認することができる。
従来の方法によれば,発声の適切でなかった点を収録者から口頭で説明されても,どの程度適切でなかったかを理解することは困難であったが,かかる構成によれば,発声者は,発声音が不合格と判断された場合,参照音を示す点線と,発声音を示す実線とを比較することにより,自分の発声のどこが適切でなかったかを認識することができる。
例えば,発声音が全体的に短すぎた,後半部のピッチを高くしすぎた,全体的に低すぎたなどを確認することができ,再度発声する際に,自らの発声を修正することができる。したがって,当該手法は音声収録の効率化の観点から有効である。
図6は,表示部160に表示される表示情報の他の例を示した説明図である。図示の例では,表示部160は,継続時間比較データ164およびピッチ情報比較データ166を表示している。
継続時間比較データ164は,発声音の継続時間についての比較結果をヒストグラムを用いて表示している。斜線領域165は,継続時間の許容範囲を示しており,図示の例では参照信号の継続時間の±5%を継続時間の許容範囲と設定した場合を示している。発声音が該斜線領域165に含まれていれば,継続時間は基準を満たしていると判断される。
表示例では,発声音と参照音の継続時間の差異は3%であり,これは継続時間の許容範囲に含まれているため基準を満たしていると判断された場合を示している。このように,同一方向に伸びるヒストグラムを用いて参照音と発声音の継続時間を表示し,また,発声音が参照音の継続時間とどれだけ差異があったかを数量的に示すことにより,自己の発声の継続時間の過不足について瞬時に把握することができる。
ピッチ情報比較データ166は,発声音のピッチ情報についての比較結果を,ヒストグラムを用いて表示している。境界線Tは,ピッチ情報閾値を示しており,発声音の上記ピッチ差の二乗和が境界線Tを下回っていればピッチ情報は基準を満たしていると評価される。表示例では,発声音と参照音の上記ピッチ差の二乗和は,境界線T(ピッチ情報閾値)を23%上回っており,ピッチ情報は基準を満たしていないと判断された場合を示している。かかる構成により,自己の発声音と参照音とのピッチ差の二乗和の大きさ確認することができる。
以上,図5および図6を用いて表示部160の表示例を説明したが,表示情報情報生成部180により生成される表示情報はこれに限られない。例えば,図5および図6に示した表示情報を複合的に生成することとしてもよい。
(第3の実施形態)
次に,本発明の第3の実施形態にかかる音声データ収録システム100ついて説明する。一般に,音声合成により生成した参照信号を参照音として発声者に提供した場合,参照音は,ピッチ情報や継続時間以外にスペクトル情報などを含むため人間の音声に近くなる。しかし,上記スペクトル情報を含む参照音を発声者に提供すると,発声者がスペクトル情報に影響され,発声者の本来の発声が妨げられる場合があった。
本発明の実施の一形態によれば,かかる問題点を是正した音声データ収録システム100が提供される。以下,音声データ収録システム100について図7を用いて説明する。
図7は,本実施形態による音声データ収録システム100の信号の流れを示したブロック図である。音声データ収録システム100は,音声データ収録装置104と,ヘッドホン130と,マイクロホン140と,表示部160と,音声データベース180とを含む。音声データ収録装置104は,音声情報入力部110と,正弦波生成部190と,評価部150とを含む。
音声情報入力部110は,発声者に要求する発声音についての音声情報,具体的には,継続時間と,ピッチ情報とを収録者により入力される。ここで,本実施形態による音声データ収録装置104は,参照信号として正弦波を用いるため,音声情報に音素名は不要である。
信号生成部としての正弦波生成部190は,音声情報入力部110からの入力に基づき,正弦波を生成し,これをヘッドホンを介して発声者に提供する。正弦波は,ピッチ情報および継続時間のみを音声情報として含むものであり,スペクトル情報などの余分な情報がない。したがって,発声者は,参照音のスペクトル情報に惑わされることなく,本来の発声をすることができる。
また,正弦波生成部190には,既存の音声合成装置を用いる必要がないため,容易に参照信号を生成することができる。
なお,本実施形態にかかる正弦波生成部190により生成される参照音を聴取しただけでは,発声者は発声すべき音素を認識できない場合があるので,要求する音素名を表示部160に提供するよう構成するとしてもよい。
以上,添付図面を参照しながら本発明の好適な実施形態について説明したが,本発明は係る例に限定されないことは言うまでもない。当業者であれば,特許請求の範囲に記載された範疇内において,各種の変更例または修正例に想到し得ることは明らかであり,それらについても当然に本発明の技術的範囲に属するものと了解される。
本実施形態による音声データ収録システムの信号の流れを示したブロック図である。 評価部の構成を示した説明図である。 音声データ信号の音声情報を示した説明図である。 第2の本実施形態による音声データ収録システムの信号の流れを示したブロック図である。 表示部に表示される表示情報の一例を示した説明図である。 表示部に表示される表示情報の他の例を示した説明図である。 第3の本実施形態による音声データ収録システムの信号の流れを示したブロック図である。 音声合成装置の構成を示した説明図である。 テキスト情報,中間言語および音声情報の一例を示した説明図である。
符号の説明
100 音声データ収録システム
104 音声データ収録装置
110 音声情報入力部
120 音声合成部
130 ヘッドホン
140 マイクロホン
150 評価部
160 表示部
172 表示情報生成部
180 音声データベース
190 正弦波生成部

Claims (7)

  1. 音声データ収録装置と,信号/音声変換装置と,音声/信号変換装置と,音声データベースとを含み,発声者による発声音の音声データ信号を前記音声データベースに記憶する音声データ収録システムであって:
    前記音声データ収録装置は,
    発声者に要求する発声音についての音声情報を取得する音声情報入力部と;
    前記音声情報に基づいて参照信号を生成する信号生成部と;
    前記参照信号と,前記音声データ信号とを比較し,前記音声データ信号の音声情報が前記参照信号の音声情報を基準とした所定の範囲に含まれるか否かを判断し,判断結果に基づいて前記音声データ信号を前記音声データベースに伝達する評価部と;
    を含み,
    前記信号/音声変換装置は,前記参照信号を参照音に変換して前記発声者に提供することを特徴とする,音声データ収録システム。
  2. 前記音声情報は,音声データ信号のピッチ情報と継続時間のいずれか一方もしくは双方を含むことを特徴とする,請求項1に記載の音声データ収録システム。
  3. 前記判断結果に基づいて表示情報を生成する表示情報生成部をさらに含むことを特徴とする,請求項1又は2のいずれかに記載の音声データ収録システム。
  4. 前記表示情報は,前記音声データ信号および前記参照信号の継続時間の比較データと,前記発声音および前記参照音のピッチ情報の比較データとを含むことを特徴とする,請求項3に記載の音声データ収録システム。
  5. 前記信号生成部は,あらかじめ準備された音声を合成して参照信号を生成することを特徴とする,請求項1〜4のいずれかに記載の音声データ収録システム。
  6. 前記信号生成部は,正弦波により参照信号を生成することを特徴とする,請求項1〜5のいずれかに記載の音声データ収録システム。
  7. 音声データベースに音声データ信号を記憶する音声データ収録方法であって:
    発声者に要求する発声音についての音声情報を取得するステップと;
    前記音声情報に基づいて参照信号を生成するステップと;
    前記参照信号を参照音に変換して発声者に提供するステップと;
    前記発声者による発声音を音声データ信号に変換するステップと;
    前記音声データ信号と前記参照信号とを比較し,前記音声データ信号の音声情報が前記参照信号の音声情報を基準とした所定の範囲に含まれるか否かを判断するステップと;
    前記所定の範囲に含まれると判断された前記音声データ信号を音声データベースに伝達するステップと;
    を含むことを特徴とする,音声データ収録方法。
JP2006077247A 2006-03-20 2006-03-20 音声データ収録システムおよび音声データ収録方法 Pending JP2007256349A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006077247A JP2007256349A (ja) 2006-03-20 2006-03-20 音声データ収録システムおよび音声データ収録方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006077247A JP2007256349A (ja) 2006-03-20 2006-03-20 音声データ収録システムおよび音声データ収録方法

Publications (1)

Publication Number Publication Date
JP2007256349A true JP2007256349A (ja) 2007-10-04

Family

ID=38630691

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006077247A Pending JP2007256349A (ja) 2006-03-20 2006-03-20 音声データ収録システムおよび音声データ収録方法

Country Status (1)

Country Link
JP (1) JP2007256349A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013134476A (ja) * 2011-12-27 2013-07-08 Yamaha Corp 音声合成装置及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60201376A (ja) * 1984-03-26 1985-10-11 富士通株式会社 発声訓練機
JPH02153397A (ja) * 1988-12-06 1990-06-13 Nec Corp 音声収録装置
JPH0358100A (ja) * 1989-07-27 1991-03-13 Nec Corp 規則型音声合成装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60201376A (ja) * 1984-03-26 1985-10-11 富士通株式会社 発声訓練機
JPH02153397A (ja) * 1988-12-06 1990-06-13 Nec Corp 音声収録装置
JPH0358100A (ja) * 1989-07-27 1991-03-13 Nec Corp 規則型音声合成装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013134476A (ja) * 2011-12-27 2013-07-08 Yamaha Corp 音声合成装置及びプログラム

Similar Documents

Publication Publication Date Title
US8140326B2 (en) Systems and methods for reducing speech intelligibility while preserving environmental sounds
Jovičić Formant feature differences between whispered and voiced sustained vowels
JP4246792B2 (ja) 声質変換装置および声質変換方法
JP4878538B2 (ja) 音声合成装置
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
US20090228271A1 (en) Method and System for Preventing Speech Comprehension by Interactive Voice Response Systems
JPH10153998A (ja) 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JP5148026B1 (ja) 音声合成装置および音声合成方法
WO2011151956A1 (ja) 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム
JP2009251199A (ja) 音声合成装置、方法及びプログラム
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
JP3450237B2 (ja) 音声合成装置および方法
JP6314879B2 (ja) 音読評価装置、音読評価方法、及びプログラム
JP2012042974A (ja) 音声合成装置
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP2844817B2 (ja) 発声練習用音声合成方式
JP2007256349A (ja) 音声データ収録システムおよび音声データ収録方法
JP2013033103A (ja) 声質変換装置および声質変換方法
JP5275470B2 (ja) 音声合成装置およびプログラム
JP2008058379A (ja) 音声合成システム及びフィルタ装置
JP2011090218A (ja) 音素符号変換装置、音素符号データベース、および音声合成装置
JPH07140996A (ja) 音声規則合成装置
JP2005523478A (ja) 音声を合成する方法
JP2009025328A (ja) 音声合成装置
JP3241582B2 (ja) 韻律制御装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110308

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110712