JP2007256815A - 音声再生装置、音声再生方法、音声再生プログラム - Google Patents
音声再生装置、音声再生方法、音声再生プログラム Download PDFInfo
- Publication number
- JP2007256815A JP2007256815A JP2006083493A JP2006083493A JP2007256815A JP 2007256815 A JP2007256815 A JP 2007256815A JP 2006083493 A JP2006083493 A JP 2006083493A JP 2006083493 A JP2006083493 A JP 2006083493A JP 2007256815 A JP2007256815 A JP 2007256815A
- Authority
- JP
- Japan
- Prior art keywords
- data
- reproduction
- audio
- speed
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】再生音声の単位時間当たりの単語数を基準とした話速の指定に応じて音声を再生出力させることを可能にする。
【解決手段】記憶装置20には、音声の再生出力の対象となる例文データ20aや会話集データ20bが記憶される。制御部10は、再生出力の対象として選択されたデータについて、再生出力する際の単位時間当たりに含まれる単語数を検出する。制御部10は、再生音声の単位時間当たりの単語数を基準とした指定(例えばWPM)に応じて再生出力する音声の発話速度を設定する。制御部10は、設定した発話速度と再生出力の対象とするデータから検出された単語数をもとに発話速度に対する再生倍率を決定し、この再生倍率に応じて再生速度を調整して音声を出力させる。
【選択図】 図1
【解決手段】記憶装置20には、音声の再生出力の対象となる例文データ20aや会話集データ20bが記憶される。制御部10は、再生出力の対象として選択されたデータについて、再生出力する際の単位時間当たりに含まれる単語数を検出する。制御部10は、再生音声の単位時間当たりの単語数を基準とした指定(例えばWPM)に応じて再生出力する音声の発話速度を設定する。制御部10は、設定した発話速度と再生出力の対象とするデータから検出された単語数をもとに発話速度に対する再生倍率を決定し、この再生倍率に応じて再生速度を調整して音声を出力させる。
【選択図】 図1
Description
本発明は、音声を再生出力する音声再生装置、音声再生方法、音声再生プログラムに関する。
従来、音声を再生出力する音声再生装置には、再生出力される音声の速度、すなわち発話速度(話速)を変換する話速変換機能を有するものがある。例えば、どのような発話速度(話速)の音声信号が入力された場合でも、適切な話速に変換して出力することができる補聴器が考えられている(例えば特許文献1参照)。
特許文献1に記載された補聴器では、音声信号が入力されると先頭の音節の母音の長さを測定する。例えば、「おはよう」という音声信号が入力される場合、最初に入力される「お」の音の長さを測定し、この「お」の長さに基づいて入力音声信号の話速を検出し、これと目標話速値とで話速の変換比率を検出する。そして、「お」以後に入力される音声信号「はよう」について、この変換比率で変換することにより、入力される音声信号による音声を目標話速で出力する。これにより、どのような速度で話者が話しても装用者には最も聞き取りやすい話速とすることができる。
特開平10−70790号公報
このように従来では、入力音声の話速と目標話速とをもとにして求めた変換比率に従って話速を変換することにより、目標話速で音声を出力している。特許文献1に記載された装置では、目標話速の設定を工場出荷時に行うか、あるいは利用者が自ら設定するようにしている。利用者が自ら設定する場合には、出力された音声が聞き取りやすいと感じることができれば良いので、明示的に具体的な数値により指定する必要はなく感覚的に話速を指定すればよい。
しかしながら、再生出力される音声を用いて、例えば外国語のリスニング(聞き取り)についての学習をする場合には、学習の目標とする話速を具体的に指定して、その話速で音声を再生させることが望まれる。こうした語学の学習では、話速を指定する場合、例えば1分間あたりに発話される単語数、すなわちWPM(word per minute)が用いられる。
従来の音声を再生出力する装置では、聞き取りやすくなるように話速を指定できれば良いだけであり、学習の目標とする話速、例えば、聞き取りが困難なWPMにより規定された話速を明示的に指定して、この話速に応じた音声を再生出力させることができなかった。
本発明の課題は、再生音声の単位時間当たりの単語数を基準とした話速の指定に応じて音声を再生出力させることが可能な音声再生装置、音声再生方法、音声再生プログラムを提供することにある。
請求項1記載の発明は、音声を再生出力する音声再生装置において、音声の再生出力の対象となるデータを記憶する記憶手段と、前記記憶手段に記憶されたデータに応じた音声を再生出力する際の単位時間当たりに含まれる単語数を検出する単語数検出手段と、単位時間当たりの単語数を基準とした発話速度の指定に応じて、再生出力する音声の発話速度を設定する発話速度設定手段と、前記発話速度設定手段によって設定された発話速度と前記単語数検出手段によって検出された単語数をもとに、前記記憶手段に記憶されたデータを再生出力する際の発話速度に対する再生倍率を決定する再生倍率決定手段と、前記記憶手段に記憶されたデータに応じた音声の再生速度を前記再生倍率に応じて調整して出力する再生出力手段とを具備したことを特徴とする。
請求項2記載の発明は、請求項1記載の発明において、前記記憶手段には音声データが記憶され、前記単語数検出手段は、前記音声データが示す音声波形の形状をもとに音声中の単語数を検出することを特徴とする。
請求項3記載の発明は、請求項2記載の発明において、前記単語数検出手段は、前記音声波形の振幅変化を表す包絡線の極大値の数と言語別の平均音節数とをもとに、単語数を検出することを特徴とする。
請求項4記載の発明は、請求項1記載の発明において、前記記憶手段にはテキストデータが記憶され、前記単語数検出手段は、前記テキストデータに含まれる単語数をカウントすることにより単語数を検出することを特徴とする。
請求項5記載の発明は、請求項1記載の発明において、前記再生倍率決定手段は、前記単語数検出手段によって周期的に検出される単語数をもとに前記再生倍率を決定し、前記再生出力手段は、前記再生倍率決定手段によって周期的に決定される前記再生倍率に応じて音声の再生速度を調整しながら音声を出力することを特徴とする。
請求項6記載の発明は、音声を再生出力する音声再生方法であって、再生出力の対象となるデータに応じた音声を再生出力する際の単位時間当たりに含まれる単語数を検出する単語数検出行程と、単位時間当たりの単語数を基準とした発話速度の指定に応じて、再生出力する音声の発話速度を設定する発話速度設定行程と、前記発話速度設定行程によって設定された発話速度と前記単語数検出行程によって検出された単語数をもとに、前記データを再生出力する際の発話速度に対する再生倍率を決定する再生倍率決定行程と、前記データに応じた音声の再生速度を前記再生倍率に応じて調整して出力する再生出力行程とを有する。
請求項7記載の発明は、音声を再生出力するコンピュータを、音声の再生出力の対象となるデータを記憶する記憶手段と、前記記憶手段に記憶されたデータに応じた音声を再生出力する際の単位時間当たりに含まれる単語数を検出する単語数検出手段と、単位時間当たりの単語数を基準とした発話速度の指定に応じて、再生出力する音声の発話速度を設定する発話速度設定手段と、前記発話速度設定手段によって設定された発話速度と前記単語数検出手段によって検出された単語数をもとに、前記記憶手段に記憶されたデータを再生出力する際の発話速度に対する再生倍率を決定する再生倍率決定手段と、前記記憶手段に記憶されたデータに応じた音声の再生速度を前記再生倍率に応じて調整して出力する再生出力手段として機能させることを特徴とする。
請求項1,6及び7記載の発明によれば、再生出力の対象となるデータから検出される単位時間当たりに含まれる単語数と指定された発話速度から、データを再生出力する際の再生倍率を決定し、この再生倍率に応じて再生速度を調整して音声を再生出力するので、再生音声の単位時間当たりの単語数を基準とした明示的な話速の指定に応じて音声を再生出力させることが可能となる。
請求項2記載の発明によれば、請求項1の発明の効果に加えて、音声の再生出力の対象とするデータが音声波形を表す音声データである場合、音声波形の形状から例えば音節数を判別することにより単語数を検出することができる。
請求項3記載の発明によれば、請求項2の発明の効果に加えて、音声波形の形状としては音声波形の振幅変化を表す包絡線を求め、この包絡線の極大値の数を音節数として検出し、この音節数と言語によって異なる1単語当たりの平均音節数とから、音声の言語を考慮して単語数を検出することができる。
請求項4記載の発明によれば、請求項1の発明の効果に加えて、音声の再生出力の対象とするデータがテキストデータである場合、テキストデータに対する解析によって単語数をカウントし、単語数を検出することができる。
請求項5記載の発明によれば、請求項1の発明の効果に加えて、音声を再生出力する際に周期的(所定時間ごと)に再生対象とするデータから単位時間当たりの単語数を検出し、この単語数をもとに再生倍率を決定して再生速度を調整するため、再生対象とするデータによる音声の発話速度が変化する場合であっても、指定された発話速度で一定に音声が再生出力されるように動的に再生速度の調整をすることができる。
以下、図面を参照して本発明の実施の形態について説明する。
図1は、本実施形態における音声再生装置の構成を示すブロック図である。本実施形態における音声再生装置は、例えば電子辞書装置として構成されるものとする。以下、電子辞書装置を例にして実施の形態について説明する。
図1は、本実施形態における音声再生装置の構成を示すブロック図である。本実施形態における音声再生装置は、例えば電子辞書装置として構成されるものとする。以下、電子辞書装置を例にして実施の形態について説明する。
電子辞書装置は、例えば辞書データとして、複数の言語について文章(テキスト)データと、このデータに対応する音声の音声ファイルなどを記憶している。また、通信によって外部の装置(例えばパーソナルコンピュータ)から音声ファイルを入力して記憶することができる。音声ファイルは、再生出力することで、リスニングなどの言語学習などに利用することができる。
図1に示すように、本実施形態における電子辞書装置は、制御部10に、表示部12、キー入力部14、音声再生部16、通信部18、記憶装置20、及びRAM22が接続されて構成される。
制御部10は、装置全体の制御を司るもので、プロセッサやプログラムやデータを記憶するメモリ等を含んで構成される。制御部10は、各種プログラムをプロセッサにより実行することにより各種機能を実現する。本実施形態では、音声再生処理プログラムを実行することにより、音声ファイルをもとに音声を再生出力する際に発話速度を調整する話速調整機能を実現することができる。
表示部12は、制御部10の制御のもとで、例えば液晶ディスプレイにおいて各種データを表示する。
キー入力部14は、制御部10の制御のもとで、ユーザ操作に応じて各種指示を入力する。キー入力部14は、例えば複数キー(ボタン)に対する入力操作の他、ポインティングデバイス等の他の入力デバイスに対する操作に応じたユーザからの指示を入力して制御部10に通知する。複数のキーには、音声再生の実行を指示するための音声キーが含まれている。
音声再生部16は、制御部10の制御のもとで音声を出力する。音声再生部16は、制御部10からの出力される音声データをD/A変換し、音声信号に応じた音声をスピーカから放音させる。
通信部18は、制御部10の制御のもとで、パーソナルコンピュータ(PC)などの外部装置との通信を制御する。通信部18は、例えばPCを通じて音声ファイル等のデータを受信することができる。通信部18により受信された音声ファイルは、記憶装置20に記憶されて再生出力の対象とすることができる。
記憶装置20は、プログラムや各種データを記憶するためのもので、ROM、ハードディスク装置、フラッシュメモリ等により構成される。記憶装置20に記憶されるプログラムとしては、電子辞書装置を動作させるための基本プログラムの他、辞書機能を実現するための辞書プログラム、音声データをもとに音声を再生出力させる音声再生師プログラムなどを含む。記憶装置20に記憶されるデータには、辞書機能により検索対象となるデータベースが含まれる。データベースは、例えば見出し語と対応付けて、同見出し語に対応する各種のデータ(説明情報など)が記憶されている。データベースには、音声を再生出力するために予め記憶された例文データ20aや会話集データ20bを含む(詳細なデータ内容については後述する)。記憶装置20には、音声データを再生出力する際に、音声の言語に関係なく、ユーザにより指定される発話速度で再生出力するための言語別変換係数データ20dが記憶されている(詳細については後述する)。また、記憶装置20には、通信部18を通じて外部の装置(PC等)から受信したデータ、例えば音声ファイル20cを記憶することもできる。
RAM22は、制御部10による処理の対象とするデータを記憶するもので、例えば再生出力の対象とする音声ファイル22aや、音声ファイル22aを再生出力する際の発話速度を示す設定話速データ22bなどが記憶される。設定話速データ22bは、音声を再生出力する場合にユーザにより指定されるもので、単位時間当たりの単語数を基準とした発話速度、例えばWPM(word per minute)により指定される。
図2は、音声再生装置の記憶装置20に記憶されるデータの一例を示す図である。図2(a)は、例文データ20a、図2(b)は、会話集データ20b、図2(c)は、音声ファイル20c、図2(d)は、言語別変換係数データ20dを概念的に示す図である。
図2(a)(b)に示す例文データ20aと会話集データ20bは、例えば電子辞書データとして予め記憶されている内部データである。内部データは、データ長が制限された比較的短いデータである。
図2(a)に示すように、例文データ20aは、例文のテキストデータと、このテキストデータの内容を読み上げた音声の音声データ(音声ファイル)とが対応付けられている。例文データ20aに含まれる複数の音声ファイルあるいはテキストデータから任意に選択されたデータが再生出力の対象となる。
図2(b)に示すように、会話集データ20bは、会話音声の音声データ(音声ファイル)が含まれている。
また、図2(c)に示す音声ファイル20cは、例えば通信部18を通じて外部装置(PC等)から入力された外部データである。外部データは、外部装置において作成されたデータであるので、データ長が不定であり、基本的に電子辞書装置に予め記憶された内部データより長いデータとなる。
図2(d)に示す言語別変換係数データ20dは、複数の言語(例えば、英語、独語、仏語…)のそれぞれに対する、言語によって異なる1単語当たりの平均音節数に相当する変換係数が含まれている。例えば、英語に対する変換係数(平均音節数)は1.2、独語に対する変換係数(平均音節数)は2となっている。各言語に対する変換係数(平均音節数)は、統計的に各言語の文章をもとに求められた既知のデータであり、予め電子辞書装置に記憶されているものとする。
次に、本実施形態における電子辞書装置(音声再生装置)による音声再生処理について、図3に示すフローチャートを参照しながら説明する。
電子辞書装置の記憶装置20には、予め音声再生の対象となるデータ、例えば例文データ20a、会話集データ20b、音声ファイル20cなどが記憶されている。これらのデータは、任意に再生出力の対象として選択することができる。
例えば、制御部10は、キー入力部14から見出し語が入力されることで、この見出し語に対応するデータを検索して表示部12において表示させる。この検索されたデータに例文データ20aが付加されている場合、制御部10は、例文データ20aのテキストデータをもとに例文(文章)を表示させる。ここで、音声キーの操作により例文の音声再生が指示された場合、制御部10は、例文データ20aの音声ファイルを再生対象として読み出してRAM22に記憶させる(ステップA1,A2)。以下、RAM22に記憶された音声ファイル22aについて再生処理を実行する。
また、会話集データ20bや外部装置から入力した音声ファイル20cについては、例えば一覧メニューを表示させて、このメニュー中から音声の再生対象を任意に選択できるものとする。制御部10は、記憶装置20に記憶されたデータをもとに一覧メニューを表示し、キー入力部14の操作により何れかが選択され、音声キーが操作された場合に、該当する音声ファイルを読み出してRAM22に記憶させる(ステップA1,A2)。以下、RAM22に記憶された音声ファイル22aについて再生処理を実行する。
制御部10は、音声の再生実行が指示されると(ステップA2、Yes)、再生対象として選択されたデータが内部データであるか、あるいは外部データであるかを判別する。
ここで、内部データであると判別される場合(ステップA3、Yes)、すなわち例文データ20aあるいは会話集データ20bに含まれる音声ファイルを再生対象とする場合、制御部10は、内部データ用の第1話速計算処理を実行して、再生対象とする音声データについて話速調整をしないで再生出力した場合の発話速度(音声を再生出力する際の単位時間当たりに含まれる単語数)を求める(ステップA4)。内部データは、予め記憶装置20に記憶されたデータであり、データ長が制限された比較的短いデータとなっている。従って、第1話速計算処理では、再生対象とする音声ファイルの音声データ全体を用いて、話速調整をしないで再生出力した場合の発話速度を求める。なお、話速計算処理の詳細については後述する(図4参照)。
第1話速計算処理により話速調整しない状態での音声の発話速度が求められると、制御部10は、ユーザの指定により設定された再生出力する音声の発話速度を示す設定話速データ22bを読み出す(ステップA5)。
なお、設定話速データ22bは、音声再生処理を実行する前に予めユーザからの指定により設定しても良いし、再生対象とする音声データの選択と共にユーザの指定により設定されていても良い。また、話速計算処理を実行した後に(ステップA4)、ユーザによって指定させるようにしても良い。
また、ユーザによる発話速度の指定は、予め複数段階の発話速度が設定されている話速指定用のメニューから選択させるようにしても良い。例えば、250WPM、200WPM、150WPMの3段階の発話速度が設定されたメニューを表示部12に表示させて、キー入力部14に対する操作により何れかを選択させる。これにより、ユーザは、再生出力される音声の発話速度を、明示的に具体的な数値によって指定することができる。従って、外国語のリスニングについて学習をする場合などにおいて、学習の目標とする発話速度を明示的に指定して、この発話速度に応じた音声を再生出力させることができる。
次に、制御部10は、話速調整・音声再生処理を実行する。話速調整・音声再生処理では、第1話速計算処理によって求められた発話速度と、ユーザの指定により設定された設定話速データ22bが示す発話速度をもとに、音声ファイルの音声データを再生出力する際の発話速度に対する再生倍率を決定する。そして、制御部10は、再生対象とする音声データに応じた音声の元の再生速度を再生倍率に応じて調整した後、この調整後の再生速度に従い音声を再生出力させる。
話速調整・音声再生処理の詳細については後述する(図5参照)。
一方、再生対象として選択されたデータが外部データであると判別された場合(ステップA3、No)、すなわち外部の装置から入力された音声ファイル20cを再生対象とする場合、制御部10は、外部データ用の第2話速計算処理を実行して、再生対象とする音声データについて話速調整をしないで再生出力した場合の発話速度(音声を再生出力する際の単位時間当たりに含まれる単語数)を求める(ステップA7)。外部データは、データ長が決められていない、内部データと比較して長いデータとなっている。従って、第2話速計算処理では、再生対象とする音声ファイルの音声データについて、所定時間分のデータを用いて周期的に、話速調整をしないで再生出力した場合の発話速度を求める。なお、所定時間としては、通常の発話速度により発話した場合に複数の単語が含まれる程度の短い時間、例えば2秒とする。なお、話速計算処理の詳細については後述する(図4参照)。
第2話速計算処理により話速調整しない状態での音声の発話速度が求められると、制御部10は、ユーザの指定により設定された再生出力する音声の発話速度を示す設定話速データ22bを読み出す(ステップA8)。なお、設定話速データ22bの設定については前述と同様にして行われるものとして説明を省略する。
次に、制御部10は、話速調整・音声再生処理を実行する。話速調整・音声再生処理では、第2話速計算処理によって求められた発話速度と、ユーザの指定により設定された設定話速データ22bが示す発話速度をもとに、音声ファイルの音声データを再生出力する際の発話速度に対する再生倍率を決定する。そして、制御部10は、再生対象とする音声データに応じた音声の元の再生速度を再生倍率に応じて調整した後、この調整後の再生速度に従い音声を再生出力させる。話速調整・音声再生処理の詳細については後述する(図5参照)。
ここで、再生対象とする音声データの全てについて再生出力が終了していなければ、記憶装置20は、予め設定された所定時間が経過しているかを判別する。ここで、所定時間が経過していなければ(ステップA11、No)、繰り返して話速調整・音声再生処理を実行する(ステップA9)。
ここで、所定時間が経過した場合には(ステップA11、Yes)、制御部10は、第2話速計算処理を実行して、次の所定時間分の音声データを対象として発話速度を求める(ステップA7)。以下、同様にして、所定時間毎に周期的に処理を実行する(ステップA8〜A11)。
こうして、所定時間ごとに再生対象とする音声データについて発話速度(再生出力する際の単位時間当たりに含まれる単語数)を求め、この発話速度をもとにして発話速度を調整することで、元の音声データによる音声の発話速度が変化する場合であっても、再生対象とする所定時間分のデータ毎に速度調整を行うことで、一定速度で音声を再生出力することができるようになる。例えば、外部の装置から入力された音声ファイル20cが、比較的発話速度が速いニュースを読み上げるアナウンサーによる音声と、比較的発話速度が遅いインタビューされた一般人による音声が含まれている場合などがある。この場合、アナウンサーと一般人の音声を、ユーザが指定した発話速度で一定に再生出力させることができる。
次に、話速計算処理の詳細について、図4に示すフローチャートを参照しながら説明する。
まず、制御部10は、再生対象とする音声ファイル(音声データ)を読み込んでRAM22に記憶させる。そして、制御部10は、包絡線処理を実行して、音声データが示す音声波形の振幅変化を表す包絡線を検出する(ステップB2)。
まず、制御部10は、再生対象とする音声ファイル(音声データ)を読み込んでRAM22に記憶させる。そして、制御部10は、包絡線処理を実行して、音声データが示す音声波形の振幅変化を表す包絡線を検出する(ステップB2)。
図6(a)には、音声データのPCM波形の一例を示している。図6(a)に示す音声波形は、例えば内部データであり、「Did you stay up late last night?」の文章を読み上げた音声を示している。
制御部10は、音声波形の頂点(振幅値)を結んだ線を包絡線として検出する。図6(b)には、音声波形の絶対値から包絡線を検出した例を示している。
次に、制御部10は、包絡線の極大点の数をカウントする(カウント値C)(ステップB3)。ここで、包絡線の極大点の数は、単語の音節数とみなすことができる。図6(c)には、包絡線から検出される極大点の数を示しており、9つの極大点が検出されている。
次に、制御部10は、音声データの再生時間を、例えばデータ量と音声データのデータ形式(単位時間当たりのデータ量)、あるいはデータ量とサンプリング周波数をもとにして求める(再生時間P)(ステップB4)。例えば、音声データのデータ量(サイズ)が28.8kビットであり、音声データのデータ形式が16kbps(1秒辺りのデータ量が16kビット)であった場合には、音声データの再生時間は、28.8k/16k=1.8秒として求めることができる。
図6(c)に示す例では、速度調整前の音声データを再生出力する場合、1.8秒要することを表している。
次に、制御部10は、現在の再生対象としている音声データの言語に対応する係数データを、記憶装置20に記憶された言語別変換係数データ20dから読み出す(平均音節数T)(ステップB5)。図6に示す例では、再生対象とする音声データの言語が英語であるので、言語別変換係数データ20dに設定された英語に対応する変換係数1.3を読み出す。
記憶装置20に記憶された内部データ(例文データ20a、会話集データ20b)の場合には、音声ファイルに対して言語を識別することができるデータを付加しておくことで、このデータをもとに音声データの言語について判別することができる。一方、外部データ(音声ファイル20c)については、ユーザから言語の指定を入力するものとする。例えば、ステップA1において、再生対象として外部装置から入力された音声ファイル20cが選択された場合、ユーザに対して言語の指定を要求し、ここで指定された言語を示すデータを記憶しておくものとする。
次に、制御部10は、極大点についてのカウント値C、平均音節数T、再生時間Pをもとにして、再生対象とする音声データについての発話速度(話速値W)、すなわち音声を再生出力する際の単位時間(1分間)当たりに含まれる単語数を求める(ステップB6)。ここで、発話速度(話速値W)=(C/T)×60/Pとして算出する。
図6に示す例では、カウント値Cが9、平均音節数Tが1.2、再生時間Pが1.8であるので、1分当たりの単語数は230.7となる。
次に、話速調整・音声再生処理の詳細について、図5に示すフローチャートを参照しながら説明する。
まず、制御部10は、設定話速データ22bが読み出されると、設定話速値Mとして設定し(ステップC1,C2)、設定話速データ22bに応じて発話速度を調整した後の再生時間を示す目標再生時間MSを計算する(ステップC3)。ここで、目標再生時間MS=P×W/Mとして算出する。
まず、制御部10は、設定話速データ22bが読み出されると、設定話速値Mとして設定し(ステップC1,C2)、設定話速データ22bに応じて発話速度を調整した後の再生時間を示す目標再生時間MSを計算する(ステップC3)。ここで、目標再生時間MS=P×W/Mとして算出する。
ここでは、再生時間Pが1.8、話速値Wが230(小数点以下切り捨て)であり、設定話速値Mが150WPMとして設定されている場合、目標再生時間MSは2.76(秒)となる。
従って、再生対象とする音声データを再生出力する際の発話速度に対する再生倍率は約1.533(=2.76/1.8)と決定する。すなわち、再生時間を53.3%増加させる必要があることを表している。制御部10は、ここで決定された再生倍率に従い、再生対象とする音声データが示す音声波形を合成する(ステップC4)。図6(d)には、図6(c)に示す音声波形を、設定話速値M(設定話速データ22b)に応じて調整した後の再生波形の一例を示している。図6(d)に示すように、音声データ全体の再生出力に要する時間が、1.8秒から2.76秒に調整されている。
制御部10は、音声の再生速度が再生倍率に応じて調整された音声データに応じて、音声再生部16から再生音声を出力させる。ここでは、元の音声データにより再生出力される際の音程を変更しないで、発話速度のみを目標とする発話速度(ここでは150WPM)に変更して再生出力させる。
このようにして、再生対象とする音声ファイル(音声データ)の元の発話速度に関係なく、音声を再生出力する際の発話速度(設定話速データ22b)を明示的に単位時間当たりの単語数によって指定することで、この指定に応じた発話速度で音声を再生出力させることができる。従って、ユーザが希望する例えば語学学習に最適な発話速度で音声を再生出力させることができる。
また、外部データ(音声ファイル20c)を再生出力の対象とする場合には、所定時間(例えば2秒間毎)に再生対象とする音声データについて発話速度を検出し、この発話速度をもとに発話速度の調整を実行している。従って、音声データにより再生される音声の再生速度が途中で速くなったり、あるいは遅くなったりしたとしても、設定話速データ22bに応じて一定速度で再生出力させることができる。
図7には、再生速度が異なる音声を含む音声データについて、音声再生処理によって速度が調整される様子を示している。
図7(a)に示すように、音声データには、発話速度が比較的速いアナウンサーによる音声と、発話速度が比較的遅いインタビュー音声とが混在している。また、インタビュー音声については、インタビューに答えている人によって発話速度が異なっている。
本実施形態における音声再生処理では、異なる発話速度の音声が含まれる音声データであっても、全体に渡って一定の速度で音声を再生出力するように発話速度を調整するので、図7(b)に示すように、アナウンサー音声に対しては発話速度を遅くし、インタビュー音声については再生速度を速くすることになる。
また、再生対象とする音声データに発話されていな部分が混在する場合、その部分を除いて音声の再生を実行するようにしても良い。例えば話速計算処理において包絡線を検出する際に、音声波形の振幅が予め設定された基準値以上となっていない場合には音声が無いものと判別し、この部分についてのデータを読み飛ばす。外部データの場合には、所定時間毎に発話速度の検出が実行されるので、無音部分を含む音声データであってもこの無音部分を逐次的に検出し、この部分を除いて継続的に音声を再生出力させることができる。
なお、前述した話速計算処理(図4)では、音声波形の包絡線の極大点の数を音節数とし、言語別変換係数データ20dを用いて単語数を検出しているが、音声データに対応するテキストデータがある場合、このテキストデータをもとに単語数を検出することもできる。例えば、図2(a)に示す例文データ20aのように、音声ファイルとテキストデータが対応付けられている場合、話速計算処理における処理対象をテキストデータとする。
図8は、テキストデータを対象とする場合の話速計算処理の動作を説明するためのフローチャートである。
まず、制御部10は、テキストデータに含まれる単語数、例えば英語の場合には、テキストデータ中のスペースコードを単語の区切りとして検出し、これをカウントする(カウント値C)(ステップD1)。なお、スペースコードによって単語を区切ることができない言語については、各種の言語処理の手法を用いて単語を区切ることも可能である。
まず、制御部10は、テキストデータに含まれる単語数、例えば英語の場合には、テキストデータ中のスペースコードを単語の区切りとして検出し、これをカウントする(カウント値C)(ステップD1)。なお、スペースコードによって単語を区切ることができない言語については、各種の言語処理の手法を用いて単語を区切ることも可能である。
以下、制御部10は、図4に示すフローチャートのステップB4〜B6と同様の処理を実行することにより、再生対象とする音声データについての発話速度(話速値W)、すなわち音声を再生出力する際の単位時間(1分間)当たりに含まれる単語数を求める(ステップD2〜D4)。
図9(a)には、音声データのPCM波形の一例を示している。図9(a)に示す例では、音声データに付加されたテキストデータが「Did you stay up late last night?」であり単語数が7、再生時間が1.8秒と算出されたものとする(音声データのデータ形式が16kbps、音声データサイズ28.8kビット)。この場合、1分間辺りの単語数は233.3と求められる。設定話速値M(設定話速データ22b)が150WPMとして設定されている場合、150/233.3倍に再生波形を伸ばす必要があり、この比を係数として発話速度の調整を行う。すなわち、図9(b)に示すように、音声データの全体の再生時間を2.76秒で再生することにより、ユーザによって指定された150WPMにより再生出力させることができる。
このようにして、音声データに対応するテキストデータが存在する場合には、このテキストデータを利用して音声データに含まれる単語数を求めることで、調整前の発話速度を正確に計算することができる。従って、ユーザが指定する発話速度となるように正確に調整して、音声データを再生出力することが可能となる。
なお、前述した説明では、本発明による音声再生装置を電子辞書装置として構成した場合を例について説明しているが、音声を再生出力することが可能な他の装置として構成することも可能である。例えば、パーソナルコンピュータ、PDA(personal digital assistant)、携帯電話機、補聴器、デジタルオーディオプレーヤ等の装置として構成することが可能である。
また、音声再生装置を実現するコンピュータに実行させることのできる音声再生処理プログラムを、例えば磁気ディスク(フレキシブルディスク、ハードディスク等)、光ディスク(CD、DVD等)、半導体メモリなどの記録媒体に書き込んで、あるいは通信媒体を通じて提供することができる。音声再生処理プログラムによりコンピュータの動作を制御することで、前述した実施形態における機能を実現することができる。
10…制御部、12…表示部、14…キー入力部、16…音声再生部、18…通信部、20…記憶装置、20a…例文データ、20b…会話集データ、20c…音声ファイル、20d…言語別変換係数データ、22…RAM、22a…音声ファイル、22b…設定話速データ。
Claims (7)
- 音声を再生出力する音声再生装置において、
音声の再生出力の対象となるデータを記憶する記憶手段と、
前記記憶手段に記憶されたデータに応じた音声を再生出力する際の単位時間当たりに含まれる単語数を検出する単語数検出手段と、
単位時間当たりの単語数を基準とした発話速度の指定に応じて、再生出力する音声の発話速度を設定する発話速度設定手段と、
前記発話速度設定手段によって設定された発話速度と前記単語数検出手段によって検出された単語数をもとに、前記記憶手段に記憶されたデータを再生出力する際の発話速度に対する再生倍率を決定する再生倍率決定手段と、
前記記憶手段に記憶されたデータに応じた音声の再生速度を前記再生倍率に応じて調整して出力する再生出力手段と
を具備したことを特徴とする音声再生装置。 - 前記記憶手段には音声データが記憶され、
前記単語数検出手段は、前記音声データが示す音声波形の形状をもとに音声中の単語数を検出することを特徴とする請求項1記載の音声再生装置。 - 前記単語数検出手段は、前記音声波形の振幅変化を表す包絡線の極大値の数と言語別の平均音節数とをもとに、単語数を検出することを特徴とする請求項2記載の音声再生装置。
- 前記記憶手段にはテキストデータが記憶され、
前記単語数検出手段は、前記テキストデータに含まれる単語数をカウントすることにより単語数を検出することを特徴とする請求項1記載の音声再生装置。 - 前記再生倍率決定手段は、前記単語数検出手段によって周期的に検出される単語数をもとに前記再生倍率を決定し、
前記再生出力手段は、前記再生倍率決定手段によって周期的に決定される前記再生倍率に応じて音声の再生速度を調整しながら音声を出力することを特徴とする請求項1記載の音声再生装置。 - 音声を再生出力する音声再生方法であって、
再生出力の対象となるデータに応じた音声を再生出力する際の単位時間当たりに含まれる単語数を検出する単語数検出行程と、
単位時間当たりの単語数を基準とした発話速度の指定に応じて、再生出力する音声の発話速度を設定する発話速度設定行程と、
前記発話速度設定行程によって設定された発話速度と前記単語数検出行程によって検出された単語数をもとに、前記データを再生出力する際の発話速度に対する再生倍率を決定する再生倍率決定行程と、
前記データに応じた音声の再生速度を前記再生倍率に応じて調整して出力する再生出力行程とを有する音声再生方法。 - 音声を再生出力するコンピュータを、
音声の再生出力の対象となるデータを記憶する記憶手段と、
前記記憶手段に記憶されたデータに応じた音声を再生出力する際の単位時間当たりに含まれる単語数を検出する単語数検出手段と、
単位時間当たりの単語数を基準とした発話速度の指定に応じて、再生出力する音声の発話速度を設定する発話速度設定手段と、
前記発話速度設定手段によって設定された発話速度と前記単語数検出手段によって検出された単語数をもとに、前記記憶手段に記憶されたデータを再生出力する際の発話速度に対する再生倍率を決定する再生倍率決定手段と、
前記記憶手段に記憶されたデータに応じた音声の再生速度を前記再生倍率に応じて調整して出力する再生出力手段として機能させるための音声再生プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006083493A JP2007256815A (ja) | 2006-03-24 | 2006-03-24 | 音声再生装置、音声再生方法、音声再生プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006083493A JP2007256815A (ja) | 2006-03-24 | 2006-03-24 | 音声再生装置、音声再生方法、音声再生プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007256815A true JP2007256815A (ja) | 2007-10-04 |
Family
ID=38631096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006083493A Pending JP2007256815A (ja) | 2006-03-24 | 2006-03-24 | 音声再生装置、音声再生方法、音声再生プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007256815A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009092907A (ja) * | 2007-10-09 | 2009-04-30 | Fujitsu Ltd | 音声再生プログラム及び音声再生装置 |
JP2017072763A (ja) * | 2015-10-08 | 2017-04-13 | シナノケンシ株式会社 | デジタルコンテンツ再生装置およびデジタルコンテンツ再生方法 |
-
2006
- 2006-03-24 JP JP2006083493A patent/JP2007256815A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009092907A (ja) * | 2007-10-09 | 2009-04-30 | Fujitsu Ltd | 音声再生プログラム及び音声再生装置 |
JP2017072763A (ja) * | 2015-10-08 | 2017-04-13 | シナノケンシ株式会社 | デジタルコンテンツ再生装置およびデジタルコンテンツ再生方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106898340B (zh) | 一种歌曲的合成方法及终端 | |
JP4296231B2 (ja) | 声質編集装置および声質編集方法 | |
JP2007086316A (ja) | 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体 | |
KR101877559B1 (ko) | 모바일 단말기를 이용한 언어 자가학습 서비스 제공방법, 이를 실행하는 모바일 단말기 및 이를 실행하기 위한 애플리케이션을 저장하는 기록매체 | |
JP2011186143A (ja) | ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム | |
JP2013072903A (ja) | 合成辞書作成装置および合成辞書作成方法 | |
JP2005070430A (ja) | 音声出力装置および方法 | |
JP2001184100A (ja) | 話速変換装置 | |
JP2007256815A (ja) | 音声再生装置、音声再生方法、音声再生プログラム | |
JP4744338B2 (ja) | 合成音声生成装置 | |
JP2005215888A (ja) | テキスト文の表示装置 | |
JP7069386B1 (ja) | 音声変換装置、音声変換方法、プログラム、および記録媒体 | |
JP2002156897A (ja) | 発音学習装置 | |
JP6044490B2 (ja) | 情報処理装置、話速データ生成方法、及びプログラム | |
JP6486582B2 (ja) | 電子機器、音声制御方法、およびプログラム | |
JP2008257116A (ja) | 音声合成システム | |
JP2002268664A (ja) | 音声変換装置及びプログラム | |
JP2004294577A (ja) | 文字情報音声変換方法 | |
JP2005077678A (ja) | テキスト音声同期装置およびテキスト音声同期処理プログラム | |
JP2006227363A (ja) | 放送音声用辞書作成装置および放送音声用辞書作成プログラム | |
CN113421544B (zh) | 歌声合成方法、装置、计算机设备及存储介质 | |
JP7288530B1 (ja) | システムおよびプログラム | |
JP3853923B2 (ja) | 音声合成装置 | |
JP4563418B2 (ja) | 音声処理装置、音声処理方法、ならびに、プログラム | |
JP6922306B2 (ja) | 音声再生装置、および音声再生プログラム |