JP2007256815A

JP2007256815A - 音声再生装置、音声再生方法、音声再生プログラム

Info

Publication number: JP2007256815A
Application number: JP2006083493A
Authority: JP
Inventors: Toshihisa Nakamura; 利久中村
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2006-03-24
Filing date: 2006-03-24
Publication date: 2007-10-04

Abstract

【課題】再生音声の単位時間当たりの単語数を基準とした話速の指定に応じて音声を再生出力させることを可能にする。
【解決手段】記憶装置２０には、音声の再生出力の対象となる例文データ２０ａや会話集データ２０ｂが記憶される。制御部１０は、再生出力の対象として選択されたデータについて、再生出力する際の単位時間当たりに含まれる単語数を検出する。制御部１０は、再生音声の単位時間当たりの単語数を基準とした指定（例えばＷＰＭ）に応じて再生出力する音声の発話速度を設定する。制御部１０は、設定した発話速度と再生出力の対象とするデータから検出された単語数をもとに発話速度に対する再生倍率を決定し、この再生倍率に応じて再生速度を調整して音声を出力させる。
【選択図】図１

Description

本発明は、音声を再生出力する音声再生装置、音声再生方法、音声再生プログラムに関する。

従来、音声を再生出力する音声再生装置には、再生出力される音声の速度、すなわち発話速度（話速）を変換する話速変換機能を有するものがある。例えば、どのような発話速度（話速）の音声信号が入力された場合でも、適切な話速に変換して出力することができる補聴器が考えられている（例えば特許文献１参照）。

特許文献１に記載された補聴器では、音声信号が入力されると先頭の音節の母音の長さを測定する。例えば、「おはよう」という音声信号が入力される場合、最初に入力される「お」の音の長さを測定し、この「お」の長さに基づいて入力音声信号の話速を検出し、これと目標話速値とで話速の変換比率を検出する。そして、「お」以後に入力される音声信号「はよう」について、この変換比率で変換することにより、入力される音声信号による音声を目標話速で出力する。これにより、どのような速度で話者が話しても装用者には最も聞き取りやすい話速とすることができる。
特開平１０−７０７９０号公報

このように従来では、入力音声の話速と目標話速とをもとにして求めた変換比率に従って話速を変換することにより、目標話速で音声を出力している。特許文献１に記載された装置では、目標話速の設定を工場出荷時に行うか、あるいは利用者が自ら設定するようにしている。利用者が自ら設定する場合には、出力された音声が聞き取りやすいと感じることができれば良いので、明示的に具体的な数値により指定する必要はなく感覚的に話速を指定すればよい。

しかしながら、再生出力される音声を用いて、例えば外国語のリスニング（聞き取り）についての学習をする場合には、学習の目標とする話速を具体的に指定して、その話速で音声を再生させることが望まれる。こうした語学の学習では、話速を指定する場合、例えば１分間あたりに発話される単語数、すなわちＷＰＭ（word per minute）が用いられる。

従来の音声を再生出力する装置では、聞き取りやすくなるように話速を指定できれば良いだけであり、学習の目標とする話速、例えば、聞き取りが困難なＷＰＭにより規定された話速を明示的に指定して、この話速に応じた音声を再生出力させることができなかった。

本発明の課題は、再生音声の単位時間当たりの単語数を基準とした話速の指定に応じて音声を再生出力させることが可能な音声再生装置、音声再生方法、音声再生プログラムを提供することにある。

請求項１記載の発明は、音声を再生出力する音声再生装置において、音声の再生出力の対象となるデータを記憶する記憶手段と、前記記憶手段に記憶されたデータに応じた音声を再生出力する際の単位時間当たりに含まれる単語数を検出する単語数検出手段と、単位時間当たりの単語数を基準とした発話速度の指定に応じて、再生出力する音声の発話速度を設定する発話速度設定手段と、前記発話速度設定手段によって設定された発話速度と前記単語数検出手段によって検出された単語数をもとに、前記記憶手段に記憶されたデータを再生出力する際の発話速度に対する再生倍率を決定する再生倍率決定手段と、前記記憶手段に記憶されたデータに応じた音声の再生速度を前記再生倍率に応じて調整して出力する再生出力手段とを具備したことを特徴とする。

請求項２記載の発明は、請求項１記載の発明において、前記記憶手段には音声データが記憶され、前記単語数検出手段は、前記音声データが示す音声波形の形状をもとに音声中の単語数を検出することを特徴とする。

請求項３記載の発明は、請求項２記載の発明において、前記単語数検出手段は、前記音声波形の振幅変化を表す包絡線の極大値の数と言語別の平均音節数とをもとに、単語数を検出することを特徴とする。

請求項４記載の発明は、請求項１記載の発明において、前記記憶手段にはテキストデータが記憶され、前記単語数検出手段は、前記テキストデータに含まれる単語数をカウントすることにより単語数を検出することを特徴とする。

請求項５記載の発明は、請求項１記載の発明において、前記再生倍率決定手段は、前記単語数検出手段によって周期的に検出される単語数をもとに前記再生倍率を決定し、前記再生出力手段は、前記再生倍率決定手段によって周期的に決定される前記再生倍率に応じて音声の再生速度を調整しながら音声を出力することを特徴とする。

請求項６記載の発明は、音声を再生出力する音声再生方法であって、再生出力の対象となるデータに応じた音声を再生出力する際の単位時間当たりに含まれる単語数を検出する単語数検出行程と、単位時間当たりの単語数を基準とした発話速度の指定に応じて、再生出力する音声の発話速度を設定する発話速度設定行程と、前記発話速度設定行程によって設定された発話速度と前記単語数検出行程によって検出された単語数をもとに、前記データを再生出力する際の発話速度に対する再生倍率を決定する再生倍率決定行程と、前記データに応じた音声の再生速度を前記再生倍率に応じて調整して出力する再生出力行程とを有する。

請求項７記載の発明は、音声を再生出力するコンピュータを、音声の再生出力の対象となるデータを記憶する記憶手段と、前記記憶手段に記憶されたデータに応じた音声を再生出力する際の単位時間当たりに含まれる単語数を検出する単語数検出手段と、単位時間当たりの単語数を基準とした発話速度の指定に応じて、再生出力する音声の発話速度を設定する発話速度設定手段と、前記発話速度設定手段によって設定された発話速度と前記単語数検出手段によって検出された単語数をもとに、前記記憶手段に記憶されたデータを再生出力する際の発話速度に対する再生倍率を決定する再生倍率決定手段と、前記記憶手段に記憶されたデータに応じた音声の再生速度を前記再生倍率に応じて調整して出力する再生出力手段として機能させることを特徴とする。

請求項１，６及び７記載の発明によれば、再生出力の対象となるデータから検出される単位時間当たりに含まれる単語数と指定された発話速度から、データを再生出力する際の再生倍率を決定し、この再生倍率に応じて再生速度を調整して音声を再生出力するので、再生音声の単位時間当たりの単語数を基準とした明示的な話速の指定に応じて音声を再生出力させることが可能となる。

請求項２記載の発明によれば、請求項１の発明の効果に加えて、音声の再生出力の対象とするデータが音声波形を表す音声データである場合、音声波形の形状から例えば音節数を判別することにより単語数を検出することができる。

請求項３記載の発明によれば、請求項２の発明の効果に加えて、音声波形の形状としては音声波形の振幅変化を表す包絡線を求め、この包絡線の極大値の数を音節数として検出し、この音節数と言語によって異なる１単語当たりの平均音節数とから、音声の言語を考慮して単語数を検出することができる。

請求項４記載の発明によれば、請求項１の発明の効果に加えて、音声の再生出力の対象とするデータがテキストデータである場合、テキストデータに対する解析によって単語数をカウントし、単語数を検出することができる。

請求項５記載の発明によれば、請求項１の発明の効果に加えて、音声を再生出力する際に周期的（所定時間ごと）に再生対象とするデータから単位時間当たりの単語数を検出し、この単語数をもとに再生倍率を決定して再生速度を調整するため、再生対象とするデータによる音声の発話速度が変化する場合であっても、指定された発話速度で一定に音声が再生出力されるように動的に再生速度の調整をすることができる。

以下、図面を参照して本発明の実施の形態について説明する。
図１は、本実施形態における音声再生装置の構成を示すブロック図である。本実施形態における音声再生装置は、例えば電子辞書装置として構成されるものとする。以下、電子辞書装置を例にして実施の形態について説明する。

電子辞書装置は、例えば辞書データとして、複数の言語について文章（テキスト）データと、このデータに対応する音声の音声ファイルなどを記憶している。また、通信によって外部の装置（例えばパーソナルコンピュータ）から音声ファイルを入力して記憶することができる。音声ファイルは、再生出力することで、リスニングなどの言語学習などに利用することができる。

図１に示すように、本実施形態における電子辞書装置は、制御部１０に、表示部１２、キー入力部１４、音声再生部１６、通信部１８、記憶装置２０、及びＲＡＭ２２が接続されて構成される。

制御部１０は、装置全体の制御を司るもので、プロセッサやプログラムやデータを記憶するメモリ等を含んで構成される。制御部１０は、各種プログラムをプロセッサにより実行することにより各種機能を実現する。本実施形態では、音声再生処理プログラムを実行することにより、音声ファイルをもとに音声を再生出力する際に発話速度を調整する話速調整機能を実現することができる。

表示部１２は、制御部１０の制御のもとで、例えば液晶ディスプレイにおいて各種データを表示する。

キー入力部１４は、制御部１０の制御のもとで、ユーザ操作に応じて各種指示を入力する。キー入力部１４は、例えば複数キー（ボタン）に対する入力操作の他、ポインティングデバイス等の他の入力デバイスに対する操作に応じたユーザからの指示を入力して制御部１０に通知する。複数のキーには、音声再生の実行を指示するための音声キーが含まれている。

音声再生部１６は、制御部１０の制御のもとで音声を出力する。音声再生部１６は、制御部１０からの出力される音声データをＤ／Ａ変換し、音声信号に応じた音声をスピーカから放音させる。

通信部１８は、制御部１０の制御のもとで、パーソナルコンピュータ（ＰＣ）などの外部装置との通信を制御する。通信部１８は、例えばＰＣを通じて音声ファイル等のデータを受信することができる。通信部１８により受信された音声ファイルは、記憶装置２０に記憶されて再生出力の対象とすることができる。

記憶装置２０は、プログラムや各種データを記憶するためのもので、ＲＯＭ、ハードディスク装置、フラッシュメモリ等により構成される。記憶装置２０に記憶されるプログラムとしては、電子辞書装置を動作させるための基本プログラムの他、辞書機能を実現するための辞書プログラム、音声データをもとに音声を再生出力させる音声再生師プログラムなどを含む。記憶装置２０に記憶されるデータには、辞書機能により検索対象となるデータベースが含まれる。データベースは、例えば見出し語と対応付けて、同見出し語に対応する各種のデータ（説明情報など）が記憶されている。データベースには、音声を再生出力するために予め記憶された例文データ２０ａや会話集データ２０ｂを含む（詳細なデータ内容については後述する）。記憶装置２０には、音声データを再生出力する際に、音声の言語に関係なく、ユーザにより指定される発話速度で再生出力するための言語別変換係数データ２０ｄが記憶されている（詳細については後述する）。また、記憶装置２０には、通信部１８を通じて外部の装置（ＰＣ等）から受信したデータ、例えば音声ファイル２０ｃを記憶することもできる。

ＲＡＭ２２は、制御部１０による処理の対象とするデータを記憶するもので、例えば再生出力の対象とする音声ファイル２２ａや、音声ファイル２２ａを再生出力する際の発話速度を示す設定話速データ２２ｂなどが記憶される。設定話速データ２２ｂは、音声を再生出力する場合にユーザにより指定されるもので、単位時間当たりの単語数を基準とした発話速度、例えばＷＰＭ（word per minute）により指定される。

図２は、音声再生装置の記憶装置２０に記憶されるデータの一例を示す図である。図２（ａ）は、例文データ２０ａ、図２（ｂ）は、会話集データ２０ｂ、図２（ｃ）は、音声ファイル２０ｃ、図２（ｄ）は、言語別変換係数データ２０ｄを概念的に示す図である。

図２（ａ）（ｂ）に示す例文データ２０ａと会話集データ２０ｂは、例えば電子辞書データとして予め記憶されている内部データである。内部データは、データ長が制限された比較的短いデータである。

図２（ａ）に示すように、例文データ２０ａは、例文のテキストデータと、このテキストデータの内容を読み上げた音声の音声データ（音声ファイル）とが対応付けられている。例文データ２０ａに含まれる複数の音声ファイルあるいはテキストデータから任意に選択されたデータが再生出力の対象となる。

図２（ｂ）に示すように、会話集データ２０ｂは、会話音声の音声データ（音声ファイル）が含まれている。

また、図２（ｃ）に示す音声ファイル２０ｃは、例えば通信部１８を通じて外部装置（ＰＣ等）から入力された外部データである。外部データは、外部装置において作成されたデータであるので、データ長が不定であり、基本的に電子辞書装置に予め記憶された内部データより長いデータとなる。

図２（ｄ）に示す言語別変換係数データ２０ｄは、複数の言語（例えば、英語、独語、仏語…）のそれぞれに対する、言語によって異なる１単語当たりの平均音節数に相当する変換係数が含まれている。例えば、英語に対する変換係数（平均音節数）は１．２、独語に対する変換係数（平均音節数）は２となっている。各言語に対する変換係数（平均音節数）は、統計的に各言語の文章をもとに求められた既知のデータであり、予め電子辞書装置に記憶されているものとする。

次に、本実施形態における電子辞書装置（音声再生装置）による音声再生処理について、図３に示すフローチャートを参照しながら説明する。

電子辞書装置の記憶装置２０には、予め音声再生の対象となるデータ、例えば例文データ２０ａ、会話集データ２０ｂ、音声ファイル２０ｃなどが記憶されている。これらのデータは、任意に再生出力の対象として選択することができる。

例えば、制御部１０は、キー入力部１４から見出し語が入力されることで、この見出し語に対応するデータを検索して表示部１２において表示させる。この検索されたデータに例文データ２０ａが付加されている場合、制御部１０は、例文データ２０ａのテキストデータをもとに例文（文章）を表示させる。ここで、音声キーの操作により例文の音声再生が指示された場合、制御部１０は、例文データ２０ａの音声ファイルを再生対象として読み出してＲＡＭ２２に記憶させる（ステップＡ１，Ａ２）。以下、ＲＡＭ２２に記憶された音声ファイル２２ａについて再生処理を実行する。

また、会話集データ２０ｂや外部装置から入力した音声ファイル２０ｃについては、例えば一覧メニューを表示させて、このメニュー中から音声の再生対象を任意に選択できるものとする。制御部１０は、記憶装置２０に記憶されたデータをもとに一覧メニューを表示し、キー入力部１４の操作により何れかが選択され、音声キーが操作された場合に、該当する音声ファイルを読み出してＲＡＭ２２に記憶させる（ステップＡ１，Ａ２）。以下、ＲＡＭ２２に記憶された音声ファイル２２ａについて再生処理を実行する。

制御部１０は、音声の再生実行が指示されると（ステップＡ２、Ｙｅｓ）、再生対象として選択されたデータが内部データであるか、あるいは外部データであるかを判別する。

ここで、内部データであると判別される場合（ステップＡ３、Ｙｅｓ）、すなわち例文データ２０ａあるいは会話集データ２０ｂに含まれる音声ファイルを再生対象とする場合、制御部１０は、内部データ用の第１話速計算処理を実行して、再生対象とする音声データについて話速調整をしないで再生出力した場合の発話速度（音声を再生出力する際の単位時間当たりに含まれる単語数）を求める（ステップＡ４）。内部データは、予め記憶装置２０に記憶されたデータであり、データ長が制限された比較的短いデータとなっている。従って、第１話速計算処理では、再生対象とする音声ファイルの音声データ全体を用いて、話速調整をしないで再生出力した場合の発話速度を求める。なお、話速計算処理の詳細については後述する（図４参照）。

第１話速計算処理により話速調整しない状態での音声の発話速度が求められると、制御部１０は、ユーザの指定により設定された再生出力する音声の発話速度を示す設定話速データ２２ｂを読み出す（ステップＡ５）。

なお、設定話速データ２２ｂは、音声再生処理を実行する前に予めユーザからの指定により設定しても良いし、再生対象とする音声データの選択と共にユーザの指定により設定されていても良い。また、話速計算処理を実行した後に（ステップＡ４）、ユーザによって指定させるようにしても良い。

また、ユーザによる発話速度の指定は、予め複数段階の発話速度が設定されている話速指定用のメニューから選択させるようにしても良い。例えば、２５０ＷＰＭ、２００ＷＰＭ、１５０ＷＰＭの３段階の発話速度が設定されたメニューを表示部１２に表示させて、キー入力部１４に対する操作により何れかを選択させる。これにより、ユーザは、再生出力される音声の発話速度を、明示的に具体的な数値によって指定することができる。従って、外国語のリスニングについて学習をする場合などにおいて、学習の目標とする発話速度を明示的に指定して、この発話速度に応じた音声を再生出力させることができる。

次に、制御部１０は、話速調整・音声再生処理を実行する。話速調整・音声再生処理では、第１話速計算処理によって求められた発話速度と、ユーザの指定により設定された設定話速データ２２ｂが示す発話速度をもとに、音声ファイルの音声データを再生出力する際の発話速度に対する再生倍率を決定する。そして、制御部１０は、再生対象とする音声データに応じた音声の元の再生速度を再生倍率に応じて調整した後、この調整後の再生速度に従い音声を再生出力させる。

話速調整・音声再生処理の詳細については後述する（図５参照）。

一方、再生対象として選択されたデータが外部データであると判別された場合（ステップＡ３、Ｎｏ）、すなわち外部の装置から入力された音声ファイル２０ｃを再生対象とする場合、制御部１０は、外部データ用の第２話速計算処理を実行して、再生対象とする音声データについて話速調整をしないで再生出力した場合の発話速度（音声を再生出力する際の単位時間当たりに含まれる単語数）を求める（ステップＡ７）。外部データは、データ長が決められていない、内部データと比較して長いデータとなっている。従って、第２話速計算処理では、再生対象とする音声ファイルの音声データについて、所定時間分のデータを用いて周期的に、話速調整をしないで再生出力した場合の発話速度を求める。なお、所定時間としては、通常の発話速度により発話した場合に複数の単語が含まれる程度の短い時間、例えば２秒とする。なお、話速計算処理の詳細については後述する（図４参照）。

第２話速計算処理により話速調整しない状態での音声の発話速度が求められると、制御部１０は、ユーザの指定により設定された再生出力する音声の発話速度を示す設定話速データ２２ｂを読み出す（ステップＡ８）。なお、設定話速データ２２ｂの設定については前述と同様にして行われるものとして説明を省略する。

次に、制御部１０は、話速調整・音声再生処理を実行する。話速調整・音声再生処理では、第２話速計算処理によって求められた発話速度と、ユーザの指定により設定された設定話速データ２２ｂが示す発話速度をもとに、音声ファイルの音声データを再生出力する際の発話速度に対する再生倍率を決定する。そして、制御部１０は、再生対象とする音声データに応じた音声の元の再生速度を再生倍率に応じて調整した後、この調整後の再生速度に従い音声を再生出力させる。話速調整・音声再生処理の詳細については後述する（図５参照）。

ここで、再生対象とする音声データの全てについて再生出力が終了していなければ、記憶装置２０は、予め設定された所定時間が経過しているかを判別する。ここで、所定時間が経過していなければ（ステップＡ１１、Ｎｏ）、繰り返して話速調整・音声再生処理を実行する（ステップＡ９）。

ここで、所定時間が経過した場合には（ステップＡ１１、Ｙｅｓ）、制御部１０は、第２話速計算処理を実行して、次の所定時間分の音声データを対象として発話速度を求める（ステップＡ７）。以下、同様にして、所定時間毎に周期的に処理を実行する（ステップＡ８〜Ａ１１）。

こうして、所定時間ごとに再生対象とする音声データについて発話速度（再生出力する際の単位時間当たりに含まれる単語数）を求め、この発話速度をもとにして発話速度を調整することで、元の音声データによる音声の発話速度が変化する場合であっても、再生対象とする所定時間分のデータ毎に速度調整を行うことで、一定速度で音声を再生出力することができるようになる。例えば、外部の装置から入力された音声ファイル２０ｃが、比較的発話速度が速いニュースを読み上げるアナウンサーによる音声と、比較的発話速度が遅いインタビューされた一般人による音声が含まれている場合などがある。この場合、アナウンサーと一般人の音声を、ユーザが指定した発話速度で一定に再生出力させることができる。

次に、話速計算処理の詳細について、図４に示すフローチャートを参照しながら説明する。
まず、制御部１０は、再生対象とする音声ファイル（音声データ）を読み込んでＲＡＭ２２に記憶させる。そして、制御部１０は、包絡線処理を実行して、音声データが示す音声波形の振幅変化を表す包絡線を検出する（ステップＢ２）。

図６（ａ）には、音声データのＰＣＭ波形の一例を示している。図６（ａ）に示す音声波形は、例えば内部データであり、「Did you stay up late last night?」の文章を読み上げた音声を示している。

制御部１０は、音声波形の頂点（振幅値）を結んだ線を包絡線として検出する。図６（ｂ）には、音声波形の絶対値から包絡線を検出した例を示している。

次に、制御部１０は、包絡線の極大点の数をカウントする（カウント値Ｃ）（ステップＢ３）。ここで、包絡線の極大点の数は、単語の音節数とみなすことができる。図６（ｃ）には、包絡線から検出される極大点の数を示しており、９つの極大点が検出されている。

次に、制御部１０は、音声データの再生時間を、例えばデータ量と音声データのデータ形式（単位時間当たりのデータ量）、あるいはデータ量とサンプリング周波数をもとにして求める（再生時間Ｐ）（ステップＢ４）。例えば、音声データのデータ量（サイズ）が２８．８ｋビットであり、音声データのデータ形式が１６ｋｂｐｓ（１秒辺りのデータ量が１６ｋビット）であった場合には、音声データの再生時間は、２８．８ｋ／１６ｋ＝１．８秒として求めることができる。

図６（ｃ）に示す例では、速度調整前の音声データを再生出力する場合、１．８秒要することを表している。

次に、制御部１０は、現在の再生対象としている音声データの言語に対応する係数データを、記憶装置２０に記憶された言語別変換係数データ２０ｄから読み出す（平均音節数Ｔ）（ステップＢ５）。図６に示す例では、再生対象とする音声データの言語が英語であるので、言語別変換係数データ２０ｄに設定された英語に対応する変換係数１．３を読み出す。

記憶装置２０に記憶された内部データ（例文データ２０ａ、会話集データ２０ｂ）の場合には、音声ファイルに対して言語を識別することができるデータを付加しておくことで、このデータをもとに音声データの言語について判別することができる。一方、外部データ（音声ファイル２０ｃ）については、ユーザから言語の指定を入力するものとする。例えば、ステップＡ１において、再生対象として外部装置から入力された音声ファイル２０ｃが選択された場合、ユーザに対して言語の指定を要求し、ここで指定された言語を示すデータを記憶しておくものとする。

次に、制御部１０は、極大点についてのカウント値Ｃ、平均音節数Ｔ、再生時間Ｐをもとにして、再生対象とする音声データについての発話速度（話速値Ｗ）、すなわち音声を再生出力する際の単位時間（１分間）当たりに含まれる単語数を求める（ステップＢ６）。ここで、発話速度（話速値Ｗ）＝（Ｃ／Ｔ）×６０／Ｐとして算出する。

図６に示す例では、カウント値Ｃが９、平均音節数Ｔが１．２、再生時間Ｐが１．８であるので、１分当たりの単語数は２３０．７となる。

次に、話速調整・音声再生処理の詳細について、図５に示すフローチャートを参照しながら説明する。
まず、制御部１０は、設定話速データ２２ｂが読み出されると、設定話速値Ｍとして設定し（ステップＣ１，Ｃ２）、設定話速データ２２ｂに応じて発話速度を調整した後の再生時間を示す目標再生時間ＭＳを計算する（ステップＣ３）。ここで、目標再生時間ＭＳ＝Ｐ×Ｗ／Ｍとして算出する。

ここでは、再生時間Ｐが１．８、話速値Ｗが２３０（小数点以下切り捨て）であり、設定話速値Ｍが１５０ＷＰＭとして設定されている場合、目標再生時間ＭＳは２．７６（秒）となる。

従って、再生対象とする音声データを再生出力する際の発話速度に対する再生倍率は約１．５３３（＝２．７６／１．８）と決定する。すなわち、再生時間を５３．３％増加させる必要があることを表している。制御部１０は、ここで決定された再生倍率に従い、再生対象とする音声データが示す音声波形を合成する（ステップＣ４）。図６（ｄ）には、図６（ｃ）に示す音声波形を、設定話速値Ｍ（設定話速データ２２ｂ）に応じて調整した後の再生波形の一例を示している。図６（ｄ）に示すように、音声データ全体の再生出力に要する時間が、１．８秒から２．７６秒に調整されている。

制御部１０は、音声の再生速度が再生倍率に応じて調整された音声データに応じて、音声再生部１６から再生音声を出力させる。ここでは、元の音声データにより再生出力される際の音程を変更しないで、発話速度のみを目標とする発話速度（ここでは１５０ＷＰＭ）に変更して再生出力させる。

このようにして、再生対象とする音声ファイル（音声データ）の元の発話速度に関係なく、音声を再生出力する際の発話速度（設定話速データ２２ｂ）を明示的に単位時間当たりの単語数によって指定することで、この指定に応じた発話速度で音声を再生出力させることができる。従って、ユーザが希望する例えば語学学習に最適な発話速度で音声を再生出力させることができる。

また、外部データ（音声ファイル２０ｃ）を再生出力の対象とする場合には、所定時間（例えば２秒間毎）に再生対象とする音声データについて発話速度を検出し、この発話速度をもとに発話速度の調整を実行している。従って、音声データにより再生される音声の再生速度が途中で速くなったり、あるいは遅くなったりしたとしても、設定話速データ２２ｂに応じて一定速度で再生出力させることができる。

図７には、再生速度が異なる音声を含む音声データについて、音声再生処理によって速度が調整される様子を示している。

図７（ａ）に示すように、音声データには、発話速度が比較的速いアナウンサーによる音声と、発話速度が比較的遅いインタビュー音声とが混在している。また、インタビュー音声については、インタビューに答えている人によって発話速度が異なっている。

本実施形態における音声再生処理では、異なる発話速度の音声が含まれる音声データであっても、全体に渡って一定の速度で音声を再生出力するように発話速度を調整するので、図７（ｂ）に示すように、アナウンサー音声に対しては発話速度を遅くし、インタビュー音声については再生速度を速くすることになる。

また、再生対象とする音声データに発話されていな部分が混在する場合、その部分を除いて音声の再生を実行するようにしても良い。例えば話速計算処理において包絡線を検出する際に、音声波形の振幅が予め設定された基準値以上となっていない場合には音声が無いものと判別し、この部分についてのデータを読み飛ばす。外部データの場合には、所定時間毎に発話速度の検出が実行されるので、無音部分を含む音声データであってもこの無音部分を逐次的に検出し、この部分を除いて継続的に音声を再生出力させることができる。

なお、前述した話速計算処理（図４）では、音声波形の包絡線の極大点の数を音節数とし、言語別変換係数データ２０ｄを用いて単語数を検出しているが、音声データに対応するテキストデータがある場合、このテキストデータをもとに単語数を検出することもできる。例えば、図２（ａ）に示す例文データ２０ａのように、音声ファイルとテキストデータが対応付けられている場合、話速計算処理における処理対象をテキストデータとする。

図８は、テキストデータを対象とする場合の話速計算処理の動作を説明するためのフローチャートである。
まず、制御部１０は、テキストデータに含まれる単語数、例えば英語の場合には、テキストデータ中のスペースコードを単語の区切りとして検出し、これをカウントする（カウント値Ｃ）（ステップＤ１）。なお、スペースコードによって単語を区切ることができない言語については、各種の言語処理の手法を用いて単語を区切ることも可能である。

以下、制御部１０は、図４に示すフローチャートのステップＢ４〜Ｂ６と同様の処理を実行することにより、再生対象とする音声データについての発話速度（話速値Ｗ）、すなわち音声を再生出力する際の単位時間（１分間）当たりに含まれる単語数を求める（ステップＤ２〜Ｄ４）。

図９（ａ）には、音声データのＰＣＭ波形の一例を示している。図９（ａ）に示す例では、音声データに付加されたテキストデータが「Did you stay up late last night?」であり単語数が７、再生時間が１．８秒と算出されたものとする（音声データのデータ形式が１６ｋｂｐｓ、音声データサイズ２８．８ｋビット）。この場合、１分間辺りの単語数は２３３．３と求められる。設定話速値Ｍ（設定話速データ２２ｂ）が１５０ＷＰＭとして設定されている場合、１５０／２３３．３倍に再生波形を伸ばす必要があり、この比を係数として発話速度の調整を行う。すなわち、図９（ｂ）に示すように、音声データの全体の再生時間を２．７６秒で再生することにより、ユーザによって指定された１５０ＷＰＭにより再生出力させることができる。

このようにして、音声データに対応するテキストデータが存在する場合には、このテキストデータを利用して音声データに含まれる単語数を求めることで、調整前の発話速度を正確に計算することができる。従って、ユーザが指定する発話速度となるように正確に調整して、音声データを再生出力することが可能となる。

なお、前述した説明では、本発明による音声再生装置を電子辞書装置として構成した場合を例について説明しているが、音声を再生出力することが可能な他の装置として構成することも可能である。例えば、パーソナルコンピュータ、ＰＤＡ（personal digital assistant）、携帯電話機、補聴器、デジタルオーディオプレーヤ等の装置として構成することが可能である。

また、音声再生装置を実現するコンピュータに実行させることのできる音声再生処理プログラムを、例えば磁気ディスク（フレキシブルディスク、ハードディスク等）、光ディスク（ＣＤ、ＤＶＤ等）、半導体メモリなどの記録媒体に書き込んで、あるいは通信媒体を通じて提供することができる。音声再生処理プログラムによりコンピュータの動作を制御することで、前述した実施形態における機能を実現することができる。

本発明の実施形態における音声再生装置の構成を示すブロック図。音声再生装置の記憶装置２０に記憶されるデータの一例を示す図。本実施形態における電子辞書装置（音声再生装置）による音声再生処理について説明するためのフローチャート。本実施形態における話速計算処理の詳細について説明するためのフローチャート。本実施形態における話速調整・音声再生処理の詳細について説明するためのフローチャート。発話速度の調整を説明するための波形図の一例を示す図。再生速度が異なる音声を含む音声データについて音声再生処理によって速度が調整される様子を示す図。本実施形態におけるテキストデータを対象とする場合の話速計算処理の動作を説明するためのフローチャート。発話速度の調整を説明するための波形図の一例を示す図。

符号の説明

１０…制御部、１２…表示部、１４…キー入力部、１６…音声再生部、１８…通信部、２０…記憶装置、２０ａ…例文データ、２０ｂ…会話集データ、２０ｃ…音声ファイル、２０ｄ…言語別変換係数データ、２２…ＲＡＭ、２２ａ…音声ファイル、２２ｂ…設定話速データ。

Claims

音声を再生出力する音声再生装置において、
音声の再生出力の対象となるデータを記憶する記憶手段と、
前記記憶手段に記憶されたデータに応じた音声を再生出力する際の単位時間当たりに含まれる単語数を検出する単語数検出手段と、
単位時間当たりの単語数を基準とした発話速度の指定に応じて、再生出力する音声の発話速度を設定する発話速度設定手段と、
前記発話速度設定手段によって設定された発話速度と前記単語数検出手段によって検出された単語数をもとに、前記記憶手段に記憶されたデータを再生出力する際の発話速度に対する再生倍率を決定する再生倍率決定手段と、
前記記憶手段に記憶されたデータに応じた音声の再生速度を前記再生倍率に応じて調整して出力する再生出力手段と
を具備したことを特徴とする音声再生装置。
前記記憶手段には音声データが記憶され、
前記単語数検出手段は、前記音声データが示す音声波形の形状をもとに音声中の単語数を検出することを特徴とする請求項１記載の音声再生装置。
前記単語数検出手段は、前記音声波形の振幅変化を表す包絡線の極大値の数と言語別の平均音節数とをもとに、単語数を検出することを特徴とする請求項２記載の音声再生装置。
前記記憶手段にはテキストデータが記憶され、
前記単語数検出手段は、前記テキストデータに含まれる単語数をカウントすることにより単語数を検出することを特徴とする請求項１記載の音声再生装置。
前記再生倍率決定手段は、前記単語数検出手段によって周期的に検出される単語数をもとに前記再生倍率を決定し、
前記再生出力手段は、前記再生倍率決定手段によって周期的に決定される前記再生倍率に応じて音声の再生速度を調整しながら音声を出力することを特徴とする請求項１記載の音声再生装置。
音声を再生出力する音声再生方法であって、
再生出力の対象となるデータに応じた音声を再生出力する際の単位時間当たりに含まれる単語数を検出する単語数検出行程と、
単位時間当たりの単語数を基準とした発話速度の指定に応じて、再生出力する音声の発話速度を設定する発話速度設定行程と、
前記発話速度設定行程によって設定された発話速度と前記単語数検出行程によって検出された単語数をもとに、前記データを再生出力する際の発話速度に対する再生倍率を決定する再生倍率決定行程と、
前記データに応じた音声の再生速度を前記再生倍率に応じて調整して出力する再生出力行程とを有する音声再生方法。
音声を再生出力するコンピュータを、
音声の再生出力の対象となるデータを記憶する記憶手段と、
前記記憶手段に記憶されたデータに応じた音声を再生出力する際の単位時間当たりに含まれる単語数を検出する単語数検出手段と、
単位時間当たりの単語数を基準とした発話速度の指定に応じて、再生出力する音声の発話速度を設定する発話速度設定手段と、
前記発話速度設定手段によって設定された発話速度と前記単語数検出手段によって検出された単語数をもとに、前記記憶手段に記憶されたデータを再生出力する際の発話速度に対する再生倍率を決定する再生倍率決定手段と、
前記記憶手段に記憶されたデータに応じた音声の再生速度を前記再生倍率に応じて調整して出力する再生出力手段として機能させるための音声再生プログラム。