JP2007041302A

JP2007041302A - 音声再生装置および音声再生処理プログラム

Info

Publication number: JP2007041302A
Application number: JP2005225527A
Authority: JP
Inventors: Toshihisa Nakamura; 利久中村
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2005-08-03
Filing date: 2005-08-03
Publication date: 2007-02-15
Anticipated expiration: 2025-08-03
Also published as: JP4622728B2

Abstract

【課題】例えば外国語のリピート学習に際して使用される音声再生装置において、如何なるメディアから取り込んだ如何なる音声データであっても、常に正しい一文区切り位置を検出して再生を停止しまた再開し、容易にリピート練習可能にする。
【解決手段】例えばインターネットＮ上のＷｅｂサイトからユーザ指定に応じてダウンロードされたＭＰ３ファイルをデコードして出力再生する際に、このデコードされた再生音声データ（ＰＣＭ音声データＤ_PCM）を音声認識してテキスト化し、ピリオド「．」などがある一文の区切り位置を検出して再生一時停止させる。そして、この再生一時停止された再生音声の一文に対応してユーザがリピートし発声すると、マイク１８から入力されたユーザ音声データ（Ｕｓ）も音声認識してテキスト化し、ピリオド「．」などが認識された一文の区切り位置を検出して直ちに前記再生音声データの次の一文の再生を再開させる。
【選択図】図１

Description

本発明は、例えば外国語の読みの学習に際して予め用意された外国語テキストの読み上げ音声を再生するための音声再生装置および音声再生処理プログラムに関する。

例えば外国語学習を行う場合に、予め用意された外国語テキストの読み上げ音声をピリオドやカンマなどで区切られる一文ずつ再生し、この一文再生毎に学習者であるユーザが同一文をリピートして発音する練習が行われている。

従来、このような語学学習を行うための音声再生装置としては、予め教材として用意されたカセットテープやＣＤを再生するために通常の音響機器が使用されたり、あるいは当該教材であるカセットテープやＣＤに記録されたテキスト読み上げ音声の一文区切り位置にある特定の信号を検出して再生を一時停止する機能を備えた専用再生機器が使用されたりしている。

前者、通常の音響機器を使用する場合は、ＣＤなどの教材に記録されたテキスト読み上げ音声それ自体の一文区切り位置に学習ユーザがリピート発声するために必要な無音期間が設けられているが、この場合、当該ユーザリピートのための無音期間は予め定まった長さとなるので、ユーザの学習レベルによってはその無音期間が短過ぎたり長過ぎたりしてしまう。

一方後者、専用再生機器を使用する場合、テキスト読み上げ音声の一文区切り位置毎に再生動作が自動停止されるので、ユーザによるリピート発声のための必要時間に制約を受けないが、次の文節の再生再開に際し一時停止を解除させるキー（ボタン）操作を行わなければならない。

そして、前者後者何れの場合でも、このようなリピート練習のための専用の教材が必要になり、例えばラジオやインターネットから語学学習とは関係のない任意の音声データを取り込んでリピート練習することは、ユーザ自身で一時停止と再開操作を繰り返さないと実施することができない。

そこで、音声を再生する際に、その音声信号の無音部分を検出して再生を停止し設定時間の経過後に再生再開することで、テキスト読み上げ音声の区切り位置での再生停止、再開によってリピート練習に利用可能な音声出力装置が考えられている（例えば、特許文献１参照。）。
特開平０６−２７４０９９号公報

このような従来の音声出力装置では、音声信号の無音部分を検出しその部分を該音声の区切り位置として再生停止することができるが、単に音声の無音部分を検出して停止したのでは、対象音声の状況によって一文の区切り位置として相応しくない部分でも停止してしまう場合があり、如何なるメディアから取り込んだ如何なる音声データであっても、ピリオドあるいは句点などといった常に正しい一文区切り位置を検出して停止させることはできない。

本発明は、このような課題に鑑みなされたもので、如何なるメディアから取り込んだ如何なる音声データであっても、常に正しい一文区切り位置を検出して再生を停止しまた再開し、容易にリピート練習することが可能になる音声再生装置および音声再生処理プログラムを提供することを目的とする。

請求項１に記載の音声再生装置は、音声データを記憶する音声データ記憶手段と、この音声データ記憶手段により記憶された音声データを再生する音声再生手段と、指定対象となる音声を認識することにより、その音声に対応する単語及び区切り記号を含む一連の文字列を出力する認識文字列出力手段と、前記音声データ記憶手段により記憶された音声データを、前記音声再生手段により再生する際に、当該再生される音声を認識対象に指定することにより、前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する再生音声認識制御手段と、この再生音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、音声データの再生を一時停止させる再生停止制御手段と、この再生停止制御手段の制御により前記音声データの再生が一時停止された後に、ユーザ音声を入力するユーザ音声入力手段と、このユーザ音声入力手段により入力された音声を認識対象に指定することにより前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する入力音声認識制御手段と、この入力音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、前記音声再生手段により前記音声データ記憶手段により記憶された音声データの再生を再開させる再生再開制御手段とを備えたことを特徴としている。

請求項２に記載の音声再生装置は、複数種類の音声データの中から再生すべき音声データを指定する再生音声指定手段と、この再生音声指定手段により指定された音声データを順次ダウンロードして取得するデータダウンロード手段と、このデータダウンロード手段によりダウンロードされて取得される音声データを再生する音声再生手段と、指定対象となる音声を認識することにより、その音声に対応する単語及び区切り記号を含む一連の文字列を認識して出力する認識文字列出力手段と、前記音声再生手段により順次ダウンロードされて取得された音声データを再生する際に、当該再生される音声を認識対象に指定することにより、前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する再生音声認識制御手段と、この再生音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、音声データの再生を一時停止させる再生停止制御手段と、この再生停止制御手段の制御により前記音声データの再生が一時停止された後に、ユーザ音声を入力するユーザ音声入力手段と、このユーザ音声入力手段により入力された音声を認識対象に指定することにより前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する入力音声認識制御手段と、この入力音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、前記音声再生手段により前記ダウンロードされて取得される音声データの再生を再開させる再生再開制御手段とを備えたことを特徴としている。

請求項３に記載の音声再生装置は、前記請求項１または請求項２に記載の音声再生装置において、さらに、前記音声再生手段により順次ダウンロードされて取得された音声データを再生する際に、前記再生音声認識制御手段の制御により、前記認識文字列出力手段により出力された再生音声に対応する一連の文字列を記憶する再生音声文字列記憶手段と、前記再生停止制御手段の制御により前記音声データの再生が一時停止された後に、前記入力音声認識制御手段の制御により、前記認識文字列出力手段により出力された入力音声に対応する一連の文字列と、前記再生音声文字列記憶手段により記憶された再生音声に対応する一連の文字列とを比較する再生音声文字列／入力音声文字列比較手段と、この再生音声文字列／入力音声文字列比較手段により比較された再生音声の文字列と入力音声の文字列とが不一致である場合には、前記音声再生手段により前記再生停止制御手段の制御によって前記音声データの再生が一時停止されたところまでの当該音声データを繰り返し再生させる繰り返し再生制御手段とを備えたことを特徴としている。

請求項４に記載の音声再生装置は、前記請求項３に記載の音声再生装置において、さらに、再生音声文字列／入力音声文字列比較手段により比較された再生音声の文字列と入力音声の文字列とが不一致である場合には、再生音声と入力音声との不一致を報知する音声不一致報知手段を備えたことを特徴としている。

本発明の請求項１（請求項５）に記載の音声再生装置（音声再生処理プログラム）によれば、音声再生手段によって音声データ記憶手段により記憶された音声データを再生する際には、その再生される音声を認識対象に指定することにより、認識文字列出力手段により、その再生音声に対応する一連の文字列を出力させ、当該出力文字列中に区切り記号が検知された時点で、音声データの再生を一時停止させるように制御する。そして、この再生停止の制御によって前記音声データの再生が一時停止された後に、ユーザ音声入力手段により入力された音声を認識対象に指定することにより、認識文字列出力手段により、その入力音声に対応する一連の文字列を出力させ、当該出力文字列中に区切り記号が検知された時点で、前記音声再生手段によって前記音声データ記憶手段により記憶された音声データの再生を再開させるように制御するので、音声データ記憶手段により記憶された音声データがどのような種類の音声データであっても、正しい一文の区切り位置で再生一時停止させ、ユーザ発声によるリピート練習を行うことができ、しかもこのユーザリピート音声の正しい一文の区切り位置で音声データの再生を再開させることができる。

本発明の請求項２（請求項６）に記載の音声再生装置（音声再生処理プログラム）によれば、音声再生手段により順次ダウンロードされて取得された音声データを再生する際には、その再生音声を認識対象に指定することにより、認識文字列出力手段により、その再生音声に対応する一連の文字列を出力させ、当該出力文字列中に区切り記号が検知された時点で、音声データの再生を一時停止させるように制御する。そして、この再生停止の制御によって前記音声データの再生が一時停止された後に、ユーザ音声入力手段により入力された音声を認識対象に指定することにより、認識文字列出力手段により、その入力音声に対応する一連の文字列を出力させ、当該出力文字列中に区切り記号が検知された時点で、前記音声再生手段により前記ダウンロードされて取得される音声データの再生を再開させるように制御するので、例えばインターネット上のＷｅｂサイトや各種のＣＤ−ＲＯＭから選択的に指定してダウンロードされた音声データがどのような種類・編集の音声データであっても、正しい一文の区切り位置で再生一時停止させ、ユーザ発声によるリピート練習を行うことができ、しかもこのユーザリピート音声の正しい一文の区切り位置でそのダウンロードされた音声データの再生を再開させることができる。

本発明の請求項３（請求項７）に記載の音声再生装置（音声再生処理プログラム）によれば、前記請求項１または請求項２に記載の音声再生装置において、さらに、音声再生手段により順次ダウンロードされて取得された音声データを再生する際には、認識文字列出力手段により出力された再生音声に対応する一連の文字列を記憶し、また再生停止制御手段の制御により音声データの再生が一時停止された後に、認識文字列出力手段により出力された入力音声に対応する一連の文字列と前記音声再生に伴い記憶された再生音声に対応する一連の文字列とを比較する。そして、この再生音声の文字列と入力音声の文字列とが不一致である場合には、前記音声再生手段により前記再生停止制御手段の制御によって前記音声データの再生が一時停止されたところまでの当該音声データを繰り返し再生させるように制御するので、様々なメディア，種類の音声データを手本としたリピート練習を容易に行うことができるばかりでなく、リピートミスがあった場合には繰り返し元の音声データを再生してより効果的なリピート練習を行うことができる。

本発明の請求項４に記載の音声再生装置によれば、前記請求項３に記載の音声再生装置において、さらに、再生音声文字列／入力音声文字列比較手段により比較された再生音声の文字列と入力音声の文字列とが不一致である場合には、再生音声と入力音声との不一致を報知するようにしたので、ユーザによるリピートミスを容易に知ることができ、繰り返し元の音声データを再生することによるリピート練習を円滑に行うことができる。

よって本発明によれば、如何なるメディアから取り込んだ如何なる音声データであっても、常に正しい一文区切り位置を検出して再生を停止しまた再開し、容易にリピート練習することが可能になる音声再生装置および音声再生処理プログラムを提供できる。

以下図面により本発明の実施の形態について説明する。

（第１実施形態）
図１は、本発明の実施形態に係る音声再生装置１０の電子回路の構成を示すブロック図である。

図２は、前記音声再生装置１０の電子回路における主要部の機能を示すブロック図である。

この音声再生装置１０は、以下に説明する音声再生機能を備えたＰＤＡ(personal digital assistant)や携帯電話、電子辞書として構成されるか、音声再生専用の携帯機器として構成される。この音声再生装置１０は、各種の記録媒体に記録されたプログラム、又は、伝送されたプログラムを読み込んで、その読み込んだプログラムによって動作が制御されるコンピュータによって構成され、その電子回路には、ＣＰＵ(central processing unit)１１が備えられる。

ＣＰＵ１１は、ＲＯＭ（フラッシュメモリ）１２内に予め記憶された装置制御プログラム、あるいはメモリカードなどの外部記録媒体１４からカードスロット１５を介して前記ＲＯＭ１２に読み込まれた装置制御プログラム、あるいはＣＤ−ＲＯＭなどの外部記憶媒体１４からユーザＰＣ(Personal Computer)４０および通信部１６を介してＲＯＭ１２に読み込まれた装置制御プログラム、あるいはインターネットＮ上のＷｅｂサーバ（この場合はプログラムサーバ）３０から通信部１６を介して前記ＲＯＭ１２に読み込まれた装置制御プログラム、あるいは同インターネットＮ上のＷｅｂサーバ（プログラムサーバ）３０からユーザＰＣ４０および通信部１６を介して前記ＲＯＭ１２に読み込まれた装置制御プログラムに応じて、ＲＡＭ１３を作業用メモリとし回路各部の動作を制御するもので、前記ＲＯＭ１２に記憶された装置制御プログラムは、キーやタッチパネルからなるキー入力部１７からのユーザ操作に応じた入力信号、あるいは通信部１６を介して接続されるインターネットＮ上の各Ｗｅｂサーバ３０…やユーザＰＣ４０との通信信号に応じて起動される。

前記ＣＰＵ１１には、前記ＲＯＭ１２、ＲＡＭ１３、カードスロット１５、通信部１６、キー入力部１７が接続される他に、マイク１８から入力されるユーザ音声Ｕｓの信号をデジタル音声データに変換して入力するＡ／Ｄ変換部１９、ＲＯＭ１２に予めあるいは外部から取り込まれて記憶された音声圧縮（ＭＰ３）データＭをデコードするためのＭＰ３デコーダ２０が接続され、このＭＰ３デコーダ２０を介してデコードされた再生音声データとしてのＰＣＭ音声データＤ_PCMを記憶するＰＣＭバッファ２１、このＰＣＭバッファ２１に記憶されたＰＣＭ音声データＤ_PCMをアナログ音声信号に変換するＤ／Ａ変換部２２、このＤ／Ａ変換部２２によりＤ／Ａ変換されたアナログ音声信号を再生音声ＳＰとして音声出力するアンプ２３およびスピーカ２４が順次接続される。さらに、ＣＰＵ１１には、ＬＣＤ(Liquid Crystal Display)からなる表示部２５などが接続される。

なお、前記ＭＰ３デコーダ２０を介してデコードされた再生音声データとしてのＰＣＭ音声データＤ_PCMは、前記ＰＣＭバッファ２１に出力される一方でＣＰＵ１１にも出力され、音声認識処理されてテキストデータ化される。また、前記マイク１８からＡ／Ｄ変換部１９を介して入力されたユーザ音声Ｕｓのデジタル音声データも、前記ＣＰＵ１１において音声認識処理されてテキストデータ化される。そして、この音声認識処理では、認識された単語や熟語の文字列に応じてその文節も認識され、例えば英語の音声認識テキストであればカンマ「，」やピリオド「．」、日本語の音声認識テキストであれば句点「。」や読点「、」等の区切り記号もテキスト化処理される。

ＲＡＭ１３には、音声認識テキストメモリ１３ａが用意され、この音声認識テキストメモリ１３ａには、前記ＣＰＵ１１において音声認識処理された再生音声データ（ＰＣＭ音声データＤ_PCM）に対応するテキストデータおよびユーザ音声Ｕｓに対応するテキストデータが記憶される。

そして、前記ＭＰ３デコーダ２０による音声圧縮（ＭＰ３）データＭのデコード処理と、デコードされたＰＣＭ音声データＤ_PCMのＰＣＭバッファ２１による記憶再生処理とは、ＣＰＵ１１での音声認識処理により得られた再生音声データ（ＰＣＭ音声データＤ_PCM）やユーザ音声データ（Ｕｓ）にそれぞれ対応するテキストデータの内容に従ってスタート・ストップ・ポーズ制御（Ｐ１）される。

なお同様に、前記ＭＰ３デコーダ２０による音声圧縮（ＭＰ３）データＭのデコード処理と、デコードされたＰＣＭ音声データＤ_PCMのＰＣＭバッファ２１による記憶再生処理とは、キー入力部１７からのマニュアルでのユーザ操作によってもスタート・ストップ・ポーズ制御（Ｐ２）される。

ＲＯＭ１２には、当該音声再生装置１０の全体の動作を司るシステムプログラムや通信部１６を介してインターネットＮ上の各Ｗｅｂサーバ３０…あるいはユーザＰＣ４０とデータ通信するための通信プログラムが記憶される他に、音声圧縮（ＭＰ３）データＭをデコードしたＰＣＭ音声データＤ_PCMとマイク入力されたユーザ音声データとを、そのそれぞれの音声認識テキスト化データの内容に従って切り替えて再生するための音声再生処理プログラムなどが記憶される。

また、ＲＯＭ１２には、インターネットＮ上のＷｅｂサイト（３０）やユーザＰＣ４０に装着されたＣＤ−ＲＯＭからダウンロードされたり、あるいはメモリカード１４から読み込まれたり、あるいは当該ＲＯＭ１２に予め書き込まれたりしてなる録音音声圧縮（ＭＰ３）データＭが、例えばユーザにとっての聴取用音声データあるいは語学読み上げリピート学習のための手本となる音声データなどとして記憶される。

次に、前記構成の音声再生装置１０による第１実施形態の音声再生機能について説明する。

図３は、前記音声再生装置１０による第１実施形態の音声出力処理を示すフローチャートである。

例えば英語の読み上げリピート学習を行う際に、お手本となる英語の音声情報を選択するために、ＲＯＭ１２に録音音声圧縮（ＭＰ３）データＭとして既に記憶されている複数種類のＭＰ３ファイル、または通信部１６を介して接続されるインターネットＮ上のＷｅｂサーバ３０が提供する複数種類のＭＰ３ファイルの一覧選択画面を表示部２５に表示させた状態で、ユーザ任意のＭＰ３ファイルが指定されると（ステップＳ１）、キー入力部１７において音声再生スタートキーの入力操作がなされたか否か判断される（ステップＳ２）。

そして、キー入力部１７において音声再生スタートキーの入力操作がなされたと判断されると（ステップＳ２（Ｙｅｓ））、前記ステップＳ１においてユーザ操作に応じて選択指定されたＭＰ３ファイル（録音音声圧縮（ＭＰ３）データＭ）が、インターネットＮ上のＷｅｂサーバ３０にて提供されているＭＰ３ファイルであるか、またはＲＯＭ１２に既に記憶されているＭＰ３ファイルであるかが判断される（ステップＳ３）。

ここで、ユーザ操作に応じて選択指定されたＭＰ３ファイルがＲＯＭ１２に既に記憶されているＭＰ３ファイルであると判断された場合には（ステップＳ３（Ｎｏ））、当該指定されたＭＰ３ファイルのＲＯＭ１２からの読み出しが開始される（ステップＳ４ａ）。

一方、ユーザ操作に応じて選択指定されたＭＰ３ファイルがインターネットＮ上のＷｅｂサーバ３０にて提供されているＭＰ３ファイルであると判断された場合には（ステップＳ３（Ｙｅｓ））、当該指定されたＭＰ３ファイルの対応するＷｅｂサーバ３０からのダウンロードによるＲＯＭ１２への読み込みが開始される（ステップＳ４ｂ）。

こうしてユーザ指定のＭＰ３ファイルのＲＯＭ１２からの読み出し、またはＷｅｂサーバ３０からのダウンロードによる読み込みが開始されると、このＭＰ３ファイルのＭＰ３デコーダ２０によるデコード処理、および当該デコードされて生成された再生音声データ（ＰＣＭ音声データＤ_PCM）のＰＣＭバッファ２１への書き込み処理、そして当該ＰＣＭバッファ２１からの再生音声データ（ＰＣＭ音声データＤ_PCM）の出力再生処理が開始される（ステップＳ５）。

すると、前記ユーザ指定のＭＰ３ファイルのデコードによる再生音声データ（ＰＣＭ音声データＤ_PCM）の生成処理とその出力再生処理とが順次実行されながら（ステップＳ６）、当該再生音声データ（ＰＣＭ音声データＤ_PCM）がデータエンド（終了）に到達したか否か判断されると共に（ステップＳ７）、同出力再生される再生音声データ（ＰＣＭ音声データＤ_PCM）が音声認識対象として設定され（ステップＳ８）、ＣＰＵ１１において音声認識テキスト化処理されてＲＡＭ１３内の音声認識テキストメモリ１３ａに書き込まれる（ステップＳ９）。

すると、前記音声認識テキスト化処理されて音声認識テキストメモリ１３ａに書き込まれた再生音声データについて、センテンス（文節）の区切り位置が例えばピリオド「．」や句点「。」を検索することで検出処理され（ステップＳ１０）、当該再生音声データの一文の区切りが検出されたか否か判断される（ステップＳ１１）。

ここで、前記再生音声データの一文の区切り位置が検出されないと判断される状態では（ステップＳ１１（Ｎｏ））、当該再生音声データ（ＰＣＭ音声データＤ_PCM）の生成処理とその出力再生処理、およびその音声認識テキスト化処理、およびその一文区切り位置検出処理が前記同様に継続して実行される（ステップＳ１１→Ｓ６〜Ｓ１０）。

そして、ステップＳ１１において、前記出力再生中の再生音声データについて、その音声認識されたテキストデータに基づき、一文の区切り位置が検出されたと判断されると、当該出力再生中のＭＰ３ファイルのデコードによる再生音声データ（ＰＣＭ音声データＤ_PCM）の生成処理とその出力再生処理とが一時停止され（ステップＳ１２）、音声認識対象がユーザ入力音声（Ｕｓ）の側に切り替え設定される（ステップＳ１３）。

この際、前記ユーザ指定のＭＰ３ファイルの出力再生処理では、その再生音声データを音声認識テキスト化して一文の区切り位置を検出するので、例えばピリオド「．」の有る正しい一文の区切り位置で区切られてその出力再生処理が一時停止される。

ここで、ユーザが前記出力再生された再生音声データの一文についてリピートして発声するのに伴い、マイク１８からＡ／Ｄ変換部１９を介して入力されたユーザ音声データがＣＰＵ１１に取り込まれると（ステップＳ１４）、当該ユーザ音声データは順次音声認識テキスト化処理され、ＲＡＭ１３内の音声認識テキストメモリ１３ａに書き込まれる（ステップＳ１５）。

すると、前記音声認識テキスト化処理されて音声認識テキストメモリ１３ａに書き込まれたユーザ音声データについて、前記指定のＭＰ３ファイル出力再生時と同様に、センテンス（文節）の区切り位置が例えばピリオド「．」や句点「。」を検索することで検出処理され（ステップＳ１６）、当該ユーザ音声データの一文の区切りが検出されたか否か判断される（ステップＳ１７）。

ここで、前記ユーザ音声データの一文の区切り位置が検出されないと判断される状態では（ステップＳ１７（Ｎｏ））、当該ユーザ音声データ（Ｕｓ）の取り込み処理、およびその音声認識テキスト化処理、およびその一文区切り位置検出処理が前記同様に継続して実行される（ステップＳ１７→Ｓ１４〜Ｓ１６）。

そして、ステップＳ１７において、前記ユーザ音声データの音声認識されたテキストデータに基づき、一文の区切り位置が検出されたと判断されると、音声認識対象が前記指定のＭＰ３ファイルの再生音声データ（ＰＣＭ音声データＤ_PCM）の側に切り替え設定され（ステップＳ１８）、再び当該再生音声データ（ＰＣＭ音声データＤ_PCM）の次の一文先頭位置からの生成処理とその出力再生処理、およびその音声認識テキスト化処理、およびその一文区切り位置検出処理が前記同様に再開され実行される（ステップＳ６〜Ｓ１０）。

この際、前記ユーザ音声データを音声認識テキスト化して一文の区切り位置を検出し、直ちに指定のＭＰ３ファイルの再生音声データの生成および出力再生処理を再開させるので、ユーザによるリピート発声の正しい区切り位置を検出して素早く再生音声データの続きの出力再生処理が再開される。

これにより、インターネットＮ上の各種ＷｅｂサイトやＣＤ−ＲＯＭなどの様々なメディアを対象にしてユーザ任意に指定されたＭＰ３ファイルの再生音声データであっても、例えばピリオド「．」や句点「。」の有る正しい一文の区切り位置で区切って再生を一時停止させた後、これをリピートするユーザ発声音声の一文の区切り位置を正しく検出して素早く前記再生音声データの次の一文の再生を再開させることができ、例えば語学の読み上げ学習に際し手本となる音声ファイルを予め編集作成された教材などから入手する必要なく、あらゆるメディアを対象に入手した所望の音声データを手本にして有効且つ効果的に利用することができる。

なお、前記ステップＳ５，Ｓ６におけるユーザ指定のＭＰ３ファイルのデコード処理は、ＭＰ３デコーダ２０を用いて行うのではなく、ＣＰＵ１１において直接デコード処理する構成としてもよい。

図４は、前記音声再生装置１０においてユーザ指定された再生音声データの出力再生状態を示す図であり、同図（Ａ）は再生音声データを単純に連続再生した状態を示す図、同図（Ｂ）は再生音声データを前記音声出力処理に従い再生一時停止・再生再開して再生した状態を示す図である。

すなわち、図４（Ａ）に示すように、ユーザ指定された英語の再生音声データを連続再生した場合には、一文毎の正規の区切り位置であるピリオド「．」の位置に対応する各タイミングｔ１，ｔ３，ｔ４において音声の無音期間が生じているものの、その読み上げ音声の内容的強調点や個人差に応じて一文「This is my girl friend, Lisa.」の途中である「my」と「girl」との間のタイミングｔ２においても音声の無音期間が生じている。このため、従来の音声出力装置のように、音声信号の無音部分を検出して再生を一時停止させたのでは、一文の途中である正しい区切り位置ではないタイミングｔ２においても再生の一時停止がなされてしまい、正しいリピート学習を行うことができない。

これに対し、図４（Ｂ）に示すように、本実施形態の音声再生装置１０における音声出力処理に従い出力再生した場合には、その再生音声データを文字認識テキスト化して例えばピリオド「．」のある正しい一文の区切り位置ｔ１，ｔ３，ｔ４でのみ再生一時停止させ、また再生再開させることができるので、無音部分ではあるが一文の途中である正しい区切り位置ではないタイミングｔ２において再生一時停止とその再開が実施されることはなく、正しく効果的なリピート学習を行うことができる。

したがって、前記構成の音声再生装置１０による第１実施形態の音声再生機能によれば、例えばインターネットＮ上のＷｅｂサイトからユーザ指定に応じてダウンロードされたＭＰ３ファイルをデコードして出力再生する際に、このデコードされた再生音声データ（ＰＣＭ音声データＤ_PCM）を音声認識してテキスト化し、ピリオド「．」などがある一文の区切り位置を検出して再生一時停止させる。そして、この再生一時停止された再生音声の一文に対応してユーザがリピートし発声すると、マイク１８から入力されたユーザ音声データ（Ｕｓ）も音声認識してテキスト化し、ピリオド「．」などが認識された一文の区切り位置を検出して直ちに前記再生音声データの次の一文の再生を再開させるので、ユーザ任意に選択指定した外部からの再生音声データとこれをリピートして発声するユーザ音声データとを正しい一文の区切り位置で区切りながら切り替えて適切にリピート練習することができる。

なお、前記音声再生装置１０による第１実施形態の音声再生機能では、ユーザ任意のＭＰ３ファイルをデコードして出力再生する際に、その再生音声データを音声認識テキスト化して正しい一文の区切り位置を検出し再生一時停止すると共に、ユーザリピートによるユーザ音声データも音声認識テキスト化して正しい一文の区切り位置を検出し、素早く前記再生音声データの続きの再生を再開させるものであるが、次の第２実施形態の音声再生機能にて説明するように、再生音声データの音声認識されたテキストデータをその一文の区切り毎に保存すると共に、これをリピート発声した際のユーザ音声データの音声認識に伴うテキストデータを前記再生音声データの保存されたテキストデータと比較し、その近似度が一定以上ない場合にはユーザによるリピート音声の入力ミスを表示して、繰り返し同じ一文部分の再生音声データの再生を再開する構成としてもよい。

（第２実施形態）
図５は、前記音声再生装置１０による第２実施形態の音声出力処理を示すフローチャートである。

この図５で示す第２実施形態の音声出力処理において、前記図３で示した第１実施形態の音声出力処理と同一の処理ステップについては同一のステップ符号を付してその説明を省略する。

すなわち、この第２実施形態の音声出力処理において、前記第１実施形態の音声出力処理と異なる処理は、まずステップＳ８，Ｓ９において、再生音声データが音声認識処理されてテキスト化されると、当該テキスト化された再生音声データの文字情報がＲＡＭ１３に記憶され保存される（ステップＳ９ａ）。

次に、前記再生音声データの一文の区切り位置が検出されてその再生が一時停止された（ステップＳ１０〜Ｓ１２）後のステップＳ１３〜Ｓ１５において、ユーザのリピート発声に伴い入力されたユーザ音声データが音声認識処理されてテキスト化されると、当該テキスト化されたユーザ音声データの文字情報もＲＡＭ１３に記憶され保存される（ステップＳ１５ａ）。

すると、このステップＳ１５ａにおいて音声認識処理されたユーザ音声データの文字情報が記憶保存される都度、これに対応した前記再生音声データの文字情報がＲＡＭ１３から読み出されて比較され（ステップＳ１５ｂ）、その類似度（％）が一定以上あるか否か判断される（ステップＳ１６ａ）。

ここで、現在リピート発声中である入力されたユーザ音声データの音声認識保存された文字情報と、これに対応する部分の前記再生音声データの音声認識保存された文字情報との比較近似度が、一定％未満で低いと判断された場合には（ステップＳ１６ａ（Ｎｏ））、現在のリピート発声に伴うユーザ音声の入力ミス（リピートミス）であることが表示部２５に表示されてユーザに知らされ（ステップＡ１６ｂ）、前記ユーザ指定されて再生され現在一時停止されているＭＰ３ファイルの出力開始位置が、今回区切り位置検出された一文の先頭の位置、つまり前回の区切り検出位置まで戻される（ステップＳ１６ｃ）。

すると、前記再生音声データ（ＰＣＭ音声データＤ_PCM）の今回の一文先頭位置からの生成処理とその出力再生処理、およびその音声認識テキスト化保存処理、およびその一文区切り位置検出処理が繰り返し再開され実行される（ステップＳ６〜Ｓ１０）。

一方、前記ステップＳ１６ａにおいて、現在リピート発声中である入力されたユーザ音声データの音声認識保存された文字情報と、これに対応する部分の前記再生音声データの音声認識保存された文字情報との比較近似度が、一定％以上であると判断された場合には（ステップＳ１６ａ（Ｙｅｓ））、当該比較判断された再生音声データの文字情報がその一文の最後の文字部分であるか、つまり一文区切り位置までのユーザリピートの発声が終了したか否か判断される（ステップＳ１７ａ）。

ここで、前記比較近似度判断された再生音声データの文字情報がその一文の最後の文字部分まで到達していない、つまり一文区切り位置までのユーザリピートの発声が終了していないと判断される状態では（ステップＳ１７ａ（Ｎｏ））、当該ユーザ音声データ（Ｕｓ）の取り込み処理、およびその音声認識テキスト化保存処理、および対応する再生音声データの文字情報との比較近似度判断処理が前記同様に継続して実行される（ステップＳ１７ａ→Ｓ１４〜Ｓ１６ａ）。

そして、ステップＳ１７ａにおいて、前記比較近似度判断された再生音声データの文字情報がその一文の最後の文字部分まで到達した、つまり一文区切り位置までのユーザリピートの発声が終了したと判断された場合には（ステップＳ１７ａ（Ｙｅｓ））、音声認識対象が前記指定のＭＰ３ファイルの再生音声データ（ＰＣＭ音声データＤ_PCM）の側に切り替え設定され（ステップＳ１８）、再び当該再生音声データ（ＰＣＭ音声データＤ_PCM）の次の一文先頭位置からの生成処理とその出力再生処理、およびその音声認識テキスト化保存処理、およびその一文区切り位置検出処理が前記同様に再開され実行される（ステップＳ６〜Ｓ１０）。

したがって、前記構成の音声再生装置１０による第２実施形態の音声再生機能によれば、再生音声データの音声認識されたテキストデータをその一文の区切り毎に保存すると共に、これをリピート発声した際のユーザ音声データの音声認識に伴うテキストデータを前記再生音声データの保存されたテキストデータと比較し、その近似度が一定以上ない場合にはユーザによるリピート音声の入力ミスを表示して、繰り返し同じ一文部分の再生音声データの再生を再開するようにしたので、前記第１実施形態の音声再生機能と同様に、ユーザ任意に選択指定した外部からの再生音声データとこれをリピートして発声するユーザ音声データとを正しい一文の区切り位置で区切りながら切り替えて適切にリピート練習することができるばかりでなく、さらに、リピートミスをユーザに報知して繰り返しリピート発声させ、より効果的なリピート学習を行うことができる。

なお、前記各実施形態において記載した音声再生装置１０による各処理の手法、すなわち、図３のフローチャートに示す第１実施形態の音声出力処理、図５のフローチャートに示す第２実施形態の音声出力処理等の各手法は、何れもコンピュータに実行させることができるプログラムとして、メモリカード（ＲＯＭカード、ＲＡＭカード等）、磁気ディスク（フロッピディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の外部記憶媒体（１４）に格納して配布することができる。そして、音声再生機能を有する種々のコンピュータ端末は、この外部記憶媒体（１４）に記憶されたプログラムを本体メモリ（１２）に読み込み、この読み込んだプログラムによって動作が制御されることにより、前記各実施形態において説明したリピート練習のために最適な音声再生機能を実現し、前述した手法による同様の処理を実行することができる。

また、前記各手法を実現するためのプログラムのデータは、プログラムコードの形態として通信ネットワーク（インターネット）Ｎ上を伝送させることができ、この通信ネットワーク（インターネット）Ｎに接続されたコンピュータ端末（プログラムサーバ）３０から前記のプログラムデータを取り込み、前述したリピート練習のために最適な音声再生機能を実現することもできる。

なお、本願発明は、前記各実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、前記各実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、各実施形態に示される全構成要件から幾つかの構成要件が削除されたり、幾つかの構成要件が組み合わされても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除されたり組み合わされた構成が発明として抽出され得るものである。

本発明の実施形態に係る音声再生装置１０の電子回路の構成を示すブロック図。前記音声再生装置１０の電子回路における主要部の機能を示すブロック図。前記音声再生装置１０による第１実施形態の音声出力処理を示すフローチャート。前記音声再生装置１０においてユーザ指定された再生音声データの出力再生状態を示す図であり、同図（Ａ）は再生音声データを単純に連続再生した状態を示す図、同図（Ｂ）は再生音声データを前記音声出力処理に従い再生一時停止・再生再開して再生した状態を示す図。前記音声再生装置１０による第２実施形態の音声出力処理を示すフローチャート。

符号の説明

１０ …音声再生装置
１１ …ＣＰＵ
１２ …ＲＯＭ
１３ …ＲＡＭ
１３ａ…音声認識テキストメモリ
１４ …メモリカード（外部記録媒体）
１５ …カードスロット
１６ …通信部
１７ …キー入力部
１８ …マイク
１９ …Ａ／Ｄ変換部
２０ …ＭＰ３デコーダ
２１ …ＰＣＭバッファ
２２ …Ｄ／Ａ変換部
２３ …アンプ
２４ …スピーカ
２５ …表示部
３０ …Ｗｅｂサーバ
４０ …ユーザＰＣ
Ｍ …録音音声圧縮データ（ＭＰ３）
Ｕｓ…ユーザ音声
ＳＰ…再生音声
Ｄ_PCM…再生音声（ＰＣＭ音声）データ
Ｐ１，Ｐ２…スタート・ストップ・ポーズ制御信号

Claims

音声データを記憶する音声データ記憶手段と、
この音声データ記憶手段により記憶された音声データを再生する音声再生手段と、
指定対象となる音声を認識することにより、その音声に対応する単語及び区切り記号を含む一連の文字列を出力する認識文字列出力手段と、
前記音声データ記憶手段により記憶された音声データを、前記音声再生手段により再生する際に、当該再生される音声を認識対象に指定することにより、前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する再生音声認識制御手段と、
この再生音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、音声データの再生を一時停止させる再生停止制御手段と、
この再生停止制御手段の制御により前記音声データの再生が一時停止された後に、ユーザ音声を入力するユーザ音声入力手段と、
このユーザ音声入力手段により入力された音声を認識対象に指定することにより前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する入力音声認識制御手段と、
この入力音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、前記音声再生手段により前記音声データ記憶手段により記憶された音声データの再生を再開させる再生再開制御手段と、
を備えたことを特徴とする音声再生装置。
複数種類の音声データの中から再生すべき音声データを指定する再生音声指定手段と、
この再生音声指定手段により指定された音声データを順次ダウンロードして取得するデータダウンロード手段と、
このデータダウンロード手段によりダウンロードされて取得される音声データを再生する音声再生手段と、
指定対象となる音声を認識することにより、その音声に対応する単語及び区切り記号を含む一連の文字列を認識して出力する認識文字列出力手段と、
前記音声再生手段により順次ダウンロードされて取得された音声データを再生する際に、当該再生される音声を認識対象に指定することにより、前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する再生音声認識制御手段と、
この再生音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、音声データの再生を一時停止させる再生停止制御手段と、
この再生停止制御手段の制御により前記音声データの再生が一時停止された後に、ユーザ音声を入力するユーザ音声入力手段と、
このユーザ音声入力手段により入力された音声を認識対象に指定することにより前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する入力音声認識制御手段と、
この入力音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、前記音声再生手段により前記ダウンロードされて取得される音声データの再生を再開させる再生再開制御手段と、
を備えたことを特徴とする音声再生装置。
さらに、
前記音声再生手段により順次ダウンロードされて取得された音声データを再生する際に、前記再生音声認識制御手段の制御により、前記認識文字列出力手段により出力された再生音声に対応する一連の文字列を記憶する再生音声文字列記憶手段と、
前記再生停止制御手段の制御により前記音声データの再生が一時停止された後に、前記入力音声認識制御手段の制御により、前記認識文字列出力手段により出力された入力音声に対応する一連の文字列と、前記再生音声文字列記憶手段により記憶された再生音声に対応する一連の文字列とを比較する再生音声文字列／入力音声文字列比較手段と、
この再生音声文字列／入力音声文字列比較手段により比較された再生音声の文字列と入力音声の文字列とが不一致である場合には、前記音声再生手段により前記再生停止制御手段の制御によって前記音声データの再生が一時停止されたところまでの当該音声データを繰り返し再生させる繰り返し再生制御手段と、
を備えたことを特徴とする請求項１または請求項２に記載の音声再生装置。
さらに、
再生音声文字列／入力音声文字列比較手段により比較された再生音声の文字列と入力音声の文字列とが不一致である場合には、再生音声と入力音声との不一致を報知する音声不一致報知手段を備えたことを特徴とする請求項３に記載の音声再生装置。
音声再生機器のコンピュータを制御するための音声再生処理プログラムであって、
前記コンピュータを、
音声データをメモリに記憶させる音声データ記憶制御手段、
この音声データ記憶制御手段の制御によりメモリに記憶された音声データを再生させる音声再生制御手段、
指定対象となる音声を認識することにより、その音声に対応する単語及び区切り記号を含む一連の文字列を出力する認識文字列出力手段、
前記音声データ記憶制御手段によりメモリに記憶された音声データを、前記音声再生制御手段により再生させる際に、当該再生される音声を認識対象に指定することにより、前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する再生音声認識制御手段、
この再生音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、音声データの再生を一時停止させる再生停止制御手段、
この再生停止制御手段の制御により前記音声データの再生が一時停止された後に、ユーザ音声を入力するユーザ音声入力手段、
このユーザ音声入力手段により入力された音声を認識対象に指定することにより前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する入力音声認識制御手段、
この入力音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、前記音声再生制御手段の制御により前記音声データ記憶制御手段によりメモリに記憶された音声データの再生を再開させる再生再開制御手段、
として機能させるようにしたコンピュータ読み込み可能な音声再生処理プログラム。
音声再生機器のコンピュータを制御するための音声再生処理プログラムであって、
前記コンピュータを、
ユーザ操作に応じて複数種類の音声データの中から再生すべき音声データを指定する再生音声指定手段、
この再生音声指定手段により指定された音声データを順次ダウンロードして取得するデータダウンロード手段、
このデータダウンロード手段によりダウンロードされて取得される音声データを再生させる音声再生制御手段、
指定対象となる音声を認識することにより、その音声に対応する単語及び区切り記号を含む一連の文字列を認識して出力する認識文字列出力手段、
前記音声再生制御手段の制御により順次ダウンロードされて取得された音声データを再生する際に、当該再生される音声を認識対象に指定することにより、前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する再生音声認識制御手段、
この再生音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、音声データの再生を一時停止させる再生停止制御手段、
この再生停止制御手段の制御により前記音声データの再生が一時停止された後に、ユーザ音声を入力するユーザ音声入力手段、
このユーザ音声入力手段により入力された音声を認識対象に指定することにより前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する入力音声認識制御手段、
この入力音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、前記音声再生制御手段の制御により前記ダウンロードされて取得される音声データの再生を再開させる再生再開制御手段、
として機能させるようにしたコンピュータ読み込み可能な音声再生処理プログラム。
前記コンピュータをさらに、
前記音声再生制御手段の制御により順次ダウンロードされて取得された音声データを再生する際に、前記再生音声認識制御手段の制御により、前記認識文字列出力手段により出力された再生音声に対応する一連の文字列をメモリに記憶させる再生音声文字列記憶制御手段、
前記再生停止制御手段の制御により前記音声データの再生が一時停止された後に、前記入力音声認識制御手段の制御により、前記認識文字列出力手段により出力された入力音声に対応する一連の文字列と、前記再生音声文字列記憶制御手段の制御により記憶された再生音声に対応する一連の文字列とを比較する再生音声文字列／入力音声文字列比較手段、
この再生音声文字列／入力音声文字列比較手段により比較された再生音声の文字列と入力音声の文字列とが不一致である場合には、前記音声再生制御手段の制御により前記音声データの再生が一時停止されたところまでの当該音声データを繰り返し再生させる繰り返し再生制御手段、
として機能させるようにした請求項５または請求項６に記載の音声再生処理プログラム。