JP5092311B2 - 音声評価装置 - Google Patents

音声評価装置 Download PDF

Info

Publication number
JP5092311B2
JP5092311B2 JP2006217300A JP2006217300A JP5092311B2 JP 5092311 B2 JP5092311 B2 JP 5092311B2 JP 2006217300 A JP2006217300 A JP 2006217300A JP 2006217300 A JP2006217300 A JP 2006217300A JP 5092311 B2 JP5092311 B2 JP 5092311B2
Authority
JP
Japan
Prior art keywords
sound
data
voice
musical
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006217300A
Other languages
English (en)
Other versions
JP2008040344A (ja
Inventor
あかね 野口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2006217300A priority Critical patent/JP5092311B2/ja
Publication of JP2008040344A publication Critical patent/JP2008040344A/ja
Application granted granted Critical
Publication of JP5092311B2 publication Critical patent/JP5092311B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声評価装置に関する。
音声評価の分野においては、お手本として準備された音声データとユーザがそのお手本を模して発音した音声データの類似度を比較することによって発音の巧拙を評価する装置が提案されている。例えば、特許文献1に記載された発音採点装置は、まず、お手本として準備しておいた語学教材の音声をスピーカから放音し、その音声を模してユーザが発音した音声をマイクロフォン等を介して収録する。そして、収録した音声を分析して発音の巧拙を評価し、評価結果をディスプレイに表示するようになっている。
特開2000−347560号公報
しかしながら、この種の装置では、車の中や、ほかの事をしながらなどのディスプレイを見ることができない環境下では、結果を把握することができなかった。
本発明は上述した背景の下になされたものであり、ディスプレイのない環境でも、語学採点の結果をユーザが把握しやすい技術を提供することを目的とする。
本発明の好適な態様である音声評価装置は、音声を表す第1の音声データを記憶する第1の音声データ記憶手段と、収音し、収音した音声を表す第2の音声データを出力する収音手段と、前記第1の音声データの特徴と前記収音手段から出力される第2の音声データの特徴とを比較し、該比較結果に基づいて採点を行う採点手段と、前記第1の音声データから、前記音声に含まれる各音素の発音開始タイミングを特定する発音開始タイミング特定手段と、前記発音開始タイミング特定手段により特定された全ての前記発音開始タイミング付近においてエンベロープが大となる楽音データを生成する楽音データ生成手段と、
前記楽音データ生成手段により生成された楽音データの表す音を、放音手段に放音させる放音制御手段と、前記採点手段による採点結果に応じて、前記楽音データ生成手段における楽音データの生成の有無を制御するフィードバック制御手段とを備える。
また、本発明の好適な態様である音声評価装置は、音声を表す第1の音声データを記憶する第1の音声データ記憶手段と、収音し、収音した音声を表す第2の音声データを出力する収音手段と、前記第1の音声データの特徴と前記収音手段から出力される第2の音声データの特徴とを比較し、該比較結果に基づいて採点を行う採点手段と、前記第1の音声データから、該第1の音声データの表す音声のピッチを検出するピッチ検出手段と、前記第1の音声データから、該音声データの表す音声の音量を検出する音量検出手段と、前記ピッチ検出手段により検出されたピッチと前記音量検出手段により検出された音量とに基づいて、前記音声に含まれる音素毎に、該音素の発音開始タイミング及び発音終了タイミングを示す音素データを生成する音素データ生成手段と、前記ピッチ検出手段により検出されたピッチと前記音素データ生成手段により生成された音素データの示す発音開始タイミング及び発音終了タイミングとに基づいて楽音データを生成する楽音データ生成手段と、前記楽音データ生成手段により生成された楽音データの表す音を、放音手段に放音させる放音制御手段と、前記採点手段による採点結果に応じて、前記楽音データ生成手段における楽音データの生成の有無を制御するフィードバック制御手段とを備える。
この態様において、前記放音制御手段は、前記第1の音声データの表す音声と前記楽音データの表す音とを、両者の時間軸が一致するように前記放音手段に放音させてもよい。
また、この態様において、前記第1の音声データの特徴と前記収音手段から出力される第2の音声データの特徴とを比較し、該比較結果に基づいて指摘区間を特定する指摘区間特定手段と、前記楽音データにおいて前記指摘区間特定手段により特定された指摘区間に対応するデータを時間軸方向に伸長又は圧縮するタイムストレッチ手段とを備え、前記放音制御手段は、前記タイムストレッチ手段により伸長又は圧縮された楽音データの表す音を、前記放音手段に放音させてもよい。
また、本発明の好適な態様である音声評価装置は、音声を表す第1の音声データを記憶する第1の音声データ記憶手段と、収音し、収音した音声を表す第2の音声データを出力する収音手段と、前記第1の音声データの特徴と前記収音手段から出力される第2の音声データの特徴とを比較し、該比較結果に基づいて指摘区間を特定する指摘区間特定手段と、前記第1の音声データから、前記音声に含まれる各音素の発音開始タイミングを特定する発音開始タイミング特定手段と、前記発音開始タイミング特定手段により特定された発音開始タイミング付近においてエンベロープが大となる楽音データを生成する楽音データ生成手段と、前記楽音データにおいて前記指摘区間特定手段により特定された指摘区間に対応するデータを時間軸方向に伸長又は圧縮するタイムストレッチ手段と、前記楽音データ生成手段により生成され、前記タイムストレッチ手段により伸張又は圧縮された楽音データの表す音を、放音手段に放音させる放音制御手段とを備える。
また、本発明の好適な態様である音声評価装置は、音声を表す第1の音声データを記憶する第1の音声データ記憶手段と、収音した音声を表す第2の音声データを出力する収音手段と、前記第1の音声データ記憶手段に記憶された前記第1の音声データの特徴と前記収音手段から出力される第2の音声データの特徴とを比較し、該比較結果に基づいて指摘区間を特定する指摘区間特定手段と、前記第1の音声データにおいて、前記第1の音声データのうちの前記指摘区間特定手段により特定された指摘区間の直前及び直後の少なくともいずれか一方に、無音区間を挿入するように、該第1の音声データを加工する音声データ加工手段と、前記音声データ加工手段により加工された第1の音声データの表す音声を、放音手段に放音させる放音制御手段とを備えることを特徴とする。
この態様において、前記音声データ加工手段は、前記第1の音声データのうちの前記指摘区間特定手段により特定された指摘区間に対応する音声データを時間軸方向に伸長又は圧縮してもよい。
また、この態様において、前記音声データ加工手段は、前記第1の音声データのうちの前記指摘区間特定手段により特定された指摘区間に対応する音声データの表す音声のピッチが高くなるように、該第1の音声データを加工してもよい。
本発明によれば、ディスプレイのない環境であっても、語学採点の結果をユーザが把握しやすくすることができる。
以下、図面を参照して、本発明の実施形態について説明する。
<A:構成>
図1は、本実施形態である音声評価装置1のハードウェア構成の一例を示すブロック図である。音声評価装置1は、ポータブルミュージックプレーヤなどの装置であり、語学学習を支援する語学学習支援装置として機能する。図において、制御部11は、CPU(Central Processing Unit)やROM(Read Only Memory)、RAM(Random Access Memory)を備え、ROM又は記憶部12に記憶されているコンピュータプログラムを読み出して実行することにより、音声評価装置1の各部を制御する。記憶部12は、制御部11によって実行されるプログラムやその実行時に使用されるデータを記憶するための記憶手段であり、例えばハードディスク装置である。表示部13は、液晶表示パネルを備え、制御部11による制御のもとに各種の画像を表示する。操作部14は、再生キーや採点キーなどの各種のキーを備え、練習者による操作に応じた操作信号を制御部11に出力する。マイクロフォン15は、音声を収音して収音した音声を表す音声信号(アナログデータ)を出力する収音手段である。音声処理部16は、マイクロフォン15が出力する音声信号(アナログデータ)をデジタルデータに変換して制御部11に出力する。また、スピーカ17に出力する音声をデジタルデータからアナログデータに変換する。スピーカ17は、音声処理部16から出力される音声信号に応じた強度で放音する放音手段である。なお、スピーカ17に代えて、耳に装着可能なイヤホンやヘッドフォンを放音手段として用いることもできる。
記憶部12は、図示のように、お手本音声データ記憶領域12aと練習者音声データ記憶領域12bと楽音波形記憶領域12cとを備えている。お手本音声データ記憶領域12aには、英語発音のお手本として予め収録されたお手本音声信号を表す音声データ(以下、「お手本音声データ」という)が記憶されている。お手本音声データは、WAVE形式やMP3(MPEG1 Audio Layer-3)形式などのデータ形式である。このお手本音声データ記憶領域12aには、複数の例文(例えば、「One centimeter is tem millimeters.」など)について発音されたお手本データが、例文毎に記憶されている。練習者音声データ記憶領域12bには、マイクロフォン15によって収音されて音声処理部16でデジタルデータに変換された音声データ(以下、「練習者音声データ」という)が記憶される。この練習者音声データも、WAVE形式やMP3形式などのデータ形式である。楽音波形記憶領域12cには、例えばギター、ピアノ等の楽器の演奏音に対応する波形のサンプル値からなる波形情報(ウェーブテーブル)が記憶されている。なお、この波形情報は、ギターやピアノの演奏音に対応する波形に限らず、例えばドラムなど、他のどのような楽器の演奏音に対応する波形のサンプル値からなる波形情報であってもよい。また、楽器の演奏音に限らず、単なる電子音に対応する波形のサンプル値からなる波形情報であってもよい。
図2は、音声評価装置1のソフトウェア構成の一例を示すブロック図である。図2に示す分析部111,採点部112,フィードバック内容制御部113,楽音生成部114,音声加工部115,混合部116は、制御部11がROM又は記憶部12に記憶されたコンピュータプログラムを実行することによって実現される。なお、図中の矢印は、データの流れを概略的に示したものである。
図2において、分析部111は、お手本音声データと練習者音声データとから、所定時間長(例えば、「10msec」)のフレーム単位で、ピッチ、パワー、スペクトルを検出する。スペクトルの検出にはFFT(Fast Fourier Transform)が用いられる。本実施形態においては、お手本音声データ(又は練習者音声データ)のピッチ、パワー、スペクトルを、お手本音声データ(又は練習者音声データ)の「特徴」と呼ぶ。
また、分析部111は、お手本音声データと練習者音声データとから検出された両者のスペクトルに基づいて、両者の対応関係を求める。お手本音声と練習者音声とは時間的に前後にずれている可能性がある。このようにお手本音声と練習者音声とが時間的に前後にずれている場合であっても、両者を対応付けられるようにするため、練習者音声データの時間軸を伸縮させる時間正規化(DTW:Dynamic Time Warping)を行い、両者の時間軸を合わせる。このDTWを行うための手法としては、この実施形態ではDP(Dynamic Programming:動的計画法)を用いる。
分析部111は、お手本音声データから検出したお手本音声の特徴を表すデータ(お手本ピッチデータ、お手本スペクトルデータ、お手本パワーデータ)と、練習者音声データから検出した練習者音声の特徴を表すデータ(練習者スペクトルデータ,練習者ピッチデータ,練習者パワーデータ)、および対応付け結果を表す対応データを、採点部112及びフィードバック内容制御部113に出力する。
採点部112は、お手本音声データの特徴と練習者音声データの特徴とを比較し、その比較結果に基づいて採点を行う。この採点は、例えば、ピッチ、パワー、スペクトルのそれぞれの特徴について比較を行い、それぞれの特徴毎に採点を行ってもよく、また、単位区間毎(小節毎、フレーズ毎)に特徴を比較し、単位区間毎に採点を行ってもよい。
また、採点部112は、比較結果に基づいて、練習者が練習すべき区間を示す指摘区間特定する。指摘区間の特定方法としては、例えば、採点部112は、お手本音声データの特徴と練習者音声データの特徴とを、単位区間毎(例えば、小節毎、フレーズ毎)に比較し、その隔たりが予め定められた閾値以上である区間を指摘区間として特定する。具体的には、例えば、採点部112は、お手本音声データのピッチと練習者音声データのピッチとの差が閾値以上である区間を指摘区間として特定する。採点部112は、採点結果と指摘区間とを示す採点結果データを、フィードバック内容制御部113に出力する。
フィードバック内容制御部113は、採点部112で生成された採点結果を用いて、どのようなフィードバックを行うかの内容を決定し、決定した内容を示すフィードバックデータを楽音生成部114及び音声加工部115の少なくともいずれか一方に出力する。音声評価装置1が行うフィードバック処理は、「ピッチフィードバック処理」、「リズムフィードバック処理」、「加工音声フィードバック処理」の3種類に大別される。「ピッチフィードバック処理」は、お手本音声のピッチを練習者にフィードバックする処理である。「リズムフィードバック処理」は、お手本音声のリズムを練習者にフィードバックする処理である。「加工音声フィードバック処理」は、練習者が間違った箇所が練習者に分かり易いようにお手本音声を加工してユーザにフィードバックする処理である。
フィードバック内容制御部113は、採点部112で生成された採点結果を用いて、どのフィードバックを行うかを決定する。具体的には、例えば、ピッチの採点結果が悪いと判断した場合には、フィードバック内容制御部113は、ピッチフィードバック処理を行うことを決定し、一方、リズムの採点結果が悪いと判断した場合には、フィードバック内容制御部113は、リズムフィードバック処理を行うと決定する。また、区間毎(小節毎、フレーズ毎)の採点結果を参照し、採点結果が悪い区間について、加工音声フィードパック処理を行うと決定してもよい。要するに、採点部112で生成された採点結果を用いて、どのフィードバック処理を行うかを決定すればよい。フィードバック内容制御部113がどのフィードバック処理を行うかを決定する方法は様々であり、その決定方法は設計等に応じて変更可能である。
フィードバック内容制御部113は、「ピッチフィードバック処理」又は「リズムフィードバック処理」を行うと決定した場合には、フィードバックデータを楽音生成部114に出力し、一方、「加工音声フィードバック処理」を行うと決定した場合には、フィードバックデータを音声加工部115に出力する。
楽音生成部114は、フィードバック内容制御部113に指定された内容で、音声の分析結果を用いて、ピッチ・リズムなどの問題箇所とその内容をユーザに知らせるための楽音を生成し、生成した楽音データを混合部116に出力する。フィードバック内容制御部113から出力されたフィードバックデータが、「ピッチフィードバック処理」を示すデータである場合には、楽音生成部114は、分析部111によって検出されたピッチとパワーとに基づいて、お手本音声に含まれる音素毎に、該音素の発音開始タイミング、発音終了タイミング、及びピッチベンド情報を含むMIDI(Musical Instruments Digital Interface)データ(音素データ)を生成する。次いで、楽音生成部114は、生成したMIDIデータに含まれる発音開始タイミング、発音終了タイミング及びピッチベンド情報に基づいて楽音データを生成する。楽音データの生成は、楽音波形記憶領域12cに記憶された楽音波形を用いて行われる。この処理によって、お手本音声を模したギターの演奏音やピアノの演奏音など、お手本音声を模した楽音を表す楽音データが生成される。
一方、フィードバック内容制御部113から供給されるフィードバックデータが「リズムフィードバック処理」を示すデータである場合には、楽音生成部114は、お手本音声データから、お手本音声データの表す音声に含まれる各音素の発音開始タイミングを特定する。発音開始タイミングは、お手本音声に400Hz〜4kHzのバンドパスフィルタをかけて、閾値を超えた箇所の先頭を発音開始タイミングとして検出してもよく、また、発音開始時のスペクトルを予め検出しておき、お手本音声に対してスペクトル分析を行って該当するバンドのデータのみを加算することによって発音開始タイミングを検出してもよい。発音タイミングを検出すると、楽音生成部114は、楽音波形記憶部12cに記憶された楽音波形を用いて、特定した発音開始タイミング付近においてエンベロープが大となる楽音データを生成する。
図3は、生成される楽音データの内容の一例を説明するための図である。図3(a)は、お手本音声の音素毎のピッチと発音タイミングとを示す図である。図において、時刻t1,t2,t3,t4,t5,t6は、お手本音声に含まれる音素の発音開始タイミングを示している。同図(b),(c)は、生成される楽音データの内容の一例を示す図である。楽音生成部114は、同図(b)や(c)に示すような、発音開始タイミングt1,t2,t3,t4,t5,t6付近においてエンベロープが大となる楽音データを生成する。
音声加工部115は、フィードバック内容制御部113に指定された内容で、音声の分析結果と元の音声を用いて、問題箇所とその内容をユーザに知らせるための加工音声を生成する。この実施形態においては、音声加工部115は、お手本音声データにおいて、採点部112により特定された指摘区間に対応するお手本音声データを、予め定められた比率(120%、など)で時間軸方向に伸長する。また、音声加工部115は、採点部112により特定された指摘区間に対応するお手本音声の音量が大きくなるように、指摘区間に対応するお手本音声データのパワーを変更する。更に、音声加工部115は、採点部112により特定された指摘区間の直前と直後に無音区間を挿入する。
例えば、「One centimeter is ten millimeters.」という一文を練習した場合であって、「centimeter」に対応する区間が指摘区間であると採点部112によって特定された場合には、音声加工部115は、「centimeter」に対応する音声データを、時間軸方向に伸長するとともに音量が大きくなるようにパワーを変更する。時間軸方向に伸長されることによって、指摘区間の音声は間のびした音声となるから、練習者は、放音される音声を聞き分けることによって指摘区間を認識することができる。また、音声加工部115は、「centimeter」に対応する区間の直前と直後に無音区間を挿入する。
音声加工部115は、加工した音声データを、混合部116に出力する。
混合部116は、楽音生成部114から出力される楽音データと音声加工部115から出力される音声データとを混合してフィードバック用音声データを生成し、音声処理部16に出力する。
このとき、決定されたフィードバック処理が「加工音声フィードバック処理」である場合には、楽音生成部114は楽音生成処理を行わず、楽音データは出力されないから、この場合は、混合部116は、混合処理を行わず、音声加工部115から出力されたお手本音声データを、音声処理部16に出力する。
<B:実施形態の動作>
次に、この実施形態の動作を説明する。まず、練習者は、音声評価装置1の操作部14を操作して、お手本音声を再生する旨を指示する。操作部14は、操作された内容に応じた操作信号を制御部11に出力する。
図4は、音声評価装置1の制御部11が行う処理の流れを示すフローチャートである。制御部11は、操作部14から出力される操作信号に応じて、お手本音声を再生する(ステップS1)。すなわち、制御部11は、お手本音声データをお手本音声データ記憶領域12aから読み出して音声処理部16に供給する。音声処理部16は、お手本音声データをD/A変換し、アナログ信号をスピーカ17に供給する。スピーカ17は、供給される音声信号(アナログ信号)に応じて放音する。
練習者は、スピーカ17から放音されるお手本音声を参考にして、発音を行う。このとき、練習者の音声はマイクロフォン15によって収音されて音声信号に変換され、音声処理部16へと出力される。音声処理部16によってA/D変換された練習者音声データは、録音開始からの経過時間を表す情報と共に、練習者音声データ記憶領域12bに時系列に記憶(録音)されていく(ステップS2)。
練習者は、発音を終えると、操作部14の採点キーを押下する。操作部14は、操作された内容に応じた操作信号を制御部11に出力し、制御部11は、操作部14から出力される操作信号に応じて採点処理を行う。まず、制御部11は、上述した分析部111の処理を行う。すなわち、制御部11は、お手本音声データ記憶領域12aに記憶されたお手本音声データから特徴(ピッチ、スペクトル、パワー)を検出するとともに、練習者音声データ記憶領域12bに記憶された練習者音声データからも同様に特徴(ピッチ、スペクトル、パワー)を検出する(ステップS3)。次いで、制御部11は、上述した採点部112の処理を行う。すなわち、お手本音声データの特徴と練習者音声データの特徴とを比較し、該比較結果に基づいて採点を行うと共に、指摘区間を特定する(ステップS4)。
次いで、制御部11は、上述したフィードバック内容制御部113の処理を行う。すなわち、制御部11は、採点結果に基づいて、どのようなフィードバックを行うかの内容を決定する(ステップS5)。
次いで、制御部11は、採点結果に従って、上述した楽音生成部114及び音声加工部115の少なくともいずれか一方の処理を行って、お手本音声から別の音声を生成又は加工する(ステップS6)。
次いで、制御部11は、上述した混合部116の処理、すなわち、楽音データと加工された音声データとの混合処理を行い、楽音データと加工された音声データとを混合して、音声処理部16に供給し、音声処理部16は制御部11から供給されたデータをD/A変換し、スピーカ17に供給する。スピーカ17は、供給された音声信号に応じて、楽音と加工されたお手本音声とを、両者の時間軸が一致するように放音する(ステップS7)。
具体的には、「ピッチフィードバック処理」が行われた場合には、スピーカ17からはお手本音声を模した楽音(ギターの演奏音など)とお手本音声とが放音される。お手本音声は言葉として意味を成すものであるから、お手本音声を聴いたとしても、言葉の意味内容に気をとられてイントネーションを認識し難い場合がある。これに対し本実施形態においては、お手本音声を模した楽器音が放音されるから、練習者は、お手本音声のイントネーション(ピッチの変化)をより認識し易くなる。
また、「リズムフィードバック処理」が行われた場合には、スピーカ17からは、お手本音声に含まれる各音素の発音開始タイミング付近においてエンベロープが大となる楽音(ドラムの演奏音など)が放音される。これにより、お手本音声の各音素の発音開始タイミングを強調して練習者に聴かせることができ、練習者は、お手本音声のリズムをより認識し易くなる。
また、「加工音声フィードバック処理」が行われた場合には、スピーカ17からは、指摘区間を時間軸方向に伸長されるとともに指摘区間の前後に無音区間が挿入された音声が放音される。例えば、「One centimeter is ten millimeters.」という例文であって「centimeter」に対応する区間が指摘区間である場合には、「One」の音声が放音された後、一旦ポーズ(無音区間)が入り、ポーズの後に、「One」よりも大きい音量でかつ間延びした音声で「centimeter」の音声が放音され、その後一旦ポーズ(無音区間)が入った後に、「is ten millimeters.」の音声が放音される。これにより、指摘区間に対応する「centimeter」の音声を強調して練習者に聴かせることができ、練習者は、放音される音声を聴くことで指摘区間を把握することが容易となる。
このように、この実施形態においては、採点結果に応じて、加工されたお手本音声が放音されるから、練習者は、採点結果が表示されなくても、語学採点の結果を把握することができる。
また、この実施形態においては、お手本音声の抑揚・リズムなどが強調されてフィードバックされるから、練習者は、お手本音声の抑揚やリズムをより認識しやすくなる。
<C:変形例>
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
(1)上述した実施形態においては、制御部11は、どのようなフィードバックを行うかの内容を、採点された採点結果を用いて決定した。どのようなフィードバックを行うかの決定方法は、これに限らず、例えば常にお手本音声を加工してフィードバックを行う、といったように、予め定められたフィードバック方法でフィードバック処理を行ってもよい。また、音声評価装置1の使用者が、操作部14を操作することによってフィードバックの内容を指定する設定情報を入力し(図2に鎖線で図示)、制御部11が入力された設定情報に基づいてどのようなフィードバックを行うかを決定してもよい。
(2)上述した実施形態においては、音声加工部115は、指摘区間に対応するお手本音声データを時間軸方向に伸長するとともに、音量を大きくし、更に、指摘区間の直前と直後に無音区間を挿入した。音声加工部115は、これら全ての加工処理を行う必要はなく、例えば指摘区間に対応するお手本音声データを時間軸方向に伸長する処理のみを行ってもよく、また、指摘区間の直前と直後に無音区間を挿入する処理のみを行ってもよい。
また、加工処理は、上述したものに限らず、例えば、指摘区間に対応するお手本音声データを時間軸方向に圧縮(80%に圧縮、など)する処理でもよい。圧縮する場合には、指摘区間の音声は他の区間の音声と比較して早口になるから、この場合も、練習者は、放音される音声を聴くことで指摘区間を認識することができる。また、採点部112により特定された指摘区間に対応するお手本音声データの表す音声のピッチが高くなるように、お手本音声データを加工してもよい。また、音声データのうちの特定された指摘区間の直前及び直後の少なくともいずれか一方に、無音区間を挿入することによってお手本音声データを加工してもよい。
要するに、制御部11が、特定された指摘区間に対応するお手本音声データの表す音声の放音の態様と該指摘区間以外の区間に対応する音声データの表す音声の放音の態様とが異なるように、お手本音声データを加工すればよい。
(3)上述した実施形態においては、「ピッチフィードバック処理」又は「リズムフィードバック処理」が選択された場合には、混合部116は、楽音生成部114から出力される楽音データと、音声加工部115から出力されるお手本音声データとを混合して音声処理部16に出力した。楽音データとお手本音声データとは必ずしも混合する必要はなく、楽音生成部114から出力された楽音データのみを音声処理部16に出力してもよい。この場合は、楽音生成部114で生成された楽音データの表す楽音のみがスピーカ17から放音される。この場合も、練習者は、スピーカ17から放音される楽音を聴くことで、音声のリズムやピッチを把握しやすい。
また、「ピッチフィードバック処理」又は「リズムフィードバック処理」において、制御部11が、お手本音声データと練習者音声データとを比較し、該比較結果に基づいて指摘区間を特定し、特定した指摘区間に対応する楽音データを、時間軸方向に伸長または圧縮してもよい。指摘区間の特定は、上述した実施形態の「加工音声フィードバック処理」において説明した特定方法と同様の方法で行えばよい。この場合は、「加工音声フィードバック処理」と同様に、指摘区間に対応する楽音が強調されて放音されるから、練習者は、ディスプレイ(表示装置)が無くても、放音される楽音を聴くことで、指摘区間を把握することができる。
なお、指摘区間に対する加工処理は、時間軸方向の伸長(又は圧縮)処理に限らず、例えば指摘区間の音量を大きくするなどの処理であってもよく、要するに、指摘区間に対応する楽音データの表す楽音の放音の態様と該指摘区間以外の区間に対応する楽音データの表す楽音の放音の態様とが異なるように、楽音データを加工すればよい。
(4)上述した実施形態においては、ポータブルミュージックプレーヤである音声評価装置について説明したが、音声評価装置はこれらに限らず、携帯電話端末や、ポータブルゲーム機器、パーソナルコンピュータなどの装置であってもよい。また、液晶ディスプレイなどの表示装置を備える装置の場合には、表示装置に採点結果を表示するとともに、音声フィードバックも行って、効果を増加してもよい。
(5)上述した実施形態においては、音声評価装置を語学学習のために用いた形態について説明した。本発明を用いる形態はこれに限らず、例えば、歌唱練習のために用いてもよい。この場合は、お手本となる歌唱者の歌唱音声を表す音声データをお手本音声データとしてお手本音声データ記憶領域12aに記憶し、練習者の歌唱音声を収音して採点する。
また、楽器の演奏練習のために用いてもよい。この場合は、お手本音声データとして模範となる演奏者の演奏音を表す音声データをお手本音声データとしてお手本音声データ記憶領域に記憶し、練習者の演奏音を収音して採点する。
(6)上述した実施形態においては、楽音データ全体とお手本音声データ全体とを混合した。これに代えて、楽音データとお手本音声データとの一部分を部分的に混合してもよい。例えば、楽音データとお手本音声データの指摘区間に対応するデータを混合して放音してもよい。
また、上述した実施形態においては、練習者が操作部14の採点キーを押下すると、制御部11が採点処理を行ってフィードバック処理を行うようにした。採点処理及びフィードバック処理を行うトリガは採点キーの押下に限らず、練習者の音声を収音し終えてから所定時間経過後(例えば、3秒後)に、採点処理及びフィードバック処理を行って、フィードバック音声を放音してもよい。
(7)上述した実施形態では、音声評価装置1が、同実施形態に係る機能の全てを実現するようになっていた。これに対し、通信ネットワークで接続された2以上の装置が上記機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態の音声評価装置1を実現してもよい。例えば、マイクロフォンやスピーカを備える携帯電話端末と、加工機能を備える専用のコンピュータ装置とが通信ネットワークで接続されたシステムとして構成されていてもよい。
(8)上述した実施形態における音声評価装置1の制御部11によって実行されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、RAM、ROMなどの記録媒体に記録した状態で提供し得る。また、インターネットのようなネットワーク経由で音声評価装置1にダウンロードさせることも可能である。
音声評価装置1のハードウェア構成の一例を示すブロック図である。 音声評価装置1のソフトウェア構成を示すブロック図である。 楽音データの内容の一例を示す図である。 制御部11が行う処理の流れを示すフローチャートである。
符号の説明
1…音声評価装置、11…制御部、12…記憶部、13…表示部、14…操作部、15…マイクロフォン、16…音声処理部、17…スピーカ、111…分析部、112…採点部、113…フィードバック内容制御部、114…楽音生成部、115…音声加工部、116…混合部。

Claims (8)

  1. 音声を表す第1の音声データを記憶する第1の音声データ記憶手段と、
    収音し、収音した音声を表す第2の音声データを出力する収音手段と、
    前記第1の音声データの特徴と前記収音手段から出力される第2の音声データの特徴とを比較し、該比較結果に基づいて採点を行う採点手段と、
    前記第1の音声データから、前記音声に含まれる各音素の発音開始タイミングを特定する発音開始タイミング特定手段と、
    前記発音開始タイミング特定手段により特定された全ての前記発音開始タイミング付近においてエンベロープが大となる楽音データを生成する楽音データ生成手段と、
    前記楽音データ生成手段により生成された楽音データの表す音を、放音手段に放音させる放音制御手段と
    前記採点手段による採点結果に応じて、前記楽音データ生成手段における楽音データの生成の有無を制御するフィードバック制御手段と
    を備えることを特徴とする音声評価装置。
  2. 音声を表す第1の音声データを記憶する第1の音声データ記憶手段と、
    収音し、収音した音声を表す第2の音声データを出力する収音手段と、
    前記第1の音声データの特徴と前記収音手段から出力される第2の音声データの特徴とを比較し、該比較結果に基づいて採点を行う採点手段と、
    前記第1の音声データから、該第1の音声データの表す音声のピッチを検出するピッチ検出手段と、
    前記第1の音声データから、該音声データの表す音声の音量を検出する音量検出手段と、
    前記ピッチ検出手段により検出されたピッチと前記音量検出手段により検出された音量とに基づいて、前記音声に含まれる音素毎に、該音素の発音開始タイミング及び発音終了タイミングを示す音素データを生成する音素データ生成手段と、
    前記ピッチ検出手段により検出されたピッチと前記音素データ生成手段により生成された音素データの示す発音開始タイミング及び発音終了タイミングとに基づいて楽音データを生成する楽音データ生成手段と、
    前記楽音データ生成手段により生成された楽音データの表す音を、放音手段に放音させる放音制御手段と
    前記採点手段による採点結果に応じて、前記楽音データ生成手段における楽音データの生成の有無を制御するフィードバック制御手段と
    を備えることを特徴とする音声評価装置。
  3. 前記放音制御手段は、前記第1の音声データの表す音声と前記楽音データの表す音とを、両者の時間軸が一致するように前記放音手段に放音させる
    ことを特徴とする請求項1又は2に記載の音声評価装置。
  4. 記第1の音声データの特徴と前記収音手段から出力される第2の音声データの特徴とを比較し、該比較結果に基づいて指摘区間を特定する指摘区間特定手段と、
    前記楽音データにおいて前記指摘区間特定手段により特定された指摘区間に対応するデータを時間軸方向に伸長又は圧縮するタイムストレッチ手段と
    を備え、
    前記放音制御手段は、前記タイムストレッチ手段により伸長又は圧縮された楽音データの表す音を、前記放音手段に放音させる
    ことを特徴とする請求項1又は2に記載の音声評価装置。
  5. 音声を表す第1の音声データを記憶する第1の音声データ記憶手段と、
    収音し、収音した音声を表す第2の音声データを出力する収音手段と、
    前記第1の音声データの特徴と前記収音手段から出力される第2の音声データの特徴とを比較し、該比較結果に基づいて指摘区間を特定する指摘区間特定手段と、
    前記第1の音声データから、前記音声に含まれる各音素の発音開始タイミングを特定する発音開始タイミング特定手段と、
    前記発音開始タイミング特定手段により特定された発音開始タイミング付近においてエンベロープが大となる楽音データを生成する楽音データ生成手段と、
    前記楽音データにおいて前記指摘区間特定手段により特定された指摘区間に対応するデータを時間軸方向に伸長又は圧縮するタイムストレッチ手段と、
    前記楽音データ生成手段により生成され、前記タイムストレッチ手段により伸張又は圧縮された楽音データの表す音を、放音手段に放音させる放音制御手段と
    を備えることを特徴とする音声評価装置。
  6. 音声を表す第1の音声データを記憶する第1の音声データ記憶手段と、
    収音した音声を表す第2の音声データを出力する収音手段と、
    前記第1の音声データ記憶手段に記憶された前記第1の音声データの特徴と前記収音手段から出力される第2の音声データの特徴とを比較し、該比較結果に基づいて指摘区間を特定する指摘区間特定手段と、
    前記第1の音声データにおいて、前記第1の音声データのうちの前記指摘区間特定手段により特定された指摘区間の直前及び直後の少なくともいずれか一方に、無音区間を挿入するように、該第1の音声データを加工する音声データ加工手段と、
    前記音声データ加工手段により加工された第1の音声データの表す音声を、放音手段に放音させる放音制御手段と
    を備えることを特徴とする音声評価装置。
  7. 前記音声データ加工手段は、前記第1の音声データのうちの前記指摘区間特定手段により特定された指摘区間に対応する音声データを時間軸方向に伸長又は圧縮する
    ことを特徴とする請求項6に記載の音声評価装置。
  8. 前記音声データ加工手段は、前記第1の音声データのうちの前記指摘区間特定手段により特定された指摘区間に対応する音声データの表す音声のピッチが高くなるように、該第1の音声データを加工する
    ことを特徴とする請求項6又は7に記載の音声評価装置。
JP2006217300A 2006-08-09 2006-08-09 音声評価装置 Expired - Fee Related JP5092311B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006217300A JP5092311B2 (ja) 2006-08-09 2006-08-09 音声評価装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006217300A JP5092311B2 (ja) 2006-08-09 2006-08-09 音声評価装置

Publications (2)

Publication Number Publication Date
JP2008040344A JP2008040344A (ja) 2008-02-21
JP5092311B2 true JP5092311B2 (ja) 2012-12-05

Family

ID=39175385

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006217300A Expired - Fee Related JP5092311B2 (ja) 2006-08-09 2006-08-09 音声評価装置

Country Status (1)

Country Link
JP (1) JP5092311B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5340797B2 (ja) * 2009-05-01 2013-11-13 任天堂株式会社 学習支援プログラムおよび学習支援装置
CN114515138A (zh) * 2022-01-06 2022-05-20 福州市星康朗语教育科技有限公司 一种语言障碍评估与矫正系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2725559B2 (ja) * 1993-07-24 1998-03-11 ヤマハ株式会社 アタック効果装置
JPH0822238A (ja) * 1994-07-08 1996-01-23 Mitsubishi Jimu Kikai Hanbai Kk 英語の4拍子性を活用した語学訓練システム
JPH10116020A (ja) * 1996-10-14 1998-05-06 Kenzo Nakada 外国語音声学習方法及びこの方法に用いられる外国語音声学習教材
JPH11143346A (ja) * 1997-11-05 1999-05-28 Seiko Epson Corp 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体
JP2001042758A (ja) * 1999-08-04 2001-02-16 Kenzo Nakada 外国語音声学習方法及びこの方法に用いられる外国語音声学習教材
JP2006139162A (ja) * 2004-11-15 2006-06-01 Yamaha Corp 語学学習装置

Also Published As

Publication number Publication date
JP2008040344A (ja) 2008-02-21

Similar Documents

Publication Publication Date Title
KR100949872B1 (ko) 악곡 연습 지원 장치, 악곡 연습 지원 장치의 제어 방법, 악곡 연습 지원 장치를 제어하는 제어 방법을 컴퓨터로 실행시키는 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체
JP2008026622A (ja) 評価装置
JP2007256617A (ja) 楽曲練習装置および楽曲練習システム
WO2007058263A1 (ja) 語学学習装置、語学学習支援方法、プログラム及び記録媒体
JP2008139426A (ja) 評価用データのデータ構造、カラオケ装置及び記録媒体
JP2007232750A (ja) カラオケ装置、制御方法およびプログラム
JP2007310204A (ja) 楽曲練習支援装置、制御方法及びプログラム
JP7355165B2 (ja) 楽曲再生システム、楽曲再生システムの制御方法およびプログラム
JP5598516B2 (ja) カラオケ用音声合成システム,及びパラメータ抽出装置
JP2007233077A (ja) 評価装置、制御方法及びプログラム
JP2007322934A (ja) 歌唱練習装置、カラオケ装置及びプログラム
JP5092311B2 (ja) 音声評価装置
JP5346114B1 (ja) 音楽表現力の教育装置及び方法並びに音楽演奏評価装置
JP3588596B2 (ja) 歌唱特訓機能付きカラオケ装置
JP2009169103A (ja) 練習支援装置
JP2006251697A (ja) カラオケ装置
JP4171680B2 (ja) 音楽再生装置の情報設定装置、情報設定方法、及び情報設定プログラム
JP4862413B2 (ja) カラオケ装置
JP2008040260A (ja) 楽曲練習支援装置、動的時間整合モジュールおよびプログラム
JP6252420B2 (ja) 音声合成装置、及び音声合成システム
JP2003015672A (ja) 声域告知機能付きカラオケ装置
JP4501874B2 (ja) 楽曲練習装置
JP4553013B2 (ja) カラオケ装置
JP2007225916A (ja) オーサリング装置、オーサリング方法およびプログラム
JP4369118B2 (ja) カラオケ装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090622

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120821

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120903

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150928

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees