JP4626310B2 - 発音評価装置 - Google Patents

発音評価装置 Download PDF

Info

Publication number
JP4626310B2
JP4626310B2 JP2005005694A JP2005005694A JP4626310B2 JP 4626310 B2 JP4626310 B2 JP 4626310B2 JP 2005005694 A JP2005005694 A JP 2005005694A JP 2005005694 A JP2005005694 A JP 2005005694A JP 4626310 B2 JP4626310 B2 JP 4626310B2
Authority
JP
Japan
Prior art keywords
pronunciation
information
symbol string
voice information
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005005694A
Other languages
English (en)
Other versions
JP2006195093A (ja
Inventor
紀行 畑
卓也 田丸
卓朗 曽根
勝一 刑部
資之 渋谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2005005694A priority Critical patent/JP4626310B2/ja
Publication of JP2006195093A publication Critical patent/JP2006195093A/ja
Application granted granted Critical
Publication of JP4626310B2 publication Critical patent/JP4626310B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、発音の矯正を支援する技術に関する。
従来より、外国語の学習を支援する種々の技術が提案されてきた。例えば、特許文献1には、一人の指導者による複数の学習者を対象とした発音指導を支援する技術の開示がある。同文献に開示された集合語学研修支援装置は、各学習者及び指導者が利用する端末である研修支援ユニットに、話者の口の動きや顔の表情などを撮像する撮像装置を搭載させてなる。この装置によれば、指導者は、各学習者の研修支援ユニットから自らに送信されてくる画像情報を基に各学習者の発音の様子を了解し、各々に合わせた指導を効率的に行うことができる。
特開平11−212437
ところで、特許文献1に開示された類の装置を用いた発音指導の多くは、お手本となる単語やセンテンスを真似て学習者に発音させた後、その発音内容とお手本との相違が単に判定されるに過ぎないものであった。このため、学習者は、自らの発音内容のどの部分が良好でないのかを具体的に把握することが難しかった。
本発明は、このような背景の下に案出されたものであり、外国語の発音を学習する学習者に対し、その発音内容のどの部分が良好でないのかを具体的に提示できるようなシステムを提供することを目的とする。
本発明の好適な態様である発音評価装置は、外部の特定の装置と情報の遣り取りを行う発音評価装置であって、発音のお手本となるセンテンス又は単語の発音手順を示す発音記号列を記憶した発音記号記憶手段と、話者が発音した前記センテンス又は単語を示す音声情報、又はその音声情報が示す波形の解析結果である特徴パラメータ列を前記外部の特定の装置から受信する発音内容受信手段と、前記発音記号記憶手段から発音記号列を読み出す記号列読出手段と、前記発音内容受信手段が受信した音声情報又は特徴パラメータ列に所定の変換処理を施すことにより、前記話者の発音内容を表す発音記号列を取得する記号列取得手段と、前記記号列取得手段が取得した発音記号列と前記記号列読出手段が読み出した発音記号列との不一致の度合いを評価する発音評価手段と、前記発音評価手段による評価結果を内包した評価情報を前記外部の特定の装置へ送信する送信手段と、音声情報を記憶する音声情報記憶手段と、前記記号列取得手段が取得した発音記号列と前記記号列読出手段が読み出した発音記号列との不一致の度合いが所定値を下回ると、その音声情報を前記音声情報記憶手段に記憶させる高評価音声蓄積手段と、高評価を受けた音声情報の送信を求めるメッセージを前記外部の特定の装置から受信する要求受信手段とを備え、前記送信手段は、前記要求受信手段が前記メッセージを受信すると、前記音声情報記憶手段に記憶された音声情報を前記外部の特定の装置へ送信する。
また、本発明の別の好適な態様である発音評価装置は、外部の特定の装置と情報の遣り取りを行う発音評価装置であって、発音のお手本となるセンテンス又は単語の発音手順を示す発音記号列を記憶した発音記号記憶手段と、話者が発音した前記センテンス又は単語を示す音声情報、又はその音声情報が示す波形の解析結果である特徴パラメータ列を前記外部の特定の装置から受信する発音内容受信手段と、前記発音記号記憶手段から発音記号列を読み出す記号列読出手段と、前記受信した音声情報又は特徴パラメータ列に所定の変換処理を施すことにより、前記話者の発音内容を表す発音記号列を取得する記号列取得手段と、前記記号列取得手段が取得した発音記号列と前記記号列読出手段が読み出した発音記号列との不一致の度合いを評価する発音評価手段と、前記センテンス又は単語を良好に発音するためのお手本となる息遣いの状態を示す息遣い情報を記憶した息遣い情報記憶手段と、話者が前記センテンス又は単語を発音した際の息遣いの状態を示す息遣い情報を前記外部の特定の装置から受信する息遣い情報受信手段と、前記息遣い情報記憶手段から息遣い情報を読み出す息遣い情報読出手段と、前記息遣い情報受信手段が受信した息遣い情報と、前記息遣い情報読出手段が読み出した息遣い情報との不一致の度合いを評価する息遣い評価手段と、前記発音評価手段および前記息遣い評価手段のそれぞれによる各評価結果を内包した評価情報を前記外部の特定の装置へ送信する送信手段とを備える。
また、上述の態様において、前記発音内容受信手段は、前記話者が発音した前記センテンス又は単語を示す音声情報を前記外部の特定の装置から受信する手段であり、全ての音声素片が網羅されるように体系化された複数のフレーズのそれぞれを前記話者が発音した発音内容を示す各音声情報を、前記外部の特定の装置から受信するフレーズ音声情報受信手段と、前記フレーズ音声情報受信手段により受信された前記各音声情報をそれぞれ解析して前記話者が発音した全ての音声素片のそれぞれについて、周波数スペクトルの特徴を示すパラメータである特徴パラメータを当該音声素片毎にそれぞれ生成することにより取得して素片データベースに蓄積する全特徴パラメータ取得手段と、前記発音内容受信手段が受信した音声情報を解析して前記センテンス又は単語に含まれる音声素片毎の周波数スペクトルの特徴をそれぞれ示す一連のパラメータからなる特徴パラメータ列を取得する特徴パラメータ列取得手段と、前記記号列取得手段が取得した発音記号列と前記記号列読出手段が読み出した発音記号列とが一致しない箇所を特定する不一致箇所特定手段と、前記特徴パラメータ列取得手段が取得した特徴パラメータ列において、前記不一致箇所特定手段が特定した前記箇所の音声素片と対応する区間を特定し、特定した当該区間の前記パラメータを、前記全特徴パラメータ取得手段により蓄積され、且つ、当該音声素片と対応する特徴パラメータに置換することにより、前記話者が発音の仕方を矯正するための正しい発音内容を示す音声情報である矯正音声情報を合成する矯正音声情報合成手段と、前記矯正音声情報の送信を求めるメッセージを前記外部の特定の装置から受信する矯正音声情報要求受信手段とを備え、前記送信手段は、前記矯正音声情報要求受信手段が前記メッセージを受信すると、前記矯正音声情報合成手段により合成された矯正音声情報を前記外部の特定の装置へ送信するようにしてもよい。
また、上述の態様において、前記発音内容受信手段は、前記話者が発音した前記センテンス又は単語を示す音声情報を解析して当該センテンス又は単語に含まれる音声素片毎の周波数スペクトルの特徴をそれぞれ示す一連のパラメータからなる特徴パラメータ列を生成する前記外部の特定の装置から、生成した当該特徴パラメータ列を受信する手段であり、全ての音声素片が網羅されるように体系化された複数のフレーズのそれぞれを前記話者が発音した発音内容により示される各音声情報をそれぞれ解析して前記音声素片毎の周波数スペクトルの特徴を示すパラメータである特徴パラメータを生成した前記外部の特定の装置から、生成した当該特徴パラメータを取得して素片データベースに蓄積する全特徴パラメータ取得手段と、前記記号列取得手段が取得した発音記号列と前記記号列読出手段が読み出した発音記号列とが一致しない箇所を特定する不一致箇所特定手段と、前記発音内容受信手段が受信した特徴パラメータ列において、前記不一致箇所特定手段が特定した前記箇所の音声素片と対応する区間を特定し、特定した当該区間の前記パラメータを、前記全特徴パラメータ取得手段により蓄積され、且つ、当該音声素片と対応する特徴パラメータに置換することにより、前記話者が発音の仕方を矯正するための正しい発音内容を示す音声情報である矯正音声情報を合成する矯正音声情報合成手段と、前記矯正音声情報の送信を求めるメッセージを前記外部の特定の装置から受信する矯正音声情報要求受信手段とを備え、前記送信手段は、前記矯正音声情報要求受信手段が前記メッセージを受信すると、前記矯正音声情報合成手段により合成された矯正音声情報を前記外部の特定の装置へ送信するようにしてもよい。
本発明によると、語学を学習する学習者に対し、自身の発音内容のどこが良好でないかを具体的に把握させることができる。
(発明の実施の形態)
本願発明の実施形態について説明する。
まず、以降の説明において用いる主要な用語を定義しておく。「センテンス」の語は、発音のお手本となる一纏まりのフレーズを意味する。「発音記号」の語は、英語に存在する母音及び子音を夫々固有に表す記号を意味する。「音声素片」の語は、音声の構成要素を意味し、母音のみからなる音素、母音から子音に遷移する音素連鎖、子音から母音に遷移する音素連鎖、及び母音から別の母音に遷移する音素連鎖のいずれをも含む。
Figure 0004626310
本実施形態にかかる英語発音向上LLシステムの特徴は、英語の正しい発音の習得を希望する者(以下、「生徒」と呼ぶ)に対し、ネットワーク上に設けた専用のサーバ装置を介して以下の2つのサービスを提供するようにした点である。
(1)発音評価サービス
これは、教材として予め準備しておいた複数のセンテンスを生徒に発音させてそれらの音声情報を解析することにより、その生徒の発音の良否を客観的に評価するサービスである。
(2)高評価発音リマインダーサービス
これは、各生徒に対し、自身が高評価を受けた過去の発音の音声情報を提示するサービスである。
図1は、本発明の実施形態にかかる英語発音向上LL(language laboratory)システムの全体構成を示すブロック図である。図に示すように、このシステムは、複数の生徒端末10と、講師端末50と、DSP(digital signal processor)サーバ装置40とを備える。
生徒端末10の各々は、マイクロホンアレイ30と接続される。このマイクロホンアレイ30は、話者である生徒の発した音声を最適に集音する機能に加えて、その発音が行われた際の息遣いの状況を計測する機能を搭載している。
図2は、マイクロホンアレイ30のハードウェア構成を示すブロック図である。図に示すように、このマイクロホンアレイ30は、集音手段である複数のマイクロホンユニット31、アナログ/デジタル(以下、「A/D」と称す)変換器32、音圧測定部33、加算器34、パラメータ記憶制御部35、パラメータ記憶メモリ36、集音特性制御部37、及び入出力インターフェース38を備える。
複数のマイクロホンユニット31は、生徒の口元の方向に指向性を持たせるべく、縦方向及び横方向に夫々16列ずつ配列されている。それらマイクロホンユニット31の各々は、自身に到達した音波をアナログ音声信号に変換し、A/D変換器32へ供給する。すると、A/D変換器32にて変換されたデジタル音声信号が、音圧測定部33を経由して加算器34に供給される。
音圧測定部33は、自身を経由するデジタル音声信号を基に、各マイクロホンユニット31に到達した音波の音圧を夫々測定する。そして、各マイクロホンユニット31の位置とそれらに到達した音波の音圧との関係を示す音圧分布情報を入出力インターフェース38を介して生徒端末10へ出力する。出力された音圧分布情報は、生徒端末10からDSPサーバ装置40に送信され、同サーバ装置40にて発音時の息遣いの良否を評価する材料として利用される。
パラメータ記憶制御部35は、入出力インターフェース38を介して生徒端末10から入力される集音特性制御パラメータをパラメータ記憶メモリ36に記憶させる。この集音特性制御パラメータは、フィルタのカットオフ周波数を表すパラメータであり、DSPサーバ装置40から生徒端末10を経由して取得されることになっている。
集音特性制御部37は、ハイパスフィルタやローパスフィルタなどを内蔵しており、自身が内蔵する各フィルタのカットオフ周波数をパラメータ記憶メモリ36の集音特性制御パラメータに応じて設定する。加算器34にてミキシングされたデジタル音声信号は、集音特性制御部37にて所定の周波数成分が減衰された後、入出力インターフェース38を介して生徒端末10に出力されることになる。
図3は、生徒端末10のハードウェア構成を示すブロック図である。図に示すように、この端末10は、各種制御を行うCPU11、CPU11にワークエリアを提供するRAM12、IPL(initial program loader)を記憶したROM13、マイクロホンアレイ30との間で各種情報の入出力を行うマイクインターフェース14、スピーカ60に音声信号を出力するスピーカインターフェース15のほか、ネットワークインターフェース16、コンピュータディスプレイ17、キーボード18、マウス19、ハードディスク20などを備える。そして、ハードディスク20は、OS(operating system)や、ブラウザなどの各種アプリケーションソフトウェアを記憶する。
図4は、DSPサーバ装置40のハードウェア構成を示すブロック図である。図に示すように、この装置40は、CPU41、RAM42、ROM43、ネットワークインターフェース44、ハードディスク45などを備える。そして、ハードディスク45は、センテンスデータベース45a、生徒管理データベース45b、生徒別素片データベース45c、及び発音記号辞書データベース45dを記憶する。これら各データベースのうち、生徒別素片データベース45cは、各生徒毎に個別に設けられ、それら各生徒の生徒IDと各々対応付けられる。
図5は、センテンスデータベース45aのデータ構造図である。このデータベースは、各々が1つのセンテンスと対応する複数のレコードの集合体であり、それら各レコードは、発音の難易度が低いセンテンスと対応するものから順にソートされている。このデータベースを構成する1つのレコードは、「センテンス」、「欧文字スペル」、「発音記号列」、「息遣い」、及び「音声素片列」の5つのフィールドを有している。「センテンス」のフィールドには、各センテンスを識別するセンテンス識別子が記憶される。「欧文字スペル」のフィールドには、各センテンスのスペルを欧文字列として表すスペル情報が記憶される。「発音記号列」のフィールドには、各センテンスの発音手順を発音記号列として表すお手本記号列情報が記憶される。「息遣い」のフィールドには、お手本息遣い情報を記憶する。お手本息遣い情報は、各センテンスを良好に発音するための息遣いを音圧分布の遷移として示す情報である。「音声素片列」のフィールドには、各センテンスの音声を音声素片列として表すお手本素片列情報が記憶される。
図6は、生徒管理データベース45bのデータ構造図である。このデータベースは、各々が一人の生徒と対応する複数のレコードの集合体である。このデータベースを構成する1つのレコードは、「生徒」、「認証情報」、「評価ポイント」、及び「高評価音声ライブラリ」の4つのフィールドを有している。「生徒」のフィールドには、各生徒を識別する生徒IDを記憶する。「認証情報」のフィールドには、集音特性制御パラメータを記憶する。DSPサーバ装置40は、自装置40が各生徒の声質の解析結果を基に生成した集音特性制御パラメータをそれら各生徒のマイクロホンアレイ30に設定させる一方で、生成した集音特性制御パラメータを各生徒に固有の認証キーとして「認証情報」のフィールドに記憶することになっている。
「評価ポイント」のフィールドには、評価ポイントを記憶する。評価ポイントとは、各生徒の発音の巧拙の程度を客観的に表すポイントを意味する。後の動作説明の項にて詳述するように、本実施形態における発音評価サービスでは、生徒の発音内容を示す音声情報を変換して得た発音記号列とセンテンスデータベース45aの「発音記号列」のフィールドに記憶された発音記号列との差異を発音減点ポイントとして定量化すると共に、生徒のマイクロホンアレイ30から取得した音圧分布情報とセンテンスデータベース45aの「息遣い」のフィールドに記憶されたお手本息遣い情報との差異を息遣い減点ポイントとして定量化することになっている。そして、満点である「100」から発音減点ポイントと息遣い減点ポイントとを減じて得た残りのポイントが、評価ポイントとして生徒に提示されると共に、「評価ポイント」のフィールドに記憶されることになる。
「高評価音声ライブラリ」のフィールドには、発音評価サービスにおいて、発音減点ポイントが「0」と算出された音声情報を蓄積する。そして、このフィールドに蓄積された音声情報は、高評価発音リマインダーサービスを通じて生徒に提示されることになっている。
図7は、ある生徒と対応する生徒別素片データベース45cのデータ構造図である。このデータベースは、各々が1つの音声素片と対応する複数のレコードの集合体である。このデータベースを構成する1つのレコードは、「音声素片」と「特徴パラメータ」の2つのフィールドを有している。「音声素片」のフィールドには、各音声素片の名称を示す素片名情報が記憶される。「特徴パラメータ」のフィールドには、特徴パラメータを記憶する。特徴パラメータは、各音声素片毎の周波数スペクトルの特徴を示すパラメータである。
図8は、発音記号辞書データベース45dのデータ構造図である。このデータベースは、各々が1つの母音又は子音と対応する複数のレコードの集合体である。このデータベースを構成する1つのレコードは、「発音記号」、「フォルマント」、及び「スペクトル情報」の3つのフィールドを有している。
「発音記号」のフィールドには、母音又は子音の発音記号を表す発音記号情報が記憶される。「フォルマント」のフィールドには、フォルマント情報が記憶される。フォルマント情報は、第1、第2、及び第3フォルマントのフォルマントレベルとフォルマント周波数とを示す情報である。フォルマントとは、音声波形の周波数スペクトル上の優勢な周波数成分であり、周波数の低い順に第1フォルマント、第2フォルマント、第3フォルマント、第4フォルマント・・・と呼ばれる。これらのうち、第3フォルマントまでが音韻性に寄与しており、第1乃至第3フォルマントの特徴を参照すれば、発音された音声に含まれる母音の種類を一意に特定できる。「スペクトル情報」のフィールドには、スペクトル情報が記憶される。スペクトル情報は、各母音及び子音のスペクトルの遷移を示す情報である。子音は第1乃至第3フォルマントを参照しただけではその種類を特定できないことも多いが、そのような場合は、フォルマントに加えてスペクトルの遷移を参照することによって、子音の種類を一意に特定できる。
講師端末50は、生徒端末10と同様に、CPU、RAM、ROM、マイクインターフェース、スピーカインターフェース、ネットワークインターフェース、コンピュータディスプレイ、キーボード、マウス、ハードディスクなどを備えており、各生徒端末10とDSPサーバ装置40の間の情報の遣り取りの履歴や、同サーバ装置40のデータベースの記憶内容などを適宜取得できるようになっている。
次に本実施形態の動作を説明する。
本実施形態の動作は、初期登録処理と、音声評価処理と、高評価音声提示処理とに分けることができる。
ある生徒端末10がDSPサーバ装置40へアクセスすると、DSPサーバ装置40のCPU41はその生徒端末10へサービス選択画面の表示データを送信する。そして、表示データを受信した生徒端末10のCPU11は、サービス選択画面を自らのコンピュータディスプレイ17に表示させる。
図9に示すように、このサービス選択画面の上段には、「ご利用になるサービスを選択してください。始めて利用される方は、「初期登録サービス」を選択してください。」という内容を示す文字列が表示され、その下には、「初期登録サービス」、「発音評価サービス」、及び「高評価発音リマインダーサービス」と夫々記したボタンが表示される。そして、「初期登録サービス」と記したボタンが選択されると初期登録処理が、「発音評価サービス」と記したボタンが選択されると発音評価サービス処理が、「高評価発音リマインダーサービス」と記したボタンが選択されると高評価音声提示処理が夫々実行される。
図10及び11は、初期登録処理を示すフローチャートである。
「初期登録サービス」と記したボタンが選択されると、生徒端末10のCPU11は、初期登録サービスの提供を求めるメッセージをDSPサーバ装置40へ送信する(S100)。
メッセージを受信したDSPサーバ装置40のCPU41は、生徒管理データベース45bにレコードを一つ追加する(S110)。
続いて、CPU41は、新規な生徒IDを生成し、その生徒IDをステップ110で追加したレコードの「生徒」のフィールドに記憶する(S120)。
CPU41は、マイク調整用フレーズ発音要求画面の表示データを生成し、その表示データを生徒端末10へ送信する(S130)。
表示データを受信した生徒端末10のCPU11は、マイク調整用フレーズ発音要求画面をコンピュータディスプレイ17に表示させる(S140)。
マイク調整用フレーズ発音要求画面の上段には、「マイクロホンアレイの集音特性を最適化しますので、以下のフレーズをはっきりと発音してください。」という内容の文字列が表示され、その下には、マイク調整用フレーズを示す文字列が表示される。
この画面を参照した生徒は、自らの生徒端末10にマイクロホンアレイ30が接続されていることを確認した後、同画面に表示されているマイク調整用フレーズをマイクロホンアレイ30に向かって発音する。すると、その発音内容を示すデジタル音声信号が、入出力インターフェース38から生徒端末10に順次入力される。
生徒端末10は、マイクロホンアレイ30から自端末10に入力されてくるデジタル音声信号に所定の符号化処理を施して得た音声情報をDSPサーバ装置40へ送信する(S150)。
DSPサーバ装置40のCPU41は、生徒端末10から受信した音声情報を復号化して音声信号を取得すると、その音声信号が示す所定時間長分の時間波形の周波数成分の分布に応じて集音特性制御パラメータを生成する(S160)。例えば、マイク調整用フレーズを発音した生徒が比較的高い声質の持ち主であった場合、高い周波数域に周波数成分が偏ることになるため、生成される集音特性制御パラメータが示すカットオフ周波数もそれだけ高いものにする。反対に、生徒が比較的低い声質の持ち主であった場合、低い周波数域に周波数成分が偏ることになるため、集音特性制御パラメータが示すカットオフ周波数もそれだけ低いものにする。
CPU41は、ステップ170で生成した集音特性制御パラメータをステップ110で追加したレコードの「認証情報」のフィールドに記憶する(S170)。
更に、CPU41は、ステップ170で記憶したものと同じ集音特性制御パラメータを生徒端末10へ送信する(S180)。
集音特性制御パラメータを受信した生徒端末10のCPU11は、その集音特性制御パラメータをマイクロホンアレイ30に出力する(S190)。上述したように、マイクロホンアレイ30は、集音特性制御パラメータを記憶するためのパラメータ記憶メモリ36を備えている。生徒端末10から入力された集音特性制御パラメータがパラメータ記憶制御部35によってこのメモリ36に記憶されると、集音特性制御部37は、記憶されたパラメータに応じて自身が内蔵するフィルタのカットオフ周波数を直ちに設定する。この設定により、マイクロホンアレイ30の集音特性がその利用者である生徒の声質に応じて最適化されることになる。
集音特性制御パラメータをマイクロホンアレイ30に出力した生徒端末10のCPU11は、マイクの調整が完了したことを示すメッセージをDSPサーバ装置40に送信する(S200)。
メッセージを受信したDSPサーバ装置40のCPU41は、新たな生徒別素片データベース45cをハードディスク45に設ける(S210)。設けられた生徒別素片データベース45cを構成する各レコードの「音声素片」のフィールドには、各音声素片の素片名情報が既に記憶されている。その一方で、「特徴パラメータ」のフィールドには未だ特徴パラメータが記憶されておらず、以下に実行される一連の処理を通じて、特徴パラメータが順次蓄積されることになる。
CPU41は、予め準備されている素片抽出用フレーズ群のうちの1つを所定の雛形に埋め込んで素片抽出用フレーズ発音要求画面の表示データを生成し、生成した表示データを生徒端末10へ送信する(S220)。
ここで、素片抽出用フレーズ群とは、全ての音声素片が網羅されるように体系化された複数のフレーズの纏まりを意味する。
Figure 0004626310
表示データをDSPサーバ装置40から受信した生徒端末10のCPU11は、素片抽出用フレーズ発音要求画面をコンピュータディスプレイ17に表示させる(S230)。
素片抽出用フレーズ発音要求画面の上段には、「あなたの肉声を基に音声合成用のデータベースを作成します。以下のフレーズを発音してください。」という内容の文字列が表示され、その下には、素片抽出用フレーズを示す文字列が表示される。
この画面を参照した生徒は、同画面に表示されている素片抽出用フレーズをマイクロホンアレイ30に向かって発音する。すると、その発音内容を示すデジタル音声信号が、入出力インターフェース38から生徒端末10に順次入力される。
生徒端末10のCPU11は、マイクロホンアレイ30から自端末10に入力されてくるデジタル音声信号に所定の符号化処理を施して得た音声情報をDSPサーバ装置40へ送信する(S240)。
DSPサーバ装置40のCPU41は、生徒端末10から送信されてきた音声情報をRAM42に記憶する(S250)。
CPU41は、ステップ250でRAM42に記憶した音声情報に復号化処理を施して元の音声信号を取得すると、その音声信号が示す時間波形を解析して音声素片の特徴パラメータを取得する(S260)。
このステップについて更に具体的に説明する。本ステップでは、まず、音声情報を復号化して得た音声信号が示す時間波形に高速フーリエ変換をかけ、所定のフレーム毎の周波数スペクトルの特徴を示す特徴パラメータ列を取得する。そして、取得された一連の特徴パラメータを、時間波形に含まれる各音声素片の長さと夫々対応する区間毎に切り出す。
CPU41は、ステップ260で取得した特徴パラメータを、それらの音声素片名を示す素片名情報と対応付け、ステップ210で設けた生徒別素片データベース45cに記憶する(S270)。
全ての素片抽出用フレーズの音声信号から取得した特徴パラメータが生徒別素片データベース45cに蓄積されるまで、ステップ220乃至ステップ270の処理は繰返される。
特徴パラメータを蓄積し終えると、CPU41は、ステップ120で「生徒」のフィールドに記憶したものと同じ生徒IDを生徒端末10へ送信する(S280)。
生徒IDを受信した生徒端末10のCPU11は、その生徒IDをハードディスク20の所定領域に記憶する(S290)。
以上で、初期登録処理が終了する。
図12及び13は、発音評価サービス処理を示すフローチャートである。
「発音評価サービス」と記したボタンが選択されると、生徒端末10のCPU11は、発音評価サービスの提供を求めるメッセージをDSPサーバ装置40へ送信する(S400)。
メッセージを受信したDSPサーバ装置40のCPU41は、生徒IDの送信を求めるメッセージを生徒端末10へ送信する(S410)。
メッセージを受信した生徒端末10のCPU11は、初期登録処理を通じてDSPサーバ装置40から取得していた生徒IDをハードディスク20の所定領域から読み出し、その生徒IDをDSPサーバ装置40へ送信する(S420)。
DSPサーバ装置40のCPU41は、生徒端末10から送信されたものと同じ生徒IDを「生徒」のフィールドに記憶したレコードを生徒管理データベース45bから特定する(S430)。
続いて、CPU41は、集音特性制御パラメータの送信を求めるメッセージを生徒端末10へ送信する(S440)。
メッセージを受信した生徒端末10のCPU11は、自端末10に接続されたマイクロホンアレイ30のパラメータ記憶メモリ36に記憶されている集音特性制御パラメータを取得し、取得した集音特性制御パラメータをDSPサーバ装置40へ送信する(S450)。
DSPサーバ装置40のCPU41は、生徒端末10から送信されてきた集音特性制御パラメータと、ステップ430で特定したレコードの「認証情報」のフィールドに記憶された集音特性制御パラメータとが一致するか否か判断する(S460)。
ステップ460にて、集音特性制御パラメータが一致しないと判断したCPU41は、サービスの提供を拒否するメッセージを生徒端末10へ送信する(S470)。
一方、ステップ460にて、集音特性制御パラメータが一致すると判断したCPU41は、評価ポイントの算出に用いる領域(以下、「ポイント算出領域」と呼ぶ)をRAM42の一部に確保し、そのポイント算出領域に評価ポイントの満点である「100」を記憶する(S480)。
CPU41は、センテンスデータベース45aのレコードの1つを参照対象として特定する(S490)。なお、上述したように、このセンテンスデータベース45aは、発音の難易度が低いセンテンスと対応するレコードから順にソートされており、本ステップからステップ700までの一連の処理は、参照対象となるレコードをシフトさせながら繰返されることになっている。
CPU41は、ステップ490で特定したレコードの「発音記号列」のフィールドに記憶されているお手本記号列情報、「息遣い」のフィールドに記憶されたお手本息遣い情報、及び「音声素片列」のフィールドに記憶された音声素片列情報をRAM42に読み出す(S500)。
続いて、CPU41は、ステップ490で特定したレコードの「欧文字スペル」のフィールドに記憶されているスペル情報を所定の雛形に埋め込んで発音課題提示画面の表示データを生成し、その表示データを生徒端末10へ送信する(S510)。
表示データを受信した生徒端末10のCPU11は、発音課題提示画面をコンピュータディスプレイ17に表示させる(S520)。
発音課題提示画面の上段には、「以下のセンテンスをはっきり発音して下さい。」という内容を示す文字列が表示され、その下には、センテンスのスペルを示す欧文字列が表示される。
この画面を参照した生徒は、自らの生徒端末10にマイクロホンアレイ30が接続されていることを確認した後、同画面に表示されているセンテンスをマイクロホンアレイ30に向かって発音する。すると、各マイクロホンユニット31に到達した音波を示すデジタル音声信号が、音圧測定部33を経由して加算器34に夫々供給される。加算器34にてミキシングされたデジタル音声信号は、集音特性制御部37において所定の周波数成分が減衰された後、音圧測定部33によって生成された音圧分布情報と共に入出力インターフェース38から生徒端末10へと順次出力される。
生徒端末10のCPU11は、マイクロホンアレイ30から自端末10へデジタル音声信号と音圧分布情報とが入力されてくると、デジタル音声信号を音声情報化し、その音声情報を音圧分布情報と併せてDSPサーバ装置40へ順次送信する(S530)。
DSPサーバ装置40のCPU41は、生徒端末10から送信されてくる音声情報と音圧分布情報とをRAM42に順次記憶する(S540)。
CPU41は、ステップ540でRAM42に記憶した音声情報に所定の変換処理を施すことにより、生徒の発音内容を示す発音記号列を取得する(S550)。
このステップについて更に具体的に説明する。本ステップでは、まず、音声情報を復号化して得た音声信号に高速フーリエ変換をかけ、所定のフレーム毎の周波数スペクトルを取得する。そして、取得された周波数スペクトルから、第1、第2、及び第3フォルマントのフォルマント周波数とフォルマントレベルとを抽出する。続いて、抽出したフォルマント周波数とフォルマントレベルの各対を、時間波形に含まれる子音及び母音の長さと各々対応する区間毎に夫々切り出す。更に、発音記号辞書データベース45dの各レコードを参照し、切り出したフォルマント周波数及びフォルマントレベルと「フォルマント」のフィールドの記憶内容が最も近い母音又は子音の発音記号を取得する。なお、子音については、各レコードの「フォルマント」のフィールドを参照しただけでは発音記号の候補を1つに絞り込めないケースが生じうる。その場合は、その子音と対応する区間の周波数スペクトルの遷移と各レコードの「スペクトル情報」の記憶内容とを夫々比較して更なる絞込みを行い、周波数スペクトルの遷移の特徴が最も近似する唯一の子音の発音記号を取得する。
CPU41は、ステップ550で取得した発音記号列を構成する一連の発音記号のうち、ステップ500で読み出したお手本記号列情報が示す発音記号列と一致しない箇所を特定する(S560)。
CPU41は、お手本記号列情報が示す発音記号列と一致しなかった箇所の発音記号の数に所定のポイント換算率を作用させて発音減点ポイントを取得する(S570)。
CPU41は、ステップ570で取得した発音減点ポイントが「0」であるか否か判断する(S580)。
ステップ580にて、発音減点ポイントが「0」であると判断したCPU41は、ステップ540でRAM42に記憶した音声情報を、ステップ430で特定したレコードの「高評価音声ライブラリ」のフィールドへ記憶する(S590)。
一方、ステップ580にて、発音減点ポイントが「0」でないと判断したCPU41は、ステップ590を実行することなく次のステップへ進む。
続いて、CPU41は、ステップ540でRAM42に記憶した一連の音圧分布情報が示す音圧分布の遷移と、ステップ500で読み出したお手本息遣い情報が示す音圧分布の遷移との差分を求め、求めた差分値に所定のポイント換算率を作用させて息遣い減点ポイントを取得する(S600)。
CPU41は、ステップ570で取得した発音減点ポイントとステップ580で取得した息遣い減点ポイントの合計を、RAM42のポイント算出領域に記憶させてある評価ポイントから減算する(S610)。
CPU41は、ステップ500で読み出したお手本記号列情報とステップ560で特定した箇所との関係を表す要矯正箇所提示画面の表示データを生成し、生成した表示データを生徒端末10に送信する(S620)。
表示データを受信した生徒端末10のCPU11は、要矯正箇所提示画面をコンピュータディスプレイ17に表示させる(S630)。
図14は、要矯正箇所提示画面である。
「センテンスの正しい発音手順を示す発音記号は以下のようになっています。赤色で表示された箇所の発音をお手本のように矯正する必要があります。」という内容の文字列が表示され、その下には、発音記号列表示領域Aと、スペル表示領域Bとが表示される。
発音記号列表示領域Aには、お手本記号列情報が示す一連の発音記号列が表示される。これら一連の発音記号列のうち、ステップ560で特定した箇所と対応する発音記号は、残りの発音記号とは別の色である赤色で表示される(図面上では赤色の文字を鎖線の矩形として標記)。
Figure 0004626310
なお、本実施形態では、ステップ560で特定した箇所と対応する発音記号を残りの発音記号と異なる色によって表わしているが、文字の大きさ、書体等によって両者の表示態様に違いを与えてもよい。
また、スペル表示領域Bには、センテンスのスペルを示す欧文字列が表示される。
更に、画面の下段には、「自分の声の正しい発音を聴いてみる」と記したボタンと、「次のセンテンスに進む」と記したボタンとが表示される。
生徒は、画面上の発音記号列表示領域Aとスペル表示領域Bとを参照し、矯正を要する発音の箇所を確認した後、何れかのボタンを選択する。
「自分の声の正しい発音を聴いてみる」と記したボタンが選択されると、生徒端末10のCPU11は、矯正音声情報の送信を求めるメッセージをDSPサーバ装置40へ送信する(S640)。
メッセージを受信したDSPサーバ装置40のCPU41は、ステップ500で読み出した音声素片列情報が示す一連の音声素片のうち、ステップ560で特定した箇所と対応する一部の音声素片又は音声素片列を抽出し、抽出した音声素片又は音声素片列と特徴パラメータを生徒別音声データベース45cから読み出す(S650)。
CPU41は、ステップ650で読み出した特徴パラメータを基にセンテンスの矯正音声情報を合成する(S660)。
このステップについて更に具体的に説明する。本ステップでは、まず、音声情報を復号化して得た音声信号が示す時間波形に高速フーリエ変換をかけ、所定のフレーム毎の周波数スペクトルの特徴を示す特徴パラメータ列を取得する。そして、取得された一連の特徴パラメータのうち、ステップ560で特定した箇所の音声素片又は音声素片列と対応する区間を特定し、特定した区間の特徴パラメータをステップ650で読み出した特徴パラメータに置換する。次に、置換が施された後の特徴パラメータ列に逆フーリエ変換をかけ、時間波形を示すデジタル音声信号を取得した後、その音声信号に所定の符号化処理を施すことにより、矯正音声情報を取得する。
DSPサーバ装置40のCPU41は、ステップ660で取得した矯正音声情報を生徒端末10へ送信する(S670)。
矯正音声情報を受信した生徒端末10のCPU11は、その矯正音声情報を復号化して得たデジタル音声信号をスピーカインターフェース15を介してスピーカ60へ供給する(S680)。これにより、スピーカ60からは、センテンスの正しい発音が、生徒自身の声質の音声として放音される。
一方、要矯正箇所提示画面において、「次のセンテンスに進む」と記したボタンが選択されると、生徒端末10のCPU11は、次のセンテンスの提示を求めるメッセージをDSPサーバ装置40へ送信する(S690)。
メッセージを受信したDSPサーバ装置40のCPU41は、未だ参照対象となっていないレコードがセンテンスデータベース45aに残っているか否かを判断する(S700)。
ステップ700にて、参照対象となっていないレコードが残っていると判断されると、再びステップ490に戻って、参照対象となるレコードを1つシフトさせた後、以降の一連の処理が繰返される。
ステップ700にて、参照対象となっていないレコードが残っていないと判断されると、DSPサーバ装置40のCPU41は、RAM42のポイント算出領域に記憶されている評価ポイントを、ステップ430で特定したレコードの「評価ポイント」のフィールドに記憶する(S710)。
続いて、CPU41は、評価ポイントを所定の雛形に埋め込んで評価結果通知画面の表示データを生成し、その表示データを生徒端末10に送信する(S720)。
表示データを受信した生徒端末10のCPU11は、評価結果通知画面をコンピュータディスプレイ17に表示させる(S730)。
評価結果通知画面の上段には、「あなたの今回の評価ポイントは以下の通りです。」という内容を示す文字列が表示され、その下には、評価ポイントが表示される。
以上で、発音評価サービス処理が終了する。
図15は、高評価音声提示処理を示すフローチャートである。
「高評価音声リマインダーサービス」と記したボタンが選択されると、生徒端末10のCPU11は、高評価音声リマインダーサービスの提供を求めるメッセージをDSPサーバ装置40へ送信し、その後、DSPサーバ装置40は、集音特性制御パラメータを用いた認証を行う。これら一連の処理の内容は、図12に示したステップ400乃至470と同様であるので、再度の説明を割愛する。
ステップ460にて、集音特性制御パラメータが一致すると判断したDSPサーバ装置40のCPU41は、ステップ430で生徒管理データベース45bから特定したレコードの「高評価音声ライブラリ」のフィールドに蓄積されている音声情報をRAM42に読み出す(S800)。
CPU41は、ステップ800で読み出した音声情報を、生徒端末10へ送信する(S810)。
音声情報を受信した生徒端末10のCPU11は、その音声情報を復号化して得たデジタル音声信号をスピーカインターフェース15を介してスピーカ60へ出力する(S820)。これにより、過去の発音評価サービスにおいて高い評価を得ていた自らの音声が、スピーカ60から放音される。
以上説明した本実施形態は、以下に示す有用な効果を奏する。
第1に、自身の発音内容のどの箇所が良好でないかを生徒に具体的に把握させることができる。本実施形態における発音評価サービスでは、DSPサーバ装置40が、生徒の発音内容を示す音声情報を変換して得た発音記号列とお手本となる発音記号列の不一致の度合いを評価する。そして、その結果が要矯正箇所提示画面として生徒に提示される。この要矯正箇所提示画面では、お手本記号列情報が示す一連の発音記号列のうち、生徒が正しく発音できなかった箇所の発音記号が残りの発音記号とは異なる色で表示されるようになっている。従って、各生徒は、要矯正箇所提示画面を参照することにより、自らが正しく発音できていた箇所と正しく発音できなかった箇所とを発音記号レベルではっきりと把握することができる。
第2に、生徒の学習意欲を引き出すことができる。本実施形態における発音評価サービスでは、同サービスを通じて生徒が発音する各センテンスの音声情報のうち、発音減点ポイントが「0」であった音声情報、つまり、お手本と同じように発音できた音声情報を生徒管理データベース45bの「高評価音声ライブラリ」のフィールドに蓄積するようになっている。そして、高評価発音リマインダーサービスを通じて生徒が高評価音声の提示を求めると、DSPサーバ装置40は、「高評価音声ライブラリ」のフィールドから読み出した音声情報をその生徒の生徒端末10へ送信するようになっている。各生徒は、自身の過去の良好な発音を聴取することにより、高い学習意欲を保ったまま学習を継続していくことができる。
第3に、英語の話し方の良否を複数の切り口から総合的に評価することができる。本実施形態では、各生徒端末10にマイクロホンアレイ30が接続され、このマイクロホンアレイ30は、生徒の発音した音声の波形を示すデジタル音声信号だけでなく、その発音を行った際の息遣いの状態を示す音圧分布情報をも生徒端末10へ供給するようになっている。そして、DSPサーバ装置40は、生徒端末10から送信されてくる音声情報を基に生徒の発音内容である音声そのものの評価を行うだけでなく、同端末10から送信されてくる音圧分布情報を基に息遣いの評価をも行い、2つの評価の結果を評価ポイントに反映させるようになっている。従って、音声の波形を解析するだけでは得られないような精緻な評価結果を生徒に提示することができる。
第4に、サービスを不正に利用する悪意者を簡易且つ確実に排除することができる。本実施形態では、所定の周波数成分を減衰させて集音特性を最適化する集音特性制御部37を各生徒のマイクロホンアレイ30に内蔵させており、この集音特性制御部37の制御内容を示す集音特性制御パラメータは、生徒の認証キーとしてDSPサーバ装置40側に登録されることになっている。そして、発音評価サービス及び高評価発音リマインダーサービスを利用する生徒端末10は、DSPサーバ装置40にアクセスするとマイクロホンアレイ30の集音特性制御パラメータを引き渡し、引渡した集音特性制御パラメータがDSPサーバ装置40に登録されているものと一致することを条件として、両サービスの提供が許可されるようになっている。このように、各生徒の声質に依存して生成される固有の集音特性制御パラメータを認証キーとしても利用することにより、不正なサービスの利用を確実に排除することができる。また、パスワードやIDの入力といった煩わしい認証手続きを生徒に強いる必要も無くなる。
(他の実施形態)
本願発明は、種々の変形実施が可能である。
上記実施形態において、DSPサーバ装置40は、あるセンテンスの音声情報を変換して得た発音記号列がお手本記号列情報が示す発音記号列と一致しているか否かを判断した後、その判断結果を要矯正箇所提示画面の表示データとして生徒端末10へ送信するようになっていた。これに対し、センテンスを良好に発音するための口の動きを示す動画像を併せて提示してもよい。この変形例では、DSPサーバ装置10が、口の動きを示す動画像情報を各発音記号と対応付けて自らのハードディスク45に記憶しておく。同サーバ装置40は、音声情報を変換して得た発音記号列を構成する一連の発音記号のうち、お手本記号列情報が示す発音記号列と内容が一致しない箇所を特定した後、その箇所の発音記号と対応付けられた動画像情報をハードディスク45から読み出す。そして、読み出した動画像情報を生徒端末10へ送信する。
上記実施形態において、DSPサーバ装置40は、ある音声情報から取得された音声素片列について算出した発音減点ポイントが「0」であることを条件として、その音声情報を生徒管理データベース45bの「高評価音声ライブラリ」のフィールドに記憶するようになっていた。これに対し、「高評価音声ライブラリ」のフィールドに記憶する条件を、発音減点ポイントが「0」であることだけに限定する必要はなく、発音減点ポイントが予め設定された他の所定値(例えば、3ポイント)を下回ったことを条件としてもよい。
上記実施形態における初期登録処理では、DSPサーバ装置40が、生徒端末10から送信されてきた音声情報を復号化して音声信号を取得し、その音声信号が示す波形に高速フーリエ変換をかけて得た周波数スペクトルの特徴パラメータを生徒別素片データベース45cに蓄積するようになっていた。また、発音評価サービス処理においても同様に、DSPサーバ装置40が、生徒端末10から送信されてきた音声情報を復号化して音声信号を取得した後、その音声信号が示す波形に高速フーリエ変換をかけて得た周波数スペクトルの特徴パラメータ列の一部を生徒別素片データベース45cから抽出した特徴パラメータで置換することによって矯正音声情報を取得していた。
これに対し、音声信号の波形に高速フーリエ変換をかける機能を生徒端末10にも搭載させ、同端末10はマイクロホンアレイ30から入力されたデジタル音声信号に高速フーリエ変換を施して得た特徴パラメータ列をDSPサーバ装置40に送信するようにしてもよい。かかる変形例によると、DSPサーバ装置40は、音声信号に改めて高速フーリエ変換を施す必要がなくなり、同サーバ装置40の処理負担が軽減される。つまり、初期登録処理においては、生徒端末10から送信されてきた特徴パラメータ列を各音声素片と対応する区間毎に切り出して生徒別素片データベース45cに蓄積すればよく、また、発音評価サービス処理においては、送信されてきた特徴パラメータ列のうち、お手本と一致しなかった箇所を生徒別素片データベース45cから読み出した特徴パラメータで置換するだけでよい。
上記実施形態において、DSPサーバ装置40のセンテンスデータベース45aには、お手本記号列情報やお手本息遣い情報がセンテンス毎に記憶さており、発音評価サービス処理における減点ポイントの算出もセンテンス毎に行われていた。これに対し、センテンスよりも細かな会話の構成要素である単語ごとにお手本記号列情報やお手本息遣い情報をデータベース化しておき、発音評価サービス処理では、それら各単語毎に減点ポイントの算出を行うようにしてもよい。
上記実施形態において、DSPサーバ装置40は、生徒の音声情報が示す時間波形に高速フーリエ変換をかけて得た一連の特徴パラメータのうち、お手本どおりに発音できていない区間を正しい音声素片の特徴パラメータで置換することによって矯正音声情報を合成していた。これに対し、以下に示すような他の手順に従って矯正音声情報を合成してもよい。この手順では、まず、生徒の音声情報の時間軸を、その音声情報に含まれる各音声素片の位置がお手本となる音声情報に含まれる各音声素片と同じ位置になるように正規化する。その上で、お手本となる音声情報のピッチとベロシティを、生徒の音声情報のそれと差し替える。最後に、生徒の音声情報に含まれる子音の部分だけをお手本となる音声情報のそれと入れ替える。このような手順によっても、矯正音声情報、つまり、発音の仕方を矯正するための正しい発音内容を示す音声情報の生成は可能である。
上記実施形態におけるマイクロホンアレイ30の集音部は、複数のマイクロホンユニット31を縦方向及び横方向に夫々16列ずつ配列した構造を取っていた。しかしながら、マイクロホンユニット31をこのような方向及び数で並べる必要はなく、生徒の発音時における音圧分布をデータ化できるようになってさえいれば、別の構造にしてもよい。
上記実施形態において、DSPサーバ装置40の発音記号辞書データベース45dは、フォルマント情報に加えてスペクトル情報を各母音及び子音の各々と対応付けて蓄積していた。そして、同サーバ装置40は、生徒の発音情報を発音記号列に変換する際、その音声情報の時間波形に含まれるある子音の種類をフォルマントの比較によって一意に特定できなかったときは、その子音と対応する区間の周波数スペクトルの遷移と発音記号辞書データベース45dに記憶された各スペクトル情報とを比較することによって種類を特定していた。これに対し、Hidden Markov Model(隠れマルコフモデル)を利用して変換を行なってもよい。この変形例によると、音節、単語、文節といったセグメンテーション単位で発音記号列の候補を絞り込んでいくことになるため、母音及び子音毎の独立した認識を行う上記実施形態よりも確度の高い変換結果を得ることができる。
実施形態の全体構成を示すブロック図である。 マイクロホンアレイのハードウェア構成図である。 生徒端末のハードウェア構成図である。 DSPサーバ装置のハードウェア構成図である。 センテンスデータベースのデータ構造図である。 生徒管理データベースのデータ構造図である。 生徒別素片データベースのデータ構造図である。 発音記号辞書データベースのデータ構造図である。 サービス選択画面である。 初期登録処理を示すフローチャートである(前半部分)。 初期登録処理を示すフローチャートである(後半部分)。 発音評価サービス処理を示すフローチャートである(前半部分)。 発音評価サービス処理を示すフローチャートである(後半部分)。 要矯正箇所提示画面である。 高評価音声提示処理を示すフローチャートである。
符号の説明
10…生徒端末、11,41…CPU、12,42…RAM、13,43…ROM、14…マイクインターフェース、15…スピーカインターフェース、16,44…ネットワークインターフェース、17…コンピュータディスプレイ、18…キーボード、19…マウス、20,45…ハードディスク、50…講師端末、30…マイクロホンアレイ、31…マイクロホンユニット、32…A/D変換器、33…音圧測定部、34…加算器、35…パラメータ記憶制御部、36…パラメータ記憶メモリ、37…集音特性制御部、38…入出力インターフェース、40…DSPサーバ装置、60…スピーカ



Claims (4)

  1. 外部の特定の装置と情報の遣り取りを行う発音評価装置であって、
    発音のお手本となるセンテンス又は単語の発音手順を示す発音記号列を記憶した発音記号記憶手段と、
    話者が発音した前記センテンス又は単語を示す音声情報、又はその音声情報が示す波形の解析結果である特徴パラメータ列を前記外部の特定の装置から受信する発音内容受信手段と、
    前記発音記号記憶手段から発音記号列を読み出す記号列読出手段と、
    前記発音内容受信手段が受信した音声情報又は特徴パラメータ列に所定の変換処理を施すことにより、前記話者の発音内容を表す発音記号列を取得する記号列取得手段と、
    前記記号列取得手段が取得した発音記号列と前記記号列読出手段が読み出した発音記号列との不一致の度合いを評価する発音評価手段と、
    前記発音評価手段による評価結果を内包した評価情報を前記外部の特定の装置へ送信する送信手段と、
    音声情報を記憶する音声情報記憶手段と、
    前記記号列取得手段が取得した発音記号列と前記記号列読出手段が読み出した発音記号列との不一致の度合いが所定値を下回ると、その音声情報を前記音声情報記憶手段に記憶させる高評価音声蓄積手段と、
    高評価を受けた音声情報の送信を求めるメッセージを前記外部の特定の装置から受信する要求受信手段とを備え、
    前記送信手段は、
    前記要求受信手段が前記メッセージを受信すると、前記音声情報記憶手段に記憶された音声情報を前記外部の特定の装置へ送信する
    発音評価装置。
  2. 外部の特定の装置と情報の遣り取りを行う発音評価装置であって、
    発音のお手本となるセンテンス又は単語の発音手順を示す発音記号列を記憶した発音記号記憶手段と、
    話者が発音した前記センテンス又は単語を示す音声情報、又はその音声情報が示す波形の解析結果である特徴パラメータ列を前記外部の特定の装置から受信する発音内容受信手段と、
    前記発音記号記憶手段から発音記号列を読み出す記号列読出手段と、
    前記発音内容受信手段が受信した音声情報又は特徴パラメータ列に所定の変換処理を施すことにより、前記話者の発音内容を表す発音記号列を取得する記号列取得手段と、
    前記記号列取得手段が取得した発音記号列と前記記号列読出手段が読み出した発音記号列との不一致の度合いを評価する発音評価手段と、
    前記センテンス又は単語を良好に発音するためのお手本となる息遣いの状態を示す息遣い情報を記憶した息遣い情報記憶手段と、
    話者が前記センテンス又は単語を発音した際の息遣いの状態を示す息遣い情報を前記外部の特定の装置から受信する息遣い情報受信手段と、
    前記息遣い情報記憶手段から息遣い情報を読み出す息遣い情報読出手段と、
    前記息遣い情報受信手段が受信した息遣い情報と、前記息遣い情報読出手段が読み出した息遣い情報との不一致の度合いを評価する息遣い評価手段と、
    前記発音評価手段および前記息遣い評価手段のそれぞれによる各評価結果を内包した評価情報を前記外部の特定の装置へ送信する送信手段と
    を備えた発音評価装置。
  3. 請求項1または2に記載の発音評価装置において、
    前記発音内容受信手段は、前記話者が発音した前記センテンス又は単語を示す音声情報を前記外部の特定の装置から受信する手段であり、
    全ての音声素片が網羅されるように体系化された複数のフレーズのそれぞれを前記話者が発音した発音内容を示す各音声情報を、前記外部の特定の装置から受信するフレーズ音声情報受信手段と、
    前記フレーズ音声情報受信手段により受信された前記各音声情報をそれぞれ解析して前記話者が発音した全ての音声素片について、周波数スペクトルの特徴を示すパラメータである特徴パラメータを当該音声素片毎にそれぞれ生成することにより取得して素片データベースに蓄積する全特徴パラメータ取得手段と、
    前記発音内容受信手段が受信した音声情報を解析して前記センテンス又は単語に含まれる音声素片毎の周波数スペクトルの特徴をそれぞれ示す一連のパラメータからなる特徴パラメータ列を取得する特徴パラメータ列取得手段と、
    前記記号列取得手段が取得した発音記号列と前記記号列読出手段が読み出した発音記号列とが一致しない箇所を特定する不一致箇所特定手段と、
    前記特徴パラメータ列取得手段が取得した特徴パラメータ列において、前記不一致箇所特定手段が特定した前記箇所の音声素片と対応する区間を特定し、特定した当該区間の前記パラメータを、前記全特徴パラメータ取得手段により蓄積され、且つ、当該音声素片と対応する特徴パラメータに置換することにより、前記話者が発音の仕方を矯正するための正しい発音内容を示す音声情報である矯正音声情報を合成する矯正音声情報合成手段と、
    前記矯正音声情報の送信を求めるメッセージを前記外部の特定の装置から受信する矯正音声情報要求受信手段とを備え、
    前記送信手段は、
    前記矯正音声情報要求受信手段が前記メッセージを受信すると、前記矯正音声情報合成手段により合成された矯正音声情報を前記外部の特定の装置へ送信する
    発音評価装置。
  4. 請求項1または2に記載の発音評価装置において、
    前記発音内容受信手段は、前記話者が発音した前記センテンス又は単語を示す音声情報を解析して当該センテンス又は単語に含まれる音声素片毎の周波数スペクトルの特徴をそれぞれ示す一連のパラメータからなる特徴パラメータ列を生成する前記外部の特定の装置から、生成した当該特徴パラメータ列を受信する手段であり、
    全ての音声素片が網羅されるように体系化された複数のフレーズのそれぞれを前記話者が発音した発音内容により示される各音声情報をそれぞれ解析して前記音声素片毎の周波数スペクトルの特徴を示すパラメータである特徴パラメータを生成した前記外部の特定の装置から、生成した当該特徴パラメータを取得して素片データベースに蓄積する全特徴パラメータ取得手段と、
    前記記号列取得手段が取得した発音記号列と前記記号列読出手段が読み出した発音記号列とが一致しない箇所を特定する不一致箇所特定手段と、
    前記発音内容受信手段が受信した特徴パラメータ列において、前記不一致箇所特定手段が特定した前記箇所の音声素片と対応する区間を特定し、特定した当該区間の前記パラメータを、前記全特徴パラメータ取得手段により蓄積され、且つ、当該音声素片と対応する特徴パラメータに置換することにより、前記話者が発音の仕方を矯正するための正しい発音内容を示す音声情報である矯正音声情報を合成する矯正音声情報合成手段と、
    前記矯正音声情報の送信を求めるメッセージを前記外部の特定の装置から受信する矯正音声情報要求受信手段とを備え、
    前記送信手段は、
    前記矯正音声情報要求受信手段が前記メッセージを受信すると、前記矯正音声情報合成手段により合成された矯正音声情報を前記外部の特定の装置へ送信する
    発音評価装置。
JP2005005694A 2005-01-12 2005-01-12 発音評価装置 Expired - Fee Related JP4626310B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005005694A JP4626310B2 (ja) 2005-01-12 2005-01-12 発音評価装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005005694A JP4626310B2 (ja) 2005-01-12 2005-01-12 発音評価装置

Publications (2)

Publication Number Publication Date
JP2006195093A JP2006195093A (ja) 2006-07-27
JP4626310B2 true JP4626310B2 (ja) 2011-02-09

Family

ID=36801231

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005005694A Expired - Fee Related JP4626310B2 (ja) 2005-01-12 2005-01-12 発音評価装置

Country Status (1)

Country Link
JP (1) JP4626310B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6337362B1 (ja) * 2017-11-02 2018-06-06 パナソニックIpマネジメント株式会社 認知機能評価装置、及び、認知機能評価システム
KR102296878B1 (ko) * 2019-12-20 2021-09-02 주식회사 에듀템 외국어 학습평가장치
CN112992183B (zh) * 2021-03-12 2024-04-19 腾讯音乐娱乐科技(深圳)有限公司 歌唱气息评分方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09269720A (ja) * 1996-03-29 1997-10-14 Nec Corp 発音練習装置
JPH1165410A (ja) * 1997-08-22 1999-03-05 Nec Corp 発音練習装置
JP2004053652A (ja) * 2002-07-16 2004-02-19 Asahi Kasei Corp 発音判定システム、システム管理用サーバ及びプログラム
JP2004205888A (ja) * 2002-12-26 2004-07-22 Daiichikosho Co Ltd カラオケ録音装置
JP2004325905A (ja) * 2003-04-25 2004-11-18 Hitachi Ltd 外国語学習装置および外国語学習プログラム
JP2004347786A (ja) * 2003-05-21 2004-12-09 Casio Comput Co Ltd 音声表示出力制御装置、画像表示制御装置、および音声表示出力制御処理プログラム、画像表示制御処理プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09269720A (ja) * 1996-03-29 1997-10-14 Nec Corp 発音練習装置
JPH1165410A (ja) * 1997-08-22 1999-03-05 Nec Corp 発音練習装置
JP2004053652A (ja) * 2002-07-16 2004-02-19 Asahi Kasei Corp 発音判定システム、システム管理用サーバ及びプログラム
JP2004205888A (ja) * 2002-12-26 2004-07-22 Daiichikosho Co Ltd カラオケ録音装置
JP2004325905A (ja) * 2003-04-25 2004-11-18 Hitachi Ltd 外国語学習装置および外国語学習プログラム
JP2004347786A (ja) * 2003-05-21 2004-12-09 Casio Comput Co Ltd 音声表示出力制御装置、画像表示制御装置、および音声表示出力制御処理プログラム、画像表示制御処理プログラム

Also Published As

Publication number Publication date
JP2006195093A (ja) 2006-07-27

Similar Documents

Publication Publication Date Title
JP3520022B2 (ja) 外国語学習装置、外国語学習方法および媒体
US7155391B2 (en) Systems and methods for speech recognition and separate dialect identification
US7149690B2 (en) Method and apparatus for interactive language instruction
JP6172417B1 (ja) 語学学習システム及び語学学習プログラム
JP2002040926A (ja) インターネット上での自動発音比較方法を用いた外国語発音学習及び口頭テスト方法
Gibbon et al. Spoken language system and corpus design
JP5105943B2 (ja) 発話評価装置及び発話評価プログラム
US20120219932A1 (en) System and method for automated speech instruction
JP2008158055A (ja) 言語発音練習支援システム
JP2006195094A (ja) 発音学習支援装置
JP4626310B2 (ja) 発音評価装置
JP4779365B2 (ja) 発音矯正支援装置
JP7376071B2 (ja) コンピュータプログラム、発音学習支援方法及び発音学習支援装置
JP4899383B2 (ja) 語学学習支援方法
JP2006195095A (ja) 音声処理サービス提供装置、マイクロホン
JP2006139162A (ja) 語学学習装置
JP2007071904A (ja) 地域別発音学習支援装置
KR20090081046A (ko) 인터넷을 이용한 언어 학습 시스템 및 방법
JP3988270B2 (ja) 発音表示装置、発音表示方法及び発音表示機能をコンピュータに実行させるためのプログラム
KR20230118425A (ko) 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 시스템
KR20140075145A (ko) 단어 및 문장과 이미지 데이터 그리고 원어민의 발음 데이터를 이용한 파닉스 학습장치 및 방법
Schlünz Usability of text-to-speech synthesis to bridge the digital divide in South Africa: Language practitioner perspectives
CN114420154A (zh) 正确发音的辅助训练方法、系统、终端设备及介质
KR20140074449A (ko) 단어와 이미지 데이터 및 원어민 발음 데이터를 이용한 단어 학습장치 및 방법
KR100768286B1 (ko) 이미지를 통한 문장 암기 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100126

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100608

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101012

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101025

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131119

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees