JP4189051B2

JP4189051B2 - 発音測定装置および方法

Info

Publication number: JP4189051B2
Application number: JP03219798A
Authority: JP
Inventors: ダナ・ベアード; ステファン・オースチン; ジェームス・トーリー
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 1997-01-30
Filing date: 1998-01-29
Publication date: 2008-12-03
Anticipated expiration: 2018-01-29
Also published as: CN1099646C; CN1191354A; JPH10222190A; US5857173A

Description

【０００１】
【発明の属する技術分野】
本発明は、例えば、語学学生に指導する目的のための、発音測定装置および発音測定方法に関するものである。
【０００２】
【従来の技術】
音声認識製造物は、入力音声の特徴を、所定の音声テンプレート、または訓練プロセスによって決定される音声テンプレートと比較する種々の方式を用い、増々使用可能な領域が広がりつつある。したがって、例えば、話者独立音声認識製造物(speaker independent voice recognition product) は、受信した音声の特徴を、「１」，「２」等のようなワードに対する所定のテンプレート、または、当技術では「音素(phonemes)」または「三音節(triphones) 」と一般的に呼ばれているワードの一部と比較し、これらを組み立てることによって完全なワードに対するテンプレートを形成する。ワードの一部に基づく音声認識システムの利点は、メモリに既に存在するテンプレートの一部から新しいワードを構築可能なことである。したがって、例えば、"promise" に対する複合テンプレートの最初の部分は、"conduct" に対するテンプレートの最後の部分と組み合わせることによって、"product" というワードに対するテンプレートを形成することができる。また、音声起動型ワード・プロセッサ・ソフトウエア(voice activated word processing software)も入手可能であり、このソフトウエアでは、大量の複合テンプレートを用いて、マイクロフォンからの音声入力を認識し、発音されたワードを文章処理用途の中で表示する。
【０００３】
【発明が解決しようとする課題】
このような製造物はワードの認識に照準を宛てており、その際入力ワードは未知であるが、辞書から選択した限られたワードの１つである。あるいは、これらは、ユーザが発音するワードを予め選択しておき、そのワードを話者が発音したときに、メモリ内にそのワードに対するテンプレートまたはモデルを作成することによって、かかる認識装置を訓練することに照準を宛てている。上述したタイプの音声認識装置は、話者が認識対象の言語を正しく発音できることを予め想定している。
【０００４】
【課題を解決するための手段】
本発明は、計算機に取り付けられた表示装置上に表示または指示されたワードまたは一連のワードを発声するように、話者に要求する。本発明の動作は、話者の音声を、表示または指示されたワードに対応するテンプレートと照合し、どれ位話者がうまくワードを発音したかについて測定し、教師が対象の語学学生を評価するのと全く同様に、ワードまたはワードの部分を評価する。音声認識装置とは対照的に、本発明は、話者が目標の言語に精通していない可能性もあることを想定している。
【０００５】
【発明の実施の形態】
以下、本発明の好適実施例について、例示としてのみ、図面を参照しながら説明する。
【０００６】
図１を参照すると、発音測定装置１０が示されている。この装置は、「音素教師(phoneme tutor) 」と呼ぶと好都合であろう。装置１０は、アナログ／デジタル変換器１２に接続されているマイクロフォン１１を備えており、一方、アナログ／デジタル変換器１２はマイクロプロセッサ１３の入力に接続されている。また、マイクロプロセッサ１３には、入力装置１４，メモリ１５，およびディスプレイ１６も接続されている。メモリ１５は、ワードおよび音素列または各ワードについてのその他のサブワードの辞書２０を有する。したがって、例えば、"computer"というワードが辞書２０に格納され、このワードと共に、以下のような２つの音素列も格納されている。
【０００７】
k-ah-m-p-uw-t-er およびk-ah-m-p-uw-d-er
これらの音素列は、ワード"computer"について一般的な２通りの発音方法を表しており、これらのどちらを発音してもよい。ネーティブ・スピーカ・データベース２１がメモリ１５内に設けられており、ユーザが模倣を望む発音を有するネーティブ・スピーカについて、異なる音素、ワードおよびセンテンスの統計的データを含む。また、メモリ１５内には、ユーザが真似をするための音声を合成するために、ネーティブ・スピーカの音声合成データも格納しておいてもよい。
【０００８】
マイクロプロセッサ１３は、ソフトウエアで形成された多数の素子を備えている。これらは、入力３１および出力３２を有する特徴抽出素子３０，特徴抽出素子３０の出力に接続されている入力を有し、辞書２０に接続されている入力３４を有するビタビ・デコーダ３３，第１および第２出力３５，３６，および部分的逆戻り出力(partial trace-back output) ３７を含む。統計的分析素子４０が設けられており、ビタビ・デコーダの出力３５，３６に結合されている入力を有し、ネーティブ・スピーカ・データベース２１の出力に結合されている入力４１，４２を有し、更に出力４３，４４を有する。コンピュータ・プログラムの形態のグラフィック・ユーザ・インターフェース５０が設けられており、統計的分析素子４０の出力４３，４４に接続されている入力を有し、ディスプレイ１６に結合されている出力５１を有する。また、プロセッサ１３内には、入力装置１４に結合され、辞書２０，ネーティブ・スピーカ・データベース２１およびグラフィック・ユーザ・インターフェース５０に結合された出力を有するセレクタ６０が示されている。プロセッサ１３内には、トラッキング・ツール(tracking tool) ６２が設けられ、ビタビ・デコーダの出力３７に接続された入力を有し、グラフィック・ユーザ・インターフェース５０に結合された出力６３を有する。
【０００９】
ビタビ・デコーダ３３の好適な詳細構造を、一例として、図２に示す。ビタビ・デコーダ３３は、入力３４に結合されているサブワード列セレクタ１００（例えば、音素列セレクタ）を備え、無音モデル(silence model) １０１および多数の音素モデル１０２ないし１０７を備えている。音素モデル１０２，１０３，１０４は、直列に接続されており、音素モデル１０４は、音素モデル１０５，１０６に並列に接続され、更にこれらは音素モデル１０７に直列に接続されている。最後に、無音モデル１０８が、モデルのネットワークの終端に追加されている。スコア比較器１１０が設けられ、音素モデルの各々に接続されている。音素モデルの各々は、各モデル内に示すように、選択された音素（即ち、他のサブワード）を識別するように構築されている。図２は、ワード"computer"を用いた例を示す。同様にして、他のあらゆるワードまたは一連のワードでも表すことが可能である。
【００１０】
図１の装置の動作について、図３のフロー・チャートを参照しながら説明する。ステップ２００において、ワード，フレーズまたはその他の表現を、入力装置１４を用いて選択する。入力装置１４は、例えば、キーボードであり、ワード"computer"を入力することができる。このワードはセレクタ６０に供給される。セレクタ６０は辞書２０を調べ（ステップ２０１）、上述の対応する音素列を、辞書２０からビタビ・デコーダ入力３４にロードする。ステップ２０２において、ビタビ・デコーダを構築し、図２の種々の音素モデル１０２ないし１０７を構築する。同時に、セレクタ６０は選択されたワードをグラフィック・ユーザ・インターフェース５０に供給し、ディスプレイ１６上に表示する。
【００１１】
ここで、ユーザはマイクロフォン１１に向かって発音する（ステップ２１０）。アナログ／デジタル変換器１２は、音声を例えば１６ＫＢＰＳでデジタル・ビット・ストリームにデジタル化する。特徴抽出素子３０は、当技術では既知のように、スペクトル上の特徴および励起特徴(excitation features) をデジタル・ビット・ストリームから抽出する。これらの特徴は、典型的なレートである毎秒１００サンプルで、ビタビ・デコーダ３３に供給される。これらのサンプルは、同時に、フレーム単位で種々のモデル１０１ないし１０８のサブセットに供給される。フレームは、最適な照合経路にしたがって、図の左から右に、一連のモデルによって連続的に消費される。尚、最適な照合経路は、いずれの所与のモデルにおいても照合の結果によって異なる。
【００１２】
各音素モデルは、受信したサンプル・ストリーム内において特定の音素を検出し、サンプルおよび識別すべき音素間の相関度を示す第１の値、および音素の持続期間を示す第２の値を、スコア比較器１１０に供給する。ワードが完了し無音モデル１０１がワードの終了時の無音を検出したとき、スコア比較器１１０は、これらの値を統計的分析素子４０に供給する。
【００１３】
セレクタ６０は、他の参照動作(loop-up operation) も行わせる。これは、ネーティブ・スピーカ・データベース２１内において、対象のワード（"computer"）に対する統計データを、統計的分析素子４０の入力４１，４２に入力することである。対象ワードの各音素について、当該音素の持続期間についての目標平均および偏差、ならびに当該音素のスコアについての目標平均および偏差を、それぞれ入力４１，４２に入力する。このステップは、図３においてステップ２１５として示されているが、このステップはステップ２０１と同時に実行可能であることは認められよう。
【００１４】
ビタビ・デコーダ３３からの出力の統計的分析は、図３のステップ２１６において、次のように実行される。特定の音素の持続期間にわたり、出力３５から出力される値を、入力４１における当該音素に対する目標平均持続期間と比較する。測定持続期間および目標平均持続期間の間の差を計算し、ネーティブ・スピーカの音素の持続期間に対する、入力４２における分散(variance)で除算する。その結果は、測定した持続期間に対する信頼係数(confidence level)となる。測定持続期間が平均持続期間に近い場合、信頼係数は高いが、持続期間が平均持続期間から大きく異なっていても、ネーティブ・スピーカによって発音される音素の持続期間に対する分散が大きければ、その場合でも高い信頼係数を得ることができる。
【００１５】
同様に、特定の音素に対するスコア（即ち、相関）が出力３６に出力され、ネーティブ・スピーカによって発声され、統計的分析素子４０の入力４２に入力される音素に対する目標平均スコアと比較される。同様に、そのスコアに対する偏差も入力４２に供給される。測定したスコアおよび目標平均スコア間の差を計算し、当該スコアに対する分散で除算する。その結果は、発声された音素およびネーティブ・スピーカの音素間の相関度に対する信頼係数を与える。音素の持続期間に対する信頼係数および音素のスコアに対する信頼係数は、それぞれ、統計的分析要素４０の出力４３，４４に出力される。これらはグラフィック・ユーザ・インターフェース５０に供給され、その結果はディスプレイ１６上に表示される。この結果の表示を図３においてステップ２２０として示す。
【００１６】
このように、統計的分析要素４０は、話者データベース２１に対する、ビタビ・デコーダ３３の出力３５または３６における信号についてのグレードを構築し、そのグレードを出力として与える統計的比較器である。
【００１７】
グラフィック・ユーザ・インターフェース５０は、多くの異なる形態で結果の指示を与えることができる。ディスプレイ１６上に表示される結果の一例を図４に示す。図４における図示は、種々の音素の相対的持続期間および相関の双方の視覚的指示を与えるという利点がある。図４において、タイムライン４００が示され、このタイムラインの下に音素４０１が個別に並べられており、各音素に対して、矩形のバー４０２がタイムライン上に指示されている。バーの高さはネーティブ・スピーカの言語の音素との相関を示す。したがって、高いバー程よりよい相関、即ち、正しく発音された音素を示し、短いバー程下手に発音された音素を示す。バー４０３の長さ寸法は、ネーティブ・スピーカによって発声される音素の好適な持続期間に対する音素の持続期間を示す。したがって、長いバーは発音における過剰持続期間を示し、短いバーは音素に対して不十分な持続期間を示す。
【００１８】
このように、ユーザは対象ワードの発音の質を容易に視覚化することができる。図示の例では、例えば、母音"AH"は比較的下手に発音されており、その持続期間はいくらか過剰気味であり、一方母音"UW"はより正しい発音を有し、その持続期間は適切である。このようにして、ユーザは、最初の母音の発音に改善の余地があり、２番目の母音の発音は適当であることを知るのである。
【００１９】
表現の発音の勉強および練習において語学学生を補佐するための単純で有用な装置についてこれまで述べてきた。このツールは、単に表現を音素に分割し、ユーザに個々の音素の発音の質について指示を与えることによって、殆どあらゆる言語の勉強に適用可能である。ユーザに与える指示は、好ましくは発音の質および発音の持続期間の指示を含むことを述べた。尚、個々の音素の発音の指示は、必ずしもこれら特定の面について与える必要はなく、実際には、例えば、ピッチ、強調のような発音の他の面を示すことも可能である。
【００２０】
ここに記載するツールの変更および拡張を行い、追加の有用な特徴を提供することも可能である。例えば、フレーズおよびセンテンス全体を入力装置１４に入力し、出力ディスプレイ１６に表示することが可能である。信頼係数は、ワード全体の発音またはフレーズ，センテンス全体またはその他の表現の発音に対して、指示することが可能である。
【００２１】
図５は、音素，ワードおよびセンテンスに対して信頼係数を与える方法を示す。ツリーが図示されており、この中では、音素の持続期間に対する信頼係数５０１および音素のスコアに対する信頼係数５０２を結合し、音素に対する単一の信頼係数５０３を形成する。この音素に対する信頼係数を、あるワードの他の音素に対する信頼係数５０６と結合する。これらの信頼係数を併せて、二音素ワードに対する信頼係数５０７を与える。信頼係数５０７は、他のワードの信頼係数５０８と結合し、ワードの組み合わせに対する信頼係数５１０、または実際にはセンテンス全体に対する信頼係数を与えることができる。勿論、図５に示すツリーは、完全なフレーズまたはセンテンスのための更に大きなツリーの例示に過ぎない。
【００２２】
次に、図１に示したトラッキング・ツール６２について、更に詳細に説明する。トラッキング・ツール６２は、センテンスの発音を通じて、進展の指示をユーザに与えるオプションの特徴である。ビタビ・デコーダの出力３７は、トラッキング・ツール６２に、ワードのスコアを通じて、ビタビ・デコーダがどれ位進展したのかを示す。図２の各音素モデル１０２，１０３等はその特定の音素を検出し、当該音素の検出を完了するので、そして次の音素モデルは続く音素の検出を始めるので、部分的な逆戻り指示をトラッキング・ツール６２に与えて、１つの音素の検出完了、および次の音素の検出開始を示す。トラッキング・ツール６２は、この進展を、発音されるセンテンスのワードに関係付ける。トラッキング・ツール６２は、出力６３におけるこの進展の指示を、グラフィック・ユーザ・インターフェース５０に与える。一例を図６に示す。
【００２３】
図６に、表現"I love my computer"を入力装置１４に入力したセンテンスとして、ユーザが発音した場合のディスプレイ１６上の表示出力を示す。トラッキング・ツール６２がグラフィック・ユーザ・インターフェース５０に、このセンテンスを発音するユーザの動作の進展を指示すると、グラフィック・ユーザ・インターフェース５０は、ユーザがセンテンスを発音するのにしたがって音節から音節に跳ねて行くように見えるバウンシング・ボール(bouncing ball) ６００を発生する。このボールの音節から音節への跳躍、またはその他の適切な進展指示が、トラッキング・ツール６２からの出力６３によって開始される。
【００２４】
以上、発音測定方法および発音測定装置について説明したが、これは単に一例に過ぎず、本発明の範囲および精神から逸脱することなく、その詳細における変更は当業者には容易に行うことができよう。
【図面の簡単な説明】
【図１】本発明の好適実施例による発音測定装置の回路を示すブロック図。
【図２】図１のビタビ・デコーダの詳細を示す構成図。
【図３】図１の装置の動作を示すフロー・チャート。
【図４】図１の装置のディスプレイ上の出力を示す図。
【図５】特に好適な構造を示すツリー図。
【図６】特に好適なグラフィック・ユーザ・インターフェースの構造を示す図。
【符号の説明】
１０発音測定装置
１１マイクロフォン
１２アナログ／デジタル変換器
１３マイクロプロセッサ
１４入力装置
１５メモリ
１６ディスプレイ
２０辞書
２１ネーティブ・スピーカ・データベース
３０特徴抽出素子
３３ビタビ・デコーダ
３７部分的逆戻り出力
４０統計的分析素子
５０グラフィック・ユーザ・インターフェース
６０セレクタ
１００サブワード列セレクタ
１０１無音モデル
１０２〜１０７音素モデル
１０８無音モデル
１１０スコア比較器
４００タイムライン
４０１音素
４０２，４０３バー
６００バウンシング・ボール

Claims

発音測定方法であって、
音声入力（３１）を受信し、その音声入力を処理して複数の音声入力音素を得る段階と、
参照動作を実行し、前記音声入力に対する所定のモデル（３４）を得る段階と、前記所定のモデルは複数のモデル音素からなることと、
前記音声入力音素をモデル音素と比較することにより、前記音声入力を前記モデルに対応させてスコア（３６）を得る段階と、
所定の話者（２１）に対するスコアに関して前記スコアを分析する段階と、その段階は音声入力音素の持続期間をモデル音素の持続期間と比較することを含み、それによって分析の結果を得ることと、
分析した結果を指示する段階とを有し、その結果を指示する段階は、発音すべき表現を示し、発音すべき表現における前記話者の音声の進展状態を示し、かつ、前記音声入力音素の持続期間の信頼性尺度を示すことを含むことと
から成ることを特徴とする方法。
表現を選択する段階を更に含み、前記参照動作を実行する段階は、前記選択した表現に対する所定のモデルをメモリ（２０）から得る段階より成ることを特徴とする請求項１記載の方法。
前記音声入力を前記モデルに対応させてスコアを得る前記段階は、サブワードの持続期間の測定値を与える第１出力（３５）と、前記音声入力内のサブワードと前記所定のモデル内のサブワードとの間の相関の測定値を与える第２出力（３６）とを与える段階より成ることを特徴とする請求項１記載の方法。
前記スコアを分析する前記段階は、前記所定の話者のサブワードの持続期間の所定の測定値（４１）に関して、前記第１出力（３５）の統計的分析を行う段階より成ることを特徴とする請求項３記載の方法。
前記結果を指示する段階は、前記統計的分析により得られるグラフィック表示を与える段階より成ることを特徴とする請求項４記載の方法。
前記スコアを分析する前記段階は、前記所定の話者のサブワードと前記所定のモデルのサブワードとの間の相関の所定の測定値（４２）に関する前記第２出力（３６）の統計的分析を行う段階より成ることを特徴とする請求項３記載の方法。
分析した結果を指示する前記段階は、前記統計的分析により得られるグラフィック表示を与える段階より成ることを特徴とする請求項６記載の方法。
発音測定装置であって、
話者の音声を表す信号を受信する入力（３２）と出力とを有する音声モデリング素子（３３）と、
話者データベース（１５）と、
前記話者データベース（１５）に結合されている第１入力（４１，４２）、および前記音声モデリング素子の出力に結合されている第２入力（３５，３６）を有し、ならびに出力（４３，４４）を有する分析素子（４０）と、
前記分析素子の出力に結合されている指示装置（５０，１６）と
を有し、前記指示装置は、発音すべき表現を示し、かつ、発音される表現における前記話者の音声の進展状態を示すトラッキング・ツール（６００）を含んだグラフィック・ユーザ・インターフェースであって、そのグラフィック・ユーザ・インターフェースは話者の音声の音素の持続期間に対する信頼性尺度の指示部（４０３）と、話者の音声の音素の質に対する信頼性尺度の指示部（４０１）とを有すること
から成ることを特徴とする装置。
前記音声モデリング素子は、異なる表現を表す複数の所定のモデル（１０２〜１０８）を内部に格納しているメモリ素子を含むことを特徴とする請求項８記載の装置。
前記音声モデリング素子に結合され、発音を測定する表現を選択する選択入力装置（１４，６０）を更に含むことを特徴とする請求項９記載の装置。
前記音声モデリング素子は、サブワード・モデリング素子であることを特徴とする請求項８記載の装置。
前記サブワード・モデリング素子は、音素モデリング素子であることを特徴とする請求項１１記載の装置。
前記音声モデリング素子はビタビ・デコーダであることを特徴とする請求項１１記載の装置。
前記音声モデリング素子は、持続期間の測定値を与える第１出力（３５）、および相関測定値を与える第２出力（３６）を備えていることを特徴とする請求項８記載の装置。
前記分析素子は、前記第２入力における信号の前記話者データベースに対するグレードを決定し、該グレードを出力として与える統計的比較器を備えていることを特徴とする請求項８記載の装置。