JP4189051B2 - 発音測定装置および方法 - Google Patents
発音測定装置および方法 Download PDFInfo
- Publication number
- JP4189051B2 JP4189051B2 JP03219798A JP3219798A JP4189051B2 JP 4189051 B2 JP4189051 B2 JP 4189051B2 JP 03219798 A JP03219798 A JP 03219798A JP 3219798 A JP3219798 A JP 3219798A JP 4189051 B2 JP4189051 B2 JP 4189051B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- input
- output
- phoneme
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 12
- 238000007619 statistical method Methods 0.000 claims description 13
- 230000014509 gene expression Effects 0.000 claims description 10
- 238000005259 measurement Methods 0.000 claims description 8
- 238000000691 measurement method Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/04—Speaking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Entrepreneurship & Innovation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Electrically Operated Instructional Devices (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Description
【発明の属する技術分野】
本発明は、例えば、語学学生に指導する目的のための、発音測定装置および発音測定方法に関するものである。
【0002】
【従来の技術】
音声認識製造物は、入力音声の特徴を、所定の音声テンプレート、または訓練プロセスによって決定される音声テンプレートと比較する種々の方式を用い、増々使用可能な領域が広がりつつある。したがって、例えば、話者独立音声認識製造物(speaker independent voice recognition product) は、受信した音声の特徴を、「1」,「2」等のようなワードに対する所定のテンプレート、または、当技術では「音素(phonemes)」または「三音節(triphones) 」と一般的に呼ばれているワードの一部と比較し、これらを組み立てることによって完全なワードに対するテンプレートを形成する。ワードの一部に基づく音声認識システムの利点は、メモリに既に存在するテンプレートの一部から新しいワードを構築可能なことである。したがって、例えば、"promise" に対する複合テンプレートの最初の部分は、"conduct" に対するテンプレートの最後の部分と組み合わせることによって、"product" というワードに対するテンプレートを形成することができる。また、音声起動型ワード・プロセッサ・ソフトウエア(voice activated word processing software)も入手可能であり、このソフトウエアでは、大量の複合テンプレートを用いて、マイクロフォンからの音声入力を認識し、発音されたワードを文章処理用途の中で表示する。
【0003】
【発明が解決しようとする課題】
このような製造物はワードの認識に照準を宛てており、その際入力ワードは未知であるが、辞書から選択した限られたワードの1つである。あるいは、これらは、ユーザが発音するワードを予め選択しておき、そのワードを話者が発音したときに、メモリ内にそのワードに対するテンプレートまたはモデルを作成することによって、かかる認識装置を訓練することに照準を宛てている。上述したタイプの音声認識装置は、話者が認識対象の言語を正しく発音できることを予め想定している。
【0004】
【課題を解決するための手段】
本発明は、計算機に取り付けられた表示装置上に表示または指示されたワードまたは一連のワードを発声するように、話者に要求する。本発明の動作は、話者の音声を、表示または指示されたワードに対応するテンプレートと照合し、どれ位話者がうまくワードを発音したかについて測定し、教師が対象の語学学生を評価するのと全く同様に、ワードまたはワードの部分を評価する。音声認識装置とは対照的に、本発明は、話者が目標の言語に精通していない可能性もあることを想定している。
【0005】
【発明の実施の形態】
以下、本発明の好適実施例について、例示としてのみ、図面を参照しながら説明する。
【0006】
図1を参照すると、発音測定装置10が示されている。この装置は、「音素教師(phoneme tutor) 」と呼ぶと好都合であろう。装置10は、アナログ/デジタル変換器12に接続されているマイクロフォン11を備えており、一方、アナログ/デジタル変換器12はマイクロプロセッサ13の入力に接続されている。また、マイクロプロセッサ13には、入力装置14,メモリ15,およびディスプレイ16も接続されている。メモリ15は、ワードおよび音素列または各ワードについてのその他のサブワードの辞書20を有する。したがって、例えば、"computer"というワードが辞書20に格納され、このワードと共に、以下のような2つの音素列も格納されている。
【0007】
k-ah-m-p-uw-t-er およびk-ah-m-p-uw-d-er
これらの音素列は、ワード"computer"について一般的な2通りの発音方法を表しており、これらのどちらを発音してもよい。ネーティブ・スピーカ・データベース21がメモリ15内に設けられており、ユーザが模倣を望む発音を有するネーティブ・スピーカについて、異なる音素、ワードおよびセンテンスの統計的データを含む。また、メモリ15内には、ユーザが真似をするための音声を合成するために、ネーティブ・スピーカの音声合成データも格納しておいてもよい。
【0008】
マイクロプロセッサ13は、ソフトウエアで形成された多数の素子を備えている。これらは、入力31および出力32を有する特徴抽出素子30,特徴抽出素子30の出力に接続されている入力を有し、辞書20に接続されている入力34を有するビタビ・デコーダ33,第1および第2出力35,36,および部分的逆戻り出力(partial trace-back output) 37を含む。統計的分析素子40が設けられており、ビタビ・デコーダの出力35,36に結合されている入力を有し、ネーティブ・スピーカ・データベース21の出力に結合されている入力41,42を有し、更に出力43,44を有する。コンピュータ・プログラムの形態のグラフィック・ユーザ・インターフェース50が設けられており、統計的分析素子40の出力43,44に接続されている入力を有し、ディスプレイ16に結合されている出力51を有する。また、プロセッサ13内には、入力装置14に結合され、辞書20,ネーティブ・スピーカ・データベース21およびグラフィック・ユーザ・インターフェース50に結合された出力を有するセレクタ60が示されている。プロセッサ13内には、トラッキング・ツール(tracking tool) 62が設けられ、ビタビ・デコーダの出力37に接続された入力を有し、グラフィック・ユーザ・インターフェース50に結合された出力63を有する。
【0009】
ビタビ・デコーダ33の好適な詳細構造を、一例として、図2に示す。ビタビ・デコーダ33は、入力34に結合されているサブワード列セレクタ100(例えば、音素列セレクタ)を備え、無音モデル(silence model) 101および多数の音素モデル102ないし107を備えている。音素モデル102,103,104は、直列に接続されており、音素モデル104は、音素モデル105,106に並列に接続され、更にこれらは音素モデル107に直列に接続されている。最後に、無音モデル108が、モデルのネットワークの終端に追加されている。スコア比較器110が設けられ、音素モデルの各々に接続されている。音素モデルの各々は、各モデル内に示すように、選択された音素(即ち、他のサブワード)を識別するように構築されている。図2は、ワード"computer"を用いた例を示す。同様にして、他のあらゆるワードまたは一連のワードでも表すことが可能である。
【0010】
図1の装置の動作について、図3のフロー・チャートを参照しながら説明する。ステップ200において、ワード,フレーズまたはその他の表現を、入力装置14を用いて選択する。入力装置14は、例えば、キーボードであり、ワード"computer"を入力することができる。このワードはセレクタ60に供給される。セレクタ60は辞書20を調べ(ステップ201)、上述の対応する音素列を、辞書20からビタビ・デコーダ入力34にロードする。ステップ202において、ビタビ・デコーダを構築し、図2の種々の音素モデル102ないし107を構築する。同時に、セレクタ60は選択されたワードをグラフィック・ユーザ・インターフェース50に供給し、ディスプレイ16上に表示する。
【0011】
ここで、ユーザはマイクロフォン11に向かって発音する(ステップ210)。アナログ/デジタル変換器12は、音声を例えば16KBPSでデジタル・ビット・ストリームにデジタル化する。特徴抽出素子30は、当技術では既知のように、スペクトル上の特徴および励起特徴(excitation features) をデジタル・ビット・ストリームから抽出する。これらの特徴は、典型的なレートである毎秒100サンプルで、ビタビ・デコーダ33に供給される。これらのサンプルは、同時に、フレーム単位で種々のモデル101ないし108のサブセットに供給される。フレームは、最適な照合経路にしたがって、図の左から右に、一連のモデルによって連続的に消費される。尚、最適な照合経路は、いずれの所与のモデルにおいても照合の結果によって異なる。
【0012】
各音素モデルは、受信したサンプル・ストリーム内において特定の音素を検出し、サンプルおよび識別すべき音素間の相関度を示す第1の値、および音素の持続期間を示す第2の値を、スコア比較器110に供給する。ワードが完了し無音モデル101がワードの終了時の無音を検出したとき、スコア比較器110は、これらの値を統計的分析素子40に供給する。
【0013】
セレクタ60は、他の参照動作(loop-up operation) も行わせる。これは、ネーティブ・スピーカ・データベース21内において、対象のワード("computer")に対する統計データを、統計的分析素子40の入力41,42に入力することである。対象ワードの各音素について、当該音素の持続期間についての目標平均および偏差、ならびに当該音素のスコアについての目標平均および偏差を、それぞれ入力41,42に入力する。このステップは、図3においてステップ215として示されているが、このステップはステップ201と同時に実行可能であることは認められよう。
【0014】
ビタビ・デコーダ33からの出力の統計的分析は、図3のステップ216において、次のように実行される。特定の音素の持続期間にわたり、出力35から出力される値を、入力41における当該音素に対する目標平均持続期間と比較する。測定持続期間および目標平均持続期間の間の差を計算し、ネーティブ・スピーカの音素の持続期間に対する、入力42における分散(variance)で除算する。その結果は、測定した持続期間に対する信頼係数(confidence level)となる。測定持続期間が平均持続期間に近い場合、信頼係数は高いが、持続期間が平均持続期間から大きく異なっていても、ネーティブ・スピーカによって発音される音素の持続期間に対する分散が大きければ、その場合でも高い信頼係数を得ることができる。
【0015】
同様に、特定の音素に対するスコア(即ち、相関)が出力36に出力され、ネーティブ・スピーカによって発声され、統計的分析素子40の入力42に入力される音素に対する目標平均スコアと比較される。同様に、そのスコアに対する偏差も入力42に供給される。測定したスコアおよび目標平均スコア間の差を計算し、当該スコアに対する分散で除算する。その結果は、発声された音素およびネーティブ・スピーカの音素間の相関度に対する信頼係数を与える。音素の持続期間に対する信頼係数および音素のスコアに対する信頼係数は、それぞれ、統計的分析要素40の出力43,44に出力される。これらはグラフィック・ユーザ・インターフェース50に供給され、その結果はディスプレイ16上に表示される。この結果の表示を図3においてステップ220として示す。
【0016】
このように、統計的分析要素40は、話者データベース21に対する、ビタビ・デコーダ33の出力35または36における信号についてのグレードを構築し、そのグレードを出力として与える統計的比較器である。
【0017】
グラフィック・ユーザ・インターフェース50は、多くの異なる形態で結果の指示を与えることができる。ディスプレイ16上に表示される結果の一例を図4に示す。図4における図示は、種々の音素の相対的持続期間および相関の双方の視覚的指示を与えるという利点がある。図4において、タイムライン400が示され、このタイムラインの下に音素401が個別に並べられており、各音素に対して、矩形のバー402がタイムライン上に指示されている。バーの高さはネーティブ・スピーカの言語の音素との相関を示す。したがって、高いバー程よりよい相関、即ち、正しく発音された音素を示し、短いバー程下手に発音された音素を示す。バー403の長さ寸法は、ネーティブ・スピーカによって発声される音素の好適な持続期間に対する音素の持続期間を示す。したがって、長いバーは発音における過剰持続期間を示し、短いバーは音素に対して不十分な持続期間を示す。
【0018】
このように、ユーザは対象ワードの発音の質を容易に視覚化することができる。図示の例では、例えば、母音"AH"は比較的下手に発音されており、その持続期間はいくらか過剰気味であり、一方母音"UW"はより正しい発音を有し、その持続期間は適切である。このようにして、ユーザは、最初の母音の発音に改善の余地があり、2番目の母音の発音は適当であることを知るのである。
【0019】
表現の発音の勉強および練習において語学学生を補佐するための単純で有用な装置についてこれまで述べてきた。このツールは、単に表現を音素に分割し、ユーザに個々の音素の発音の質について指示を与えることによって、殆どあらゆる言語の勉強に適用可能である。ユーザに与える指示は、好ましくは発音の質および発音の持続期間の指示を含むことを述べた。尚、個々の音素の発音の指示は、必ずしもこれら特定の面について与える必要はなく、実際には、例えば、ピッチ、強調のような発音の他の面を示すことも可能である。
【0020】
ここに記載するツールの変更および拡張を行い、追加の有用な特徴を提供することも可能である。例えば、フレーズおよびセンテンス全体を入力装置14に入力し、出力ディスプレイ16に表示することが可能である。信頼係数は、ワード全体の発音またはフレーズ,センテンス全体またはその他の表現の発音に対して、指示することが可能である。
【0021】
図5は、音素,ワードおよびセンテンスに対して信頼係数を与える方法を示す。ツリーが図示されており、この中では、音素の持続期間に対する信頼係数501および音素のスコアに対する信頼係数502を結合し、音素に対する単一の信頼係数503を形成する。この音素に対する信頼係数を、あるワードの他の音素に対する信頼係数506と結合する。これらの信頼係数を併せて、二音素ワードに対する信頼係数507を与える。信頼係数507は、他のワードの信頼係数508と結合し、ワードの組み合わせに対する信頼係数510、または実際にはセンテンス全体に対する信頼係数を与えることができる。勿論、図5に示すツリーは、完全なフレーズまたはセンテンスのための更に大きなツリーの例示に過ぎない。
【0022】
次に、図1に示したトラッキング・ツール62について、更に詳細に説明する。トラッキング・ツール62は、センテンスの発音を通じて、進展の指示をユーザに与えるオプションの特徴である。ビタビ・デコーダの出力37は、トラッキング・ツール62に、ワードのスコアを通じて、ビタビ・デコーダがどれ位進展したのかを示す。図2の各音素モデル102,103等はその特定の音素を検出し、当該音素の検出を完了するので、そして次の音素モデルは続く音素の検出を始めるので、部分的な逆戻り指示をトラッキング・ツール62に与えて、1つの音素の検出完了、および次の音素の検出開始を示す。トラッキング・ツール62は、この進展を、発音されるセンテンスのワードに関係付ける。トラッキング・ツール62は、出力63におけるこの進展の指示を、グラフィック・ユーザ・インターフェース50に与える。一例を図6に示す。
【0023】
図6に、表現"I love my computer"を入力装置14に入力したセンテンスとして、ユーザが発音した場合のディスプレイ16上の表示出力を示す。トラッキング・ツール62がグラフィック・ユーザ・インターフェース50に、このセンテンスを発音するユーザの動作の進展を指示すると、グラフィック・ユーザ・インターフェース50は、ユーザがセンテンスを発音するのにしたがって音節から音節に跳ねて行くように見えるバウンシング・ボール(bouncing ball) 600を発生する。このボールの音節から音節への跳躍、またはその他の適切な進展指示が、トラッキング・ツール62からの出力63によって開始される。
【0024】
以上、発音測定方法および発音測定装置について説明したが、これは単に一例に過ぎず、本発明の範囲および精神から逸脱することなく、その詳細における変更は当業者には容易に行うことができよう。
【図面の簡単な説明】
【図1】本発明の好適実施例による発音測定装置の回路を示すブロック図。
【図2】図1のビタビ・デコーダの詳細を示す構成図。
【図3】図1の装置の動作を示すフロー・チャート。
【図4】図1の装置のディスプレイ上の出力を示す図。
【図5】特に好適な構造を示すツリー図。
【図6】特に好適なグラフィック・ユーザ・インターフェースの構造を示す図。
【符号の説明】
10 発音測定装置
11 マイクロフォン
12 アナログ/デジタル変換器
13 マイクロプロセッサ
14 入力装置
15 メモリ
16 ディスプレイ
20 辞書
21 ネーティブ・スピーカ・データベース
30 特徴抽出素子
33 ビタビ・デコーダ
37 部分的逆戻り出力
40 統計的分析素子
50 グラフィック・ユーザ・インターフェース
60 セレクタ
100 サブワード列セレクタ
101 無音モデル
102〜107 音素モデル
108 無音モデル
110 スコア比較器
400 タイムライン
401 音素
402,403 バー
600 バウンシング・ボール
Claims (15)
- 発音測定方法であって、
音声入力(31)を受信し、その音声入力を処理して複数の音声入力音素を得る段階と、
参照動作を実行し、前記音声入力に対する所定のモデル(34)を得る段階と、前記所定のモデルは複数のモデル音素からなることと、
前記音声入力音素をモデル音素と比較することにより、前記音声入力を前記モデルに対応させてスコア(36)を得る段階と、
所定の話者(21)に対するスコアに関して前記スコアを分析する段階と、その段階は音声入力音素の持続期間をモデル音素の持続期間と比較することを含み、それによって分析の結果を得ることと、
分析した結果を指示する段階とを有し、その結果を指示する段階は、発音すべき表現を示し、発音すべき表現における前記話者の音声の進展状態を示し、かつ、前記音声入力音素の持続期間の信頼性尺度を示すことを含むことと
から成ることを特徴とする方法。 - 表現を選択する段階を更に含み、前記参照動作を実行する段階は、前記選択した表現に対する所定のモデルをメモリ(20)から得る段階より成ることを特徴とする請求項1記載の方法。
- 前記音声入力を前記モデルに対応させてスコアを得る前記段階は、サブワードの持続期間の測定値を与える第1出力(35)と、前記音声入力内のサブワードと前記所定のモデル内のサブワードとの間の相関の測定値を与える第2出力(36)とを与える段階より成ることを特徴とする請求項1記載の方法。
- 前記スコアを分析する前記段階は、前記所定の話者のサブワードの持続期間の所定の測定値(41)に関して、前記第1出力(35)の統計的分析を行う段階より成ることを特徴とする請求項3記載の方法。
- 前記結果を指示する段階は、前記統計的分析により得られるグラフィック表示を与える段階より成ることを特徴とする請求項4記載の方法。
- 前記スコアを分析する前記段階は、前記所定の話者のサブワードと前記所定のモデルのサブワードとの間の相関の所定の測定値(42)に関する前記第2出力(36)の統計的分析を行う段階より成ることを特徴とする請求項3記載の方法。
- 分析した結果を指示する前記段階は、前記統計的分析により得られるグラフィック表示を与える段階より成ることを特徴とする請求項6記載の方法。
- 発音測定装置であって、
話者の音声を表す信号を受信する入力(32)と出力とを有する音声モデリング素子(33)と、
話者データベース(15)と、
前記話者データベース(15)に結合されている第1入力(41,42)、および前記音声モデリング素子の出力に結合されている第2入力(35,36)を有し、ならびに出力(43,44)を有する分析素子(40)と、
前記分析素子の出力に結合されている指示装置(50,16)と
を有し、前記指示装置は、発音すべき表現を示し、かつ、発音される表現における前記話者の音声の進展状態を示すトラッキング・ツール(600)を含んだグラフィック・ユーザ・インターフェースであって、そのグラフィック・ユーザ・インターフェースは話者の音声の音素の持続期間に対する信頼性尺度の指示部(403)と、話者の音声の音素の質に対する信頼性尺度の指示部(401)とを有すること
から成ることを特徴とする装置。 - 前記音声モデリング素子は、異なる表現を表す複数の所定のモデル(102〜108)を内部に格納しているメモリ素子を含むことを特徴とする請求項8記載の装置。
- 前記音声モデリング素子に結合され、発音を測定する表現を選択する選択入力装置(14,60)を更に含むことを特徴とする請求項9記載の装置。
- 前記音声モデリング素子は、サブワード・モデリング素子であることを特徴とする請求項8記載の装置。
- 前記サブワード・モデリング素子は、音素モデリング素子であることを特徴とする請求項11記載の装置。
- 前記音声モデリング素子はビタビ・デコーダであることを特徴とする請求項11記載の装置。
- 前記音声モデリング素子は、持続期間の測定値を与える第1出力(35)、および相関測定値を与える第2出力(36)を備えていることを特徴とする請求項8記載の装置。
- 前記分析素子は、前記第2入力における信号の前記話者データベースに対するグレードを決定し、該グレードを出力として与える統計的比較器を備えていることを特徴とする請求項8記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US791124 | 1991-11-13 | ||
US08/791,124 US5857173A (en) | 1997-01-30 | 1997-01-30 | Pronunciation measurement device and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10222190A JPH10222190A (ja) | 1998-08-21 |
JP4189051B2 true JP4189051B2 (ja) | 2008-12-03 |
Family
ID=25152769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP03219798A Expired - Lifetime JP4189051B2 (ja) | 1997-01-30 | 1998-01-29 | 発音測定装置および方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US5857173A (ja) |
JP (1) | JP4189051B2 (ja) |
CN (1) | CN1099646C (ja) |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6120298A (en) * | 1998-01-23 | 2000-09-19 | Scientific Learning Corp. | Uniform motivation for multiple computer-assisted training systems |
DE19842405A1 (de) * | 1998-09-16 | 2000-03-23 | Philips Corp Intellectual Pty | Spracherkennungsverfahren mit Konfidenzmaßbewertung |
US6336089B1 (en) * | 1998-09-22 | 2002-01-01 | Michael Everding | Interactive digital phonetic captioning program |
US7062441B1 (en) | 1999-05-13 | 2006-06-13 | Ordinate Corporation | Automated language assessment using speech recognition modeling |
DE19929462A1 (de) * | 1999-06-26 | 2001-02-22 | Philips Corp Intellectual Pty | Verfahren zum Training eines automatischen Spracherkenners |
EP1067512B1 (en) * | 1999-07-08 | 2007-12-26 | Sony Deutschland GmbH | Method for determining a confidence measure for speech recognition |
EP1110500A3 (de) * | 1999-12-20 | 2003-02-12 | Siemens Aktiengesellschaft | Verfahren und Vorrichtung zur Selbstkontrolle des Ist-Zustands eines an einer neurologischen Erkrankung leidenden Patienten |
EP1189202A1 (en) * | 2000-09-18 | 2002-03-20 | Sony International (Europe) GmbH | Duration models for speech recognition |
US6725198B2 (en) | 2001-01-25 | 2004-04-20 | Harcourt Assessment, Inc. | Speech analysis system and method |
US6732076B2 (en) | 2001-01-25 | 2004-05-04 | Harcourt Assessment, Inc. | Speech analysis and therapy system and method |
WO2002071390A1 (en) * | 2001-03-01 | 2002-09-12 | Ordinate Corporation | A system for measuring intelligibility of spoken language |
US6953343B2 (en) * | 2002-02-06 | 2005-10-11 | Ordinate Corporation | Automatic reading system and methods |
KR100499854B1 (ko) * | 2002-04-11 | 2005-07-08 | 주식회사 언어과학 | 음소별 오류유형 검출시스템 및 방법과 이를 적용한발음교정 시스템 및 방법 |
TW556152B (en) * | 2002-05-29 | 2003-10-01 | Labs Inc L | Interface of automatically labeling phonic symbols for correcting user's pronunciation, and systems and methods |
US7219059B2 (en) * | 2002-07-03 | 2007-05-15 | Lucent Technologies Inc. | Automatic pronunciation scoring for language learning |
US20040049391A1 (en) * | 2002-09-09 | 2004-03-11 | Fuji Xerox Co., Ltd. | Systems and methods for dynamic reading fluency proficiency assessment |
US7455522B2 (en) * | 2002-10-04 | 2008-11-25 | Fuji Xerox Co., Ltd. | Systems and methods for dynamic reading fluency instruction and improvement |
US7752045B2 (en) * | 2002-10-07 | 2010-07-06 | Carnegie Mellon University | Systems and methods for comparing speech elements |
WO2004061796A1 (en) * | 2002-12-31 | 2004-07-22 | Burlingtonspeech Limited | Comprehensive spoken language learning system |
JP3962701B2 (ja) * | 2003-03-31 | 2007-08-22 | キヤノン株式会社 | シート搬送装置及び画像形成装置 |
US7407384B2 (en) * | 2003-05-29 | 2008-08-05 | Robert Bosch Gmbh | System, method and device for language education through a voice portal server |
US7524191B2 (en) * | 2003-09-02 | 2009-04-28 | Rosetta Stone Ltd. | System and method for language instruction |
US7280963B1 (en) * | 2003-09-12 | 2007-10-09 | Nuance Communications, Inc. | Method for learning linguistically valid word pronunciations from acoustic data |
DE10360044B3 (de) * | 2003-12-18 | 2005-05-25 | T-Mobile Deutschland Gmbh | Verfahren zur Ermittlung der sprachlichen Fähigkeiten von Probanden |
US20060008781A1 (en) * | 2004-07-06 | 2006-01-12 | Ordinate Corporation | System and method for measuring reading skills |
US8033831B2 (en) * | 2004-11-22 | 2011-10-11 | Bravobrava L.L.C. | System and method for programmatically evaluating and aiding a person learning a new language |
US8221126B2 (en) * | 2004-11-22 | 2012-07-17 | Bravobrava L.L.C. | System and method for performing programmatic language learning tests and evaluations |
US8272874B2 (en) * | 2004-11-22 | 2012-09-25 | Bravobrava L.L.C. | System and method for assisting language learning |
WO2006057896A2 (en) * | 2004-11-22 | 2006-06-01 | Bravobrava, L.L.C. | System and method for assisting language learning |
KR100682909B1 (ko) * | 2004-12-23 | 2007-02-15 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
WO2006076280A2 (en) * | 2005-01-11 | 2006-07-20 | Educational Testing Service | Method and system for assessing pronunciation difficulties of non-native speakers |
JP4811993B2 (ja) * | 2005-08-23 | 2011-11-09 | 株式会社国際電気通信基礎技術研究所 | 音声処理装置、およびプログラム |
JP5066668B2 (ja) * | 2005-11-08 | 2012-11-07 | 株式会社国際電気通信基礎技術研究所 | 音声認識装置、およびプログラム |
JP4557919B2 (ja) * | 2006-03-29 | 2010-10-06 | 株式会社東芝 | 音声処理装置、音声処理方法および音声処理プログラム |
US20070239455A1 (en) * | 2006-04-07 | 2007-10-11 | Motorola, Inc. | Method and system for managing pronunciation dictionaries in a speech application |
JP4716125B2 (ja) * | 2006-08-04 | 2011-07-06 | 株式会社国際電気通信基礎技術研究所 | 発音評定装置、およびプログラム |
GB2457855B (en) * | 2006-11-30 | 2011-01-12 | Nat Inst Of Advanced Ind Scien | Speech recognition system and speech recognition system program |
US8521674B2 (en) * | 2007-04-27 | 2013-08-27 | Nec Corporation | Information analysis system, information analysis method, and information analysis program |
US8751229B2 (en) * | 2008-11-21 | 2014-06-10 | At&T Intellectual Property I, L.P. | System and method for handling missing speech data |
US8775184B2 (en) * | 2009-01-16 | 2014-07-08 | International Business Machines Corporation | Evaluating spoken skills |
US9378650B2 (en) * | 2009-09-04 | 2016-06-28 | Naomi Kadar | System and method for providing scalable educational content |
US8258947B2 (en) * | 2009-09-29 | 2012-09-04 | International Business Machines Corporation | Auto-translation of source strings in global verification testing in a functional testing tool |
TWI431563B (zh) * | 2010-08-03 | 2014-03-21 | Ind Tech Res Inst | 語言學習系統、語言學習方法及其程式產品 |
US8744856B1 (en) | 2011-02-22 | 2014-06-03 | Carnegie Speech Company | Computer implemented system and method and computer program product for evaluating pronunciation of phonemes in a language |
JP6045175B2 (ja) * | 2012-04-05 | 2016-12-14 | 任天堂株式会社 | 情報処理プログラム、情報処理装置、情報処理方法及び情報処理システム |
KR20150001189A (ko) * | 2013-06-26 | 2015-01-06 | 한국전자통신연구원 | 음성인식을 이용한 외국어 말하기 능력의 훈련 및 평가 방법과 그 장치 |
JP2015025873A (ja) * | 2013-07-24 | 2015-02-05 | 株式会社ベネッセコーポレーション | 情報処理装置、情報処理方法及びプログラム |
CN103514765A (zh) * | 2013-10-28 | 2014-01-15 | 苏州市思玛特电力科技有限公司 | 语言教学评估方法 |
CN103514764A (zh) * | 2013-10-28 | 2014-01-15 | 苏州市思玛特电力科技有限公司 | 语言教学评估系统 |
US10319250B2 (en) | 2016-12-29 | 2019-06-11 | Soundhound, Inc. | Pronunciation guided by automatic speech recognition |
US11322172B2 (en) | 2017-06-01 | 2022-05-03 | Microsoft Technology Licensing, Llc | Computer-generated feedback of user speech traits meeting subjective criteria |
GB2613563A (en) * | 2021-12-03 | 2023-06-14 | Learnlight Uk Ltd | Apparatus, computing device and method for speech analysis |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IT1156544B (it) * | 1982-11-08 | 1987-02-04 | Olivetti & Co Spa | Metodo ed apparecchiatura di riconoscimento fonetico di parole |
US5129000A (en) * | 1986-04-05 | 1992-07-07 | Sharp Kabushiki Kaisha | Voice recognition method by analyzing syllables |
JPH065451B2 (ja) * | 1986-12-22 | 1994-01-19 | 株式会社河合楽器製作所 | 発音訓練装置 |
GB8817705D0 (en) * | 1988-07-25 | 1988-09-01 | British Telecomm | Optical communications system |
GB9223066D0 (en) * | 1992-11-04 | 1992-12-16 | Secr Defence | Children's speech training aid |
US5487671A (en) * | 1993-01-21 | 1996-01-30 | Dsp Solutions (International) | Computerized system for teaching speech |
US5562453A (en) * | 1993-02-02 | 1996-10-08 | Wen; Sheree H.-R. | Adaptive biofeedback speech tutor toy |
KR100309207B1 (ko) * | 1993-03-12 | 2001-12-17 | 에드워드 이. 데이비스 | 음성-대화식언어명령방법및장치 |
US5625749A (en) * | 1994-08-22 | 1997-04-29 | Massachusetts Institute Of Technology | Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation |
JP3581401B2 (ja) * | 1994-10-07 | 2004-10-27 | キヤノン株式会社 | 音声認識方法 |
-
1997
- 1997-01-30 US US08/791,124 patent/US5857173A/en not_active Expired - Lifetime
-
1998
- 1998-01-23 CN CN98103685A patent/CN1099646C/zh not_active Expired - Lifetime
- 1998-01-29 JP JP03219798A patent/JP4189051B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
CN1099646C (zh) | 2003-01-22 |
CN1191354A (zh) | 1998-08-26 |
JPH10222190A (ja) | 1998-08-21 |
US5857173A (en) | 1999-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4189051B2 (ja) | 発音測定装置および方法 | |
US6366883B1 (en) | Concatenation of speech segments by use of a speech synthesizer | |
CN109949783B (zh) | 歌曲合成方法及系统 | |
Witt et al. | Computer-assisted pronunciation teaching based on automatic speech recognition | |
US7472066B2 (en) | Automatic speech segmentation and verification using segment confidence measures | |
Khan et al. | Concatenative speech synthesis: A review | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
WO2006034200A2 (en) | Method and system for the automatic generation of speech features for scoring high entropy speech | |
JPH11143346A (ja) | 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体 | |
US9798653B1 (en) | Methods, apparatus and data structure for cross-language speech adaptation | |
Wightman et al. | The aligner: Text-to-speech alignment using Markov models | |
WO2019075828A1 (zh) | 一种语音评价方法及装置 | |
KR100362292B1 (ko) | 음성인식 기술을 이용한 영어 발음 학습 방법 및 시스템 | |
EP1010170B1 (en) | Method and system for automatic text-independent grading of pronunciation for language instruction | |
JP3050832B2 (ja) | 自然発話音声波形信号接続型音声合成装置 | |
JP4753412B2 (ja) | 発音評定装置、およびプログラム | |
JP2806364B2 (ja) | 発声訓練装置 | |
JP2001306087A (ja) | 音声データベース作成装置および音声データベース作成方法および記録媒体 | |
JP2010060846A (ja) | 合成音声評価システム及び合成音声評価方法 | |
JP2001117598A (ja) | 音声変換装置及び方法 | |
US20110191104A1 (en) | System and method for measuring speech characteristics | |
Maia et al. | An HMM-based Brazilian Portuguese speech synthesizer and its characteristics | |
CN111508523A (zh) | 一种语音训练提示方法及系统 | |
JP3299170B2 (ja) | 音声登録認識装置 | |
JP2017126004A (ja) | 音声評価装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040527 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060509 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20060809 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20060814 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061107 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061205 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070302 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070307 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070601 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080902 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080912 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110919 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110919 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110919 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120919 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120919 Year of fee payment: 4 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120919 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130919 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |