JPH11202889A - 音声識別装置、発音矯正装置およびこれらの方法 - Google Patents
音声識別装置、発音矯正装置およびこれらの方法Info
- Publication number
- JPH11202889A JPH11202889A JP10253449A JP25344998A JPH11202889A JP H11202889 A JPH11202889 A JP H11202889A JP 10253449 A JP10253449 A JP 10253449A JP 25344998 A JP25344998 A JP 25344998A JP H11202889 A JPH11202889 A JP H11202889A
- Authority
- JP
- Japan
- Prior art keywords
- words
- word
- candidate
- data
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 117
- 238000012937 correction Methods 0.000 title claims description 104
- 230000008569 process Effects 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims description 38
- 238000004590 computer program Methods 0.000 claims 1
- 239000003973 paint Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 41
- 230000004044 response Effects 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 11
- 230000006870 function Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 241001091565 Bauera rubioides Species 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 241001674048 Phthiraptera Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003245 coal Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000005204 segregation Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
正確に英単語を識別する音声識別装置およびその方法を
提供することを目的とする。 【解決手段】ベクトルデータ生成部160およびラベル
作成部182は、日本人が発音した英語の1センテンス
分の音声データを処理し、ラベル列に変換する。候補単
語作成部184は、1センテンス分のラベル列を、それ
ぞれ1つ以上の英単語から構成される第1の候補単語に
対応付ける。類似単語追加部186は、単語データベー
ス部160を用いて、第1の候補単語の発音に類似する
英単語、例えば、第1の候補単語readに対する類似単語
lead(日本人は一般にlとrとを区別して発音しずら
い)を検索し、得られた類似単語を第1の候補単語に付
加して第2の候補単語とする。絞り込み部188は、ユ
ーザの操作に応じて第2の候補単語のいずれかを最終的
な識別結果として選択し、選択した英単語を接続して英
文のテキストデータとして出力する。
Description
する話者による他の特定の言語の話し声に含まれる後者
の言語の単語それぞれを識別する音声識別装置およびそ
の方法、例えば、日本人が話す英語の音声を識別し、音
声に含まれる英単語の列を示すデータ(テキストデー
タ)として出力する音声識別装置およびその方法に関す
る。
その方法の処理過程において得られるデータ(候補単語
データ)を利用して、正しい発音を話者に教え、発音を
矯正する発音矯正装置およびその方法に関する。
れぞれを識別し、テキストデータとして出力する音声識
別装置が用いられている。例えば、特開平06−124
83号公報、特開平08−50493号公報および特開
平09−22297(文献1〜3)等は、このような音
声識別方法を開示する。
い、英語の音声から英単語を識別する英語用音声識別装
置により、日本人が発音した英語音声から英文のテキス
トデータを作成すると、識別率が低下してしまう。これ
は、英語には、日本語に存在しない音(th等)、あるい
は、日本語においては区別しにくい音(l,r等)等があ
り、日本人は、一般に、このような英語の音を正確に発
音できないので、英語用音声識別装置が不正確な発音を
そのまま単語に置き換えてしまうためである。例えば、
日本人が英語で"rice"と発音したつもりであっても、英
語用の音声識別装置は、この音声を"lice"あるいは"lou
se"と識別してしまうことがある。
に、英語を母国語とするアメリカ人が、日本語の音声か
ら日本文のテキストを作成する音声識別装置を用いる場
合、あるいは、イギリス式の英語を母国語とする英国人
が、アメリカ式英語用に調整された音声識別装置を用い
る場合、あるいは、特定の人が何らかの理由で正確な発
音をしにくくなった場合等、様々な場合に生じうる。し
かしながら、上記各文献に開示された音声識別方法のい
ずれも、このような不具合を解決しえない。
ティブスピーカーに近づけば、音声識別装置による識別
率が向上することは言うまでもなく、しかも、話者にと
って英会話が上達することは好ましいことである。
話者の英語音声を識別し、識別した英語音声を話者に確
認させる学習装置を開示する(文献4)。また、例え
ば、特開昭60−123884号公報は、音声合成LS
Iを用い、話者に学習しようとする音声を聞かせる英語
学習機を開示する(文献5)。その他、特公昭44−7
162号公報、特開平7−117807号公報、特開昭
61−18068号公報、特開平8−27588号公
報、特開昭62−111278号公報、特開昭62−2
99985号公報、特開平3−75869号公報、特公
平6−27971号公報、特公平8−12535号公報
および特開平3−226785号公報等、数多くの文献
に、外国語の発音を学習するための学習装置が開示され
ている(文献6〜14)。
学習装置を用いても、提示された発音と自分の発音とを
比較しなければならなかったり、自分の発音のどこが誤
っているかが分からなかったりして、話者が充分な学習
効果を必ずしも得ることはできない。
来技術の問題点に鑑みてなされたものであり、所定の言
語を母国語としない話者(ノン・ネイティブ)による所
定の言語の話し声に含まれる単語それぞれを識別し、話
者が意図する所定の言語の単語に置換して、正確なテキ
ストデータを作成することができる音声識別装置および
その方法を提供することを目的とする。
る等のために、同一の言語の発音が変化したような場合
であっても、いずれの地域の話者による話し声でも、話
者が意図する単語に変換して、正確なテキストデータを
作成することができる音声識別装置およびその方法を提
供することを目的とする。また、本発明は、発音の個人
差を補って、常に高い識別率を保つことができる音声識
別装置およびその方法を提供することを目的とする。
びその方法の処理の過程で得られるデータを利用して話
者の発音の問題点を指摘し、話者にネイティブスピーカ
の発音を学習させ、話者の発音を矯正する発音矯正装置
およびその方法を提供することを目的とする。また、本
発明は、話者の発音と正確な発音とを自動的に比較して
誤りを指摘することができ、さらに、話者が発音をどの
ように矯正すべきかを示す詳細な情報を提示し、その発
音を矯正することができる発音矯正装置およびその方法
を提供することを目的とする。
上記目的を達成するために、本発明にかかる第1の音声
識別装置は、話し声に含まれる1つ以上の単語を示す音
声データから、前記単語それぞれを識別する音声識別装
置であって、1つ以上の前記単語の音声データそれぞれ
に、これらの音声データの1つ以上それぞれを識別して
得られる1つ以上の前記単語の組み合わせの候補(候補
単語)の1組以上を対応付ける候補単語対応付け手段
と、1つ以上の前記単語の音声データそれぞれに対応付
けた前記候補単語それぞれに、前記候補単語それぞれの
発音に対応しうる1つ以上の前記単語の組み合わせ(類
似単語)の0組以上を対応付ける類似単語対応付け手段
と、1つ以上の前記単語の音声データそれぞれに対応付
けた前記候補単語、および、前記候補単語それぞれに対
応付けた前記類似単語のいずれかを選択し、前記単語の
音声データそれぞれの識別結果とする音声データ識別手
段とを有する。
の話し声に含まれる1つ以上の単語を示し、前記候補単
語対応付け手段は、1つ以上の前記単語の音声データそ
れぞれに、これらの音声データの1つ以上それぞれを識
別して得られる前記所定の言語の候補単語の1組以上を
対応付け、前記類似単語対応付け手段は、1つ以上の前
記単語の音声データそれぞれに対応付けた前記候補単語
それぞれに、前記候補単語それぞれの発音に対応しうる
前記所定の言語の類似単語の0組以上を対応付け、音声
データ識別手段は、1つ以上の前記単語の音声データそ
れぞれに対応付けた前記候補単語、および、前記候補単
語それぞれに対応付けた前記類似単語のいずれかを選択
し、1つ以上の前記単語の音声データそれぞれの識別結
果とする。
は、前記所定の言語以外の所定の言語を主に話す話者に
よってなされ、前記話者によって前記所定の言語の単語
の1つ以上それぞれが発音された場合に、前記所定の言
語の話し声に含まれる単語の音声データの1つ以上それ
ぞれに対応しうる前記所定の言語の単語の0組以上を、
予め前記所定の言語の単語の1つ以上それぞれと対応付
けて、前記所定の言語の単語の1つ以上それぞれの前記
類似単語として記憶する類似単語記憶手段を有し、前記
類似単語対応付け手段は、予め前記所定の言語の単語の
1つ以上それぞれと対応付けて記憶した前記類似単語の
0組以上を、前記候補単語それぞれに対応付ける。
音声データに対応付けた前記候補単語それぞれの確から
しさを示す確率データを、音声データに対応付けた前記
候補単語それぞれに付し、前記音声データ識別手段は、
前記確率データの値が所定の範囲をとる前記候補単語の
みを選択し、前記単語の音声データの識別結果とする。
前記類似単語それぞれに対応する発音の誤りを示す誤り
情報を、音声データに対応付けた前記候補単語それぞれ
に付す。
声識別装置は、特定の言語(以下本項目において英語を
例示する)以外の言語(同様に日本語を例示する)を母
国語とし、主に話す話者(同様に日本人を例示する)が
発音した英語の話し声(音声)に含まれる単語を識別
し、英単語に置き換えてテキストデータを作成する。
イク等から入力され、ディジタルデータに変換された日
本人による英語音声(音声データ)は、例えば、音の特
徴(音の高さ、強さ、イントネーション等)ごとに量子
化したベクトルデータに変換され、さらに、ラベルと呼
ばれ、発音記号に類似する音のデータに変換されて、候
補単語対応付け手段に対して出力される。
け手段は、ラベルに変換された音声データを1つの単
語、あるいは、一連の複数の単語ごとに処理し、音声デ
ータと、音声データの識別結果の候補として、単独(1
個)の英単語、あるいは、複数の英単語の組み合わせ
(これらを総称して候補単語と記す)とを対応付ける。
は、正確な英語の発音とは異なるが、日本人が英語を発
音した場合に、音声データと対応しうる単独の英単語、
あるいは、複数の英単語の組み合わせ(これらを総称し
て類似単語と記す)と、候補単語となりうる単独の英単
語あるいは複数の英単語の組み合わせとを予め対応付け
た、例えば、検索用辞書データを記憶する。一例を挙げ
ると、この辞書データにおいては、日本人による不正確
な英語の発音に対応するために、候補単語となりうる単
独の英単語"lead"に、類似単語"read"(日本人が区別し
にくいl,rを考慮したもの、一般に日本人は"r"の発音が
不得手である)が対応付けられる。なお、英単語に対し
て類似単語が存在しない場合があるので、このような場
合には、この辞書において、英単語に類似単語は対応付
けられない。
け手段は、類似単語記憶手段が記憶した辞書データを検
索し、候補単語に対応付けられた類似単語を読み出し
て、候補単語に対する類似単語の対応付けを行なう。上
記例においては、日本人が発音した英単語"read"に対応
する音声データに、英単語"lead"と、類似単語"read"と
が対応付けられる。
段は、例えば、それまでに識別された英単語列に対する
構文解析処理に基づいて、あるいは、ユーザの選択操作
に応じて、音声データに対応付けられた候補単語および
類似単語のいずれかを選択し、識別結果とする。
は、次々に入力される音声データに対して、ここまでに
述べた処理を順次、行ない、音声データに含まれる英単
語を識別し、識別した英単語を接続したテキストデータ
を作成する。
英語の音声を例示したが、類似単語記憶手段が、アメリ
カ式の英語の発音とは異なるが、イギリス式の英語の発
音である場合に、音声データと対応しうる類似単語を、
候補単語に対応付けた辞書データを記憶する等の変更を
加えることにより、本発明にかかる音声識別装置は、イ
ギリス式の発音による英語音声、および、アメリカ式の
発音による英語音声の両者を識別してテキストデータを
生成することができる。
「所定の言語」の範囲は、候補単語対応付け手段が、充
分な識別率で、音声データと単語とを対応付けられる範
囲として定義される。従って、例えば、通常、同一とさ
れる言語であっても、地域的な隔離により発音が相互に
異なってしまい、いずれかに適するように調整された候
補単語対応付け手段のみでは充分な識別率を得られない
複数の方言(例えば、アメリカ、イギリス、オーストラ
リアおよび南アフリカ等各国の英語、スペインおよび中
南米等各国のスペイン語)は、上記「所定の言語」の同
一範囲には含まれない。さらに、何らかの理由により、
特定の人の発音が不明りょうになり、この人の母国語
(主に話す言葉)に適するように調整された候補単語対
応付け手段のみでは充分な識別率が得られなくなった場
合も同様である。
かる第2の音声識別装置は、所定の言語以外を主に話す
話者による前記所定の言語の音声に含まれる前記所定の
言語の1つ以上の単語を示す音声データから、前記所定
の言語の単語の1つ以上それぞれを識別する音声識別装
置であって、前記所定の言語の単語の音声データの1つ
以上それぞれに、これらの音声データの1つ以上それぞ
れを識別して得られる前記所定の言語の単語、および、
前記話者が話した可能性がある前記所定の言語の単語の
1つ以上またはこれらのいずれかを対応付ける単語対応
付け手段と、1つ以上の前記単語の音声データそれぞれ
に対応付けた単語のいずれかを選択し、1つ以上の前記
単語の音声データそれぞれの識別結果とする音声データ
識別手段とを有する。
1の音声識別方法は、話し声に含まれる1つ以上の単語
を示す音声データから、前記単語それぞれを識別する音
声識別方法であって、1つ以上の前記単語の音声データ
それぞれに、これらの音声データの1つ以上それぞれを
識別して得られる1つ以上の前記単語の組み合わせの候
補(候補単語)の1組以上を対応付けるステップと、1
つ以上の前記単語の音声データそれぞれに対応付けた前
記候補単語それぞれに、前記候補単語それぞれの発音に
対応しうる1つ以上の前記単語の組み合わせ(類似単
語)の0組以上を対応付けるステップと、1つ以上の前
記単語の音声データそれぞれに対応付けた前記候補単
語、および、前記候補単語それぞれに対応付けた前記類
似単語のいずれかを選択し、前記単語の音声データそれ
ぞれの識別結果とするステップとを含む。
は、所定の言語以外を主に話す話者による前記所定の言
語の音声に含まれる前記所定の言語の1つ以上の単語を
示す音声データから、前記所定の言語の単語の1つ以上
それぞれを識別する音声識別方法であって、前記所定の
言語の単語の音声データの1つ以上それぞれに、これら
の音声データの1つ以上それぞれを識別して得られる前
記所定の言語の単語、および、前記話者が話した可能性
がある前記所定の言語の単語の1つ以上またはこれらの
いずれかを対応付けるステップと、1つ以上の前記単語
の音声データそれぞれに対応付けた単語のいずれかを選
択し、1つ以上の前記単語の音声データそれぞれの識別
結果とするステップとを含む。
声矯正装置は、単語を示す音声データを識別して得られ
る単語の候補(候補単語)を1個以上、対応付ける候補
単語対応付け手段と、音声データに対応付けた前記候補
単語それぞれに、前記候補単語それぞれの発音に対応し
うる単語(類似単語)を0個以上、対応付ける類似単語
対応付け手段と、前記音声データが示す単語と、この音
声データに対応付けられた前記候補単語それぞれに対応
付けられた前記類似単語とが一致する場合に、前記音声
データが示す単語と同じ前記類似単語に対応し、前記音
声データが示す単語の発音を矯正する発音矯正データを
出力する発音矯正データ出力手段とを有する。
音矯正装置において、候補単語対応付け手段および類似
単語対応付け手段は、上述した本発明にかかる音声識別
装置においてと同様に、音声データと、候補単語・類似
単語とを対応付ける。
ィブに近い正しい発音をしている場合には、話者の意図
した単語と音声データの識別結果とは候補単語に含まれ
ることになる。一方、話者の発音が誤っていたり、不明
瞭であったりすると、話者の意図した単語は候補単語に
含まれるが、音声データの識別結果は類似単語に含まれ
るということになる。従って、予め話者に発音すべき単
語を示し、この単語を発音させた場合に、この単語が音
声データの識別結果において、類似単語と一致するとい
うことは、ユーザ(話者)の発音に何らかの誤り、ある
いは、発音に不明瞭さがあることを意味する。
単語が類似単語と一致する場合に、話者に示した単語と
一致する類似単語に対応付けられ、発音の誤り・不明瞭
さを矯正する情報(例えば、ネイティブスピーカが正し
い発音を行なう際の口および舌の動きを示す画像デー
タ、および、ネイティブスピーカと比べて、話者の発音
のどこが誤っているかを文章で示すテキストデータ)を
モニタに表示し、話者に発音の矯正を促すとともに、話
者の発音がネイティブスピーカの発音に近づくように学
習を補助する。
声矯正方法は、単語を示す音声データを識別して得られ
る単語の候補(候補単語)を1個以上、対応付け、音声
データに対応付けた前記候補単語それぞれに、前記候補
単語それぞれの発音に対応しうる単語(類似単語)を0
個以上、対応付け、前記音声データが示す単語と、この
音声データに対応付けられた前記候補単語それぞれに対
応付けられた前記類似単語とが一致する場合に、前記音
声データが示す単語と同じ前記類似単語に対応し、前記
音声データが示す単語の発音を矯正する発音矯正データ
を出力する。
第1の実施形態を説明する。なお、以下、説明の明確化
および便宜のために、特に断らない限り、本発明にかか
る音声識別処理が、日本人が話す英語を識別するために
調整されている場合を具体例として説明する。
て、本発明にかかる音声識別処理を実現するコンピュー
タ1を説明する。図1は、本発明にかかる音声識別処理
を実現するコンピュータ1の構成を例示する図である。
図1に例示するように、コンピュータ1は、例えば、音
声入出力機能を有するパーソナルコンピュータであっ
て、CPU、メモリおよびこれらの周辺装置等を含むコ
ンピュータ本体10、出力装置100、光磁気(mo)
ディスク装置、ハードディスク装置あるいはフロッピー
ディスク装置等の記憶装置110、および、入力装置1
20から構成される。出力装置100は、CRディスプ
レイ装置等のモニタ102、音声出力用のスピーカ10
4、プリンタ106等を含む。入力装置120は、マイ
ク122、音声入力用ボード124、キーボード126
およびマウス128等を含む。
て、モニタ102は、コンピュータ1のユーザに対して
操作用のGUI画像、および、コンピュータ本体10が
音声を識別して得られたテキストデータ等を表示する。
ンピュータ本体10が音声を識別して得られたテキスト
データを音声として出力するため等に用いられる。
ンピュータ本体10が音声を識別して得られたテキスト
データのハードコピーを出力するため等に用いられる。
ンピュータ本体10による制御に従って動作し、コンピ
ュータ本体10が音声を識別して得られたテキストデー
タを記憶する。また、記憶装置110は、音声識別に必
要なデータ(以下、このようなデータを「単語データ」
と総称する)およびプログラム等を記憶し、記憶した単
語データおよびプログラム等をコンピュータ本体10に
対して出力する。なお、記憶装置110に記憶される単
語データは、例えば、音声識別プログラム16により作
成され、あるいは、フロッピーディスク等の記録媒体に
より供給され、ラベル列テーブル、インデックステーブ
ル、単語レコード、類似単語レコードおよび誤り情報コ
ードテーブル(ラベル列データを除くこれらの詳細は、
図4〜図7を参照して後述する)を含む。
が発音した話し声の音声を集音し、アナログ形式の音声
信号に変換して音声入力用ボード124に対して出力す
る
ード124は、コンピュータ本体10による制御に従っ
て動作し、マイク122から入力された音声信号をサン
プリングし、音声信号の波形に対応するディジタル形式
の音声データに変換してコンピュータ本体10に対して
出力する。
ボード126およびマウス128は、例えば、モニタ1
02に表示されたGUIに対するユーザの操作を受け入
れて、操作入力としてコンピュータ本体10に対して出
力する。
て、本発明にかかる音声識別処理を実現するソフトウェ
アの構成を説明する。図2は、本発明にかかる音声識別
処理を実現するソフトウェア14の構成を示す図であ
る。なお、図2においては、本発明にかかる音声識別処
理の実現に関係がないソフトウェアの構成部分を省略し
てある。
ハードウェア(H/W)サポート部142、オペレーシ
ョンシステム(OS)148およびアプリケーション部
から構成される。ハードウェアサポート部142は、音
声デバイスドライバ144および記憶デバイスドライバ
146を含む。オペレーティングシステム148は、例
えば、OS/2(IBM社商品名)あるいはWindo
ws(マイクロソフト社商品名)といった汎用OSであ
って、音声インターフェース(IF)部150および記
憶装置インターフェース部152を含む。また、ソフト
ウェア14は、アプリケーション部として音声識別プロ
グラム16を含む。ソフトウェア14のこれらの構成部
分は、記憶装置110に記憶され、必要に応じてコンピ
ュータ本体10のメモリにロードされて実行される。
ェアサポート部142において、音声デバイスドライバ
144は、音声入力用ボード124を制御して、マイク
122から入力される音声信号を音声データに変換させ
る。また、音声デバイスドライバ144は、音声入力用
ボード124から入力された音声データを音声インター
フェース部150に対して出力するインターフェース機
能を実現する。また、音声デバイスドライバ144は、
オペレーティングシステム148の音声インターフェー
ス部150の制御に従って、音声入力用ボード124の
サンプリング周期の変更等の設定変更、および、サンプ
リングの開始および終了等の動作制御を行なう。
イスドライバ146は、オペレーティングシステム14
8の記憶装置インターフェース部152からの要求(制
御)に応じて、記憶装置110の動作を制御し、単語デ
ータおよび音声識別の結果として得られたテキストデー
タを記憶させ、あるいは、記憶装置110が記憶してい
るこれらのデータを読み出させる。また、記憶デバイス
ドライバ146は、記憶装置110から入力された単語
データおよびテキストデータを、記憶装置インターフェ
ース部152に対して出力し、あるいは、記憶装置イン
ターフェース部152から入力されたこれらのデータを
記憶デバイスドライバ146に対して出力するインター
フェース機能を実現する。
レーティングシステム148は、音声インターフェース
部150および記憶装置インターフェース部152が実
現する機能の他、コンピュータ本体10におけるプログ
ラムの実行制御を行なう。また、オペレーティングシス
テム148は、音声識別プログラム16が出力するテキ
ストデータおよびGUI画像をモニタ102に表示する
処理、テキストデータを音声信号に変換してスピーカ1
04を介して出力する処理、プリンタ106に対するハ
ードコピーを行なうために必要な処理、および、キーボ
ード126およびマウス128に対するユーザの操作を
受け入れる等を行なう。
ーティングシステム148において、音声インターフェ
ース部150は、音声識別プログラム16からの要求
(制御)に応じて、音声デバイスドライバ144を制御
する。また、音声インターフェース部150は、音声デ
バイスドライバ144から入力された音声データを音声
識別プログラム16に対して出力するインターフェース
機能を実現する。
憶装置インターフェース部152は、記憶装置110の
記憶領域を管理する。また、記憶装置インターフェース
部152は、音声識別プログラム16からの要求(制
御)に応じて記憶デバイスドライバ146を制御し、音
声識別プログラム16から要求された単語データおよび
テキストデータを記憶装置110から読み出させ、読み
出された単語データおよびテキストデータを音声識別プ
ログラム16に対して出力する。また、記憶装置インタ
ーフェース部152は、音声識別プログラム16から入
力される単語データおよびテキストデータを、記憶デバ
イスドライバ146を介して記憶装置110の空き記憶
領域に記憶させる。
参照して音声識別プログラム16を説明する。図3は、
図2に示した音声識別プログラム16の構成を示す図で
ある。
6は、単語データベース部160、制御部162および
音声識別部18から構成される。音声識別部18は、ベ
クトルデータ生成部180、ラベル作成部182、候補
単語作成部184、類似単語追加部186および絞り込
み部188を含む。音声識別プログラム16は、これら
の構成部分により、操作用のGUI画像を表示し、表示
したGUI画像に対するユーザの操作に従って、音声イ
ンターフェース部150から入力される音声データを、
記憶装置インターフェース部152から入力される単語
データを用いて識別し、識別の結果として得られた単語
列をテキストデータとしてオペレーティングシステム1
48を介して出力する。
のGUI画像をモニタ102に表示し、表示したGUI
画像に対して、ユーザが入力装置120のキーボード1
26およびマウス128を用いて行なう操作をオペレー
ティングシステム148を介して受け入れる。また、制
御部162は、受け入れた操作入力に応じて、オペレー
ティングシステム148の音声インターフェース部15
0および記憶装置インターフェース部152を制御す
る。
力に応じて単語データベース部160を制御して、候補
単語作成部184が音声データと候補単語とを対応付け
るために用いるラベル列テーブル、類似単語追加部18
6が類似単語を候補単語と対応付けるために用いるイン
デックステーブル、単語レコード、類似単語レコードお
よび誤り情報コードテーブル(図4〜図7を参照して後
述する)を含む単語データを作成あるいは更新させ、記
憶装置インターフェース部152等を介して記憶装置1
10に記憶させる。
音声データの各部分と対応付けた候補単語および類似単
語を表示し、表示したこれらの単語に対する操作入力に
応じて、候補単語および類似単語のいずれかを絞り込み
部188に選択させ、最終的な識別結果とさせる。な
お、制御部162による候補単語および類似単語の表示
方法の例として、候補単語作成部184および類似単語
追加部186が対応付けた候補単語をモニタ102に反
転表示し、ユーザのキーボード126に対する操作に応
じて候補単語および類似単語を変更して順次、表示する
方法、あるいは、ユーザがモニタ102に表示された候
補単語の誤り部分を見つけて、マウス128でクリック
した場合に、クリックされた部分の候補単語と対応付け
たウィンドウ内に、候補単語および類似単語の一覧を表
示する等を挙げることができる。
ベース部160は、上述のように制御部162の制御に
従って単語データを作成または更新し、記憶装置110
に記憶させ、管理する。また、単語データベース部16
0は、候補単語作成部184に対して単語データ(ラベ
ル列テーブル)を出力する。
単語追加部186の要求に応じて単語データ(インデッ
クステーブル、単語レコード、類似単語レコードおよび
誤り情報コードテーブル;図4〜図7)を検索し、検索
の結果として得られ、類似単語追加部186に入力され
た第1の候補単語に対応する単語レコード、類似単語レ
コードおよび誤り情報を類似単語追加部186に対して
出力する。
を容易にするために、図4〜図7を参照して、ラベル列
テーブルを除く単語データ(インデックステーブル、単
語レコード、類似単語レコードおよび誤り情報テーブ
ル)を説明する。
ータのインデックステーブルに含まれるデータを例示す
る図である。インデックステーブルは、単語データベー
ス部160が、単語の先頭文字(A〜Z)により分類さ
れた単語レコードを検索するために用いられる。インデ
ックステーブルは、図4に示すように、先頭文字A〜Z
それぞれの記録領域の先頭を示すポインタと、先頭文字
をそれぞれA〜Zとする単語レコードの数とが対応付け
られて構成される。
語レコードに含まれるデータを例示する図である。図5
に示すように、単語レコードは、類似単語追加部186
において、候補単語作成部184が作成した第1の候補
単語データ[候補単語データ(1)]と突き合わされ、
比較される見出し単語(TarWord)、次の見出し単語への
ポインタ(NextP)、単語レコードに含まれる類似単語の
数(#Can)および類似単語レコード(CanWord)が対応付け
られて構成される。
が単語レコードに直接、対応付けた場合が示されている
が、例えば、単語レコードに類似単語レコードのポイン
タを対応付け、類似単語レコードを単語レコードと別フ
ァイルとする等、実現方法は問わない。また、単語レコ
ードそれぞれの見出し単語(TarWord)を複数にして、類
似単語追加部186が、連続した複数の単語に対応する
ラベルと、複数の単語を含む見出し単語とを対応付けら
れるようにしてもよい。
の類似単語レコードに含まれるデータを例示する図であ
る。図6に示すように、類似単語レコードは、入力単語
数(#m;#mは1以上の整数)、入力候補単語(aWord, aWo
rd-1, aWord-2,...,aWord-m-1)、出力単語数(#n;#nは
0以上の整数)、類似単語(COWord, COWord-1,..,COWor
d-n)および誤りコード(ECode)が対応付けられて構成さ
れる。
追加部186が、候補単語作成部184から入力された
第1の候補単語を類似単語に対応付ける際に、前後いく
つの候補単語を参照するかを示す(以下、第1の候補単
語の後方のm−1文字を参照する場合を例として説明す
る)。
2,...,aWord-m-1)は、候補単語作成部184から類似単
語追加部186に連続して入力されたm個の第1の候補
単語(TarWard, TarWord-1,...,TarWord-m-1)と突き合わ
され、比較される単語列を示す。つまり、類似単語追加
部186においては、第p番目の第1の候補単語(TarWo
rd)は、入力されても直ちに類似単語と対応付けされ
ず、さらに類似単語追加部186にm−1個の第1の候
補単語が入力された後に、第p番目〜第p+m−1番目
のm個の連続した第1の候補単語(TarWard, TarWord-
1,..., TarWord-m-1)それぞれと、類似単語レコードの
m個の入力候補単語(aWord, aWord-1, aWord-2,..., aW
ord-m-1)それぞれとが比較され、これらが一致した場合
にのみ、第p番目の第1の候補単語(aWord = TarWord)
と、類似単語レコード内で入力候補単語に続くn個の類
似単語(COWord, COWard1,.., COWord-n)とが対応付けら
れる。なお、類似単語が存在しない場合には、出力単語
数(#n)の値は0とされ、類似単語は類似レコード内に対
応付けられない。
1の候補単語と類似単語との間のマッピング方法につい
て、さらに説明する。第1の候補単語と類似単語との間
の対応付け(マッピング)の方法としては、例えば、以
下に示す4つの方法が考えられる。
語に誤って識別される場合に対応するために、1つの単
語のみを含む第1の候補単語に、1つの単語のみを含む
類似単語を対応付ける。第1の方法の例としては、第1
の候補単語"read"の"r"が、正しく発音されなかった場
合に備えて、第1の候補単語"read"と類似単語"lead"と
を対応付けることが挙げられる。さらに、第1の方法を
とる場合の対応付けの例としては、"sink"と"think"、"
fell"と"fill"、"seat"と"sit"、"better"と"bitte
r"、"nut"と"not"、"fund"と"found"、"boat"と"bough
t"および"coal"と"call"との対応付け等を挙げることが
できる。
に誤って識別される場合に対応するために、1つの単語
のみを含む第1の候補単語に、複数の単語を含む類似単
語を対応付ける。第2の方法の例としては、第1の候補
単語"jumped"の"ed"が、正しく"t"と発音されなかった
場合に備えて、第1の候補単語"jumped"と類似単語"jum
p","and"を対応付けることが挙げられる。さらに、第2
の方法をとる場合の対応付けの例としては、"check in"
と"chickin"との対応付け等を挙げることができる。
に誤って識別される場合に対応するために、複数の単語
を含む第1の候補単語に、1つの単語のみを含む類似単
語を対応付ける。第3の方法の例としては、第1の候補
単語"have", "to"がつながって発音された場合に備え
て、第1の候補単語"have", "to"と類似単語"hat"を対
応付けることが挙げられる。さらに、第3の方法をとる
場合の対応付けの例としては、"I wii"と"aisle"との対
応付け等を挙げることができる。
に誤って識別される場合に対応するために、複数の単語
を含む第1の候補単語に、複数の単語を含む類似単語を
対応付ける。第1〜第3の方法は、第4の方法に限定を
加えた方法と考えることができるので、図6に示した類
似単語レコードは、第4の方法に基づいて作成され、複
数の単語を含む第1の候補単語に複数の単語を含む類似
単語が対応付けてある。
者(ユーザ)の発音が不正確な場合に、候補単語の代わ
りに選択される。従って、絞り込み部188において、
候補単語ではなく、類似単語が最終的に選ばれた場合に
は、話者は、英語の発音上、選ばれた類似単語に対応す
る誤りをしていることになる。誤りコード(ECode)は、
このような観点から類似単語レコードに付加され、最終
的に選択された類似単語に対応する発音上の誤りを符号
の形式で示す。
ータの誤り情報コードテーブルを例示する図である。図
7に示すように、誤り情報コードテーブルは、誤りコー
ド(ECode; 0, 1,2,...)と、誤りの内容を示す情報
(例えば、「rをlと発音した」,「lをrと発音した」,
「thをsと発音した」等の誤り情報)とが対応付けられ
て構成される。
18において、ベクトルデータ生成部160(図3)
は、音声インターフェース部150から入力される音声
データを処理して、音声の複数の特徴(音の高さ、強
さ、イントネーション等)それぞれについて量子化を行
ない、これらの特徴それぞれを示す数値を含むベクトル
データを生成して制御部162に対して出力する。例え
ば、音声データのサンプリング周波数が11kHzであ
る場合、ベクトルデータ生成部160は、音声データを
1/100秒単位で処理し、音声データの複数の種類の
特徴それぞれを量子化し、複数の要素からなるベクトル
データを生成する。
2は、ベクトルデータ生成部160から入力されたベク
トルデータを、発音記号に類似するラベルと呼ばれるデ
ータに変換し、1センテンス分ずつ候補単語作成部18
4に対して出力する。ラベル作成部182は、この変換
処理を、例えば、色々な人(大人、子供、男、女等)の
実際の話し声のサンプルから生成したラベルと、連続し
た複数のベクトルデータのパターンとを対応付けたラベ
ルテーブルを用い、連続した複数のベクトルデータに対
応するラベルを選択することにより行なう。ただし、
「センテンス」という用語は、実際の文章内の実際のセ
ンテンスに必ずしも対応せず、単に音声識別の処理単位
を示す。
184は、音声データにおいて、1つ以上の英単語に対
応する連続した1つ以上のラベル列を、英単語との対応
を示すラベル列テーブルを用いて、ラベル列それぞれが
示す1つ以上の英単語の組み合わせの1つ以上と対応付
け、対応付けた英単語の組み合わせを第1の候補単語と
して類似単語追加部186に対して出力する。(以下、
説明の簡略化のために、候補単語作成部184が、1つ
の英単語に対応するラベル列それぞれを、1つの英単語
のみを含む第1の候補単語に対応付ける場合を例として
説明する。)
は、ラベルが示す音をアルファベットに変換し、変換し
て得られたアルファベット列を英単語に変換するのでは
なく、ラベル列を直接、英単語(第1の候補単語)に変
換する。つまり、候補単語作成部184は、例えば、第
1の候補単語として"read"を作成する際に、ラベル列
を"r", "e", "a", "d"という4個のアルファベットに置
換してから"read"という単語を第1の候補単語として対
応付けるのではなく、ラベル列に直接に"read"という単
語を対応付ける。
第1の候補単語を、図8に示す入力レコード(InWord)、
および、図9に示す入力レコードマトリクス(InMatrix)
の形式で、1センテンス分ずつ類似単語追加部186に
対して出力する。図8は、候補単語作成部184が類似
単語追加部186に出力する入力レコード(InWord)のデ
ータ構造を示す図である。図9は、候補単語作成部18
4が類似単語追加部186に出力する入力レコードマト
リクス(InMatrix)のデータ構造を示す図である。
は、ラベル列と対応付けた単語およびその単語長を示す
データ(InWord)それぞれに、その単語が1つのセンテン
スにおいて第i番目であること、および、1つのセンテ
ンスの第i番目の第j番目の第1の候補単語であること
を示すデータを付加し、入力レコード(InWord)を作成し
て類似単語追加部186に対して出力する。ただし、
i,jは整数であって、iは最大単語数(Maxi)以下、j
は最大候補数(Maxj)以下である。
示すように、ラベル作成部182から入力されたラベル
列と、選択した英単語に対応するラベル列テーブル内の
ラベル列との一致の程度、言いかえると、ラベル列が第
1の候補単語を示している確率を示す確率データを作成
し、入力レコードの単語およびその単語長を示すデータ
に付加して類似単語追加部186に対して出力する。
ord)の作成が終了すると、候補単語作成部184は、図
9に示すように、そのセンテンス中に含まれる最大単語
数(Maxi)、同一のラベル列(読み)に対して、最大いく
つの第1の候補単語が対応付けられたかを示す最大候補
数(Maxj)、および、第i番目の単語に第j番目の単語が
存在するかを示すフラグFlg(ij)を示す入力レコードマ
トリクスを作成し、1センテンス分の入力レコードとと
もに類似単語追加部186に対して出力する。なお、候
補単語作成部184が第i番目の単語に対応するラベル
列の第1の候補単語を選べなかった場合には、フラグFl
g(i1)は、第i番目の第1番目の単語が存在しない旨を
示す値(例えば0)とされる。
186は、候補単語作成部184から入力された入力レ
コードそれぞれに対して、ラベル列と対応付けることは
できないが、日本人による英語の発音の癖等を考慮し
て、第1の候補単語に類似する可能性がある英単語を第
1の候補単語に付加し、第2の候補単語を生成して絞り
込み部188に対して出力する。
に説明する。類似単語追加部186は、まず、候補単語
作成部184から入力された1センテンス分の入力レコ
ード(InWord)に含まれる第p番目の第1の候補単語を順
次、単語データベース部160に対して出力し、単語レ
コードの取得を要求する。単語データベース部160
は、インデックステーブル(図4)を用いて単語レコー
ド(図5)の検索を行ない、入力レコード(InWord)に含
まれる単語と見出し単語(TarWord)が一致する単語レコ
ードを取得し、類似単語追加部186に対して出力す
る。
の候補単語の単語インデックスを得ると、第p番目から
第p+m−1番目の単語(InWord-p.j, InWord-p+1.j,
...,InWord-p+m-1.j)と、単語データベース部160か
ら入力される単語レコードに付加された類似単語レコー
ド(図6)それぞれのm個の入力単語(aWord, aWord-1,
aWord-2, ..., aWord-m-1)とを比較し、これらが一致
した場合には、n個の類似単語(COWord-1, COWord-2,
..., COWord-n)を第p番目の第1の候補単語に付加し
て第2の候補単語を作成する。
補単語に類似単語を付加して第2の候補単語を作成する
のではなく、第1の候補単語を類似単語で置き換えて第
2の候補単語を作成するように処理を変更することも可
能である。この場合には、類似単語に第1の候補単語が
含まれているか否かを問わない。
候補単語に付加した類似単語レコードに対応する誤りコ
ード(ECode)を単語データベース部160に対して出力
し、誤りコードが示す誤り情報の取得を要求する。単語
データベース部160は、この要求に応じて誤り情報コ
ードテーブル(図7)を検索し、誤り情報を取得して類
似単語追加部186に対して出力する。
み部188に出力する出力レコード(OutWord)のデータ
構造を示す図である。図11は、類似単語追加部186
が絞り込み部188に出力する出力レコードマトリクス
(OutMatrix)のデータ構造を示す図である。
補単語、単語長を示すデータ、確率データおよび誤り情
報(または誤り情報コード)と、その単語が1つのセン
テンスにおいて第i'番目であること、および、1つの
センテンスの第i'番目の第j'番目の第1の候補単語で
あることを示すデータを付加し、図10に示すように、
入力レコード(図8)と同様な形式をとる出力レコード
(OutWord)の形式で絞り込み部188に対して出力す
る。
Word)の作成が終了すると、類似単語追加部186は、
図11に示すように、入力レコードマトリクス(図9)
と同様に、そのセンテンス中に含まれる最大単語数(Max
i')、同一のラベル列(読み)に対して、最大いくつの
第2の候補単語が対応付けられたかを示す最大候補数(M
axj')、および、第i'番目の単語に第j'番目の単語が
存在するかを示すフラグFlg(i'j')を示す出力レコード
マトリクスを作成し、1センテンス分の出力レコードと
ともに絞り込み部188に対して出力する。
は、出力レコードとして類似単語追加部186から入力
された第2の候補単語をモニタ102に表示し、例え
ば、ユーザの操作に応じて、あるいは、それまでに識別
した単語列の構文解析結果に基づいて、第2の候補単語
のいずれかを、最終的な識別結果として選択し、選択し
た単語を並べたテキストデータを作成し、モニタ10
2、スピーカ104あるいはプリンタ106に対して出
力する。
作成についてさらに説明する。例えば、1つのセンテン
スの第1番目の単語の第2の候補単語がn1個(OutWord-
1.1, OutWord-1.2, ...,OutWord-1.n1)、第2番目の単
語の第2の候補単語がn2個といったようにある場合に
は、絞り込み部188は、第1番目の単語の第2の候補
単語のいずれか、および、第2番目の単語の第2の候補
単語のいずれかといったように、各単語の第2の候補文
字のいずれかを、単語の順番通りにモニタ102に表示
する。
GUI画像のウィンドウ内に表示された第2の候補単語
をクリックすると、制御部162は、クリックされた第
2の候補単語を反転表示し、その後、ユーザが同じ部分
をクリックするたびに、表示する第2の候補単語を変更
する。ユーザが最終的に第2の候補単語を選択し、その
旨の操作をマウス128あるいはキーボード126に対
して行なったり、あるいは、次の単語の選択操作に移行
すると、絞り込み部188は、最後に表示した第2の候
補単語を最終的に選択された識別結果とする。ユーザは
必要に応じてこの作業を繰り返し、絞り込み部188
は、この作業に応じて単語の選択を行ない、テキストデ
ータを作成する。
候補単語を表示する際に、単語の前後関係を考慮して、
最終的な識別結果として選択される可能性が高い第2の
候補単語のみをモニタ102に表示したり、あるいは、
最終的な識別結果として選択される可能性が高い順番で
モニタ102に表示させるようにしたりすると便利であ
る。
して挙げて説明する。候補単語作成部184は、「あか
いはな」という日本語の音声データから得られたラベル
を、「たかい・はな(高い・花,高い・鼻)」と識別
し、さらに、類似単語追加部186がこれらに類似単語
「赤い・罠」を付加して、これら3種類を第2の候補単
語として絞り込み部188に出力する可能性がある。こ
のような場合、絞り込み部188において、第2の候補
単語の前半の識別結果が「赤い」とされた場合に、後半
の識別結果は、「花」、「鼻」および「罠」の順で確か
らしいと考えられる。このような場合、絞り込み部18
8の処理を、「赤い」という単語に続けて「花」,
「鼻」のみを表示するようにしたり、「花」,「鼻」,
「罠」の順番で表示するようにすると、ユーザの選択操
作を最小限にすることができる。
語追加部186から入力される出力レコードに付加され
た確率データを利用して、例えば、ユーザが設定する閾
値以上の範囲の値をとる確率データに対応する第2の候
補単語のみをモニタ102に表示するようにすると、最
終的な識別結果として選択される可能性が高い第2の候
補単語のみがモニタ102に表示されることとなり、ユ
ーザの選択操作をより少なくすることができる。
参照して、コンピュータ1における音声識別処理を説明
する。図12は、コンピュータ1における本発明にかか
る音声識別処理を示すフローチャート図である。なお、
図12においては、説明の簡略化のために、本発明にか
かる音声識別処理の内、基本的な処理のみを示してあ
り、上述した確率データあるいは誤り情報を用いた処理
は適宜、省略されている。
100)において、音声識別プログラム16のベクトル
データ生成部160およびラベル作成部182(図3)
は、日本人ユーザが発音した1センテンス(単位)分の
音声データを処理し、ラベル列に変換する。ベクトルデ
ータ生成部160およびラベル作成部182が生成した
1センテンス分のラベル列は、候補単語作成部184に
入力される。
補単語作成部184は、ラベル作成部182から入力さ
れた1センテンス分のラベル列を第1の候補単語に対応
付け、図8に示した入力レコード(InWordij)の形式で類
似単語追加部186に対して出力し、さらに、図9に示
した入力レコードマトリクス(InMatrix)を作成して類似
単語追加部186に対して出力する。
似単語追加部186は、単語データベース部160に対
して処理の対象となっている入力レコードに含まれる第
1の候補単語の単語レコード(図5)の検索を要求す
る。単語データベース部160は、類似単語追加部18
6の要求に応じてインデックステーブル(図4)を用い
て検索を行ない、検索の結果として第1の候補単語(入
力レコード)に対応する単語レコードが得られた場合に
は、得られた単語レコードを類似単語追加部186に対
して出力してS106の処理に進み、得られなかった場
合にはS110の処理に進む。
似単語追加部186は、単語データベース部160から
入力された単語レコードの類似単語レコード(図6)を
処理し、第1の候補単語(入力レコード)に対応する類
似単語を取得する。
得した類似単語を第1の候補単語に付加して第2の候補
単語を作成する。
似単語追加部186は、1センテンスに含まれる入力レ
コードの全ての処理を終了したか否かを判断し、終了し
た場合にはS110の処理に進み、終了しない場合に
は、処理対象を次の入力レコードに変更してS104の
処理に戻る。
似単語追加部186は、S108において作成された第
2の候補単語を、図10に示した出力レコードの形式で
絞り込み部188に対して出力する。さらに、類似単語
追加部186は、第2の候補単語に対応する出力レコー
ドマトリクス(図11)を作成し、絞り込み部188に
対して出力する。絞り込み部188は、入力された第2
の候補単語をモニタ102上のGUI画像のウィンドウ
内に表示し、ユーザの操作に応じて最終的な識別結果
を、英文のテキストデータとして出力する。
を、ユーザが、類似単語追加部186において類似単語
として第2の候補単語に付加された単語を最終的な識別
結果として選択した場合に、選択された単語に付加され
た誤り情報をモニタ102に表示するようにすると、ユ
ーザは、自分の英語の発音の欠点を知ることができ、コ
ンピュータ1を音声識別装置として用いるほか、英語の
発音の学習装置として用いることができる。誤り情報の
表示方法としては、正しい発音をするための口の形を表
示する、あるいは、正しい発音を音声合成してユーザに
聞かせる等の方法が考えられる。
は、日本人が発音した英語から英文テキストを識別する
処理を例示したが、本発明にかかる音声識別処理は、こ
のような場合に限定されず、例えば、アメリカ式英語を
話すアメリカ人が、英国式英語用に調整された音声識別
装置を用いてテキストを作成する等、同一の言語であっ
ても発音が異なる場合、あるいは、個人の発音に癖があ
ったり、不明りょうであったりする場合の識別率の低下
に対処するために、広く応用することができる。
別処理においては、候補単語作成部184が識別した第
1の候補単語に、類似単語追加部186において類似単
語を付加して第2の候補単語とするので、音声識別率が
向上する。便宜的にコンピュータ1により日本語を識別
する場合を具体例として説明する。例えば、ユーザが日
本語で「あかいはな(赤い花)」と発音したつもりであ
っても、「あ」の発音が何らかの原因で不明りょうにな
って、ラベル作成部182が、「あかいはな」とも「た
かいはな」ともつかないラベル列を生成することがあ
る。
対応する第1の候補単語として「高い・鼻」を選択し、
類似単語追加部186に出力した場合であっても、単語
レコードが適切に作成されていれば、類似単語追加部1
86が第1の単語として「赤い・鼻」,「赤い・花」を
第1の候補単語に付加して第2の候補単語とすることが
できる。従って、候補単語作成部184が作成した第1
の候補単語には含まれていなかった本来の「赤い・花」
もモニタ102に表示されることになり、ユーザは第2
の候補単語の中から正しい識別結果を選択することがで
きる。
処理に文法的解析処理(文章中の特定の位置には名詞が
おかれやすい等)や、言語モデル処理(並んだ単語の確
からしさ)等が組み合わされて実現されるので、これら
の処理を行なう前に、本発明にかかる音声識別方法で類
似単語を追加しておくと、音声識別率が大幅に向上する
など、効果が非常に大きい。
ログラム16において、音声識別の結果として候補単語
が選択されるということは、ユーザ(話者)の発音がネ
イティブスピーカに比較的近く、本発明にかからない一
般的な音声識別装置を用いても高い識別率で識別可能な
程度に正確であることを意味し、反対に、類似単語が選
択されるということは、話者の発音に誤り、あるいは、
不明瞭さがあることを意味する。このことは、音声識別
プログラム16において、ユーザが意図した単語が類似
単語に含まれる場合にも当てはまる。
語として識別された場合に、話者に対して発音がどのよ
うに誤っているか、正しく発音するにはどのようにした
らよいか等の情報(発音矯正情報)を提示することによ
り、話者の発音の学習を補助でき、話者の発音を矯正で
きることが分かる。以下、第2の実施形態として示す発
音矯正方法は、この点に着目し、第1の実施形態として
示した音声識別処理を変形し、話者の発音が不正確であ
ると判断できる場合に、話者に発音矯正情報を示す画像
表示するようにしたものである。
かる音声識別処理および発音矯正方法を実現するコンピ
ュータ2の構成を示す図である。なお、特に断らない限
り、以下の図面に示す構成部分は、これまでの図面に示
した同一符号の構成部分と同じである。図13に示すよ
うに、コンピュータ2は、コンピュータ1(図1)の入
力装置120を入力装置130で置換した構成を採り、
入力装置130は、入力装置120に画像入力用ボード
132を追加した構成を採る。画像入力用ボード132
は、例えば、発音矯正画像(図19)に用いられる画像
データをビデオカメラとり込むために用いられる。
かかる音声識別処理および発音矯正方法を実現するソフ
トウェア20を示す図である。図14に示すように、ソ
フトウェア20は、ソフトウェア14(図2)における
音声識別プログラム16を音声識別・矯正プログラム2
2で置換した構成を採る。ソフトウェア14において各
構成部分の間で入出力されるデータの他に、ソフトウェ
ア20においては、画像データがさらに入出力され、ソ
フトウェア14における識別結果(テキストデータ)の
代わりに、ユーザ(話者)の発音を矯正する発音矯正情
報を示す画像(発音矯正画像)がモニタ102等に出力
されるようになっている。
は、図14に示した音声識別・矯正プログラム22の構
成を示す図である。図15に示すように、音声識別・矯
正プログラム22は、音声識別プログラム16(図3)
および発音矯正プログラム24から構成される(絞り込
み部188は省略)。
別・矯正プログラム22においては、音声識別プログラ
ム16においてと異なり、類似単語追加部186は、発
音矯正プログラム24の比較部240および発音矯正情
報表示部242に対して類似単語レコード(図18)を
出力する。
5に示した制御部162が表示する発音指示画像を例示
する図である。図17(A),(B)はそれぞれ、図1
5に示した単語データベース部160が生成する矯正情
報インデックスを例示する図であって、(A)はrの発
音を矯正するための発音矯正画像を示し、(B)はlの
発音を矯正するための発音矯正画像を示す。図18は、
第2の実施形態において単語データベース部160が生
成する類似単語レコードを示す図である。
に、ユーザに発音すべき単語(図16においては"rea
d")を示し、発音を促す発音指示画像(図16において
は「"read"と発音してみて下さい!」というテキストデ
ータを含む画像)をさらに生成してモニタ102に表示
し、ユーザに発音を指示した単語(正解単語)を比較部
240に対して出力する。また、制御部162は、発音
矯正画像表示部242から矯正情報コード(CCode;図1
8)が入力された場合に、この矯正情報コードを単語デ
ータベース部160に対して出力し、この矯正情報コー
ドが示す矯正情報インデックス(図17(A),
(B))を単語データベース部160から得る。さら
に、制御部162は、この矯正情報インデックスに含ま
れるn個のエントリ(nは整数;図17(A),(B)
においてはn=8)が示す画像データおよびテキストデ
ータを記憶装置110から読み出して、発音矯正画像表
示部242に対して出力する。
報インデックスが示す第1の発音矯正画像を例示する図
である。なお、図19においては、図示の簡略化のため
に、図17(A)に例示したエントリ5〜7に対応する
テキストデータは省略されている。また、制御部162
は、図17(A)に例示したような矯正情報インデック
スに含まれるエントリと、図19に例示するようなエン
トリそれぞれが示す画像データ(Image)およびテキスト
データ(Text)とを対応付けて、記憶装置110に記憶す
る。
クスは、ユーザのrの発音を矯正するために用いられ、
発音の矯正すべき点を示すテキストデータ、rを発音す
る際の口の形を示す画像データ、lを発音する際の口の
形を示す画像データ、rを発音するためのアドバイスを
示すテキストデータ、rを含む単語の例、lを含む単語
の例、rとlとが現れる単語の例を示すテキストデー
タ、および、rとlとが現れる文章の例を示すテキスト
データをそれぞれ示すエントリ(エントリ1〜4,8)
を含む。図17(A)に例示した矯正情報インデックス
からは、図19に例示するような発音矯正画像が生成さ
れ、モニタ102に表示される。
ンデックスは、ユーザのlの発音を矯正するために用い
られ、発音の矯正すべき点を示すテキストデータ、lを
発音する際の口の形を示す画像データ、rを発音する際
の口の形を示す画像データ、lを発音するためのアドバ
イスを示すテキストデータ、lを含む単語の例、rを含
む単語の例、rとlとが現れる単語の例を示すテキスト
データ、および、rとlとが現れる文章の例を示すテキ
ストデータをそれぞれ示すエントリを含む。
語データベース部160は、ソフトウェア14において
と異なり、誤り情報コードテーブル(図7)の代わり
に、図17(A),(B)に例示したような矯正情報イ
ンデックスを作成し、単語データとして記憶装置110
にさらに記憶する。
8に示すように、矯正情報インデックスのいずれかを示
す矯正情報コード(CCode; correction code)を、誤りコ
ード(ECode;図6)の代わりに類似単語レコードに付加
し、記憶装置110に記憶する。また、単語データベー
ス部160は、発音矯正画像表示部242から制御部1
62を介して矯正情報コードが入力された場合に、入力
された矯正情報コード(図18)に対応する矯正情報イ
ンデックス(図17(A),(B))を記憶装置110
から読み出して、制御部162に対して出力する。
は、類似単語追加部186から入力される類似単語レコ
ード(図18)が示す類似単語レコードに含まれる類似
単語それぞれと、制御部162から入力される正解単語
とを比較し、正解単語が類似単語のいずれかと一致する
か否かを判断する。比較部240は、正解単語が類似単
語と一致する場合にはその旨を、一致しない場合にはそ
の旨を発音矯正画像表示部242に対して通知する。
像表示部242は、比較部240が正解単語のいずれか
と類似単語とが一致すると判定した場合に、類似単語レ
コード(図18)に付加された矯正情報コード(CCode)
が示す矯正情報インデックス(図17(A),(B))
が示す画像データおよびテキストデータの取得を制御部
162に要求する。制御部162が、この要求に応えて
画像データおよびテキストデータを記憶装置110から
読み出し、発音矯正画像表示部242に対して出力する
と、発音矯正画像表示部242は、これらのデータを、
図19において符号(a)〜(e)を付して例示したよ
うな位置に配置し、発音矯正画像を生成してモニタ10
2に表示する。
以下、音声識別・矯正プログラム22の動作を説明す
る。図20は、第2の実施形態における音声識別・矯正
プログラム22(図15)の処理(S20)を示すフロ
ーチャートである。
0)に示すように、ユーザの操作入力に応じて、制御部
162が、例えば、図16に示したように、"read"とい
う単語の発音をユーザに促す発音指示画像をモニタ10
2に表示する。制御部162は、正解単語"read"を比較
部240に対して出力する。ユーザが発音指示画像に応
じて"read"と発音すると、音声識別プログラム16のベ
クトルデータ作成部180、ラベルデータ作成部18
2、候補単語作成部184および類似単語追加部186
(図15)は、ユーザが発音した音声を識別し、類似単
語レコードを比較部240および発音矯正画像表示部2
42に対して出力する。
ように、ユーザが正しく"read"と発音すると、候補単語
作成部184は単語"read"を含む候補単語を類似単語追
加部186に対して出力し、類似単語追加部186は、
単語"lead"等を類似単語として含む類似単語レコード
(図18)を比較部240および発音矯正画像表示部2
42に対して出力する。反対に、例えば、ユーザが"r"
の発音と"l"の発音とを区別できず、不正確な"read"の
発音を行なうと、候補単語作成部184は、単語"read"
の代わりに単語"lead"等を含む候補単語を類似単語追加
部186に対して出力し、類似単語追加部186は、単
語"read"等を類似単語として含む類似単語レコードを比
較部240および発音矯正画像表示部242に対して出
力する。
較部240は、制御部162から入力された正解単語
と、類似単語追加部186から入力された類似単語レコ
ードに含まれる類似単語それぞれとを比較し、正解単語
が類似単語のいずれかと一致しない場合には、その旨を
発音矯正画像表示部242に通知して"read"の発音の矯
正・学習に関する処理を終了し、例えば次の単語の発音
の矯正・学習に関する処理に進む。これ以外の場合に
は、比較部240は、正解単語が類似単語のいずれかと
一致したことを発音矯正画像表示部242に通知して、
S204の処理に進む。
音矯正画像表示部242は、類似単語レコードから矯正
情報コード(CCode)を得る。さらに、発音矯正画像表示
部242は、制御部162に対して矯正情報コードを出
力し、発音矯正画像に用いる画像データおよびテキスト
データの取得を要求する。制御部162は、発音矯正画
像表示部242からの要求に応じて、単語データベース
部160から、図17(A)に例示した矯正情報インデ
ックスを得て、この矯正情報インデックスのエントリ
(エントリ1〜4,8)それぞれが示す画像データおよ
びテキストデータを記憶装置110から読み出し、発音
矯正画像表示部242に対して出力する。
音矯正画像表示部242は、制御部162から入力され
た矯正情報インデックスのエントリ(エントリ1〜4,
8)それぞれに対応する画像データおよびテキストデー
タを、それぞれ図19に例示する位置(a)〜(e)に
配置した発音矯正画像を生成し、モニタ102に表示
し、"read"に関する処理を終了し、例えば次の単語の発
音の矯正・学習に関する処理に進む。
は、発音矯正情報がテキストデータおよび画像データの
みを含む場合を例示したが、発音矯正情報が他の種類の
データを含んでいてもよい。例えば、発音矯正情報に正
しい発音の音声データを含め、発音矯正情報(図19)
をモニタ102に表示するとともに、音声データをスピ
ーカ104を介して出力するようにしてもよい。
語と発音矯正情報コードとを対応付けて管理する場合を
示したが、図6に示した類似単語レコードに含めて管理
するように音声識別・矯正プログラム22を構成しても
よい。また、第2の実施形態においては、音声識別・矯
正プログラム22が発音矯正情報のみを出力する場合を
示したが、発音矯正情報および誤り情報の両方を出力す
るように構成してもよい。また、第2の実施形態におい
ては、制御部162が発音指示画像をモニタ102に表
示し、発音矯正画像表示部242が発音矯正情報をモニ
タ102に表示する場合を例示したが、これらの構成部
分のいずれかが、これら両方の画像をモニタ102に表
示するように音声識別・矯正プログラム22を構成して
もよい。
る全ての情報が矯正情報インデックス(図17(A),
(B))に登録されている必要はない。例えば、図17
(A)に示した矯正すべき点および再発音支持のテキス
トデータは、音声識別・矯正プログラム22(図15)
の作り方に応じて、矯正情報インデックスに登録されて
いても、あるいは、矯正情報インデックスには登録され
ず、発音矯正画像に予め書き込まれていてもよい。
して、第2の実施形態として示した発音矯正方法を応用
した発音学習方法を説明する。この発音学習方法は、図
20に示した発音識別・矯正プログラム22の動作を改
良し、図16および図19に示した発音指示画像および
発音の基礎を示す発音矯正画像の他に、発展的な学習を
指示する発音矯正画像(図21〜図23)をさらに表示
し、ユーザの発音学習の便宜を図ったものである。
態として示す発音学習方法において用いられる第2〜第
4の発音矯正画像を例示する図である。第3の実施形態
において、発音識別・矯正プログラム22は、図16,
19に示した発音矯正画像に加え、図21〜図23に例
示する発音矯正画像を表示する。
ば、発音識別・矯正プログラム22が、第1の発音矯正
画像(図19)を見てユーザが"read"を正しく発音した
と判断した場合に表示され、ユーザが正しく"r","l"を
区別して発音しているかを確認するために用いられる。
なお、第2の発音矯正画像は、ユーザが第1の発音矯正
画像に応じてユーザが正しく"read"と発音するまでは表
示されず、ユーザが第2の発音矯正画像に示された単
語"write", "raw", "long", "light"の全てを正しく発
音できるようになるまで繰り返し表示される。また、第
2の発音矯正画像は、第1の発音矯正画像において省略
されていた矯正情報インデックス(図17(A))のエ
ントリ5,6を含んでいる。
ば、発音識別・矯正プログラム22が、第2の発音矯正
画像(図21)内の各単語をユーザが正しく発音したと
判断した場合に表示され、ユーザが"r","l"を区別する
ためのさらに進んだ練習を行なうために用いられる。な
お、第3の発音矯正画像は、ユーザが第2の発音矯正画
像に示された各単語の全てをユーザが正しく発音するま
では表示されず、第3の発音矯正画像に示されたセンテ
ンス"write letters", "great troubleの全てをユーザ
が正しく発音できるようになるまで繰り返し表示され
る。また、第2の発音矯正画像は、第1の発音矯正画像
において省略されていた矯正情報インデックス(図17
(A))のエントリ7を含んでいる。
ば、発音識別・矯正プログラム22が、第3の発音矯正
画像(図22)内のセンテンスの全てをユーザが正しく
発音したと判断した場合に表示され、ユーザが"r","l"
を区別して発音できるようになったことを確認するため
に用いられる。なお、第4の発音矯正画像は、ユーザが
第3の発音矯正画像に示されたセンテンスの全てをユー
ザが正しく発音するまでは表示されず、第4の発音矯正
画像に示されたセンテンス"The river rose several fe
et and finally overflowed its banks."をユーザが正
しく発音できるようになるまで繰り返し表示される。
下、第3の実施形態における音声識別・矯正プログラム
22の動作を説明する。図24は、第3の実施形態にお
ける音声識別・矯正プログラム22(図15)の動作
(S30)を示すフローチャートである。図25は、図
24に示した学習項目のリストアップ処理(S300)
において作成される学習項目リストを例示する図であ
る。
300)において、音声識別・矯正プログラム22は、
図20に示したように、正解単語と類似単語とを比較
し、類似単語と一致する正解単語を求める。さらに、音
声識別・矯正プログラム22は、求めた正解単語におい
て、ユーザが苦手とする発音(例えば"r","th")を決定
し、例えば図25に例示するように、学習項目としてリ
ストアップする。
声識別・矯正プログラム22は、S300の処理におい
てリストアップした学習項目がまだ学習されずに残って
いるか否かを判断する。音声識別・矯正プログラム22
は、学習項目が残っている場合にはS304の処理に進
み、これ以外の場合には処理を終了する。
声識別・矯正プログラム22は、S300の処理におい
てリストアップした学習項目のひとつを取り出す。ステ
ップ306(S306)において、音声識別・矯正プロ
グラム22は、第2の実施形態に示したように、発音指
示画像(図16)および発音矯正画像(図19)を表示
し、ユーザに発音を学習させる。
声識別・矯正プログラム22は、ユーザの音声を識別
し、識別の結果として得られた単語が候補単語と一致す
る場合にはユーザが正しく発音したと判断してS310
の処理に進み、これ以外の場合にはユーザが正しく発音
しなかったと判断してS306の処理に戻る。
声識別・矯正プログラム22は、学習に用いていない応
用問題(第2〜第4の発音矯正画像;図21〜図23)
があるか否かを判断する。応用問題が残っている場合に
は発音識別・矯正プログラム22はS312の処理に進
み、これ以外の場合にはS302の処理に戻る。
声識別・矯正プログラム22は、第2〜第4の発音矯正
画像のいずれかを表示し、ユーザに発音を学習させる。
ステップ314(S314)において、音声識別・矯正
プログラム22は、ユーザが正しく発音できたか否かを
判断し、ユーザの発音が正しい場合にはS316の処理
に進み、これ以外の場合にはS312の処理に戻る。
声識別・矯正プログラム22は、ユーザの発音に、S3
00の処理においてリストアップされた学習項目以外の
誤りがあるか否かを判断する。このような誤りがある場
合には、音声識別・矯正プログラム22はS318の処
理に進み、これ以外の場合にはS310の処理に戻る。
声識別・矯正プログラム22は、S316の処理におい
て見つかったユーザの発音上の誤りを学習項目に加え、
S310の処理に戻る。
声識別装置およびその方法によれば、上述した従来技術
の問題点に鑑みてなされたものであり、所定の言語を母
国語としない話者(ノン・ネイティブ)による所定の言
語の話し声に含まれる単語それぞれを識別し、話者が意
図する所定の言語の単語に置換して、正確なテキストデ
ータを作成することができる。
その方法によれば、話されている地域が異なる等のため
に、同一の言語の発音が変化したような場合であって
も、いずれの地域の話者による話し声でも、話者が意図
する単語に変換して、正確なテキストデータを作成する
ことができる。また、本発明にかかる音声識別装置およ
びその方法によれば、発音の個人差を補って、常に高い
識別率を保つことができる。
びその方法によれば、本発明にかかる上記音声識別装置
およびその方法の処理の過程で得られるデータを利用し
て話者の発音の問題点を指摘することができ、また、話
者にネイティブスピーカの発音を学習させ、話者の発音
を矯正することができる。また、本発明にかかる発音矯
正装置およびその方法によれば、話者の発音と正確な発
音とを自動的に比較して誤りを指摘することができ、さ
らに、話者がどのように発音を矯正すべきかを示す詳細
な情報を提示し、その発音を矯正することができる。
ュータの構成を例示する図である。
るソフトウェアの構成を示す図である。
図である。
データを例示する図である。
例示する図である。
タを例示する図である。
る図である。
力レコード(InWord)のデータ構造を示す図である。
力レコードマトリクス(InMatrix)のデータ構造を示す図
である。
レコード(OutWord)のデータ構造を示す図である。
レコードマトリクス(OutMatrix)のデータ構造を示す図
である。
別処理を示すフローチャート図である。
び発音矯正方法を実現するコンピュータの構成を示す図
である。
び発音矯正方法を実現するソフトウェアを示す図であ
る。
構成を示す図である。
発音指示画像を例示する図である。
示した単語データベース部が生成する矯正情報インデッ
クスを例示する図であって、(A)はrの発音を矯正す
るための発音矯正画像を示し、(B)はlの発音を矯正
するための発音矯正画像を示す。
タベース部が生成する類似単語レコードを示す図であ
る。
スが示す第1の発音矯正画像を例示する図である。
グラム(図15)の処理(S20)を示すフローチャー
トである。
いて用いられる第2の発音矯正画像を例示する図であ
る。
いて用いられる第3の発音矯正画像を例示する図であ
る。
いて用いられる第4の発音矯正画像を例示する図であ
る。
グラム(図15)の動作(S30)を示すフローチャー
トである。
(S300)において作成される学習項目リストを例示
する図である。
Claims (17)
- 【請求項1】話し声に含まれる1つ以上の単語を示す音
声データから、前記単語それぞれを識別する音声識別装
置であって、 1つ以上の前記単語の音声データそれぞれに、これら1
つ以上の音声データそれぞれを識別して得られる1つ以
上の前記単語の組み合わせの候補(候補単語)の1組以
上を対応付ける候補単語対応付け手段と、 1つ以上の前記単語の音声データそれぞれに対応付けた
前記候補単語それぞれに、前記候補単語それぞれの発音
に対応しうる1つ以上の前記単語の組み合わせ(類似単
語)の0組以上を対応付ける類似単語対応付け手段と、 1つ以上の前記単語の音声データそれぞれに対応付けた
前記候補単語、および、前記候補単語それぞれに対応付
けた前記類似単語のいずれかを選択し、前記単語の音声
データそれぞれの識別結果とする音声データ識別手段と
を有する音声識別装置。 - 【請求項2】前記音声データは、所定の言語の話し声に
含まれる1つ以上の単語を示し、 前記候補単語対応付け手段は、1つ以上の前記単語の音
声データそれぞれに、これら1つ以上の音声データそれ
ぞれを識別して得られる前記所定の言語の候補単語の1
組以上を対応付け、 前記類似単語対応付け手段は、1つ以上の前記単語の音
声データそれぞれに対応付けた前記候補単語それぞれ
に、前記候補単語それぞれの発音に対応しうる前記所定
の言語の類似単語の0組以上を対応付け、 音声データ識別手段は、1つ以上の前記単語の音声デー
タそれぞれに対応付けた前記候補単語、および、前記候
補単語それぞれに対応付けた前記類似単語のいずれかを
選択し、1つ以上の前記単語の音声データそれぞれの識
別結果とする請求項1に記載の音声識別装置。 - 【請求項3】前記所定の言語の話し声の発音は、前記所
定の言語以外の所定の言語を主に話す話者によってなさ
れ、 前記話者によって前記所定の言語の単語の1つ以上それ
ぞれが発音された場合に、前記所定の言語の話し声に含
まれる単語の音声データの1つ以上それぞれに対応しう
る前記所定の言語の単語の0組以上を、予め前記所定の
言語の単語の1つ以上それぞれと対応付けて、前記所定
の言語の単語の1つ以上それぞれの前記類似単語として
記憶する類似単語記憶手段を有し、 前記類似単語対応付け手段は、予め前記所定の言語の単
語の1つ以上それぞれと対応付けて記憶した前記類似単
語の0組以上を、前記候補単語それぞれに対応付ける請
求項2に記載の音声識別装置。 - 【請求項4】前記候補単語対応付け手段は、音声データ
に対応付けた前記候補単語それぞれの確からしさを示す
確率データを、音声データに対応付けた前記候補単語そ
れぞれに付し、 前記音声データ識別手段は、前記確率データの値が所定
の範囲をとる前記候補単語のみを選択し、前記単語の音
声データの識別結果とする請求項3に記載の音声識別装
置。 - 【請求項5】前記候補単語対応付け手段は、前記類似単
語それぞれに対応する発音の誤りを示す誤り情報を、音
声データに対応付けた前記候補単語それぞれに付す請求
項3に記載の音声識別装置。 - 【請求項6】所定の言語以外を主に話す話者による前記
所定の言語の音声に含まれる前記所定の言語の1つ以上
の単語を示す音声データから、前記所定の言語の単語の
1つ以上それぞれを識別する音声識別装置であって、 前記所定の言語の単語の音声データの1つ以上それぞれ
に、これらの音声データの1つ以上それぞれを識別して
得られる前記所定の言語の単語、および、前記話者が話
した可能性がある前記所定の言語の単語の1つ以上また
はこれらのいずれかを対応付ける単語対応付け手段と、 1つ以上の前記単語の音声データそれぞれに対応付けた
単語のいずれかを選択し、1つ以上の前記単語の音声デ
ータそれぞれの識別結果とする音声データ識別手段とを
有する音声識別装置。 - 【請求項7】話し声に含まれる1つ以上の単語を示す音
声データから、前記単語それぞれを識別する音声識別方
法であって、 1つ以上の前記単語の音声データそれぞれに、これらの
音声データの1つ以上それぞれを識別して得られる1つ
以上の前記単語の組み合わせの候補(候補単語)の1組
以上を対応付けるステップと、 1つ以上の前記単語の音声データそれぞれに対応付けた
前記候補単語それぞれに、前記候補単語それぞれの発音
に対応しうる1つ以上の前記単語の組み合わせ(類似単
語)の0組以上を対応付けるステップと、 1つ以上の前記単語の音声データそれぞれに対応付けた
前記候補単語、および、前記候補単語それぞれに対応付
けた前記類似単語のいずれかを選択し、前記単語の音声
データそれぞれの識別結果とするステップとを含む音声
識別方法。 - 【請求項8】所定の言語以外を主に話す話者による前記
所定の言語の音声に含まれる前記所定の言語の1つ以上
の単語を示す音声データから、前記所定の言語の単語の
1つ以上それぞれを識別する音声識別方法であって、 前記所定の言語の単語の音声データの1つ以上それぞれ
に、これらの音声データの1つ以上それぞれを識別して
得られる前記所定の言語の単語、および、前記話者が話
した可能性がある前記所定の言語の単語の1つ以上また
はこれらのいずれかを対応付けるステップと、 1つ以上の前記単語の音声データそれぞれに対応付けた
単語のいずれかを選択し、1つ以上の前記単語の音声デ
ータそれぞれの識別結果とするステップとを含む音声識
別方法。 - 【請求項9】話し声に含まれる1つ以上の単語を示す音
声データから、前記単語の1つ以上それぞれを識別する
音声識別装置において、 1つ以上の前記単語の音声データそれぞれに、これらの
音声データの1つ以上それぞれを識別して得られる1つ
以上の前記単語の組み合わせの候補(候補単語)の1組
以上を対応付ける候補単語対応付けステップと、 1つ以上の前記単語の音声データそれぞれに対応付けた
前記候補単語それぞれに、前記候補単語それぞれの発音
に対応しうる1つ以上の前記単語の組み合わせ(類似単
語)の0組以上を対応付ける類似単語対応付けステップ
と、 1つ以上の前記単語の音声データそれぞれに対応付けた
前記候補単語、および、前記候補単語それぞれに対応付
けた前記類似単語のいずれかを選択し、前記単語の音声
データそれぞれの識別結果とする音声データ識別ステッ
プとをコンピュータに実行させるプログラムを記録した
コンピュータにより読み取り可能な記録媒体。 - 【請求項10】前記音声データは、所定の言語の話し声
に含まれる1つ以上の単語を示し、 前記候補単語対応付けステップにおいて、1つ以上の前
記単語の音声データそれぞれに、これらの音声データの
1つ以上それぞれを識別して得られる前記所定の言語の
候補単語の1組以上を対応付け、 前記類似単語対応付けステップにおいて、1つ以上の前
記単語の音声データそれぞれに対応付けた前記候補単語
それぞれに、前記候補単語それぞれの発音に対応しうる
前記所定の言語の類似単語の0組以上を対応付け、 音声データ識別ステップにおいて、1つ以上の前記単語
の音声データそれぞれに対応付けた前記候補単語、およ
び、前記候補単語それぞれに対応付けた前記類似単語の
いずれかを選択し、前記単語の音声データそれぞれの識
別結果とする処理をコンピュータに実行させるプログラ
ムを記録したコンピュータにより読み取り可能な請求項
9に記載の記録媒体。 - 【請求項11】前記所定の言語の話し声は、前記所定の
言語以外の所定の言語を主に話す話者によってなされ、 前記話者によって前記所定の言語の単語の1つ以上それ
ぞれが発音された場合に、前記所定の言語の話し声に含
まれる単語の音声データの1つ以上それぞれに対応しう
る前記所定の言語の単語の0組以上を、予め前記所定の
言語の単語の1つ以上それぞれと対応付けて、前記所定
の言語の単語の1つ以上それぞれの前記類似単語として
記憶し、 前記類似単語対応付けステップにおいて、予め前記所定
の言語の単語の1つ以上それぞれと対応付けて記憶した
前記類似単語の0組以上を、前記候補単語それぞれに対
応付ける処理をコンピュータに実行させるプログラムを
記録したコンピュータにより読み取り可能な請求項10
に記載の記録媒体。 - 【請求項12】前記候補単語対応付けステップにおい
て、音声データに対応付けた前記候補単語それぞれの確
からしさを示す確率データを、音声データに対応付けた
前記候補単語それぞれに付し、 前記音声データ識別ステップにおいて、前記確率データ
の値が所定の範囲をとる前記候補単語のみを選択し、前
記単語の音声データの識別結果とする処理をコンピュー
タに実行させるプログラムを記録したコンピュータによ
り読み取り可能な請求項11に記載の記録媒体。 - 【請求項13】前記候補単語対応付けステップにおい
て、前記候補単語それぞれに対応する発音の誤りを示す
誤り情報を、音声データに対応付けた前記類似単語それ
ぞれに付す処理をコンピュータに実行させるプログラム
を記録したコンピュータにより読み取り可能な請求項1
1に記載の記録媒体。 - 【請求項14】所定の言語以外を主に話す話者による前
記所定の言語の音声に含まれる前記所定の言語の1つ以
上の単語を示す音声データから、前記所定の言語の単語
それぞれを識別する音声識別装置において、 前記所定の言語の単語の音声データの1つ以上それぞれ
に、これらの音声データの1つ以上それぞれを識別して
得られる前記所定の言語の単語の1つ以上、および、前
記話者が話した可能性がある前記所定の言語の単語の1
つ以上またはこれらのいずれかを対応付ける単語対応付
けステップと、 1つ以上の前記単語の音声データそれぞれに対応付けた
単語のいずれかを選択し、1つ以上の前記単語の音声デ
ータそれぞれの識別結果とする音声データ識別ステップ
とをコンピュータに実行させるプログラムを記録したコ
ンピュータにより読み取り可能な記録媒体。 - 【請求項15】単語を示す音声データを識別して得られ
る単語の候補(候補単語)を1個以上、対応付ける候補
単語対応付け手段と、 音声データに対応付けた前記候補単語それぞれに、前記
候補単語それぞれの発音に対応しうる単語(類似単語)
を0個以上、対応付ける類似単語対応付け手段と、 前記音声データが示す単語と、この音声データに対応付
けられた前記候補単語それぞれに対応付けられた前記類
似単語とが一致する場合に、前記音声データが示す単語
と同じ前記類似単語に対応し、前記音声データが示す単
語の発音を矯正する発音矯正データを出力する発音矯正
データ出力手段とを有する発音矯正装置。 - 【請求項16】単語を示す音声データを識別して得られ
る単語の候補(候補単語)を1個以上、対応付け、 音声データに対応付けた前記候補単語それぞれに、前記
候補単語それぞれの発音に対応しうる単語(類似単語)
を0個以上、対応付け、 前記音声データが示す単語と、この音声データに対応付
けられた前記候補単語それぞれに対応付けられた前記類
似単語とが一致する場合に、前記音声データが示す単語
と同じ前記類似単語に対応し、前記音声データが示す単
語の発音を矯正する発音矯正データを出力する発音矯正
方法。 - 【請求項17】単語を示す音声データを識別して得られ
る単語の候補(候補単語)を1個以上、対応付ける候補
単語対応付けステップと、 音声データに対応付けた前記候補単語それぞれに、前記
候補単語それぞれの発音に対応しうる単語(類似単語)
を0個以上、対応付ける類似単語対応付けステップと、 前記音声データが示す単語と、この音声データに対応付
けられた前記候補単語それぞれに対応付けられた前記類
似単語とが一致する場合に、前記音声データが示す単語
と同じ前記類似単語に対応し、前記音声データが示す単
語の発音を矯正する発音矯正データを出力する発音矯正
データ出力ステップと処理をコンピュータに実行させる
プログラムを記録したコンピュータにより読み取り可能
な記録媒体。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25344998A JP4267101B2 (ja) | 1997-11-17 | 1998-09-08 | 音声識別装置、発音矯正装置およびこれらの方法 |
US09/170,589 US6249763B1 (en) | 1997-11-17 | 1998-10-13 | Speech recognition apparatus and method |
DE69828141T DE69828141T2 (de) | 1997-11-17 | 1998-10-26 | Verfahren und Vorrichtung zur Spracherkennung |
EP98308715A EP0917129B1 (en) | 1997-11-17 | 1998-10-26 | Speech recognition method and apparatus |
US09/606,982 US6347300B1 (en) | 1997-11-17 | 2000-06-29 | Speech correction apparatus and method |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31551997 | 1997-11-17 | ||
JP9-315519 | 1997-11-17 | ||
JP25344998A JP4267101B2 (ja) | 1997-11-17 | 1998-09-08 | 音声識別装置、発音矯正装置およびこれらの方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007047403A Division JP2007193350A (ja) | 1997-11-17 | 2007-02-27 | 発音矯正装置、発音矯正方法および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11202889A true JPH11202889A (ja) | 1999-07-30 |
JP4267101B2 JP4267101B2 (ja) | 2009-05-27 |
Family
ID=26541202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP25344998A Expired - Lifetime JP4267101B2 (ja) | 1997-11-17 | 1998-09-08 | 音声識別装置、発音矯正装置およびこれらの方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US6249763B1 (ja) |
EP (1) | EP0917129B1 (ja) |
JP (1) | JP4267101B2 (ja) |
DE (1) | DE69828141T2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271192A (ja) * | 2002-03-13 | 2003-09-25 | Nissan Motor Co Ltd | 音声認識装置 |
JP2008083446A (ja) * | 2006-09-28 | 2008-04-10 | Casio Comput Co Ltd | 発音学習支援装置及び発音学習支援プログラム |
US7401018B2 (en) | 2000-01-14 | 2008-07-15 | Advanced Telecommunications Research Institute International | Foreign language learning apparatus, foreign language learning method, and medium |
WO2011089651A1 (ja) * | 2010-01-22 | 2011-07-28 | 三菱電機株式会社 | 認識辞書作成装置、音声認識装置及び音声合成装置 |
JP2012073396A (ja) * | 2010-09-28 | 2012-04-12 | Toshiba Corp | 会議支援装置、方法およびプログラム |
JP2016045420A (ja) * | 2014-08-25 | 2016-04-04 | カシオ計算機株式会社 | 発音学習支援装置およびプログラム |
JP2017207610A (ja) * | 2016-05-18 | 2017-11-24 | シャープ株式会社 | 応答制御装置、制御プログラム、情報処理方法、および通信システム |
Families Citing this family (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4267101B2 (ja) * | 1997-11-17 | 2009-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声識別装置、発音矯正装置およびこれらの方法 |
US8202094B2 (en) * | 1998-02-18 | 2012-06-19 | Radmila Solutions, L.L.C. | System and method for training users with audible answers to spoken questions |
EP1091336A1 (de) * | 1999-10-06 | 2001-04-11 | Ascom AG | Verfahren zur Erkennung und Korrektur von Fehlern in gesprochener Sprache und Vorrichtung zur Durchführung des Verfahrens |
US6438524B1 (en) * | 1999-11-23 | 2002-08-20 | Qualcomm, Incorporated | Method and apparatus for a voice controlled foreign language translation device |
EP1134726A1 (de) * | 2000-03-15 | 2001-09-19 | Siemens Aktiengesellschaft | Verfahren zur Erkennung von Sprachäusserungen nicht-muttersprachlicher Sprecher in einem Sprachverarbeitungssystem |
US7280964B2 (en) * | 2000-04-21 | 2007-10-09 | Lessac Technologies, Inc. | Method of recognizing spoken language with recognition of language color |
US6963841B2 (en) * | 2000-04-21 | 2005-11-08 | Lessac Technology, Inc. | Speech training method with alternative proper pronunciation database |
US6865533B2 (en) | 2000-04-21 | 2005-03-08 | Lessac Technology Inc. | Text to speech |
US6847931B2 (en) | 2002-01-29 | 2005-01-25 | Lessac Technology, Inc. | Expressive parsing in computerized conversion of text to speech |
JP2002091466A (ja) * | 2000-09-12 | 2002-03-27 | Pioneer Electronic Corp | 音声認識装置 |
AU2002231045A1 (en) * | 2000-12-18 | 2002-07-01 | Digispeech Marketing Ltd. | Method of providing language instruction and a language instruction system |
US20020115044A1 (en) * | 2001-01-10 | 2002-08-22 | Zeev Shpiro | System and method for computer-assisted language instruction |
US20020133342A1 (en) * | 2001-03-16 | 2002-09-19 | Mckenna Jennifer | Speech to text method and system |
CN1236422C (zh) * | 2001-05-02 | 2006-01-11 | 索尼公司 | 机器人装置、字符识别方法和装置 |
DE10207895B4 (de) * | 2002-02-23 | 2005-11-03 | Harman Becker Automotive Systems Gmbh | Verfahren zur Spracherkennung und Spracherkennungssystem |
EP1422691B1 (en) * | 2002-11-15 | 2008-01-02 | Sony Deutschland GmbH | Method for adapting a speech recognition system |
AU2003283892A1 (en) * | 2002-11-27 | 2004-06-18 | Visual Pronunciation Software Limited | A method, system and software for teaching pronunciation |
US6823493B2 (en) * | 2003-01-23 | 2004-11-23 | Aurilab, Llc | Word recognition consistency check and error correction system and method |
JP2004246184A (ja) * | 2003-02-14 | 2004-09-02 | Eigyotatsu Kofun Yugenkoshi | 視覚化された発音の提案を備えた言語学習システム及び方法 |
US20040166481A1 (en) * | 2003-02-26 | 2004-08-26 | Sayling Wen | Linear listening and followed-reading language learning system & method |
US7407384B2 (en) * | 2003-05-29 | 2008-08-05 | Robert Bosch Gmbh | System, method and device for language education through a voice portal server |
US7454336B2 (en) * | 2003-06-20 | 2008-11-18 | Microsoft Corporation | Variational inference and learning for segmental switching state space models of hidden speech dynamics |
US8019602B2 (en) * | 2004-01-20 | 2011-09-13 | Microsoft Corporation | Automatic speech recognition learning using user corrections |
US8036893B2 (en) * | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
US7640159B2 (en) * | 2004-07-22 | 2009-12-29 | Nuance Communications, Inc. | System and method of speech recognition for non-native speakers of a language |
US7643985B2 (en) * | 2005-06-27 | 2010-01-05 | Microsoft Corporation | Context-sensitive communication and translation methods for enhanced interactions and understanding among speakers of different languages |
US8249873B2 (en) * | 2005-08-12 | 2012-08-21 | Avaya Inc. | Tonal correction of speech |
WO2007034478A2 (en) * | 2005-09-20 | 2007-03-29 | Gadi Rechlis | System and method for correcting speech |
JP2008171208A (ja) * | 2007-01-11 | 2008-07-24 | Casio Comput Co Ltd | 音声出力装置及び音声出力プログラム |
US8165879B2 (en) * | 2007-01-11 | 2012-04-24 | Casio Computer Co., Ltd. | Voice output device and voice output program |
US8457946B2 (en) * | 2007-04-26 | 2013-06-04 | Microsoft Corporation | Recognition architecture for generating Asian characters |
US8359204B2 (en) * | 2007-10-26 | 2013-01-22 | Honda Motor Co., Ltd. | Free-speech command classification for car navigation system |
US8103503B2 (en) * | 2007-11-01 | 2012-01-24 | Microsoft Corporation | Speech recognition for determining if a user has correctly read a target sentence string |
US8175882B2 (en) * | 2008-01-25 | 2012-05-08 | International Business Machines Corporation | Method and system for accent correction |
JP2011519429A (ja) * | 2008-03-10 | 2011-07-07 | ベン−ハイム、アナト ティエバーガー | 言語能力開発のための方法およびデバイス |
KR101462932B1 (ko) * | 2008-05-28 | 2014-12-04 | 엘지전자 주식회사 | 이동 단말기 및 그의 텍스트 수정방법 |
US8321277B2 (en) * | 2008-06-18 | 2012-11-27 | Nuance Communications, Inc. | Method and system for voice ordering utilizing product information |
US8571849B2 (en) * | 2008-09-30 | 2013-10-29 | At&T Intellectual Property I, L.P. | System and method for enriching spoken language translation with prosodic information |
GB2470606B (en) * | 2009-05-29 | 2011-05-04 | Paul Siani | Electronic reading device |
US8321218B2 (en) * | 2009-06-19 | 2012-11-27 | L.N.T.S. Linguistech Solutions Ltd | Searching in audio speech |
CN103221548B (zh) | 2010-06-15 | 2017-04-12 | 代谢探索者公司 | 诱导型启动子在乙醇酸的产生中的用途 |
US8417530B1 (en) * | 2010-08-20 | 2013-04-09 | Google Inc. | Accent-influenced search results |
US11062615B1 (en) | 2011-03-01 | 2021-07-13 | Intelligibility Training LLC | Methods and systems for remote language learning in a pandemic-aware world |
US10019995B1 (en) | 2011-03-01 | 2018-07-10 | Alice J. Stiebel | Methods and systems for language learning based on a series of pitch patterns |
JP5799733B2 (ja) * | 2011-10-12 | 2015-10-28 | 富士通株式会社 | 認識装置、認識プログラムおよび認識方法 |
RU2510954C2 (ru) * | 2012-05-18 | 2014-04-10 | Александр Юрьевич Бредихин | Способ переозвучивания аудиоматериалов и устройство для его осуществления |
US9734819B2 (en) | 2013-02-21 | 2017-08-15 | Google Technology Holdings LLC | Recognizing accented speech |
US9094576B1 (en) | 2013-03-12 | 2015-07-28 | Amazon Technologies, Inc. | Rendered audiovisual communication |
US9076347B2 (en) * | 2013-03-14 | 2015-07-07 | Better Accent, LLC | System and methods for improving language pronunciation |
US20140358538A1 (en) * | 2013-05-28 | 2014-12-04 | GM Global Technology Operations LLC | Methods and systems for shaping dialog of speech systems |
CZ307393B6 (cs) * | 2013-06-26 | 2018-07-25 | Speechtech, S.R.O. | Zařízení pro převod řeči do textu v reálném čase |
US11199906B1 (en) | 2013-09-04 | 2021-12-14 | Amazon Technologies, Inc. | Global user input management |
US9302393B1 (en) * | 2014-04-15 | 2016-04-05 | Alan Rosen | Intelligent auditory humanoid robot and computerized verbalization system programmed to perform auditory and verbal artificial intelligence processes |
WO2015199731A1 (en) * | 2014-06-27 | 2015-12-30 | Nuance Communications, Inc. | System and method for allowing user intervention in a speech recognition process |
TW202011384A (zh) * | 2018-09-13 | 2020-03-16 | 廣達電腦股份有限公司 | 語音校正系統及語音校正方法 |
CN109887497B (zh) * | 2019-04-12 | 2021-01-29 | 北京百度网讯科技有限公司 | 语音识别的建模方法、装置及设备 |
CN110033760B (zh) * | 2019-04-15 | 2021-01-29 | 北京百度网讯科技有限公司 | 语音识别的建模方法、装置及设备 |
US11475884B2 (en) * | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
CN110767240B (zh) * | 2019-10-31 | 2021-12-03 | 广东美的制冷设备有限公司 | 儿童口音识别的设备控制方法、设备、存储介质及装置 |
US11935538B2 (en) * | 2020-08-14 | 2024-03-19 | Lenovo (Singapore) Pte. Ltd. | Headset boom with infrared lamp(s) and/or sensor(s) |
US11875780B2 (en) * | 2021-02-16 | 2024-01-16 | Vocollect, Inc. | Voice recognition performance constellation graph |
CN112767924A (zh) * | 2021-02-26 | 2021-05-07 | 北京百度网讯科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN113257231B (zh) * | 2021-07-07 | 2021-11-26 | 广州思正电子股份有限公司 | 一种语言正音系统方法及设备 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3121960A (en) | 1962-05-08 | 1964-02-25 | Ibm | Educational device |
JPS60123884A (ja) | 1983-12-09 | 1985-07-02 | 三菱電機株式会社 | 英語学習機 |
JPS6118068A (ja) | 1984-07-05 | 1986-01-25 | Fujitsu Ltd | 語学学習装置 |
JPS62111278A (ja) | 1985-11-08 | 1987-05-22 | 富士通株式会社 | 発音・アクセント学習装置 |
JPS62299985A (ja) | 1986-06-20 | 1987-12-26 | 松下電器産業株式会社 | 語学練習装置 |
GB8817705D0 (en) | 1988-07-25 | 1988-09-01 | British Telecomm | Optical communications system |
JPH0375869A (ja) | 1989-08-17 | 1991-03-29 | Nec Corp | 文字列検索方法 |
DE3931638A1 (de) | 1989-09-22 | 1991-04-04 | Standard Elektrik Lorenz Ag | Verfahren zur sprecheradaptiven erkennung von sprache |
EP0438662A2 (en) * | 1990-01-23 | 1991-07-31 | International Business Machines Corporation | Apparatus and method of grouping utterances of a phoneme into context-de-pendent categories based on sound-similarity for automatic speech recognition |
JPH03226785A (ja) | 1990-01-31 | 1991-10-07 | Oki Techno Syst Lab:Kk | 音声認識装置付き語学用教育装置 |
JPH0454956A (ja) | 1990-06-25 | 1992-02-21 | Aichi Steel Works Ltd | 義歯アタッチメント |
JP3384493B2 (ja) | 1992-04-03 | 2003-03-10 | 富士重工業株式会社 | 車室内こもり音低減装置 |
JPH0612483A (ja) | 1992-06-26 | 1994-01-21 | Canon Inc | 音声入力方法及び装置 |
US5455889A (en) * | 1993-02-08 | 1995-10-03 | International Business Machines Corporation | Labelling speech using context-dependent acoustic prototypes |
CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
US5521816A (en) * | 1994-06-01 | 1996-05-28 | Mitsubishi Electric Research Laboratories, Inc. | Word inflection correction system |
GB2290684A (en) * | 1994-06-22 | 1996-01-03 | Ibm | Speech synthesis using hidden Markov model to determine speech unit durations |
JPH0812535A (ja) | 1994-06-30 | 1996-01-16 | Riyuuhoudou Seiyaku Kk | シャンプー |
JPH0850493A (ja) | 1994-08-05 | 1996-02-20 | Sony Corp | 音声信号再生装置 |
US5717828A (en) * | 1995-03-15 | 1998-02-10 | Syracuse Language Systems | Speech recognition apparatus and method for learning |
SE514684C2 (sv) | 1995-06-16 | 2001-04-02 | Telia Ab | Metod vid tal-till-textomvandling |
US5774841A (en) * | 1995-09-20 | 1998-06-30 | The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration | Real-time reconfigurable adaptive speech recognition command and control apparatus and method |
US5794189A (en) * | 1995-11-13 | 1998-08-11 | Dragon Systems, Inc. | Continuous speech recognition |
US5766015A (en) | 1996-07-11 | 1998-06-16 | Digispeech (Israel) Ltd. | Apparatus for interactive language training |
US6092039A (en) * | 1997-10-31 | 2000-07-18 | International Business Machines Corporation | Symbiotic automatic speech recognition and vocoder |
JP4267101B2 (ja) * | 1997-11-17 | 2009-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声識別装置、発音矯正装置およびこれらの方法 |
US6134529A (en) * | 1998-02-09 | 2000-10-17 | Syracuse Language Systems, Inc. | Speech recognition apparatus and method for learning |
-
1998
- 1998-09-08 JP JP25344998A patent/JP4267101B2/ja not_active Expired - Lifetime
- 1998-10-13 US US09/170,589 patent/US6249763B1/en not_active Expired - Lifetime
- 1998-10-26 DE DE69828141T patent/DE69828141T2/de not_active Expired - Lifetime
- 1998-10-26 EP EP98308715A patent/EP0917129B1/en not_active Expired - Lifetime
-
2000
- 2000-06-29 US US09/606,982 patent/US6347300B1/en not_active Expired - Lifetime
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7401018B2 (en) | 2000-01-14 | 2008-07-15 | Advanced Telecommunications Research Institute International | Foreign language learning apparatus, foreign language learning method, and medium |
JP2003271192A (ja) * | 2002-03-13 | 2003-09-25 | Nissan Motor Co Ltd | 音声認識装置 |
JP2008083446A (ja) * | 2006-09-28 | 2008-04-10 | Casio Comput Co Ltd | 発音学習支援装置及び発音学習支援プログラム |
WO2011089651A1 (ja) * | 2010-01-22 | 2011-07-28 | 三菱電機株式会社 | 認識辞書作成装置、音声認識装置及び音声合成装置 |
JP4942860B2 (ja) * | 2010-01-22 | 2012-05-30 | 三菱電機株式会社 | 認識辞書作成装置、音声認識装置及び音声合成装置 |
CN102687197A (zh) * | 2010-01-22 | 2012-09-19 | 三菱电机株式会社 | 识别词典制作装置、声音识别装置及声音合成装置 |
US9177545B2 (en) | 2010-01-22 | 2015-11-03 | Mitsubishi Electric Corporation | Recognition dictionary creating device, voice recognition device, and voice synthesizer |
JP2012073396A (ja) * | 2010-09-28 | 2012-04-12 | Toshiba Corp | 会議支援装置、方法およびプログラム |
US8676578B2 (en) | 2010-09-28 | 2014-03-18 | Kabushiki Kaisha Toshiba | Meeting support apparatus, method and program |
JP2016045420A (ja) * | 2014-08-25 | 2016-04-04 | カシオ計算機株式会社 | 発音学習支援装置およびプログラム |
JP2017207610A (ja) * | 2016-05-18 | 2017-11-24 | シャープ株式会社 | 応答制御装置、制御プログラム、情報処理方法、および通信システム |
Also Published As
Publication number | Publication date |
---|---|
DE69828141T2 (de) | 2005-11-03 |
EP0917129A3 (en) | 1999-12-15 |
EP0917129B1 (en) | 2004-12-15 |
JP4267101B2 (ja) | 2009-05-27 |
DE69828141D1 (de) | 2005-01-20 |
EP0917129A2 (en) | 1999-05-19 |
US6347300B1 (en) | 2002-02-12 |
US6249763B1 (en) | 2001-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4267101B2 (ja) | 音声識別装置、発音矯正装置およびこれらの方法 | |
CN111566655B (zh) | 多种语言文本语音合成方法 | |
US6363342B2 (en) | System for developing word-pronunciation pairs | |
US7668718B2 (en) | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile | |
JP5819924B2 (ja) | アジア文字を生成するための認識アーキテクチャ | |
US7315811B2 (en) | System and method for accented modification of a language model | |
JP5330450B2 (ja) | テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル | |
US6233553B1 (en) | Method and system for automatically determining phonetic transcriptions associated with spelled words | |
US7974844B2 (en) | Apparatus, method and computer program product for recognizing speech | |
US6785650B2 (en) | Hierarchical transcription and display of input speech | |
JP3848319B2 (ja) | 情報処理方法及び情報処理装置 | |
CN111883110A (zh) | 语音识别的声学模型训练方法、系统、设备及介质 | |
JP3481497B2 (ja) | 綴り言葉に対する複数発音を生成し評価する判断ツリーを利用する方法及び装置 | |
JP5025759B2 (ja) | 発音矯正装置、発音矯正方法および記録媒体 | |
US20020173956A1 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
JPH03224055A (ja) | 同時通訳向き音声認識システムおよびその音声認識方法 | |
JPS62239231A (ja) | 口唇画像入力による音声認識方法 | |
JP2015026057A (ja) | インタラクティブキャラクター基盤の外国語学習装置及び方法 | |
JP3476007B2 (ja) | 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体 | |
US5745875A (en) | Stenographic translation system automatic speech recognition | |
JP2007193350A (ja) | 発音矯正装置、発音矯正方法および記録媒体 | |
US11341961B2 (en) | Multi-lingual speech recognition and theme-semanteme analysis method and device | |
JP2007086404A (ja) | 音声合成装置 | |
JP2003162524A (ja) | 言語処理装置 | |
JPH0210957B2 (ja) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040903 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060829 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20061128 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20061201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070410 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20070607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070628 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20070607 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071023 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080121 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080305 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090120 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20090120 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090218 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120227 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120227 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120227 Year of fee payment: 3 |
|
S202 | Request for registration of non-exclusive licence |
Free format text: JAPANESE INTERMEDIATE CODE: R315201 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120227 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130227 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130227 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140227 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |