JP2005099376A - 音声認識方法および装置 - Google Patents
音声認識方法および装置 Download PDFInfo
- Publication number
- JP2005099376A JP2005099376A JP2003332391A JP2003332391A JP2005099376A JP 2005099376 A JP2005099376 A JP 2005099376A JP 2003332391 A JP2003332391 A JP 2003332391A JP 2003332391 A JP2003332391 A JP 2003332391A JP 2005099376 A JP2005099376 A JP 2005099376A
- Authority
- JP
- Japan
- Prior art keywords
- language
- speech recognition
- speech
- acoustic
- pronunciation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】 非母国語の発声に対しても音声認識の精度を向上させうる音声認識方法および装置を提供すること。
【解決手段】 音声認識装置は、第1の言語の音声データを用いて学習された第1の音響モデルと、第2の言語の音声データを用いて学習された第2の音響モデルと、単語が第1の言語および第2の言語のそれぞれの発音によって表記された音声認識辞書とを予め記憶しておき、これら第1および第2の音響モデルと音声認識辞書とを用いて、入力された音声に対する、第1の言語としての第1の音響尤度と、第2の言語としての第2の音響尤度とを計算する(S202)。そして、それら第1の音響尤度と第2の音響尤度との重み付け和を計算し、その重み付け和に基づいて音声認識の探索を行う(S203)。
【選択図】 図2
【解決手段】 音声認識装置は、第1の言語の音声データを用いて学習された第1の音響モデルと、第2の言語の音声データを用いて学習された第2の音響モデルと、単語が第1の言語および第2の言語のそれぞれの発音によって表記された音声認識辞書とを予め記憶しておき、これら第1および第2の音響モデルと音声認識辞書とを用いて、入力された音声に対する、第1の言語としての第1の音響尤度と、第2の言語としての第2の音響尤度とを計算する(S202)。そして、それら第1の音響尤度と第2の音響尤度との重み付け和を計算し、その重み付け和に基づいて音声認識の探索を行う(S203)。
【選択図】 図2
Description
本発明は、多言語に対応可能な音声認識方法および装置に関する。
近年、利用者の母国語だけでなくその他の外国語をも認識可能な多言語対応の音声認識システムが開発されつつある。
多言語対応を実現する手法としては例えば次のようなものが考えられる。
(1)母国語、外国語ともに共通の音声認識システムを利用し、外国語の発音は利用者の母国語に依存した発音で表現する。
(2)母国語と外国語で別々の音声認識システムを利用する。
(2)母国語と外国語で別々の音声認識システムを利用する。
しかしながら、前者のシステムの場合は、外国語をネイティブ話者と同様に発音できる利用者にとっては十分な認識性能を得ることができず、逆に、後者のシステムの場合は、外国語の発音がネイティブ話者と同様に行えない利用者にとっては十分な認識性能を得ることができない。
このような問題に鑑み、任意の言語について、これを母国語としない利用者すなわち非母国語話者の発声に対しても、認識精度を向上し得る音声認識システムの実現が望まれる。これを実現する方法としては例えば、2つの言語に対する正規化音響尤度の大小比較を利用するものが提案されている(例えば特許文献1を参照。)。
しかしながら、このような方法では認識結果を求める際に、2つの言語から音響尤度の高い方を選択してしまうため、例えば日本人で、英語を母国語とする人ではないが、一般的な日本人と比較するとかなり英語的な発声が行えるような利用者に対しては、いずれの言語の音響尤度も高くなることはなく、結果として誤認識を招く可能性を生じると考えられる。
このようなことから、本発明は、非母国語の発声に対しても音声認識の精度を向上させうる音声認識方法および装置を提供することを目的とする。
本発明の一側面によれば、音声認識装置は、第1の言語の音声データを用いて学習された第1の音響モデルと、第2の言語の音声データを用いて学習された第2の音響モデルと、単語が第1の言語および第2の言語のそれぞれの発音によって表記された音声認識辞書とを予め記憶しておき、これら第1および第2の音響モデルと音声認識辞書とを用いて、入力された音声に対する、第1の言語としての第1の音響尤度と、第2の言語としての第2の音響尤度とを計算する。そして、それら第1の音響尤度と第2の音響尤度との重み付け和を計算し、その重み付け和に基づいて音声認識の探索を行う。
本発明によれば、非母国語の発声に対しても音声認識の精度を向上させることができる。
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。
図1は、本発明の実施形態に係る音声認識装置の構成を示すブロック図である。この音声認識装置は典型的にはCPUを用いたコンピュータシステムで実現されうる。もちろん、CPUを使用せずに専用のハードウェアロジックで実現してもよい。
101はCPUで、ROM102や外部記憶装置104からRAM103にロードされたプログラムに従って、本音声認識装置全体の制御を司る。ROM102はブートプログラムや各種パラメータなどを格納している。RAM103は、CPU101による各種制御の実行時に作業領域を提供する主記憶装置として機能する。
104は外部記憶装置としてのハードディスク装置(HDD)で、図示するように、ここにOS3の他、多言語対応の音声認識プログラム4、日本語の音声データを用いて学習された第1の音響モデル(母国語音響モデル)5は、英語の音声データを用いて学習された第2の音響モデル(外国語音響モデル)6、そして、単語が日本語および英語のそれぞれの発音によって表記された音声認識辞書7(詳細は後述する)が格納されている。なお、音声認識プログラム4、音響モデル5,6、音声認識辞書7は例えばCD−ROM110aに格納されて提供され、CD−ROMドライブ110を介して外部記憶装置104にインストールされる。あるいは、図示しないネットワークを介して音声認識プログラムなどの提供を受けることも可能である。
105はマイクロフォンなどによる音声入力部である。106は液晶タッチパネルなどの操作表示部であり、処理内容の設定・入力、文字、画像による通知などの表示・出力を行う。107は補助入出力部で、例えば、ボタン、テンキー、キーボード、マウス、ペン、スイッチ、LEDなどの光情報、点字、アクチュエータなどで構成されうる。108はスピーカなどの音声出力部であり、利用者へのメッセージの通知などを行う。109は上記各部を接続するバスである。
図2は、実施形態における音声認識装置の動作概要を示すフローチャートである。このフローチャートに対応するプログラムはハードディスク装置104に格納されている音声認識プログラム4に含まれ、電源投入後もしくはユーザからの指示に基づいてRAM103にロードされCPU101によって実行されるものである。
まず、ステップS201で、入力された音声をLPC分析法やケプストラム分析法などによって音声分析を行い、音声の特徴ベクトルを抽出する。
次に、ステップS202で、図3に示すような構造の2つの言語の発音辞書(音声認識辞書)7を用いて、認識対象語彙に対する入力ベクトルの音響尤度を計算する。例えば、“speech”と“recognition”という2つの単語を語彙とする日本人利用者による英語の発声を音声認識する場合を考える。これらの単語の日本語と英語の発音は、図3に示すとおりで、日本語の発音は日本語の音素セット(a, b, ch, d, e, ...)を用いて記述され、英語の発音は英語の音素セット(AA, AE, AH, AO, AW, AY, B, ...)を用いて記述されている。
これらの音素セットを用いて、“speech”と“recognition”の発音を音素のネットワークとして表現すると図4のようになる。図中の黒丸は単語の始点と終点を表すノードである。この音素ネットワークを用いることによって、入力ベクトルに対する“speech”と“recognition”の音響尤度をステップS202で計算する。音響尤度の計算方法は、例えば、現在広く用いられている隠れマルコフモデル(HMM)に基づく音声認識における音素HMMを用いた音響尤度の計算方法など既存の方法によって実現することができる。ここで、日本語の音素セットの音響モデル(母国語音響モデル)5は、日本語の音声データを用いて学習したものであり、英語の音素セットの音響モデル(外国語音響モデル)6は、英語の音声データを用いて学習したものである。いま、“speech”の日本語発音に対する入力音声の特徴ベクトルの音響尤度(対数尤度)をPJPN(speech)、英語発音に対する音響尤度をPENG(speech)とし、“recognition”の日本語発音に対する音響尤度をPJPN(recognition)、英語発音に対する音響尤度をPENG(recognition)とする。このとき、日本語発音と英語発音の音響尤度に対する重みをそれぞれ(1-w)、およびwとすると(ただし、0≦w≦1)、“speech”および“recognition”に対する音響尤度P(speech)およびP(recognition)は、それぞれ次式によって求めることができる。
P(speech) = (1-w)*PJPN(speech)+w*PENG(speech),
P(recognition) = (1-w)* PJPN(recognition)+w* PENG(recognition)
P(recognition) = (1-w)* PJPN(recognition)+w* PENG(recognition)
次に、ステップS203で、音声認識探索を行う。この例の場合では、P(speech)とP(recognition)の大小を比較し、ステップS204において、音響尤度が大きいものを認識結果として出力する。一般には、第1の言語に対する認識対象語iの入力音声に対する尤度をPLang1(i)、第2の言語に対する認識対象語iの入力音声に対する尤度をPLang2(i)、第1および第2の言語に対する重みをそれぞれ(1-w)、w(ただし、0≦w≦1)として、次式で示されるi^を求めることによって認識結果が得られる。
ただし、Nは認識対象語の集合であり、argmaxはargmax内を最大にするiを求める計算を表す。
ここで、重みwは様々な方法によって設定することが可能である。図5は、GUIのスライドバーを用いて利用者によって判断されるスピーキング・レベル(Speaking Level)に応じて重みを設定する場合の一例を示す図である。スライドが最も左(ノンネイティブ)に設定された場合にはw=0.0、すなわち、上記の例では日本語の発音のみを用いて音声認識を行い、スライドが最も右(ネイティブ)に設定された場合にはw=1.0、すなわち、上記の例では英語の発音のみを用いて音声認識を行う。図6は、GUIのラジオボタンを用いて利用者の年代に応じた設定を行う場合の一例を示す図である。この例では、小学生、中学生、高校生、大学生の4つの年代の中の一つを利用者が選択することによってそれに応じた重みが設定される。
(変形例1)
図5、図6に示した例では、第1の言語と第2の言語に対する重みは全ての単語間で一定であったが、単語ごとに重みを変化させることも可能である。この場合は、第1の言語に対する認識対象語iの入力音声に対する尤度をPLang1(i)、第2の言語に対する認識対象語iの入力音声に対する尤度をPLang2(i)、認識対象語iに対する第1および第2の言語に対する重みをそれぞれ(1-wi)、wi(ただし、0≦wi≦1)として、次式で示されるi^を求めることによって認識結果が得られる。
図5、図6に示した例では、第1の言語と第2の言語に対する重みは全ての単語間で一定であったが、単語ごとに重みを変化させることも可能である。この場合は、第1の言語に対する認識対象語iの入力音声に対する尤度をPLang1(i)、第2の言語に対する認識対象語iの入力音声に対する尤度をPLang2(i)、認識対象語iに対する第1および第2の言語に対する重みをそれぞれ(1-wi)、wi(ただし、0≦wi≦1)として、次式で示されるi^を求めることによって認識結果が得られる。
ただし、Nは認識対象語の集合であり、argmaxはargmax内を最大にするiを求める計算を表す。
GUIのスライドバーを用いて利用者が単語ごとに重みを決定する場合の一例を図7に示す。同図(a)は単語“speech”に対して、利用者によって判断されるスピーキング・レベルに応じた重みを設定する場合の例、(b)は単語“recognition”に対して、利用者によって判断されるスピーキング・レベルに応じた重みを設定する場合の例を示している。これに限らず、他にも図6で示したようなラジオボタンや他の手段を用いて利用者が単語ごとに重みを設定できるようにしてもよい。
(変形例2)
上述した例では、認識対象語の発音は、図4に示されるように、第1の言語による発音もしくは第2の言語による発音のいずれかに固定されていたが、一つの認識対象語の中で、第1の言語と第2の言語に渡る遷移をさせることも可能である。ここで、適切な遷移を実現させるために、例えば、第1の言語と第2の言語のそれぞれの音素の発音系列をDPマッチングすることにより、発音間の対応を付ける必要がある。音素の発音系列のDPマッチングを行うためには、図8で示すような第1の言語と第2の言語の音素間の類似度テーブルを利用し、スコアが最も高くなる対応付けを用いる。例えば、“speech”の場合、次のような対応付けがなされたとする。
上述した例では、認識対象語の発音は、図4に示されるように、第1の言語による発音もしくは第2の言語による発音のいずれかに固定されていたが、一つの認識対象語の中で、第1の言語と第2の言語に渡る遷移をさせることも可能である。ここで、適切な遷移を実現させるために、例えば、第1の言語と第2の言語のそれぞれの音素の発音系列をDPマッチングすることにより、発音間の対応を付ける必要がある。音素の発音系列のDPマッチングを行うためには、図8で示すような第1の言語と第2の言語の音素間の類似度テーブルを利用し、スコアが最も高くなる対応付けを用いる。例えば、“speech”の場合、次のような対応付けがなされたとする。
日本語: s u p i i ch i
英語: S P IY CH
英語: S P IY CH
すなわち、sとS、pとP、iとIY、chとCHがそれぞれ対応付けられている。同様に、“recognition”が、
日本語: r i k o g u n i sh o X
英語: R EH K AH G N IH SH AH N
英語: R EH K AH G N IH SH AH N
と対応付けられたとする。このとき、第1の言語と第2の言語の音素間の遷移を許した“speech”および“recognition”の音素ネットワークは図9のようになる。ここで音素ノード間に遷移確率を適用し、この遷移確率を音素に対する重みとすることにより、音素ごとに異なる重みを設定し得る音声認識方法が実現できる。
ここで、GUIのスライドバーを用いて利用者が音素ごとに重みを設定する場合の一例を図10に示す。いま、同図(a)に示すように、音素IYに対する重みをw=0.3、(b)に示すように、音素CHに対する重みをw=0.8と設定したとする。このとき、図9に示される“speech”の音素ネットワークの一部は、図11(a)に示す初期ネットワークから、図11(b)のように変更される。すなわち、日本語音素pから英語音素IYへの遷移確率が0.5から0.3に変更され、英語音素Pから日本語音素iへの遷移確率が0.5から0.7に変更される。同様に、日本語音素iから英語音素CHへの遷移確率が0.5から0.8に変更され、英語音素IYから日本語音素chへの遷移確率が0.5から0.2に変更される。このように変更された発音ネットワークを用いて音声認識を行うことによって、音素ごとに重みを設定した外国語の認識が可能となる。これによって、例えば、IYの発音が苦手な利用者は、IYの重みを小さ目に設定することによって、IYは日本語的な発声で、それ以外の音素は英語的な発声といった入力音声に対しても正確に音声認識を行うことが可能となる。
なお、音素ごとの重みの設定は、他にも図6で示したようなラジオボタンや他の手段を用いて設定するようにしてもよい。
(変形例3)
上述の例では、日本語の発音エントリに対して必ず英語の発音エントリが存在していたが、日本語と英語の発音が明らかに異なる場合には、英語の発音エントリを認識辞書から除外しておくことも可能である。例えば、図12に示すように、“radio”に対する日本語の発音は、英語発音“R EY D IY OW”の日本語発音“r e i d i o”と、「ラジオ」の日本語発音である“r a z i o”の2通りが考えられる。ここで、後者の“r a z i o”は、英語発音とは大きく異なるため、“r a z i o”と“R EY D IY OW”の両方の音響尤度用いて、“radio”の音響尤度とすることは適切でないと考えられる。そこで、“r a z i o”という日本語発音に対する英語発音エントリは予め設けない。この際、日本語発音と英語発音の違いの大きさを計算する必要が生じる。これは、例えば、図8に示した音素間の類似度テーブルを用いた音素DPマッチングにおいて、マッチングの度合いが所定の閾値よりも小さい場合には英語発音エントリを除外することによって実現することが可能である。
上述の例では、日本語の発音エントリに対して必ず英語の発音エントリが存在していたが、日本語と英語の発音が明らかに異なる場合には、英語の発音エントリを認識辞書から除外しておくことも可能である。例えば、図12に示すように、“radio”に対する日本語の発音は、英語発音“R EY D IY OW”の日本語発音“r e i d i o”と、「ラジオ」の日本語発音である“r a z i o”の2通りが考えられる。ここで、後者の“r a z i o”は、英語発音とは大きく異なるため、“r a z i o”と“R EY D IY OW”の両方の音響尤度用いて、“radio”の音響尤度とすることは適切でないと考えられる。そこで、“r a z i o”という日本語発音に対する英語発音エントリは予め設けない。この際、日本語発音と英語発音の違いの大きさを計算する必要が生じる。これは、例えば、図8に示した音素間の類似度テーブルを用いた音素DPマッチングにおいて、マッチングの度合いが所定の閾値よりも小さい場合には英語発音エントリを除外することによって実現することが可能である。
(変形例4)
上述した例では、言語、単語、音素に対する重みは、全て利用者によって設定されていたが、想定される利用者の一般的な日本語および英語に対する習熟度、利用者によって指示される音声認識結果の正誤判定結果、日本語と英語の発音の違いの度合い、のいずれかによって自動的に設定することも可能である。
上述した例では、言語、単語、音素に対する重みは、全て利用者によって設定されていたが、想定される利用者の一般的な日本語および英語に対する習熟度、利用者によって指示される音声認識結果の正誤判定結果、日本語と英語の発音の違いの度合い、のいずれかによって自動的に設定することも可能である。
利用者の英語に対する習熟度に応じて重みを設定する方法としては、例えば、所定の英語の発音に対する音響尤度を計算し、この値が低い場合には重みを小さく設定し、値が大きい場合には重みを大きく設定することによって実現できる。一般の利用者の英語に対する習熟度については、例えば、ユーザプロファイルなどから利用者の年齢に関する情報を取得し、この情報から図6に示したような年代に応じた対応関係を求めることによって設定できる。
利用者によって指定される音声認識結果の正誤判定結果に基づいて重みを設定する方法としては、例えば、図13に示されるフローチャートによって実現できる。まず、ステップS301において、システムによって予め定められた初期値もしくは上述の例で示した利用者による設定により重みの設定を行う。次に、ステップS302で、上述の例で説明した方法によって音声認識を行う。次に、ステップS303で、音声認識結果に対して利用者が行う正誤判定結果情報を保持する。そして、ステップS304で、正誤判定結果情報に基づいた重みの再計算を行う。再計算された重みはステップS301において再設定される。重みの再計算方法としては、正解に対する重み付け尤度の和を大きくし、誤りに対する重み付け尤度の和を小さくなるように重みを変更することによって行うことができる。例えば、正誤判定で正解と判定されたもののうち、正解すなわち第1位に対する単語iの日本語と英語の音響尤度をそれぞれPJPN,cor(i)、PENG,cor(i)とし、このときの第2位の候補に対する日本語と英語の音響尤度をそれぞれPJPN,2nd(i)、PENG,2nd(i)とする。また、正誤判定で誤りと判定されたもののうち、第1位(誤認識結果)に対する日本語と英語の音響尤度をそれぞれPJPN,incor(i)、PENG,incor(i)とし、このときの正解に対する日本語と英語の音響尤度をそれぞれPJPN,ans(i)、PENG,ans(i)とする。このとき、正解と判定されたものに対しては、第1位と第2位との尤度差を増加させ、誤りと判定されたものに対しては、第1位と正解との尤度差を減少させればよい。すなわち、次式で与えられるLを増加させる方向にwを設定すればよい。
なお、PJPN,2nd(i)、PENG,2nd(i)、PJPN,ans(i)、PENG,ans(i)が得られない場合には、これらを用いずに計算すればよい。また、複数の正誤判定結果を用いる場合には、正誤判定数に対する累積尤度和を増加させる方向にwを設定すればよい。その他、語学教育システムなどのアプリケーションでは、語学レベルの難易度に応じて、アプリケーション側が自動的に設定することも可能である。
日本語と英語の発音の違いの度合いに応じて重みを設定する方法としては、例えば、図8で示した音素類似度テーブルなどの情報を用いた音素DPマッチングや日本語と英語の音響モデルのモデル間の類似度計算するなどの方法によって設定することができる。
(他の実施形態)
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
また、上述の実施形態では、日本人が英語を音声認識の対象とした場合について説明したが、本発明はこれに限らず、他の外国語ならびに他の非母国語話者に対しても適用可能である。
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(図2に示すフローチャートに対応したプログラム)を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。
従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
Claims (10)
- 入力された音声を認識する音声認識方法であって、
第1の言語の音声データを用いて学習された第1の音響モデルと、第2の言語の音声データを用いて学習された第2の音響モデルと、単語が第1の言語および第2の言語のそれぞれの発音によって表記された音声認識辞書とを用いて、前記入力された音声に対する、第1の言語としての第1の音響尤度と、第2の言語としての第2の音響尤度とを計算する音響尤度計算ステップと、
前記第1の音響尤度と第2の音響尤度との重み付け和に基づいて音声認識の探索を行う探索ステップと、
を有することを特徴とする音声認識方法。 - さらに、前記重み付け和の重みを設定する設定ステップを有することを特徴とする請求項1に記載の音声認識方法。
- 前記設定ステップは、利用者によって入力されるスピーキング・レベルに対応する値に基づいて前記重みを設定することを特徴とする請求項2に記載の音声認識方法。
- 前記設定ステップは、想定される利用者の一般的な第1および第2の言語に対する習熟度、利用者によって指示される音声認識結果の正誤判定結果、第1の言語の発音と第2の言語の発音の違いの度合い、のいずれかに基づいて設定することを特徴とする請求項2に記載の音声認識方法。
- 前記設定ステップは、単語ごとに前記重みを設定することを特徴とする請求項2に記載の音声認識方法。
- 前記設定ステップは、音素ごとに前記重みを設定することを特徴とする請求項2に記載の音声認識方法。
- 前記音声認識辞書内の単語について、第1の言語による発音と第2の言語による発音との違いの大きさを計算し、その違いの大きさに応じて、当該単語を音声認識辞書から除外するステップを更に有することを特徴とする請求項1に記載の音声認識方法。
- 請求項1から7までのいずれかに記載の音声認識方法をコンピュータに実行させるためのプログラム。
- 請求項8に記載のプログラムを格納したコンピュータ読み取り可能な記憶媒体。
- 入力された音声を認識する音声認識装置であって、
第1の言語の音声データを用いて学習された第1の音響モデルを記憶する第1の記憶手段と、
第2の言語の音声データを用いて学習された第2の音響モデルを記憶する第2の記憶手段と、
単語が第1の言語および第2の言語のそれぞれの発音によって表記された音声認識辞書を記憶する第3の記憶手段と、
前記第1および第2の音響モデルと前記音声認識辞書とを用いて、前記入力された音声に対する、第1の言語としての第1の音響尤度と、第2の言語としての第2の音響尤度とを計算する音響尤度計算手段と、
前記第1の音響尤度と第2の音響尤度との重み付け和に基づいて音声認識の探索を行う探索手段と、
を有することを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003332391A JP2005099376A (ja) | 2003-09-24 | 2003-09-24 | 音声認識方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003332391A JP2005099376A (ja) | 2003-09-24 | 2003-09-24 | 音声認識方法および装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005099376A true JP2005099376A (ja) | 2005-04-14 |
Family
ID=34460746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003332391A Withdrawn JP2005099376A (ja) | 2003-09-24 | 2003-09-24 | 音声認識方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005099376A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009145856A (ja) * | 2007-12-12 | 2009-07-02 | Inst For Information Industry | 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体 |
WO2016008128A1 (en) * | 2014-07-17 | 2016-01-21 | Microsoft Technology Licensing, Llc | Speech recognition using foreign word grammar |
JP2020095176A (ja) * | 2018-12-13 | 2020-06-18 | 株式会社Ecc | 語学学習用装置および語学学習用プログラム |
-
2003
- 2003-09-24 JP JP2003332391A patent/JP2005099376A/ja not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009145856A (ja) * | 2007-12-12 | 2009-07-02 | Inst For Information Industry | 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体 |
WO2016008128A1 (en) * | 2014-07-17 | 2016-01-21 | Microsoft Technology Licensing, Llc | Speech recognition using foreign word grammar |
US10290299B2 (en) | 2014-07-17 | 2019-05-14 | Microsoft Technology Licensing, Llc | Speech recognition using a foreign word grammar |
JP2020095176A (ja) * | 2018-12-13 | 2020-06-18 | 株式会社Ecc | 語学学習用装置および語学学習用プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3782943B2 (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
US7996209B2 (en) | Method and system of generating and detecting confusing phones of pronunciation | |
US8280733B2 (en) | Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections | |
EP2399206B1 (en) | Multiple language voice recognition | |
JP3520022B2 (ja) | 外国語学習装置、外国語学習方法および媒体 | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
KR20010096490A (ko) | 이동통신을 위한 철자 음성인식장치 및 방법 | |
JP2001282282A (ja) | 音声情報処理方法および装置および記憶媒体 | |
JP2007041319A (ja) | 音声認識装置および音声認識方法 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
Proença et al. | Automatic evaluation of reading aloud performance in children | |
CN112331229A (zh) | 语音检测方法、装置、介质和计算设备 | |
Lee | Language-independent methods for computer-assisted pronunciation training | |
CN112562676A (zh) | 一种语音解码方法、装置、设备及存储介质 | |
Kyriakopoulos et al. | Automatic detection of accent and lexical pronunciation errors in spontaneous non-native English speech | |
JP7314079B2 (ja) | データ生成装置、データ生成方法およびプログラム | |
JP2013117683A (ja) | 音声認識装置、誤り傾向学習方法、及びプログラム | |
Kabashima et al. | Dnn-based scoring of language learners’ proficiency using learners’ shadowings and native listeners’ responsive shadowings | |
Al-Bakeri et al. | ASR for Tajweed rules: integrated with self-learning environments | |
JP2006084966A (ja) | 発話音声の自動評定装置およびコンピュータプログラム | |
Knill et al. | Use of graphemic lexicons for spoken language assessment | |
JP5004863B2 (ja) | 音声検索装置および音声検索方法 | |
Mote et al. | Tactical language detection and modeling of learner speech errors: The case of Arabic tactical language training for American English speakers | |
JP2005099376A (ja) | 音声認識方法および装置 | |
KR101250897B1 (ko) | 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20061205 |