JP2005241767A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2005241767A
JP2005241767A JP2004048782A JP2004048782A JP2005241767A JP 2005241767 A JP2005241767 A JP 2005241767A JP 2004048782 A JP2004048782 A JP 2004048782A JP 2004048782 A JP2004048782 A JP 2004048782A JP 2005241767 A JP2005241767 A JP 2005241767A
Authority
JP
Japan
Prior art keywords
vocabulary
unit
voice
recognition
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004048782A
Other languages
English (en)
Inventor
Akira Baba
朗 馬場
Yoshihiko Tokunaga
吉彦 徳永
Takashi Nishiyama
高史 西山
Fumiaki Obayashi
史明 大林
Mitsunori Yoneda
光徳 米田
Kenji Nakakita
賢二 中北
Shinpei Hibiya
新平 日比谷
Haruka Amanuma
はるか 天沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Works Ltd filed Critical Matsushita Electric Works Ltd
Priority to JP2004048782A priority Critical patent/JP2005241767A/ja
Publication of JP2005241767A publication Critical patent/JP2005241767A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】音声認識を正確に行うようにすることができるとともに、ユーザはゲーム感覚で音声認識処理ができ、新しい語彙も自然に覚えることができる音声認識装置を提供する。
【解決手段】ユーザが発話した音声は、音声入力部1に入力され、音声信号となって特徴量抽出部2に出力される。特徴量抽出部2では、音声信号の音響特徴ベクトルを算出し、認識部5に送る。認識部5は音響特徴ベクトルと音響モデル3とを参照して尤度が高くなる語彙を認識語彙保持部4から抽出する。認識部5は、認識結果と尤度を得点計算部6に送信する。得点計算部6では、認識結果と語彙選択部7に入力された語彙が同一の場合は、計算された尤度を得点として表示部8で表示する。このようにすれば、入力音声の尤度が高いほど、ユーザに与えられる得点が高くなるので、自然に尤度が高くなるような発声の方法をユーザは習得することができる。
【選択図】 図1

Description

本発明は、コンピュータ装置などに用いられている音声認識システムにおいて、コンピュータ側に音声認識しやすい発声の仕方をユーザが体得できる音声認識装置に関する。
従来、音声認識装置は、音声認識対象となる各単語の読み方に対して予測される複数の発音パターンをあらかじめ記憶させておき、認識すべき単語に対してユーザの発音が入力されると、記憶させられた複数の発音パターンと入力されたユーザの発音とを比較し、最も評価値が高く、かつ一定のレベルを超えるものを採用し、音声認識辞書に登録することで、次回からユーザが発した音声を音声認識辞書に登録された発音パターンと比較することで、発音の言葉を認識するようにしている。
特開2003−141113号公報 特開2001−42887号公報
しかし、上記従来の音声認識装置では、ユーザの体調やそのときの気分で、音声認識辞書に登録した発音パターンと異なる発音がされた場合には、正確に発音内容を言葉に変換することができず、誤認識が多く発生する。
また、再度音声認識辞書に、ユーザの発音パターンを登録したとしても、やはり、次回のユーザの発声の方法や発声する語彙と語彙との間の時間間隔が異なれば、誤認識してしまう。
本発明は、上述した課題を解決するために創案されたものであり、音声認識を正確に行うようにすることができるとともに、ユーザはゲーム感覚で音声認識処理ができ、新しい語彙も自然に覚えることができる音声認識装置を提供することを目的としている。
上記目的を達成するために、請求項1記載の発明は、ユーザの音声が入力される音声入力部と、音素モデルが格納された音響モデルと、認識対象となる複数の語彙が保持されている認識語彙保持部と、前記認識語彙保持部の複数の語彙からユーザに発話させるための語彙を選択する語彙選択部と、前記音声入力部で入力された音声と前記音響モデルとを参照しつつ尤度の最も高い語彙を前記認識語彙保持部から抽出する認識部と、前記認識部で抽出した語彙と前記語彙選択部で選択された語彙とを比較して一致している場合には、前記尤度を得点とする得点計算部とを備え、前記得点をユーザに提示するようにしたことを特徴とする音声認識装置である。
また、請求項2記載の発明は、前記認識語彙保持部の各語彙ごとに複数の話者の音声認識による尤度の平均値が格納された認識語彙尤度リストを備え、この尤度平均値を用いて前記得点計算部で取得した尤度を正規化して得点とすることを特徴とする請求項1記載の音声認識装置である。
また、請求項3記載の発明は、前記語彙選択部からの選択された語彙に対応する画像を表示し、ユーザに発話させることを特徴とする請求項1〜請求項2記載の音声認識装置である。
また、請求項4記載の発明は、料理に関する情報が格納されたレシピデータベースと、前記認識部で抽出された語彙に基づいて前記レシピデータベースを検索する検索部とを備え、ユーザの音声入力によりレシピを検索する機能を備えたことを特徴とする請求項1〜請求項3記載の音声認識装置である。
また、請求項5記載の発明は、前記認識部で抽出された語彙に基づいて外部データを検索するインターネット検索部を備え、ユーザの音声入力により外部データを検索する機能を備えたことを特徴とする請求項1〜請求項3記載の音声認識装置である。
また、請求項6記載の発明は、前記得点計算部から送信されてくる得点をすべて記憶するとともに、受信した得点と記憶している得点とを比較して高い方の得点データに最高得点を更新する最高得点保持部を備え、前記最高得点保持部の得点をユーザに提示することを特徴とする請求項1〜請求項5記載の音声認識装置である。
また、請求項7記載の発明は、前記語彙選択部で選択された語彙について尤度の高い模範音声を発声させ、ユーザに正しい発声を提示することを特徴とする請求項1〜請求項6記載の音声認識装置である。
また、請求項8記載の発明は、前記音声入力部からの音声を逐次記録するとともに、前記最高得点保持部で最高得点データが更新された場合に最高得点データに対応する音声データを更新する最高得点音声記憶部を備え、ユーザの最高得点時の発声を模範音声として提示することを特徴とする請求項6記載の音声認識装置である。
また、請求項9記載の発明は、前記認識部で抽出した語彙と前記語彙選択部で選択された語彙とを比較して不一致の場合に対応するユーザ音声を前記最高得点音声記憶部から再生し、ユーザに提示することを特徴とする音声認識装置である。
本発明によれば、入力音声の尤度が高いほどユーザに与えられる得点が高くなるので、自然に尤度が高くなるような発声の方法をユーザが体得することができる。また、遊び感覚で音声認識トレーニングを行うことができるのでユーザの負担にならずに、認識性を向上させることができ、新しい語彙などを自然に覚えることができる。
以下、図面を参照して本発明の一実施形態を説明する。図1は本発明の音声認識装置の基本構成例を示す図である。
図1に示すように、音声認識装置は、音声入力部1、特徴量抽出部2、音響モデル3、認識語彙保持部4、認識部5、得点計算部6、語彙選択部7、表示部8から構成されている。特徴量抽出部2は、入力音声の所定の音声区間について、それぞれパワー分析し、分析されたパワー成分に基づいて音響特徴ベクトルを算出する。音響モデル3は、認識対象となる音声を構成する全ての音素をモデル化した音素モデルを格納している。音素モデルとしては、例えば、隠れマルコフモデル(HMM)が適用されている。認識語彙保持部4には、認識対象となる語彙が格納されており、各語彙は、単語であったり、複数の単語を結びつけた文章であったりする。
図1の音声認識装置は以下のように動作する。まず、認識語彙保持部4に格納されている多くの語彙の中から所定の語彙をコンピュータが自動的に選択するなどして、語彙選択部7は語彙を選択し表示部8に表示する。選択された語彙は語彙選択部7から得点計算部6に出力され、得点計算部6での判定基準に用いられる。
次に、ユーザは選択された語彙の読みを発音する。発音された音声は、マイクロフォン等で構成された音声入力部1に入力され、音声信号となって特徴量抽出部2に出力される。特徴量抽出部2では、音声信号の音響特徴ベクトルを算出し、認識部5に送る。認識部5は音響特徴ベクトルと音響モデル3に格納されている音素モデルとを参照してフレーム毎の連続音素認識を行い、各フレームの尤度の合計が最大となるものを認識語彙保持部4から抽出する。
認識部5は、抽出された語彙(認識結果)とその尤度を得点計算部6に送信する。得点計算部6では、抽出された語彙(認識結果)と語彙選択部7に入力された語彙(ユーザが選択した語彙)が同一の場合は、計算された尤度を得点として表示部8で表示し、同一でない場合には、得点0と表示するようにする。
このようにすれば、入力音声の尤度が高いほど、ユーザに与えられる得点が高くなるので、自然に尤度が高くなるような発声の方法、すなわち装置側の音声認識が行いやすくなる発声の方法をユーザは習得することができる。しかも、ユーザはゲーム感覚で音声認識トレーニングを行うことができるので、ユーザの負担にならない。また、認識可能な語彙をユーザが自然に覚えることができる。
図2は、図1の構成に画像DB(データベース)9、認識語彙尤度リスト10を付加した構成を示す。得点計算部16は、図1の得点計算部6とは得点の算出方法が異なるので番号を変えている。図1の構成と同様の部分については説明を省略する。
画像DB9には、認識語彙保持部4に保持されているすべての語彙について対応する画像データが格納されている。この画像データは、対応する語彙を連想させるようなデータとなっている。例えば、「白菜」という語彙に対しては、実際の白菜の写真が画像データとして格納されている。
認識語彙尤度リスト10には、認識語彙保持部4に保持されているすべての語彙について、複数の話者が音声認識を行った場合の尤度の平均値が格納されている。
以下に、図2の音声認識装置の動作を図3を参照しつつ説明する。語彙選択部7で認識語彙保持部4に保持されている語彙の中から語彙が選択され、画像DB9からこの語彙に対応する画像を抽出し、表示部8で表示する(S1)。例えば、語彙選択部7により認識語彙保持部4から選択された語彙が「白菜」であるならば、この「白菜」に対応する画像を画像DB9より抽出し、表示部8に表示する。図4(a)は選択された語彙に対応する画像を示した図であり、質問により、この画像の野菜名称の音声入力をユーザに促す構成となっている。
ユーザからの音声入力があるまでシステムは待っており(S2)、ユーザの音声が入力されると、図1で述べたように認識処理(S3)が行われる。認識処理が終了すると、得点計算部16は、語彙選択部7から送信された語彙と、認識部5から受信した認識結果が一致しているかどうかを判定し(S4)、一致している場合には認識部5から受信した認識結果と同一の語彙を認識語彙尤度リストから抽出し、この抽出した語彙に対応する尤度の平均値を参照する(S5)。
参照した尤度平均値と認識部5から送信されてくる尤度とに基づいて得点を計算して表示部8に表示する(S7)。得点の計算方法としては、例えば、得点=(尤度/平均尤度)×100 のように(S6)、平均尤度と認識部5からの尤度との比に一定の得点を乗算して算出することができる。
一方、認識結果と語彙選択部7から送信された語彙とが一致していない場合には、得点を0(S8)として表示部8に表示する(S9)。図4(b)はS7の正解画面の例を示しており、今回の得点(80点)が表示されるとともに、今までの質問に対する合計得点(450点)も表示されるようになっている。図4(c)はS9の不正解画面の例を示しており、正解の野菜名称は何であったかも表示されるようになっている。
次に、新しい語彙が選択されて、対応する画像が表示部8に表示され、S1からのステップが繰り返される。すなわち、音声認識トレーニングのプログラムが中止されるまで、図3で示された学習が継続される。
以上のように構成することで、以下のような効果が発生する。尤度は認識する語彙ごとに異なるものである。例えば、「白菜」という語彙を10人の話者が発声し、これを音声認識した場合のそれぞれの尤度の平均が100であったとする。同じ10人の話者が他の語彙として、例えば「大根」や「トマト」を発声した場合の尤度の平均は、150であったり、70であったりする。これは、「大根」という語彙が音声認識容易な語彙であり、「トマト」という語彙が音声認識しにくい語彙だからである。このように、尤度は語彙によって変化するので、音声認識が困難な語彙(上記例ではトマト)が提示された場合には、たとえ正確に発音しても、高い得点を得ることが困難である。
しかし、上記のようにあらかじめ測定された平均尤度に基づいて、ユーザの発声における尤度を正規化することができるので、音声認識が困難な語彙、あるいは、音声認識容易な語彙が提示された場合においても、公平に得点を計算することができる。
また、画像DB9を用いて画像を提示することで、画像に提示されている内容の読み方を学習できる。さらに、ユーザに対してゲーム性を提供できることにより、よりユーザの負担を減らすことが可能となる。特に料理の材料に適用した場合には、例えば「チコリ」や「エンダイブ」のように形状が一般的にあまり知られていない材料の外見をユーザに提示することになるので、ユーザがこれらの材料を購入する際の手助けになるという効果もある。
なお、画像DBに替えて音楽DBとし、例えば楽曲に対応する曲名を認識保持語彙部4に登録しておき、選択語彙(楽曲名)に対して対応する楽曲を再生するようにしても良い。
図5は、レシピ検索機能を備えた音声認識装置の例を示す。図2の構成に検索部21とレシピデータベース22が付加された構成となっている。
レシピデータベース22は、図6のようにデータが格納されており、例えば、レシピ名、材料、画像データ、レシピが格納されている。認識語彙保持部4には、レシピデータベース22の材料の項目に格納されている材料名が全て登録されており、画像DB9には、認識語彙保持部4で保持される語彙のすべてに対応する画像データが格納されている。したがって、画像DB9に格納されたデータは、レシピデータベース22に格納されている材料に関する画像はすべて含んだデータとなっている。
レシピ検索機能を備えた音声認識装置の動作を説明する。まず、表示部8に、音声認識トレーニングを行うか、レシピ検索を行うかを選択するメニューが表示される。音声認識トレーニングを選択した場合は、例えば図4(a)のように画像が表示されて、その画像に対する名称などを質問してくるので、ユーザは答えを発声する。
音声入力部1に入力された音声信号は、図1で説明したように認識部5で認識結果と尤度を取得する。ユーザは音声認識トレーニングメニューを選択しているので、認識部5は認識結果と尤度を得点計算部16に送信する(Yの送信ライン)が、認識部5から検索部21の方には(Xの送信ライン)認識結果を送信しないので、検索部21は動作しない。得点計算部16において図2で述べたように得点が計算され、図4の(b)あるいは(c)のように表示される。
一方、最初に、ユーザがレシピ検索を行うメニューを選択した場合には、Xの送信ラインが選択され、認識部5から検索部21に認識結果が送信されるが、Yの送信ラインは遮断されるため認識部5から得点計算部16にデータは送信されない。したがって、得点計算部16は動作せず、検索部21は送信されてきた認識結果と一致するデータをレシピデータベース22から抽出して表示部8に表示する。例えば、ユーザが、「豚肉、ねぎ」と音声入力すると、検索部21は「豚肉」と「ねぎ」の両方の材料名が登録されているレシピをレシピデータベース22から検索し、レシピと画像を表示部8でユーザに提示する。
図7は、このレシピ検索機能を備えた音声認識装置をキッチンに設置した例を示す。キッチンに立っているユーザの右手壁面に装置が設置されている。図8は、この装置の画面例である。
単にレシピを検索しようとすると、検索語彙が非常に多いうえに、一般家庭で用いられることが多いので、ユーザが発声の仕方に不慣れであることにより不便さを感じることが多い。上記のようにレシピ検索機能を備えた音声認識装置とすることで、ユーザが発声の仕方を容易に習得でき、システムを快適に使用することが可能となる。また、システムが受理可能な検索キーワードを入力する必要があるが、レシピの材料のように多数の検索キーワードがある場合にも、音声認識トレーニングを行うことによりユーザに自然にキーワードを覚えてもらえる効果がある。
図9は、図5の検索部21、レシピデータベース22の替りにインターネット検索部31、インターネット32を設けたものである。インターネット検索部31は認識部5から出力される認識結果に基づいてインターネット32を介して外部レシピデータなどの外部データを検索し、認識結果と一致するWWWページを表示部8に送信する。
以上のように構成すれば、例えば、図5のように装置内部にレシピデータベースを設けることが必要でなくなり、外部のレシピデータを活用することで、装置内構成の簡素化を図ることができる。
図10は、図1の構成に最高得点保持部41を設けている。最高得点保持部41は、得点を記憶する機能を有し、得点計算部6から送信される得点をすべて記憶する領域と最高得点を記憶する領域を有している。送信されてきた得点と記憶している最高得点とを比較して、現在記憶している最高得点よりも送信されてきた得点の方が高い場合に、記憶している最高得点を送信されてきた得点に更新する。最高得点保持部41は、得点計算部6から受信した得点と、記憶している最高得点とを表示部8に送信して表示する。なお、最高得点は語彙ごとに記憶、更新しても良く、最高得点の初期値は0や、非常に低い数値に設定しておいても良い。
上述のように、ユーザに対して、最高得点を提示することにより、図1などの構成例よりもさらにゲーム性を高めることができ、ユーザに音声認識トレーニングを飽きないようにさせることができる。
図11は、図1の構成に音声再生部52、模範音声DB51を設けたものである。模範音声DB51は、認識語彙保持部4に保持されている語彙のすべてについて、尤度が十分に高く非常に認識しやすい模範音声データが格納されており、語彙選択部7で選択された語彙に対応する模範音声データが模範音声DB51から抽出され、音声再生部52で再生される。
ユーザが選択された語彙について発音する前に、その語彙の模範音声を聞かせることで、正しい発声例を理解することができ、ユーザの学習効果を向上させることができる。
図12は、図10の構成に最高得点音声記憶部62と音声再生部63とを付加したものである。最高得点音声記憶部62は、各ユーザごとに記憶領域が分類されてユーザ毎に入力音声と最高得点に対応したユーザ音声とを各々記録できるようになっており、ユーザが発話した音声はすべて記録するように構成されている。
最高得点保持部41は、最高得点が更新された場合には、更新通知を最高得点音声記憶部62に通知する。更新されなかった場合には、非更新通知を最高得点音声記憶部62に通知する。最高得点音声記憶部62は、ユーザが発話するたびに、音声入力部1から送信される入力音声を毎回一旦記憶し、最高得点保持部41から最高得点が更新された更新通知を受信した場合には、最高得点時の音声を音声入力部1からのユーザ音声で更新する。
また、最高得点音声記憶部62は、更新通知、あるいは非更新通知のいづれかを受信した場合に、記憶している最高得点音声と現在のユーザ発話音声を音声再生部に送信する。音声再生部は、受信した音声データをユーザに向けて再生する。なお、最高得点保持部41、最高得点音声記憶部62は各々、認識語彙保持部4に保持されている各語彙ごとに、最高得点とそれに対応する音声を保持するようにしても良い。このように、ユーザの入力音声でもっとも認識しやすい模範音声を、ユーザに提示することができる。
一方、最高得点保持部41には、得点計算部6で算出されたすべての得点が記録されているので、得点が0点、すなわち認識部5で抽出した語彙と語彙選択部7で選択された語彙とを比較して不一致の場合も最高得点保持部41から最高得点音声記憶部62に通知するようにして、そのときの入力音声とリンクさせておけば、ユーザの発音が不正確な場合の音声を後で音声再生部63で再生すれば、ユーザに不正確な発声例を提示することができ、学習の参考とすることができる。
ところで、得点が低くなる原因には、ユーザの発声が前述したような模範音声に較べて不適切である場合以外にも、ユーザが発声した環境で、例えば水の流れる音などの雑音が混入されているために、尤度が低下した場合などがあり得る。このような場合にも、最高得点を記録したときの音声と、ユーザが入力した音声の違いを聞き比べることにより、このような雑音が原因の場合には、雑音が原因であるとユーザに認知させることができ、結果としてユーザに環境を改善させ、システムの性能を向上させる効果がある。また、ユーザ同士で得点を競争する場合に、特にゲーム性を高める効果がある。
本発明の音声認識装置の基本構成例を示す図である。 基本構成例に認識語彙尤度リストと画像DBとを設けた構成例を示す図である。 図2の構成の動作を示すフローチャート図である。 ユーザに発話を促す画像表示例と得点結果表示例を示す図である。 レシピ検索機能を備えた音声認識装置の構成例を示す図である。 レシピデータベースのデータ構造例を示す図である。 レシピ検索機能を備えた音声認識装置をキッチンに設置した例を示す図である。 図7の設置例での表示画面例を示す図である。 インターネット検索機能を備えた音声認識装置の構成例を示す図である。 ユーザの音声認識で最高得点を表示できるようにした音声認識装置の構成例を示す図である。 ユーザに模範音声を提示できるようにした音声認識装置の構成例を示す図である。 ユーザに最高得点時のユーザ音声を提示できるようにした音声認識装置の構成例を示す図である。
符号の説明
1 音声入力部
2 特徴量抽出部
3 音響モデル
4 認識語彙保持部
5 認識部
6 得点計算部
7 語彙線選択部
8 表示部
9 画像DB
10 認識語彙尤度リスト

Claims (9)

  1. ユーザの音声が入力される音声入力部と、
    音素モデルが格納された音響モデルと、
    認識対象となる複数の語彙が保持されている認識語彙保持部と、
    前記認識語彙保持部の複数の語彙からユーザに発話させるための語彙を選択する語彙選択部と、
    前記音声入力部で入力された音声と前記音響モデルとを参照しつつ尤度の最も高い語彙を前記認識語彙保持部から抽出する認識部と、
    前記認識部で抽出した語彙と前記語彙選択部で選択された語彙とを比較して一致している場合には、前記尤度を得点とする得点計算部とを備え、前記得点をユーザに提示するようにしたことを特徴とする音声認識装置。
  2. 前記認識語彙保持部の各語彙ごとに複数の話者の音声認識による尤度の平均値が格納された認識語彙尤度リストを備え、
    この尤度平均値を用いて前記得点計算部で取得した尤度を正規化して得点とすることを特徴とする請求項1記載の音声認識装置。
  3. 前記語彙選択部からの選択された語彙に対応する画像を表示し、ユーザに発話させることを特徴とする請求項1〜請求項2記載の音声認識装置。
  4. 料理に関する情報が格納されたレシピデータベースと、
    前記認識部で抽出された語彙に基づいて前記レシピデータベースを検索する検索部とを備え、
    ユーザの音声入力によりレシピを検索する機能を備えたことを特徴とする請求項1〜請求項3記載の音声認識装置。
  5. 前記認識部で抽出された語彙に基づいて外部データを検索するインターネット検索部を備え、
    ユーザの音声入力により外部データを検索する機能を備えたことを特徴とする請求項1〜請求項3記載の音声認識装置。
  6. 前記得点計算部から送信されてくる得点をすべて記憶するとともに、受信した得点と記憶している得点とを比較して高い方の得点データに最高得点を更新する最高得点保持部を備え、
    前記最高得点保持部の得点をユーザに提示することを特徴とする請求項1〜請求項5記載の音声認識装置。
  7. 前記語彙選択部で選択された語彙について尤度の高い模範音声を発声させ、ユーザに正しい発声を提示することを特徴とする請求項1〜請求項6記載の音声認識装置。
  8. 前記音声入力部からの音声を逐次記録するとともに、前記最高得点保持部で最高得点データが更新された場合に最高得点データに対応する音声データを更新する最高得点音声記憶部を備え、
    ユーザの最高得点時の発声を模範音声として提示することを特徴とする請求項6記載の音声認識装置。
  9. 前記認識部で抽出した語彙と前記語彙選択部で選択された語彙とを比較して不一致の場合に対応するユーザ音声を前記最高得点音声記憶部から再生し、ユーザに提示することを特徴とする音声認識装置。
JP2004048782A 2004-02-24 2004-02-24 音声認識装置 Withdrawn JP2005241767A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004048782A JP2005241767A (ja) 2004-02-24 2004-02-24 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004048782A JP2005241767A (ja) 2004-02-24 2004-02-24 音声認識装置

Publications (1)

Publication Number Publication Date
JP2005241767A true JP2005241767A (ja) 2005-09-08

Family

ID=35023588

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004048782A Withdrawn JP2005241767A (ja) 2004-02-24 2004-02-24 音声認識装置

Country Status (1)

Country Link
JP (1) JP2005241767A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007133031A (ja) * 2005-11-08 2007-05-31 Advanced Telecommunication Research Institute International 発音評定装置、およびプログラム
JP2008262120A (ja) * 2007-04-13 2008-10-30 Nippon Hoso Kyokai <Nhk> 発話評価装置及び発話評価プログラム
EP3145376B1 (de) * 2014-05-21 2018-07-11 Vorwerk & Co. Interholding GmbH Elektrisch betriebene küchenmaschine mit spracherkennungseinrichtung
JP2020057280A (ja) * 2018-10-03 2020-04-09 東芝テック株式会社 検索装置、検索方法及びプログラム
JP2020197373A (ja) * 2020-09-08 2020-12-10 パナソニックIpマネジメント株式会社 冷蔵庫

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007133031A (ja) * 2005-11-08 2007-05-31 Advanced Telecommunication Research Institute International 発音評定装置、およびプログラム
JP2008262120A (ja) * 2007-04-13 2008-10-30 Nippon Hoso Kyokai <Nhk> 発話評価装置及び発話評価プログラム
EP3145376B1 (de) * 2014-05-21 2018-07-11 Vorwerk & Co. Interholding GmbH Elektrisch betriebene küchenmaschine mit spracherkennungseinrichtung
JP2020057280A (ja) * 2018-10-03 2020-04-09 東芝テック株式会社 検索装置、検索方法及びプログラム
JP2020197373A (ja) * 2020-09-08 2020-12-10 パナソニックIpマネジメント株式会社 冷蔵庫
JP2022125367A (ja) * 2020-09-08 2022-08-26 パナソニックIpマネジメント株式会社 システム、冷蔵庫
JP7386407B2 (ja) 2020-09-08 2023-11-27 パナソニックIpマネジメント株式会社 システム、冷蔵庫

Similar Documents

Publication Publication Date Title
US10319250B2 (en) Pronunciation guided by automatic speech recognition
US6321196B1 (en) Phonetic spelling for speech recognition
USRE37684E1 (en) Computerized system for teaching speech
US8903723B2 (en) Audio synchronization for document narration with user-selected playback
US20070239455A1 (en) Method and system for managing pronunciation dictionaries in a speech application
CN110148427A (zh) 音频处理方法、装置、系统、存储介质、终端及服务器
EP1693827B1 (en) Extensible speech recognition system that provides a user with audio feedback
US6560574B2 (en) Speech recognition enrollment for non-readers and displayless devices
JP2021144759A5 (ja)
JP3282075B2 (ja) 連続音声認識において句読点を自動的に生成する装置および方法
US6269335B1 (en) Apparatus and methods for identifying homophones among words in a speech recognition system
JPWO2019142427A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2000352989A (ja) ユーザが文字列の発音を設定することを可能にするためにコンピュータ上で実行される方法
WO1999040556A1 (en) Speech recognition apparatus and method for learning
US20090220926A1 (en) System and Method for Correcting Speech
KR100659212B1 (ko) 어학 학습 시스템 및 어학 학습용의 음성 데이터 제공 방법
JP5105943B2 (ja) 発話評価装置及び発話評価プログラム
JP2006337667A (ja) 発音評価方法、音素列モデル学習方法、これらの方法を用いた装置、プログラム、および記録媒体。
KR100898104B1 (ko) 상호 대화식 학습 시스템 및 방법
JP2005241767A (ja) 音声認識装置
JP5196114B2 (ja) 音声認識装置およびプログラム
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
JP2005024815A (ja) 言語学習システムとその装置、方法、プログラム、及びこのプログラムを記録する記録媒体
JP2001282096A (ja) 外国語発音評価装置
JP6957069B1 (ja) 学習支援システム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070501