JP5480760B2 - 端末装置、音声認識方法および音声認識プログラム - Google Patents

端末装置、音声認識方法および音声認識プログラム Download PDF

Info

Publication number
JP5480760B2
JP5480760B2 JP2010207037A JP2010207037A JP5480760B2 JP 5480760 B2 JP5480760 B2 JP 5480760B2 JP 2010207037 A JP2010207037 A JP 2010207037A JP 2010207037 A JP2010207037 A JP 2010207037A JP 5480760 B2 JP5480760 B2 JP 5480760B2
Authority
JP
Japan
Prior art keywords
recognition result
speech recognition
word
input
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010207037A
Other languages
English (en)
Other versions
JP2012063536A (ja
Inventor
孝輔 辻野
真也 飯塚
伸 小栗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2010207037A priority Critical patent/JP5480760B2/ja
Publication of JP2012063536A publication Critical patent/JP2012063536A/ja
Application granted granted Critical
Publication of JP5480760B2 publication Critical patent/JP5480760B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識結果を処理する端末装置、音声認識方法および音声認識プログラムに関する。
音声認識処理を行うに当たっては、クライアント端末内で行う場合と、サーバ側で行う場合がある。クライアント端末内で行う場合は、当該端末がユーザ専用のものである場合が多いことから、端末内のユーザ固有の情報として、ユーザ辞書、ユーザの過去の入力音声や通話音声、音響トレーニングの実績などを利用して、言語モデルや音響モデルの個人カスタマイズが容易である。したがって、ユーザ適応の音声認識が可能となる反面、メモリ量や演算リソースが限られ、語彙数や仮説探索の範囲が制約されるといったデメリットがある。
一方で、サーバ側で行う場合は、端末内音声認識と比較してメモリ量や演算リソースを豊富に利用でき、大語彙且つ高精度の音声認識が可能といったメリットがある。しかし、サーバは多数のユーザに共有されるものであるため、ユーザ各々の言語モデルまたは音響モデルを学習したり、アクセスに応じて即時に高速にユーザ各々にカスタマイズされた言語モデルまたは音響モデルを読み込むことはコストが高い。したがって、サーバ側の音声認識では言語モデルまたは音響モデルのユーザごとのカスタマイズが困難というデメリットがある。
そこで、両者の長所を兼ね備え、大語彙且つ高精度の音声認識処理と、言語モデルまたは音響モデルのユーザごとのカスタマイズを両立する音声認識処理を実現することが課題とされており、特許文献1は当該課題を解決するための一つの試みを示している。特許文献1では、サーバは認識結果における単語境界の時間情報を端末に返し、端末では当該時間情報を参照し且つ自らが有する辞書を用いて再認識を行う。特に、未知語や固有名詞と判定された語のみを再認識の対象とすることにより、認識精度の向上を目指している。
特開2010−85536号公報
しかし、このような特許文献1の技術では、サーバ側の認識で単語境界が正しく認識されていないと、端末側は正しくない時間情報を参照することとなり、端末での再認識後も正しい認識結果が得られないおそれがある。また、サーバ側で認識対象の語が語彙外の語である場合は、未知語や固有名詞の判定を正しくできない場合があり、端末で再認識を行った後も正しい認識結果が得られない場合がある。
さらに、言語モデルにおける語彙不足から、音声認識サーバが正しく音声認識することができない場合がある。未知語の場合、通常音声認識の対象として言語モデルに登録されていないため、その不具合は顕著なものとなる。
そこで、本発明は上記に鑑みてなされたもので、大語彙且つ高精度の音声認識処理と、言語モデルまたは音響モデルのユーザごとのカスタマイズを両立する音声認識処理を実現することが可能な端末装置、音声認識処理方法および音声認識プログラムを提供することを目的とする。
上述の課題を解決するために、本発明の端末装置は、ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書を記憶するユーザ辞書記憶手段と、 音声データの入力を受け付ける入力手段と、前記入力手段により入力された音声データを、音声認識を行う外部装置に送信する送信手段と、前記外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、前記外部装置から受信する受信手段と、前記受信手段により受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、前記ユーザ辞書記憶手段に記憶されているユーザ辞書から検索して、当該近似する単語を音声認識結果に追加することで、音声認識結果を拡張する認識結果拡張手段と、前記認識結果拡張手段により拡張された音声認識結果を、前記入力手段において入力された音声データ、ならびに前記一の音響モデルとは異なる他の音響モデルまたは前記一の言語モデルとは異なる他の言語モデルの少なくとも一方を利用して評価する仮説再評価手段と、前記仮説再評価手段による評価にしたがった一の音声認識結果を提示する提示手段と、を備えている。
また、本発明の音声認識方法は、端末装置における音声認識方法において、音声データの入力を受け付ける入力ステップと、前記入力ステップにより入力された音声データを、音声認識を行う外部装置に送信する送信ステップと、前記外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、前記外部装置から受信する受信ステップと、前記受信ステップにより受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書から検索して、当該近似する単語を音声認識結果に追加することで、音声認識結果を拡張する認識結果拡張ステップと、前記認識結果拡張ステップにより拡張された音声認識結果を、前記入力ステップにおいて入力された音声データ、ならびに前記一の音響モデルとは異なる他の音響モデルまたは前記一の言語モデルとは異なる他の言語モデルの少なくとも一方を利用して評価する仮説再評価ステップと、前記仮説再評価ステップによる評価にしたがった一の音声認識結果を提示する提示ステップと、を備えている。
また、本発明の音声認識プログラムは、コンピュータを、音声データの入力を受け付ける入力モジュールと、前記入力モジュールにより入力された音声データを、音声認識を行う外部装置に送信する送信モジュールと、前記外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、前記外部装置から受信する受信モジュールと、前記受信モジュールにより受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書から検索して、当該近似する単語を音声認識結果に追加することで、音声認識結果を拡張する認識結果拡張モジュールと、前記認識結果拡張モジュールにより拡張された音声認識結果を、前記入力モジュールにおいて入力された音声データ、ならびに前記一の音響モデルとは異なる他の音響モデルまたは前記一の言語モデルとは異なる他の言語モデルの少なくとも一方を利用して評価する仮説再評価モジュールと、前記仮説再評価モジュールによる評価にしたがった一の音声認識結果を提示する提示モジュールと、として機能させる
これら発明によれば、入力された音声データを、音声認識を行う外部装置に送信し、外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、外部装置から受信し、受信された音声認識結果を、入力された音声データ、ならびに一の音響モデルとは異なる他の音響モデルまたは一の言語モデルとは異なる他の言語モデルを利用して評価し、当該評価にしたがった一の音声認識結果を提示する。これにより、外部装置において認識された結果の範囲で適切な音声認識結果を選択することができ、大語彙且つ高精度な音声認識処理を行うことができる。さらに、通常の端末内での音声認識処理を行うことと比較して、CPUの演算量、メモリ使用量等を軽減することができる。
さらに、ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書を記憶しておき、受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、ユーザ辞書から検索して、当該近似する単語を音声認識結果に追加・拡張して、拡張された音声認識結果に対する評価を行う。これにより、ユーザ特有に定められた単語を音声認識結果に追加・拡張して、評価することで、ユーザ特有の単語を含んだ音声データに対しても、正確な音声認識結果を得ることができる。特に、音声データに、一般的ではない固有名詞などの未知語を含んだとしても、それを考慮した音声認識結果を得ることができる。
また、本発明の端末装置100において、前記他の音響モデルおよび前記他の言語モデルは、前記端末装置の利用履歴もしくはユーザ操作に基づいて定められたものであることを特徴とする。
この発明によれば、他の音響モデルおよび他の言語モデルは、端末装置の利用履歴もしくはユーザ操作に基づいて定められたものであり、これによって、端末装置のユーザ特有の音響モデルおよび言語モデルを利用することができ、よりユーザの特定に沿った音声認識処理を実現することができる。
また、本発明の端末装置100において、前記仮説再評価手段は、前記他の言語モデルを用いて前記受信手段により受信された音声認識結果の言語尤度を算出し、当該算出した言語尤度からなる再評価スコアおよび前記受信手段において受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価する。
この発明によれば、他の言語モデルを用いて前記受信手段により受信された音声認識結果の言語尤度を算出し、当該算出した言語尤度からなる再評価スコアおよび受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価することができる。よって、個人に適応した言語モデルによる認識精度向上を実現することができる。
また、本発明の端末装置100において、前記仮説再評価手段は、前記他の音響モデルを利用して、前記入力手段によって入力された音声データを所与とした際の前記受信手段により受信された音声認識結果の尤度を求めることによって音響尤度を算出し、当該算出した音響尤度からなる再評価スコアおよび前記受信手段において受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価する。
この発明によれば、前記他の音響モデルを利用して、前記入力手段によって入力された音声データを所与とした際の前記受信手段により受信された音声認識結果の尤度を求めることによって音響尤度を算出し、当該算出した音響尤度からなる再評価スコアおよび受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価することができる。よって、個人に適応した音響モデルによる認識精度向上を実現することができる。
本発明によれば、外部装置において認識された結果の範囲で適切な音声認識結果を選択することができ、大語彙且つ高精度な音声認識処理を行うことができる。さらに、通常の端末内での音声認識処理を行うことと比較して、CPUの演算量、メモリ使用量等を軽減することができる。
本実施形態の音声認識システムの機能を示すブロック図である。 端末装置100のハードウェア構成を示すブロック図である。 N−best方式における音声認識結果の候補リストを示す説明図である。 音声認識結果のひとつである認識結果候補を示した説明図である。 認識結果拡張部105において拡張された候補を含んだ候補リストおよびそれに対応する各スコアを示す説明図である。 音声認識システム10の処理を示すフローチャートである。
添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
図1は、本実施形態の音声認識システムの機能を示すブロック図である。図1に示されるとおり、本実施形態の音声認識システム10は、端末装置100と音声認識サーバ200とを含んで構成されている。端末装置100において入力された音声は、音声認識サーバ200に送信されて、外部装置である音声認識サーバ200において音声認識処理が行われる。そして、音声認識サーバ200において認識された音声認識結果は端末装置100に返信される。返信された音声認識結果は、複数の認識候補を含んでおり、端末装置100においては、いずれの認識候補が妥当なものであるか、評価して、評価値の高い認識候補を音声認識結果として表示部107に表示させる。
以下、端末装置100および音声認識サーバ200の各機能について説明する。図1に示されるとおり、端末装置100は、通信部101(送信手段、受信手段)、マイク102(入力手段)、音声処理部103、ユーザ辞書保持部104(ユーザ辞書記憶手段)、認識結果拡張部105(認識結果拡張手段)、仮説再評価部106(仮説再評価手段)、表示部107(提示手段)を含んで構成されている。この端末装置100は、例えば携帯端末であって、図2に示されるハードウェアにより構成される。
図2は、端末装置100のハードウェア構成を示すブロック図である。図1に示される端末装置100は、物理的には、図2に示すように、CPU11、主記憶装置であるRAM12及びROM13、入力デバイスであるキーボード及びマウス等の入力装置14、ディスプレイ等の出力装置15、ネットワークカード等のデータ送受信デバイスである通信モジュール16、ハードディスク等の補助記憶装置17などを含むコンピュータシステムとして構成されている。図1において説明した各機能は、図2に示すCPU11、RAM12等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU11の制御のもとで入力装置14、出力装置15、通信モジュール16を動作させるとともに、RAM12や補助記憶装置17におけるデータの読み出し及び書き込みを行うことで実現される。以下、図1に示す機能ブロックに基づいて、各機能ブロックを説明する。
マイク102は、端末装置100のユーザが発する音声を受け付ける部分である。
音声処理部103は、マイク102において受け付けられた音声を処理する部分であり、例えばデジタルデータに変換する部分である。
通信部101は、音声処理部103において処理された音声データを外部装置である音声認識サーバ200に送信し、また音声認識サーバ200から音声認識結果を受信する部分である。通信部101は、音声認識サーバ200から音声認識結果を受信すると、認識結果拡張部105に、その音声認識結果を出力する。この音声認識結果には、複数の認識候補が含まれている。
具体的には、通信部101は、図3に示される音声認識結果を受信する。図3(a)は、N−best方式における音声認識結果の認識工を含んだ候補リストを示す説明図である。図3(a)においては、発音として、以下の発話がなされたとしている。
(発話内容)今日は横島に会った
これに対して、N−best方式で候補リストをあらわすと、図3(a)に示されるとおり、音声認識結果として、複数の認識候補が出力される。N−Best方式では、発話された文章を文節ごとに区分された単語を認識することで得られた候補を組み合わせた文章ごとに、認識スコアが算出される。
また、候補リストとしては、N−best方式に限られるものでは無く、図3(b)に示すように、Confusion Network(CN)方式もありえる。CN方式では、文節ごとに区分された単語のつながりを示すように管理されており、それぞれのつながりごとに認識スコアが算出されている。
いずれの方式においても、文節ごとに区分された単語を組み合わせることにより、複数の認識候補を得ることができる。
ユーザ辞書保持部104は、端末装置100のユーザにより設定されたユーザ辞書を記憶する部分である。このユーザ辞書は、ユーザが音声認識のために、ユーザ独自に設定した辞書データであったり、または、かな漢字変換のための拡張辞書、電話帳データなどであり、発音(ふりがな)と漢字(またはカタカナ、ひらがなでもよい)とを対応付けた辞書データである。
認識結果拡張部105は、通信部101において音声認識サーバ200から受信した音声認識結果を拡張する処理を行う部分である。具体的には、認識結果拡張部105は、複数の認識候補のそれぞれに含まれる単語のうち、所定条件を満たした単語(例えば認識スコアの低い(所定値以下)の単語)と近い発音の単語をユーザ辞書保持部104のユーザ辞書を検索し、検索した単語を加えることで、音声認識結果を拡張することができる。発音の近さの評価は、文字列の編集距離を用いるが、他の方法によってもよい。また、ここでは所定条件として認識スコアの低い単語を拡張するように処理しているが、そのほか、所定の品詞のものや、固有名詞であることを判別して、その単語を拡張するようにしてもよい。
図4に、音声認識結果における認識候補の拡張についての具体例を示す。図4(a)は、音声認識結果の一つである認識候補を示した説明図である。この図4(a)では、例えば「横浜/ヨコハマ」の認識スコアが低いものとする(所定値以下のもの)。そのため、認識結果拡張部105は、「ヨコハマ」と発音の近い単語を、ユーザ辞書保持部104のユーザ辞書から検索する。
図4(b)で示されるとおり、ここでは、「横島/ヨコシマ」が検索され、「横浜/ヨコハマ」に対する別の候補として「横島/ヨコシマ」が追加されている。
拡張された認識候補の認識スコアは、元の認識候補と同じものとすることが妥当と思われるが、発音の近さを基準として元の候補のスコアにペナルティを与えたものであってもよい。例えば、「今日は横浜に会った」の認識スコアが0.32とする。そして、発音の編集距離1ごとに0.05のペナルティを与えると、「ヨコハマ」と「ヨコシマ」の編集距離は1であるため、拡張された候補「今日は横島に会った」の認識スコアは0.27となる。
図1に戻り、引き続き説明を続ける。仮説再評価部106は、認識結果拡張部105において拡張された認識候補を含んだ複数の認識候補について評価を行う部分であり、端末装置100において備えられている言語モデルまたは音響モデルの少なくとも一方を利用して、評価を行う。具体的には、仮説再評価部106は、言語モデルを利用して、音声認識結果の複数の認識候補のそれぞれについて、単語N−gram確率に基づく言語尤度を求める。また、仮説再評価部106は、音響モデルを利用して、音声認識結果の複数候補のそれぞれについて、音響尤度を求める。すなわち、音声認識結果の複数候補のそれぞれを認識仮説として取り扱い、音響モデルを利用して、音声処理部103において処理された音声データを所与とした場合の音声認識結果である認識仮説の読み音素列の尤度を求めることにより音響尤度を求めることができる。音響尤度の算出法は、下記参考文献に記載されているように広く知られており、例えば現在典型的に用いられる隠れマルコフモデルに基づく音響モデルの場合には、音響モデルに含まれる音素HMM(Hidden Markov Model)を連結して認識仮説を構成する音素列に対応する文HMMを生成し、音声データを解析して得られる特徴量系列の、文HMM上での出力確率を、DPマッチング等で求めればよい。そして、仮説再評価部106は、認識候補ごとに、言語尤度または音響尤度の少なくとも一方を求めることにより、評価のための再評価スコアを算出する。
[参考文献] ITText 音声認識システム 情報処理学会編集、鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄編著、2001/05発行
仮説再評価部106は、候補ごとに再評価スコアを算出すると、音声認識サーバ200から得た認識スコアと再評価スコアとに基づいて最終スコアを算出する。例えば、仮説再評価部106は、認識スコアと再評価スコアとの和を算出することで、これを最終スコアとしてもよいし、認識スコアまたは再評価スコアのいずれかもしくは両方に重み付けを行って、その和を算出することで、最終スコアとしてもよい。また、再評価スコアのみを最終スコアとして用いてもよい。さらに、再評価スコアは、音響モデル・言語モデルいずれか一方のみを用いて得られたものとしてもよい。
図5は、認識結果拡張部105において拡張された候補を含んだ候補リストおよびそれに対応する各スコアを示す説明図である。
例えば、「今日は、横浜へ行った」という候補は、認識スコア:0.5、再評価スコア:0.3、最終スコア:0.8と対応付けている。これら各数値は、仮説再評価部106において算出された一時的に記憶されているものである。図5では、「今日は横島に会った」が、最終スコア:0.87であって、認識候補の中で一番高い数値となっているため、これを認識結果として出力する。
表示部107は、仮説再評価部106において評価された認識結果を表示する。
つぎに、音声認識サーバ200について説明する。図1に示されるとおり、音声認識サーバ200は、通信部201および音声認識部202を含んで構成されている。通信部201は、端末装置100から送信された音声データを受信し、後述する音声認識部202において認識された音声認識結果を返信する部分である。
音声認識部202は、通信部201により受信された音声データを音声認識処理する部分である。この音声認識部202は、音響モデルおよび言語モデルを用いて音声認識をするものであって、音響モデルおよび言語モデルは、万人に適用可能に構築されたモデルである。
このようにして、端末装置100において受け付けられた音声データを、音声認識サーバ200では音声認識処理して、端末装置100に返信し、端末装置100では、返信された音声認識結果に基づいて、独自の辞書データをさらに利用して評価することで、より正確な音声認識結果を得ることができる。
つぎに、このように構成された音声認識システム10の処理について説明する。図6は、音声認識システム10において処理される音声認識方法を示すフローチャートである。まず、端末装置100においては、マイク102を介して音声が受け付けられる(S101)。そして、音声データは、音声処理部103により処理されて、通信部101により、音声認識サーバ200に送信される(S102)。
音声認識サーバ200では、通信部201により音声データが受信され(S201)、音声認識処理が音声認識部202により行われ、音声認識結果が得られる(S202)。そして、音声認識結果は、通信部201により端末装置100に送信される(S203)。
端末装置100では、音声認識結果が通信部101により受信され(S103)、認識結果拡張部105により、音声認識結果に基づいて発音が類似した単語が、ユーザ辞書保持部104のユーザ辞書から検索される(S104)。そして、認識結果拡張部105により、検索された単語は音声認識結果に追加される(S105)。
認識結果拡張部105により拡張された音声認識結果のそれぞれの候補について、仮説再評価部106により評価がなされ、再評価スコアが算出される(S106)。そして、仮説再評価部106により、音声認識サーバ200から得た認識スコアと再評価スコアとから最終スコアが算出され(S107)、音声認識結果である複数の候補から、最終スコアに基づいて一の候補が選択され、表示部107においてその候補が表示される(S107)。
このようにして、音声認識サーバ200において認識した範囲において、端末装置100では、その音声認識結果を評価することができ、大語彙かつ高精度の音声認識処理を行うことができる。
なお、本実施形態においては、装置として端末装置100を例示したが、これに限るものではなく、端末装置100における各機能を実行するためのプログラムモジュールとして構成してもよい。すなわち、マイク102からの入力処理、音声処理部103に相当する入力モジュール、通信部101に相当する送信モジュールおよび受信モジュール、仮説再評価部106に相当する仮説再評価モジュール、ディスプレイなどの表示部107に表示させるための提示モジュールを備えたプログラムであって、携帯端末などのコンピュータシステムに当該プログラムを読み込ませることにより、上述端末装置100と同等の機能を実現することができる。なお、このプログラムは、CDROM、DVDなどの記録媒体に記憶させておき、コンピュータシステムに読み取り可能に構成してもよい。
つぎに、本実施形態の端末装置100の作用効果について説明する。端末装置100が備えるマイク102が、ユーザが発せられた音声を受け付けて、音声処理部103が音声データにする。そして、このようにして入力された音声データを、通信部101が音声認識を行う音声認識サーバ200に送信する。
音声認識サーバ200において、一の音響モデルおよび一の言語モデルを用いて音声認識処理を行い、その結果を音声認識結果として端末装置100に送信する。端末装置100では、音声認識サーバ200から音声認識結果を受信して、この受信された音声認識結果を、仮説再評価部106が、入力された音声データ、ならびに端末装置100に備えられている音響モデルおよび言語モデルを利用して評価する。この音響モデルおよび言語モデルは、音声認識サーバ200における音響モデルおよび言語モデルとは異なったものであり、端末装置100のユーザにより、端末内情報、ユーザ辞書、過去の入力音声、通話音声、音響トレーニングモードなどでカスタマイズされたものである。
そして、仮説再評価部106による評価にしたがって一の音声認識結果を決定して、表示部107は、一の音声認識結果を表示する。
これにより、音声認識サーバ200において認識された結果の範囲で適切な音声認識結果を端末装置100において評価・選択することができ、大語彙且つ高精度な音声認識処理を行うことができる。さらに、通常の端末内での音声認識処理を行うことと比較して、CPUの演算量、メモリ使用量等を軽減することができる。
また、本実施形態の端末装置100は、ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書を記憶するユーザ辞書保持部104、受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、ユーザ辞書保持部に記憶されているユーザ辞書から検索して、当該近似する単語を音声認識結果に追加することで、音声認識結果を拡張する認識結果拡張部105をさらに備えている。そして、仮説再評価部105は、認識結果拡張部105により拡張された音声認識結果に対する評価を行う。
これにより、ユーザ特有に定められた単語を音声認識結果に追加・拡張して、評価することで、ユーザ特有の単語を含んだ音声データに対しても、正確な音声認識結果を得ることができる。特に、音声データに、一般的ではない固有名詞などの未知語を含んだとしても、それを考慮した音声認識結果を得ることができる。
また、本実施形態の端末装置100において備えられている音響モデルおよび言語モデルは、端末装置100の利用履歴もしくはユーザ操作に基づいて定められたものである。上述したとおり、これら音響モデルおよび言語モデルは、端末内情報、ユーザ辞書、過去の入力音声、通話音声、音響トレーニングモードなどでカスタマイズされたものである。
これによって、端末装置のユーザ特有の音響モデルおよび言語モデルを利用することができ、よりユーザの特定に沿った音声認識処理を実現することができる。
また、本実施形態の端末装置100において、仮説再評価部106は、当該端末装置100内に備えている言語モデルを用いて言語尤度を算出し、当該算出した言語尤度からなる再評価スコアおよび通信部101により受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価する。よって、個人に適応した言語モデルによる認識精度向上を実現することができる。
また、端末装置100において、他の音響モデルとしてHMMを適用して、仮説再評価部106は、通信部101により受信された音声認識結果を構成する音素列に対応する文HMMを生成し、音声処理部103において処理された音声データに基づいて得られた特徴量系列の、上記生成された文HMM上での出力確率を求めることにより、音響尤度を算出し、当該算出した音響尤度からなる再評価する。よって、個人に適応した音響モデルによる認識精度向上を実現することができる。
100…端末装置、101…通信部、102…マイク、103…音声処理部、104…ユーザ辞書保持部、105…認識結果拡張部、106…仮説再評価部、107…表示部、200…音声認識サーバ、201…通信部、202…音声認識部。

Claims (6)

  1. ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書を記憶するユーザ辞書記憶手段と、
    音声データの入力を受け付ける入力手段と、
    前記入力手段により入力された音声データを、音声認識を行う外部装置に送信する送信手段と、
    前記外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、前記外部装置から受信する受信手段と、
    前記受信手段により受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、前記ユーザ辞書記憶手段に記憶されているユーザ辞書から検索して、当該近似する単語を音声認識結果に追加することで、音声認識結果を拡張する認識結果拡張手段と、
    前記認識結果拡張手段により拡張された音声認識結果を、前記入力手段において入力された音声データ、ならびに前記一の音響モデルとは異なる他の音響モデルまたは前記一の言語モデルとは異なる他の言語モデルの少なくとも一方を利用して評価する仮説再評価手段と、
    前記仮説再評価手段による評価にしたがった一の音声認識結果を提示する提示手段と、
    を備える端末装置。
  2. 前記他の音響モデルおよび前記他の言語モデルは、前記端末装置の利用履歴もしくはユーザ操作に基づいて定められたものであることを特徴とする請求項1記載の端末装置。
  3. 前記仮説再評価手段は、
    前記他の言語モデルを用いて、前記受信手段により受信された音声認識結果の言語尤度を算出し、当該算出した言語尤度からなる再評価スコアおよび前記受信手段において受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価することを特徴とする請求項1または2に記載の端末装置。
  4. 前記仮説再評価手段は、
    前記他の音響モデルとして、HMM(Hidden Markov Model)を適用して、前記受信手段により受信された音声認識結果を構成する音素列に対応する文HMMを生成し、
    前記入力手段により入力された音声データに基づいて得られた特徴量系列の、前記文HMM上での出力確率を求めることにより、
    音響尤度を算出し、当該算出した音響尤度からなる再評価スコアおよび前記受信手段において受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価することを特徴とする請求項1からのいずれか一項に記載の端末装置。
  5. 端末装置における音声認識方法において、
    音声データの入力を受け付ける入力ステップと、
    前記入力ステップにより入力された音声データを、音声認識を行う外部装置に送信する送信ステップと、
    前記外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、前記外部装置から受信する受信ステップと、
    前記受信ステップにより受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書から検索して、当該近似する単語を音声認識結果に追加することで、音声認識結果を拡張する認識結果拡張ステップと、
    前記認識結果拡張ステップにより拡張された音声認識結果を、前記入力ステップにおいて入力された音声データ、ならびに前記一の音響モデルとは異なる他の音響モデルまたは前記一の言語モデルとは異なる他の言語モデルの少なくとも一方を利用して評価する仮説再評価ステップと、
    前記仮説再評価ステップによる評価にしたがった一の音声認識結果を提示する提示ステップと、
    を備える音声認識方法。
  6. コンピュータを、
    音声データの入力を受け付ける入力モジュールと、
    前記入力モジュールにより入力された音声データを、音声認識を行う外部装置に送信する送信モジュールと、
    前記外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、前記外部装置から受信する受信モジュールと、
    前記受信モジュールにより受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書から検索して、当該近似する単語を音声認識結果に追加することで、音声認識結果を拡張する認識結果拡張モジュールと、
    前記認識結果拡張モジュールにより拡張された音声認識結果を、前記入力モジュールにおいて入力された音声データ、ならびに前記一の音響モデルとは異なる他の音響モデルまたは前記一の言語モデルとは異なる他の言語モデルの少なくとも一方を利用して評価する仮説再評価モジュールと、
    前記仮説再評価モジュールによる評価にしたがった一の音声認識結果を提示する提示モジュールと、
    として機能させるための音声認識プログラム。
JP2010207037A 2010-09-15 2010-09-15 端末装置、音声認識方法および音声認識プログラム Active JP5480760B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010207037A JP5480760B2 (ja) 2010-09-15 2010-09-15 端末装置、音声認識方法および音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010207037A JP5480760B2 (ja) 2010-09-15 2010-09-15 端末装置、音声認識方法および音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2012063536A JP2012063536A (ja) 2012-03-29
JP5480760B2 true JP5480760B2 (ja) 2014-04-23

Family

ID=46059314

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010207037A Active JP5480760B2 (ja) 2010-09-15 2010-09-15 端末装置、音声認識方法および音声認識プログラム

Country Status (1)

Country Link
JP (1) JP5480760B2 (ja)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN103871403B (zh) * 2012-12-13 2017-04-12 北京百度网讯科技有限公司 建立语音识别模型的方法、语音识别方法及对应装置
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9530103B2 (en) 2013-04-04 2016-12-27 Cypress Semiconductor Corporation Combining of results from multiple decoders
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9159317B2 (en) * 2013-06-14 2015-10-13 Mitsubishi Electric Research Laboratories, Inc. System and method for recognizing speech
CN106471570B (zh) 2014-05-30 2019-10-01 苹果公司 多命令单一话语输入方法
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US20170229124A1 (en) * 2016-02-05 2017-08-10 Google Inc. Re-recognizing speech with external data sources
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
JP6763527B2 (ja) * 2018-08-24 2020-09-30 ソプラ株式会社 認識結果補正装置、認識結果補正方法、およびプログラム
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
KR102151006B1 (ko) * 2018-12-28 2020-09-02 주식회사 딥엑스 상품 별 쇼핑 정보 제공 방법 및 이를 수행하는 전자기기
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
WO2021250837A1 (ja) * 2020-06-11 2021-12-16 日本電気株式会社 検索装置、検索方法、および記録媒体
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089188B2 (en) * 2002-03-27 2006-08-08 Hewlett-Packard Development Company, L.P. Method to expand inputs for word or document searching
JP4528540B2 (ja) * 2004-03-03 2010-08-18 日本電信電話株式会社 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP4709887B2 (ja) * 2008-04-22 2011-06-29 株式会社エヌ・ティ・ティ・ドコモ 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
JP5050175B2 (ja) * 2008-07-02 2012-10-17 株式会社国際電気通信基礎技術研究所 音声認識機能付情報処理端末
JP4902617B2 (ja) * 2008-09-30 2012-03-21 株式会社フュートレック 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP4845955B2 (ja) * 2008-12-11 2011-12-28 株式会社エヌ・ティ・ティ・ドコモ 音声認識結果訂正装置および音声認識結果訂正方法

Also Published As

Publication number Publication date
JP2012063536A (ja) 2012-03-29

Similar Documents

Publication Publication Date Title
JP5480760B2 (ja) 端末装置、音声認識方法および音声認識プログラム
JP5318230B2 (ja) 認識辞書作成装置及び音声認識装置
CN107016994B (zh) 语音识别的方法及装置
KR101590724B1 (ko) 음성 인식 오류 수정 방법 및 이를 수행하는 장치
CN109036391B (zh) 语音识别方法、装置及系统
KR100679042B1 (ko) 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
US11450313B2 (en) Determining phonetic relationships
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US10319373B2 (en) Information processing device, information processing method, computer program product, and recognition system
US20140019131A1 (en) Method of recognizing speech and electronic device thereof
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
JP2010020102A (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
EP3005152B1 (en) Systems and methods for adaptive proper name entity recognition and understanding
JP4269625B2 (ja) 音声認識辞書作成方法及びその装置と音声認識装置
JP2007078943A (ja) 音響スコア計算プログラム
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP2001242885A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP2010231149A (ja) 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
JP2003271183A (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
JP2011039468A (ja) 電子辞書で音声認識を用いた単語探索装置及びその方法
Arısoy et al. Discriminative n-gram language modeling for Turkish
JPWO2013125203A1 (ja) 音声認識装置、音声認識方法およびコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131022

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140214

R150 Certificate of patent or registration of utility model

Ref document number: 5480760

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250