JP2009237439A - 携帯端末の音声認識装置、音声認識方法、音声認識プログラム - Google Patents

携帯端末の音声認識装置、音声認識方法、音声認識プログラム Download PDF

Info

Publication number
JP2009237439A
JP2009237439A JP2008085926A JP2008085926A JP2009237439A JP 2009237439 A JP2009237439 A JP 2009237439A JP 2008085926 A JP2008085926 A JP 2008085926A JP 2008085926 A JP2008085926 A JP 2008085926A JP 2009237439 A JP2009237439 A JP 2009237439A
Authority
JP
Japan
Prior art keywords
speech recognition
recognition
network
function
built
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008085926A
Other languages
English (en)
Other versions
JP5283947B2 (ja
Inventor
Shoken Nasu
庄健 奈須
Eiji Utsunomiya
栄二 宇都宮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2008085926A priority Critical patent/JP5283947B2/ja
Publication of JP2009237439A publication Critical patent/JP2009237439A/ja
Application granted granted Critical
Publication of JP5283947B2 publication Critical patent/JP5283947B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】携帯端末で音声認識を行う際に、使い勝手が向上し、認識精度の向上が図れるようにする。
【解決手段】携帯端末1に、組込型音声認識機能が実装される。組込型音声認識機能の音響モデルデータベース51や辞書データベース52では、小語彙の辞書及び数種類の音響モデルに限定される。ネットワーク網4にはネットワーク型音声認識機能が設けられる。ネットワーク型音声認識機能では、音響モデルデータベース61には、多数の音響モデルが蓄積され、辞書データベース62には、大語彙の辞書が蓄積される。組込型音声認識機能とネットワーク型音声認識機能とでは性質が異なっていることに着目し、組込型音声認識機能とネットワーク型音声認識機能との双方を効果的に使用して、使い勝手が向上し、全体としての性能の向上を図る。
【選択図】図4

Description

本発明は、携帯端末の音声認識装置、音声認識方法、音声認識プログラムに関する。
従来の携帯端末の入力としては、テンキーに文字を割り当て、親指でテンキーを押して文字入力するのが主流である。しかしながら、テンキーの親指入力は、親指入力に不慣れなユーザにとっては、効率が良くない。そこで、テンキーの親指入力に代わる入力インターフェイスとして、例えば特許文献1に示されるように、声により文字入力できる音声認識が注目されている。
携帯端末における音声認識の実現方法としては、携帯端末内に音声認識を行うための機能が実装した組込型音声認識機能と、ネットワーク網に音声認識サーバを設け、ネットワーク網の音声認識サーバに接続して音声認識を行うネットワーク型音声認識機能とがある。
組込型音声認識機能とネットワーク型音声認識機能とを比較すると、ネットワーク型音声認識機能では、処理能力が高く、メモリ容量も大きいという利点がある。しかしながら、ネットワーク型音声認識機能を使うためには、ネットワーク網に接続する必要があるため、ネットワークが使えない環境下では利用できず、また、複数の端末からのアクセスの集中等、ネットワーク環境の影響を受けると、処理時間がかかる場合がある。
これに対して、組込型音声認識機能では、メモリ容量が制限されているため、小語彙の辞書及び数種類の音響モデルに限定されている。しかしながら、組込型音声認識機能では、ネットワーク網に接続する必要がなく、ネットワーク環境の影響を受けないという利点がある。
また、ネットワーク型音声認識は、大語彙の辞書及び多数種類の音響モデルが使えるため、組込型音声認識機能よりも、認識結果が良好な場合が多い。しかしながら、ネットワーク型音声認識では、大語彙の辞書であるため、かえって認識結果を誤る場合がある。
例えば、駅名の認識をする場合、ネットワーク型音声認識機能の大語彙の辞書では、「おおつか」という音声入力に対して、「大塚」であるか「大阪」であるか不明になり、「大阪」と誤って認識される可能性が高い。これに対して、組込型音声認識機能を使った場合、語彙の辞書が関東の駅名に限られていれば、「大阪」と誤って認識されることはなく、「大塚」と正しく認識される可能性が高い。このように、小語彙の組込型音声認識機能の方が、認識結果が上がる場合もある。
特開2004−258480号公報
上述のように、音声認識の実現方法としては、組込型音声認識機能と、ネットワーク型音声認識機能とがあるが、組込型音声認識機能では、小語彙の辞書及び数種類の音響モデルに限定されるという問題がある。また、ネットワーク型音声認識機能では、ネットワークの影響を受けると共に、大語彙の辞書が用いられるために、かえって認識結果が悪くなるという問題がある。
そこで、本発明は、上述の課題を鑑み、使い勝手が向上し、認識精度の向上し、全体としての認識精度の向上が図れる音声認識装置、音声認識方法、音声認識プログラムを提供することを目的とする。
上述の課題を解決するために、本発明は、以下の事項を提案している。
(1)本発明は、機器内部に設けられた組込型音声認識機能と、ネットワーク上に設けられた音声認識サーバによるネットワーク型音声認識機能と、前記組込型音声認識機能による認識結果と、前記ネットワーク型音声認識機能による認識結果とを用いて音声認識を行う制御手段と、を備えることを特徴とする携帯端末の音声認識装置を提案している。
本発明によれば、組込型音声認識機能による認識結果と、ネットワーク型音声認識機能による認識結果とを用いて音声認識を行うことで、音声認識の使い勝手を向上させ、認識精度を向上させることができる。
(2)本発明は、(1)の音声認識装置において、制御手段は、組込型音声認識機能による認識結果が良好でない場合に、ネットワーク型音声認識機能を用いることを特徴とする音声認識装置を提案している。
本発明によれば、組込型音声認識機能による認識結果が良好でない場合には、ネットワーク型音声認識機能による認識結果を用いることで、ネットワークの影響を最小限として、認識精度を向上させることができる。
(3)本発明は、(1)の音声認識装置において、制御手段は、組込型音声認識機能とネットワーク型音声認識機能と並列に認識処理を行い、認識結果が良好な方を用いることを特徴とする音声認識装置を提案している。
本発明によれば、小語彙の辞書及び数種類の音響モデルに限られている組込型音声認識機能と、大語彙の辞書及び多数種類の音響モデルが利用可能なネットワーク型音声認識機能とを並列に認識処理を行い、認識結果が良好な方を用いることで、認識精度を向上させることができる。
(4)本発明は、組込型音声認識機能による音声認識を行い、組込型音声認識機能による音声認識結果が良好かどうかを判定し、組込型音声認識機能による認識結果がでない場合に、ネットワーク型音声認識機能を用いて音声認識を行うことを特徴とする携帯端末の音声認識方法を提案している。
本発明によれば、組込型音声認識機能による認識結果が良好でない場合には、ネットワーク型音声認識機能による認識結果を用いることで、認識精度を向上させることができる。
(5)本発明は、組込型音声認識機能とネットワーク型音声認識機能と並列に認識処理を行い、組込型音声認識機能による認識結果とネットワーク型音声認識機能による認識結果とを比較し、認識結果が良好な方を認識結果として採用することを特徴とする携帯端末の音声認識方法を提案している。
本発明によれば、組込型音声認識機能による認識結果が良好でない場合には、ネットワーク型音声認識機能による認識結果を用いることで、認識精度を向上させることができる。
(6)本発明は、コンピュータに、組込型音声認識機能による音声認識を行うステップと、組込型音声認識機能による音声認識結果が良好かどうかを判定するステップと、組込型音声認識機能による認識結果がでない場合に、ネットワーク型音声認識機能を用いて音声認識を行うステップとを実行させるための携帯端末の音声認識プログラムを提案している。
本発明によれば、組込型音声認識機能による認識結果が良好でない場合には、ネットワーク型音声認識機能による認識結果を用いることで、認識精度を向上させることができる。
(7)本発明は、コンピュータに、組込型音声認識機能とネットワーク型音声認識機能と並列に認識処理を行うステップと、組込型音声認識機能による認識結果とネットワーク型音声認識機能による認識結果とを比較するステップと、認識結果が良好な方を認識結果として採用するステップとを実行させるための携帯端末の音声認識プログラムを提案している。
本発明によれば、組込型音声認識機能による認識結果が良好でない場合には、ネットワーク型音声認識機能による認識結果を用いることで、認識精度を向上させることができる。
本発明によれば、組込型音声認識機能とネットワーク型音声認識機能とでは性質が異なっていることに着目し、組込型音声認識機能とネットワーク型音声認識機能との双方を効果的に使用することで、音声認識の使い勝手や全体としての性能の向上を図ることができるという効果がある。
以下、本発明の実施の形態について図面を参照しながら説明する。なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組み合わせを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
図1は、本発明の実施形態のシステム構成を示すものである。
図1において、1は携帯端末、2は基地局である。携帯端末1は、基地局2を介して、公衆電話回線網(PSTN:Public
Switched Telephone Network)3及びネットワーク網4に接続可能とされている。ネットワーク網4は、IP(Internet
Protocol)ネットワーク網であり、例えばWAP(Wireless
Application Protocol)によりインターネット閲覧サービスを可能としている。
ネットワーク網4には、各種のコンテンツサーバ5が設けられていると共に、音声認識サーバ6が設けられる。音声認識サーバ6は、ネットワーク型音声認識機能を実現するものである。音声認識サーバ6には、多数の音響モデルを格納した音響モデルデータベース61と、大語彙の辞書(数万語)を格納した辞書データベース62が設けられている。
携帯端末1は、基地局2を介して電話回線網3に発呼して、固定電話や携帯電話との音声通話を行うことができる。また、携帯端末1は、基地局2を介してネットワーク網4と接続することで、ウェブコンテンツを表示させたり、メールの送受信をしたり等のサービスを受けることができる。
図2は、携帯端末1の外観構成を示すものである。この携帯端末1は、インターネットの通信機能、カメラ機能、GPS(Global
Positioning System)機能等を備えた携帯端末となっている。また、この携帯端末1では、組込型音声認識機能やその他の音声認識機能(分散型音声認識のクライアント機能など)が備えられている。また、この例では、携帯端末1は折り畳み自在の構造となっており、図2(A)は、携帯端末1の内側となる部分の各部の配置を示し、図2(B)は、外側となる各部の配置を示すものである。
図2(A)に示すように、携帯端末1の内側となる部分の下端には、マイクロホン11が配置される。携帯端末1の内側となる部分の上端には、スピーカ12が配置される。マイクロホン11及びスピーカ12は、電話使用時に送受話を行うものである。
また、携帯端末1の内側となる部分の上方には、液晶ディスプレイ13が配置される。液晶ディスプレイ13には、各種の文字や画像が表示される。すなわち、電話利用時には、液晶ディスプレイ13に、着信や送信の電話番号や住所録が表示される。
また、インターネットを利用時には、液晶ディスプレイ13に、インターネットのウェブ画面や、送受信メールが表示される。また、カメラ撮影時には、液晶ディスプレイ13がビューファインダとして用いられる他、撮影したカメラ画像が液晶ディスプレイ13に表示される。また、GPSナビゲーション時には、液晶ディスプレイ13に、地図画面が表示される。
携帯端末1の内側となる部分の下方には、テンキー(*キーや#キーを含む)14、カーソルキー15、決定キー16、発着信キー17a、17b等が配置される。テンキー14は、電話番号の入力、メールや電話帳作成時の文字入力等に用いられる。カーソルキー15は、液晶ディスプレイ13に表示されるカーソルを移動させて、各種の選択入力等を行うのに用いられる。決定キー16は、選択実行を行うのに用いられる。発着信キー17a、17は、電話回線での発着信を行うのに用いられる。
携帯端末1の外側には、図2(B)に示すように、カメラ部18が配置される。カメラ部18は、静止画やビデオ撮影に利用される他、二次元バーコードの入力等に利用される。
図3は、本発明の第1の実施形態の携帯端末1の主要部の内部構成を示すものである。図3において、主制御部21は、CPU(Central
Processing Unit)等からなり、携帯端末の全体の動作の制御を行っている。
プロラムメモリ22には、ブートプログラム、基本プログラム、インターネットの携帯ブラウザ、メーラ、カメラ制御、GPS制御、電子マネー制御等、各種のアプリケーションプログラムが保存されている。また、本発明の実施形態では、プロラムメモリ22に、組込型音声認識機能やその他の音声認識機能(分散型音声認識のクライアント機能など)を実現するための音声認識のためのプログラム50が実装されている。
メモリ23には、各種のプリセットデータ、電話帳データ、メールのデータ、電話履歴、位置履歴、行動履歴、写真情報等、各種のデータが記憶される。
大容量メモリ24は、フラッシュメモリ等からなり、GPSナビゲーションに使う地図情報等や動画情報等が記憶される。また、大容量メモリ24には、組込型音声認識機能のための音響モデルデータベース51と音声認識の辞書データベース52とが設けられている。組込型音声認識機能では、小語彙の辞書(利用頻度の高い単語やローカル単語などの数10〜1000語)及び数種類の音響モデルに限定されている。
操作部27は、ユーザからの入力操作が行われる。操作部27には、テンキー14や、カーソルキー15、決定キー16、発着信キー17a、17b等が含まれる。
近距離通信部28は、他の周辺機器との無線で接続してデータの送受信を行うものである。通信方式としては、例えば、Bluetoothが用いられる。
表示部29は、液晶ディスプレイ13からなり、表示部29は、各種の文字や画像の表示に用いられる。表示処理部30は、表示部29の表示制御を行っている。
音響処理部36は、入力音声信号や出力音声信号の処理を行っている。音響処理部36に対して、マイクロホン11及びスピーカ12が設けられる。
無線部33は、基地局との間で、電波の送受信を行うものである。通信方式としては、どのような通信方式を用いても良い。通信制御部34は、基地局との間で通信する信号の制御を行っている。
カメラ部18は、カメラ撮影を行うものである。カメラ部18には、レンズ等の光学系37と、CCD(Charge
Coupled Device)等のイメージセンサからなる撮像部38とが含まれる。カメラ部18に対して、イメージセンサの撮像信号を処理する映像信号処理部39が設けられる。
GPS機能部41は、複数の衛星からの電波を受信して、現在地を即位するものである。RFIDリーダ42は、電子マネー等を利用する場合に、近距離通信を行うものである。
上述のように、本発明の実施形態では、携帯端末1に、音声認識のためのプログラム50(組込型音声認識機能)が実装されている。また、ネットワーク網4には音声認識サーバ6(ネットワーク型音声認識機能)が設けられている。
本発明の実施形態では、組込型音声認識機能とネットワーク型音声認識機能とでは性質が異なっていることに着目し、組込型音声認識機能とネットワーク型音声認識機能との双方を効果的に使用して、音声認識の使い勝手や全体としての性能の向上を図るようにしている。
図4は、本発明の第1の実施形態の処理を示すフローチャートである。
本実施形態は、先ず、携帯端末1の組込型音声認識機能により音声認識を行い、認識結果が良好ならその認識結果を採用し、認識結果が良好でなければ、音声認識サーバ6に接続して、ネットワーク型音声認識機能で音声認識を行うようにしたものである。
図4において、アプリケーション側からの呼び出しにより、初期化処理が行われ(ステップS1)、マイクロホン11から取り込まれた音声波形に対して音響分析処理が行われる(ステップS2)。
より具体的には、入力された音声は、所定時間の時間窓により抽出された後、フーリエ変換やLPC分析により、対数パワースペクトル列に変換され、この対数パワースペクトルを更に直交変換をして、ケプストラムが求められて、特徴ベクトルが生成される。
そして、音響分析処理の結果に基づいて、組込型音声認識機能による認識処理が行われる(ステップS3)。組込型音声認識機能による認識処理では、携帯端末1に格納された音響モデルデータベース51及び辞書データベース52を用いて、特徴ベクトル列との音響的なマッチング処理が行われる。前述したように、組込型音声認識機能の音響モデルデータベース51や辞書データベース52では、小語彙の辞書(利用頻度の高い単語やローカル単語などの数10〜1000語)及び数種類の音響モデルに限定されている。
なお、音響モデルとは、認識対象の音素がそれぞれどのような周波数特性を持っているかを表したものである。音響モデルとしては、例えば隠れマルコフモデル(HMM:Hidden
Markov Model)が用いられている。言語モデルとは、音素の並び方に関する制約を表したものである。各単語の組み合わせについて、ある単語の組み合わせが起こる確率(言語尤度)と、その単語の組み合わせのもと観測された特徴ベクトルが得られるであろう確率(音響尤度)とが求められ、これが最大となるような単語の組み合わせが認識結果とされる。
認識処理が終了すると、音声認識結果の精度(認識スコア)が判定される(ステップS4)。
ここで、認識結果が良好な場合には、携帯端末1内の組込型音声認識機能での認識結果が採用され、認識結果に対する処理が行われ(ステップS5)、アプリケーションにリターンされる。
ステップS4で、認識結果が良好でない場合には、通信処理が行われ(ステップS6)、組込型音声認識処理で取得した音声認識処理情報(認識結果出力に利用した音響モデルの情報、組込型音声認識での認識結果)が音声データと共に、音声認識サーバ6に送られる。なお、音声データには音響分析処理による特徴ベクトルデータや、PCMデータ、符号化や圧縮された音声データを含む。
音声認識サーバ6では、携帯端末1から受信した音声認識処理情報を音声認識処理に入力し、ネットワーク型音声認識機能による音声認識処理を実行する(ステップS7)。なお、前述したように、ネットワーク型音声認識機能では、音響モデルデータベース61には、多数の音響モデルが蓄積され、辞書データベース62には、大語彙の辞書(数万語)が蓄積されている。音声認識サーバ6では、このように、多数の音響モデルと、大語彙の辞書を用いて音声認識が行われる。また、組込型音声認識処理で取得した音声認識処理情報を利用することで、辞書や音響モデルの絞り込みを行うことができ、処理時間を短縮できる。
音声認識サーバ6での音声認識が終了されたら、認識結果が携帯端末1に返される。携帯端末1では、音声認識サーバ6からの音声認識結果を受け取ると、音声認識サーバ6からのネットワーク型音声認識機能での認識結果により、認識結果に対する処理が行われ(ステップS8)、アプリケーションにリターンされる。
以上説明したように、この例では、ネットワーク型音声認識機能では、大語彙の辞書及び多数の音響モデルを有しているため、組込型音声認識機能に比べて、認識結果が良好な場合が多いという性質を利用して、先ず、携帯端末1の組込型音声認識機能により音声認識を行い、認識結果が良好ならその認識結果を採用し、認識結果が良好でなければ、音声認識サーバ6に接続して、ネットワーク型音声認識機能で音声認識を行うようにしている。この場合、組込型音声認識機能により音声認識が行えれば、音声認識サーバ6に接続する処理は不要であり、ネットワーク環境の影響を受けない。
図5は、本発明の第2の実施形態の処理を示すフローチャートである。
この例は、携帯端末1の組込型音声認識機能と、音声認識サーバ6によるネットワーク型音声認識機能とを同時並列的に行い、認識結果の良い方を用いるようにしたものである。
図5において、アプリケーション側からの呼び出しにより、初期化処理が行われ(ステップS101)、マイクロホン11から取り込まれた音声波形に対して音響分析処理が行われる(ステップS102)。
そして、音響分析処理の結果に基づいて、組込型音声認識機能による認識処理が行われる(ステップS103)。組込型音声認識機能による認識処理では、音響モデルデータベース51の音響モデルと、辞書データベース52の辞書による言語モデルと用いて、特徴ベクトル列との音響的なマッチング処理が行われる。
組込型音声認識機能の音響モデルデータベース51や辞書データベース52では、小語彙の辞書(利用頻度の高い単語やローカル単語などの数10〜1000語)及び数種類の音響モデルに限定されている。認識処理が終了すると、携帯端末1の組込型音声認識機能による音声認識結果の精度(認識スコア)が判定される(ステップS104)。
これと並行して、通信処理が行われ(ステップS105)、音声データと共に、音声認識サーバ6に送られる。音声認識サーバ6では、携帯端末1から受信した音声認識処理情報を音声認識処理に入力し、ネットワーク型音声認識機能による音声認識処理を実行する(ステップS106)。
ネットワーク型音声認識機能では、音響モデルデータベース61には、多数の音響モデルが蓄積され、辞書データベース62には、大語彙の辞書(数万語)が蓄積されている。音声認識サーバ6での音声認識が終了されたら、認識結果が携帯端末1に返される。そして、音声認識サーバ6によるネットワーク型音声認識機能による音声認識結果の精度(認識スコア)が判定される(ステップS107)。
主制御部21により、携帯端末1の組込型音声認識機能により音声認識結果の精度と、音声認識サーバ6によるネットワーク型音声認識機能による音声認識結果の精度とが比較され、認識結果が良好な方が認識結果として採用され(ステップS108)、アプリケーションにリターンされる。
ネットワーク型音声認識機能では、大語彙の辞書及び多数の音響モデルを有しているため、認識結果が良好な場合が多いが、大語彙の辞書であるため、かえって認識結果を誤る場合がある。この実施形態では、携帯端末1の組込型音声認識機能により音声認識と、音声認識サーバ6によるネットワーク型音声認識機能とを同時に並行して行い、認識結果が良好な方が認識結果として採用される。このため、認識結果を向上させることができる。
本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
なお、ソースとなら音声認識処理を行うプログラムは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体等のコンピュータ読み取り可能な記録媒体で提供される。また、ソースとなるプログラムは、コンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。
ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、ソースとなるプログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
本発明の第1の実施形態のシステム構成の説明に用いるブロック図である。 本発明の第1の実施形態の携帯端末の外観構成の説明に用いる正面図及び背面図である。 本発明の第1の実施形態の携帯端末の内部構成の説明に用いるブロック図である。 本発明の第1の実施形態の音声認識処理の説明に用いるフローチャートである。 本発明の第2の実施形態の音声認識処理の説明に用いるフローチャートである。
符号の説明
1:携帯端末
2:基地局
3:電話回線網
4:ネットワーク網
5:コンテンツサーバ
6:音声認識サーバ
21:主制御部
50:音声認識のプログラム
51:音響モデルデータベース
52:辞書データベース
61:音響モデルデータベース
62:辞書データベース

Claims (7)

  1. 機器内部に設けられた組込型音声認識機能と、
    ネットワーク上に設けられた音声認識サーバによるネットワーク型音声認識機能と、
    前記組込型音声認識機能による認識結果と、前記ネットワーク型音声認識機能による認識結果とを用いて音声認識を行う制御手段と、
    を備えることを特徴とする携帯端末の音声認識装置。
  2. 前記制御手段は、前記組込型音声認識機能による認識結果が良好でない場合に、前記ネットワーク型音声認識機能を用いることを特徴とする請求項1に記載の携帯端末の音声認識装置。
  3. 前記制御手段は、前記組込型音声認識機能と前記ネットワーク型音声認識機能と並列に認識処理を行い、認識結果が良好な方を用いることを特徴とする請求項1に記載の携帯端末の音声認識装置。
  4. 組込型音声認識機能による音声認識を行い、
    前記組込型音声認識機能による音声認識結果が良好かどうかを判定し、
    前記組込型音声認識機能による認識結果がでない場合に、ネットワーク型音声認識機能を用いて音声認識を行うことを特徴とする携帯端末の音声認識方法。
  5. 組込型音声認識機能とネットワーク型音声認識機能と並列に認識処理を行い、
    前記組込型音声認識機能による認識結果とネットワーク型音声認識機能による認識結果とを比較し、認識結果が良好な方を認識結果として採用する
    ことを特徴とする携帯端末の音声認識方法。
  6. コンピュータに、
    組込型音声認識機能による音声認識を行うステップと、
    前記組込型音声認識機能による音声認識結果が良好かどうかを判定するステップと、
    前記組込型音声認識機能による認識結果がでない場合に、ネットワーク型音声認識機能を用いて音声認識を行うステップと、
    を実行させるための携帯端末の音声認識プログラム。
  7. コンピュータに、
    組込型音声認識機能とネットワーク型音声認識機能と並列に認識処理を行うステップと、
    前記組込型音声認識機能による認識結果とネットワーク型音声認識機能による認識結果とを比較するステップと、
    認識結果が良好な方を認識結果として採用するステップと、
    を実行させるための携帯端末の音声認識プログラム。
JP2008085926A 2008-03-28 2008-03-28 携帯端末の音声認識装置、音声認識方法、音声認識プログラム Expired - Fee Related JP5283947B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008085926A JP5283947B2 (ja) 2008-03-28 2008-03-28 携帯端末の音声認識装置、音声認識方法、音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008085926A JP5283947B2 (ja) 2008-03-28 2008-03-28 携帯端末の音声認識装置、音声認識方法、音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2009237439A true JP2009237439A (ja) 2009-10-15
JP5283947B2 JP5283947B2 (ja) 2013-09-04

Family

ID=41251415

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008085926A Expired - Fee Related JP5283947B2 (ja) 2008-03-28 2008-03-28 携帯端末の音声認識装置、音声認識方法、音声認識プログラム

Country Status (1)

Country Link
JP (1) JP5283947B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013064777A (ja) * 2011-09-15 2013-04-11 Ntt Docomo Inc 端末装置、音声認識プログラム、音声認識方法および音声認識システム
JP2013534741A (ja) * 2010-06-02 2013-09-05 ナクソス ファイナンス エスエー 画像記録再生装置、及び画像記録再生方法
WO2014003329A1 (en) * 2012-06-28 2014-01-03 Lg Electronics Inc. Mobile terminal and method for recognizing voice thereof
JP2014134791A (ja) * 2012-12-31 2014-07-24 Samsung Electronics Co Ltd ディスプレイ装置及び制御方法
WO2014129033A1 (ja) * 2013-02-25 2014-08-28 三菱電機株式会社 音声認識システムおよび音声認識装置
US9263032B2 (en) 2013-10-24 2016-02-16 Honeywell International Inc. Voice-responsive building management system
US9626964B2 (en) 2013-11-27 2017-04-18 Sharp Kabushiki Kaisha Voice recognition terminal, server, method of controlling server, voice recognition system, non-transitory storage medium storing program for controlling voice recognition terminal, and non-transitory storage medium storing program for controlling server
KR102026479B1 (ko) * 2019-03-06 2019-09-30 주식회사 다이얼로그디자인에이전시 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템
EP3690876A1 (de) * 2019-01-30 2020-08-05 Siemens Healthcare GmbH System zur durchführung einer magnetresonanztomographie und verfahren zur steuerung eines mr scanners

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003295893A (ja) * 2002-04-01 2003-10-15 Omron Corp 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004012653A (ja) * 2002-06-05 2004-01-15 Matsushita Electric Ind Co Ltd 音声認識システム、音声認識クライアント、音声認識サーバ、音声認識クライアントプログラムおよび音声認識サーバプログラム
JP2006003696A (ja) * 2004-06-18 2006-01-05 Toyota Motor Corp 音声認識装置、音声認識方法、及び音声認識プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003295893A (ja) * 2002-04-01 2003-10-15 Omron Corp 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004012653A (ja) * 2002-06-05 2004-01-15 Matsushita Electric Ind Co Ltd 音声認識システム、音声認識クライアント、音声認識サーバ、音声認識クライアントプログラムおよび音声認識サーバプログラム
JP2006003696A (ja) * 2004-06-18 2006-01-05 Toyota Motor Corp 音声認識装置、音声認識方法、及び音声認識プログラム

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013534741A (ja) * 2010-06-02 2013-09-05 ナクソス ファイナンス エスエー 画像記録再生装置、及び画像記録再生方法
JP2013064777A (ja) * 2011-09-15 2013-04-11 Ntt Docomo Inc 端末装置、音声認識プログラム、音声認識方法および音声認識システム
US9147395B2 (en) 2012-06-28 2015-09-29 Lg Electronics Inc. Mobile terminal and method for recognizing voice thereof
JP2014010456A (ja) * 2012-06-28 2014-01-20 Lg Electronics Inc 移動端末機及びその音声認識方法
WO2014003329A1 (en) * 2012-06-28 2014-01-03 Lg Electronics Inc. Mobile terminal and method for recognizing voice thereof
JP2014134791A (ja) * 2012-12-31 2014-07-24 Samsung Electronics Co Ltd ディスプレイ装置及び制御方法
WO2014129033A1 (ja) * 2013-02-25 2014-08-28 三菱電機株式会社 音声認識システムおよび音声認識装置
CN105027198A (zh) * 2013-02-25 2015-11-04 三菱电机株式会社 语音识别系统以及语音识别装置
JP5921756B2 (ja) * 2013-02-25 2016-05-24 三菱電機株式会社 音声認識システムおよび音声認識装置
US9761228B2 (en) 2013-02-25 2017-09-12 Mitsubishi Electric Corporation Voice recognition system and voice recognition device
US9263032B2 (en) 2013-10-24 2016-02-16 Honeywell International Inc. Voice-responsive building management system
US9626964B2 (en) 2013-11-27 2017-04-18 Sharp Kabushiki Kaisha Voice recognition terminal, server, method of controlling server, voice recognition system, non-transitory storage medium storing program for controlling voice recognition terminal, and non-transitory storage medium storing program for controlling server
EP3690876A1 (de) * 2019-01-30 2020-08-05 Siemens Healthcare GmbH System zur durchführung einer magnetresonanztomographie und verfahren zur steuerung eines mr scanners
US11417329B2 (en) 2019-01-30 2022-08-16 Siemens Healthcare Gmbh System for performing a magnetic resonance tomography and method for controlling an MR scanner
KR102026479B1 (ko) * 2019-03-06 2019-09-30 주식회사 다이얼로그디자인에이전시 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템

Also Published As

Publication number Publication date
JP5283947B2 (ja) 2013-09-04

Similar Documents

Publication Publication Date Title
JP5283947B2 (ja) 携帯端末の音声認識装置、音声認識方法、音声認識プログラム
US10079014B2 (en) Name recognition system
CN108197572B (zh) 一种唇语识别方法和移动终端
EP2210214B1 (en) Automatic identifying
US9148741B2 (en) Action generation based on voice data
KR101696555B1 (ko) 영상 또는 지리 정보에서 음성 인식을 통한 텍스트 위치 탐색 시스템 및 그 방법
CN107205097B (zh) 移动终端查找方法、装置以及计算机可读存储介质
JP2013047809A (ja) 移動通信装置の音声語彙を自動的に拡張するための方法及び装置
US20070233482A1 (en) Method for providing an electronic dictionary in wireless terminal and wireless terminal implementing the same
US8374872B2 (en) Dynamic update of grammar for interactive voice response
US20060190260A1 (en) Selecting an order of elements for a speech synthesis
CN106550132A (zh) 一种移动终端及其控制方法
JP2007018166A (ja) 情報検索装置、情報検索システム、情報検索方法及び情報検索プログラム
JP2007516655A (ja) キャッシュ機能を有する分散音声認識システムおよび方法
US20090275316A1 (en) Minimal Distraction Capture of Spoken Contact Information
JP2011205238A (ja) 通信端末及び情報検索方法
CN110502126B (zh) 输入方法及电子设备
US8750840B2 (en) Directory assistance information via executable script
JP2007199908A (ja) 顔文字入力装置
CN113726952B (zh) 通话过程中的同声传译方法及装置、电子设备、存储介质
JP4814753B2 (ja) データ情報と音声情報とを結びつけるための方法及びシステム
KR100703383B1 (ko) 휴대용 단말기의 전자사전서비스 방법
KR20070060617A (ko) 카메라가 장착된 휴대 단말기에서의 기능 실행 방법 및 그장치
KR20070029440A (ko) 휴대단말기를 이용한 정보 검색 방법
JP2009244432A (ja) 携帯端末の音声認識装置、方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130529

R150 Certificate of patent or registration of utility model

Ref document number: 5283947

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees