JP4554285B2 - 音声認識システム、音声認識方法、及び音声認識プログラム - Google Patents

音声認識システム、音声認識方法、及び音声認識プログラム Download PDF

Info

Publication number
JP4554285B2
JP4554285B2 JP2004180837A JP2004180837A JP4554285B2 JP 4554285 B2 JP4554285 B2 JP 4554285B2 JP 2004180837 A JP2004180837 A JP 2004180837A JP 2004180837 A JP2004180837 A JP 2004180837A JP 4554285 B2 JP4554285 B2 JP 4554285B2
Authority
JP
Japan
Prior art keywords
voice
server
information
voice recognition
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004180837A
Other languages
English (en)
Other versions
JP2006003696A (ja
Inventor
見並  一明
亨 中西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Toyota InfoTechnology Center Co Ltd
Original Assignee
Toyota Motor Corp
Toyota InfoTechnology Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp, Toyota InfoTechnology Center Co Ltd filed Critical Toyota Motor Corp
Priority to JP2004180837A priority Critical patent/JP4554285B2/ja
Publication of JP2006003696A publication Critical patent/JP2006003696A/ja
Application granted granted Critical
Publication of JP4554285B2 publication Critical patent/JP4554285B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は、音声認識技術に関する。
従来から、ユーザが発した音声を解析して言語情報を抽出する、いわゆる音声認識技術が多用されている。このような音声認識技術は、一般に音声認識に用いる言語辞書の語彙量、あるいは音声から抽出した音声特徴情報から言語を認識する認識エンジンの性能などによって、音声認識結果の精度が左右されていた。そして、十分な語彙量の言語辞書を備えた高性能な認識エンジンは、一般に高性能なコンピュータと大容量の記憶手段とを用いることで実現していた。
そこで、上述のような音声認識技術を車載用や携帯用の情報処理端末で実現するには、従来からユーザが用いる情報処理端末と、音声認識処理を行うサーバとを分散して、小型の端末において高性能な音声認識技術を提供することが鑑みられていた。また、音声認識処理を情報処理端末側とサーバ側とで実行可能にして、ユーザの指示に応じてどちらで音声認識処理を行うかを切り替える技術もあった。
なお、本発明に関連する、音声認識に関連する技術(例えば、特許文献1から3参照。)が開示されている。
特開2002−182896号公報 特開2002−318132号公報 特開2003−44091号公報
しかしながら、上述のような情報処理端末とサーバによる分散型の音声認識処理は、例えば以下のような問題があった。
すなわち、従来の分散型の音声認識処理では、情報処理端末とサーバとを接続するネットワークの通信状態を考慮しているものはなかった。このため、サーバ側で音声認識処理を行う場合に、ネットワークの通信状態が悪化して音声認識に必要な情報の通信が困難になると、正確な音声認識処理を迅速に行うことが困難であった。
本発明は上記事項に鑑みて為されたものである。すなわち、本発明は、音声を取得する情報処理端末と音声認識を行う装置とをネットワークを介して接続して音声認識処理を行う場合に、ネットワークの通信状態を考慮した技術を提供することを解決すべき課題とする。
本発明は前記課題を解決するために、以下の手段を採用した。
すなわち、本発明は、ユーザが発した音声を取得し、音声を言語情報として認識するために必要な音声情報を抽出し圧縮した音声特徴情報を生成し、音声特徴情報に基づいて言語情報を認識する音声認識処理を行うサーバに、当該音声特徴情報を送信し、サーバから音声認識結果を受信し、音声認識結果が所定時間受信できない場合に、音声特徴情報を再送信し、再送信を所定回数実行し、かつサーバから音声認識結果が受信できない場合に、音声認識処理を行うことを特徴とする。
本発明では、音声認識処理をサーバ側で行う場合に、その音声認識結果の受信状況に応
じて音声認識に用いる特徴情報を再送信する。また、本発明では、サーバ側の応答がない場合には、サーバ側ではなく装置自身で音声認識処理を行う。
従って、本発明によれば、音声を取得する情報処理端末と音声認識を行う装置とをネットワークを介して接続して音声認識処理を行う場合に、ネットワークの通信状態を考慮した技術を提供することができる。
また、本発明は、音声認識結果に対応するユーザからのコンテンツに対する処理の要求を、アクション要求情報としてサーバに送信し、アクション要求情報に対するサーバの応答が所定時間受信できない場合に、当該アクション要求情報を再送信することを特徴とする。
本発明では、サーバ側が音声認識結果に基づく処理を行う場合に、その処理の要求をサーバからの応答があるまで再送信する。
従って、本発明によれば、ユーザの操作なしに、迅速に処理の要求をサーバに送信することができる。
また、本発明は、音声特徴情報を所定回数送信しサーバから音声認識結果が受信できない場合、及びアクション要求情報を所定回数送信し応答が受信できない場合の少なくともいずれかの場合には、再度音声取得手段にユーザの音声を取得するように促すことを特徴とする。
本発明では、音声特徴情報あるいはアクション要求情報を再送信したにもかかわらず、サーバ側の応答がない場合には、音声の取得処理から再度行うために、ユーザに音声
を発するように要求する。
従って、本発明によれば、ネットワークを介した音声認識処理において、正確な音声認識処理を実行することができる。
なお、本発明は、以上の何れかの機能を実現させるプログラムであってもよい。また、本発明は、そのようなプログラムをコンピュータが読み取り可能な記憶媒体に記録してもよい。また、本発明は、以上の何れかの機能を実現する装置であってもよい。さらに、本発明は、以上の何れかの機能を実現する通信端末であってもよい。
本発明によれば、音声を取得する情報処理端末と音声認識を行う装置とをネットワークを介して接続して音声認識処理を行う場合に、ネットワークの通信状態を考慮した技術を提供することができる。
以下、図面を参照して、本発明の好適な実施の形態に係る音声認識装置の機能を備えた情報処理端末の一例(以下、情報処理端末100という)を、図面に基づいて説明する。本実施の形態において、情報処理端末100は、コンピュータにプログラムを実行させることによって、本発明に係る音声認識方法を実行する。
〈装置構成〉
図1は、情報処理端末100、及び情報処理端末100の要求に基づいて音声認識処理を行うサーバ(以下DSRサーバ200という)とからなるシステムの構成図である。本シ
ステムは、クライアントの情報処理端末100とDSRサーバ200とがネットワーク30
0を介して接続している。
情報処理端末100は、音声入力手段101,出力手段102,DSRクライアントモジ
ュール103,ローカル音声認識モジュール104,音声認識エンジン105を備える。
音声入力手段101は、一般のマイクなどの音声入力装置が考えられる。出力手段102は、例えば液晶式ディスプレイなどの画像出力装置が考えられる。
DSRクライアントモジュール103は、情報処理端末100の処理能力にとらわれるこ
となく音声認識処理を行うために、サーバ側で音声認識処理を行う、いわゆる分散型音声認識(Distributed Speech Recognition:以下DSRとする)の端末側(クライアント)の
機能構成を実現する。DSRクライアントモジュール103は、本発明の音声認識装置10
0の音声取得手段,特徴情報抽出手段,送信手段,受信手段,再送指示手段に相当する機能を備える。
すなわち、DSRクライアントモジュール103は、音声取得手段の機能として、音声入
力手段101を介してユーザが発した音声を取得する。また、DSRクライアントモジュー
ル103は、特徴情報抽出手段の機能として、音声を言語情報として認識するために必要な音声情報を抽出し圧縮した音声特徴情報を生成する。本実施の形態において、音声特徴情報とは、人間の発した言語の音声情報から、その言語の内容を特定することができる音声情報のみを抽出して圧縮したものである。
また、DSRクライアントモジュール103は、送信手段の機能として、音声特徴情報に
基づいて言語情報を認識する音声認識処理を行うDSRサーバ200に、音声特徴情報を送
信する。DSRクライアントモジュール103は、受信手段の機能として、DSRサーバ200から音声認識結果を受信する。
また、DSRクライアントモジュール103は、再送指示手段の機能として、音声認識結
果が所定時間受信できない場合に、音声特徴情報を再送信する。また、DSRクライアント
モジュール103は、アクション要求情報に対するDSRサーバ200の応答が所定時間受
信できない場合に、アクション要求情報を再送信する。
また、DSRクライアントモジュール103は、アクション要求手段の機能として、音声
認識結果に対応したユーザからのコンテンツに対する処理の要求(例えば、カラオケコンテンツに対する楽曲の配信要求など)を、アクション要求情報としてDSRサーバ200に
送信する。
そして、DSRクライアントモジュール103は、音声再取得指示手段の機能として、音
声特徴情報を所定回数送信したときに、DSRサーバ200から音声認識結果が受信できな
い場合には、ユーザの音声を再度取得するように促す。また、DSRクライアントモジュー
ル103は、アクション要求情報を所定回数送信したときに、DSRサーバ200から応答
が受信できない場合には、ユーザの音声を再度取得するように促す。
ローカル音声認識モジュール104は、音声認識エンジン105を有する。音声認識エンジン105は、DSRサーバ200による音声認識処理がネットワーク300の通信状態
によって困難であると判断した場合に音声認識処理を行う。音声認識エンジン105が音声認識処理を行う場合とは、例えば音声特徴情報の再送信を所定回数指示し、かつDSRサ
ーバ200から音声認識結果が受信できない場合が考えられる。
DSRサーバ200は、サーバモジュール201,DSRサーバモジュール202,音声認識エンジン203を備える。
サーバモジュール201は、ネットワーク300を介して情報処理端末100とHTTP(HyperText Transfer Protocol)ベースの1回の要求に対して1回の応答を行う、いわゆ
るセッションレス型の通信方式を行い、DSRサーバモジュール202とはTCP/IP(Transmission Control Protocol/Internet Protocol)ソケット利用のWebへの要求に対して1回
のセッションを維持する、いわゆるセッション持続型の通信を行うための処理を行う。
DSRサーバモジュール202は、音声認識エンジン203を有する。この音声認識エン
ジン203は、情報処理端末100から送信された音声特徴情報に基づいて音声認識処理を行う。
〈音声認識処理の概要〉
次に、本実施の形態に係るシステムによる、分散型音声認識処理について説明する。
図2は、本システムによる、DSRサーバ200側による音声認識処理(センタ音声認識
)と情報処理端末100側による音声認識処理(ローカル音声認識)との区分を説明する図である。本システムは、カラオケコンテンツなどのネットワーク型コンテンツに対する情報の要求を情報処理端末100で実行する場合には、基本的にはセンタ音声認識によって処理を行う。そして、この場合には、本システムは、通信状況が不良のときに自動的にローカル音声認識に切り替える。
また、本システムは、ユーザの音声を認識し、その認識した音声の指示に従いオーディオ操作やエアコン操作する場合などのように車内で完結する純粋制御系ローカルコンテンツを情報処理端末100が実行する場合には、情報処理端末100内の音声認識エンジン105によって音声認識処理を行い、必要に応じてネットワーク型コンテンツに移行したときには、センタ音声認識によって処理する。
〈音声認識処理の説明〉
図3は、情報処理端末100とDSRサーバ200とによるシステムによる、音声認識処
理を説明するフローチャートである。
情報処理端末100は、ユーザが音声を発する(発話)すると、音声を取得する(S101)。このとき、情報処理端末100は、この音声に対する音声認識処理をクライアント側とセンタ側とのどちらで行うかを判断する。
ローカル音声認識モジュール104が音声認識処理を行う場合には、DSRクライアント
モジュール103は、取得した音声から言語を認識可能な音声情報を抽出して圧縮した音声特徴情報を抽出する。そして、DSRクライアントモジュール103は、ローカル音声認
識モジュール104に音声特徴情報を送信する(S102)。音声特徴情報を受信したローカル音声認識モジュール104は、この音声特徴情報から言語情報を抽出する音声認識処理(例えば、「カラオケ配信」という音声情報から、「からおけはいしん」という音声の内容を特定可能な特徴情報を抽出する処理)を行う(S103)。音声認識処理後、ローカル音声認識モジュール104は、S111の処理を行う。
DSRサーバ200のDSRサーバモジュール202が有する音声認識エンジン203が音声認識処理を行う場合には、DSRクライアントモジュール103は、取得した音声から音声
特徴情報を抽出する。
DSRクライアントモジュール103は、ネットワーク300を介して音声特徴情報をDSRサーバ200に送信する。そして、DSRクライアントモジュール103は、DSRサーバ200への音声特徴情報の送信が成功したか否かを判断する(S104)。このとき、DSRク
ライアントモジュール103は、音声特徴情報の送信が成功したか否かの判断を、送信された音声特徴情報に対する応答がDSRサーバ200からあるか否かに基づいて判断する。
音声特徴情報の送信が成功した場合には、DSRサーバ200は、音声認識エンジン20
3によって音声認識処理を行う(S105)。S105の処理後、DSRクライアントモジ
ュール103は、S111の処理に移行する。
音声特徴情報の送信が失敗した場合には、DSRクライアントモジュール103は、音声
認識モジュール104に音声認識エンジン203(代替グラマ)があるか否かを判断する(S106)。代替グラマがある場合には、DSRクライアントモジュール103は、代替
グラマをセット(音声認識モジュール104を使用可能状態にする)する(S107)。
DSRクライアントモジュール103は、DSRサーバ200から応答がない場合には、一定の回数送信に失敗したか否かを判断する(S108)。そして、一定の失敗回数に達していない場合は、DSRクライアントモジュール103は、音声特徴情報の送信(自動再送信
)を繰り返す(S109)。
そして、DSRクライアントモジュール103は、所定の回数音声特徴情報の送信を繰り
返しても応答がない場合には、音声特徴情報の送信が失敗したものと判断して、ユーザに音声の再送信を要求する再送信ボタンを表示する(S110)。再送信ボタンの表示後、DSRクライアントモジュール103は、S104の処理に戻る。
DSRクライアントモジュール103は、図3に示す表に従って、ローカルとサーバとに
おける音声認識の良否を判断する(S111)。この表によれば、ローカルとサーバとの双方で音声認識が成功した場合には、DSRクライアントモジュール103は、その応答に
信頼度を示す情報が付されていれば、信頼度の高い方の結果を用いる。信頼度とは、例えば、サーバから情報処理端末へ10段階の評価値を引き渡せばよい。また、ローカルで音声認識が成功してサーバで音声認識が失敗した場合には、DSRクライアントモジュール1
03は、ローカルでの音声認識結果を用いる。また、サーバで音声認識が成功し、ローカルでの音声認識が失敗した場合には、DSRクライアントモジュール103は、サーバの音
声認識結果を用いる。そして、ローカルとサーバとの双方で音声認識が失敗した場合には、DSRクライアントモジュール103は、音声認識失敗と判断する。
DSRクライアントモジュール103は、S111の処理後、音声認識結果がオーディオ
やエアコンの操作などのローカルコンテンツに対する指示である場合には、ローカルコンテンツの表示を行う(S112)。
DSRクライアントモジュール103は、S111の処理後、音声認識結果がカラオケコ
ンテンツなどのネットワーク型コンテンツへの指示である場合には、その認識結果に対するネットワーク型コンテンツへの動作(アクション)を要求する情報(例えば、カラオケコンテンツに対する楽曲の配信要求など)を取得に成功したか否かを判断する(S113)。
アクション情報の取得に成功した場合には、DSRクライアントモジュール103は、ネ
ットワーク型コンテンツのページを受信して出力手段102に表示が成功したか否かを判断する(S114)。ページの表示に失敗した場合には、DSRクライアントモジュール1
03は、出力手段102に再取得ボタンを表示して、ユーザにページの再取得を要求する(S115)。そして、ユーザが再取得ボタンを不図示のポインティングデバイスで押下した場合に、DSRクライアントモジュール103は、制御をS114に戻す。また、ペー
ジの表示に成功した場合には、DSRクライアントモジュール103は、ネットワーク型コ
ンテンツのWebページが表示完了であるとして、本システムの処理を終了する(S116)。
S113において、アクション情報の取得に失敗した場合には、DSRクライアントモジ
ュール103は、そのアクション情報の取得を所定回数繰り返す。そして、DSRクライア
ントモジュール103は、一定回数のアクション情報の取得の失敗を繰り返したか否かを判断する(S117)。失敗した場合には、DSRクライアントモジュール103は、アク
ション情報の取得要求を自動的に再送信する(S118)。
一定回数の再送信後も、Webページの取得(アクション)に失敗した場合には、DSR
クライアントモジュール103は、出力手段102に再取得ボタンを表示して、ユーザにページの再取得を促す(S119)。
〈システムの処理例1〉
次に、本システムによる、音声認識処理の流れを場合分けした上で例示して説明する。第1の処理例は、情報処理端末100とDSRサーバ200との通信状態が良好な場合の流
れを説明する。
図4は、本システムによる、第1の処理例を説明する流れ図である。
情報処理端末100(以下、DSRクライアント100)は、ユーザの発話(音声)を受
け付ける。DSRクライアント100は、音声から音声特徴情報を抽出する。そして、DSRクライアント100は、音声特徴情報をDSRサーバ200(センタ音声認識)に送信する。
この間、DSRクライアント100のディスプレイ(不図示)には、音声認識中であること
を示す「認識中」などの文字が表示される。
DSRサーバ200は、音声特徴情報から音声認識処理を行って音声認識結果を出力する
。DSRサーバ200は、音声認識結果をDSRクライアント100に送信する。
音声認識結果を受信したDSRクライアント100は、その音声認識結果に基づいたネッ
トワーク型コンテンツのページに対するアクション情報の取得要求を、DSRサーバ200
を介してコンテンツサーバ400に送信する。この間DSRクライアント100のディスプ
レイには、アクション情報に基づいたコンテンツ取得処理中であることを示す「検索中」などの文字が表示される。
コンテンツサーバ400は、アクション情報の取得要求に対応するアクション情報をDSRクライアント100に送信する。
このようにすると、本システムの第1の処理例では、DSRクライアント100が音声認
識処理に基づいたコンテンツの利用が可能になる。
〈システムの処理例2〉
第2の処理例は、本システムの音声認識処理において、DSRクライアント100とDSRサーバ200との通信状態が不良であるために、センタ音声認識ができない場合の処理を説明する。
図5は、本システムによる、第2の処理例を説明する流れ図である。
DSRクライアント100は、ユーザの音声から抽出した音声特徴情報をDSRサーバ200に送信したものの、送信時の応答にタイムアウトが発生した場合に、再送信を行う。再送信後、さらにタイムアウトがある場合には、DSRクライアント100は、ローカルの音声
認識エンジン105(代替グラマ)を用いて音声認識を行う。この間、DSRクライアント
100のディスプレイ(不図示)には、音声認識中であることを示す「認識中」などの文字が表示されたのち、代替グラマによる音声認識を行っていることを示す、「データ再送信&再認識中」の文字が表示される。
音声認識エンジン105による音声認識処理終了後、DSRクライアント100は、音声
認識結果に基づいたアクション情報の取得要求をコンテンツサーバ400に送信して、コンテンツサーバ400からアクション情報を取得する。この間DSRクライアント100の
ディスプレイには、アクション情報に基づいたコンテンツ取得処理中であることを示す「検索中」などの文字が表示される。
このようにすると、本システムの第2の処理例では、DSRクライアント100とDSRサーバ200との通信状態が不良であるためにセンタ音声認識が不可能であっても、ローカルの音声認識エンジン105によって音声認識処理が可能になる。従って、本システムの第2の処理例によれば、分散型音声認識処理において、通信状態に左右されることなく音声認識処理を行うことができる。
〈システムの処理例3〉
第3の処理例は、第2の処理例と比較して、音声特徴情報送信時の通信状態が不良であり、かつアクション情報の取得要求時の通信状態も不良であるためにセンタ音声認識を用いた処理が不可能な場合の処理例を示す。
図6は、本システムの第3の処理例を説明する流れ図である。
DSRクライアント100は、音声特徴情報の送信時にタイムアウトが発生して、ローカ
ルの音声認識エンジン105によって音声認識処理を行う。この間、DSRクライアント1
00のディスプレイ(不図示)には、音声認識中であることを示す「認識中」などの文字が表示されたのち、代替グラマによる音声認識を行っていることを示す、「データ再送信&再認識中」の文字が表示される。その後、DSRクライアント100は、ローカルの音声認識エンジン105の音声認識結果に基づいたアクション情報の取得要求をコンテンツサーバ400に送信するものの、タイムアウトが発生した場合には、一定の回数再送信を行う。第3の処理例では、三回目の再送信でコンテンツサーバ400に送信が完了している。この間DSRクライアント100のディスプレイには、アクション情報に基づいたコンテン
ツ取得処理中であることを示す「検索中」や再送時を示す「再検索中」などの文字が表示される。
このようにすると、第3の処理例では、コンテンツサーバ400へのアクション情報の取得要求時に通信状態が悪化した場合であっても、DSRクライアント100が再送信を行
うため、ユーザに負担をかけることなくコンテンツの利用が可能になる。
〈システムの処理例4〉
第4の処理例では、第3の処理例と比較して、アクション情報の取得要求時の再送信を一定回数繰り返したものの、タイムアウトが発生した場合を示す。
図7は、本システムの第4の処理例を説明する流れ図である。
第4の処理例では、アクション情報の取得要求にタイムアウトが発生して、DSRクライ
アント100が5回再送信を繰り返したものの、コンテンツサーバ400側からの応答がない場合には、再送ボタンを生成してユーザに再送信を促す。
〈システムの処理例5〉
第5の処理例では、アクション情報の取得要求時に一定の回数再送信を繰り返した後で、再送ボタンによって新たなセンタ音声認識とアクション情報の取得要求とを行う場合を示す。
図8は、本システムの第5の処理例を説明する流れ図である。
第5の処理例では、DSRクライアント100最初の発話から抽出した音声特徴情報をDSRサーバ200に送信するものの、DSRサーバ200との通信がタイムアウトとなる。その
ため、DSRクライアント100は、ローカルの音声認識エンジン105によって音声認識
処理を行う。この間、DSRクライアント100のディスプレイ(不図示)には、音声認識
中であることを示す「認識中」などの文字が表示されたのち、代替グラマによる音声認識を行っていることを示す、「データ再送信&再認識中」の文字が表示される。その後、DSRクライアント100は、ローカルの音声認識エンジン105の音声認識結果に基づいたアクション情報の取得要求を送信するものの、DSRサーバ200との通信がタイムアウトと
なる。この間DSRクライアント100のディスプレイには、アクション情報に基づいたコ
ンテンツ取得処理中であることを示す「検索中」や再送時を示す「再検索中」などの文字が表示される。DSRクライアント100は、アクション情報の取得要求の再送信を一定回
数繰り返した後、ユーザの音声の再送信を促す再送ボタンを表示して、音声特徴情報の再送信を促す。
その後、DSRクライアント100は、DSRサーバ200との通信をするためのネットワークの状態が回復した場合には、再送ボタンを消去して、ユーザに新しい発話による音声認識処理を行うことを促す。ユーザは、再送ボタンが消去されたことで、新しい発話を行う。
このようにすると、第5の処理例では、ネットワークの状態によって、音声特徴情報及びアクション情報の取得要求の送信が不可能な場合であっても、ネットワークの状態が回復したことに合わせて、新たな音声認識処理を実行する。従って、第5の処理例によれば、ネットワークの状態に合わせて、即座に音声認識処理を実行することができる。また、上記第1から第5の処理例において、処理の経過を示す「認識中」「再認識中」「検索中」「再検索中」の文字をディスプレイに表示することにより、DSRクライアント100が
どのような処理を行っているかをユーザに対して通知することができる。従って、DSRク
ライアント100は、ユーザに対して安心感をもたらすことができる。
情報処理端末、及びDSRサーバとからなるシステムの構成図である。 本システムによる、DSRサーバ側による音声認識処理と情報処理端末側による音声認識処理との区分を説明する図である。 情報処理端末とDSRサーバとによるシステムによる、音声認識処理を説明するフローチャートである。 本システムによる、第1の処理例を説明する流れ図である。 本システムによる、第2の処理例を説明する流れ図である。 本システムの第3の処理例を説明する流れ図である。 本システムの第4の処理例を説明する流れ図である。 本システムの第5の処理例を説明する流れ図である。
符号の説明
100 DSRクライアント(情報処理端末)
101 音声入力手段
102 出力手段
103 DSRクライアントモジュール
104 ローカル音声認識モジュール
105 音声認識エンジン
200 DSRサーバ
201 サーバモジュール
202 DSRサーバモジュール
203 音声認識エンジン
300 ネットワーク
400 コンテンツサーバ

Claims (9)

  1. 情報処理端末、及び前記情報処理端末の要求に基づいて音声認識処理とネットワーク型コンテンツの配信処理を行うサーバとからなる音声認識システムにおいて、
    前記情報処理端末が、
    ユーザが発した音声を取得する音声取得手段と、
    前記音声から、当該音声を言語情報として認識するために必要な音声情報を抽出し圧縮した音声特徴情報を生成する特徴情報抽出手段と、
    前記音声特徴情報に基づいて言語情報を認識する音声認識処理を行う前記サーバに、当該音声特徴情報を送信する送信手段と、
    前記サーバから音声認識結果を受信する受信手段と、
    前記受信手段で取得した音声認識結果に対応するネットワーク型コンテンツの配信要求を、アクション要求情報として前記送信手段を介して前記サーバに送信するアクション要求手段と、
    前記音声認識結果が所定時間受信できない場合に、前記音声特徴情報の再送信を前記送信手段に指示する再送指示手段と、
    前記再送指示手段による再送信を所定回数指示し、かつサーバから音声認識結果が受信できない場合に、情報処理端末自身に搭載されている音声認識エンジンを用いて音声認識処理を行う音声認識手段と、
    を備え、
    前記アクション要求手段は、前記サーバから音声認識結果が受信できなかった場合に、前記音声認識手段で取得した音声認識結果に対応するネットワーク型コンテンツの配信要求を、アクション要求情報として前記送信手段を介して前記サーバに送信する
    ことを特徴とする音声認識システム。
  2. 前記音声認識手段は、前記再送指示手段による再送信を所定回数指示し、かつサーバから音声認識結果が受信できなかった場合に、前記サーバによる音声認識処理と並行して、情報処理端末自身に搭載されている音声認識エンジンを用いた音声認識処理を行い、
    前記音声認識結果には、その信頼度を示す情報が付されており、
    前記サーバと前記情報処理端末自身に搭載されている音声認識エンジンの両方から音声認識結果が取得された場合に、前記アクション要求手段は、信頼度のより高い方の音声認識結果を用いる
    請求項1に記載の音声認識システム。
  3. 前記情報処理端末が、
    前記音声特徴情報を所定回数送信しサーバから前記音声認識結果が受信できない場合、及び前記アクション要求情報を所定回数送信し前記応答が受信できない場合の少なくともいずれかの場合には、再度音声取得手段にユーザの音声を取得するように促す指示を行う音声再取得指示手段をさらに備える、
    請求項2に記載の音声認識システム。
  4. 情報処理端末、及び前記情報処理端末の要求に基づいて音声認識処理とネットワーク型コンテンツの配信処理を行うサーバとからなる音声認識システムにおいて、
    前記情報処理端末が、
    ユーザが発した音声を取得する音声取得ステップと、
    前記音声から、当該音声を言語情報として認識するために必要な音声情報を抽出し圧縮した音声特徴情報を生成する特徴情報抽出ステップと、
    前記音声特徴情報に基づいて言語情報を認識する音声認識処理を行う前記サーバに、当該音声特徴情報を送信する送信ステップと、
    前記サーバから音声認識結果を受信する受信ステップと、
    前記受信ステップで取得した音声認識結果に対応するネットワーク型コンテンツの配信要求を、アクション要求情報として前記サーバに送信するアクション要求ステップと、
    前記音声認識結果が所定時間受信できない場合に、前記音声特徴情報を再送信する再送ステップと、
    前記再送信を所定回数実行し、かつサーバから音声認識結果が受信できない場合に、情報処理端末自身に搭載されている音声認識エンジンを用いて音声認識処理を行う音声認識ステップと、
    を実行する音声認識方法であって、
    前記アクション要求ステップでは、前記サーバから音声認識結果が受信できなかった場合に、前記音声認識ステップで取得した音声認識結果に対応するネットワーク型コンテンツの配信要求を、アクション要求情報として前記サーバに送信する
    音声認識方法。
  5. 前記音声認識ステップでは、前記再送信を所定回数実行し、かつサーバから音声認識結果が受信できない場合に、前記サーバによる音声認識処理と並行して、情報処理端末自身に搭載されている音声認識エンジンを用いた音声認識処理を行い、
    前記音声認識結果には、その信頼度を示す情報が付されており、
    前記サーバと前記情報処理端末自身に搭載されている音声認識エンジンの両方から音声認識結果が取得された場合に、前記アクション要求ステップでは、信頼度のより高い方の音声認識結果が用いられる
    請求項4に記載の音声認識方法。
  6. 前記情報処理端末が、
    前記音声特徴情報を所定回数送信しサーバから前記音声認識結果が受信できない場合、及び前記アクション要求情報を所定回数送信し前記応答が受信できない場合の少なくともいずれかの場合に、再度ユーザの音声を取得するステップをさらに実行する、請求項5に記載の音声認識方法。
  7. 情報処理端末、及び前記情報処理端末の要求に基づいて音声認識処理とネットワーク型コンテンツの配信処理を行うサーバとからなる音声認識システムにおいて、
    前記情報処理端末に、
    ユーザが発した音声を取得する音声取得ステップと、
    前記音声から、当該音声を言語情報として認識するために必要な音声情報を抽出し圧縮した音声特徴情報を生成する特徴情報抽出ステップと、
    前記音声特徴情報に基づいて言語情報を認識する音声認識処理を行う前記サーバに、当該音声特徴情報を送信する送信ステップと、
    前記サーバから音声認識結果を受信する受信ステップと、
    前記受信ステップで取得した音声認識結果に対応するネットワーク型コンテンツの配信要求を、アクション要求情報として前記サーバに送信するアクション要求ステップと、
    前記音声認識結果が所定時間受信できない場合に、前記音声特徴情報を再送信する再送ステップと、
    前記再送信を所定回数実行し、かつサーバから音声認識結果が受信できない場合に、情報処理端末自身に搭載されている音声認識エンジンを用いて音声認識処理を行う音声認識ステップと、
    を実行させる音声認識プログラムであって、
    前記アクション要求ステップでは、前記サーバから音声認識結果が受信できなかった場合に、前記音声認識ステップで取得した音声認識結果に対応するネットワーク型コンテンツの配信要求を、アクション要求情報として前記サーバに送信する
    音声認識プログラム。
  8. 前記音声認識ステップでは、前記再送信を所定回数実行し、かつサーバから音声認識結果が受信できない場合に、前記サーバによる音声認識処理と並行して、情報処理端末自身に搭載されている音声認識エンジンを用いた音声認識処理を行い、
    前記音声認識結果には、その信頼度を示す情報が付されており、
    前記サーバと前記情報処理端末自身に搭載されている音声認識エンジンの両方から音声認識結果が取得された場合に、前記アクション要求ステップでは、信頼度のより高い方の音声認識結果が用いられる
    請求項7に記載の音声認識プログラム。
  9. 前記情報処理端末に、
    前記音声特徴情報を所定回数送信しサーバから前記音声認識結果が受信できない場合、及び前記アクション要求情報を所定回数送信し前記応答が受信できない場合の少なくともいずれかの場合に、再度ユーザの音声を取得するステップをさらに実行させる、請求項8に記載の音声認識プログラム。
JP2004180837A 2004-06-18 2004-06-18 音声認識システム、音声認識方法、及び音声認識プログラム Expired - Fee Related JP4554285B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004180837A JP4554285B2 (ja) 2004-06-18 2004-06-18 音声認識システム、音声認識方法、及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004180837A JP4554285B2 (ja) 2004-06-18 2004-06-18 音声認識システム、音声認識方法、及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2006003696A JP2006003696A (ja) 2006-01-05
JP4554285B2 true JP4554285B2 (ja) 2010-09-29

Family

ID=35772127

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004180837A Expired - Fee Related JP4554285B2 (ja) 2004-06-18 2004-06-18 音声認識システム、音声認識方法、及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP4554285B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5283947B2 (ja) * 2008-03-28 2013-09-04 Kddi株式会社 携帯端末の音声認識装置、音声認識方法、音声認識プログラム
US7933777B2 (en) * 2008-08-29 2011-04-26 Multimodal Technologies, Inc. Hybrid speech recognition
JP4902617B2 (ja) * 2008-09-30 2012-03-21 株式会社フュートレック 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP2010130223A (ja) * 2008-11-26 2010-06-10 Fujitsu Ten Ltd 音声操作システムおよび音声操作方法
JP5821639B2 (ja) 2012-01-05 2015-11-24 株式会社デンソー 音声認識装置
JP5887162B2 (ja) * 2012-02-23 2016-03-16 株式会社Nttドコモ 通信端末、制御方法及びプログラム
JP6281856B2 (ja) * 2012-08-31 2018-02-21 国立研究開発法人情報通信研究機構 ローカル言語資源の補強装置及びサービス提供設備装置
JP2014062944A (ja) * 2012-09-20 2014-04-10 Sharp Corp 情報処理装置
JP5986468B2 (ja) * 2012-09-25 2016-09-06 富士通テン株式会社 表示制御装置、表示システム及び表示制御方法
KR101330671B1 (ko) 2012-09-28 2013-11-15 삼성전자주식회사 전자장치, 서버 및 그 제어방법
JP6120708B2 (ja) * 2013-07-09 2017-04-26 株式会社Nttドコモ 端末装置およびプログラム
WO2018235236A1 (ja) * 2017-06-22 2018-12-27 三菱電機株式会社 音声認識装置および音声認識方法
JP2021152589A (ja) * 2020-03-24 2021-09-30 シャープ株式会社 電子機器の制御装置、制御プログラム、制御方法、電子機器
CN113674742B (zh) * 2021-08-18 2022-09-27 北京百度网讯科技有限公司 人机交互方法、装置、设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62275299A (ja) * 1986-05-23 1987-11-30 株式会社日立製作所 音声入力方式
JP2002182896A (ja) * 2000-12-12 2002-06-28 Canon Inc 音声認識システム及び音声認識装置ならびにそれらの方法
JP2002318132A (ja) * 2001-04-23 2002-10-31 Hitachi Ltd 音声対話型ナビゲーションシステムおよび移動端末装置および音声対話サーバ
JP2003091412A (ja) * 2001-09-18 2003-03-28 Hcx:Kk ドキュメント処理装置およびドキュメント処理方法
JP2004135038A (ja) * 2002-10-10 2004-04-30 Matsushita Electric Ind Co Ltd 監視システム
JP2005505760A (ja) * 2001-09-28 2005-02-24 ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング 携帯電話を用いて移動体ユニットのインターフェースをとるシステム及び方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62275299A (ja) * 1986-05-23 1987-11-30 株式会社日立製作所 音声入力方式
JP2002182896A (ja) * 2000-12-12 2002-06-28 Canon Inc 音声認識システム及び音声認識装置ならびにそれらの方法
JP2002318132A (ja) * 2001-04-23 2002-10-31 Hitachi Ltd 音声対話型ナビゲーションシステムおよび移動端末装置および音声対話サーバ
JP2003091412A (ja) * 2001-09-18 2003-03-28 Hcx:Kk ドキュメント処理装置およびドキュメント処理方法
JP2005505760A (ja) * 2001-09-28 2005-02-24 ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング 携帯電話を用いて移動体ユニットのインターフェースをとるシステム及び方法
JP2004135038A (ja) * 2002-10-10 2004-04-30 Matsushita Electric Ind Co Ltd 監視システム

Also Published As

Publication number Publication date
JP2006003696A (ja) 2006-01-05

Similar Documents

Publication Publication Date Title
JP4554285B2 (ja) 音声認識システム、音声認識方法、及び音声認識プログラム
KR101208166B1 (ko) 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법
US7653183B2 (en) Method and apparatus to provide data to an interactive voice response (IVR) system
US20220368469A1 (en) Transmission processing method and device
WO2014079382A1 (zh) 语音传输方法、终端、语音服务器及语音传输系统
CN105556594A (zh) 声音识别处理装置、声音识别处理方法以及显示装置
US6775652B1 (en) Speech recognition over lossy transmission systems
JP4725512B2 (ja) 音声処理システム、音声処理方法、音声処理サーバ装置、およびプログラム
JP2018049080A (ja) 通信システム、情報処理装置、プログラム、通信方法
JP2005037615A (ja) クライアント装置、音声認識サーバ、分散型音声認識システム、音声認識プログラム、およびコンピュータ読み取り可能な記録媒体
CN111128198B (zh) 一种声纹识别方法、装置、存储介质、服务器及系统
EP1411499B1 (en) Server; client type speech recognition apparatus and method
WO2000013090A1 (fr) Processeur d'informations et procede correspondant
CN109697097A (zh) 数据处理方法及系统
US20040034528A1 (en) Server and receiving terminal
CN107767856B (zh) 一种语音处理方法、装置及服务器
JP3331213B1 (ja) 音声認識による情報提供サーバならびにその方法
JP2004295805A (ja) キーワード抽出装置および自動アプリケーション起動装置
JP7437927B2 (ja) 電子マネー送金システム、プログラム、送金人端末、サーバ装置、及び電子マネー送金方法
JP2002335342A (ja) 車両用通信装置
TWI767339B (zh) 語音服務系統及方法
CN113311936B (zh) 基于ar的语音点评方法、装置、设备及存储介质
JP4125708B2 (ja) 携帯電話端末およびメール送受信方法
US11804223B2 (en) Information processing system, information processing method, and recording medium having stored thereon information processing program
JP2001290413A (ja) 外国語能力向上訓練の方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060828

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100604

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100706

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100714

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130723

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130723

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees