JP4554285B2

JP4554285B2 - 音声認識システム、音声認識方法、及び音声認識プログラム

Info

Publication number: JP4554285B2
Application number: JP2004180837A
Authority: JP
Inventors: 一明見並; 亨中西
Original assignee: Toyota Motor Corp; Toyota InfoTechnology Center Co Ltd
Current assignee: Toyota Motor Corp; Toyota InfoTechnology Center Co Ltd
Priority date: 2004-06-18
Filing date: 2004-06-18
Publication date: 2010-09-29
Anticipated expiration: 2024-06-18
Also published as: JP2006003696A

Description

本発明は、音声認識技術に関する。

従来から、ユーザが発した音声を解析して言語情報を抽出する、いわゆる音声認識技術が多用されている。このような音声認識技術は、一般に音声認識に用いる言語辞書の語彙量、あるいは音声から抽出した音声特徴情報から言語を認識する認識エンジンの性能などによって、音声認識結果の精度が左右されていた。そして、十分な語彙量の言語辞書を備えた高性能な認識エンジンは、一般に高性能なコンピュータと大容量の記憶手段とを用いることで実現していた。

そこで、上述のような音声認識技術を車載用や携帯用の情報処理端末で実現するには、従来からユーザが用いる情報処理端末と、音声認識処理を行うサーバとを分散して、小型の端末において高性能な音声認識技術を提供することが鑑みられていた。また、音声認識処理を情報処理端末側とサーバ側とで実行可能にして、ユーザの指示に応じてどちらで音声認識処理を行うかを切り替える技術もあった。

なお、本発明に関連する、音声認識に関連する技術（例えば、特許文献１から３参照。）が開示されている。
特開２００２−１８２８９６号公報特開２００２−３１８１３２号公報特開２００３−４４０９１号公報

しかしながら、上述のような情報処理端末とサーバによる分散型の音声認識処理は、例えば以下のような問題があった。
すなわち、従来の分散型の音声認識処理では、情報処理端末とサーバとを接続するネットワークの通信状態を考慮しているものはなかった。このため、サーバ側で音声認識処理を行う場合に、ネットワークの通信状態が悪化して音声認識に必要な情報の通信が困難になると、正確な音声認識処理を迅速に行うことが困難であった。

本発明は上記事項に鑑みて為されたものである。すなわち、本発明は、音声を取得する情報処理端末と音声認識を行う装置とをネットワークを介して接続して音声認識処理を行う場合に、ネットワークの通信状態を考慮した技術を提供することを解決すべき課題とする。

本発明は前記課題を解決するために、以下の手段を採用した。
すなわち、本発明は、ユーザが発した音声を取得し、音声を言語情報として認識するために必要な音声情報を抽出し圧縮した音声特徴情報を生成し、音声特徴情報に基づいて言語情報を認識する音声認識処理を行うサーバに、当該音声特徴情報を送信し、サーバから音声認識結果を受信し、音声認識結果が所定時間受信できない場合に、音声特徴情報を再送信し、再送信を所定回数実行し、かつサーバから音声認識結果が受信できない場合に、音声認識処理を行うことを特徴とする。

本発明では、音声認識処理をサーバ側で行う場合に、その音声認識結果の受信状況に応
じて音声認識に用いる特徴情報を再送信する。また、本発明では、サーバ側の応答がない場合には、サーバ側ではなく装置自身で音声認識処理を行う。

従って、本発明によれば、音声を取得する情報処理端末と音声認識を行う装置とをネットワークを介して接続して音声認識処理を行う場合に、ネットワークの通信状態を考慮した技術を提供することができる。

また、本発明は、音声認識結果に対応するユーザからのコンテンツに対する処理の要求を、アクション要求情報としてサーバに送信し、アクション要求情報に対するサーバの応答が所定時間受信できない場合に、当該アクション要求情報を再送信することを特徴とする。

本発明では、サーバ側が音声認識結果に基づく処理を行う場合に、その処理の要求をサーバからの応答があるまで再送信する。
従って、本発明によれば、ユーザの操作なしに、迅速に処理の要求をサーバに送信することができる。

また、本発明は、音声特徴情報を所定回数送信しサーバから音声認識結果が受信できない場合、及びアクション要求情報を所定回数送信し応答が受信できない場合の少なくともいずれかの場合には、再度音声取得手段にユーザの音声を取得するように促すことを特徴とする。

本発明では、音声特徴情報あるいはアクション要求情報を再送信したにもかかわらず、サーバ側の応答がない場合には、音声の取得処理から再度行うために、ユーザに音声
を発するように要求する。
従って、本発明によれば、ネットワークを介した音声認識処理において、正確な音声認識処理を実行することができる。

なお、本発明は、以上の何れかの機能を実現させるプログラムであってもよい。また、本発明は、そのようなプログラムをコンピュータが読み取り可能な記憶媒体に記録してもよい。また、本発明は、以上の何れかの機能を実現する装置であってもよい。さらに、本発明は、以上の何れかの機能を実現する通信端末であってもよい。

本発明によれば、音声を取得する情報処理端末と音声認識を行う装置とをネットワークを介して接続して音声認識処理を行う場合に、ネットワークの通信状態を考慮した技術を提供することができる。

以下、図面を参照して、本発明の好適な実施の形態に係る音声認識装置の機能を備えた情報処理端末の一例（以下、情報処理端末１００という）を、図面に基づいて説明する。本実施の形態において、情報処理端末１００は、コンピュータにプログラムを実行させることによって、本発明に係る音声認識方法を実行する。

〈装置構成〉
図１は、情報処理端末１００、及び情報処理端末１００の要求に基づいて音声認識処理を行うサーバ（以下DSRサーバ２００という）とからなるシステムの構成図である。本シ
ステムは、クライアントの情報処理端末１００とDSRサーバ２００とがネットワーク３０
０を介して接続している。

情報処理端末１００は、音声入力手段１０１，出力手段１０２，DSRクライアントモジ
ュール１０３，ローカル音声認識モジュール１０４，音声認識エンジン１０５を備える。
音声入力手段１０１は、一般のマイクなどの音声入力装置が考えられる。出力手段１０２は、例えば液晶式ディスプレイなどの画像出力装置が考えられる。
DSRクライアントモジュール１０３は、情報処理端末１００の処理能力にとらわれるこ
となく音声認識処理を行うために、サーバ側で音声認識処理を行う、いわゆる分散型音声認識（Distributed Speech Recognition：以下DSRとする）の端末側（クライアント）の
機能構成を実現する。DSRクライアントモジュール１０３は、本発明の音声認識装置１０
０の音声取得手段，特徴情報抽出手段，送信手段，受信手段，再送指示手段に相当する機能を備える。

すなわち、DSRクライアントモジュール１０３は、音声取得手段の機能として、音声入
力手段１０１を介してユーザが発した音声を取得する。また、DSRクライアントモジュー
ル１０３は、特徴情報抽出手段の機能として、音声を言語情報として認識するために必要な音声情報を抽出し圧縮した音声特徴情報を生成する。本実施の形態において、音声特徴情報とは、人間の発した言語の音声情報から、その言語の内容を特定することができる音声情報のみを抽出して圧縮したものである。

また、DSRクライアントモジュール１０３は、送信手段の機能として、音声特徴情報に
基づいて言語情報を認識する音声認識処理を行うDSRサーバ２００に、音声特徴情報を送
信する。DSRクライアントモジュール１０３は、受信手段の機能として、DSRサーバ２００から音声認識結果を受信する。

また、DSRクライアントモジュール１０３は、再送指示手段の機能として、音声認識結
果が所定時間受信できない場合に、音声特徴情報を再送信する。また、DSRクライアント
モジュール１０３は、アクション要求情報に対するDSRサーバ２００の応答が所定時間受
信できない場合に、アクション要求情報を再送信する。

また、DSRクライアントモジュール１０３は、アクション要求手段の機能として、音声
認識結果に対応したユーザからのコンテンツに対する処理の要求（例えば、カラオケコンテンツに対する楽曲の配信要求など）を、アクション要求情報としてDSRサーバ２００に
送信する。

そして、DSRクライアントモジュール１０３は、音声再取得指示手段の機能として、音
声特徴情報を所定回数送信したときに、DSRサーバ２００から音声認識結果が受信できな
い場合には、ユーザの音声を再度取得するように促す。また、DSRクライアントモジュー
ル１０３は、アクション要求情報を所定回数送信したときに、DSRサーバ２００から応答
が受信できない場合には、ユーザの音声を再度取得するように促す。

ローカル音声認識モジュール１０４は、音声認識エンジン１０５を有する。音声認識エンジン１０５は、DSRサーバ２００による音声認識処理がネットワーク３００の通信状態
によって困難であると判断した場合に音声認識処理を行う。音声認識エンジン１０５が音声認識処理を行う場合とは、例えば音声特徴情報の再送信を所定回数指示し、かつDSRサ
ーバ２００から音声認識結果が受信できない場合が考えられる。

DSRサーバ２００は、サーバモジュール２０１，DSRサーバモジュール２０２，音声認識エンジン２０３を備える。

サーバモジュール２０１は、ネットワーク３００を介して情報処理端末１００とHTTP（HyperText Transfer Protocol）ベースの１回の要求に対して１回の応答を行う、いわゆ
るセッションレス型の通信方式を行い、DSRサーバモジュール２０２とはTCP/IP（Transmission Control Protocol/Internet Protocol）ソケット利用のWebへの要求に対して１回
のセッションを維持する、いわゆるセッション持続型の通信を行うための処理を行う。

DSRサーバモジュール２０２は、音声認識エンジン２０３を有する。この音声認識エン
ジン２０３は、情報処理端末１００から送信された音声特徴情報に基づいて音声認識処理を行う。

〈音声認識処理の概要〉
次に、本実施の形態に係るシステムによる、分散型音声認識処理について説明する。
図２は、本システムによる、DSRサーバ２００側による音声認識処理（センタ音声認識
）と情報処理端末１００側による音声認識処理（ローカル音声認識）との区分を説明する図である。本システムは、カラオケコンテンツなどのネットワーク型コンテンツに対する情報の要求を情報処理端末１００で実行する場合には、基本的にはセンタ音声認識によって処理を行う。そして、この場合には、本システムは、通信状況が不良のときに自動的にローカル音声認識に切り替える。

また、本システムは、ユーザの音声を認識し、その認識した音声の指示に従いオーディオ操作やエアコン操作する場合などのように車内で完結する純粋制御系ローカルコンテンツを情報処理端末１００が実行する場合には、情報処理端末１００内の音声認識エンジン１０５によって音声認識処理を行い、必要に応じてネットワーク型コンテンツに移行したときには、センタ音声認識によって処理する。

〈音声認識処理の説明〉
図３は、情報処理端末１００とDSRサーバ２００とによるシステムによる、音声認識処
理を説明するフローチャートである。

情報処理端末１００は、ユーザが音声を発する（発話）すると、音声を取得する（Ｓ１０１）。このとき、情報処理端末１００は、この音声に対する音声認識処理をクライアント側とセンタ側とのどちらで行うかを判断する。

ローカル音声認識モジュール１０４が音声認識処理を行う場合には、DSRクライアント
モジュール１０３は、取得した音声から言語を認識可能な音声情報を抽出して圧縮した音声特徴情報を抽出する。そして、DSRクライアントモジュール１０３は、ローカル音声認
識モジュール１０４に音声特徴情報を送信する（Ｓ１０２）。音声特徴情報を受信したローカル音声認識モジュール１０４は、この音声特徴情報から言語情報を抽出する音声認識処理（例えば、「カラオケ配信」という音声情報から、「からおけはいしん」という音声の内容を特定可能な特徴情報を抽出する処理）を行う（Ｓ１０３）。音声認識処理後、ローカル音声認識モジュール１０４は、Ｓ１１１の処理を行う。

DSRサーバ２００のDSRサーバモジュール２０２が有する音声認識エンジン２０３が音声認識処理を行う場合には、DSRクライアントモジュール１０３は、取得した音声から音声
特徴情報を抽出する。

DSRクライアントモジュール１０３は、ネットワーク３００を介して音声特徴情報をDSRサーバ２００に送信する。そして、DSRクライアントモジュール１０３は、DSRサーバ２００への音声特徴情報の送信が成功したか否かを判断する（Ｓ１０４）。このとき、DSRク
ライアントモジュール１０３は、音声特徴情報の送信が成功したか否かの判断を、送信された音声特徴情報に対する応答がDSRサーバ２００からあるか否かに基づいて判断する。

音声特徴情報の送信が成功した場合には、DSRサーバ２００は、音声認識エンジン２０
３によって音声認識処理を行う（Ｓ１０５）。Ｓ１０５の処理後、DSRクライアントモジ
ュール１０３は、Ｓ１１１の処理に移行する。

音声特徴情報の送信が失敗した場合には、DSRクライアントモジュール１０３は、音声
認識モジュール１０４に音声認識エンジン２０３（代替グラマ）があるか否かを判断する（Ｓ１０６）。代替グラマがある場合には、DSRクライアントモジュール１０３は、代替
グラマをセット（音声認識モジュール１０４を使用可能状態にする）する（Ｓ１０７）。

DSRクライアントモジュール１０３は、DSRサーバ２００から応答がない場合には、一定の回数送信に失敗したか否かを判断する（Ｓ１０８）。そして、一定の失敗回数に達していない場合は、DSRクライアントモジュール１０３は、音声特徴情報の送信（自動再送信
）を繰り返す（Ｓ１０９）。

そして、DSRクライアントモジュール１０３は、所定の回数音声特徴情報の送信を繰り
返しても応答がない場合には、音声特徴情報の送信が失敗したものと判断して、ユーザに音声の再送信を要求する再送信ボタンを表示する（Ｓ１１０）。再送信ボタンの表示後、DSRクライアントモジュール１０３は、Ｓ１０４の処理に戻る。

DSRクライアントモジュール１０３は、図３に示す表に従って、ローカルとサーバとに
おける音声認識の良否を判断する（Ｓ１１１）。この表によれば、ローカルとサーバとの双方で音声認識が成功した場合には、DSRクライアントモジュール１０３は、その応答に
信頼度を示す情報が付されていれば、信頼度の高い方の結果を用いる。信頼度とは、例えば、サーバから情報処理端末へ１０段階の評価値を引き渡せばよい。また、ローカルで音声認識が成功してサーバで音声認識が失敗した場合には、DSRクライアントモジュール１
０３は、ローカルでの音声認識結果を用いる。また、サーバで音声認識が成功し、ローカルでの音声認識が失敗した場合には、DSRクライアントモジュール１０３は、サーバの音
声認識結果を用いる。そして、ローカルとサーバとの双方で音声認識が失敗した場合には、DSRクライアントモジュール１０３は、音声認識失敗と判断する。

DSRクライアントモジュール１０３は、Ｓ１１１の処理後、音声認識結果がオーディオ
やエアコンの操作などのローカルコンテンツに対する指示である場合には、ローカルコンテンツの表示を行う（Ｓ１１２）。

DSRクライアントモジュール１０３は、Ｓ１１１の処理後、音声認識結果がカラオケコ
ンテンツなどのネットワーク型コンテンツへの指示である場合には、その認識結果に対するネットワーク型コンテンツへの動作（アクション）を要求する情報（例えば、カラオケコンテンツに対する楽曲の配信要求など）を取得に成功したか否かを判断する（Ｓ１１３）。

アクション情報の取得に成功した場合には、DSRクライアントモジュール１０３は、ネ
ットワーク型コンテンツのページを受信して出力手段１０２に表示が成功したか否かを判断する（Ｓ１１４）。ページの表示に失敗した場合には、DSRクライアントモジュール１
０３は、出力手段１０２に再取得ボタンを表示して、ユーザにページの再取得を要求する（Ｓ１１５）。そして、ユーザが再取得ボタンを不図示のポインティングデバイスで押下した場合に、DSRクライアントモジュール１０３は、制御をＳ１１４に戻す。また、ペー
ジの表示に成功した場合には、DSRクライアントモジュール１０３は、ネットワーク型コ
ンテンツのＷｅｂページが表示完了であるとして、本システムの処理を終了する（Ｓ１１６）。

Ｓ１１３において、アクション情報の取得に失敗した場合には、DSRクライアントモジ
ュール１０３は、そのアクション情報の取得を所定回数繰り返す。そして、DSRクライア
ントモジュール１０３は、一定回数のアクション情報の取得の失敗を繰り返したか否かを判断する（Ｓ１１７）。失敗した場合には、DSRクライアントモジュール１０３は、アク
ション情報の取得要求を自動的に再送信する（Ｓ１１８）。

一定回数の再送信後も、Ｗｅｂページの取得（アクション）に失敗した場合には、DSR
クライアントモジュール１０３は、出力手段１０２に再取得ボタンを表示して、ユーザにページの再取得を促す（Ｓ１１９）。

〈システムの処理例１〉
次に、本システムによる、音声認識処理の流れを場合分けした上で例示して説明する。第１の処理例は、情報処理端末１００とDSRサーバ２００との通信状態が良好な場合の流
れを説明する。

図４は、本システムによる、第１の処理例を説明する流れ図である。
情報処理端末１００（以下、DSRクライアント１００）は、ユーザの発話（音声）を受
け付ける。DSRクライアント１００は、音声から音声特徴情報を抽出する。そして、DSRクライアント１００は、音声特徴情報をDSRサーバ２００（センタ音声認識）に送信する。
この間、DSRクライアント１００のディスプレイ（不図示）には、音声認識中であること
を示す「認識中」などの文字が表示される。

DSRサーバ２００は、音声特徴情報から音声認識処理を行って音声認識結果を出力する
。DSRサーバ２００は、音声認識結果をDSRクライアント１００に送信する。
音声認識結果を受信したDSRクライアント１００は、その音声認識結果に基づいたネッ
トワーク型コンテンツのページに対するアクション情報の取得要求を、DSRサーバ２００
を介してコンテンツサーバ４００に送信する。この間DSRクライアント１００のディスプ
レイには、アクション情報に基づいたコンテンツ取得処理中であることを示す「検索中」などの文字が表示される。

コンテンツサーバ４００は、アクション情報の取得要求に対応するアクション情報をDSRクライアント１００に送信する。
このようにすると、本システムの第１の処理例では、DSRクライアント１００が音声認
識処理に基づいたコンテンツの利用が可能になる。

〈システムの処理例２〉
第２の処理例は、本システムの音声認識処理において、DSRクライアント１００とDSRサーバ２００との通信状態が不良であるために、センタ音声認識ができない場合の処理を説明する。

図５は、本システムによる、第２の処理例を説明する流れ図である。
DSRクライアント１００は、ユーザの音声から抽出した音声特徴情報をDSRサーバ２００に送信したものの、送信時の応答にタイムアウトが発生した場合に、再送信を行う。再送信後、さらにタイムアウトがある場合には、DSRクライアント１００は、ローカルの音声
認識エンジン１０５（代替グラマ）を用いて音声認識を行う。この間、DSRクライアント
１００のディスプレイ（不図示）には、音声認識中であることを示す「認識中」などの文字が表示されたのち、代替グラマによる音声認識を行っていることを示す、「データ再送信&再認識中」の文字が表示される。

音声認識エンジン１０５による音声認識処理終了後、DSRクライアント１００は、音声
認識結果に基づいたアクション情報の取得要求をコンテンツサーバ４００に送信して、コンテンツサーバ４００からアクション情報を取得する。この間DSRクライアント１００の
ディスプレイには、アクション情報に基づいたコンテンツ取得処理中であることを示す「検索中」などの文字が表示される。

このようにすると、本システムの第２の処理例では、DSRクライアント１００とDSRサーバ２００との通信状態が不良であるためにセンタ音声認識が不可能であっても、ローカルの音声認識エンジン１０５によって音声認識処理が可能になる。従って、本システムの第２の処理例によれば、分散型音声認識処理において、通信状態に左右されることなく音声認識処理を行うことができる。

〈システムの処理例３〉
第３の処理例は、第２の処理例と比較して、音声特徴情報送信時の通信状態が不良であり、かつアクション情報の取得要求時の通信状態も不良であるためにセンタ音声認識を用いた処理が不可能な場合の処理例を示す。

図６は、本システムの第３の処理例を説明する流れ図である。
DSRクライアント１００は、音声特徴情報の送信時にタイムアウトが発生して、ローカ
ルの音声認識エンジン１０５によって音声認識処理を行う。この間、DSRクライアント１
００のディスプレイ（不図示）には、音声認識中であることを示す「認識中」などの文字が表示されたのち、代替グラマによる音声認識を行っていることを示す、「データ再送信&再認識中」の文字が表示される。その後、DSRクライアント１００は、ローカルの音声認識エンジン１０５の音声認識結果に基づいたアクション情報の取得要求をコンテンツサーバ４００に送信するものの、タイムアウトが発生した場合には、一定の回数再送信を行う。第３の処理例では、三回目の再送信でコンテンツサーバ４００に送信が完了している。この間DSRクライアント１００のディスプレイには、アクション情報に基づいたコンテン
ツ取得処理中であることを示す「検索中」や再送時を示す「再検索中」などの文字が表示される。

このようにすると、第３の処理例では、コンテンツサーバ４００へのアクション情報の取得要求時に通信状態が悪化した場合であっても、DSRクライアント１００が再送信を行
うため、ユーザに負担をかけることなくコンテンツの利用が可能になる。

〈システムの処理例４〉
第４の処理例では、第３の処理例と比較して、アクション情報の取得要求時の再送信を一定回数繰り返したものの、タイムアウトが発生した場合を示す。

図７は、本システムの第４の処理例を説明する流れ図である。
第４の処理例では、アクション情報の取得要求にタイムアウトが発生して、DSRクライ
アント１００が５回再送信を繰り返したものの、コンテンツサーバ４００側からの応答がない場合には、再送ボタンを生成してユーザに再送信を促す。

〈システムの処理例５〉
第５の処理例では、アクション情報の取得要求時に一定の回数再送信を繰り返した後で、再送ボタンによって新たなセンタ音声認識とアクション情報の取得要求とを行う場合を示す。

図８は、本システムの第５の処理例を説明する流れ図である。
第５の処理例では、DSRクライアント１００最初の発話から抽出した音声特徴情報をDSRサーバ２００に送信するものの、DSRサーバ２００との通信がタイムアウトとなる。その
ため、DSRクライアント１００は、ローカルの音声認識エンジン１０５によって音声認識
処理を行う。この間、DSRクライアント１００のディスプレイ（不図示）には、音声認識
中であることを示す「認識中」などの文字が表示されたのち、代替グラマによる音声認識を行っていることを示す、「データ再送信&再認識中」の文字が表示される。その後、DSRクライアント１００は、ローカルの音声認識エンジン１０５の音声認識結果に基づいたアクション情報の取得要求を送信するものの、DSRサーバ２００との通信がタイムアウトと
なる。この間DSRクライアント１００のディスプレイには、アクション情報に基づいたコ
ンテンツ取得処理中であることを示す「検索中」や再送時を示す「再検索中」などの文字が表示される。DSRクライアント１００は、アクション情報の取得要求の再送信を一定回
数繰り返した後、ユーザの音声の再送信を促す再送ボタンを表示して、音声特徴情報の再送信を促す。

その後、DSRクライアント１００は、DSRサーバ２００との通信をするためのネットワークの状態が回復した場合には、再送ボタンを消去して、ユーザに新しい発話による音声認識処理を行うことを促す。ユーザは、再送ボタンが消去されたことで、新しい発話を行う。

このようにすると、第５の処理例では、ネットワークの状態によって、音声特徴情報及びアクション情報の取得要求の送信が不可能な場合であっても、ネットワークの状態が回復したことに合わせて、新たな音声認識処理を実行する。従って、第５の処理例によれば、ネットワークの状態に合わせて、即座に音声認識処理を実行することができる。また、上記第１から第５の処理例において、処理の経過を示す「認識中」「再認識中」「検索中」「再検索中」の文字をディスプレイに表示することにより、DSRクライアント１００が
どのような処理を行っているかをユーザに対して通知することができる。従って、DSRク
ライアント１００は、ユーザに対して安心感をもたらすことができる。

情報処理端末、及びDSRサーバとからなるシステムの構成図である。本システムによる、DSRサーバ側による音声認識処理と情報処理端末側による音声認識処理との区分を説明する図である。情報処理端末とDSRサーバとによるシステムによる、音声認識処理を説明するフローチャートである。本システムによる、第１の処理例を説明する流れ図である。本システムによる、第２の処理例を説明する流れ図である。本システムの第３の処理例を説明する流れ図である。本システムの第４の処理例を説明する流れ図である。本システムの第５の処理例を説明する流れ図である。

符号の説明

１００ DSRクライアント（情報処理端末）
１０１音声入力手段
１０２出力手段
１０３ DSRクライアントモジュール
１０４ローカル音声認識モジュール
１０５音声認識エンジン
２００ DSRサーバ
２０１サーバモジュール
２０２ DSRサーバモジュール
２０３音声認識エンジン
３００ネットワーク
４００コンテンツサーバ

Claims

情報処理端末、及び前記情報処理端末の要求に基づいて音声認識処理とネットワーク型コンテンツの配信処理を行うサーバとからなる音声認識システムにおいて、
前記情報処理端末が、
ユーザが発した音声を取得する音声取得手段と、
前記音声から、当該音声を言語情報として認識するために必要な音声情報を抽出し圧縮した音声特徴情報を生成する特徴情報抽出手段と、
前記音声特徴情報に基づいて言語情報を認識する音声認識処理を行う前記サーバに、当該音声特徴情報を送信する送信手段と、
前記サーバから音声認識結果を受信する受信手段と、
前記受信手段で取得した音声認識結果に対応するネットワーク型コンテンツの配信要求を、アクション要求情報として前記送信手段を介して前記サーバに送信するアクション要求手段と、
前記音声認識結果が所定時間受信できない場合に、前記音声特徴情報の再送信を前記送信手段に指示する再送指示手段と、
前記再送指示手段による再送信を所定回数指示し、かつサーバから音声認識結果が受信できない場合に、情報処理端末自身に搭載されている音声認識エンジンを用いて音声認識処理を行う音声認識手段と、
を備え、
前記アクション要求手段は、前記サーバから音声認識結果が受信できなかった場合に、前記音声認識手段で取得した音声認識結果に対応するネットワーク型コンテンツの配信要求を、アクション要求情報として前記送信手段を介して前記サーバに送信する
ことを特徴とする音声認識システム。
前記音声認識手段は、前記再送指示手段による再送信を所定回数指示し、かつサーバから音声認識結果が受信できなかった場合に、前記サーバによる音声認識処理と並行して、情報処理端末自身に搭載されている音声認識エンジンを用いた音声認識処理を行い、
前記音声認識結果には、その信頼度を示す情報が付されており、
前記サーバと前記情報処理端末自身に搭載されている音声認識エンジンの両方から音声認識結果が取得された場合に、前記アクション要求手段は、信頼度のより高い方の音声認識結果を用いる
請求項１に記載の音声認識システム。
前記情報処理端末が、
前記音声特徴情報を所定回数送信しサーバから前記音声認識結果が受信できない場合、及び前記アクション要求情報を所定回数送信し前記応答が受信できない場合の少なくともいずれかの場合には、再度音声取得手段にユーザの音声を取得するように促す指示を行う音声再取得指示手段をさらに備える、
請求項２に記載の音声認識システム。
情報処理端末、及び前記情報処理端末の要求に基づいて音声認識処理とネットワーク型コンテンツの配信処理を行うサーバとからなる音声認識システムにおいて、
前記情報処理端末が、
ユーザが発した音声を取得する音声取得ステップと、
前記音声から、当該音声を言語情報として認識するために必要な音声情報を抽出し圧縮した音声特徴情報を生成する特徴情報抽出ステップと、
前記音声特徴情報に基づいて言語情報を認識する音声認識処理を行う前記サーバに、当該音声特徴情報を送信する送信ステップと、
前記サーバから音声認識結果を受信する受信ステップと、
前記受信ステップで取得した音声認識結果に対応するネットワーク型コンテンツの配信要求を、アクション要求情報として前記サーバに送信するアクション要求ステップと、
前記音声認識結果が所定時間受信できない場合に、前記音声特徴情報を再送信する再送ステップと、
前記再送信を所定回数実行し、かつサーバから音声認識結果が受信できない場合に、情報処理端末自身に搭載されている音声認識エンジンを用いて音声認識処理を行う音声認識ステップと、
を実行する音声認識方法であって、
前記アクション要求ステップでは、前記サーバから音声認識結果が受信できなかった場合に、前記音声認識ステップで取得した音声認識結果に対応するネットワーク型コンテンツの配信要求を、アクション要求情報として前記サーバに送信する
音声認識方法。
前記音声認識ステップでは、前記再送信を所定回数実行し、かつサーバから音声認識結果が受信できない場合に、前記サーバによる音声認識処理と並行して、情報処理端末自身に搭載されている音声認識エンジンを用いた音声認識処理を行い、
前記音声認識結果には、その信頼度を示す情報が付されており、
前記サーバと前記情報処理端末自身に搭載されている音声認識エンジンの両方から音声認識結果が取得された場合に、前記アクション要求ステップでは、信頼度のより高い方の音声認識結果が用いられる
請求項４に記載の音声認識方法。
前記情報処理端末が、
前記音声特徴情報を所定回数送信しサーバから前記音声認識結果が受信できない場合、及び前記アクション要求情報を所定回数送信し前記応答が受信できない場合の少なくともいずれかの場合に、再度ユーザの音声を取得するステップをさらに実行する、請求項５に記載の音声認識方法。
情報処理端末、及び前記情報処理端末の要求に基づいて音声認識処理とネットワーク型コンテンツの配信処理を行うサーバとからなる音声認識システムにおいて、
前記情報処理端末に、
ユーザが発した音声を取得する音声取得ステップと、
前記音声から、当該音声を言語情報として認識するために必要な音声情報を抽出し圧縮した音声特徴情報を生成する特徴情報抽出ステップと、
前記音声特徴情報に基づいて言語情報を認識する音声認識処理を行う前記サーバに、当該音声特徴情報を送信する送信ステップと、
前記サーバから音声認識結果を受信する受信ステップと、
前記受信ステップで取得した音声認識結果に対応するネットワーク型コンテンツの配信要求を、アクション要求情報として前記サーバに送信するアクション要求ステップと、
前記音声認識結果が所定時間受信できない場合に、前記音声特徴情報を再送信する再送ステップと、
前記再送信を所定回数実行し、かつサーバから音声認識結果が受信できない場合に、情報処理端末自身に搭載されている音声認識エンジンを用いて音声認識処理を行う音声認識ステップと、
を実行させる音声認識プログラムであって、
前記アクション要求ステップでは、前記サーバから音声認識結果が受信できなかった場合に、前記音声認識ステップで取得した音声認識結果に対応するネットワーク型コンテンツの配信要求を、アクション要求情報として前記サーバに送信する
音声認識プログラム。
前記音声認識ステップでは、前記再送信を所定回数実行し、かつサーバから音声認識結果が受信できない場合に、前記サーバによる音声認識処理と並行して、情報処理端末自身に搭載されている音声認識エンジンを用いた音声認識処理を行い、
前記音声認識結果には、その信頼度を示す情報が付されており、
前記サーバと前記情報処理端末自身に搭載されている音声認識エンジンの両方から音声認識結果が取得された場合に、前記アクション要求ステップでは、信頼度のより高い方の音声認識結果が用いられる
請求項７に記載の音声認識プログラム。
前記情報処理端末に、
前記音声特徴情報を所定回数送信しサーバから前記音声認識結果が受信できない場合、及び前記アクション要求情報を所定回数送信し前記応答が受信できない場合の少なくともいずれかの場合に、再度ユーザの音声を取得するステップをさらに実行させる、請求項８に記載の音声認識プログラム。