JP2017138536A

JP2017138536A - 音声処理装置

Info

Publication number: JP2017138536A
Application number: JP2016020631A
Authority: JP
Inventors: 松岡　保静; Hosei Matsuoka; 保静松岡
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2016-02-05
Filing date: 2016-02-05
Publication date: 2017-08-10

Abstract

【課題】ＬＳＲからＤＳＲに切り替えられる場合に適切に音声認識を行う。
【解決手段】音声操作デバイス１０は、音声認識対象の音声を入力する音声入力部１１と、入力された音声認識対象の音声に対してＬＳＲを行って、当該ＬＳＲの結果に基づいてＤＳＲを行うか否かを判断するローカル音声認識部１３と、ＤＳＲを行うと判断された場合に、音声認識対象の音声を、音声認識を行う装置に送信する送受信部１４と、ＤＳＲを行うと判断された場合に、音声に関する予め設定された制御を行う制御部１６とを備える。
【選択図】図１

Description

本発明は、音声を入力して処理する音声処理装置に関する。

従来から、ユーザからの音声をマイク等で入力した装置が、音声をサーバに送信し、サーバが音声認識を行うシステムが知られている（例えば、特許文献１参照）。

特開２０１４−６０６５７号公報

上記のようなシステムの一形態として、音声を入力した装置が、自装置においてＬＳＲ（ローカル型音声認識）を行って、認識された音声に基づいてＤＳＲ（分散型音声認識）を行うか否かを判断するというものがある。当該装置では、ＬＳＲが行われる状態と、ＤＳＲが行われる状態とが存在する。当該装置におけるＬＳＲが行われる状態は、ＤＳＲを行うことを考慮したものではない場合がある。そのため、装置の振る舞いがそれぞれの状態で同様であるとするとＤＳＲでの音声認識ができない、あるいはしにくくなるという問題がある。例えば、ＤＳＲのための音声の送信や入力が適切に行われないおそれがある。

本発明は、上記に鑑みてなされたものであり、ＬＳＲからＤＳＲに切り替えられる場合に適切に音声認識を行うことができる音声処理装置を提供することを目的とする。

上記目的を達成するために、本発明に係る音声処理装置は、音声認識対象の音声を入力する音声入力手段と、音声入力手段によって入力された音声認識対象の音声に対してＬＳＲを行って、当該ＬＳＲの結果に基づいてＤＳＲを行うか否かを判断する判断手段と、判断手段によってＤＳＲを行うと判断された場合に、音声認識対象の音声を、音声認識を行う装置に送信する音声送信手段と、判断手段によってＤＳＲを行うと判断された場合に、音声に関する予め設定された制御を行う制御手段と、を備える。

本発明に係る音声処理装置では、ＬＳＲからＤＳＲに切り替えられる場合に音声に関する予め設定された制御が行われため、ＤＳＲが行いやすい状態（音声認識しやすい状態）にすることができる。これにより、本発明に係る音声処理装置によれば、ＬＳＲからＤＳＲに切り替えられる場合に適切に音声認識を行うことができる。

音声送信手段は、近距離無線通信によって音声認識対象の音声を送信し、制御手段は、近距離無線通信のプロトコルを予め設定されたプロトコルに設定する、こととしてもよい。この構成によれば、ＬＳＲが行われる場合と、ＤＳＲが行われる場合とで、プロトコルを切り替えることができる。これにより、各場合に合ったプロトコルにすることができる。従って、それぞれの場合に適切な近距離無線通信を行うことができ、ＬＳＲからＤＳＲに切り替えられる場合に適切に音声を送信することができる。

音声処理装置は、音声認識対象以外の音声を入力して音声出力する音声出力手段を更に備え、制御手段は、音声出力の音量を変更する、こととしてもよい。この構成によれば、例えば、音楽の音声出力を行いつつ、ＤＳＲが行われる場合に適切に音声を入力することができる。

音声処理装置は、音声認識対象以外の音声を入力して音声出力する音声出力手段と、音声出力される音声に基づいてフィルタを更新して、当該フィルタを用いて、音声入力手段によって入力された音声認識対象の音声のエコー除去を行うエコー除去手段と、を更に備え、制御手段は、エコー除去手段によるフィルタの更新の範囲を制限する、こととしてもよい。この構成によれば、例えば、音楽の音声出力を行いつつ、ＤＳＲが行われる場合にエコーの除去を行うことができ、適切に音声認識のための音声を取得することができる。

本発明では、ＬＳＲからＤＳＲに切り替えられる場合に音声に関する予め設定された制御が行われため、ＤＳＲが行いやすい状態（音声認識しやすい状態）にすることができる。これにより、本発明によれば、ＬＳＲからＤＳＲに切り替えられる場合に適切に音声認識を行うことができる。

本発明の実施形態に係る音声処理装置である音声操作デバイスの構成を示す図である。本発明の実施形態に係る音声処理装置である音声操作デバイスのハードウェア構成を示す図である。本発明の実施形態に係る音声処理装置である音声操作デバイスで実行される処理を示すフローチャートである。

以下、図面と共に本発明に係る音声処理装置の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。

図１に本実施形態に係る音声処理装置である音声操作デバイス１０を示す。音声操作デバイス１０は、ユーザの音声によって操作を行うことができる装置である。例えば、音声操作デバイス１０は、音楽を再生することができる機器である。音声操作デバイス１０は、ユーザの居室に配置して用いられる。音声操作デバイス１０は、近距離無線通信により、携帯端末２０から再生される音楽のデータを受信して音声出力を行う。携帯端末２０は、ユーザによって携帯される装置であり、例えば、スマートフォン又は携帯電話機に相当する。音声操作デバイス１０と、携帯端末２０とを含むシステムにより、携帯端末２０に格納されている音楽を、音声操作デバイス１０が備える（携帯端末２０が備えるものよりも上質の）スピーカで再生することができる。ユーザの音声による音声操作デバイス１０の操作は、例えば、音楽の再生開始及び再生停止等である。

ユーザの音声による音声操作デバイス１０の操作は、次のように行われる。まず、ユーザは、音声操作デバイス１０の操作を開始するトリガとなるキーワード（例えば、「操作開始」といったキーワード）を発話する。当該キーワードは、予め音声操作デバイス１０に設定されている。音声操作デバイス１０では、ユーザの音声が受け付けられて、当該音声に対してＬＳＲが行われる。続いて、ＬＳＲの結果に基づいてユーザがキーワードを発話したか否かが判断される。ユーザがキーワードを発話したと判断された場合、音声操作デバイス１０は、ユーザの音声による音声操作デバイス１０の操作を受け付ける状態となる。

続いて、ユーザは、音声操作デバイス１０の操作に係る内容を発話する。音声操作デバイス１０では、ユーザの音声が受け付けられて、当該音声に対してＤＳＲが行われる。具体的には、音声操作デバイス１０から携帯端末２０に対して、音声（音声のデータ）が送信される。続いて、音声認識サーバによって、当該音声に対して音声認識が行われる。当該音声認識の結果に基づいて、音声操作デバイス１０の操作が行われる。なお、音声認識サーバは、携帯端末２０であってもよいし、携帯端末２０から音声が送信される別の装置であってもよい。以上のようにユーザの音声による音声操作デバイス１０の操作が行われる。上記のように音声操作デバイス１０では、ＬＳＲをトリガとして、ＤＳＲ（ＤＳＲのための音声の送信）が行われる。

引き続いて、本実施形態に係る音声操作デバイス１０の機能について説明する。図１に示すように音声操作デバイス１０は、音声入力部１１と、エコーキャンセラ１２と、ローカル音声認識部１３と、送受信部１４と、音声出力部１５と、制御部１６とを備える。また、音声操作デバイス１０は、音声の入出力に係るハードウェアとして、マイク１０７とスピーカ１０８とを備える。

音声入力部１１は、音声認識対象の音声を入力する音声入力手段である。音声入力部１１は、音声認識対象の音声として、マイク１０７を介してユーザから発せられた音声を入力する（入力して録音する）。音声入力部１１は、入力した音声をエコーキャンセラ１２に出力する。

エコーキャンセラ１２は、音声入力部１１から入力した音声のエコー除去を行うエコー除去手段である。上述したように音声操作デバイス１０は、スピーカ１０８によって音声出力を行われるため、エコーキャンセラ１２は、その音声出力によるエコーを除去する。エコーキャンセラ１２によるエコー除去は、従来のエコーキャンセラと同様に行われる。即ち、エコーキャンセラ１２は、スピーカ１０８によって音声出力される音声を、音声出力部１５から入力して、当該音声に基づいてフィルタ（フィルタ係数）を更新して、当該フィルタを用いてエコー除去を行う。エコーキャンセラ１２は、エコー除去後の音声を、ＬＳＲが行われる場合にはローカル音声認識部１３に、ＤＳＲが行われる場合には送受信部１４に出力する。

ローカル音声認識部１３は、エコーキャンセラ１２から入力した音声に対してＬＳＲを行って、当該ＬＳＲの結果に基づいてＤＳＲを行うか否かを判断する判断手段である。ＬＳＲは、従来の音声認識と同様に行われる。ローカル音声認識部１３は、入力した音声に対してＬＳＲを行って、ＬＳＲの結果に基づいて当該音声（に対応する文字列）が、予め記憶したキーワードを含む、あるいはキーワードと一致しているか否かを判断する（当該音声中のキーワードの検出を行う）。ローカル音声認識部１３は、当該音声が予め記憶したキーワードを含む、あるいはキーワードと一致していると判断した場合、ＤＳＲを行うと判断する。ローカル音声認識部１３は、当該音声が予め記憶したキーワードを含まない、あるいはキーワードと一致していないと判断した場合、ＬＳＲを引き続き行うと判断する（この場合、特段の処理は行わない）。

ローカル音声認識部１３は、ＤＳＲを行うと判断したら、その旨をエコーキャンセラ１２及び制御部１６に通知する。その旨を受けたエコーキャンセラ１２は、それ以降、エコー除去後の音声を送受信部１４に出力する。上記のように、音声操作デバイス１０では、常時待ち受けのＬＳＲで待ち受けのキーワードが検出されると、キーワードウェイクアップでＤＳＲが起動される。

送受信部１４は、近距離無線通信によって携帯端末２０の間で情報の送受信を行う手段である。近距離無線通信は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）で行われる。近距離無線通信は、後述するように所定のプロトコルで行われる。送受信部１４は、音楽のデータを携帯端末２０から受信する。送受信部１４は、受信した音楽のデータを音声出力部１５に出力する。

また、送受信部１４は、ローカル音声認識部１３によってＤＳＲを行うと判断された場合に、エコーキャンセラ１２から入力した音声を、音声認識を行う装置に送信する音声送信手段である。具体的には、送受信部１４は、エコーキャンセラ１２から音声を入力すると、当該音声を近距離無線通信によって携帯端末２０に送信する。

携帯端末２０は、音声操作デバイス１０から音声を受信し、受信した音声に対して音声認識を行う。携帯端末２０は、音声認識の結果である文字列を音声操作デバイス１０に送信する。送受信部１４は、携帯端末２０から送信された文字列を受信する。送受信部１４は、受信した文字列を音声出力部１５に出力する。

なお、音声認識は、必ずしも携帯端末２０によって行われる必要はなく、携帯端末２０以外の音声認識サーバによって行われてもよい。その場合、携帯端末２０は、音声操作デバイス１０から受信した音声を、例えば、移動体通信によって音声認識サーバに送信する。音声認識サーバは、携帯端末２０から送信された音声を受信して、受信した音声に対して音声認識を行う。音声認識サーバは、音声認識の結果である文字列を携帯端末２０に送信する。

ローカル音声認識部１３による音声認識（ＬＳＲ）、並びに携帯端末２０又は音声認識サーバによる音声認識（ＤＳＲ、サーバ型音声認識）は、例えば、音声認識エンジンが用いられて行われる。音声認識自体は、従来の任意の音声認識方法を利用することができる。

ＬＳＲは、ＤＳＲを起動とするトリガとするため、上記の通り、ユーザの発話にキーワードが含まれるか否か、あるいはユーザの発話とキーワードが一致するかを判断するためだけのものである。そのため、ＬＳＲは、当該キーワードの検出に特化したものであり、通常、ＤＳＲよりも、特定のキーワード以外の音声認識の精度が低い。

音声出力部１５は、音声認識対象以外の音声を入力して音声出力する音声出力手段である。具体的には、音声出力部１５は、送受信部１４から入力した音楽のデータに対して音声合成等を行って、スピーカ１０８から出力される形式にして、スピーカ１０８を介して音声出力する。即ち、音声出力部１５は、音楽のデータを再生する。また、音声出力部１５は、音声出力する音楽のデータをエコーキャンセラ１２に出力して、エコー除去に用いられるようにする。

また、音声出力部１５は、送受信部１４から入力した文字列に基づき、機能を実行する。この機能は、ユーザの音声による音声操作デバイス１０の操作に係るものであり、例えば、上述したように音楽の再生開始及び再生停止等である。入力した文字列からの機能の実行は、従来と同様に行うこととすればよい。例えば、文字列と機能とを予め対応付けておき、当該対応付けに基づいて機能を実行することとすればよい。また、認識結果に基づいて実行される機能の決定は、携帯端末２０等の音声操作デバイス１０以外の装置で行われてもよい。その場合、実行される機能として決定された機能を実行させる指示（例えば、コマンド）が、携帯端末２０等の音声操作デバイス１０以外の装置から、音声操作デバイス１０に送信されて、音声操作デバイス１０において当該機能が実行される。

なお、音声認識の結果の文字列に基づく機能の実行は、必ずしも音声出力部１５に係る機能だけでなく、それ以外の機能に対して行われてもよい。あるいは、携帯端末２０又はその他のサーバが、ユーザの発話（音声認識によって得られた文字列）に対しての回答となる文字列を生成して、音声操作デバイス１０が、当該回答が音声出力されることとしてもよい。即ち、対話システムを構成することとしてもよい。

制御部１６は、ローカル音声認識部１３からＤＳＲを行う旨を通知された場合に、音声に関する予め設定された制御を行う制御手段である。制御部１６は、ＤＳＲを行う場合に、適切に音声認識を行うことができるように制御を行う。具体的には、制御部１６は、以下のような制御を行う。

制御部１６は、当該制御として、送受信部１４と携帯端末２０との間の近距離無線通信のプロトコルを予め設定されたプロトコルに設定する。上述したように携帯端末２０から送受信部１４には音楽のデータが送信される。そのため、ＤＳＲを行う前（ユーザが、予め設定されたキーワードを発話する前）は、高品質の音楽データが送信できるように当該プロトコルとして、例えば、ＢｌｕｅｔｏｏｔｈのＡ２ＤＰ（Advanced Audio Distribution Profile）を設定しておく。Ａ２ＤＰでは、携帯端末２０から音声操作デバイス１０に対して、４４．１ｋＨｚサンプリングの音声のデータ（音楽用高音質のデータ）を送信することができる。しかしながら、Ａ２ＤＰでは、音声のデータの双方向の送信を行うことができず、音声操作デバイス１０から携帯端末２０への音声の送信を行うことができない。

ローカル音声認識部１３からＤＳＲを行う旨を通知されると、制御部１６は、当該プロトコルをＡ２ＤＰからＨＦＰ（Hands-Free Profile）に変更するように送受信部１４に指示する。ＨＦＰでは、音声操作デバイス１０と携帯端末２０との間で、双方向に１６ｋＨｚサンプリングの音声のデータ（通話用低音質のデータ）を送信することができる。送受信部１４は、当該指示を受け付けて、携帯端末２０との間でＨＦＰに従った近距離無線通信を行う。

上記のようにプロトコルが設定されることで、ＤＳＲが行われる場合に、音声操作デバイス１０から携帯端末２０に対して音声のデータを送信できるようにし、それ以外の場合には、携帯端末２０から音声操作デバイス１０に高音質のデータを送信できるようになる。これにより、ＤＳＲが行われる場合には、音声が確実に音声認識されるようにし、それ以外の場合には音声操作デバイス１０から高音質の音楽を再生させることができる。

あるいは、制御部１６は、当該制御として、スピーカ１０８からの音声出力の音量（ボリューム）、即ち、再生中の音声の音量を変更する。スピーカ１０８からの音声出力が行われていると、ユーザからの発話が入力されにくくなる。そこで、ローカル音声認識部１３からＤＳＲを行う旨を通知されると、制御部１６は、音量を下げるように音声出力部１５に指示する。音声出力部１５は、当該指示を受け付けて、スピーカ１０８からの音声出力の音量を下げる。下げられる音量は、予め設定されている。

あるいは、制御部１６は、当該制御として、エコーキャンセラ１２によるフィルタの更新の範囲を制限する。具体的には、制御部１６は、当該フィルタの更新を停止させる。スピーカ１０８から音声が出力され、かつ、ユーザからの音声が入力されている状態でフィルタを更新させると、適切にエコーが除去されず、音声認識しにくくなるおそれがある。そこで、ローカル音声認識部１３からＤＳＲを行う旨を通知されると、制御部１６は、フィルタの更新を停止するようエコーキャンセラ１２に指示する。エコーキャンセラ１２は、当該指示を受け付けて、フィルタの更新を停止し、当該指示を受けた時点でのフィルタを用いてエコー除去を行う。即ち、エコーキャンセラ１２は、バージイン（ダブルトーク）モードでエコー除去を行う。なお、上記の制御として、必ずしも、フィルタの更新を停止させる必要はなく、フィルタの更新の（数値）範囲を制限することとしてもよい。制限後の範囲は、例えば、その時点のフィルタの値を中心の値とした予め設定された大きさの範囲である。

制御部１６は、所定時間経過後にＤＳＲを終了させると共に上記の制御を終了させる。例えば、制御部１６は、ローカル音声認識部１３からＤＳＲを行う旨を通知されてから、予め設定した一定時間経過したら、ＤＳＲを終了させると共に上記の制御を終了させる。あるいは、制御部１６は、送受信部１４によって携帯端末２０に送信される音声を監視しておき、一定時間、一定の音量以上の音声が入力されていない場合（即ち、一定時間、ユーザからの音声が入力されていない場合）に、ＤＳＲを終了させると共に上記の制御を終了させることとしてもよい。また、制御部１６は、ＤＳＲを終了とあわせてＬＳＲを開始させる。

具体的には、制御部１６は、送受信部１４、ローカル音声認識部１３及びエコーキャンセラ１２に対して、制御前の状態に戻すよう指示する。これにより、送受信部１４と携帯端末２０との間の近距離無線通信のプロトコルが、ＨＦＰからＡ２ＤＰに変更される。また、スピーカ１０８からの音声出力の音量が、制御前の音量にされる。また、エコーキャンセラ１２によるフィルタの更新が行われる。また、制御部１６は、エコーキャンセラ１２に対して、エコー除去後の音声の出力先を送受信部１４からローカル音声認識部１３に変更させる。以上が、音声操作デバイス１０の機能である。

図２に本実施形態に係る音声操作デバイス１０のハードウェア構成を示す。図２に示すように、音声操作デバイス１０は、ＣＰＵ（Central Processing Unit）１０１、主記憶装置であるＲＡＭ（RandomAccess Memory）１０２及びＲＯＭ１０３（Read Only Memory)、操作モジュール１０４、近距離無線通信モジュール１０５、近距離無線通信用アンテナ１０６、マイク１０７並びにスピーカ１０８等のハードウェアにより構成されている。これらの構成要素がプログラム等により動作することにより、上述した音声操作デバイス１０の各機能が発揮される。以上が、音声操作デバイス１０の構成である。

引き続いて、図３のフローチャートを用いて、本実施形態に係る音声操作デバイス１０で実行される処理（音声操作デバイス１０の動作方法）を説明する。本処理の開始時には、音声操作デバイス１０では、携帯端末２０から音楽のデータが受信されて、スピーカ１０８から音声出力がなされている（音楽の再生がなされている）。また、エコーキャンセラ１２では、音声出力される音声に基づいてフィルタの更新が行われている。また、ユーザの音声に対して、ＬＳＲが行われる状態となっている。

本処理では、まず、音声入力部１１によって、マイク１０７を介してユーザから発せられた音声が入力される（Ｓ０１）。入力された音声は、音声入力部１１からエコーキャンセラ１２に出力される。続いて、エコーキャンセラ１２によって、入力された音声のエコー除去（エコーキャンセル）が行われる（Ｓ０２）。エコー除去後の音声は、エコーキャンセラ１２からローカル音声認識部１３に出力される。続いて、ローカル音声認識部１３によって、エコーキャンセラ１２から入力した音声に対してＬＳＲが行われる（Ｓ０３）。続いて、ローカル音声認識部１３によって、ＬＳＲの結果に基づいて、当該音声中のキーワードの検出が行われる（Ｓ０４）。

当該音声中にキーワードが検出されなかった場合（当該音声がキーワードを含まない、あるいはキーワードと一致していないと判断した場合）（Ｓ０４のＮＯ）、引き続き、ユーザの音声が入力されて、上記のＬＳＲの処理が行われる（Ｓ０１〜Ｓ０４）。

当該音声中にキーワードが検出された場合（当該音声がキーワードを含む、あるいはキーワードと一致していると判断した場合）（Ｓ０４のＹＥＳ）、ＤＳＲを行うと判断される。その旨が、ローカル音声認識部１３からエコーキャンセラ１２及び制御部１６に通知される。当該通知を受けたエコーキャンセラ１２では、以降のエコー除去後の音声が送受信部１４に出力される。また、当該通知を受けた制御部１６によって、適切に音声認識を行うことができるよう制御が行われる。

具体的には、制御部１６から音声出力部１５に対して、音声出力の音量（再生音のボリューム）を下げる指示が行われる。音声出力部１５では、当該指示が受け付けられて、スピーカ１０８からの音声出力の音量が下げられる（Ｓ０５）。また、制御部１６からエコーキャンセラ１２に対して、フィルタの更新の停止させる指示が行われる。エコーキャンセラ１２では、当該指示が受け付けられて、フィルタの更新が停止される（Ｓ０６）。また、制御部１６から送受信部１４に対して、携帯端末２０との間の近距離無線通信のプロトコルをＡ２ＤＰからＨＦＰに変更させる指示が行われる。送受信部１４では、当該指示が受け付けられて、携帯端末２０との間の近距離無線通信のプロトコルがＡ２ＤＰからＨＦＰに変更される（Ｓ０７）。なお、上記のＳ０５〜Ｓ０７は、必ずしも上記の順番で行われる必要はない。

続いて、音声入力部１１によって、マイク１０７を介してユーザから発せられた音声が入力される（Ｓ０８）。入力された音声は、音声入力部１１からエコーキャンセラ１２に出力される。続いて、エコーキャンセラ１２によって、入力された音声のエコー除去（エコーキャンセル）が行われる（Ｓ０９）。エコー除去後の音声は、エコーキャンセラ１２から送受信部１４に出力される。続いて、送受信部１４によって、エコーキャンセラ１２から入力した音声が近距離無線通信によって携帯端末２０に送信される（Ｓ１０）。

携帯端末２０では、当該音声が受信されて、当該音声に対して音声認識が行われる。音声認識結果は、携帯端末２０から音声操作デバイス１０に近距離無線通信によって送信される。音声操作デバイス１０では、送受信部１４によって、音声認識結果が受信される（Ｓ１１）。受信された音声認識結果は、例えば、音声出力部１５に出力されて、機能の実行（音声操作デバイス１０の音声操作）に用いられる。

続いて、制御部１６によって、ＤＳＲを終了させるか否かが判断される（Ｓ１２）。ＤＳＲを終了させないと判断された場合（Ｓ１２のＮＯ）、引き続き、ユーザの音声が入力されて、上記のＤＳＲの処理が行われる（Ｓ０８〜Ｓ１２）。ＤＳＲを終了させると判断された場合（Ｓ１２のＹＥＳ）、制御部１６から送受信部１４、ローカル音声認識部１３及びエコーキャンセラ１２に対して、制御前の状態に戻すよう指示が行われる。送受信部１４、ローカル音声認識部１３及びエコーキャンセラ１２では、当該指示が受け付けられて、制御前の状態に戻される（Ｓ１３）。また、制御部１６からの指示により、エコーキャンセラ１２からのエコー除去後の音声の出力先が、送受信部１４からローカル音声認識部１３に変更される。これにより、ＬＳＲが行われる状態となり、Ｓ０１からの処理が繰り返される。以上が、本実施形態に係る音声操作デバイス１０で実行される処理である。

上述したように本実施形態では、ＬＳＲからＤＳＲに切り替えられる場合に音声に関する予め設定された制御が行われため、ＤＳＲが行いやすい状態（音声認識しやすい状態）にすることができる。これにより、本発明に係る音声処理装置によれば、適切に音声認識を行うことができる。

具体的には、本実施形態のように近距離無線通信のプロトコルを設定（変更）することとしてもよい。この構成によれば、ＬＳＲが行われる場合と、ＤＳＲが行われる場合とで、プロトコルを切り替えることができる。これにより、各場合に合ったプロトコルにすることができる。例えば、本実施形態のようにＤＳＲが行われない場合には、音声操作デバイス１０に対して高品質な音楽のデータを送信できるＡ２ＤＰといったプロトコルを用いて、ＤＳＲが行われる場合には、双方向のデータを送信できるＨＦＰといったプロトコルを用いることができる。

従って、ＤＳＲが行われる場合には、音声を携帯端末２０に送信することを可能とする一方、ＤＳＲが行われず、音声を送信する必要がない場合には、それに適したプロトコルとすることができる。従って、それぞれの場合に適切な近距離無線通信を行うことができ、ＬＳＲからＤＳＲに切り替えられる場合に適切に音声の送信を行うことができる。

また、本実施形態のように音声出力の音量を変更することとしてもよい。この構成によれば、例えば、本実施形態のように音楽の音声出力を行いつつ（音楽の再生を行いつつ）、ＤＳＲが行われる場合に適切に音声を入力することができる。

また、本実施形態のようにエコーキャンセラ１２のフィルタの更新の範囲を制限する（例えば、上述したように当該フィルタの更新の停止）こととしてもよい。この構成によれば、例えば、本実施形態のように音楽の音声出力を行いつつ、ＤＳＲが行われる場合にエコーの除去を行うことができ、適切に音声認識のための音声を取得することができる。

なお、上記の各制御は、必ずしも全て行われる必要はなく、何れか１つあるいは２つのみが行われてもよい。また、本実施形態では、音声の送信先が、携帯端末２０であることとしたが、携帯端末２０以外の装置であってもよい。また、本実施形態では、音楽のデータは、携帯端末２０から受信することとしたが、音声操作デバイス１０において予め音楽のデータを記憶しておき、それを読み出して音声出力のために入力することとしてもよい。また、本実施形態では、音声操作デバイス１０では、音楽の再生を行う機能を有しており、音楽の再生を行いつつＬＳＲ及びＤＳＲを行うものとしたが、ＬＳＲ及びＤＳＲが行われる際に音楽の再生以外の機能が実行されてもよい。

１０…音声操作デバイス、１１…音声入力部、１２…エコーキャンセラ、１３…ローカル音声認識部、１４…送受信部、１５…音声出力部、１６…制御部、１０１…ＣＰＵ、１０２…ＲＡＭ、１０３…ＲＯＭ、１０４…操作モジュール、１０５…近距離無線通信モジュール、１０６…近距離無線通信用アンテナ、１０７…マイク、１０８…スピーカ、２０…携帯端末。

Claims

音声認識対象の音声を入力する音声入力手段と、
前記音声入力手段によって入力された前記音声認識対象の音声に対してＬＳＲを行って、当該ＬＳＲの結果に基づいてＤＳＲを行うか否かを判断する判断手段と、
前記判断手段によってＤＳＲを行うと判断された場合に、前記音声認識対象の音声を、音声認識を行う装置に送信する音声送信手段と、
前記判断手段によってＤＳＲを行うと判断された場合に、音声に関する予め設定された制御を行う制御手段と、
を備える音声処理装置。
前記音声送信手段は、近距離無線通信によって前記音声認識対象の音声を送信し、
前記制御手段は、前記近距離無線通信のプロトコルを予め設定されたプロトコルに設定する、請求項１に記載の音声処理装置。
前記音声認識対象以外の音声を入力して音声出力する音声出力手段を更に備え、
前記制御手段は、前記音声出力の音量を変更する、請求項１又は２に記載の音声処理装置。
前記音声認識対象以外の音声を入力して音声出力する音声出力手段と、
前記音声出力される音声に基づいてフィルタを更新して、当該フィルタを用いて、前記音声入力手段によって入力された前記音声認識対象の音声のエコー除去を行うエコー除去手段と、を更に備え、
前記制御手段は、前記エコー除去手段によるフィルタの更新の範囲を制限する、請求項１〜３の何れか一項に記載の音声処理装置。