JP2017138536A - 音声処理装置 - Google Patents

音声処理装置 Download PDF

Info

Publication number
JP2017138536A
JP2017138536A JP2016020631A JP2016020631A JP2017138536A JP 2017138536 A JP2017138536 A JP 2017138536A JP 2016020631 A JP2016020631 A JP 2016020631A JP 2016020631 A JP2016020631 A JP 2016020631A JP 2017138536 A JP2017138536 A JP 2017138536A
Authority
JP
Japan
Prior art keywords
voice
dsr
unit
lsr
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016020631A
Other languages
English (en)
Inventor
松岡 保静
Hosei Matsuoka
保静 松岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2016020631A priority Critical patent/JP2017138536A/ja
Publication of JP2017138536A publication Critical patent/JP2017138536A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 LSRからDSRに切り替えられる場合に適切に音声認識を行う。
【解決手段】 音声操作デバイス10は、音声認識対象の音声を入力する音声入力部11と、入力された音声認識対象の音声に対してLSRを行って、当該LSRの結果に基づいてDSRを行うか否かを判断するローカル音声認識部13と、DSRを行うと判断された場合に、音声認識対象の音声を、音声認識を行う装置に送信する送受信部14と、DSRを行うと判断された場合に、音声に関する予め設定された制御を行う制御部16とを備える。
【選択図】 図1

Description

本発明は、音声を入力して処理する音声処理装置に関する。
従来から、ユーザからの音声をマイク等で入力した装置が、音声をサーバに送信し、サーバが音声認識を行うシステムが知られている(例えば、特許文献1参照)。
特開2014−60657号公報
上記のようなシステムの一形態として、音声を入力した装置が、自装置においてLSR(ローカル型音声認識)を行って、認識された音声に基づいてDSR(分散型音声認識)を行うか否かを判断するというものがある。当該装置では、LSRが行われる状態と、DSRが行われる状態とが存在する。当該装置におけるLSRが行われる状態は、DSRを行うことを考慮したものではない場合がある。そのため、装置の振る舞いがそれぞれの状態で同様であるとするとDSRでの音声認識ができない、あるいはしにくくなるという問題がある。例えば、DSRのための音声の送信や入力が適切に行われないおそれがある。
本発明は、上記に鑑みてなされたものであり、LSRからDSRに切り替えられる場合に適切に音声認識を行うことができる音声処理装置を提供することを目的とする。
上記目的を達成するために、本発明に係る音声処理装置は、音声認識対象の音声を入力する音声入力手段と、音声入力手段によって入力された音声認識対象の音声に対してLSRを行って、当該LSRの結果に基づいてDSRを行うか否かを判断する判断手段と、判断手段によってDSRを行うと判断された場合に、音声認識対象の音声を、音声認識を行う装置に送信する音声送信手段と、判断手段によってDSRを行うと判断された場合に、音声に関する予め設定された制御を行う制御手段と、を備える。
本発明に係る音声処理装置では、LSRからDSRに切り替えられる場合に音声に関する予め設定された制御が行われため、DSRが行いやすい状態(音声認識しやすい状態)にすることができる。これにより、本発明に係る音声処理装置によれば、LSRからDSRに切り替えられる場合に適切に音声認識を行うことができる。
音声送信手段は、近距離無線通信によって音声認識対象の音声を送信し、制御手段は、近距離無線通信のプロトコルを予め設定されたプロトコルに設定する、こととしてもよい。この構成によれば、LSRが行われる場合と、DSRが行われる場合とで、プロトコルを切り替えることができる。これにより、各場合に合ったプロトコルにすることができる。従って、それぞれの場合に適切な近距離無線通信を行うことができ、LSRからDSRに切り替えられる場合に適切に音声を送信することができる。
音声処理装置は、音声認識対象以外の音声を入力して音声出力する音声出力手段を更に備え、制御手段は、音声出力の音量を変更する、こととしてもよい。この構成によれば、例えば、音楽の音声出力を行いつつ、DSRが行われる場合に適切に音声を入力することができる。
音声処理装置は、音声認識対象以外の音声を入力して音声出力する音声出力手段と、音声出力される音声に基づいてフィルタを更新して、当該フィルタを用いて、音声入力手段によって入力された音声認識対象の音声のエコー除去を行うエコー除去手段と、を更に備え、制御手段は、エコー除去手段によるフィルタの更新の範囲を制限する、こととしてもよい。この構成によれば、例えば、音楽の音声出力を行いつつ、DSRが行われる場合にエコーの除去を行うことができ、適切に音声認識のための音声を取得することができる。
本発明では、LSRからDSRに切り替えられる場合に音声に関する予め設定された制御が行われため、DSRが行いやすい状態(音声認識しやすい状態)にすることができる。これにより、本発明によれば、LSRからDSRに切り替えられる場合に適切に音声認識を行うことができる。
本発明の実施形態に係る音声処理装置である音声操作デバイスの構成を示す図である。 本発明の実施形態に係る音声処理装置である音声操作デバイスのハードウェア構成を示す図である。 本発明の実施形態に係る音声処理装置である音声操作デバイスで実行される処理を示すフローチャートである。
以下、図面と共に本発明に係る音声処理装置の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
図1に本実施形態に係る音声処理装置である音声操作デバイス10を示す。音声操作デバイス10は、ユーザの音声によって操作を行うことができる装置である。例えば、音声操作デバイス10は、音楽を再生することができる機器である。音声操作デバイス10は、ユーザの居室に配置して用いられる。音声操作デバイス10は、近距離無線通信により、携帯端末20から再生される音楽のデータを受信して音声出力を行う。携帯端末20は、ユーザによって携帯される装置であり、例えば、スマートフォン又は携帯電話機に相当する。音声操作デバイス10と、携帯端末20とを含むシステムにより、携帯端末20に格納されている音楽を、音声操作デバイス10が備える(携帯端末20が備えるものよりも上質の)スピーカで再生することができる。ユーザの音声による音声操作デバイス10の操作は、例えば、音楽の再生開始及び再生停止等である。
ユーザの音声による音声操作デバイス10の操作は、次のように行われる。まず、ユーザは、音声操作デバイス10の操作を開始するトリガとなるキーワード(例えば、「操作開始」といったキーワード)を発話する。当該キーワードは、予め音声操作デバイス10に設定されている。音声操作デバイス10では、ユーザの音声が受け付けられて、当該音声に対してLSRが行われる。続いて、LSRの結果に基づいてユーザがキーワードを発話したか否かが判断される。ユーザがキーワードを発話したと判断された場合、音声操作デバイス10は、ユーザの音声による音声操作デバイス10の操作を受け付ける状態となる。
続いて、ユーザは、音声操作デバイス10の操作に係る内容を発話する。音声操作デバイス10では、ユーザの音声が受け付けられて、当該音声に対してDSRが行われる。具体的には、音声操作デバイス10から携帯端末20に対して、音声(音声のデータ)が送信される。続いて、音声認識サーバによって、当該音声に対して音声認識が行われる。当該音声認識の結果に基づいて、音声操作デバイス10の操作が行われる。なお、音声認識サーバは、携帯端末20であってもよいし、携帯端末20から音声が送信される別の装置であってもよい。以上のようにユーザの音声による音声操作デバイス10の操作が行われる。上記のように音声操作デバイス10では、LSRをトリガとして、DSR(DSRのための音声の送信)が行われる。
引き続いて、本実施形態に係る音声操作デバイス10の機能について説明する。図1に示すように音声操作デバイス10は、音声入力部11と、エコーキャンセラ12と、ローカル音声認識部13と、送受信部14と、音声出力部15と、制御部16とを備える。また、音声操作デバイス10は、音声の入出力に係るハードウェアとして、マイク107とスピーカ108とを備える。
音声入力部11は、音声認識対象の音声を入力する音声入力手段である。音声入力部11は、音声認識対象の音声として、マイク107を介してユーザから発せられた音声を入力する(入力して録音する)。音声入力部11は、入力した音声をエコーキャンセラ12に出力する。
エコーキャンセラ12は、音声入力部11から入力した音声のエコー除去を行うエコー除去手段である。上述したように音声操作デバイス10は、スピーカ108によって音声出力を行われるため、エコーキャンセラ12は、その音声出力によるエコーを除去する。エコーキャンセラ12によるエコー除去は、従来のエコーキャンセラと同様に行われる。即ち、エコーキャンセラ12は、スピーカ108によって音声出力される音声を、音声出力部15から入力して、当該音声に基づいてフィルタ(フィルタ係数)を更新して、当該フィルタを用いてエコー除去を行う。エコーキャンセラ12は、エコー除去後の音声を、LSRが行われる場合にはローカル音声認識部13に、DSRが行われる場合には送受信部14に出力する。
ローカル音声認識部13は、エコーキャンセラ12から入力した音声に対してLSRを行って、当該LSRの結果に基づいてDSRを行うか否かを判断する判断手段である。LSRは、従来の音声認識と同様に行われる。ローカル音声認識部13は、入力した音声に対してLSRを行って、LSRの結果に基づいて当該音声(に対応する文字列)が、予め記憶したキーワードを含む、あるいはキーワードと一致しているか否かを判断する(当該音声中のキーワードの検出を行う)。ローカル音声認識部13は、当該音声が予め記憶したキーワードを含む、あるいはキーワードと一致していると判断した場合、DSRを行うと判断する。ローカル音声認識部13は、当該音声が予め記憶したキーワードを含まない、あるいはキーワードと一致していないと判断した場合、LSRを引き続き行うと判断する(この場合、特段の処理は行わない)。
ローカル音声認識部13は、DSRを行うと判断したら、その旨をエコーキャンセラ12及び制御部16に通知する。その旨を受けたエコーキャンセラ12は、それ以降、エコー除去後の音声を送受信部14に出力する。上記のように、音声操作デバイス10では、常時待ち受けのLSRで待ち受けのキーワードが検出されると、キーワードウェイクアップでDSRが起動される。
送受信部14は、近距離無線通信によって携帯端末20の間で情報の送受信を行う手段である。近距離無線通信は、例えば、Bluetooth(登録商標)で行われる。近距離無線通信は、後述するように所定のプロトコルで行われる。送受信部14は、音楽のデータを携帯端末20から受信する。送受信部14は、受信した音楽のデータを音声出力部15に出力する。
また、送受信部14は、ローカル音声認識部13によってDSRを行うと判断された場合に、エコーキャンセラ12から入力した音声を、音声認識を行う装置に送信する音声送信手段である。具体的には、送受信部14は、エコーキャンセラ12から音声を入力すると、当該音声を近距離無線通信によって携帯端末20に送信する。
携帯端末20は、音声操作デバイス10から音声を受信し、受信した音声に対して音声認識を行う。携帯端末20は、音声認識の結果である文字列を音声操作デバイス10に送信する。送受信部14は、携帯端末20から送信された文字列を受信する。送受信部14は、受信した文字列を音声出力部15に出力する。
なお、音声認識は、必ずしも携帯端末20によって行われる必要はなく、携帯端末20以外の音声認識サーバによって行われてもよい。その場合、携帯端末20は、音声操作デバイス10から受信した音声を、例えば、移動体通信によって音声認識サーバに送信する。音声認識サーバは、携帯端末20から送信された音声を受信して、受信した音声に対して音声認識を行う。音声認識サーバは、音声認識の結果である文字列を携帯端末20に送信する。
ローカル音声認識部13による音声認識(LSR)、並びに携帯端末20又は音声認識サーバによる音声認識(DSR、サーバ型音声認識)は、例えば、音声認識エンジンが用いられて行われる。音声認識自体は、従来の任意の音声認識方法を利用することができる。
LSRは、DSRを起動とするトリガとするため、上記の通り、ユーザの発話にキーワードが含まれるか否か、あるいはユーザの発話とキーワードが一致するかを判断するためだけのものである。そのため、LSRは、当該キーワードの検出に特化したものであり、通常、DSRよりも、特定のキーワード以外の音声認識の精度が低い。
音声出力部15は、音声認識対象以外の音声を入力して音声出力する音声出力手段である。具体的には、音声出力部15は、送受信部14から入力した音楽のデータに対して音声合成等を行って、スピーカ108から出力される形式にして、スピーカ108を介して音声出力する。即ち、音声出力部15は、音楽のデータを再生する。また、音声出力部15は、音声出力する音楽のデータをエコーキャンセラ12に出力して、エコー除去に用いられるようにする。
また、音声出力部15は、送受信部14から入力した文字列に基づき、機能を実行する。この機能は、ユーザの音声による音声操作デバイス10の操作に係るものであり、例えば、上述したように音楽の再生開始及び再生停止等である。入力した文字列からの機能の実行は、従来と同様に行うこととすればよい。例えば、文字列と機能とを予め対応付けておき、当該対応付けに基づいて機能を実行することとすればよい。また、認識結果に基づいて実行される機能の決定は、携帯端末20等の音声操作デバイス10以外の装置で行われてもよい。その場合、実行される機能として決定された機能を実行させる指示(例えば、コマンド)が、携帯端末20等の音声操作デバイス10以外の装置から、音声操作デバイス10に送信されて、音声操作デバイス10において当該機能が実行される。
なお、音声認識の結果の文字列に基づく機能の実行は、必ずしも音声出力部15に係る機能だけでなく、それ以外の機能に対して行われてもよい。あるいは、携帯端末20又はその他のサーバが、ユーザの発話(音声認識によって得られた文字列)に対しての回答となる文字列を生成して、音声操作デバイス10が、当該回答が音声出力されることとしてもよい。即ち、対話システムを構成することとしてもよい。
制御部16は、ローカル音声認識部13からDSRを行う旨を通知された場合に、音声に関する予め設定された制御を行う制御手段である。制御部16は、DSRを行う場合に、適切に音声認識を行うことができるように制御を行う。具体的には、制御部16は、以下のような制御を行う。
制御部16は、当該制御として、送受信部14と携帯端末20との間の近距離無線通信のプロトコルを予め設定されたプロトコルに設定する。上述したように携帯端末20から送受信部14には音楽のデータが送信される。そのため、DSRを行う前(ユーザが、予め設定されたキーワードを発話する前)は、高品質の音楽データが送信できるように当該プロトコルとして、例えば、BluetoothのA2DP(Advanced Audio Distribution Profile)を設定しておく。A2DPでは、携帯端末20から音声操作デバイス10に対して、44.1kHzサンプリングの音声のデータ(音楽用高音質のデータ)を送信することができる。しかしながら、A2DPでは、音声のデータの双方向の送信を行うことができず、音声操作デバイス10から携帯端末20への音声の送信を行うことができない。
ローカル音声認識部13からDSRを行う旨を通知されると、制御部16は、当該プロトコルをA2DPからHFP(Hands-Free Profile)に変更するように送受信部14に指示する。HFPでは、音声操作デバイス10と携帯端末20との間で、双方向に16kHzサンプリングの音声のデータ(通話用低音質のデータ)を送信することができる。送受信部14は、当該指示を受け付けて、携帯端末20との間でHFPに従った近距離無線通信を行う。
上記のようにプロトコルが設定されることで、DSRが行われる場合に、音声操作デバイス10から携帯端末20に対して音声のデータを送信できるようにし、それ以外の場合には、携帯端末20から音声操作デバイス10に高音質のデータを送信できるようになる。これにより、DSRが行われる場合には、音声が確実に音声認識されるようにし、それ以外の場合には音声操作デバイス10から高音質の音楽を再生させることができる。
あるいは、制御部16は、当該制御として、スピーカ108からの音声出力の音量(ボリューム)、即ち、再生中の音声の音量を変更する。スピーカ108からの音声出力が行われていると、ユーザからの発話が入力されにくくなる。そこで、ローカル音声認識部13からDSRを行う旨を通知されると、制御部16は、音量を下げるように音声出力部15に指示する。音声出力部15は、当該指示を受け付けて、スピーカ108からの音声出力の音量を下げる。下げられる音量は、予め設定されている。
あるいは、制御部16は、当該制御として、エコーキャンセラ12によるフィルタの更新の範囲を制限する。具体的には、制御部16は、当該フィルタの更新を停止させる。スピーカ108から音声が出力され、かつ、ユーザからの音声が入力されている状態でフィルタを更新させると、適切にエコーが除去されず、音声認識しにくくなるおそれがある。そこで、ローカル音声認識部13からDSRを行う旨を通知されると、制御部16は、フィルタの更新を停止するようエコーキャンセラ12に指示する。エコーキャンセラ12は、当該指示を受け付けて、フィルタの更新を停止し、当該指示を受けた時点でのフィルタを用いてエコー除去を行う。即ち、エコーキャンセラ12は、バージイン(ダブルトーク)モードでエコー除去を行う。なお、上記の制御として、必ずしも、フィルタの更新を停止させる必要はなく、フィルタの更新の(数値)範囲を制限することとしてもよい。制限後の範囲は、例えば、その時点のフィルタの値を中心の値とした予め設定された大きさの範囲である。
制御部16は、所定時間経過後にDSRを終了させると共に上記の制御を終了させる。例えば、制御部16は、ローカル音声認識部13からDSRを行う旨を通知されてから、予め設定した一定時間経過したら、DSRを終了させると共に上記の制御を終了させる。あるいは、制御部16は、送受信部14によって携帯端末20に送信される音声を監視しておき、一定時間、一定の音量以上の音声が入力されていない場合(即ち、一定時間、ユーザからの音声が入力されていない場合)に、DSRを終了させると共に上記の制御を終了させることとしてもよい。また、制御部16は、DSRを終了とあわせてLSRを開始させる。
具体的には、制御部16は、送受信部14、ローカル音声認識部13及びエコーキャンセラ12に対して、制御前の状態に戻すよう指示する。これにより、送受信部14と携帯端末20との間の近距離無線通信のプロトコルが、HFPからA2DPに変更される。また、スピーカ108からの音声出力の音量が、制御前の音量にされる。また、エコーキャンセラ12によるフィルタの更新が行われる。また、制御部16は、エコーキャンセラ12に対して、エコー除去後の音声の出力先を送受信部14からローカル音声認識部13に変更させる。以上が、音声操作デバイス10の機能である。
図2に本実施形態に係る音声操作デバイス10のハードウェア構成を示す。図2に示すように、音声操作デバイス10は、CPU(Central Processing Unit)101、主記憶装置であるRAM(RandomAccess Memory)102及びROM103(Read Only Memory)、操作モジュール104、近距離無線通信モジュール105、近距離無線通信用アンテナ106、マイク107並びにスピーカ108等のハードウェアにより構成されている。これらの構成要素がプログラム等により動作することにより、上述した音声操作デバイス10の各機能が発揮される。以上が、音声操作デバイス10の構成である。
引き続いて、図3のフローチャートを用いて、本実施形態に係る音声操作デバイス10で実行される処理(音声操作デバイス10の動作方法)を説明する。本処理の開始時には、音声操作デバイス10では、携帯端末20から音楽のデータが受信されて、スピーカ108から音声出力がなされている(音楽の再生がなされている)。また、エコーキャンセラ12では、音声出力される音声に基づいてフィルタの更新が行われている。また、ユーザの音声に対して、LSRが行われる状態となっている。
本処理では、まず、音声入力部11によって、マイク107を介してユーザから発せられた音声が入力される(S01)。入力された音声は、音声入力部11からエコーキャンセラ12に出力される。続いて、エコーキャンセラ12によって、入力された音声のエコー除去(エコーキャンセル)が行われる(S02)。エコー除去後の音声は、エコーキャンセラ12からローカル音声認識部13に出力される。続いて、ローカル音声認識部13によって、エコーキャンセラ12から入力した音声に対してLSRが行われる(S03)。続いて、ローカル音声認識部13によって、LSRの結果に基づいて、当該音声中のキーワードの検出が行われる(S04)。
当該音声中にキーワードが検出されなかった場合(当該音声がキーワードを含まない、あるいはキーワードと一致していないと判断した場合)(S04のNO)、引き続き、ユーザの音声が入力されて、上記のLSRの処理が行われる(S01〜S04)。
当該音声中にキーワードが検出された場合(当該音声がキーワードを含む、あるいはキーワードと一致していると判断した場合)(S04のYES)、DSRを行うと判断される。その旨が、ローカル音声認識部13からエコーキャンセラ12及び制御部16に通知される。当該通知を受けたエコーキャンセラ12では、以降のエコー除去後の音声が送受信部14に出力される。また、当該通知を受けた制御部16によって、適切に音声認識を行うことができるよう制御が行われる。
具体的には、制御部16から音声出力部15に対して、音声出力の音量(再生音のボリューム)を下げる指示が行われる。音声出力部15では、当該指示が受け付けられて、スピーカ108からの音声出力の音量が下げられる(S05)。また、制御部16からエコーキャンセラ12に対して、フィルタの更新の停止させる指示が行われる。エコーキャンセラ12では、当該指示が受け付けられて、フィルタの更新が停止される(S06)。また、制御部16から送受信部14に対して、携帯端末20との間の近距離無線通信のプロトコルをA2DPからHFPに変更させる指示が行われる。送受信部14では、当該指示が受け付けられて、携帯端末20との間の近距離無線通信のプロトコルがA2DPからHFPに変更される(S07)。なお、上記のS05〜S07は、必ずしも上記の順番で行われる必要はない。
続いて、音声入力部11によって、マイク107を介してユーザから発せられた音声が入力される(S08)。入力された音声は、音声入力部11からエコーキャンセラ12に出力される。続いて、エコーキャンセラ12によって、入力された音声のエコー除去(エコーキャンセル)が行われる(S09)。エコー除去後の音声は、エコーキャンセラ12から送受信部14に出力される。続いて、送受信部14によって、エコーキャンセラ12から入力した音声が近距離無線通信によって携帯端末20に送信される(S10)。
携帯端末20では、当該音声が受信されて、当該音声に対して音声認識が行われる。音声認識結果は、携帯端末20から音声操作デバイス10に近距離無線通信によって送信される。音声操作デバイス10では、送受信部14によって、音声認識結果が受信される(S11)。受信された音声認識結果は、例えば、音声出力部15に出力されて、機能の実行(音声操作デバイス10の音声操作)に用いられる。
続いて、制御部16によって、DSRを終了させるか否かが判断される(S12)。DSRを終了させないと判断された場合(S12のNO)、引き続き、ユーザの音声が入力されて、上記のDSRの処理が行われる(S08〜S12)。DSRを終了させると判断された場合(S12のYES)、制御部16から送受信部14、ローカル音声認識部13及びエコーキャンセラ12に対して、制御前の状態に戻すよう指示が行われる。送受信部14、ローカル音声認識部13及びエコーキャンセラ12では、当該指示が受け付けられて、制御前の状態に戻される(S13)。また、制御部16からの指示により、エコーキャンセラ12からのエコー除去後の音声の出力先が、送受信部14からローカル音声認識部13に変更される。これにより、LSRが行われる状態となり、S01からの処理が繰り返される。以上が、本実施形態に係る音声操作デバイス10で実行される処理である。
上述したように本実施形態では、LSRからDSRに切り替えられる場合に音声に関する予め設定された制御が行われため、DSRが行いやすい状態(音声認識しやすい状態)にすることができる。これにより、本発明に係る音声処理装置によれば、適切に音声認識を行うことができる。
具体的には、本実施形態のように近距離無線通信のプロトコルを設定(変更)することとしてもよい。この構成によれば、LSRが行われる場合と、DSRが行われる場合とで、プロトコルを切り替えることができる。これにより、各場合に合ったプロトコルにすることができる。例えば、本実施形態のようにDSRが行われない場合には、音声操作デバイス10に対して高品質な音楽のデータを送信できるA2DPといったプロトコルを用いて、DSRが行われる場合には、双方向のデータを送信できるHFPといったプロトコルを用いることができる。
従って、DSRが行われる場合には、音声を携帯端末20に送信することを可能とする一方、DSRが行われず、音声を送信する必要がない場合には、それに適したプロトコルとすることができる。従って、それぞれの場合に適切な近距離無線通信を行うことができ、LSRからDSRに切り替えられる場合に適切に音声の送信を行うことができる。
また、本実施形態のように音声出力の音量を変更することとしてもよい。この構成によれば、例えば、本実施形態のように音楽の音声出力を行いつつ(音楽の再生を行いつつ)、DSRが行われる場合に適切に音声を入力することができる。
また、本実施形態のようにエコーキャンセラ12のフィルタの更新の範囲を制限する(例えば、上述したように当該フィルタの更新の停止)こととしてもよい。この構成によれば、例えば、本実施形態のように音楽の音声出力を行いつつ、DSRが行われる場合にエコーの除去を行うことができ、適切に音声認識のための音声を取得することができる。
なお、上記の各制御は、必ずしも全て行われる必要はなく、何れか1つあるいは2つのみが行われてもよい。また、本実施形態では、音声の送信先が、携帯端末20であることとしたが、携帯端末20以外の装置であってもよい。また、本実施形態では、音楽のデータは、携帯端末20から受信することとしたが、音声操作デバイス10において予め音楽のデータを記憶しておき、それを読み出して音声出力のために入力することとしてもよい。また、本実施形態では、音声操作デバイス10では、音楽の再生を行う機能を有しており、音楽の再生を行いつつLSR及びDSRを行うものとしたが、LSR及びDSRが行われる際に音楽の再生以外の機能が実行されてもよい。
10…音声操作デバイス、11…音声入力部、12…エコーキャンセラ、13…ローカル音声認識部、14…送受信部、15…音声出力部、16…制御部、101…CPU、102…RAM、103…ROM、104…操作モジュール、105…近距離無線通信モジュール、106…近距離無線通信用アンテナ、107…マイク、108…スピーカ、20…携帯端末。

Claims (4)

  1. 音声認識対象の音声を入力する音声入力手段と、
    前記音声入力手段によって入力された前記音声認識対象の音声に対してLSRを行って、当該LSRの結果に基づいてDSRを行うか否かを判断する判断手段と、
    前記判断手段によってDSRを行うと判断された場合に、前記音声認識対象の音声を、音声認識を行う装置に送信する音声送信手段と、
    前記判断手段によってDSRを行うと判断された場合に、音声に関する予め設定された制御を行う制御手段と、
    を備える音声処理装置。
  2. 前記音声送信手段は、近距離無線通信によって前記音声認識対象の音声を送信し、
    前記制御手段は、前記近距離無線通信のプロトコルを予め設定されたプロトコルに設定する、請求項1に記載の音声処理装置。
  3. 前記音声認識対象以外の音声を入力して音声出力する音声出力手段を更に備え、
    前記制御手段は、前記音声出力の音量を変更する、請求項1又は2に記載の音声処理装置。
  4. 前記音声認識対象以外の音声を入力して音声出力する音声出力手段と、
    前記音声出力される音声に基づいてフィルタを更新して、当該フィルタを用いて、前記音声入力手段によって入力された前記音声認識対象の音声のエコー除去を行うエコー除去手段と、を更に備え、
    前記制御手段は、前記エコー除去手段によるフィルタの更新の範囲を制限する、請求項1〜3の何れか一項に記載の音声処理装置。
JP2016020631A 2016-02-05 2016-02-05 音声処理装置 Pending JP2017138536A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016020631A JP2017138536A (ja) 2016-02-05 2016-02-05 音声処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016020631A JP2017138536A (ja) 2016-02-05 2016-02-05 音声処理装置

Publications (1)

Publication Number Publication Date
JP2017138536A true JP2017138536A (ja) 2017-08-10

Family

ID=59566795

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016020631A Pending JP2017138536A (ja) 2016-02-05 2016-02-05 音声処理装置

Country Status (1)

Country Link
JP (1) JP2017138536A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020118857A (ja) * 2019-01-24 2020-08-06 Toto株式会社 浴室システム
US10861448B2 (en) 2018-09-20 2020-12-08 Hyundai Motor Company In-vehicle voice recognition apparatus and method of controlling the same
JP2021521497A (ja) * 2018-05-04 2021-08-26 グーグル エルエルシーGoogle LLC 検出された口運動および/または注視に基づく自動化アシスタントの適応
WO2022131018A1 (ja) * 2020-12-17 2022-06-23 ソニーグループ株式会社 通信装置、および通信方法、情報処理装置、通信システム、並びにプログラム
US11493992B2 (en) 2018-05-04 2022-11-08 Google Llc Invoking automated assistant function(s) based on detected gesture and gaze
US11688417B2 (en) 2018-05-04 2023-06-27 Google Llc Hot-word free adaptation of automated assistant function(s)
JP7471279B2 (ja) 2018-05-04 2024-04-19 グーグル エルエルシー 検出された口運動および/または注視に基づく自動化アシスタントの適応

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021521497A (ja) * 2018-05-04 2021-08-26 グーグル エルエルシーGoogle LLC 検出された口運動および/または注視に基づく自動化アシスタントの適応
US11493992B2 (en) 2018-05-04 2022-11-08 Google Llc Invoking automated assistant function(s) based on detected gesture and gaze
US11614794B2 (en) 2018-05-04 2023-03-28 Google Llc Adapting automated assistant based on detected mouth movement and/or gaze
US11688417B2 (en) 2018-05-04 2023-06-27 Google Llc Hot-word free adaptation of automated assistant function(s)
JP7471279B2 (ja) 2018-05-04 2024-04-19 グーグル エルエルシー 検出された口運動および/または注視に基づく自動化アシスタントの適応
US10861448B2 (en) 2018-09-20 2020-12-08 Hyundai Motor Company In-vehicle voice recognition apparatus and method of controlling the same
JP2020118857A (ja) * 2019-01-24 2020-08-06 Toto株式会社 浴室システム
JP7242001B2 (ja) 2019-01-24 2023-03-20 Toto株式会社 浴室システム
WO2022131018A1 (ja) * 2020-12-17 2022-06-23 ソニーグループ株式会社 通信装置、および通信方法、情報処理装置、通信システム、並びにプログラム

Similar Documents

Publication Publication Date Title
JP2017138536A (ja) 音声処理装置
KR102268327B1 (ko) 비동기식 멀티모드 메시징 시스템 및 방법
US20200082826A1 (en) Command and control of devices and applications by voice using a communication base system
US9824685B2 (en) Handsfree device with continuous keyword recognition
JP6318621B2 (ja) 音声処理装置、音声処理システム、音声処理方法、音声処理プログラム
KR20190075800A (ko) 지능형 개인 보조 인터페이스 시스템
CN107622768B (zh) 音频截剪器
KR20200052638A (ko) 전자 장치 및 전자 장치의 음성 인식 방법
WO2018135276A1 (ja) 言動制御装置、ロボット、制御プログラムおよび言動制御装置の制御方法
EP4289129A1 (en) Systems and methods of handling speech audio stream interruptions
JP5251588B2 (ja) 携帯電話端末装置及び通話伝達の判断方法
JP2019184809A (ja) 音声認識装置、音声認識方法
JP6817386B2 (ja) 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末
JP2015002394A (ja) 情報処理装置及びコンピュータプログラム
US11699438B2 (en) Open smart speaker
JP2019110447A (ja) 電子機器、電子機器の制御方法、及び、電子機器の制御プログラム
JP2018185758A (ja) 音声対話システムおよび情報処理装置
EP3089160B1 (en) Method and apparatus for voice control of a mobile device
JP2014202800A (ja) 音声認識制御装置
JP4487993B2 (ja) 車両ハンズフリーシステム
KR20190043576A (ko) 통신 장치
JP2016218200A (ja) 電子機器制御システム、サーバー、及び、端末装置
JP2013135462A (ja) 携帯端末、制御方法、及びプログラム
JP2007306205A (ja) グループ通話装置
JP2015052749A (ja) 音声認識システム