JP7410754B2

JP7410754B2 - 音声入出力装置、音声入出力方法、および音声入出力プログラム

Info

Publication number: JP7410754B2
Application number: JP2020037079A
Authority: JP
Inventors: 裕也関口; 涼小林; 光憲田中
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2024-01-10
Anticipated expiration: 2040-03-04
Also published as: JP2021140010A

Description

本発明は、音声入出力装置、音声入出力方法、および音声入出力プログラムに関する。

音声認識で操作するテレビジョン装置、ＨＤマイクロフォン（hand-held digital microphone)等の音声入出力装置が公知である。当該音声入出力装置において、音声認識率を高めるために、音声入出力装置の内部スピーカから発する入力信号音声をキャンセルして、ユーザが発する音声のみを抽出する技術（以下、エコーキャンセル技術とも呼ぶ）が特許文献１に開示されている。

特開２０１２－１８１３７４公報（２０１２年９月２０日公開）

しかし、高音質の音声を楽しむために、上記音声入出力装置を外部スピーカに接続して用いる場合がある。この場合には、内部スピーカと外部スピーカとは、配置位置、即ち、スピーカから音声入出力装置のマイクまでの経路が異なる。また、音声入出力装置からの音声信号を、スピーカを駆動する信号に変換する音声調整処理の特性が、外部スピーカと内部スピーカとでは異なる。このため、外部スピーカが発する入力信号音声に対しては、リファレンスとなる周波数成分のデータがないために、エコーキャンセル処理を完全に行うことができない。その結果、音声認識率が上がらないという問題がある。

上記の課題に鑑み、本発明の一態様では、外部スピーカに接続された音声入出力装置において、エコーキャンセル処理を充分に行い、音声認識率を高めることのできる技術を提供することを目的とする。

上記の課題を解決するために、本発明の一態様に係る音声入出力装置は、入力信号に含まれる入力信号音声に対して音声調整処理を行う第１音声処理部と、前記第１音声処理部による音声調整処理が施された入力信号音声を出力する第１音声出力部と、ユーザからの音声を示す音声信号を取得するユーザ音声取得部と、前記ユーザ音声取得部が取得した音声信号が示す音声から、前記第１音声処理部による音声調整処理が施された音声成分を取り除く処理を行う音声除去部と、を備え、前記入力信号音声は、前記ユーザ音声取得部が前記ユーザからの音声入力を取得しない場合に、前記第１音声出力部とは異なる第２音声出力部から出力され、前記ユーザ音声取得部が前記ユーザからの音声入力を取得した場合に、前記第１音声処理部による音声調整処理が施された上で前記第１音声出力部から出力される。

上記の課題を解決するために、本発明の一態様に係る音声入出力装置は、入力信号に含まれる入力信号音声に対して音声調整処理を行う第１音声処理部と、前記第１音声処理部による音声調整処理が施された入力信号音声を出力する第１音声出力部と、ユーザからの音声を示す音声信号を取得するユーザ音声取得部と、前記ユーザ音声取得部が取得した音声信号が示す音声から、前記第１音声処理部による音声調整処理が施された音声成分を取り除く処理を行う音声除去部と、前記音声除去部での処理を施した後の音声に基づいて、音声認識処理を行う音声認識部と、を備え、前記入力信号音声は、前記音声認識部が音声認識処理を開始するトリガーとなるトリガーワードを取得しない場合に、前記第１音声出力部とは異なる第２音声出力部から出力され、前記音声認識部が前記トリガーワードを取得した場合に、前記第１音声処理部による音声調整処理が施された上で前記第１音声出力部から出力される。

上記の課題を解決するために、本発明の一態様に係る音声入出力方法は、入力信号に含まれる入力信号音声に対して第１の音声調整処理を行う第１音声処理ステップと、前記第１音声処理が施された入力信号音声を出力する第１音声出力ステップと、ユーザからの音声を示す音声信号を取得するユーザ音声取得ステップと、前記ユーザ音声取得ステップにおいて取得した音声信号が示す音声から、前記第１音声処理が施された音声成分を取り除く処理を行う音声除去ステップと、を含む音声入出力方法であって、前記入力信号音声は、前記ユーザ音声取得ステップにおいて前記ユーザからの音声入力を取得しない場合に、前記第１音声出力ステップとは異なる第２音声出力ステップにおいて出力され、前記ユーザ音声取得ステップにおいて前記ユーザからの音声入力を取得した場合に、前記第１音声処理が施された上で前記第１音声出力ステップにおいて出力される。

本発明の一態様によれば、音声入出力装置が音声認識処理を行う間は、音声入出力装置の入力信号音声を第２音声出力部（外部スピーカ）から第１音声出力部（内部スピーカ）に切り替えて出力する。このため、音声除去部がエコーキャンセル処理を完全に行うことができ、音声認識率を上げることができる。また、音声入出力装置が音声認識を行っていない間は、ユーザは、第２音声出力部（外部スピーカ）からの音声を楽しむことができる。

本発明の実施形態１に係る音声入出力装置１０を含む音声入出力システム１００の要部構成を示すブロック図である。本発明の実施形態１に係る音声入出力システム１００における音声処理の流れを示すフローチャートである。本発明の実施形態２に係る音声入出力装置１０を含む音声入出力システム１００要部構成を示すブロック図である。本発明の実施形態２に係る音声入出力システム１００における音声処理の流れを示すフローチャートである。

〔実施形態１〕
以下、本発明の一側面に係る実施の形態（以下、「本実施形態」とも表記する）を、図面に基づいて説明する。図１は実施形態１に係る音声入出力装置（例えば、テレビジョン装置）１０および音声入出力装置１０に接続される外部スピーカシステム２０からなる音声入出力システム１００の要部構成を示すブロック図である。実施形態１に係る音声入出力システム１００は、音声認識によって操作することができるシステムである。

図１に示すように、音声入出力装置（テレビジョン装置）１０は、デコード部１１、第１音声処理部１２、第１音声出力部（内部スピーカ）１３、ユーザ音声取得部（マイク）１４、音声除去部（エコーキャンセル部）１５、および音声認識部１６を備える。なお、上記デコード部１１、第１音声処理部１２、音声除去部１５、および音声認識部１６を合わせて制御部１７とする。

音声入出力装置１０のデコード部１１は、アンテナ（図示せず）で受信した放送用入力信号をデジタル信号に変換する。デジタル信号に変換された入力信号は、第１音声処理部１２に供給される。

第１音声処理部１２は、入力信号に含まれる入力信号音声に対して、音声調整処理を行う。例えば、第１音声処理部１２では、第１音声出力部（内部スピーカ）１３の特性およびユーザが設定した音声モード（例えば、映画モード、ダイナミックモード等）に合わせて、音声調整処理を行う。例えば、周波数成分ごとに音質を均質化（イコライズ）してもよい。前記第１音声処理部１２による音声調整処理が施された入力信号音声は、第１音声出力部１３および音声除去部１５に供給される。

第１音声出力部（内部スピーカ）１３は、音声調整処理が施された入力信号音声をアナログ信号に復号して出力する。

ユーザ音声取得部（マイクロフォン）１４は、ユーザからの音声を示す音声信号を取得する。ユーザ音声取得部１４は、また、第２音声出力部（第２スピーカ）２２から音声が出力されている場合には、第２音声出力部（第２スピーカ）２２からの音声成分をも取得する。

音声除去部１５は、前記ユーザ音声取得部１４が取得した音声信号が示す音声から、前記第１音声処理部１２による音声調整処理が施された音声成分を取り除く処理（以下では、エコーキャンセル処理とも呼ぶ）を行う。エコーキャンセル処理が施された音声信号は、音声認識部１６に供給される。

音声認識部１６は、エコーキャンセル処理が施された音声信号に基づいて、音声入出力装置１０の制御のための音声認識を行う。例えば、予め特定の音声コマンド（音声認識結果）と対応づけられた操作コマンドを音声入出力装置１０の動作制御部（図示せず）に供給する。動作制御部では、音声入出力装置（テレビジョン装置）１０のチャンネル切替え、音量の変更、入力の切替え、および画面モードの切替え等の操作を行う。

音声入出力装置１０は、接続ケーブルを介して外部スピーカシステム２０に接続可能に構成されている。図１に示すように、外部スピーカシステム２０は、第２音声処理部２１および第２音声出力部２２を備える。

音声入出力装置１０のデコード部１１でデジタル信号に変換された音声信号は、接続ケーブルを介して、第２音声処理部２１に送信される。第２音声処理部２１は、前記入力信号に含まれる入力信号音声に対して前記第１音声処理部１２とは異なる音声調整処理を行う。例えば、第２音声処理部２１は、第２音声出力部（外部スピーカ）２２の特性に合わせた音声調整処理を行う。第２音声出力部２２は、第２音声処理部２１で音声調整処理を施された入力信号音声を出力する。

前記入力信号音声は、ユーザ音声取得部１４が前記ユーザからの音声入力を取得しない場合に、第１音声出力部１３とは異なる第２音声出力部２２から出力される。この場合、ユーザ音声取得部１４には、第２音声処理部２１による音声調整処理が施された音声成分が入力される。音声入出力装置１０では、第２音声処理部２１による音声調整処理が施された音声成分に関するデータがないため、音声除去部１５では、第２音声処理部２１による音声調整処理が施された音声成分のエコーキャンセル処理を充分に行うことができない。しかし、音声認識部１６で音声認識処理を行わない場合には、問題は生じない。

したがって、ユーザは、音声入出力装置１０（音声認識部１６）において音声認識が行われていない間、第２音声出力部２２から出力される高音質の音声を楽しむことができる。

これに対して、ユーザ音声取得部１４がユーザからの音声入力を取得した場合は、入力音声は、前記第１音声処理部１３による音声調整処理が施された上で、第１音声出力部１３から出力される。音声認識部１６は音声認識処理を行う。したがって、音声認識率を高めるために、音声除去部１５においてエコーキャンセル処理を充分に行う必要がある。この場合、音声出力は、第２音声出力部２２から第１音声出力部１３に切り替えられるため、音声除去部１５には、第１音声処理部１２による音声調整処理が施された音声成分が混じったユーザの音声が供給される。したがって、音声除去部１５は、ユーザ音声取得部１４から供給されたユーザの音声から、第１音声処理部１２で音声調整処理が施された音声成分を除去すればよい。第１音声処理部１２での周波数成分データは、音声入出力装置１０で取得できるため、音声除去部１５は、第１音声処理部１２で音声調整処理が施された音声成分を充分に除去することができる。その結果、音声認識部１６における音声認識率を充分高めることができる。また、第１音声出力部１３からの出力と第２音声出力部２２からの出力とが切り替わる場合においては、音量に関する設定変更を行わなくてもよい。このため、ユーザは、音声認識が行われている間も、充分な音量で、第1音声出力部１３からの音声を聴くことができる。

次に、図２を参照して、本実施形態に係る音声入出力システム１００における音声処理の流れを説明する。本実施形態では、入力信号音声は、音声認識部１６が音声認識処理を開始するトリガーとなるトリガーワードを取得しない場合に、第１音声出力部１３とは異なる第２音声出力部２２から出力される。音声認識部１６が前記トリガーワードを取得した場合に、入力信号音声は、第１音声処理部１２による音声調整処理が施された上で第１音声出力部１３から出力されるとともに、音声認識部１６が音声認識処理を開始する。例えば、トリガーワードとして予め設定されている「ハローアクオス」（「アクオス」はシャープ株式会社の登録商標）をユーザ音声取得部１４が取得し、音声認識部１６が当該ワードを検出することをトリガーとして、音声入出力装置１０が音声認識処理を開始する。

音声入出力システム１００の処理がスタートすると、ステップＳ１０では、音声認識部１６が予め設定されたトリガーワードの検出を待つ。音声認識部１６は、音声認識開始の合図に用いるトリガーワードを認識するための図示しない記憶部に格納されたデータベース、または図示しないクラウド上のデータベースを参照して、トリガーワードの検出を行う。この時点では、音声入力信号は、外部スピーカシステム２０の第２音声出力部２２から出力されている。

ステップＳ１２では、音声入出力装置１０の制御部１７が、音声認識部１６がトリガーワードを検出したか否かを判定する。音声認識部１６は、ユーザ音声取得部１４に入力された音声が音声除去部１５でエコーキャンセル処理を施された後の音声から、トリガーワードを検出する。音声認識部１６がトリガーワードを検出したと判定された場合（ステップＳ１２でＹＥＳ）、ステップＳ１４以下の処理に進み、音声認識処理を開始する。この場合、入力信号音声は、第１音声処理部１２による音声調整処理が施された上で第１音声出力部１３から出力される。音声認識部１６がトリガーワードを認識したと判定されなかった場合（ステップＳ１２でＮＯ）は、ステップＳ１０に戻り、再び、音声認識部１６がトリガーワードの検出を待つ状態となる。この場合、入力信号音声は、第１音声出力部１３とは異なる第２音声出力部２２から出力される。

ステップＳ１４では、制御部１７が、音声出力を、第２音声出力部２２から第１音声出力部（内部スピーカ）１３に切り替えて、ステップＳ１６に進む。

ステップＳ１６では、音声認識部１６が、ユーザからの音声による質問または指示の待ち受け状態となる。

ステップＳ１８では、音声認識部１６が、ユーザからの質問または指示を受ける。ここで、音声認識部１６は、音声入出力装置１０の操作コマンド用の図示しない記憶部に格納されたデータベースを用意しておき、操作コマンド用データベースを参照して、ユーザからの質問または指示の内容を認識する。または、図示しないインターネットを通じて、クラウド上のデータベースにユーザ音声データを送り、ユーザからの質問または指示の内容を認識する。続いて、ステップＳ２０に進む。

ステップＳ２０では、音声入出力装置１０の音声認識部１６が、ユーザからの質問、指示に対する回答結果を図示しない画面に表示するか、またはユーザからの質問、指示に対し応答する。続いて、ステップＳ２２に進む。

ステップＳ２２では、制御部１７が、音声認識部１６がユーザからの音声認識終了を示す質問または指示を検出したか否かを判定する。ステップＳ２２で、音声認識部１６が音声認識終了の質問または指示を検出したと判定された場合（ステップＳ２２でＹＥＳ）、ステップＳ２４に進む。

ステップＳ２２で、音声認識部１６が音声認識処理の終了を示す質問または指示を認識したと判定されなかった場合（ステップＳ２２でＮＯ）、ステップＳ１６に戻り、再び、ユーザからの質問／指示を待ち受ける状態となる。

なお、音声認識部１６が音声認識を終了するタイミングとしては、音声認識終了を示す質問または指示を検出していなくても、最後のユーザ音声が入力されてから一定時間経過した場合に、音声認識処理を終了する構成としてもよい。

ステップＳ２４では、音声認識部１６が音声認識処理を終了したため、制御部１７が、音声出力を第１音声出力部１３から第２音声出力部２２に切り替える。

上記実施形態では、音声認識部１６が音声認識を行っている間は、入力信号音声は第１音声出力部１３から出力され、第２音声出力部２２からの音声出力を停止する。このため、音声除去部１５には、第１音声処理部１２による音声調整処理が施された入力信号音声およびユーザ音声取得部１４が取得した音声処理のみが供給される。したがって、音声除去部１５においては、ユーザ音声取得部１４が取得した音声信号が示す音声から、第１音声処理部１２による音声調整処理が施された音声成分を取り除くエコーキャンセル処理を行えばよい。このため、音声除去部１５において、エコーキャンセル処理を充分に行うことができ、音声認識部１６における音声認識率を高めることができる。また、音声認識部１６が音声認識を行っていない間は、入力信号音声は第２音声出力部２２から出力される。このため、ユーザは第２音声出力部２２から出力される高音質の音声を楽しむことができる。

なお、下記表１には、音声入出力装置１０を外部スピーカシステム２０に接続した場合と、外部スピーカシステム２０に接続していない場合の、音声認識部１６における音声認識率の実験データを示している。表１から読み取れるように、音声入出力装置１０を外部スピーカシステム２０に接続せず、第１音声出力部１３（内部スピーカ）から音声を出力する場合には、音声認識率は８７．７％と非常に高い値を示す。これに対して、音声入出力装置１０を外部スピーカシステム２０に接続し、第２音声出力部２２（外部スピーカ）から音声を出力する場合には、音声認識率は４２．３％と大幅に低下することが分かる。

本願発明においては、音声認識部１６が音声認識を行う間は、音声出力を第２音声出力部２２（外部スピーカ）から第１音声出力部１３（内部スピーカ）に切り替える。このため、音声認識部１６において、高い音声認識率で音声認識を行うことができる。

〔実施形態２〕
上記実施形態１では、音声認識部１６が、ユーザ音声取得部（マイクロフォン）１４から入力されるトリガーワードを認識することをトリガーとして音声認識処理を開始する音声入出力装置１０の実施形態について説明した。本実施形態では、上記実施形態１の構成に替えて、撮影部（たとえば、カメラ）１８がユーザによって行われた所定のジェスチャを検出する、または、リモートコントローラ３０に特定の操作がなされたことをトリガーとして、音声認識処理を開始する音声入出力装置１０について説明する。

まず、図３を参照して、本実施形態に係る音声入出力装置１０および外部スピーカシステム２０からなる音声入出力システム１００の構成について説明する。

図３に示すように、本実施形態の音声入出力システム１００は、撮影部１８およびリモートコントローラ３０を備えている。しかし、それ以外の構成要素については実施形態１に係る音声入出力システム１００の構成要素と同じであるため、これらの構成要素については説明を省略する。なお、撮影部１８は、音声入出力装置１０の内部に備えられてもよいし、音声入出力装置１０と別体であってもよい。

撮影部１８は、音声入出力装置１０の周囲を撮影する。

ユーザ音声取得部１４は、撮影部１８が撮影した動画像内において、ユーザによって行われた所定のジェスチャが検出されたことに応答して、ユーザからの音声を示す音声信号を取得する処理を開始してもよい。上記所定のジェスチャは、例えば、ユーザの手の動きまたは唇の動き（リップシンク）等を含んでもよい。

また、ユーザ音声取得部１４は、当該音声入出力装置１０の操作を行うためのリモートコントローラ３０において、所定の操作が行われたことに応答して、ユーザからの音声を示す音声信号を取得する処理を開始してもよい。例えば、リモートコントローラ３０の音声認識開始用ボタンの押下をトリガーとしてユーザからの音声を示す音声信号を取得する処理を開始してもよい。

また、本実施形態に係る音声入出力装置１０は、上記撮影部１８が撮影したユーザの所定のジェスチャおよびリモートコントローラ３０の所定の操作のうち、どちらか一方のみをユーザからの音声を示す音声信号を取得する処理を開始するトリガーとしてもよい。あるいは、上記撮影部１８が撮影したユーザの所定のジェスチャおよびリモートコントローラ３０の所定の操作の両方をユーザからの音声を示す音声信号を取得する処理のトリガーとしてもよい。いずれの場合にも、ユーザからの音声を示す音声信号を取得する処理が開始されると、制御部１７は、第２音声出力部２２からの出力から、第１音声出力部１３からの出力に切り替える。

次に、図４を参照して、本実施形態における音声入出力システム１００における処理の流れについて説明する。

音声入出力システム１００が起動すると、ステップＳ１１０では、音声認識部１６が音声認識処理を開始する指示がなされるのを待つ。この時点では、入力信号音声は、外部スピーカシステム２０の第２音声出力部２２から出力されている。

ステップＳ１１２では、制御部１７が、音声認識処理開始のための指示があったか否かを判定する。音声認識処理開始のための指示には、上述したように、撮影部１８で捕捉したユーザによって行われる所定のジェスチャ（たとえば、リップシンク）またはリモートコントローラ３０での所定の操作が含まれてもよい。制御部１７が、音声認識処理開始のための指示があったと判定した場合（ステップＳ１１２でＹＥＳ）、音声認識部１６が音声認識処理を開始し、ステップＳ１１４に進む。制御部１７が音声認識処理開始のための指示があったと判定しなかった場合（ステップＳ１１２でＮＯ）は、ステップＳ１１０に戻って、音声認識部１６が音声認識処理開始のための指示を待つ。

ステップＳ１１４では、制御部１７が、音声出力を、第２音声出力部２２から第１音声出力部１３に切り替える。その後、ステップＳ１１６に進む。

ステップＳ１１６では、ユーザ音声取得部１４がユーザからの音声を示す音声信号を取得し、音声除去部１５がーザ音声取得ステップにおいて取得した音声信号が示す音声から、前記第１音声処理が施された音声成分を取り除く処理を行った後の音声が、音声認識部１６に入力される。続いて、ステップＳ１１８に進む。

ステップＳ１１８では、音声認識部１６が、予め用意された音声認識用のデータベースに基づいて、入力された音声について音声認識結果（音声認識コマンド）を検出する。続いて、ステップＳ１２０に進む。

ステップＳ１２０では、制御部１７が、音声認識処理終了のための指示があったか否かを判定する。ステップＳ１２０で、制御部１７が音声認識処理終了のための指示があったと判定した場合（ステップＳ１２０でＹＥＳ）は、ステップＳ１２２に進む。ステップＳ１２０で、制御部１７が音声認識終了のための指示があったと認識しなかった場合（ステップＳ１２０でＮＯ）、ステップＳ１１６に戻り、再び、音声認識部１６が音声認識の入力を待ち受ける状態となる。

ステップＳ１２２では、制御部１７が、音声出力を第１音声出力部１３から第２音声出力部２２に戻す。

以上で、一連の処理を終了する。

本実施形態では、撮影部１８が音声認識を開始するトリガーとなる撮影部１８でユーザによって行われる所定のジェスチャを捕捉した時点、またはリモートコントローラ３０での所定の操作がなされた時点で、制御部１７は、音声出力を、第２音声出力部２２から第１音声出力部１３に切り替える。したがって、本実施形態の構成によれば、音声認識を開始するためのトリガーが認識される可能性が高い。

つまり、上記実施形態１では、トリガーワードを検出する際に、第２音声出力部２２から出力音声信号が出力されている。したがって、第２音声出力部２２から出力される音声がユーザ音声取得部１４に入力されてしまい、音声除去部１５においてエコーキャンセル処理を完全に行うことができない。このため、音声認識部１６がトリガーワードを認識できず、音声認識処理を開始できない場合がありうる。

これに対して、本実施形態では、音声認識を開始するためのトリガーがユーザ音声取得部１４で取得されるユーザの音声以外の手段であるため、第２音声出力部２２から入力信号音声が出力されている状態であっても、音声認識開始のためのトリガーの認識に失敗する可能性が低い。

〔まとめ〕
〔態様１〕
上記の課題を解決するために、本発明の一態様に係る音声入出力装置は、入力信号に含まれる入力信号音声に対して音声調整処理を行う第１音声処理部と、前記第１音声処理部による音声調整処理が施された入力信号音声を出力する第１音声出力部と、ユーザからの音声を示す音声信号を取得するユーザ音声取得部と、前記ユーザ音声取得部が取得した音声信号が示す音声から、前記第１音声処理部による音声調整処理が施された音声成分を取り除く処理を行う音声除去部と、を備え、前記入力信号音声は、前記ユーザ音声取得部が前記ユーザからの音声入力を取得しない場合に、前記第１音声出力部とは異なる第２音声出力部から出力され、前記ユーザ音声取得部が前記ユーザからの音声入力を取得した場合に、前記第１音声処理部による音声調整処理が施された上で前記第１音声出力部から出力される。

上記の構成によれば、ユーザ音声取得部がユーザからの音声入力を取得した（音声認識が行われる）場合には、第２音声出力部からの音声出力が停止され、音声除去部には、第１音声処理部による音声調整処理が施された音声成分が混じったユーザからの音声を示す音声信号のみがユーザ音声取得部１４から入力される。このため、音声除去部において、第１音声処理部による音声調整処理が施された音声成分を充分に除去することができ、その結果、音声認識部における音声認識率を高めることができる。また、音声入出力装置が音声認識中でも、ユーザは第１音声出力部からの音声を聴くことができる。一方で、ユーザ音声取得部がユーザからの音声入力を取得しない（音声認識が行われない）場合には、ユーザは第２音声出力部からの高音質の音声を楽しむことができる。

〔態様２〕
入力信号に含まれる入力信号音声に対して音声調整処理を行う第１音声処理部と、前記第１音声処理部による音声調整処理が施された入力信号音声を出力する第１音声出力部と、ユーザからの音声を示す音声信号を取得するユーザ音声取得部と、前記ユーザ音声取得部が取得した音声信号が示す音声から、前記第１音声処理部による音声調整処理が施された音声成分を取り除く処理を行う音声除去部と、前記音声除去部での処理を施した後の音声に基づいて、音声認識処理を行う音声認識部と、を備え、前記入力信号音声は、前記音声認識部が音声認識処理を開始するトリガーとなるトリガーワードを取得しない場合に、前記第１音声出力部とは異なる第２音声出力部から出力され、前記音声認識部が前記トリガーワードを取得した場合に、前記第１音声処理部による音声調整処理が施された上で前記第１音声出力部から出力される。

上記の構成によれば、音声認識部における音声認識処理を開始するための、特別な機構を備えなくとも、音声認識処理を開始することができる。

〔態様３〕
上記一態様に係る音声入出力装置において、前記第２音声処理部は、当該音声入出力装置とは異なる装置が備えていてもよい。

上記の構成によれば、音声入出力装置を外部スピーカシステムと接続した場合に、音声入出力装置が音声認識を行っていない間、ユーザは、外部スピーカからの高音質の音声を楽しむことができる。

〔態様４〕
上記一態様に係る音声入出力装置において、当該音声入出力装置とは異なる前記装置は、前記入力信号に含まれる入力信号音声に対して前記第１音声処理部とは異なる音声調整処理を行う第２音声処理部を更に備え、前記第２音声出力部は、前記第２音声処理部による音声調整処理が施された前記入力信号音声を出力してもよい。

上記の構成によれば、音声入出力装置が音声認識を行っていない場合には、ユーザは、音声入出力装置とは別体である第２音声出力部（外部スピーカ）からの音声を楽しむことができる。

〔態様５〕
上記一態様に係る音声入出力装置において、前記第１音声出力部からの出力と前記第２音声出力部からの出力とが切り替わる場合において、音量に関する設定変更を行わなくてよい。

上記の構成によれば、音声入出力装置が音声認識を行っている間も、ユーザは音声入出力装置の第１音声出力部からの音声を十分な音量で聞くことができる。

〔態様６〕
上記一態様に係る音声入出力装置は、当該音声入出力装置の周囲を撮影する撮影部を更に備え、前記ユーザ音声取得部は、前記撮影部が撮影した動画像内において、前記ユーザによって行われた所定のジェスチャが検出されたことに応答して、前記ユーザからの音声を示す音声信号を取得する処理を開始してもよい。

上記の構成によれば、ユーザによって行われる所定のジェスチャが検出されたことをトリガーとして、音声認識処理を開始するため、特定のワードを音声認識処理開始のためのトリガーとする場合に比べて、適切に音声認識処理を開始することができる。

〔態様７〕
上記一態様に係る音声入出力装置において、前記ユーザ音声取得部は、当該音声入出力装置の操作を行うためのリモートコントローラにおいて、所定の操作が行われたことに応答して、前記ユーザからの音声を示す音声信号を取得する処理を開始してもよい。

上記の構成によれば、リモートコントローラの所定の操作をトリガーとして、音声認識処理を開始するため、特定のワードを音声認識処理開始のためのトリガーとする場合に比べて、適切に音声認識処理を開始することができる。

〔態様８〕
上記の課題を解決するために、本発明の一態様に係る音声入出力方法は、入力信号に含まれる入力信号音声に対して第１の音声調整処理を行う第１音声処理ステップと、前記第１音声処理が施された入力信号音声を出力する第１音声出力ステップと、ユーザからの音声を示す音声信号を取得するユーザ音声取得ステップと、前記ユーザ音声取得ステップにおいて取得した音声信号が示す音声から、前記第１音声処理が施された音声成分を取り除く処理を行う音声除去ステップと、を含む音声入出力方法であって、前記入力信号音声は、前記ユーザ音声取得ステップにおいて前記ユーザからの音声入力を取得しない場合に、前記第１音声出力ステップとは異なる第２音声出力ステップにおいて出力され、前記ユーザ音声取得ステップにおいて前記ユーザからの音声入力を取得した場合に、前記第１音声処理が施された上で前記第１音声出力ステップにおいて出力される。

上記方法によれば、音声入出力装置と同様の効果を奏することができる。

〔態様９〕
上記の課題を解決するために、本発明の一態様に係る音声入出力プログラムは、前記音声入出力装置としてコンピュータを機能させるための音声入出力プログラムであって、前記第１音声処理部および前記音声除去部としてコンピュータを機能させるための音声入出力プログラムである。

上記プログラムによれば、音声入出力装置と同様の効果を奏することができる。

〔ソフトウェアによる実現例〕
音声入出力装置１０の制御部１７（デコード部１１、第１音声処理部１２、音声除去部１５、および音声認識部１６）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ソフトウェアによって実現してもよい。

後者の場合、音声入出力装置１０は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば１つ以上のプロセッサを備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばＣＰＵ（Central Processing Unit）を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ＲＯＭ（Read Only Memory）等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するＲＡＭ（Random Access Memory）などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔付記事項〕
本発明は上述した実施形態および変形例に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態のそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

１０音声入出力装置
１１デコード部
１２第１音声処理部
１３第１音声出力部
１４ユーザ音声取得部
１５音声除去部
１６音声認識部
１７制御部
１８撮影部
２０外部スピーカシステム
２１第２音声処理部
２２第２音声出力部
３０リモートコントローラ
１００音声入出力システム

Claims

入力信号に含まれる入力信号音声に対して音声調整処理を行う第１音声処理部と、
前記第１音声処理部による音声調整処理が施された入力信号音声を出力する第１音声出力部と、
ユーザからの音声を示す音声信号を取得するユーザ音声取得部と、
前記ユーザ音声取得部が取得した音声信号が示す音声から、前記第１音声処理部による音声調整処理が施された音声成分を取り除く処理を行う音声除去部と、を備える音声入出力装置であって、
前記入力信号音声は、
前記ユーザ音声取得部が前記ユーザからの音声入力を取得しない場合に、前記音声入出力装置とは異なる装置が備えている第２音声出力部から出力され、
前記ユーザ音声取得部が前記ユーザからの音声入力を取得した場合に、前記第１音声処理部による音声調整処理が施された上で前記第１音声出力部から出力される
ことを特徴とする音声入出力装置。
入力信号に含まれる入力信号音声に対して音声調整処理を行う第１音声処理部と、
前記第１音声処理部による音声調整処理が施された入力信号音声を出力する第１音声出力部と、
ユーザからの音声を示す音声信号を取得するユーザ音声取得部と、
前記ユーザ音声取得部が取得した音声信号が示す音声から、前記第１音声処理部による音声調整処理が施された音声成分を取り除く処理を行う音声除去部と、
前記音声除去部での処理を施した後の音声に基づいて、音声認識処理を行う音声認識部と、を備える音声入出力装置であって、
前記入力信号音声は、
前記音声認識部が音声認識処理を開始するトリガーとなるトリガーワードを取得しない場合に、前記音声入出力装置とは異なる装置が備えている第２音声出力部から出力され、
前記音声認識部が前記トリガーワードを取得した場合に、前記第１音声処理部による音声調整処理が施された上で前記第１音声出力部から出力される
ことを特徴とする音声入出力装置。
当該音声入出力装置とは異なる前記装置は、
前記入力信号に含まれる入力信号音声に対して前記第１音声処理部とは異なる音声調整処理を行う第２音声処理部を更に備え、
前記第２音声出力部は、
前記第２音声処理部による音声調整処理が施された前記入力信号音声を出力する
ことを特徴とする請求項１または２に記載の音声入出力装置。
前記第１音声出力部からの出力と前記第２音声出力部からの出力とが切り替わる場合において、音量に関する設定変更を行わない
ことを特徴とする請求項１から３までの何れか１項に記載の音声入出力装置。
当該音声入出力装置の周囲を撮影する撮影部を更に備え、
前記ユーザ音声取得部は、
前記撮影部が撮影した動画像内において、前記ユーザによって行われた所定のジェスチャが検出されたことに応答して、前記ユーザからの音声を示す音声信号を取得する処理を開始する
ことを特徴とする請求項１から４までの何れか１項に記載の音声入出力装置。
前記ユーザ音声取得部は、
当該音声入出力装置の操作を行うためのリモートコントローラにおいて、所定の操作が行われたことに応答して、前記ユーザからの音声を示す音声信号を取得する処理を開始する
ことを特徴とする請求項１から５までの何れか１項に記載の音声入出力装置。
外部装置に接続された音声入出力装置による、音声入出力方法であって、
入力信号に含まれる入力信号音声に対して音声調整処理を行う第１音声処理ステップと、
前記第１音声処理ステップにおける音声調整処理が施された入力信号音声を前記音声入出力装置が備える第１音声出力部から出力する第１音声出力ステップと、
ユーザからの音声を示す音声信号を取得するユーザ音声取得ステップと、
前記ユーザ音声取得ステップにおいて取得した音声信号が示す音声から、前記第１音声処理ステップにおける音声調整処理が施された音声成分を取り除く処理を行う音声除去ステップと、を含む音声入出力方法であって、
前記第１音声出力ステップは、前記入力信号音声を、
前記ユーザ音声取得ステップにおいて前記ユーザからの音声入力を取得しない場合に、前記外部装置が備えている第２音声出力部から出力し、
前記ユーザ音声取得ステップにおいて前記ユーザからの音声入力を取得した場合に、前記音声調整処理が施された上で前記第１音声出力部から出力するステップである、ことを特徴とする音声入出力方法。
請求項７に記載の音声入出力方法をコンピュータに実施させるための音声入出力プログラムであって、前記第１音声処理ステップ、前記第１音声出力ステップ、前記ユーザ音声取得ステップ、および前記音声除去ステップをコンピュータに実行させる音声入出力プログラム。
外部装置に接続された音声入出力装置による、音声入出力方法であって、
入力信号に含まれる入力信号音声に対して音声調整処理を行う第１音声処理ステップと、
前記第１音声処理ステップにおける音声調整処理が施された入力信号音声を前記音声入出力装置が備える第１音声出力部から出力する第１音声出力ステップと、
ユーザからの音声を示す音声信号を取得するユーザ音声取得ステップと、
前記ユーザ音声取得ステップにおいて取得した音声信号が示す音声から、前記第１音声処理ステップにおける音声調整処理が施された音声成分を取り除く処理を行う音声除去ステップと、
前記音声除去ステップでの処理を施した後の音声に基づいて、音声認識処理を行う音声認識ステップと、を含む音声入出力方法であって、
前記第１音声出力ステップは、前記入力信号音声を、
前記音声認識ステップにおいて音声認識処理を開始するトリガーとなるトリガーワードを取得しない場合に、前記外部装置が備えている第２音声出力部から出力し、
前記音声認識ステップにおいて前記トリガーワードを取得した場合に、前記第１音声処理ステップにおける音声調整処理が施された上で前記第１音声出力部から出力するステップである、ことを特徴とする音声入出力方法。
請求項９に記載の音声入出力方法をコンピュータに実施させるための音声入出力プログラムであって、前記第１音声処理ステップ、前記第１音声出力ステップ、前記ユーザ音声取得ステップ、前記音声除去ステップ、および前記音声認識ステップをコンピュータに実行させる音声入出力プログラム。