JP2021140010A - 音声入出力装置、音声入出力方法、および音声入出力プログラム - Google Patents

音声入出力装置、音声入出力方法、および音声入出力プログラム Download PDF

Info

Publication number
JP2021140010A
JP2021140010A JP2020037079A JP2020037079A JP2021140010A JP 2021140010 A JP2021140010 A JP 2021140010A JP 2020037079 A JP2020037079 A JP 2020037079A JP 2020037079 A JP2020037079 A JP 2020037079A JP 2021140010 A JP2021140010 A JP 2021140010A
Authority
JP
Japan
Prior art keywords
voice
unit
audio
output
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020037079A
Other languages
English (en)
Other versions
JP7410754B2 (ja
Inventor
裕也 関口
Yuya Sekiguchi
裕也 関口
涼 小林
Ryo Kobayashi
涼 小林
光憲 田中
Mitsunori Tanaka
光憲 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2020037079A priority Critical patent/JP7410754B2/ja
Publication of JP2021140010A publication Critical patent/JP2021140010A/ja
Application granted granted Critical
Publication of JP7410754B2 publication Critical patent/JP7410754B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)

Abstract

【課題】音声認識で操作する音声入出力装置において、音声認識の精度を上げる。【解決手段】音声入出力装置(10)は、入力信号音声に対して音声調整処理を行う第1音声処理部(12)と、音声調整処理後の入力信号音声を出力する第1音声出力部(13)と、ユーザの音声を取得するユーザ音声取得部(14)と、ユーザの音声から、第1音声処理部での音声調整処理後の音声成分を取り除く音声除去部(15)とを備える。入力信号音声は、ユーザ音声取得部がユーザからの音声を取得した場合、第1音声処理部での音声調整処理後、第1音声出力部から出力される。【選択図】図1

Description

本発明は、音声入出力装置、音声入出力方法、および音声入出力プログラムに関する。
音声認識で操作するテレビジョン装置、HDマイクロフォン(hand-held digital microphone)等の音声入出力装置が公知である。当該音声入出力装置において、音声認識率を高めるために、音声入出力装置の内部スピーカから発する入力信号音声をキャンセルして、ユーザが発する音声のみを抽出する技術(以下、エコーキャンセル技術とも呼ぶ)が特許文献1に開示されている。
特開2012−181374公報(2012年9月20日公開)
しかし、高音質の音声を楽しむために、上記音声入出力装置を外部スピーカに接続して用いる場合がある。この場合には、内部スピーカと外部スピーカとは、配置位置、即ち、スピーカから音声入出力装置のマイクまでの経路が異なる。また、音声入出力装置からの音声信号を、スピーカを駆動する信号に変換する音声調整処理の特性が、外部スピーカと内部スピーカとでは異なる。このため、外部スピーカが発する入力信号音声に対しては、リファレンスとなる周波数成分のデータがないために、エコーキャンセル処理を完全に行うことができない。その結果、音声認識率が上がらないという問題がある。
上記の課題に鑑み、本発明の一態様では、外部スピーカに接続された音声入出力装置において、エコーキャンセル処理を充分に行い、音声認識率を高めることのできる技術を提供することを目的とする。
上記の課題を解決するために、本発明の一態様に係る音声入出力装置は、入力信号に含まれる入力信号音声に対して音声調整処理を行う第1音声処理部と、前記第1音声処理部による音声調整処理が施された入力信号音声を出力する第1音声出力部と、ユーザからの音声を示す音声信号を取得するユーザ音声取得部と、前記ユーザ音声取得部が取得した音声信号が示す音声から、前記第1音声処理部による音声調整処理が施された音声成分を取り除く処理を行う音声除去部と、を備え、前記入力信号音声は、前記ユーザ音声取得部が前記ユーザからの音声入力を取得しない場合に、前記第1音声出力部とは異なる第2音声出力部から出力され、前記ユーザ音声取得部が前記ユーザからの音声入力を取得した場合に、前記第1音声処理部による音声調整処理が施された上で前記第1音声出力部から出力される。
上記の課題を解決するために、本発明の一態様に係る音声入出力装置は、入力信号に含まれる入力信号音声に対して音声調整処理を行う第1音声処理部と、前記第1音声処理部による音声調整処理が施された入力信号音声を出力する第1音声出力部と、ユーザからの音声を示す音声信号を取得するユーザ音声取得部と、前記ユーザ音声取得部が取得した音声信号が示す音声から、前記第1音声処理部による音声調整処理が施された音声成分を取り除く処理を行う音声除去部と、前記音声除去部での処理を施した後の音声に基づいて、音声認識処理を行う音声認識部と、を備え、前記入力信号音声は、前記音声認識部が音声認識処理を開始するトリガーとなるトリガーワードを取得しない場合に、前記第1音声出力部とは異なる第2音声出力部から出力され、前記音声認識部が前記トリガーワードを取得した場合に、前記第1音声処理部による音声調整処理が施された上で前記第1音声出力部から出力される。
上記の課題を解決するために、本発明の一態様に係る音声入出力方法は、入力信号に含まれる入力信号音声に対して第1の音声調整処理を行う第1音声処理ステップと、前記第1音声処理が施された入力信号音声を出力する第1音声出力ステップと、ユーザからの音声を示す音声信号を取得するユーザ音声取得ステップと、前記ユーザ音声取得ステップにおいて取得した音声信号が示す音声から、前記第1音声処理が施された音声成分を取り除く処理を行う音声除去ステップと、を含む音声入出力方法であって、前記入力信号音声は、前記ユーザ音声取得ステップにおいて前記ユーザからの音声入力を取得しない場合に、前記第1音声出力ステップとは異なる第2音声出力ステップにおいて出力され、前記ユーザ音声取得ステップにおいて前記ユーザからの音声入力を取得した場合に、前記第1音声処理が施された上で前記第1音声出力ステップにおいて出力される。
本発明の一態様によれば、音声入出力装置が音声認識処理を行う間は、音声入出力装置の入力信号音声を第2音声出力部(外部スピーカ)から第1音声出力部(内部スピーカ)に切り替えて出力する。このため、音声除去部がエコーキャンセル処理を完全に行うことができ、音声認識率を上げることができる。また、音声入出力装置が音声認識を行っていない間は、ユーザは、第2音声出力部(外部スピーカ)からの音声を楽しむことができる。
本発明の実施形態1に係る音声入出力装置10を含む音声入出力システム100の要部構成を示すブロック図である。 本発明の実施形態1に係る音声入出力システム100における音声処理の流れを示すフローチャートである。 本発明の実施形態2に係る音声入出力装置10を含む音声入出力システム100要部構成を示すブロック図である。 本発明の実施形態2に係る音声入出力システム100における音声処理の流れを示すフローチャートである。
〔実施形態1〕
以下、本発明の一側面に係る実施の形態(以下、「本実施形態」とも表記する)を、図面に基づいて説明する。図1は実施形態1に係る音声入出力装置(例えば、テレビジョン装置)10および音声入出力装置10に接続される外部スピーカシステム20からなる音声入出力システム100の要部構成を示すブロック図である。実施形態1に係る音声入出力システム100は、音声認識によって操作することができるシステムである。
図1に示すように、音声入出力装置(テレビジョン装置)10は、デコード部11、第1音声処理部12、第1音声出力部(内部スピーカ)13、ユーザ音声取得部(マイク)14、音声除去部(エコーキャンセル部)15、および音声認識部16を備える。なお、上記デコード部11、第1音声処理部12、音声除去部15、および音声認識部16を合わせて制御部17とする。
音声入出力装置10のデコード部11は、アンテナ(図示せず)で受信した放送用入力信号をデジタル信号に変換する。デジタル信号に変換された入力信号は、第1音声処理部12に供給される。
第1音声処理部12は、入力信号に含まれる入力信号音声に対して、音声調整処理を行う。例えば、第1音声処理部12では、第1音声出力部(内部スピーカ)13の特性およびユーザが設定した音声モード(例えば、映画モード、ダイナミックモード等)に合わせて、音声調整処理を行う。例えば、周波数成分ごとに音質を均質化(イコライズ)してもよい。前記第1音声処理部12による音声調整処理が施された入力信号音声は、第1音声出力部13および音声除去部15に供給される。
第1音声出力部(内部スピーカ)13は、音声調整処理が施された入力信号音声をアナログ信号に復号して出力する。
ユーザ音声取得部(マイクロフォン)14は、ユーザからの音声を示す音声信号を取得する。ユーザ音声取得部14は、また、第2音声出力部(第2スピーカ)22から音声が出力されている場合には、第2音声出力部(第2スピーカ)22からの音声成分をも取得する。
音声除去部15は、前記ユーザ音声取得部14が取得した音声信号が示す音声から、前記第1音声処理部12による音声調整処理が施された音声成分を取り除く処理(以下では、エコーキャンセル処理とも呼ぶ)を行う。エコーキャンセル処理が施された音声信号は、音声認識部16に供給される。
音声認識部16は、エコーキャンセル処理が施された音声信号に基づいて、音声入出力装置10の制御のための音声認識を行う。例えば、予め特定の音声コマンド(音声認識結果)と対応づけられた操作コマンドを音声入出力装置10の動作制御部(図示せず)に供給する。動作制御部では、音声入出力装置(テレビジョン装置)10のチャンネル切替え、音量の変更、入力の切替え、および画面モードの切替え等の操作を行う。
音声入出力装置10は、接続ケーブルを介して外部スピーカシステム20に接続可能に構成されている。図1に示すように、外部スピーカシステム20は、第2音声処理部21および第2音声出力部22を備える。
音声入出力装置10のデコード部11でデジタル信号に変換された音声信号は、接続ケーブルを介して、第2音声処理部21に送信される。第2音声処理部21は、前記入力信号に含まれる入力信号音声に対して前記第1音声処理部12とは異なる音声調整処理を行う。例えば、第2音声処理部21は、第2音声出力部(外部スピーカ)22の特性に合わせた音声調整処理を行う。第2音声出力部22は、第2音声処理部21で音声調整処理を施された入力信号音声を出力する。
前記入力信号音声は、ユーザ音声取得部14が前記ユーザからの音声入力を取得しない場合に、第1音声出力部13とは異なる第2音声出力部22から出力される。この場合、ユーザ音声取得部14には、第2音声処理部21による音声調整処理が施された音声成分が入力される。音声入出力装置10では、第2音声処理部21による音声調整処理が施された音声成分に関するデータがないため、音声除去部15では、第2音声処理部21による音声調整処理が施された音声成分のエコーキャンセル処理を充分に行うことができない。しかし、音声認識部16で音声認識処理を行わない場合には、問題は生じない。
したがって、ユーザは、音声入出力装置10(音声認識部16)において音声認識が行われていない間、第2音声出力部22から出力される高音質の音声を楽しむことができる。
これに対して、ユーザ音声取得部14がユーザからの音声入力を取得した場合は、入力音声は、前記第1音声処理部13による音声調整処理が施された上で、第1音声出力部13から出力される。音声認識部16は音声認識処理を行う。したがって、音声認識率を高めるために、音声除去部15においてエコーキャンセル処理を充分に行う必要がある。この場合、音声出力は、第2音声出力部22から第1音声出力部13に切り替えられるため、音声除去部15には、第1音声処理部12による音声調整処理が施された音声成分が混じったユーザの音声が供給される。したがって、音声除去部15は、ユーザ音声取得部14から供給されたユーザの音声から、第1音声処理部12で音声調整処理が施された音声成分を除去すればよい。第1音声処理部12での周波数成分データは、音声入出力装置10で取得できるため、音声除去部15は、第1音声処理部12で音声調整処理が施された音声成分を充分に除去することができる。その結果、音声認識部16における音声認識率を充分高めることができる。また、第1音声出力部13からの出力と第2音声出力部22からの出力とが切り替わる場合においては、音量に関する設定変更を行わなくてもよい。このため、ユーザは、音声認識が行われている間も、充分な音量で、第1音声出力部13からの音声を聴くことができる。
次に、図2を参照して、本実施形態に係る音声入出力システム100における音声処理の流れを説明する。本実施形態では、入力信号音声は、音声認識部16が音声認識処理を開始するトリガーとなるトリガーワードを取得しない場合に、第1音声出力部13とは異なる第2音声出力部22から出力される。音声認識部16が前記トリガーワードを取得した場合に、入力信号音声は、第1音声処理部12による音声調整処理が施された上で第1音声出力部13から出力されるとともに、音声認識部16が音声認識処理を開始する。例えば、トリガーワードとして予め設定されている「ハロー アクオス」(「アクオス」はシャープ株式会社の登録商標)をユーザ音声取得部14が取得し、音声認識部16が当該ワードを検出することをトリガーとして、音声入出力装置10が音声認識処理を開始する。
音声入出力システム100の処理がスタートすると、ステップS10では、音声認識部16が予め設定されたトリガーワードの検出を待つ。音声認識部16は、音声認識開始の合図に用いるトリガーワードを認識するための図示しない記憶部に格納されたデータベース、または図示しないクラウド上のデータベースを参照して、トリガーワードの検出を行う。この時点では、音声入力信号は、外部スピーカシステム20の第2音声出力部22から出力されている。
ステップS12では、音声入出力装置10の制御部17が、音声認識部16がトリガーワードを検出したか否かを判定する。音声認識部16は、ユーザ音声取得部14に入力された音声が音声除去部15でエコーキャンセル処理を施された後の音声から、トリガーワードを検出する。音声認識部16がトリガーワードを検出したと判定された場合(ステップS12でYES)、ステップS14以下の処理に進み、音声認識処理を開始する。この場合、入力信号音声は、第1音声処理部12による音声調整処理が施された上で第1音声出力部13から出力される。音声認識部16がトリガーワードを認識したと判定されなかった場合(ステップS12でNO)は、ステップS10に戻り、再び、音声認識部16がトリガーワードの検出を待つ状態となる。この場合、入力信号音声は、第1音声出力部13とは異なる第2音声出力部22から出力される。
ステップS14では、制御部17が、音声出力を、第2音声出力部22から第1音声出力部(内部スピーカ)13に切り替えて、ステップS16に進む。
ステップS16では、音声認識部16が、ユーザからの音声による質問または指示の待ち受け状態となる。
ステップS18では、音声認識部16が、ユーザからの質問または指示を受ける。ここで、音声認識部16は、音声入出力装置10の操作コマンド用の図示しない記憶部に格納されたデータベースを用意しておき、操作コマンド用データベースを参照して、ユーザからの質問または指示の内容を認識する。または、図示しないインターネットを通じて、クラウド上のデータベースにユーザ音声データを送り、ユーザからの質問または指示の内容を認識する。続いて、ステップS20に進む。
ステップS20では、音声入出力装置10の音声認識部16が、ユーザからの質問、指示に対する回答結果を図示しない画面に表示するか、またはユーザからの質問、指示に対し応答する。続いて、ステップS22に進む。
ステップS22では、制御部17が、音声認識部16がユーザからの音声認識終了を示す質問または指示を検出したか否かを判定する。ステップS22で、音声認識部16が音声認識終了の質問または指示を検出したと判定された場合(ステップS22でYES)、ステップS24に進む。
ステップS22で、音声認識部16が音声認識処理の終了を示す質問または指示を認識したと判定されなかった場合(ステップS22でNO)、ステップS16に戻り、再び、ユーザからの質問/指示を待ち受ける状態となる。
なお、音声認識部16が音声認識を終了するタイミングとしては、音声認識終了を示す質問または指示を検出していなくても、最後のユーザ音声が入力されてから一定時間経過した場合に、音声認識処理を終了する構成としてもよい。
ステップS24では、音声認識部16が音声認識処理を終了したため、制御部17が、音声出力を第1音声出力部13から第2音声出力部22に切り替える。
上記実施形態では、音声認識部16が音声認識を行っている間は、入力信号音声は第1音声出力部13から出力され、第2音声出力部22からの音声出力を停止する。このため、音声除去部15には、第1音声処理部12による音声調整処理が施された入力信号音声およびユーザ音声取得部14が取得した音声処理のみが供給される。したがって、音声除去部15においては、ユーザ音声取得部14が取得した音声信号が示す音声から、第1音声処理部12による音声調整処理が施された音声成分を取り除くエコーキャンセル処理を行えばよい。このため、音声除去部15において、エコーキャンセル処理を充分に行うことができ、音声認識部16における音声認識率を高めることができる。また、音声認識部16が音声認識を行っていない間は、入力信号音声は第2音声出力部22から出力される。このため、ユーザは第2音声出力部22から出力される高音質の音声を楽しむことができる。
なお、下記表1には、音声入出力装置10を外部スピーカシステム20に接続した場合と、外部スピーカシステム20に接続していない場合の、音声認識部16における音声認識率の実験データを示している。表1から読み取れるように、音声入出力装置10を外部スピーカシステム20に接続せず、第1音声出力部13(内部スピーカ)から音声を出力する場合には、音声認識率は87.7%と非常に高い値を示す。これに対して、音声入出力装置10を外部スピーカシステム20に接続し、第2音声出力部22(外部スピーカ)から音声を出力する場合には、音声認識率は42.3%と大幅に低下することが分かる。
Figure 2021140010
本願発明においては、音声認識部16が音声認識を行う間は、音声出力を第2音声出力部22(外部スピーカ)から第1音声出力部13(内部スピーカ)に切り替える。このため、音声認識部16において、高い音声認識率で音声認識を行うことができる。
〔実施形態2〕
上記実施形態1では、音声認識部16が、ユーザ音声取得部(マイクロフォン)14から入力されるトリガーワードを認識することをトリガーとして音声認識処理を開始する音声入出力装置10の実施形態について説明した。本実施形態では、上記実施形態1の構成に替えて、撮影部(たとえば、カメラ)18がユーザによって行われた所定のジェスチャを検出する、または、リモートコントローラ30に特定の操作がなされたことをトリガーとして、音声認識処理を開始する音声入出力装置10について説明する。
まず、図3を参照して、本実施形態に係る音声入出力装置10および外部スピーカシステム20からなる音声入出力システム100の構成について説明する。
図3に示すように、本実施形態の音声入出力システム100は、撮影部18およびリモートコントローラ30を備えている。しかし、それ以外の構成要素については実施形態1に係る音声入出力システム100の構成要素と同じであるため、これらの構成要素については説明を省略する。なお、撮影部18は、音声入出力装置10の内部に備えられてもよいし、音声入出力装置10と別体であってもよい。
撮影部18は、音声入出力装置10の周囲を撮影する。
ユーザ音声取得部14は、撮影部18が撮影した動画像内において、ユーザによって行われた所定のジェスチャが検出されたことに応答して、ユーザからの音声を示す音声信号を取得する処理を開始してもよい。上記所定のジェスチャは、例えば、ユーザの手の動きまたは唇の動き(リップシンク)等を含んでもよい。
また、ユーザ音声取得部14は、当該音声入出力装置10の操作を行うためのリモートコントローラ30において、所定の操作が行われたことに応答して、ユーザからの音声を示す音声信号を取得する処理を開始してもよい。例えば、リモートコントローラ30の音声認識開始用ボタンの押下をトリガーとしてユーザからの音声を示す音声信号を取得する処理を開始してもよい。
また、本実施形態に係る音声入出力装置10は、上記撮影部18が撮影したユーザの所定のジェスチャおよびリモートコントローラ30の所定の操作のうち、どちらか一方のみをユーザからの音声を示す音声信号を取得する処理を開始するトリガーとしてもよい。あるいは、上記撮影部18が撮影したユーザの所定のジェスチャおよびリモートコントローラ30の所定の操作の両方をユーザからの音声を示す音声信号を取得する処理のトリガーとしてもよい。いずれの場合にも、ユーザからの音声を示す音声信号を取得する処理が開始されると、制御部17は、第2音声出力部22からの出力から、第1音声出力部13からの出力に切り替える。
次に、図4を参照して、本実施形態における音声入出力システム100における処理の流れについて説明する。
音声入出力システム100が起動すると、ステップS110では、音声認識部16が音声認識処理を開始する指示がなされるのを待つ。この時点では、入力信号音声は、外部スピーカシステム20の第2音声出力部22から出力されている。
ステップS112では、制御部17が、音声認識処理開始のための指示があったか否かを判定する。音声認識処理開始のための指示には、上述したように、撮影部18で捕捉したユーザによって行われる所定のジェスチャ(たとえば、リップシンク)またはリモートコントローラ30での所定の操作が含まれてもよい。制御部17が、音声認識処理開始のための指示があったと判定した場合(ステップS112でYES)、音声認識部16が音声認識処理を開始し、ステップS114に進む。制御部17が音声認識処理開始のための指示があったと判定しなかった場合(ステップS112でNO)は、ステップS110に戻って、音声認識部16が音声認識処理開始のための指示を待つ。
ステップS114では、制御部17が、音声出力を、第2音声出力部22から第1音声出力部13に切り替える。その後、ステップS116に進む。
ステップS116では、ユーザ音声取得部14がユーザからの音声を示す音声信号を取得し、音声除去部15がーザ音声取得ステップにおいて取得した音声信号が示す音声から、前記第1音声処理が施された音声成分を取り除く処理を行った後の音声が、音声認識部16に入力される。続いて、ステップS118に進む。
ステップS118では、音声認識部16が、予め用意された音声認識用のデータベースに基づいて、入力された音声について音声認識結果(音声認識コマンド)を検出する。続いて、ステップS120に進む。
ステップS120では、制御部17が、音声認識処理終了のための指示があったか否かを判定する。ステップS120で、制御部17が音声認識処理終了のための指示があったと判定した場合(ステップS120でYES)は、ステップS122に進む。ステップS120で、制御部17が音声認識終了のための指示があったと認識しなかった場合(ステップS120でNO)、ステップS116に戻り、再び、音声認識部16が音声認識の入力を待ち受ける状態となる。
ステップS122では、制御部17が、音声出力を第1音声出力部13から第2音声出力部22に戻す。
以上で、一連の処理を終了する。
本実施形態では、撮影部18が音声認識を開始するトリガーとなる撮影部18でユーザによって行われる所定のジェスチャを捕捉した時点、またはリモートコントローラ30での所定の操作がなされた時点で、制御部17は、音声出力を、第2音声出力部22から第1音声出力部13に切り替える。したがって、本実施形態の構成によれば、音声認識を開始するためのトリガーが認識される可能性が高い。
つまり、上記実施形態1では、トリガーワードを検出する際に、第2音声出力部22から出力音声信号が出力されている。したがって、第2音声出力部22から出力される音声がユーザ音声取得部14に入力されてしまい、音声除去部15においてエコーキャンセル処理を完全に行うことができない。このため、音声認識部16がトリガーワードを認識できず、音声認識処理を開始できない場合がありうる。
これに対して、本実施形態では、音声認識を開始するためのトリガーがユーザ音声取得部14で取得されるユーザの音声以外の手段であるため、第2音声出力部22から入力信号音声が出力されている状態であっても、音声認識開始のためのトリガーの認識に失敗する可能性が低い。
〔まとめ〕
〔態様1〕
上記の課題を解決するために、本発明の一態様に係る音声入出力装置は、入力信号に含まれる入力信号音声に対して音声調整処理を行う第1音声処理部と、前記第1音声処理部による音声調整処理が施された入力信号音声を出力する第1音声出力部と、ユーザからの音声を示す音声信号を取得するユーザ音声取得部と、前記ユーザ音声取得部が取得した音声信号が示す音声から、前記第1音声処理部による音声調整処理が施された音声成分を取り除く処理を行う音声除去部と、を備え、前記入力信号音声は、前記ユーザ音声取得部が前記ユーザからの音声入力を取得しない場合に、前記第1音声出力部とは異なる第2音声出力部から出力され、前記ユーザ音声取得部が前記ユーザからの音声入力を取得した場合に、前記第1音声処理部による音声調整処理が施された上で前記第1音声出力部から出力される。
上記の構成によれば、ユーザ音声取得部がユーザからの音声入力を取得した(音声認識が行われる)場合には、第2音声出力部からの音声出力が停止され、音声除去部には、第1音声処理部による音声調整処理が施された音声成分が混じったユーザからの音声を示す音声信号のみがユーザ音声取得部14から入力される。このため、音声除去部において、第1音声処理部による音声調整処理が施された音声成分を充分に除去することができ、その結果、音声認識部における音声認識率を高めることができる。また、音声入出力装置が音声認識中でも、ユーザは第1音声出力部からの音声を聴くことができる。一方で、ユーザ音声取得部がユーザからの音声入力を取得しない(音声認識が行われない)場合には、ユーザは第2音声出力部からの高音質の音声を楽しむことができる。
〔態様2〕
入力信号に含まれる入力信号音声に対して音声調整処理を行う第1音声処理部と、前記第1音声処理部による音声調整処理が施された入力信号音声を出力する第1音声出力部と、ユーザからの音声を示す音声信号を取得するユーザ音声取得部と、前記ユーザ音声取得部が取得した音声信号が示す音声から、前記第1音声処理部による音声調整処理が施された音声成分を取り除く処理を行う音声除去部と、前記音声除去部での処理を施した後の音声に基づいて、音声認識処理を行う音声認識部と、を備え、前記入力信号音声は、前記音声認識部が音声認識処理を開始するトリガーとなるトリガーワードを取得しない場合に、前記第1音声出力部とは異なる第2音声出力部から出力され、前記音声認識部が前記トリガーワードを取得した場合に、前記第1音声処理部による音声調整処理が施された上で前記第1音声出力部から出力される。
上記の構成によれば、音声認識部における音声認識処理を開始するための、特別な機構を備えなくとも、音声認識処理を開始することができる。
〔態様3〕
上記一態様に係る音声入出力装置において、前記第2音声処理部は、当該音声入出力装置とは異なる装置が備えていてもよい。
上記の構成によれば、音声入出力装置を外部スピーカシステムと接続した場合に、音声入出力装置が音声認識を行っていない間、ユーザは、外部スピーカからの高音質の音声を楽しむことができる。
〔態様4〕
上記一態様に係る音声入出力装置において、当該音声入出力装置とは異なる前記装置は、前記入力信号に含まれる入力信号音声に対して前記第1音声処理部とは異なる音声調整処理を行う第2音声処理部を更に備え、前記第2音声出力部は、前記第2音声処理部による音声調整処理が施された前記入力信号音声を出力してもよい。
上記の構成によれば、音声入出力装置が音声認識を行っていない場合には、ユーザは、音声入出力装置とは別体である第2音声出力部(外部スピーカ)からの音声を楽しむことができる。
〔態様5〕
上記一態様に係る音声入出力装置において、前記第1音声出力部からの出力と前記第2音声出力部からの出力とが切り替わる場合において、音量に関する設定変更を行わなくてよい。
上記の構成によれば、音声入出力装置が音声認識を行っている間も、ユーザは音声入出力装置の第1音声出力部からの音声を十分な音量で聞くことができる。
〔態様6〕
上記一態様に係る音声入出力装置は、当該音声入出力装置の周囲を撮影する撮影部を更に備え、前記ユーザ音声取得部は、前記撮影部が撮影した動画像内において、前記ユーザによって行われた所定のジェスチャが検出されたことに応答して、前記ユーザからの音声を示す音声信号を取得する処理を開始してもよい。
上記の構成によれば、ユーザによって行われる所定のジェスチャが検出されたことをトリガーとして、音声認識処理を開始するため、特定のワードを音声認識処理開始のためのトリガーとする場合に比べて、適切に音声認識処理を開始することができる。
〔態様7〕
上記一態様に係る音声入出力装置において、前記ユーザ音声取得部は、当該音声入出力装置の操作を行うためのリモートコントローラにおいて、所定の操作が行われたことに応答して、前記ユーザからの音声を示す音声信号を取得する処理を開始してもよい。
上記の構成によれば、リモートコントローラの所定の操作をトリガーとして、音声認識処理を開始するため、特定のワードを音声認識処理開始のためのトリガーとする場合に比べて、適切に音声認識処理を開始することができる。
〔態様8〕
上記の課題を解決するために、本発明の一態様に係る音声入出力方法は、入力信号に含まれる入力信号音声に対して第1の音声調整処理を行う第1音声処理ステップと、前記第1音声処理が施された入力信号音声を出力する第1音声出力ステップと、ユーザからの音声を示す音声信号を取得するユーザ音声取得ステップと、前記ユーザ音声取得ステップにおいて取得した音声信号が示す音声から、前記第1音声処理が施された音声成分を取り除く処理を行う音声除去ステップと、を含む音声入出力方法であって、前記入力信号音声は、前記ユーザ音声取得ステップにおいて前記ユーザからの音声入力を取得しない場合に、前記第1音声出力ステップとは異なる第2音声出力ステップにおいて出力され、前記ユーザ音声取得ステップにおいて前記ユーザからの音声入力を取得した場合に、前記第1音声処理が施された上で前記第1音声出力ステップにおいて出力される。
上記方法によれば、音声入出力装置と同様の効果を奏することができる。
〔態様9〕
上記の課題を解決するために、本発明の一態様に係る音声入出力プログラムは、前記音声入出力装置としてコンピュータを機能させるための音声入出力プログラムであって、前記第1音声処理部および前記音声除去部としてコンピュータを機能させるための音声入出力プログラムである。
上記プログラムによれば、音声入出力装置と同様の効果を奏することができる。
〔ソフトウェアによる実現例〕
音声入出力装置10の制御部17(デコード部11、第1音声処理部12、音声除去部15、および音声認識部16)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。
後者の場合、音声入出力装置10は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば1つ以上のプロセッサを備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばCPU(Central Processing Unit)を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ROM(Read Only Memory)等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するRAM(Random Access Memory)などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔付記事項〕
本発明は上述した実施形態および変形例に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態のそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
10 音声入出力装置
11 デコード部
12 第1音声処理部
13 第1音声出力部
14 ユーザ音声取得部
15 音声除去部
16 音声認識部
17 制御部
18 撮影部
20 外部スピーカシステム
21 第2音声処理部
22 第2音声出力部
30 リモートコントローラ
100 音声入出力システム

Claims (9)

  1. 入力信号に含まれる入力信号音声に対して音声調整処理を行う第1音声処理部と、
    前記第1音声処理部による音声調整処理が施された入力信号音声を出力する第1音声出力部と、
    ユーザからの音声を示す音声信号を取得するユーザ音声取得部と、
    前記ユーザ音声取得部が取得した音声信号が示す音声から、前記第1音声処理部による音声調整処理が施された音声成分を取り除く処理を行う音声除去部と、を備え、
    前記入力信号音声は、
    前記ユーザ音声取得部が前記ユーザからの音声入力を取得しない場合に、前記第1音声出力部とは異なる第2音声出力部から出力され、
    前記ユーザ音声取得部が前記ユーザからの音声入力を取得した場合に、前記第1音声処理部による音声調整処理が施された上で前記第1音声出力部から出力される
    ことを特徴とする音声入出力装置。
  2. 入力信号に含まれる入力信号音声に対して音声調整処理を行う第1音声処理部と、
    前記第1音声処理部による音声調整処理が施された入力信号音声を出力する第1音声出力部と、
    ユーザからの音声を示す音声信号を取得するユーザ音声取得部と、
    前記ユーザ音声取得部が取得した音声信号が示す音声から、前記第1音声処理部による音声調整処理が施された音声成分を取り除く処理を行う音声除去部と、
    前記音声除去部での処理を施した後の音声に基づいて、音声認識処理を行う音声認識部と、を備え、
    前記入力信号音声は、
    前記音声認識部が音声認識処理を開始するトリガーとなるトリガーワードを取得しない場合に、前記第1音声出力部とは異なる第2音声出力部から出力され、
    前記音声認識部が前記トリガーワードを取得した場合に、前記第1音声処理部による音声調整処理が施された上で前記第1音声出力部から出力されることを特徴とする音声入出力装置。
  3. 前記第2音声出力部は、
    当該音声入出力装置とは異なる装置が備えている
    ことを特徴とする請求項1または2に記載の音声入出力装置。
  4. 当該音声入出力装置とは異なる前記装置は、
    前記入力信号に含まれる入力信号音声に対して前記第1音声処理部とは異なる音声調整処理を行う第2音声処理部を更に備え、
    前記第2音声出力部は、
    前記第2音声処理部による音声調整処理が施された前記入力信号音声を出力する
    ことを特徴とする請求項3に記載の音声入出力装置。
  5. 前記第1音声出力部からの出力と前記第2音声出力部からの出力とが切り替わる場合において、音量に関する設定変更を行わない
    ことを特徴とする請求項1から4までの何れか1項に記載の音声入出力装置。
  6. 当該音声入出力装置の周囲を撮影する撮影部を更に備え、
    前記ユーザ音声取得部は、
    前記撮影部が撮影した動画像内において、前記ユーザによって行われた所定のジェスチャが検出されたことに応答して、前記ユーザからの音声を示す音声信号を取得する処理を開始する
    ことを特徴とする請求項1から5までの何れか1項に記載の音声入出力装置。
  7. 前記ユーザ音声取得部は、
    当該音声入出力装置の操作を行うためのリモートコントローラにおいて、所定の操作が行われたことに応答して、前記ユーザからの音声を示す音声信号を取得する処理を開始する
    ことを特徴とする請求項1から6までの何れか1項に記載の音声入出力装置。
  8. 入力信号に含まれる入力信号音声に対して音声調整処理を行う第1音声処理ステップと、
    前記第1音声処理ステップにおける音声調整処理が施された入力信号音声を出力する第1音声出力ステップと、
    ユーザからの音声を示す音声信号を取得するユーザ音声取得ステップと、
    前記ユーザ音声取得ステップにおいて取得した音声信号が示す音声から、前記第1音声処理ステップにおける音声調整処理が施された音声成分を取り除く処理を行う音声除去ステップと、を含む音声入出力方法であって、
    前記入力信号音声は、
    前記ユーザ音声取得ステップにおいて前記ユーザからの音声入力を取得しない場合に、前記第1音声出力ステップとは異なる第2音声出力ステップにおいて出力され、
    前記ユーザ音声取得ステップにおいて前記ユーザからの音声入力を取得した場合に、前記音声調整処理が施された上で前記第1音声出力ステップにおいて出力されることを特徴とする音声入出力方法。
  9. 請求項1から7の何れか1項に記載の音声入出力装置としてコンピュータを機能させるための音声入出力プログラムであって、前記第1音声処理部および前記音声除去部としてコンピュータを機能させるための音声入出力プログラム。
JP2020037079A 2020-03-04 2020-03-04 音声入出力装置、音声入出力方法、および音声入出力プログラム Active JP7410754B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020037079A JP7410754B2 (ja) 2020-03-04 2020-03-04 音声入出力装置、音声入出力方法、および音声入出力プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020037079A JP7410754B2 (ja) 2020-03-04 2020-03-04 音声入出力装置、音声入出力方法、および音声入出力プログラム

Publications (2)

Publication Number Publication Date
JP2021140010A true JP2021140010A (ja) 2021-09-16
JP7410754B2 JP7410754B2 (ja) 2024-01-10

Family

ID=77668486

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020037079A Active JP7410754B2 (ja) 2020-03-04 2020-03-04 音声入出力装置、音声入出力方法、および音声入出力プログラム

Country Status (1)

Country Link
JP (1) JP7410754B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001275176A (ja) * 2000-03-24 2001-10-05 Matsushita Electric Ind Co Ltd リモートコントロール装置
WO2007037208A1 (ja) * 2005-09-29 2007-04-05 Matsushita Electric Industrial Co., Ltd. 映像音出力装置、及び外部スピーカ制御装置
JP2012181374A (ja) * 2011-03-01 2012-09-20 Toshiba Corp テレビジョン装置及び遠隔操作装置
JP2019220145A (ja) * 2018-06-13 2019-12-26 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 操作端末、音声入力方法、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001275176A (ja) * 2000-03-24 2001-10-05 Matsushita Electric Ind Co Ltd リモートコントロール装置
WO2007037208A1 (ja) * 2005-09-29 2007-04-05 Matsushita Electric Industrial Co., Ltd. 映像音出力装置、及び外部スピーカ制御装置
JP2012181374A (ja) * 2011-03-01 2012-09-20 Toshiba Corp テレビジョン装置及び遠隔操作装置
JP2019220145A (ja) * 2018-06-13 2019-12-26 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 操作端末、音声入力方法、及びプログラム

Also Published As

Publication number Publication date
JP7410754B2 (ja) 2024-01-10

Similar Documents

Publication Publication Date Title
US11763812B2 (en) Image display apparatus and method of controlling the same
US11120813B2 (en) Image processing device, operation method of image processing device, and computer-readable recording medium
US9280539B2 (en) System and method for translating speech, and non-transitory computer readable medium thereof
CN108735207B (zh) 声音对话系统、声音对话方法及计算机可读存储介质
US10142578B2 (en) Method and system for communication
JP2023540908A (ja) オーディオ処理方法および電子デバイス
TWI678696B (zh) 語音資訊的接收方法、系統及裝置
EP2797077A1 (en) Voice processing apparatus and voice processing method
JP2014240856A (ja) 音声入力システム及びコンピュータプログラム
US11842745B2 (en) Method, system, and computer-readable medium for purifying voice using depth information
JP2019215449A (ja) 会話補助装置、会話補助方法及びプログラム
WO2023231787A9 (zh) 音频处理方法和装置
JP7410754B2 (ja) 音声入出力装置、音声入出力方法、および音声入出力プログラム
JP2002034092A (ja) 収音装置
TWM550619U (zh) 可依據臉部影像辨識結果取得聽力數據之電子裝置
JP7095356B2 (ja) 通信端末及び会議システム
CN116055869A (zh) 一种视频处理方法和终端
CN109920437B (zh) 干扰去除的方法及装置
JP7141226B2 (ja) 音声入力装置、及び遠隔対話システム
CN111182256A (zh) 一种信息处理方法及服务器
CN110225364B (zh) 一种视频处理方法、装置、终端、服务器及存储介质
JP2020178150A (ja) 音声処理装置及び音声処理方法
JP7365793B2 (ja) 撮像装置およびその制御方法、プログラム
CN115474080B (zh) 一种有线投屏控制方法及装置
WO2021029294A1 (ja) データ作成方法及びデータ作成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220921

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231222

R150 Certificate of patent or registration of utility model

Ref document number: 7410754

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150