JP7411422B2

JP7411422B2 - 音声入力方法、プログラム及び音声入力装置

Info

Publication number: JP7411422B2
Application number: JP2020006980A
Authority: JP
Inventors: 和也野村; 博基古川; 丈郎金森; 慎一杠
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2019-03-27
Filing date: 2020-01-20
Publication date: 2024-01-11
Anticipated expiration: 2040-01-20
Also published as: CN111757217B; JP2020162112A; CN111757217A

Description

本開示は、音声入力方法、プログラム及び音声入力装置に関する。

従来、話者の音声を収音する収音装置において、雑音の影響を少なくしつつ収音することのできる技術が開示されている（例えば、特許文献１）。

特開２０１０－５０５７１号公報

近年街中等で、収音装置（ここでは、音声入力装置と呼ぶ）で収音されたユーザの音声を翻訳し、翻訳結果を音声入力装置が備えるディスプレイに表示したり、音声入力装置が備えるマイクから出力したりして相手とコミュニケーションを図るということがなされている。しかしながら、周囲の騒音等によって音声認識が正しくなされず、ユーザは音声入力装置を顔（具体的には口）に近づけて再度音声を発し、再度音声認識を行わせることがある。このとき、ユーザの顔と音声入力装置とが近接していることで、音声認識性能が低下するという問題がある。

そこで、本開示は、ユーザの顔と音声入力装置とが近接していることにより生じる音声認識性能の低下を抑制できる音声入力方法等を提供する。

本開示に係る音声入力方法は、ユーザの顔と、少なくとも１つのマイクを備える音声入力装置とが近接しているか否かを検知する検知ステップと、前記ユーザの顔と前記音声入力装置とが近接していると検知された場合に、前記少なくとも１つのマイクで収音された音声信号に対して補正処理を行う補正ステップと、を含む。

なお、これらの包括的又は具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

本開示の一態様に係る音声入力方法等によれば、ユーザの顔と音声入力装置とが近接していることにより生じる音声認識性能の低下を抑制できる。

ユーザの顔と音声入力装置とが近接していることで音声認識性能が低下することを説明するための図である。実施の形態に係る音声入力装置の構成の一例を示すブロック図である。実施の形態に係る音声入力方法の一例を示すフローチャートである。実施の形態に係る音声入力装置をユーザの顔に近づけたときの、音声入力装置にかかる力を説明するための図である。実施の形態に係る音声入力装置をユーザの顔に近づけたときの、音声入力装置が備える３軸加速度センサの出力信号の一例を示す図である。実施の形態に係る音声入力装置をユーザの顔に近づけたときの、音声入力装置が備えるカメラの位置及び向きの変化を説明するための図である。実施の形態に係る音声入力装置をユーザの顔に近づけたときの、音声入力装置が備えるカメラの撮影により取得される画像に写るユーザの顔の大きさの変化を示す図である。

（本開示の一態様を得るに至った経緯）
まず、本開示の一態様を得るに至った経緯について、図１を用いて説明する。

図１は、ユーザ２００の顔と音声入力装置１００とが近接していることで音声認識性能が低下することを説明するための図である。

例えば、ユーザ２００が自身の使用する言語の通じない相手とコミュニケーションを図る場合に、音声入力装置１００が用いられる。通常、ユーザ２００は、ユーザ２００の胸の前あたりで音声入力装置１００を持って翻訳したい音声を発する。これにより、音声入力装置１００は当該音声を収音し、例えばサーバ装置で音声認識がなされ、所望の言語に翻訳がなされる。

しかし、街中等では周囲の騒音等によって音声認識が正しくなされず、図１に示されるようにユーザ２００は音声入力装置１００をユーザ２００の顔に近づけて再度音声を発し、再度音声認識を行うことがある。このように、ユーザ２００の顔と音声入力装置１００とが近接している場合、以下のような問題が生じる。なお、ユーザ２００がユーザ２００の顔を音声入力装置１００に近づけることで、ユーザ２００の顔と音声入力装置１００とが近接する場合もある。

例えば、音声入力装置１００は、少なくとも２つのマイクを備えている場合があり、当該少なくとも２つのマイクで収音される音声信号は、単一指向性を有する音声信号となっている場合がある。つまり、音声入力装置１００は、特定の方向の収音感度が高くなっている場合があり、言い換えると、特定の方向以外の収音感度が低くなっている場合がある。例えば、当該単一指向性は、音声入力装置１００がユーザ２００の胸の前あたりに位置する場合に、ユーザ２００の顔への方向の収音感度が高くなるような指向性である。このように、収音される音声信号が単一指向性を有する音声信号である場合に、ユーザ２００の顔と音声入力装置１００とが近接していることで、ユーザ２００の口が収音感度の高い方向からずれてしまい、正常に音声認識がされない場合がある。

また、例えば、ユーザ２００の顔と音声入力装置１００とが近接している場合、音声入力装置１００が備えるマイクで収音される音声の入力信号レベルが上昇し、場合によっては飽和する場合があり、正常に音声認識がされない場合がある。

また、例えば、ユーザ２００の顔と音声入力装置１００とが近接している場合、近接効果により、音声入力装置１００が備えるマイクで収音される音声の低音域が強調されて、正常に音声認識がされない場合がある。

そこで、本開示の一態様に係る音声入力方法は、ユーザの顔と、少なくとも１つのマイクを備える音声入力装置とが近接しているか否かを検知する検知ステップと、前記ユーザの顔と前記音声入力装置とが近接していると検知された場合に、前記少なくとも１つのマイクで収音された音声信号に対して補正処理を行う補正ステップと、を含む。

これによれば、ユーザの顔と音声入力装置とが近接しているか否かの検知が行われるため、ユーザの顔と音声入力装置とが近接していると検知された場合に、ユーザの顔と音声入力装置とが近接していることにより生じる音声認識性能の低下を抑制するような補正処理を行うことができる。したがって、ユーザの顔と音声入力装置とが近接していることにより生じる音声認識性能の低下を抑制できる。音声認識性能の低下が抑制されることで、例えば、収音された音声を正しく翻訳することが可能になる。

また、前記少なくとも１つのマイクは、少なくとも２つのマイクであり、前記音声信号は、前記少なくとも２つのマイクで収音された単一指向性を有する音声信号であり、前記補正処理は、単一指向性を無指向性に変換する処理を含んでいてもよい。

ユーザの顔と音声入力装置とが近接している場合、収音された音声信号が無指向性であっても収音感度は十分なレベルとなりやすい。したがって、ユーザの顔と音声入力装置とが近接している場合に、単一指向性を無指向性に変換する処理が行われることで、マイクからのユーザの顔の方向によらず、音声認識性能の低下を抑制できる。

また、前記補正処理は、ゲインを下げる処理を含んでいてもよい。

これによれば、ゲインを下げる処理が行われることで、ユーザの顔と音声入力装置とが近接している場合に、音声入力装置１００が備えるマイクで収音される音声の入力信号レベルが飽和することが抑制され、音声認識性能の低下を抑制できる。

また、前記補正処理は、所定の周波数以下の成分のゲインを下げる処理を含んでいてもよい。

これによれば、所定の周波数以下の成分（例えば低音域の成分）のゲインを下げる処理が行われることで、ユーザの顔と音声入力装置とが近接している場合に、近接効果による低音域の強調が抑制され、音声認識性能の低下を抑制できる。

また、前記音声入力装置は、３軸加速度センサを備え、前記検知ステップでは、前記３軸加速度センサの出力の時間変化のパターンと、予め計測されたパターンとの比較結果に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知してもよい。

これによれば、音声入力装置が備える３軸加速度センサによって、音声入力装置の動きを認識することができる。特に、音声入力装置をユーザの顔に近づける際の３軸加速度センサの出力の時間変化のパターンを予め計測しておくことで、当該パターンに類似するパターンが３軸加速度センサから出力されたときに、ユーザの顔と音声入力装置とが近接していることを検知できる。

また、前記音声入力装置は、カメラを備え、前記検知ステップでは、前記カメラでの撮影により取得される画像に含まれる前記ユーザの顔の大きさの変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知してもよい。

ユーザの顔と音声入力装置とが近接しているときには、近接していないときよりもカメラでの撮影により取得される画像に含まれるユーザの顔の大きさは大きくなる。したがって、当該画像に含まれるユーザの顔の大きさが大きくなったときに、ユーザの顔と音声入力装置とが近接していることを検知できる。

また、前記検知ステップでは、収音された前記音声信号のゲインの変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知してもよい。

ユーザの顔と音声入力装置とが近接しているときには、収音される音声信号のゲインが大きくなり得る。したがって、収音される音声信号のゲインが大きくなったときに、ユーザの顔と音声入力装置とが近接していることを検知できる。

また、前記検知ステップでは、第１期間において収音された前記音声信号のゲインの平均値に対する、前記第１期間の後の第２期間において収音された前記音声信号のゲインの平均値の変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知してもよい。

ユーザの顔と音声入力装置とが近接していないときであっても、収音される音声信号のゲインが瞬間的に大きくなることがある。そこで、一定の期間において収音された音声信号のゲインの平均値の変化に応じて、ユーザの顔と音声入力装置とが近接しているか否かを検知することで、正確な検知が可能となる。

また、前記検知ステップでは、収音された前記音声信号の所定の周波数以下の成分のゲインの変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知してもよい。

ユーザの顔と音声入力装置とが近接しているときには、収音される音声信号の所定の周波数以下の成分（例えば低音域の成分）のゲインが近接効果により大きくなり得る。したがって、収音される音声信号の所定の周波数以下の成分のゲインが大きくなったときに、ユーザの顔と音声入力装置とが近接していることを検知できる。

また、前記検知ステップでは、第３期間において収音された前記音声信号の前記所定の周波数以下の成分のゲインの平均値に対する、前記第３期間の後の第４期間において収音された前記音声信号の前記所定の周波数以下の成分のゲインの平均値の変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知してもよい。

ユーザの顔と音声入力装置とが近接していないときであっても、収音される音声信号の所定の周波数以下の成分のゲインが瞬間的に大きくなることがある。そこで、一定の期間において収音された音声信号の所定の周波数以下の成分のゲインの平均値の変化に応じて、ユーザの顔と音声入力装置とが近接しているか否かを検知することで、正確な検知が可能となる。

また、本開示の一態様に係るプログラムは、上記の音声入力方法をコンピュータに実行させるためのプログラムである。

また、本開示の一態様に係る音声入力装置は、少なくとも１つのマイクを備える音声入力装置であって、ユーザの顔と、前記音声入力装置とが近接しているか否かを検知する検知部と、前記ユーザの顔と前記音声入力装置とが近接していると検知された場合に、前記少なくとも１つのマイクで収音された音声信号に対して補正処理を行う補正部と、を備える。

これによれば、ユーザの顔と音声入力装置とが近接していることにより生じる音声認識性能の低下を抑制できる音声入力装置を提供できる。

以下、実施の形態について、図面を参照しながら具体的に説明する。

なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。

（実施の形態）
以下、図２から図５Ｂを用いて実施の形態について説明する。

図２は、実施の形態に係る音声入力装置１００の構成の一例を示すブロック図である。

音声入力装置１００は、ユーザが発した音声を音声認識し例えば翻訳するために、ユーザが発した音声が入力される装置である。例えば、入力された音声を示す音声信号は音声入力装置１００と通信可能なサーバ装置へ送信され、サーバ装置において音声認識及び翻訳がされ、翻訳された音声を示す情報が音声入力装置１００へ送信される。音声入力装置１００は、翻訳された音声を音声入力装置１００が備えるスピーカから出力したり、翻訳された音声のテキストを音声入力装置１００が備えるディスプレイで表示したりする。音声入力装置１００は、例えば、スマートフォン、タブレット端末又は翻訳を行うための専用の翻訳機等である。

音声入力装置１００は、少なくとも１つのマイク、検知部２０、３軸加速度センサ３０、比較部３１、パターンデータ３２、カメラ４０、顔検出部４１、顔大きさ測定部４２、ＡＤＣ（ＡｎａｌｏｇｔｏＤｉｇｉｔａｌＣｏｎｖｅｒｔｅｒ）５０及び補正部６０を備える。

例えば、少なくとも１つのマイクは少なくとも２つのマイクであり、ここでは、音声入力装置１００は、２つのマイク１０を備える。ユーザが発した音声は、時間差をもって各マイク１０に到達するため、各マイク１０の位置関係及び各マイク１０に到達する音声の時間差を利用することで、収音された音声信号を、単一指向性を有する音声信号とすることができる。

検知部２０は、ユーザの顔と音声入力装置１００とが近接しているか否かを検知する。検知部２０の詳細については後述する。

３軸加速度センサ３０は、互いに直交する３方向についての加速度を検出するセンサである。後述する図４Ａに示されるように、音声入力装置１００がスマートフォン等のように板形状を有している場合、３軸加速度センサ３０は、板形状の平面における横方向（ｘ軸方向）の加速度、縦方向（ｙ軸方向）の加速度、及び、板形状の平面に対して垂直な方向（ｚ軸方向）の加速度を検出する。

パターンデータ３２は、音声入力装置１００をユーザの顔に近づける際の３軸加速度センサの出力の時間変化のパターンのデータであって、予め計測されたパターンのデータである。パターンデータ３２の詳細については後述する。

比較部３１は、３軸加速度センサ３０の出力の時間変化のパターンと、予め計測されたパターンとを比較する。具体的には、３軸加速度センサ３０の出力の時間変化のパターンと、予め計測されたパターンとが類似しているか否かを判定する。

カメラ４０は、撮影により画像を取得する装置である。カメラ４０は、例えば、ユーザが音声入力装置１００を手に持って音声入力装置１００を見るときに、カメラ４０が撮影により取得する画像にユーザの顔が写るような位置に設けられる。例えば、音声入力装置１００がスマートフォン等である場合、カメラ４０は、音声入力装置１００が備えるディスプレイの隣に設けられ、音声入力装置１００を手に持つユーザ自身を撮影するためのカメラである。

顔検出部４１は、カメラ４０が撮影により取得する画像に写るユーザの顔を検出する。画像に写るユーザの顔を検出する方法は特に限定されず、一般的に用いられる顔検出技術が用いられてもよい。

顔大きさ測定部４２は、カメラ４０が撮影により取得する画像に写るユーザの顔の大きさを測定する。

ＡＤＣ５０は、アナログ信号をデジタル信号に変換する回路であり、ここでは、音声入力装置１００は、２つのマイク１０に対応して２つのＡＤＣ５０を備える。ＡＤＣ５０は、マイク１０で収音されたアナログ音声信号をデジタル音声信号に変換する。なお、後述するように、ＡＤＣ５０は、増幅回路６１で増幅されたアナログ音声信号をデジタル音声信号に変換する。

補正部６０は、増幅回路６１、指向性合成部６２及び近接効果補正部６３を備える。補正部６０（増幅回路６１、指向性合成部６２及び近接効果補正部６３）の詳細については後述する。

音声入力装置１００は、プロセッサ（マイクロプロセッサ）、ユーザインタフェース、通信インタフェース（図示しない通信回路等）及びメモリ等を含むコンピュータである。ユーザインタフェースは、例えば、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）等のディスプレイ、又は、キーボード、タッチパネル等の入力装置を含む。メモリは、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等であり、プロセッサにより実行されるプログラムを記憶することができる。なお、音声入力装置１００は、１つのメモリを有していてもよく、また、複数のメモリを有していてもよい。１つ又は複数のメモリには、パターンデータ３２が記憶される。プロセッサがプログラムに従って動作することにより、検知部２０、比較部３１、顔検出部４１、顔大きさ測定部４２及び補正部６０の動作が実現される。

検知部２０及び補正部６０の動作の詳細について、図３を用いて説明する。

図３は、実施の形態に係る音声入力方法の一例を示すフローチャートである。

音声入力方法は、ユーザの顔と音声入力装置１００とが近接しているか否かを検知する検知ステップ（ステップＳ１１）と、ユーザの顔と音声入力装置１００とが近接していると検知された場合に、少なくとも１つのマイクで収音された音声信号に対して補正処理を行う補正ステップ（ステップＳ１２）と、を含む。

例えば、実施の形態にかかる音声入力方法は、音声入力装置１００によって実行される方法である。つまり、図３は、検知部２０及び補正部６０の動作を示すフローチャートでもあり、検知ステップは検知部２０に対応し、補正ステップは補正部６０に対応する。

検知部２０は、ユーザの顔と音声入力装置１００とが近接しているか否かを判定する（ステップＳ１１）。

例えば、検知部２０は、３軸加速度センサ３０の出力の時間変化のパターンと、予め計測されたパターンとの比較結果に応じて、ユーザの顔と音声入力装置１００とが近接しているか否かを検知する。これについて、図４Ａ及び図４Ｂを用いて説明する。

図４Ａは、実施の形態に係る音声入力装置１００をユーザの顔に近づけたときの、音声入力装置１００にかかる力を説明するための図である。図４Ｂは、実施の形態に係る音声入力装置１００をユーザの顔に近づけたときの、音声入力装置１００が備える３軸加速度センサ３０の出力信号の一例を示す図である。

図４Ａに示されるように、音声入力装置１００をユーザの顔に近づける動作は、例えば、ユーザの手で握られてユーザの胸の前周辺にある音声入力装置１００を、ユーザの顔の口周辺に移動させる動作である。音声入力装置１００をユーザの顔に近づける動作は、言い換えると、略水平方向に倒れている音声入力装置１００をユーザの顔に向けて起こすような動作である。音声入力装置１００がユーザの胸の前周辺で略水平方向に倒れている状態を状態１と呼び、音声入力装置１００がユーザの顔（具体的には口）周辺で水平方向から４５°～９０°程度起き上った状態を状態２と呼ぶ。

音声入力装置１００が、状態１から状態２に移動させられる場合、３軸加速度センサ３０は図４Ｂに示されるような信号を出力する。なお、上述したように、音声入力装置１００がスマートフォン等のように板形状を有している場合、板形状の平面における横方向をｘ軸方向、縦方向をｙ軸方向、板形状の平面に対して垂直な方向をｚ軸方向とし、３軸加速度センサ３０は、ｘ軸方向、ｙ軸方向及びｚ軸方向の３軸の加速度を検出する。

状態１では、音声入力装置１００のｚ軸方向に重力がかかり、ｘ軸方向及びｙ軸方向にはほぼ力がかからない。したがって、３軸加速度センサ３０は、ｚ軸方向について重力加速度ｇに応じた信号を出力し、ｘ軸方向及びｙ軸方向については出力はほぼ０となる。ただし、図４Ｂに示されるように、状態１においてｘ軸方向、ｙ軸方向及びｚ軸方向の出力が全てほぼ０となるように、ｚ軸方向には重力加速度を打ち消す程度のバイアスがかけられている。

そして、図４Ａに示されるように、音声入力装置１００をユーザの顔に近づける動作がされると、図４Ｂに示されるように、ｘ軸方向には手ぶれ程度の力がかかり、ｙ軸方向には重力がかかっていき、ｚ軸方向には音声入力装置１００を起こす力がかかり、そして、音声入力装置１００は状態２となる。

このように、音声入力装置１００をユーザの顔に近づける動作がされる場合、３軸加速度センサ３０の出力の時間変化のパターンは、図４Ｂに示すようなものとなる。したがって、予め計測されたパターンとして、図４Ｂに示すようなパターンをパターンデータ３２として事前に記憶しておけば、以後、３軸加速度センサ３０の出力の時間変化のパターンとして図４Ｂに示すようなパターンと類似するパターンが計測されたときに、音声入力装置１００をユーザの顔に近づける動作がされたと判定することができる。

なお、ユーザによって音声入力装置１００を顔に近づける動作に違いがあると考えられるため、顔に近づける動作についての様々なパターンを予め計測しておき、様々なパターンデータ３２が記憶されていてもよい。

このようにして、検知部２０は、３軸加速度センサ３０の出力の時間変化のパターンと、予め計測されたパターンとが類似している場合に、ユーザの顔と音声入力装置１００とが近接していることを検知できる。

また、例えば、検知部２０は、カメラ４０での撮影により取得される画像に含まれるユーザの顔の大きさの変化に応じて、ユーザの顔と音声入力装置１００とが近接しているか否かを検知する。これについて、図５Ａ及び図５Ｂを用いて説明する。

図５Ａは、実施の形態に係る音声入力装置１００をユーザの顔に近づけたときの、音声入力装置１００が備えるカメラ４０の位置及び向きの変化を説明するための図である。図５Ｂは、実施の形態に係る音声入力装置１００をユーザの顔に近づけたときの、音声入力装置１００が備えるカメラ４０の撮影により取得される画像に写るユーザの顔の大きさの変化を示す図である。

図５Ａに示されるように、音声入力装置１００が状態１の場合、カメラ４０はユーザの胸の前周辺で上（例えば鉛直上方）に向いている。また、音声入力装置１００が状態２の場合、カメラ４０は、ユーザの口周辺でユーザの方に向いている。状態１では、図５Ｂの左側の破線枠で示されるように画像に写るユーザの顔は小さく、また、上下方向に圧縮される。状態１では、カメラ４０の位置が状態２よりもユーザから遠くなっており、また、ユーザの顔がカメラ４０で撮影可能な範囲の端に位置するためである。一方で、状態２では、図５Ｂの右側の破線枠で示されるように画像に写るユーザの顔は大きい。

このようにして、検知部２０は、カメラ４０での撮影により取得される画像に含まれるユーザの顔の大きさが大きくなった場合に、ユーザの顔と音声入力装置１００とが近接していることを検知できる。

なお、検知部２０は、収音された音声信号のゲインの変化に応じて、ユーザの顔と音声入力装置１００とが近接しているか否かを検知してもよい。ユーザの顔と音声入力装置１００とが近接している場合には、近接していない場合よりも音声信号のゲインが大きくなり得るためである。例えば、検知部２０は、収音された音声信号のゲインが所定値（例えば１０ｄＢ等）以上大きくなった場合に、ユーザの顔と音声入力装置１００とが近接していると検知する。ただし、ユーザの顔と音声入力装置１００とが近接していないときであっても、ユーザの声の出し方等によっては収音される音声信号のゲインが瞬間的に大きくなることがある。

そこで、検知部２０は、第１期間（例えば３秒等）において収音された音声信号のゲインの平均値に対する、第１期間の後の第２期間（例えば３秒等）において収音された音声信号のゲインの平均値の変化に応じて、ユーザの顔と音声入力装置１００とが近接しているか否かを検知してもよい。例えば、検知部２０は、収音された音声信号のゲインの時間平均が所定値（例えば１０ｄＢ等）以上大きくなった場合に、ユーザの顔と音声入力装置１００とが近接していると検知する。このように、一定の期間において収音された音声信号のゲインの時間平均の変化に応じて、ユーザの顔と音声入力装置１００とが近接しているか否かを検知することで、正確な検知が可能となる。

また、検知部２０は、収音された音声信号の所定の周波数以下の成分のゲインの変化に応じて、ユーザの顔と音声入力装置１００とが近接しているか否かを検知してもよい。ユーザの顔と音声入力装置１００とが近接している場合には、近接していない場合よりも所定の周波数以下の成分（例えば低音域の成分）のゲインが近接効果により大きくなり得るためである。なお、所定の周波数以下の成分のゲインとは、例えば、０Ｈｚから所定の周波数間の成分のゲインの周波数平均である。例えば、検知部２０は、収音された音声信号の所定の周波数（例えば２００Ｈｚ）以下の成分のゲインが所定値（例えば５ｄＢ等）以上大きくなった場合に、ユーザの顔と音声入力装置１００とが近接していると検知する。ただし、ユーザの顔と音声入力装置１００とが近接していないときであっても、ユーザの声の出し方等によっては収音される音声信号の所定の周波数以下の成分のゲインが瞬間的に大きくなることがある。

そこで、検知部２０は、第３期間（例えば３秒等）において収音された音声信号の所定の周波数以下の成分のゲインの平均値に対する、第３期間の後の第４期間（例えば３秒等）において収音された音声信号の所定の周波数以下の成分のゲインの平均値の変化に応じて、ユーザの顔と音声入力装置１００とが近接しているか否かを検知してもよい。例えば、検知部２０は、収音された音声信号の所定の周波数以下の成分のゲインの時間平均が所定値（例えば５ｄＢ等）以上大きくなった場合に、ユーザの顔と音声入力装置１００とが近接していると検知する。このように、一定の期間において収音された音声信号の所定の周波数以下の成分のゲインの時間平均の変化に応じて、ユーザの顔と音声入力装置１００とが近接しているか否かを検知することで、正確な検知が可能となる。

また、検知部２０は、収音された音声が反響しているか否かに応じて、ユーザの顔と音声入力装置１００とが近接しているか否かを検知してもよい。ユーザの顔と音声入力装置１００とが近接している場合には、近接していない場合よりも収音された音声が反響しにくいためである。収音された音声が反響しているか否かは、例えば、自己相関を用いて判定してもよい。例えば、残響が多いほど１次以降の成分が増えるため、ユーザの顔と音声入力装置１００とが近接していないときには１次以降の成分が増える。言い換えると、ユーザの顔と音声入力装置１００とが近接しているときには１次以降の成分が減る。このように、自己相関を用いて収音された音声が反響しているか否かを判定することで、ユーザの顔と音声入力装置１００とが近接しているか否かを検知してもよい。

図３での説明に戻り、補正部６０は、ユーザの顔と音声入力装置１００とが近接していると検知された場合に（ステップＳ１１でＹｅｓ）、少なくとも１つのマイクで収音された音声信号に対して補正処理を行う（ステップＳ１２）。上述したように、補正部６０は、増幅回路６１、指向性合成部６２及び近接効果補正部６３を備え、言い換えると、補正部６０は、増幅回路６１、指向性合成部６２及び近接効果補正部６３によって実現される。

増幅回路６１は、入力された音声信号（ここではアナログ音声信号）を増幅する回路であり、音声信号のゲインを調整する機能を有する。ここでは、増幅回路６１は、ゲインを下げる処理を行う。

指向性合成部６２は、入力された各音声信号（ここでは２つのＡＤＣ５０から出力された２つのデジタル音声信号）の位相を調整して指向性を調整する。ここでは、指向性合成部６２は、単一指向性を無指向性に変換する処理を行う。

近接効果補正部６３は、入力された音声信号（ここでは指向性合成部６２により指向性の調整が行われた音声信号）の周波数特性を変更するイコライザである。ここでは、近接効果補正部６３は、所定の周波数以下（例えば、２００Ｈｚ以下の低音域）の成分のゲインを下げる処理を行う。

補正部６０による補正処理は、指向性合成部６２による単一指向性を無指向性に変換する処理、増幅回路６１によるゲインを下げる処理、及び、近接効果補正部６３による所定の周波数以下の成分のゲインを下げる処理を含む。

補正部６０は、ユーザの顔と音声入力装置１００とが近接していると検知された場合に、音声信号に対して、ゲインを下げる処理を行ってもよいし、単一指向性を無指向性に変換する処理を行ってもよいし、所定の周波数以下の成分のゲインを下げる処理を行ってもよい。

なお、補正部６０は、必ずしもゲインを下げる処理、単一指向性を無指向性に変換する処理、及び、所定の周波数以下の成分のゲインを下げる処理の全てを行わなくてもよい。例えば、検知部２０での検知内容に応じて、行う補正処理の内容を変えてもよい。例えば、収音された音声信号のゲインが所定値以上大きくなったことで、ユーザの顔と音声入力装置１００とが近接していると検知された場合には、補正部６０は、補正処理としてゲインを下げる処理だけを行ってもよい。また、例えば、収音された音声信号の所定の周波数以下の成分のゲインが所定値以上大きくなったことで、ユーザの顔と音声入力装置１００とが近接していると検知された場合には、補正部６０は、補正処理として所定の周波数以下の成分のゲインを下げる処理だけを行ってもよい。

そして、音声入力装置１００は、補正処理が行われた音声信号を音声認識等のためにサーバ装置等に出力する。

一方で、補正部６０は、ユーザの顔と音声入力装置１００とが近接していないと検知された場合（ステップＳ１１でＮｏ）、少なくとも１つのマイクで収音された音声信号に対して補正処理を行わず、音声入力装置１００は、補正処理が行われていない音声信号を音声認識等のためにサーバ装置等に出力する。

以上説明したように、ユーザの顔と音声入力装置１００とが近接しているか否かの検知が行われるため、ユーザの顔と音声入力装置１００とが近接していると検知された場合に、ユーザの顔と音声入力装置１００とが近接していることにより生じる音声認識性能の低下を抑制するような補正処理を行うことができる。したがって、ユーザの顔と音声入力装置１００とが近接していることにより生じる音声認識性能の低下を抑制できる。音声認識性能の低下が抑制されることで、例えば、収音された音声を正しく翻訳することが可能になる。

（その他の実施の形態）
以上、本開示の一つ又は複数の態様に係る音声入力方法及び音声入力装置１００について、実施の形態に基づいて説明したが、本開示は、これらの実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を各実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の一つ又は複数の態様の範囲内に含まれてもよい。

例えば、上記実施の形態では、音声入力装置１００は、２つのマイク１０を備えている例について説明したが、これに限らない。例えば、音声入力装置１００は、１つ又は３つ以上のマイクを備えていてもよい。また、音声入力装置１００は、マイクの数に対応した増幅回路６１及びＡＤＣ５０を備える。また、音声入力装置１００は、１つのマイクを備える場合には、指向性合成部６２を備えていなくてもよい。

例えば、上記実施の形態では、補正部６０は、増幅回路６１、指向性合成部６２及び近接効果補正部６３を備えている例について説明したが、これに限らない。例えば、補正部６０は、増幅回路６１、指向性合成部６２及び近接効果補正部６３のうちの少なくとも１つを備えていればよい。

また、例えば、上記実施の形態では、音声入力装置１００は、３軸加速度センサ３０、比較部３１及びパターンデータ３２を備えている例について説明したが、備えていなくてもよい。つまり、検知部２０は、３軸加速度センサ３０の出力の時間変化のパターンと、予め計測されたパターンとの比較結果に応じて、ユーザの顔と音声入力装置１００とが近接しているか否かを検知しなくてもよい。

また、例えば、上記実施の形態では、音声入力装置１００は、カメラ４０、顔検出部４１及び顔大きさ測定部４２を備えている例について説明したが、備えていなくてもよい。つまり、検知部２０は、カメラ４０での撮影により取得される画像に含まれるユーザの顔の大きさの変化に応じて、ユーザの顔と音声入力装置１００とが近接しているか否かを検知しなくてもよい。

また、例えば、本開示は、音声入力方法を実行するサーバ装置として実現してもよい。例えば、当該サーバ装置は、検知部２０、比較部３１、パターンデータ３２、顔検出部４１、顔大きさ測定部４２、指向性合成部６２及び近接効果補正部６３等を備えていてもよい。つまり、音声入力装置１００が備えるマイク１０、３軸加速度センサ３０及びカメラ４０等以外の機能をサーバ装置に持たせてもよい。

本開示は、音声入力方法に含まれるステップを、プロセッサに実行させるためのプログラムとして実現できる。さらに、本開示は、そのプログラムを記録したＣＤ－ＲＯＭ等である非一時的なコンピュータ読み取り可能な記録媒体として実現できる。

例えば、本開示が、プログラム（ソフトウェア）で実現される場合には、コンピュータのＣＰＵ、メモリ及び入出力回路等のハードウェア資源を利用してプログラムが実行されることによって、各ステップが実行される。つまり、ＣＰＵがデータをメモリ又は入出力回路等から取得して演算したり、演算結果をメモリ又は入出力回路等に出力したりすることによって、各ステップが実行される。

なお、上記実施の形態において、音声入力装置１００に含まれる各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

上記実施の形態に係る音声入力装置１００の機能の一部又は全ては典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。また、集積回路化はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、又はＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

さらに、本開示の主旨を逸脱しない限り、本開示の各実施の形態に対して当業者が思いつく範囲内の変更を施した各種変形例も本開示に含まれる。

本開示の音声入力方法等は、例えば、音声の翻訳を行う際に用いられる、スマートフォン、タブレット端末又は翻訳機等のポータブル機器等に適用できる。

１０マイク
２０検知部
３０３軸加速度センサ
３１比較部
３２パターンデータ
４０カメラ
４１顔検出部
４２顔大きさ測定部
５０ＡＤＣ
６０補正部
６１増幅回路
６２指向性合成部
６３近接効果補正部
１００音声入力装置
２００ユーザ

Claims

ユーザの顔と、少なくとも１つのマイクを備える音声入力装置とが近接しているか否かを検知する検知ステップと、
前記ユーザの顔と前記音声入力装置とが近接していると検知された場合に、前記少なくとも１つのマイクで収音された音声信号に対して補正処理を行う補正ステップと、を含み、
前記少なくとも１つのマイクは、少なくとも２つのマイクであり、
前記音声信号は、前記少なくとも２つのマイクで収音された単一指向性を有する音声信号であり、
前記補正処理は、単一指向性を無指向性に変換する処理を含む、
音声入力方法。
前記補正処理は、ゲインを下げる処理を含む、
請求項１に記載の音声入力方法。
前記補正処理は、所定の周波数以下の成分のゲインを下げる処理を含む、
請求項１又は２に記載の音声入力方法。
前記音声入力装置は、３軸加速度センサを備え、
前記検知ステップでは、前記３軸加速度センサの出力の時間変化のパターンと、予め計測されたパターンとの比較結果に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知する、
請求項１～３のいずれか１項に記載の音声入力方法。
前記音声入力装置は、カメラを備え、
前記検知ステップでは、前記カメラでの撮影により取得される画像に含まれる前記ユーザの顔の大きさの変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知する、
請求項１～４のいずれか１項に記載の音声入力方法。
前記検知ステップでは、収音された前記音声信号のゲインの変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知する、
請求項１～５のいずれか１項に記載の音声入力方法。
前記検知ステップでは、第１期間において収音された前記音声信号のゲインの平均値に対する、前記第１期間の後の第２期間において収音された前記音声信号のゲインの平均値の変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知する、
請求項６に記載の音声入力方法。
前記検知ステップでは、収音された前記音声信号の所定の周波数以下の成分のゲインの変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知する、
請求項１～７のいずれか１項に記載の音声入力方法。
前記検知ステップでは、第３期間において収音された前記音声信号の前記所定の周波数以下の成分のゲインの平均値に対する、前記第３期間の後の第４期間において収音された前記音声信号の前記所定の周波数以下の成分のゲインの平均値の変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知する、
請求項８に記載の音声入力方法。
請求項１～９のいずれか１項に記載の音声入力方法をコンピュータに実行させるためのプログラム。
少なくとも１つのマイクを備える音声入力装置であって、
ユーザの顔と、前記音声入力装置とが近接しているか否かを検知する検知部と、
前記ユーザの顔と前記音声入力装置とが近接していると検知された場合に、前記少なくとも１つのマイクで収音された音声信号に対して補正処理を行う補正部と、を備え、
前記少なくとも１つのマイクは、少なくとも２つのマイクであり、
前記音声信号は、前記少なくとも２つのマイクで収音された単一指向性を有する音声信号であり、
前記補正処理は、単一指向性を無指向性に変換する処理を含む、
音声入力装置。