JP7411422B2 - 音声入力方法、プログラム及び音声入力装置 - Google Patents

音声入力方法、プログラム及び音声入力装置 Download PDF

Info

Publication number
JP7411422B2
JP7411422B2 JP2020006980A JP2020006980A JP7411422B2 JP 7411422 B2 JP7411422 B2 JP 7411422B2 JP 2020006980 A JP2020006980 A JP 2020006980A JP 2020006980 A JP2020006980 A JP 2020006980A JP 7411422 B2 JP7411422 B2 JP 7411422B2
Authority
JP
Japan
Prior art keywords
input device
user
face
voice input
close
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020006980A
Other languages
English (en)
Other versions
JP2020162112A (ja
Inventor
和也 野村
博基 古川
丈郎 金森
慎一 杠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to US16/828,118 priority Critical patent/US11277692B2/en
Priority to CN202010211028.5A priority patent/CN111757217B/zh
Priority to EP20166375.4A priority patent/EP3716269A1/en
Publication of JP2020162112A publication Critical patent/JP2020162112A/ja
Application granted granted Critical
Publication of JP7411422B2 publication Critical patent/JP7411422B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Otolaryngology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本開示は、音声入力方法、プログラム及び音声入力装置に関する。
従来、話者の音声を収音する収音装置において、雑音の影響を少なくしつつ収音することのできる技術が開示されている(例えば、特許文献1)。
特開2010-50571号公報
近年街中等で、収音装置(ここでは、音声入力装置と呼ぶ)で収音されたユーザの音声を翻訳し、翻訳結果を音声入力装置が備えるディスプレイに表示したり、音声入力装置が備えるマイクから出力したりして相手とコミュニケーションを図るということがなされている。しかしながら、周囲の騒音等によって音声認識が正しくなされず、ユーザは音声入力装置を顔(具体的には口)に近づけて再度音声を発し、再度音声認識を行わせることがある。このとき、ユーザの顔と音声入力装置とが近接していることで、音声認識性能が低下するという問題がある。
そこで、本開示は、ユーザの顔と音声入力装置とが近接していることにより生じる音声認識性能の低下を抑制できる音声入力方法等を提供する。
本開示に係る音声入力方法は、ユーザの顔と、少なくとも1つのマイクを備える音声入力装置とが近接しているか否かを検知する検知ステップと、前記ユーザの顔と前記音声入力装置とが近接していると検知された場合に、前記少なくとも1つのマイクで収音された音声信号に対して補正処理を行う補正ステップと、を含む。
なお、これらの包括的又は具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
本開示の一態様に係る音声入力方法等によれば、ユーザの顔と音声入力装置とが近接していることにより生じる音声認識性能の低下を抑制できる。
ユーザの顔と音声入力装置とが近接していることで音声認識性能が低下することを説明するための図である。 実施の形態に係る音声入力装置の構成の一例を示すブロック図である。 実施の形態に係る音声入力方法の一例を示すフローチャートである。 実施の形態に係る音声入力装置をユーザの顔に近づけたときの、音声入力装置にかかる力を説明するための図である。 実施の形態に係る音声入力装置をユーザの顔に近づけたときの、音声入力装置が備える3軸加速度センサの出力信号の一例を示す図である。 実施の形態に係る音声入力装置をユーザの顔に近づけたときの、音声入力装置が備えるカメラの位置及び向きの変化を説明するための図である。 実施の形態に係る音声入力装置をユーザの顔に近づけたときの、音声入力装置が備えるカメラの撮影により取得される画像に写るユーザの顔の大きさの変化を示す図である。
(本開示の一態様を得るに至った経緯)
まず、本開示の一態様を得るに至った経緯について、図1を用いて説明する。
図1は、ユーザ200の顔と音声入力装置100とが近接していることで音声認識性能が低下することを説明するための図である。
例えば、ユーザ200が自身の使用する言語の通じない相手とコミュニケーションを図る場合に、音声入力装置100が用いられる。通常、ユーザ200は、ユーザ200の胸の前あたりで音声入力装置100を持って翻訳したい音声を発する。これにより、音声入力装置100は当該音声を収音し、例えばサーバ装置で音声認識がなされ、所望の言語に翻訳がなされる。
しかし、街中等では周囲の騒音等によって音声認識が正しくなされず、図1に示されるようにユーザ200は音声入力装置100をユーザ200の顔に近づけて再度音声を発し、再度音声認識を行うことがある。このように、ユーザ200の顔と音声入力装置100とが近接している場合、以下のような問題が生じる。なお、ユーザ200がユーザ200の顔を音声入力装置100に近づけることで、ユーザ200の顔と音声入力装置100とが近接する場合もある。
例えば、音声入力装置100は、少なくとも2つのマイクを備えている場合があり、当該少なくとも2つのマイクで収音される音声信号は、単一指向性を有する音声信号となっている場合がある。つまり、音声入力装置100は、特定の方向の収音感度が高くなっている場合があり、言い換えると、特定の方向以外の収音感度が低くなっている場合がある。例えば、当該単一指向性は、音声入力装置100がユーザ200の胸の前あたりに位置する場合に、ユーザ200の顔への方向の収音感度が高くなるような指向性である。このように、収音される音声信号が単一指向性を有する音声信号である場合に、ユーザ200の顔と音声入力装置100とが近接していることで、ユーザ200の口が収音感度の高い方向からずれてしまい、正常に音声認識がされない場合がある。
また、例えば、ユーザ200の顔と音声入力装置100とが近接している場合、音声入力装置100が備えるマイクで収音される音声の入力信号レベルが上昇し、場合によっては飽和する場合があり、正常に音声認識がされない場合がある。
また、例えば、ユーザ200の顔と音声入力装置100とが近接している場合、近接効果により、音声入力装置100が備えるマイクで収音される音声の低音域が強調されて、正常に音声認識がされない場合がある。
そこで、本開示の一態様に係る音声入力方法は、ユーザの顔と、少なくとも1つのマイクを備える音声入力装置とが近接しているか否かを検知する検知ステップと、前記ユーザの顔と前記音声入力装置とが近接していると検知された場合に、前記少なくとも1つのマイクで収音された音声信号に対して補正処理を行う補正ステップと、を含む。
これによれば、ユーザの顔と音声入力装置とが近接しているか否かの検知が行われるため、ユーザの顔と音声入力装置とが近接していると検知された場合に、ユーザの顔と音声入力装置とが近接していることにより生じる音声認識性能の低下を抑制するような補正処理を行うことができる。したがって、ユーザの顔と音声入力装置とが近接していることにより生じる音声認識性能の低下を抑制できる。音声認識性能の低下が抑制されることで、例えば、収音された音声を正しく翻訳することが可能になる。
また、前記少なくとも1つのマイクは、少なくとも2つのマイクであり、前記音声信号は、前記少なくとも2つのマイクで収音された単一指向性を有する音声信号であり、前記補正処理は、単一指向性を無指向性に変換する処理を含んでいてもよい。
ユーザの顔と音声入力装置とが近接している場合、収音された音声信号が無指向性であっても収音感度は十分なレベルとなりやすい。したがって、ユーザの顔と音声入力装置とが近接している場合に、単一指向性を無指向性に変換する処理が行われることで、マイクからのユーザの顔の方向によらず、音声認識性能の低下を抑制できる。
また、前記補正処理は、ゲインを下げる処理を含んでいてもよい。
これによれば、ゲインを下げる処理が行われることで、ユーザの顔と音声入力装置とが近接している場合に、音声入力装置100が備えるマイクで収音される音声の入力信号レベルが飽和することが抑制され、音声認識性能の低下を抑制できる。
また、前記補正処理は、所定の周波数以下の成分のゲインを下げる処理を含んでいてもよい。
これによれば、所定の周波数以下の成分(例えば低音域の成分)のゲインを下げる処理が行われることで、ユーザの顔と音声入力装置とが近接している場合に、近接効果による低音域の強調が抑制され、音声認識性能の低下を抑制できる。
また、前記音声入力装置は、3軸加速度センサを備え、前記検知ステップでは、前記3軸加速度センサの出力の時間変化のパターンと、予め計測されたパターンとの比較結果に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知してもよい。
これによれば、音声入力装置が備える3軸加速度センサによって、音声入力装置の動きを認識することができる。特に、音声入力装置をユーザの顔に近づける際の3軸加速度センサの出力の時間変化のパターンを予め計測しておくことで、当該パターンに類似するパターンが3軸加速度センサから出力されたときに、ユーザの顔と音声入力装置とが近接していることを検知できる。
また、前記音声入力装置は、カメラを備え、前記検知ステップでは、前記カメラでの撮影により取得される画像に含まれる前記ユーザの顔の大きさの変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知してもよい。
ユーザの顔と音声入力装置とが近接しているときには、近接していないときよりもカメラでの撮影により取得される画像に含まれるユーザの顔の大きさは大きくなる。したがって、当該画像に含まれるユーザの顔の大きさが大きくなったときに、ユーザの顔と音声入力装置とが近接していることを検知できる。
また、前記検知ステップでは、収音された前記音声信号のゲインの変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知してもよい。
ユーザの顔と音声入力装置とが近接しているときには、収音される音声信号のゲインが大きくなり得る。したがって、収音される音声信号のゲインが大きくなったときに、ユーザの顔と音声入力装置とが近接していることを検知できる。
また、前記検知ステップでは、第1期間において収音された前記音声信号のゲインの平均値に対する、前記第1期間の後の第2期間において収音された前記音声信号のゲインの平均値の変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知してもよい。
ユーザの顔と音声入力装置とが近接していないときであっても、収音される音声信号のゲインが瞬間的に大きくなることがある。そこで、一定の期間において収音された音声信号のゲインの平均値の変化に応じて、ユーザの顔と音声入力装置とが近接しているか否かを検知することで、正確な検知が可能となる。
また、前記検知ステップでは、収音された前記音声信号の所定の周波数以下の成分のゲインの変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知してもよい。
ユーザの顔と音声入力装置とが近接しているときには、収音される音声信号の所定の周波数以下の成分(例えば低音域の成分)のゲインが近接効果により大きくなり得る。したがって、収音される音声信号の所定の周波数以下の成分のゲインが大きくなったときに、ユーザの顔と音声入力装置とが近接していることを検知できる。
また、前記検知ステップでは、第3期間において収音された前記音声信号の前記所定の周波数以下の成分のゲインの平均値に対する、前記第3期間の後の第4期間において収音された前記音声信号の前記所定の周波数以下の成分のゲインの平均値の変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知してもよい。
ユーザの顔と音声入力装置とが近接していないときであっても、収音される音声信号の所定の周波数以下の成分のゲインが瞬間的に大きくなることがある。そこで、一定の期間において収音された音声信号の所定の周波数以下の成分のゲインの平均値の変化に応じて、ユーザの顔と音声入力装置とが近接しているか否かを検知することで、正確な検知が可能となる。
また、本開示の一態様に係るプログラムは、上記の音声入力方法をコンピュータに実行させるためのプログラムである。
また、本開示の一態様に係る音声入力装置は、少なくとも1つのマイクを備える音声入力装置であって、ユーザの顔と、前記音声入力装置とが近接しているか否かを検知する検知部と、前記ユーザの顔と前記音声入力装置とが近接していると検知された場合に、前記少なくとも1つのマイクで収音された音声信号に対して補正処理を行う補正部と、を備える。
これによれば、ユーザの顔と音声入力装置とが近接していることにより生じる音声認識性能の低下を抑制できる音声入力装置を提供できる。
以下、実施の形態について、図面を参照しながら具体的に説明する。
なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。
(実施の形態)
以下、図2から図5Bを用いて実施の形態について説明する。
図2は、実施の形態に係る音声入力装置100の構成の一例を示すブロック図である。
音声入力装置100は、ユーザが発した音声を音声認識し例えば翻訳するために、ユーザが発した音声が入力される装置である。例えば、入力された音声を示す音声信号は音声入力装置100と通信可能なサーバ装置へ送信され、サーバ装置において音声認識及び翻訳がされ、翻訳された音声を示す情報が音声入力装置100へ送信される。音声入力装置100は、翻訳された音声を音声入力装置100が備えるスピーカから出力したり、翻訳された音声のテキストを音声入力装置100が備えるディスプレイで表示したりする。音声入力装置100は、例えば、スマートフォン、タブレット端末又は翻訳を行うための専用の翻訳機等である。
音声入力装置100は、少なくとも1つのマイク、検知部20、3軸加速度センサ30、比較部31、パターンデータ32、カメラ40、顔検出部41、顔大きさ測定部42、ADC(Analog to Digital Converter)50及び補正部60を備える。
例えば、少なくとも1つのマイクは少なくとも2つのマイクであり、ここでは、音声入力装置100は、2つのマイク10を備える。ユーザが発した音声は、時間差をもって各マイク10に到達するため、各マイク10の位置関係及び各マイク10に到達する音声の時間差を利用することで、収音された音声信号を、単一指向性を有する音声信号とすることができる。
検知部20は、ユーザの顔と音声入力装置100とが近接しているか否かを検知する。検知部20の詳細については後述する。
3軸加速度センサ30は、互いに直交する3方向についての加速度を検出するセンサである。後述する図4Aに示されるように、音声入力装置100がスマートフォン等のように板形状を有している場合、3軸加速度センサ30は、板形状の平面における横方向(x軸方向)の加速度、縦方向(y軸方向)の加速度、及び、板形状の平面に対して垂直な方向(z軸方向)の加速度を検出する。
パターンデータ32は、音声入力装置100をユーザの顔に近づける際の3軸加速度センサの出力の時間変化のパターンのデータであって、予め計測されたパターンのデータである。パターンデータ32の詳細については後述する。
比較部31は、3軸加速度センサ30の出力の時間変化のパターンと、予め計測されたパターンとを比較する。具体的には、3軸加速度センサ30の出力の時間変化のパターンと、予め計測されたパターンとが類似しているか否かを判定する。
カメラ40は、撮影により画像を取得する装置である。カメラ40は、例えば、ユーザが音声入力装置100を手に持って音声入力装置100を見るときに、カメラ40が撮影により取得する画像にユーザの顔が写るような位置に設けられる。例えば、音声入力装置100がスマートフォン等である場合、カメラ40は、音声入力装置100が備えるディスプレイの隣に設けられ、音声入力装置100を手に持つユーザ自身を撮影するためのカメラである。
顔検出部41は、カメラ40が撮影により取得する画像に写るユーザの顔を検出する。画像に写るユーザの顔を検出する方法は特に限定されず、一般的に用いられる顔検出技術が用いられてもよい。
顔大きさ測定部42は、カメラ40が撮影により取得する画像に写るユーザの顔の大きさを測定する。
ADC50は、アナログ信号をデジタル信号に変換する回路であり、ここでは、音声入力装置100は、2つのマイク10に対応して2つのADC50を備える。ADC50は、マイク10で収音されたアナログ音声信号をデジタル音声信号に変換する。なお、後述するように、ADC50は、増幅回路61で増幅されたアナログ音声信号をデジタル音声信号に変換する。
補正部60は、増幅回路61、指向性合成部62及び近接効果補正部63を備える。補正部60(増幅回路61、指向性合成部62及び近接効果補正部63)の詳細については後述する。
音声入力装置100は、プロセッサ(マイクロプロセッサ)、ユーザインタフェース、通信インタフェース(図示しない通信回路等)及びメモリ等を含むコンピュータである。ユーザインタフェースは、例えば、LCD(Liquid Crystal Display)等のディスプレイ、又は、キーボード、タッチパネル等の入力装置を含む。メモリは、ROM(Read Only Memory)、RAM(Random Access Memory)等であり、プロセッサにより実行されるプログラムを記憶することができる。なお、音声入力装置100は、1つのメモリを有していてもよく、また、複数のメモリを有していてもよい。1つ又は複数のメモリには、パターンデータ32が記憶される。プロセッサがプログラムに従って動作することにより、検知部20、比較部31、顔検出部41、顔大きさ測定部42及び補正部60の動作が実現される。
検知部20及び補正部60の動作の詳細について、図3を用いて説明する。
図3は、実施の形態に係る音声入力方法の一例を示すフローチャートである。
音声入力方法は、ユーザの顔と音声入力装置100とが近接しているか否かを検知する検知ステップ(ステップS11)と、ユーザの顔と音声入力装置100とが近接していると検知された場合に、少なくとも1つのマイクで収音された音声信号に対して補正処理を行う補正ステップ(ステップS12)と、を含む。
例えば、実施の形態にかかる音声入力方法は、音声入力装置100によって実行される方法である。つまり、図3は、検知部20及び補正部60の動作を示すフローチャートでもあり、検知ステップは検知部20に対応し、補正ステップは補正部60に対応する。
検知部20は、ユーザの顔と音声入力装置100とが近接しているか否かを判定する(ステップS11)。
例えば、検知部20は、3軸加速度センサ30の出力の時間変化のパターンと、予め計測されたパターンとの比較結果に応じて、ユーザの顔と音声入力装置100とが近接しているか否かを検知する。これについて、図4A及び図4Bを用いて説明する。
図4Aは、実施の形態に係る音声入力装置100をユーザの顔に近づけたときの、音声入力装置100にかかる力を説明するための図である。図4Bは、実施の形態に係る音声入力装置100をユーザの顔に近づけたときの、音声入力装置100が備える3軸加速度センサ30の出力信号の一例を示す図である。
図4Aに示されるように、音声入力装置100をユーザの顔に近づける動作は、例えば、ユーザの手で握られてユーザの胸の前周辺にある音声入力装置100を、ユーザの顔の口周辺に移動させる動作である。音声入力装置100をユーザの顔に近づける動作は、言い換えると、略水平方向に倒れている音声入力装置100をユーザの顔に向けて起こすような動作である。音声入力装置100がユーザの胸の前周辺で略水平方向に倒れている状態を状態1と呼び、音声入力装置100がユーザの顔(具体的には口)周辺で水平方向から45°~90°程度起き上った状態を状態2と呼ぶ。
音声入力装置100が、状態1から状態2に移動させられる場合、3軸加速度センサ30は図4Bに示されるような信号を出力する。なお、上述したように、音声入力装置100がスマートフォン等のように板形状を有している場合、板形状の平面における横方向をx軸方向、縦方向をy軸方向、板形状の平面に対して垂直な方向をz軸方向とし、3軸加速度センサ30は、x軸方向、y軸方向及びz軸方向の3軸の加速度を検出する。
状態1では、音声入力装置100のz軸方向に重力がかかり、x軸方向及びy軸方向にはほぼ力がかからない。したがって、3軸加速度センサ30は、z軸方向について重力加速度gに応じた信号を出力し、x軸方向及びy軸方向については出力はほぼ0となる。ただし、図4Bに示されるように、状態1においてx軸方向、y軸方向及びz軸方向の出力が全てほぼ0となるように、z軸方向には重力加速度を打ち消す程度のバイアスがかけられている。
そして、図4Aに示されるように、音声入力装置100をユーザの顔に近づける動作がされると、図4Bに示されるように、x軸方向には手ぶれ程度の力がかかり、y軸方向には重力がかかっていき、z軸方向には音声入力装置100を起こす力がかかり、そして、音声入力装置100は状態2となる。
このように、音声入力装置100をユーザの顔に近づける動作がされる場合、3軸加速度センサ30の出力の時間変化のパターンは、図4Bに示すようなものとなる。したがって、予め計測されたパターンとして、図4Bに示すようなパターンをパターンデータ32として事前に記憶しておけば、以後、3軸加速度センサ30の出力の時間変化のパターンとして図4Bに示すようなパターンと類似するパターンが計測されたときに、音声入力装置100をユーザの顔に近づける動作がされたと判定することができる。
なお、ユーザによって音声入力装置100を顔に近づける動作に違いがあると考えられるため、顔に近づける動作についての様々なパターンを予め計測しておき、様々なパターンデータ32が記憶されていてもよい。
このようにして、検知部20は、3軸加速度センサ30の出力の時間変化のパターンと、予め計測されたパターンとが類似している場合に、ユーザの顔と音声入力装置100とが近接していることを検知できる。
また、例えば、検知部20は、カメラ40での撮影により取得される画像に含まれるユーザの顔の大きさの変化に応じて、ユーザの顔と音声入力装置100とが近接しているか否かを検知する。これについて、図5A及び図5Bを用いて説明する。
図5Aは、実施の形態に係る音声入力装置100をユーザの顔に近づけたときの、音声入力装置100が備えるカメラ40の位置及び向きの変化を説明するための図である。図5Bは、実施の形態に係る音声入力装置100をユーザの顔に近づけたときの、音声入力装置100が備えるカメラ40の撮影により取得される画像に写るユーザの顔の大きさの変化を示す図である。
図5Aに示されるように、音声入力装置100が状態1の場合、カメラ40はユーザの胸の前周辺で上(例えば鉛直上方)に向いている。また、音声入力装置100が状態2の場合、カメラ40は、ユーザの口周辺でユーザの方に向いている。状態1では、図5Bの左側の破線枠で示されるように画像に写るユーザの顔は小さく、また、上下方向に圧縮される。状態1では、カメラ40の位置が状態2よりもユーザから遠くなっており、また、ユーザの顔がカメラ40で撮影可能な範囲の端に位置するためである。一方で、状態2では、図5Bの右側の破線枠で示されるように画像に写るユーザの顔は大きい。
このようにして、検知部20は、カメラ40での撮影により取得される画像に含まれるユーザの顔の大きさが大きくなった場合に、ユーザの顔と音声入力装置100とが近接していることを検知できる。
なお、検知部20は、収音された音声信号のゲインの変化に応じて、ユーザの顔と音声入力装置100とが近接しているか否かを検知してもよい。ユーザの顔と音声入力装置100とが近接している場合には、近接していない場合よりも音声信号のゲインが大きくなり得るためである。例えば、検知部20は、収音された音声信号のゲインが所定値(例えば10dB等)以上大きくなった場合に、ユーザの顔と音声入力装置100とが近接していると検知する。ただし、ユーザの顔と音声入力装置100とが近接していないときであっても、ユーザの声の出し方等によっては収音される音声信号のゲインが瞬間的に大きくなることがある。
そこで、検知部20は、第1期間(例えば3秒等)において収音された音声信号のゲインの平均値に対する、第1期間の後の第2期間(例えば3秒等)において収音された音声信号のゲインの平均値の変化に応じて、ユーザの顔と音声入力装置100とが近接しているか否かを検知してもよい。例えば、検知部20は、収音された音声信号のゲインの時間平均が所定値(例えば10dB等)以上大きくなった場合に、ユーザの顔と音声入力装置100とが近接していると検知する。このように、一定の期間において収音された音声信号のゲインの時間平均の変化に応じて、ユーザの顔と音声入力装置100とが近接しているか否かを検知することで、正確な検知が可能となる。
また、検知部20は、収音された音声信号の所定の周波数以下の成分のゲインの変化に応じて、ユーザの顔と音声入力装置100とが近接しているか否かを検知してもよい。ユーザの顔と音声入力装置100とが近接している場合には、近接していない場合よりも所定の周波数以下の成分(例えば低音域の成分)のゲインが近接効果により大きくなり得るためである。なお、所定の周波数以下の成分のゲインとは、例えば、0Hzから所定の周波数間の成分のゲインの周波数平均である。例えば、検知部20は、収音された音声信号の所定の周波数(例えば200Hz)以下の成分のゲインが所定値(例えば5dB等)以上大きくなった場合に、ユーザの顔と音声入力装置100とが近接していると検知する。ただし、ユーザの顔と音声入力装置100とが近接していないときであっても、ユーザの声の出し方等によっては収音される音声信号の所定の周波数以下の成分のゲインが瞬間的に大きくなることがある。
そこで、検知部20は、第3期間(例えば3秒等)において収音された音声信号の所定の周波数以下の成分のゲインの平均値に対する、第3期間の後の第4期間(例えば3秒等)において収音された音声信号の所定の周波数以下の成分のゲインの平均値の変化に応じて、ユーザの顔と音声入力装置100とが近接しているか否かを検知してもよい。例えば、検知部20は、収音された音声信号の所定の周波数以下の成分のゲインの時間平均が所定値(例えば5dB等)以上大きくなった場合に、ユーザの顔と音声入力装置100とが近接していると検知する。このように、一定の期間において収音された音声信号の所定の周波数以下の成分のゲインの時間平均の変化に応じて、ユーザの顔と音声入力装置100とが近接しているか否かを検知することで、正確な検知が可能となる。
また、検知部20は、収音された音声が反響しているか否かに応じて、ユーザの顔と音声入力装置100とが近接しているか否かを検知してもよい。ユーザの顔と音声入力装置100とが近接している場合には、近接していない場合よりも収音された音声が反響しにくいためである。収音された音声が反響しているか否かは、例えば、自己相関を用いて判定してもよい。例えば、残響が多いほど1次以降の成分が増えるため、ユーザの顔と音声入力装置100とが近接していないときには1次以降の成分が増える。言い換えると、ユーザの顔と音声入力装置100とが近接しているときには1次以降の成分が減る。このように、自己相関を用いて収音された音声が反響しているか否かを判定することで、ユーザの顔と音声入力装置100とが近接しているか否かを検知してもよい。
図3での説明に戻り、補正部60は、ユーザの顔と音声入力装置100とが近接していると検知された場合に(ステップS11でYes)、少なくとも1つのマイクで収音された音声信号に対して補正処理を行う(ステップS12)。上述したように、補正部60は、増幅回路61、指向性合成部62及び近接効果補正部63を備え、言い換えると、補正部60は、増幅回路61、指向性合成部62及び近接効果補正部63によって実現される。
増幅回路61は、入力された音声信号(ここではアナログ音声信号)を増幅する回路であり、音声信号のゲインを調整する機能を有する。ここでは、増幅回路61は、ゲインを下げる処理を行う。
指向性合成部62は、入力された各音声信号(ここでは2つのADC50から出力された2つのデジタル音声信号)の位相を調整して指向性を調整する。ここでは、指向性合成部62は、単一指向性を無指向性に変換する処理を行う。
近接効果補正部63は、入力された音声信号(ここでは指向性合成部62により指向性の調整が行われた音声信号)の周波数特性を変更するイコライザである。ここでは、近接効果補正部63は、所定の周波数以下(例えば、200Hz以下の低音域)の成分のゲインを下げる処理を行う。
補正部60による補正処理は、指向性合成部62による単一指向性を無指向性に変換する処理、増幅回路61によるゲインを下げる処理、及び、近接効果補正部63による所定の周波数以下の成分のゲインを下げる処理を含む。
補正部60は、ユーザの顔と音声入力装置100とが近接していると検知された場合に、音声信号に対して、ゲインを下げる処理を行ってもよいし、単一指向性を無指向性に変換する処理を行ってもよいし、所定の周波数以下の成分のゲインを下げる処理を行ってもよい。
なお、補正部60は、必ずしもゲインを下げる処理、単一指向性を無指向性に変換する処理、及び、所定の周波数以下の成分のゲインを下げる処理の全てを行わなくてもよい。例えば、検知部20での検知内容に応じて、行う補正処理の内容を変えてもよい。例えば、収音された音声信号のゲインが所定値以上大きくなったことで、ユーザの顔と音声入力装置100とが近接していると検知された場合には、補正部60は、補正処理としてゲインを下げる処理だけを行ってもよい。また、例えば、収音された音声信号の所定の周波数以下の成分のゲインが所定値以上大きくなったことで、ユーザの顔と音声入力装置100とが近接していると検知された場合には、補正部60は、補正処理として所定の周波数以下の成分のゲインを下げる処理だけを行ってもよい。
そして、音声入力装置100は、補正処理が行われた音声信号を音声認識等のためにサーバ装置等に出力する。
一方で、補正部60は、ユーザの顔と音声入力装置100とが近接していないと検知された場合(ステップS11でNo)、少なくとも1つのマイクで収音された音声信号に対して補正処理を行わず、音声入力装置100は、補正処理が行われていない音声信号を音声認識等のためにサーバ装置等に出力する。
以上説明したように、ユーザの顔と音声入力装置100とが近接しているか否かの検知が行われるため、ユーザの顔と音声入力装置100とが近接していると検知された場合に、ユーザの顔と音声入力装置100とが近接していることにより生じる音声認識性能の低下を抑制するような補正処理を行うことができる。したがって、ユーザの顔と音声入力装置100とが近接していることにより生じる音声認識性能の低下を抑制できる。音声認識性能の低下が抑制されることで、例えば、収音された音声を正しく翻訳することが可能になる。
(その他の実施の形態)
以上、本開示の一つ又は複数の態様に係る音声入力方法及び音声入力装置100について、実施の形態に基づいて説明したが、本開示は、これらの実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を各実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の一つ又は複数の態様の範囲内に含まれてもよい。
例えば、上記実施の形態では、音声入力装置100は、2つのマイク10を備えている例について説明したが、これに限らない。例えば、音声入力装置100は、1つ又は3つ以上のマイクを備えていてもよい。また、音声入力装置100は、マイクの数に対応した増幅回路61及びADC50を備える。また、音声入力装置100は、1つのマイクを備える場合には、指向性合成部62を備えていなくてもよい。
例えば、上記実施の形態では、補正部60は、増幅回路61、指向性合成部62及び近接効果補正部63を備えている例について説明したが、これに限らない。例えば、補正部60は、増幅回路61、指向性合成部62及び近接効果補正部63のうちの少なくとも1つを備えていればよい。
また、例えば、上記実施の形態では、音声入力装置100は、3軸加速度センサ30、比較部31及びパターンデータ32を備えている例について説明したが、備えていなくてもよい。つまり、検知部20は、3軸加速度センサ30の出力の時間変化のパターンと、予め計測されたパターンとの比較結果に応じて、ユーザの顔と音声入力装置100とが近接しているか否かを検知しなくてもよい。
また、例えば、上記実施の形態では、音声入力装置100は、カメラ40、顔検出部41及び顔大きさ測定部42を備えている例について説明したが、備えていなくてもよい。つまり、検知部20は、カメラ40での撮影により取得される画像に含まれるユーザの顔の大きさの変化に応じて、ユーザの顔と音声入力装置100とが近接しているか否かを検知しなくてもよい。
また、例えば、本開示は、音声入力方法を実行するサーバ装置として実現してもよい。例えば、当該サーバ装置は、検知部20、比較部31、パターンデータ32、顔検出部41、顔大きさ測定部42、指向性合成部62及び近接効果補正部63等を備えていてもよい。つまり、音声入力装置100が備えるマイク10、3軸加速度センサ30及びカメラ40等以外の機能をサーバ装置に持たせてもよい。
本開示は、音声入力方法に含まれるステップを、プロセッサに実行させるためのプログラムとして実現できる。さらに、本開示は、そのプログラムを記録したCD-ROM等である非一時的なコンピュータ読み取り可能な記録媒体として実現できる。
例えば、本開示が、プログラム(ソフトウェア)で実現される場合には、コンピュータのCPU、メモリ及び入出力回路等のハードウェア資源を利用してプログラムが実行されることによって、各ステップが実行される。つまり、CPUがデータをメモリ又は入出力回路等から取得して演算したり、演算結果をメモリ又は入出力回路等に出力したりすることによって、各ステップが実行される。
なお、上記実施の形態において、音声入力装置100に含まれる各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
上記実施の形態に係る音声入力装置100の機能の一部又は全ては典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
さらに、本開示の主旨を逸脱しない限り、本開示の各実施の形態に対して当業者が思いつく範囲内の変更を施した各種変形例も本開示に含まれる。
本開示の音声入力方法等は、例えば、音声の翻訳を行う際に用いられる、スマートフォン、タブレット端末又は翻訳機等のポータブル機器等に適用できる。
10 マイク
20 検知部
30 3軸加速度センサ
31 比較部
32 パターンデータ
40 カメラ
41 顔検出部
42 顔大きさ測定部
50 ADC
60 補正部
61 増幅回路
62 指向性合成部
63 近接効果補正部
100 音声入力装置
200 ユーザ

Claims (11)

  1. ユーザの顔と、少なくとも1つのマイクを備える音声入力装置とが近接しているか否かを検知する検知ステップと、
    前記ユーザの顔と前記音声入力装置とが近接していると検知された場合に、前記少なくとも1つのマイクで収音された音声信号に対して補正処理を行う補正ステップと、を含
    前記少なくとも1つのマイクは、少なくとも2つのマイクであり、
    前記音声信号は、前記少なくとも2つのマイクで収音された単一指向性を有する音声信号であり、
    前記補正処理は、単一指向性を無指向性に変換する処理を含む、
    音声入力方法。
  2. 前記補正処理は、ゲインを下げる処理を含む、
    請求項1に記載の音声入力方法。
  3. 前記補正処理は、所定の周波数以下の成分のゲインを下げる処理を含む、
    請求項1又は2に記載の音声入力方法。
  4. 前記音声入力装置は、3軸加速度センサを備え、
    前記検知ステップでは、前記3軸加速度センサの出力の時間変化のパターンと、予め計測されたパターンとの比較結果に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知する、
    請求項1~のいずれか1項に記載の音声入力方法。
  5. 前記音声入力装置は、カメラを備え、
    前記検知ステップでは、前記カメラでの撮影により取得される画像に含まれる前記ユーザの顔の大きさの変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知する、
    請求項1~のいずれか1項に記載の音声入力方法。
  6. 前記検知ステップでは、収音された前記音声信号のゲインの変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知する、
    請求項1~のいずれか1項に記載の音声入力方法。
  7. 前記検知ステップでは、第1期間において収音された前記音声信号のゲインの平均値に対する、前記第1期間の後の第2期間において収音された前記音声信号のゲインの平均値の変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知する、
    請求項に記載の音声入力方法。
  8. 前記検知ステップでは、収音された前記音声信号の所定の周波数以下の成分のゲインの変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知する、
    請求項1~のいずれか1項に記載の音声入力方法。
  9. 前記検知ステップでは、第3期間において収音された前記音声信号の前記所定の周波数以下の成分のゲインの平均値に対する、前記第3期間の後の第4期間において収音された前記音声信号の前記所定の周波数以下の成分のゲインの平均値の変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知する、
    請求項に記載の音声入力方法。
  10. 請求項1~のいずれか1項に記載の音声入力方法をコンピュータに実行させるためのプログラム。
  11. 少なくとも1つのマイクを備える音声入力装置であって、
    ユーザの顔と、前記音声入力装置とが近接しているか否かを検知する検知部と、
    前記ユーザの顔と前記音声入力装置とが近接していると検知された場合に、前記少なくとも1つのマイクで収音された音声信号に対して補正処理を行う補正部と、を備え、
    前記少なくとも1つのマイクは、少なくとも2つのマイクであり、
    前記音声信号は、前記少なくとも2つのマイクで収音された単一指向性を有する音声信号であり、
    前記補正処理は、単一指向性を無指向性に変換する処理を含む、
    音声入力装置。
JP2020006980A 2019-03-27 2020-01-20 音声入力方法、プログラム及び音声入力装置 Active JP7411422B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US16/828,118 US11277692B2 (en) 2019-03-27 2020-03-24 Speech input method, recording medium, and speech input device
CN202010211028.5A CN111757217B (zh) 2019-03-27 2020-03-24 语音输入方法、记录介质以及语音输入装置
EP20166375.4A EP3716269A1 (en) 2019-03-27 2020-03-27 Speech input method, program, and speech input device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201962824608P 2019-03-27 2019-03-27
US62/824,608 2019-03-27

Publications (2)

Publication Number Publication Date
JP2020162112A JP2020162112A (ja) 2020-10-01
JP7411422B2 true JP7411422B2 (ja) 2024-01-11

Family

ID=72640081

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020006980A Active JP7411422B2 (ja) 2019-03-27 2020-01-20 音声入力方法、プログラム及び音声入力装置

Country Status (2)

Country Link
JP (1) JP7411422B2 (ja)
CN (1) CN111757217B (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002111801A (ja) 2000-09-28 2002-04-12 Casio Comput Co Ltd 携帯電話装置
JP2009164747A (ja) 2007-12-28 2009-07-23 Yamaha Corp マイクロフォン装置、電話機、音声信号処理装置および音声信号処理方法
JP2010206451A (ja) 2009-03-03 2010-09-16 Panasonic Corp カメラ付きスピーカ、信号処理装置、およびavシステム
WO2018217194A1 (en) 2017-05-24 2018-11-29 Rovi Guides, Inc. Methods and systems for correcting, based on speech, input generated using automatic speech recognition
JP7240989B2 (ja) 2019-08-19 2023-03-16 日本化薬株式会社 硬化性樹脂組成物およびその硬化物

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3141674B2 (ja) * 1994-02-25 2001-03-05 ソニー株式会社 騒音低減ヘッドホン装置
JP2002218583A (ja) * 2001-01-17 2002-08-02 Sony Corp 音場合成演算方法及び装置
KR100580758B1 (ko) * 2004-12-23 2006-05-15 주식회사 팬택앤큐리텔 이동통신단말기의 마이크로폰 제어장치
JP4746498B2 (ja) * 2006-08-31 2011-08-10 日本放送協会 単一指向性マイクロホン
JP5087514B2 (ja) * 2008-09-29 2012-12-05 京セラ株式会社 携帯通信端末
US9274744B2 (en) * 2010-09-10 2016-03-01 Amazon Technologies, Inc. Relative position-inclusive device interfaces
JP2012104871A (ja) * 2010-11-05 2012-05-31 Sony Corp 音響制御装置及び音響制御方法
CN104519212B (zh) * 2013-09-27 2017-06-20 华为技术有限公司 一种消除回声的方法及装置
WO2016093834A1 (en) * 2014-12-11 2016-06-16 Nuance Communications, Inc. Speech enhancement using a portable electronic device
US10396741B2 (en) * 2015-05-14 2019-08-27 Voyetra Turtle Beach, Inc. Headset with programmable microphone modes
JP2017034519A (ja) * 2015-08-03 2017-02-09 独立行政法人国立高等専門学校機構 音声処理装置、音声処理システム及び音声処理方法
CN107577449B (zh) * 2017-09-04 2023-06-23 百度在线网络技术(北京)有限公司 唤醒语音的拾取方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002111801A (ja) 2000-09-28 2002-04-12 Casio Comput Co Ltd 携帯電話装置
JP2009164747A (ja) 2007-12-28 2009-07-23 Yamaha Corp マイクロフォン装置、電話機、音声信号処理装置および音声信号処理方法
JP2010206451A (ja) 2009-03-03 2010-09-16 Panasonic Corp カメラ付きスピーカ、信号処理装置、およびavシステム
WO2018217194A1 (en) 2017-05-24 2018-11-29 Rovi Guides, Inc. Methods and systems for correcting, based on speech, input generated using automatic speech recognition
JP2020522733A (ja) 2017-05-24 2020-07-30 ロヴィ ガイズ, インコーポレイテッド 自動発話認識を使用して生成された入力を発話に基づいて訂正する方法およびシステム
JP7240989B2 (ja) 2019-08-19 2023-03-16 日本化薬株式会社 硬化性樹脂組成物およびその硬化物

Also Published As

Publication number Publication date
CN111757217B (zh) 2024-06-21
JP2020162112A (ja) 2020-10-01
CN111757217A (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
US9913022B2 (en) System and method of improving voice quality in a wireless headset with untethered earbuds of a mobile device
KR102512311B1 (ko) 이어버드 스피치 추정
US9438985B2 (en) System and method of detecting a user's voice activity using an accelerometer
US9313572B2 (en) System and method of detecting a user's voice activity using an accelerometer
US20080175408A1 (en) Proximity filter
US10469944B2 (en) Noise reduction in multi-microphone systems
US20100098266A1 (en) Multi-channel audio device
WO2020120944A1 (en) Methods and systems for speech detection
KR20210017229A (ko) 오디오 줌 기능을 갖는 전자 장치 및 이의 동작 방법
JP2009005071A (ja) 音声入出力装置及び通話装置
US10638217B2 (en) Pressure-responsive sensors and related systems and methods
JP6374936B2 (ja) 音声認識方法、音声認識装置及びプログラム
CN111627456B (zh) 噪音排除方法、装置、设备及可读存储介质
JP2009239631A (ja) マイクロフォンユニット、接話型の音声入力装置、情報処理システム、及びマイクロフォンユニットの製造方法
JP2009130619A (ja) マイクロフォンシステム、音声入力装置及びこれらの製造方法
JP7411422B2 (ja) 音声入力方法、プログラム及び音声入力装置
US9998610B2 (en) Control apparatus, control method, and computer-readable medium
US11277692B2 (en) Speech input method, recording medium, and speech input device
CN113923294B (zh) 音频变焦的方法、装置、折叠屏设备及存储介质
WO2019034154A1 (zh) 移动终端的降噪方法、装置和计算机存储介质
JP2010056762A (ja) マイクロホンアレー
US10360922B2 (en) Noise reduction device and method for reducing noise
US11363374B2 (en) Signal processing apparatus, method of controlling signal processing apparatus, and non-transitory computer-readable storage medium
JP2016046769A (ja) 集音装置
US11955133B2 (en) Audio signal processing method and system for noise mitigation of a voice signal measured by an audio sensor in an ear canal of a user

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221027

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230922

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231225

R151 Written notification of patent or utility model registration

Ref document number: 7411422

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151