JP2018517325A - 音声認識 - Google Patents

音声認識 Download PDF

Info

Publication number
JP2018517325A
JP2018517325A JP2017552958A JP2017552958A JP2018517325A JP 2018517325 A JP2018517325 A JP 2018517325A JP 2017552958 A JP2017552958 A JP 2017552958A JP 2017552958 A JP2017552958 A JP 2017552958A JP 2018517325 A JP2018517325 A JP 2018517325A
Authority
JP
Japan
Prior art keywords
optical
microphone
signal
arrangement
microphones
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017552958A
Other languages
English (en)
Other versions
JP2018517325A5 (ja
Inventor
トビアス ダール,
トビアス ダール,
マチュー ラコール,
マチュー ラコール,
Original Assignee
シンテフ ティーティーオー アクティーゼルスカブ
シンテフ ティーティーオー アクティーゼルスカブ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シンテフ ティーティーオー アクティーゼルスカブ, シンテフ ティーティーオー アクティーゼルスカブ filed Critical シンテフ ティーティーオー アクティーゼルスカブ
Publication of JP2018517325A publication Critical patent/JP2018517325A/ja
Publication of JP2018517325A5 publication Critical patent/JP2018517325A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/805Systems for determining direction or deviation from predetermined direction using adjustment of real or effective orientation of directivity characteristics of a transducer or transducer system to give a desired condition of signal derived from that transducer or transducer system, e.g. to give a maximum or minimum signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R23/00Transducers other than those covered by groups H04R9/00 - H04R21/00
    • H04R23/008Transducers other than those covered by groups H04R9/00 - H04R21/00 using optical signals for detecting or generating sound
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/003Mems transducers or their use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Electrostatic, Electromagnetic, Magneto- Strictive, And Variable-Resistance Transducers (AREA)

Abstract

光マイクロホンの配置は、基板(8)上の光マイクロホン(4)のアレイであって、それぞれの該光マイクロホン(4)は、入力可聴音の結果としてそれぞれの膜(24)の変位を示す信号を提供する、光マイクロホン(4)のアレイと、該光マイクロホン(4)から該信号を受信し、第1の出力を生成するために該信号上で第1の処理ステップを実行するように配置された、第1の処理装置(12)と、該信号または該第1の出力の少なくとも1つを受信するように配置された第2の処理装置(14)とを備え、少なくとも該第2の処理装置(14)は、該可聴音から人語の少なくとも1つの要素の存在を決定する。【選択図】図2

Description

本発明は音声認識のためのある特定の配置に関する。
自然な人語を理解する機械の能力は、昔からの目標である。近年急速な進歩を遂げたが、困難で計算集約型タスクが残っている。特に携帯機器上での音声認識支援の使用が増えているが、これらは典型的に遠隔で実行する処理を必要とし、ほとんどの携帯機器上で局所的に利用可能な処理能力を使用して、最も基本的な形以外の音声認識を実行することは現在不可能である。
音声認識の問題の複雑さが増加する要因の1つは、暗騒音の問題である。典型的な携帯機器内で使用されるマイクロホンは比較的全方向であり、したがって(均一ではないが)すべての方向からの音に反応する。したがってマイクロホンは、理解されることが望まれる音声だけでなく、暗騒音(これには他者からの音声が含まれることが多い)も獲得する傾向がある。
多数のマイクロホンを使用して、より良い性能を達成することができるが、これは機器内に追加のハードウェアを収容するという現実的問題が生じる。しかし従来の小型コンデンサーマイクロホンは、マイクロホンが被る固有の「自己」雑音の量によって制限される。コンデンサーマイクロホンは、静電容量の変化の測定結果に基づく。物理的制約(高い音圧下での膜の最高変位など)により、静電容量の2つの板(板の一方はマイクロホン膜であり、他方は膜の下に据えられた参照電極である)の間にある特定の距離を有することが必要になる。このことは静電容量が非常に低いこと、換言すると出力インピーダンスが高いことを示唆する。この静電容量を短絡させないために、関連付けられたプリアンプの入力インピーダンスは同等に高くなければならない。高いインピーダンスは高い自己雑音を提供する。大きい膜は、高い信号レベルおよび高い静電容量を提供し、ひいては良好な信号対雑音比(SNR)をレベル以外だが提供する一方で、狭い領域は低いSNRを提供する。
本発明はそのいくつかの態様において、人工音声認識に直面する挑戦に取り組む際に、少なくとも一部の状況では有益な配置を提供することを意図する。
第1の態様から見ると、本発明は、
基板上の光マイクロホンのアレイであって、それぞれの該光マイクロホンは、入力可聴音の結果として、それぞれの膜の変位を示す信号を提供する、光マイクロホンのアレイと、
該光マイクロホンから該信号を受信し、第1の出力を生成するために該信号上で第1の処理ステップを実行するように配置された第1の処理装置と、
該信号または該第1の出力の少なくとも1つを受信するように配置された第2の処理装置とを備え、
少なくとも該第2の処理装置は、該可聴音から人語の少なくとも1つの要素の存在を決定する、光マイクロホンの配置を提供する。
したがって本発明によれば、発見されたことを提供するために多数の特徴を一緒に使用し、少なくとも好ましい実施形態では、音声認識に対する有利な配置を提供することが当業者にはわかるであろう。まず光マイクロホンのアレイが提案されることが理解されよう。光マイクロホンはそれ自体が公知であるが、本出願人は、光マイクロホンを音声認識目的でアレイで使用されるとき、また2つの個別の処理装置をそこから受信した信号を処理するために使用されるとき、利益を実現することができることを理解している。
より具体的には、本出願人は、光マイクロホンは低い固有の、すなわち「自己」雑音を有し、さらに光マイクロホンは狭い領域を有するように組み立てることができることを理解している。極めて重要なことに、大きさと固有の雑音との間に強い負の相関関係はない。一方、従来のMEMSコンデンサーマイクロホンなどの他の型のマイクロホンでは、マイクロホンの感度は、膜の大きさに依存する。このことは、従来のMEMSマイクロホンがより小さくなるにつれて、信号対雑音比が低減することを意味する。
本出願人の見識では、低い自己雑音特性および小さい大きさの光マイクロホンを、近接して離間されたアレイに光マイクロホンを提供することにより、音声処理アプリケーションに活用することができる。具体的には、自己雑音フロアが(光マイクロホンで達成できるように)十分に低いところでは、マイクロホンの「オーバーサンプリングされた」アレイによって受信された入力信号から追加情報を抽出することができることが理解された。この語句は、素子の間の間隔が対象の信号の半波長より短いアレイを示すために使用される。従来のサンプリング理論は、この半波長の閾値より狭い間隔は、追加の利益を与えることはないはずであるので、必要ないことを示すはずである。しかし本明細書で以下に実証されるように、本出願人は、最も好ましい結果を提供することを確立するために、その上で音声認識アルゴリズムを実行できる、候補を生み出すように多くの異なる方向で「聞く」ためにアレイを使用することができることで、利益を実際に達成できることを見出した。加えて、または別法として、個別の候補の計算を、音速に影響を及ぼす圧力、温度、および湿度などの環境条件についての異なる仮定に基づいて実行することができる。
近接して離間されたアレイを有することは、全体の物理的大きさの点からさらに利点を与える。このことは、例えばアレイから達成することができる進歩した性能を広範囲の機器に実装できることを意味し、スマートフォンもしくはスマートウォッチなどのスモールフォームファクタを有する機器内に、または控えめながら例えばMacBook(登録商標)コンピュータの最新世代に利用されているような機器の周りに配置された多くの貫入開口のない、ラップトップなどのより大きい機器内に、アレイを実装することが可能になる。
設定された多数の処理装置の手法により、この計算集約型タスクのかなりの部分が常に必要とはされない個別の処理装置によって実行可能になる。この処理装置は、例えば実際のマイクロホンアレイから離れていてもよく、例えばリモートサーバ上であってもよい。別法としてこの処理装置は、機器自体の一部としてより強力な中央処理装置(CPU)であってもよい。音声認識処理は、具体的には候補の処理を少なくとも部分的に順次実行できるリアルタイムの結果を即座に必要としない際に、この手法に適している。
上記のように、好ましい実施形態では、光マイクロホンのアレイは近接して離間されている。これを絶対寸法として表すことができる。したがって1組の実施形態では、光マイクロホンは5mm未満の相互間隔で配置される。これはそれ自体が新規で発明的であり、したがって第2の態様から見ると、本発明は、
5mm未満の最も近接した相互間隔を有する基板上の光マイクロホンのアレイであって、それぞれの該光マイクロホンは、入力可聴音の結果としてそれぞれの膜の変位を示す信号を提供する、光マイクロホンのアレイと、
該光マイクロホンから該信号を受信し、該可聴音から人語の少なくとも1つの要素の存在を決定するように配置された、1つまたは複数の処理装置とを備える、光マイクロホンの配置を提供する。
間隔は5mm未満、例えば2mm未満、例えば1mm未満、例えば0.5mm未満であってもよい。前に説明したように、この間隔は光マイクロホンの低雑音特性であり、これにより所与の数の素子を備えるアレイは、従来のマイクロホンより物理的に小さい領域上に提供されることが可能であり、したがって上記のオーバーサンプリングの可能性を開く。
またアレイの間隔の重要性は、信号を受信するためにアレイが使用される信号の波長に結び付けられ、したがって本発明は、入力可聴音から音声の少なくとも1つの要素の存在を決定する方法に及び、該可聴音は少なくともその一部を波長帯域内に有し、その方法は本発明の第1または第2の態様のいずれかによる光マイクロホンのアレイを使用して、該可聴音を受信することであって、該マイクロホンは、該波長帯域の最長波長の半分より短い相互間隔を有する、受信することと、音声の該要素を検出するためにマイクロホンからの信号を処理することとを含む。
またこれはそれ自体が新規で発明的であるので、第3の態様から見ると、本発明は、入力可聴音から音声の少なくとも1つの要素の存在を決定する方法を提供し、該可聴音は少なくともその一部を波長帯域内に有し、その方法は基板上で光マイクロホンのアレイを使用して該可聴音を受信することであって、該マイクロホンは、該波長帯域の最長波長の半分より短い相互間隔を有し、それぞれの該光マイクロホンは該可聴音の結果としてそれぞれの膜の変位を示す信号を提供する、受信することと、音声の該要素を検出するためにマイクロホンからの信号を処理することとを含む。
マイクロホンは、該波長帯域の中央波長の半分より短い相互間隔、例えば該波長帯域の最短波長の半分より短い相互間隔を有してもよい。
1組の実施形態では、上に提示した方法は、所与の方向または方向の範囲から受信した該可聴音の一部を優先的に使用するように、マイクロホンからの信号を処理することを含む。これにより、スピーカを隔離する機会を提供するために、音を空間的に分離することができる。このことは、複数の方向からの音を使用し、それに基づいて最良の結果を与える該方向の1つを選択することにより、本発明の1組の実施形態によって達成されてもよい。したがって1組の実施形態では、第1および/または第2の処理装置は、複数の処理操作を該信号上で実行するように配置され、該処理操作は、信号が複数の候補決定を与えるために複数の方向のそれぞれから発する複数の仮定に対応し、その後選択基準に基づいて該候補仮定の1つを選択する。
上に論じた処理の分離は、多数のあらゆる異なるやり方で実施できる。1組の実施形態では、第1の処理装置は、該可聴音から人語の少なくとも1つの要素の存在を決定するように配置され、該要素が存在すると決定される場合、該第2の処理装置を比較的受動モードからより能動モードに変えさせるように、覚醒信号を出すように配置される。ユーザが話しているときだけ、第2の処理装置を覚醒させるために第1の処理装置を使用することにより、高度の電力効率を達成することができる。第1の処理装置は、それが音声の1つまたはわずかの基本要素を認識するために必要とされることがあるに過ぎないので、より低い電力効率であってもよい。これは、特定の「覚醒」の単語もしくは音またはより基本的な基準、例えば具体的な周波数もしくは周波数帯内の具体的なエネルギーなどであることも可能である。したがって第1の処理装置は、当然のことながら携帯機器において極めて重要な、電池の寿命に過度に影響を及ぼすことなく、より頻繁にまたは連続して作動してもよい。第2の処理装置は、最も重要な音声認識処理を実行する際に、より多くの電力を消費することがあるが、ユーザが実際に話しており、機器との相互作用を望むときに電力を必要とするだけである。
第1の処理装置が第2の処理装置を覚醒させるように配置された上に説明された実施形態では、改良されたSNRおよび近接して離間されたアレイにおいて作動する能力の両方に関して、指定された光マイクロホンの改良された感度は、第1の処理装置によって作動された「低電力」アルゴリズムが、覚醒信号を出すために必要な基準を首尾よく識別する見込みがより高いという点において、さらなる利点を生じることが理解されよう。これにより第2の処理装置が誤って覚醒されることが減るので、平均電力消費全体が低減する。
1組の実施形態では、第1の処理装置は光マイクロホンのアレイと同じ機器内、例えばその上にマイクロホンのアレイが装着されるプリント基板上、または同じ基板上であっても、例えば一部のマイクロホン素子と同じプリント基板(PCB)上、または特定用途向け集積回路(ASIC)などのマイクロホンを備える集積基板上に提供される。これにより製造コストが低減する。1組の実施形態では、第2の処理装置は、光マイクロホンのアレイが提供された機器から離れて提供され、例えばその間をローカル・エリア・ネットワークまたはワイド・エリア・ネットワークで接続する。
追加としてまたは別法として、第1の処理装置を使用して、第2の処理装置内の音声認識を支援するために初期信号処理を実行することができる。これは、例えば第1の処理装置が第2の処理装置を覚醒させた後に使用された配置であることが可能である。第1の処理装置は、例えばフィルタリング、防音などを実行することができる。1組の実施形態では、該第1の処理装置は、該信号上にビーム形成を実行するように配置され、該第2の処理装置は、音声認識を実行するように配置される。
したがって第2の処理装置は有利なことに、第1の処理装置からの信号出力に処理を実行してもよいことが理解されよう。しかしこのことは必須ではなく、第1および第2の処理装置は、信号に平行に働くことができる。例えば第1の処理装置は、周波数スペクトルの第1の部分に働くことができ、第2の処理装置は、周波数スペクトルの第2の部分に働くことができる。
典型的には音声認識は、音節または文字音などの音声要素を認知することに対応する、特性周波数または周波数パターンに対して受信した音を分析するものである。しかし本出願人は、音声要素を識別するのに有益であることがある情報は、1つまたは複数の特性周波数の倍数に存在することがあるということを認識していた。
これらの周波数が同じ発話音声によって生成される際に、これらの周波数逓倍(以下「倍音」という)は、倍音は同じ雑音源と同じ程度に影響を受ける可能性がないので、特に基底周波数が環境騒音を被る状況で、音声要素の認識を向上できる追加情報を提供する。実際に本出願人は、概して環境源からの雑音は、空気中の音のより高い周波数に対して減衰係数が高いので、より高い周波数で普及する傾向は概して少ないことを認識していた。
本出願人は、少なくとも一部の実施形態で利用可能であることがある、音声認識に「倍音」を使用するさらなる利益は、以上に論じた物理的に小さい大きさのアレイに関係する、すなわちこのような小さいアレイは、通常低い周波数より高い周波数に対してより良好な空間解像度を提供することができることを認識していた。
したがって本発明の前述のあらゆる態様の1組の実施形態では、(第2の)処理装置は、少なくとも基底周波数fおよび倍音周波数f=n.f(ただしnは整数である)を使用して、該可聴音から人語の少なくとも1つの要素の存在を決定するように配置される。
このような手法はそれ自体が新規で発明的であるとみなされ、したがってさらなる態様から見ると、本発明は、
基板上の光マイクロホンのアレイであって、それぞれの該光マイクロホンは、入力可聴音の結果として、それぞれの膜の変位を示す信号を提供する、光マイクロホンのアレイと、
該光マイクロホンから該信号を受信し、少なくとも基底周波数および基底周波数の整数倍である倍音周波数を使用して、該可聴音から人語の少なくとも1つの要素の存在を決定するように配置された、1つまたは複数の処理装置とを備える、光マイクロホンの配置を提供する。
いずれの場合も、単一の倍音のみを使用でき、または複数の倍音を使用できる。倍音は典型的には対応する基底周波数より低いエネルギーを有するが、複数の倍音を使用することにより、著しいエネルギー、例えば基底周波数におけるエネルギーに匹敵する、またはそれよりさらに大きいエネルギーが利用可能であることがある。
前述の検討は特定の離散周波数を参照にしたが、実際に原理を、例えば基底周波数が周波数の中心もしくはピークエネルギーである周波数帯域に、または所与の音声要素に対する複数の基底周波数に適用することができることが、当業者には理解されよう。
倍音を利用する本発明のすべての態様において、好都合なことに、アレイは例えば少なくとも基底周波数において音声信号をオーバーサンプリングするために小さい。前述同様に1組の実施形態では、光マイクロホンは5mm未満、例えば2mm未満、例えば1mm未満、例えば0.5mm未満の最も近接した相互間隔を有する。先に説明したように、これは光マイクロホンの低い雑音特性であり、これにより所与の数の素子を備えるアレイを、従来のマイクロホンより物理的に小さい領域上に提供することができ、したがって上述したオーバーサンプリングの可能性を開く。
関連した組の実施形態では、光マイクロホンは該基底周波数の半波長より短い相互間隔を有する。
倍音を利用する本発明のすべての態様の1組の実施形態では、ビーム形成は倍音(複数可)の周波数で実行される。例えば機器は、受信した音響信号から基底周波数を決定し、次いで決定された周波数の倍音に(ビーム形成を使用して)焦点を合わせるように配置することができる。第1および第2の処理装置が本発明の第1の態様に従って提供される場合、前述のビーム形成は第1の処理装置によって実行されてもよい。
1組の実施形態では、光マイクロホンは、膜と、光の少なくとも一部が膜から反射されるように該膜に該光を向けるように配置された光源と、該反射された光を検出するように配置された光検出器とを備える。典型的にはアレイ内のそれぞれのマイクロホンはその独自の個別の膜を備えるが、これは必須ではない。同様にそれぞれのマイクロホンは、その独自の光源および検出器を有するが、これらの一方または他方は個々のマイクロホン素子の間で共有されることが可能である。
膜の動きは、そこから反射される光の強度または角度の変化を通して単純に決定できるが、好ましい組の実施形態では、回折素子は該光源と該膜との間に提供される。これにより、回折素子の回折効率を測定することによって膜の動きを決定できる。回折効率は、反射され(ゼロ次回折)別の回折次に回折される入射光の比率の指標であり、これは回折素子と膜との間の距離の関数である。換言すると、回折素子と膜の反射面との間の距離が、入射音圧によって誘発された膜の動きを通して変化するにつれて、回折素子の異なる回折次に向けられた光の一部が変化し、これにより、所与の位置に配置された検出器によって検出される強度の変化として検出することができる。これは膜の動きの、ひいては音のはるかに正確な検出を提供する。1組の実施形態では、回折素子は、反射材料によって形成された回折パターンを備える。1組の実施形態では、複数の検出器がそれぞれのマイクロホンに提供される。これらは達成可能な信号対雑音比をさらに高めることができる。さらに1組の実施形態では、複数の回折素子は達成可能な動的範囲を増加するために利用される。
次に本発明のある特定の実施形態が、例証のみとして添付図面を参照して説明される。
本発明による光マイクロホンのアレイを示す図である。 本発明を具現化する音声認識システムのブロックシステム図である。 図1のアレイ内の光マイクロホンの基本作動原理の一連の概略図である。 図3のマイクロホンの膜変位に対する2つの検出器のそれぞれにおける光強度を示すグラフである。 図3と類似しているが、光マイクロホンの設計の変形を示す図である。 図5の検出器の変位に対する強度のグラフである。 可能な光マイクロホンのレイアウトのより詳細な断面図である。 本発明に従って利用されることがある候補選択工程を説明する流れ図である。 発話された「a」の音に対して受信された周波数スペクトルを示すグラフである。 倍音検出を利用する本発明のさらなる実施形態の作動を説明する流れ図である。
図1は、光マイクロホン2のアレイを示す。マイクロホン2は一般的な基板4上に提供され、基板4は例えばプリント基板(PCB)であることが可能である。マイクロホン2は、単に例として中心間の間隔を約2mm有してもよい。アレイは、例えば正方形のアレイの場合に2cm四方の大きさ、すなわち2cmx2cmを有することができる。したがってアレイは、ほぼ100個の個々のマイクロホン素子を備えることがある。
図2は、スマートフォン、スマートウォッチ、またはタブレットコンピュータなどの携帯電子機器8に対するブロックシステム図であり、携帯電子機器8は光マイクロホン2のアレイを含む。マイクロホン2からの信号出力はデータバス10に接続される。マイクロホン2は、生データ信号をバスに供給することができ、または一部の基本処理、例えばフィルタリングもしくは増幅をそれぞれのマイクロホン2で実行することができる。バス10は、マイクロホン2をデジタル信号処理装置(DSP)12に接続させる。これにより標準的なDSPもしくはカスタム設計することができる。DSP12からの出力は、これも電子機器8上に提供されたアプリケーション処理装置14に供給される。アプリケーション処理装置14は、適切なデータネットワークを用いて遠隔に設置された処理装置16と連通する。これによりWiFi、Zigbee、Bluetooth(商標)他などのあらゆる公知の無線データネットワークに関与することができる。
使用中に、マイクロホン2は、電子機器8がアクティブ状態(すなわち待機状態ではない)のときにアクティブであり、マイクロホン2はバス10を介してDSP12に信号を通す。DSP12は、次に説明するように受信された信号に処理を実行する。まずアレイがP個の個々のマイクロホン素子を備えると仮定すると、マイクロホンによって受信された信号y(t)(ここではy(t)、y(t)、…y(t)と表されている)が記録される。次にそれらの信号の1つまたは複数の周波数スペクトルが、時間サンプルから見積もられる。アレイから第rの信号に対してこれを行う大まかであるが迅速で効果的な方法は、以下のように計算することである。
Figure 2018517325
対象の1組の周波数{ω}について。この電力スペクトルの概算は高速フーリエ変換を介して有効に計算することができ、角カッコ|.|の内側の項は入力信号y(t)の離散フーリエ変換(DFT)に過ぎない。
3番目に、電力スペクトルの概算
Figure 2018517325

に基づいてそれらの1つまたは複数を計算でき、他に何かするべきかどうかの決定をすることができる。このような決定は、例えばビーム形成または他の分離技法を使用して、より良好な信号抽出を実行するために第1の処理装置12内でさらなる工程を開始するものであることが可能である。別法として、決定は第2の処理装置16を覚醒させることであることが可能である。
第1の単純な例では、処理装置12はキーワード、例えば「hello(こんにちは)」を検出するために粗検出機構を使用する。この機構は、単語「hello」の電力スペクトルと一致しているかどうかを調べるために、発した文の電力スペクトルを検討することができる。このような照合作業は、上に説明したように、またより詳細には例えばM.H.Hayesによる「Statistical Digital Signal Processing and modelling」の通りに、電力スペクトルの概算を引き出すために、例えばハードウェア対応の離散フーリエ変換(DFT)を介して、非常に低い所要電力で行うことができる。一致が存在する場合(線形または判別分析のようなあらゆる種類の分類機を使用して検出することができる)、第2の処理装置14を、バッファリングされた信号(「hello」の候補など)ならびに「open file(ファイルを開いてください)」または「turn off computer(コンピュータを切ってください)」などの後に続く発話の両方を聞くために覚醒させることができる。
第1の検出ステップは、より単純な実装形態の結果としてむしろおおよそであってもよい。例えば単語「hotel(ホテル)」は「hello」と類似したDFT電力スペクトルを有し、その上第2の処理装置14の覚醒をもたらすことができる。しかしこの段階では、第2の処理装置14の処理能力がより前進することは、単語「hotel」と単語「hellow」の曖昧さを取り除くことができ、それゆえより多くの処理を続ける決定をせず、その代わりにその睡眠状態に戻すことを意味する。
光マイクロホン2は、有利により多くの従来のMEMSマイクロホンを超える。自己雑音がより低いということは、電力スペクトルの概算がより正確になり、従来のMEMSマイクロホンより長距離で「トリガーワード」を取り上げることができることを意味する。さらにアレイから2つ以上の光マイクロホンを使用して、単純なビーム形成、時間遅延信号の減算、またはMUSICアルゴリズムなどのあらゆる公知の到来方向(DOA)技法を使用して音の到着の方向を正確に検出することが可能である(すなわちP. Stoica & Randolph Mosesによる「Spectral Analysis of Signals」を参照されたい。例えばこれを使用して、音が機器の正面で話している人からまたは音源から、すなわち例えば機器の側面に届いた可能性があるかどうかを見積もることができる。光MEMSマイクロホンの雑音特性が低いことは、非常に小さい基線アレイであってもこのような有益な検出角度を計算できることを意味し、スマートウォッチ、スマートブレスレット、またはスマートグラスなどのスモールフォームファクタの機器に特に有益に働く。
第2のより進歩した例では、第1の処理装置12を使用して「hello」などのキーワードを検出するが、これはビーム形成を使用した後に起きてもよい。処理装置12は入力信号のある特定の特性に反応することがある。これは、サブガウス分布またはスーパーガウス分布など、すなわちTee−Won Lee and Terrence J. Sejnowskiによる「Independent Component Analysis for Mixed sub−gaussian and super−Gaussian Sources」に説明されたように、音声のように見える信号の分布であることが可能である。次いで処理装置12は、発信源を配置するように試みるために、ビーム形成を作動させる決定をする。ビーム形成は、記憶された信号ならびに新しい入力信号の両方に働くことができる。ビーム形成器の出力が潜在的トリガーワードとして認識できる単語を生成した場合、第2の処理装置14が覚醒される。やはりこの第2の処理装置14も、そのより大きい処理能力を使用し、方法と単語辞書サイズを一致させ、単語「hello」を実際に話されなかった(が、代わりに「halo」であったかもしれない)ことを検出し、その睡眠状態に戻ることができる。
この第2の例では、光マイクロホン2のアレイの有効性は2つである。第1に、マイクロホンによって取り戻された元の信号分布は、先に述べた低雑音特性に起因して従来のマイクロホンでなされるより正確である。第2に、高解像度のアレイビーム形成によりマイクロホン素子2の組合せを使用することにより、第1の処理装置12および第2の処理装置14の両方の単語検出のために、より良好な(すなわち雑音が少ない傾向の)候補だけでなく低い基準の音声(囁きまたは遠く離れた音など)も検出することができる。光マイクロホンのアレイなしでは、アレイは同じ基準の「感度」を示すために、すなわちより大きい基線を使用することによりはるかに大きく構築しなければならなかったはずである。
上のどちらの場合も、第2の処理装置14は、第1の処理装置12より強力な手段の信号抽出を使用することができる。例えば第1の処理装置12は、遅延和(DAS)ビーム形成などの大まかなビーム形成手法を使用してもよい。第1の処理装置12は、適応(Capon)ビーム形成などのより高度の手法も使用することができる。しかし概して第2の処理装置14は、第1の処理装置12より強力な手段の空間信号抽出を使用する。
例えば第1の処理装置12がDASビーム形成を使用した場合は、第2の処理装置14は、第1の処理装置12より効果的な解像度/性能を増加するために適応ビーム形成を使用してもよい。あるいは第2の処理装置12は、発生源分別のために時間領域解析手法を使用してもよく、これはすなわち
Figure 2018517325
による「Blind Speech Separation in Time−Domain Using Block−Toeplitz Structure of Reconstructed Signal Matrices」に説明されているように、概してブロックテプリッツ行列構造の反転を必要とする。これは一般的に周波数領域に基づいた方法を使用するより、はるかにCPUに負担をかけるが、その信号回復作業においてはるかに高い精度および解像度も獲得することができる。第2の処理装置14は、第1の処理装置12より進歩した単語認識方法を使用してもよい。例えば第1の処理装置12は第1の近似値として電力スペクトルの一致を使用してもよい一方で、第2の処理装置14は、その性能を引き上げるために、隠れマルフモデル(HMM)、人工神経回路網(ANN)、または言語モデル(LM)を組み込む手法などの技法を使用してもよい。第2の処理装置14は、その増加したメモリに起因して認識に使用できる、より大きいかつ/またはより多くの巧妙に検索可能な単語の組も有してもよい。
音声認識を実行するために必要な処理は、電子機器8上全体で行われてもよい。しかし進歩した処理は、局所の第2の処理装置14の代わりに、または第2の処理装置14に加えて遠隔処理装置16によって実行することができる。
図3は、標準の微小電気機械システム(MEMS)技術を使用して製造された例示的光マイクロホンの主な機能部分を概略的に示す。図3はその上に直立する筐体20を装着した基板18を備える。筐体20はその上面内に開口22を有し、上面を横切って可撓性のシリコン窒化膜24が広がる。筐体20の内側で基板18上に装着されているのは、レーザの形の光源、例えば垂直共振器面発光レーザ(VCSEL)26、および2つの光検出器28、30である。レーザダイオード26と膜24との間に回折素子32がある。これは、例えば接着されたガラス片(図7参照)などの透明板の上部の回折パターンに置かれた金属反射片によって実装される、または筐体20の内側の適切な位置に吊るされた要素によって提供されることが可能である。
図3の左側の図は、上方に曲がっている膜を示し、中央の図は中間位置にある膜を示し、右側の図は下方に曲がっている膜を示す。これらは、入力音声波によって動かされた際の膜24の異なる瞬間的位置を表す。図3から理解されるように、膜24の位置は膜24と回折素子32との間の距離を決定する。
使用中、レーザ26からの光の一部は回折素子32のパターンを通過し、一部はパターンを作り上げる線によって反射される。通過する光は膜24の裏面から反射し、回折素子32を通って戻る。これらの2つの通路を移動した光の相対位相は、回折素子32の異なる回折次数に向けられる(それぞれの回折次数は固定された方向に向けられる)光の分割を決定する。現在好ましい実施形態では、回折素子32は回折フレネルレンズの形である。したがって回折パターン32の線は、ゼロ次に対応する中心焦点領域を提供する、標準のフレネル公式に従った大きさにされ、離間される。第1の光検出器28はゼロ次の光を受信するように位置付けられる一方で、第2の光検出器30は、回折フレネルレンズの焦点を合わせた第1の回析次数から光を受信するように位置付けられる。回析素子32と膜24との間の間隔がダイオード26からレーザ光の半波長、またはその整数倍であるとき、実際には回析素子32によって反射されたすべての光がゼロ回折次に向けられる。この位置で第2の検出器30は回析素子の1次の位置(これを回折フレネルレンズに対する点に焦点を合わせる)に配置されているので、第2の検出器30が受信する光は非常に少ない。
理解されるように、光路長は当然のことながら回析素子32と膜24との間の距離に依存する。ゼロ回折次を測定する第1の光検出器28および第2の光検出器30(この位置は固定されている)によって記録される光の強度は、上記の間隔が変化するにつれて位相はずれるが変化する。これは図4のグラフによって示されている。一方の線34は第1の光検出器28に記録された強度に対応し、他方の線36は第2の光検出器30に記録された強度に対応する。上述のように、間隔が半波長に等しい(またはその整数倍である)とき、第1の光検出器28の強度34は最大値であり、間隔がその4分の1波長またはその奇数倍に変化すると、ゼロに落ちる。第2の光検出器30に記録された強度36は、これと位相が4分の1波長ずれるので、第2の線34は、第1の線が最小値であるときに最大値であり、逆も同様である。
マイクロホンの感度は、膜の変位の所与の変化に対する出力信号の変化によって決定される。したがって最高感度は帯域38内で起き、帯域38内で線34、36は最大勾配を有することが図4からわかる。またこれは勾配がほぼ直線である帯域である。
必要な測定を1つの光検出器のみで実行することが可能であり得るが、それぞれゼロ回折次および1回折次を測定する2つの検出器28、30は、これらの2つの信号間の差を取ることにより、レーザ強度の波動が補正された測定結果を提供することができるので、有利であることがある。
上に説明された配置の変形が図5および図6に示されている。この配置では、マイクロホンの膜24’に対して距離が相対的にずれた(この場合レーザの8分の1波長のずれ)、2つの個別の回折素子40、42がある。第1の光検出器44は第1の回折素子40の特定の回折次に位置合わせして位置付けられ、第2の光検出器46は第2の回折素子42の回折次に位置合わせして位置付けられて、図6の線48、50がそれぞれ達成される。これらから、2つの検出器44、46によって検出された信号は、互いに8分の1波長だけ位相がずれ、2つのそれぞれの回折素子の最大感度帯域52、54は連続しているので、両方の検出器44、46からの信号を使用することにより、マイクロホンのダイナミックレンジを拡張することができることがわかる。
当然のことながら、所定の位相だけずれた3つ以上の信号を発生するために、膜に対して所定のずれを有した3つ以上の回折素子を使用することが可能である。次いでこれらの信号は、高い直線性の膜変位の測定結果を提供するために、大きいダイナミックレンジ上で組合せ、レーザ強度の波動を補償することができる。
図7はある特定の例示的光マイクロホンをもう少し詳細に示す。これは、透明ガラス基板56を備え、透明ガラス基板56は中心部58を含み、その上に多数の反射線として形成された回折素子60が提供されている。シリコン層62がガラス基板56の上部に提供され、シリコン窒化膜64がそれらの間に提供される。ガラス基板56は、膜64が入射音波の作動の下で動くと、空気が膜64の下から移動できるように構成されてきた。
先に述べたように、本明細書に説明された光マイクロホンの「オーバーサンプリングされた」アレイは、多数の異なる仮定の下に受信した音声を分析するために使用できる。以下に説明するように、これらは異なる方向の放射または環境条件に対応することができる。次いでこれらの候補は、それぞれを使用して音声認識を試み、最も成果を上げた候補が採用される。
まず特定方向からの音に焦点を合わせるために、マイクロホンのアレイの使用について説明する。これはビーム形成として公知であり、特定方向(この例ではアレイに垂直に「前方」方向が取られる)から受信したエネルギーを最大化する一方で、他の方向からのエネルギーを最小化する問題と等しいとみなすことができる。
ビーム形成器を通ってアンテナアレイ(半面球)に入る狭帯域エネルギーを最小化することは、前向きの方向の定着エネルギーの制約を受け(また歪みを防ぎ)、以下のようになる。
Figure 2018517325

方程式(1)
上式でa(θ)は角度θにおける方向ベクトルであり、
Figure 2018517325

はアンテナ重量ベクトルであり、アンテナ重量ベクトルは複合であり、それゆえ時間遅延および重み付けの両方を包含することができる(本分析は周波数領域で実行される)。Pはアレイ素子の数である。重量の目的は、総合信号を得るために入力信号に作用することである。アレイからくるフーリエ変換信号ベクトルをyで表すとしよう。次いで総合信号、すなわちビーム形成器からの出力はz=wyになる。
この目的は、総合信号zがある特定の特性を有するように、重量ベクトルwを設計することである。アレイを処理する際に、これらは一般的に空間的行動に関係する、すなわち総合信号zは、他の方向からくる信号に対して一部の方向からくる信号によってどの程度影響を及ぼされるかに関係する。次にこのことについてより詳細に説明する。方程式(1)を以下のように離散化することができる。
Figure 2018517325

方程式(2)
角度θ、θ、…、θの一部の離散化について。和を以下のように書き換えることができる。
Figure 2018517325
したがって離散化された最適化基準は以下のようになる。
Figure 2018517325
これは、多数の周知の技法を使用して解くことができる、修正されたまたは制約された固有ベクトルの問題である。このようなある変形について説明する。概してベクトル1は方向ベクトルの1つと等しいことが理解されよう。但しこの方向ベクトルはθ=π/2である。したがって問題は、最小二乗焦点を有する問題として再公式化することができ、これは、前方に全焦点があり、他のすべての方向に可能な限り低いエネルギーがあるように、ビームパターンに適合するように試みることである。これは以下のように遂行することができる。
Figure 2018517325
上式でkは前向きの方向ベクトルの指数であり、すなわちa(θ)=1である。この式は、重量を使用することにより、前向きの角度応答は除くすべての角度応答をゼロになるように試みることであることを示す。前向きの角度応答は1になるように試みられる。下げることがより重要であるような好ましい方向(前向き方向以外)はないと概して推定されるので、α=α=cであると仮定される。但しi,j≠kである。次にこれを以下のように書き換えることができることに留意されたい。
Figure 2018517325
上式で
Figure 2018517325
はCと同じ方法で発生された行列であるが、第kの方向ベクトルは除かれる、すなわち以下の通りである。
Figure 2018517325
方程式(4)における元の最適化問題に対して、
Figure 2018517325
Figure 2018517325
のいずれを最小にしようとするかどうかに違いはなく、前向きベクトル1と重量wとの間の関係(すなわち制約)でこれを確実にすることに留意されたい。
方程式(4)の右辺は、修正された固有値問題(定数=1のとき)を解くためのラグランジュ乗数式であることにも留意されよう。したがって方程式(4)および(6)は等しく、したがって方程式(4)、(5)、および(6)も前述の仮定の下で等しい。したがって方程式(5)に作用し始めると、以下のように書き換えることができることがわかることがある。
Figure 2018517325
上式ですべてのiに対してe=0であるが、kに対してはe=1である。
ここでa=a(θ)と定義することにより、以下のようになる。
Figure 2018517325
これは、以下のように問題への最小二乗解の模索を示唆する。
Figure 2018517325
Figure 2018517325
Figure 2018517325
これは、複素ベクトル(w)を発見しようとする必要があり、複素ベクトルの要素は行列
Figure 2018517325
の行を組合せるので、それらはスケール化したユニット行ベクトルになる。但し第kの要素のみがゼロではない。しかしより一般的には、異なる空間方向を分離しようとする際に、複素ベクトル{w}を選択することができ、それぞれは異なる空間方向に焦点を合わせる。この問題を解くと、上の方程式(10)も解かれるというわけである。これは以下のように行列Wを見出そうとするはずである。
Figure 2018517325
しかしこれは、単に行列
Figure 2018517325
が(疑似)逆行列を有すると言うことになる。さらに
Figure 2018517325
が疑似逆を有する場合は、Aも疑似逆を有することに留意されたい。行列
Figure 2018517325
の列はAの列の単に再スケール化された型であるので、これは続く。したがって極めて一般的にAが疑似逆を有するか否か、またその状況下に焦点を合わせることができる。アレイを処理する際に、均一の線形アレイ(ULA)の方向ベクトルがサンプリングされた複素正弦波になる。これは、Aの列ベクトルが単に複素正弦波であることを意味する。より多くの素子がアレイの基線内に加えられる(すなわちアレイがオーバーサンプリングされる)場合、それらの正弦波のサンプリング品質(または解像度)は次第に改善される。
仮定として行の数が無限である傾向があるときは、行列Aの列は連続する複素正弦波のサンプリングになる。あらゆる(非連続の)基準の解像度は、連続した複素正弦波の量子化として見ることができる。
ω、ω、…ωを1組の周波数としよう。すべてのi≠jに対してω≠ωである。
Rを支持長としよう。
Figure 2018517325
のいずれかとしよう。次に関数f(t)は線形独立である。
これが示唆することは、無限に接近して離間されたアレイアンテナ素子の無限数が存在する理論上理想的な場合、空間方向(すなわち方向ベクトル)に対応する正弦波は、すべてが独自で識別可能であるはずであり、他の線形結合として構成できる正弦波はないということである。これは行列Aの(行連続の)「可逆性」を生じるものである。しかし実際には有限数の素子が存在し、これによりこの完全な状況の離散化をもたらす。連続正弦波はすべてが独自であり互いに独立した線形である一方で、同じ正弦波の離散化が同じ特性に従うという保証はない。事実、アンテナ素子の数が、機器が空間的に分離しようとする角度の数より少ない場合、正弦波は互いから独立していないことは確かである。しかし行列A内の行数が増加するにつれ、すなわちアレイ内のアンテナ素子の数が増加するにつれて、行列Aは完全な(連続した)状況にますます迫るので、行列Aは「ますます可逆的」になる。より多くのアンテナ素子が挿入されるにつれて、そこから行列Cが導かれる行列A内の行数が増加するように、行列Cの寸法は増加する。上に説明したように、行列Aが「可逆的」であるほど、行列Aは上の方程式(2)の条件、すなわちw1=一定の条件の下でminCwを満たしやすくなる。
上の検討事項が本発明の最適な実装に、また特に現実の課題の発生にどの程度重要になるかが容易にわかる。本発明によりアルゴリズムを実行する処理装置は、行列の固有ベクトルと有効に作用し、小さい固有ベクトル/固有値の対、すなわち以下のように最小化または最小化に近づく固有ベクトル/固有値の対に関係する。
Figure 2018517325
これは取らなければならない特定の予防策があることを意味する。制約「w1=一定」を無視する瞬間を無視し(これは部分空間上に突起を与える小さい変更であると示すことができるので)、固有値および固有ベクトルの動き方を取り戻すと、行列C(これはエルミートである)の固有値の分解を以下のように考えることができる。
Figure 2018517325
上式で{λ}は、値を低減することによって分類された非ゼロの固有値の組である。以下の項が考えられる。
Figure 2018517325
wが小さい固有値に対応する固有ベクトルにより平行であるとき、この項はより小さくなることがわかる。小さい固有値に対応する固有ベクトルは概して不安定であることも公知である。これは、行列Cへの小さい変化が例えば以下のように非常に異なる数値を与えることができることを意味する。
Figure 2018517325
行列Cの一部の摂動
Figure 2018517325
について。これはCに小さいエラーがあった場合に、有効なアレイの解像度(これはsに関係する)を劇的に低下させることができた。
しかしこれは、まさに多くの現実のシナリオで発生するものである。具体的に以下のように構成される行列Cを検討する。
Figure 2018517325
方向ベクトルa(θ)は、とりわけ音速に関係する。しかし実際には、音速はその仮定された値に対して温度または湿度変化の結果を変化させる。例えば仮定された値340m/sから実際の値345m/sへの変更により、Cの歪みを生じ(
Figure 2018517325
になり)、これは数値sに桁違いの影響を及ぼす可能性がある。
したがって音声認識の目的で、所望の解像度を得るために行列Cの数個の型および関連した(最適な)重量wを適用することが必要であることがある。これは、異なる温度に関して異なる組合せC/wを試みること、およびどのアレイ出力が有する全エネルギーが最も低いかを確かめることと、異なる温度に関して異なる組合せC/wを試みることと、およびどのアレイ出力が、最も代表的な音声(例えば音声信号の統計的分布を反映する)である信号出力を有するかを確認することと、異なる温度に関して異なる組合せC/wを試みること、およびどのアレイが音声認識エンジンで最高分類率を与えるかを確認することとを含む、多数の方法で発生させることができる。
図2に戻って参照すると、第1の処理装置14は、これらのステップの一部を実行するために十分に強力であってもよいが、この処理装置に対する需要は即座に高くなり、それゆえ回路の費用および/または電力消費を携帯機器に高過ぎる基準まで押し上げる。しかし必要な時にいつでもこのより広範囲の検索を行うために遠隔処理装置16を使用することにより、このような作動が不要なときに低電力モードにできる遠隔処理装置16を保持することにより、電力を節約できる。当然のことながら、この利点は、両方の処理装置が同じ機器上に提供される場合であっても達成できることが理解されよう。したがって処理装置の1つが遠隔に提供されることは必須ではない。
多数の候補から選択するためにより大きい処理能力を使用するより具体的な例を、図8を参照してここで説明する。第1のステップ101では、音声信号の候補は、先に説明したように1つまたは複数のマイクロホン2から検出される。検出は第1の処理装置12によって実行することができる。
次にステップ102では、信号分離アルゴリズムを「設定」し、これはマイクロホンアレイの周囲の物理的条件および現実についてのある特定の仮定に基づくことを意味する。例えば方向ベクトルa(θ)は音速と関連するので、音速がどの程度であるか(これは温度または湿度などに依存して340、330、または345m/sである可能性がある)についての仮定は、「設定」できるパラメータであるはずである。次にステップ103では、これらのパラメータは信号分離アルゴリズムとともに適用される。これはビーム形成器であることが多いはずであるが、これはまた時間領域解析法またはあらゆる他の手法であることも可能である。次いでこの工程からの出力または恐らく複数の出力は、ステップ104で音声認識エンジンに供給される。
音声認識エンジンが辞書または語彙から単語を認識した場合、その単語、またはその短縮形、ハッシュコード、またはインデックスなどのその単語の何らかの他の表示をステップ105でアプリケーションに供給することができる。用語「word(単語)」が本明細書で使用されているが、これは語句、音、または自然な音声認識に重要な何らかの他の存在に置き換えることができることを留意されたい。
ステップ104において単語が認識されない場合、または正しい分類の可能性が非常に低い場合、または二重もしくは多重の単語の一致を決定した危険性が非常に高いと思われるような、何らかの他の主要な基準を満たす場合、工程はステップ106に移動する。ステップ106では、主要パラメータが修正される。前に述べたように、これらは音速および方向ベクトルに(次いで行列Cに)影響を及ぼす結果のような主要な物理的変化に関連することができる。しかしそれらのパラメータは異なるビームパターンまたは集中戦略に関連することもできる。例えばパラメトリック選択の一例では、比較的広いビームを使用してもよく、別の例では、より狭いビームを使用してもよい。パラメータは異なるアルゴリズム選択に関連することもできる。例えばまずビーム形成器を使用してうまく機能しなかった場合、時間領域解析法のようなより計算の複雑な検索を試みることができた。
この検索のための「パラメータ」の法的設定がパラメータデータベース107に含有されてもよい。これは、検索に使用するために法律および関連パラメータのリスト、行列、または他の構成として実装することができ、これに限定されないが、音速、暗騒音特性、潜在的干渉源の位置の仮定、センサ過負荷(飽和)の仮定、またはあらゆる他の検索可能な量を含むことができる。同様にデータベース107は、パラメータ設定の最終組を有する固定データベースである必要はなく、データベース107は、種々の該設定を使用して単語を検索するために1組の公式を使用する新しいパラメータの組を構成する、「生成アルゴリズム」と同等に良好であることが可能である。
ここでの実装は「順次的」として示されているが、平行した実装も同等に良好であるとみなすことができ、この場合、単語の検出工程において様々な基準の確実性が互いに対して一致し、「勝者」が選択される。CPUアーキテクチャに依存して、このような手法は時としてはるかに迅速で効率的であることがある。
騒音の影響
次に現実世界の実装における騒音の影響について検討する。このためにアルゴリズムは、エネルギー/焦点を前方に「固定」するために重量ベクトルwを使用しようとする。同時に理想的には他の方向からビーム形成器を通って入ってくるエネルギーは、それが(他の方向からの)干渉であっても騒音であっても、できる限り少ない必要がある。これは図8に示されており、主ビームを固定し受信する一方で、サイドローブを抑圧することが望ましい。
適切な離散化は以下の方程式で得られる。
Figure 2018517325
実際に、これは概算であるが、関連したエラーを雑音項nにモデル化することができるので、差し当たりこれを容認することができる。ここで数s(θ)は異なる方向θから届く信号である。検討されるのは周波数領域であるので、これらの数は位相および偏角を表す複素数である。これをベクトル/行列の形で実行すると、以下のように得られる。
Figure 2018517325
Figure 2018517325
Figure 2018517325
Figure 2018517325
上式でnは各センサでは(複合)雑音である。焦点を前向きに「固定」させるために、これは以下のように書き換えることができる。
Figure 2018517325
上式でkは前向きベクトルのインデックス(θ=π/2)であり、以下を意味する。
Figure 2018517325
次にビーム形成重量ベクトルwを適用してビーム形成された信号を獲得する。
Figure 2018517325
(wはこの条件下で導かれたので)w1=1はすでに公知であるので、ここで式は以下のようになる。
Figure 2018517325
関心があるのは信号Sであり、これは前方向からくる信号である。この信号をできる限り良好に(ビーム形成を通して)回復しようとする際に、その他の2つの項、
Figure 2018517325
Figure 2018517325
は大きさに関してできる限り小さい必要がある。zはすでに信号Sを「獲得」しているので(またwの設計に起因してそうしなければならない)、|z|の期待値を最小にするよう望むことが効果的である。これは要するに最小化を望むということを意味する。

Figure 2018517325
上式で源(複数可)は相関関係がなく、等しい(単数の)エネルギーであると仮定されてきたが、他のエネルギー基準も以下の論証に違いはない。ここで第1項は元から最小化されたものとしてすでに認識されてもよいので、これはある意味では選択されたwに対してすでに「最小」である。第2項は一定であり、第3項は2つの成分、雑音分散およびベクトルwのノルムを有する。信号対雑音干渉比は以下のように記載することができる。
Figure 2018517325
上式で信号エネルギーが(状況依存の)定数になるので、最終項のみを観察する必要がある。明らかに雑音の分散が重要であるので、光マイクロホンの低雑音基準はビーム形成概念において良好なSINRを含有することが特に望ましい。
図9は、人が文字音「a」を話したときに受信した典型的な音響信号の高速フーリエ変換プロットを示す。ここから、スペクトルが226kHzの基底周波数で主ピーク202を有することを見ることができる。しかし周波数の2倍、4倍、8倍、および16倍の追加の明瞭な倍音204、206、208、210が存在している。これらは、図10を参照に以下に説明するように、音声認識の性能をさらに引き上げるために使用することができる。ここに与えられた具体的な例は基底周波数の2倍の力であるが、これは必須ではなく、本発明は基底周波数のあらゆる便利な整数倍を用いて使用することができる。
図10は、本発明のさらなる実施形態の作動を説明する流れ図であり、これは図9に示された倍音204〜210を利用する。これは図8を参照して上に説明した作動の修正版である。
すでに述べたように、第1のステップ1010では、音声信号の候補が1つまたは複数のマイクロホン2から検出され、ステップ1020では、信号分離アルゴリズムを「設定」し、これは、音速などのマイクロホンアレイの周囲の物理的条件および現実についてのある特定の仮定に基づくことを意味する。
次にステップ1030では、これらのパラメータは信号分離アルゴリズムを基底周波数で信号に適用され、また平行したステップ1031、1032では第1〜第nの倍音周波数で信号に適用される。分離は、対象のそれぞれの周波数に対する個々のパラメータに基づいて個別に行うことができる。しかし分離は、空間方向の一連の推測に関連するパラメータなどの、1つまたは複数のパラメータを共有することもでき、これは典型的にはあらゆる所与の音響源を出力する多周波数(すなわち倍音)に対して同時に起こる。信号成分の偏向における推測(これは予測手法に基づくことができる)などの他のパラメータも共有することができる。
ステップ1040では、倍音の信号分離の出力が結合される。これはあらゆる数の方法で生じることができる。例えば分離された倍音信号を、ステップ1050上を通過する前に加えることができる。他の実施形態では、信号の振幅または包絡線を加えることができる。さらに他の実施形態では、信号またはそれらのエンベロープ/振幅は、接合する前にフィルタの分離を受けることができるので、例えば雑音または干渉によって多大に汚染されたあらゆる成分は、和の一部にならない。これは例えば異常値検出機構を使用して起こすことができ、この場合、例えば周波数成分のエンベロープが使用される。他のエンベロープパターンから大きく外れたエンベロープパターンを有する周波数は、計算/組合せから排除されることがある。
周波数がステップ1030、1031、…1032で明白に分離処理され、次いでステップ1040で再結合されるが、倍音の処理は明白に分割される必要がないことがある。例えば他の実施形態は、時間領域技法を使用することができ、この技法は、フーリエ変換およびそれゆえそれ自体の個々の頻繁の使用を利用しないが、その代わりに純粋な時間領域表現を使用し、次いで適切な共分散行列を使用することにより倍音についての情報を推定手法に効果的に結び付け、これは共変する基音および倍音の予期された効果を信号推定手法に基本的に組み込む。
前述と同様に、音声認識エンジンは、ステップ1050で音声認識エンジンが単語を辞書または語彙から認識するかどうかを調べるために使用される。認識した場合、その単語またはその短縮形、ハッシュコード、もしくはインデックスなどのその単語の何らかの他の表示をステップ1060でアプリケーションに供給することができる。本明細書では用語「word(単語)」が使用されているが、これは語句、音、または自然な音声認識に重要な何らかの他の存在に置き換えることができることを留意されたい。
ステップ1050において単語が認識されない場合、または正しい分類の可能性が非常に低い場合、または二重もしくは多重の単語の一致を決定する危険性が非常に高いと思われるような、何らかの他の主要な基準を満たす場合、工程はステップ1070に移動し、ステップ1070では、主要パラメータが修正される。
やはり前述と同様に、この検索のための「パラメータ」の法的設定がパラメータデータベース1080に含有されてもよい。

Claims (29)

  1. 基板上の光マイクロホンのアレイであって、それぞれの前記光マイクロホンは、入力可聴音の結果として、それぞれの膜の変位を示す信号を提供する、光マイクロホンのアレイと、
    前記光マイクロホンから前記信号を受信し、第1の出力を生成するために前記信号上で第1の処理ステップを実行するように配置された第1の処理装置と、
    前記信号または前記第1の出力の少なくとも1つを受信するように配置された第2の処理装置とを備え、
    少なくとも前記第2の処理装置は、前記可聴音から人語の少なくとも1つの要素の存在を決定する、光マイクロホンの配置。
  2. 前記光マイクロホンは5mm未満の相互間隔で配置される、請求項1に記載の光マイクロホンの配置。
  3. 前記第1および第2の処理装置の少なくとも1つは、複数の処理操作を前記信号上で実行するように配置され、前記処理操作は、前記信号が複数の候補決定を与えるためにそれぞれの複数の方向から発する複数の仮定に対応し、その後選択基準に基づいて前記候補仮定の1つを選択する、請求項1または2に記載の光マイクロホンの配置。
  4. 前記第1の処理装置は、前記可聴音から人語の少なくとも1つの要素の存在を決定するように配置され、前記要素が存在すると決定される場合、前記第2の処理装置を比較的受動モードからより能動モードに変えさせるように、覚醒信号を出すように配置される、請求項1または2に記載の光マイクロホンの配置。
  5. 前記第1の処理装置および前記光マイクロホンアレイは、一般的な機器内に提供される、請求項1〜4のいずれか1項に記載の光マイクロホンの配置。
  6. 前記第2の処理装置は、前記光マイクロホンアレイが提供された1つのまたは前記機器の遠隔に提供される、請求項1〜5のいずれか1項に記載の光マイクロホンの配置。
  7. 前記第1の処理装置は、前記第2の処理装置内の音声認識を支援するために初期信号処理を実行するように配置される、請求項1〜6のいずれか1項に記載の光マイクロホンの配置。
  8. 前記第1の処理装置は、前記信号上にビーム形成を実行するように配置され、前記第2の処理装置は、音声認識を実行するように配置される、請求項1〜6のいずれか1項に記載の光マイクロホンの配置。
  9. 前記第2の処理装置は、少なくとも基底周波数および前記基底周波数の整数倍である倍音周波数を使用して、前記可聴音から人語の少なくとも1つの要素の存在を決定するように配置される、請求項1〜8のいずれか1項に記載の光マイクロホンの配置。
  10. 複数の倍音を使用するように配置された、請求項9に記載の光マイクロホンの配置。
  11. 前記光マイクロホンは前記基底周波数の半波長より短い相互間隔を有する、請求項9または10に記載の光マイクロホンの配置。
  12. 前記倍音(複数可)の前記周波数でビーム形成を実行するように配置される、請求項9、10または11に記載の光マイクロホンの配置。
  13. 前記ビーム形成は前記第1の処理装置によって実行される、請求項12に記載の光マイクロホンの配置。
  14. 5mm未満の最も近接した相互間隔を有する基板上の光マイクロホンのアレイであって、それぞれの前記光マイクロホンは、入力可聴音の結果としてそれぞれの膜の変位を示す信号を提供する、光マイクロホンのアレイと、
    前記光マイクロホンから前記信号を受信し、前記可聴音から人語の少なくとも1つの要素の存在を決定するように配置された1つまたは複数の処理装置とを備える、光マイクロホンの配置。
  15. 基板上の光マイクロホンのアレイであって、それぞれの前記光マイクロホンは、入力可聴音の結果として、それぞれの膜の変位を示す信号を提供する、光マイクロホンのアレイと、
    前記光マイクロホンから前記信号を受領し、少なくとも基底周波数および前記基底周波数の整数倍である倍音周波数を使用して、前記可聴音から人語の少なくとも1つの要素の存在を決定するように配置された、1つまたは複数の処理装置とを備える、光マイクロホンの配置。
  16. 前記光マイクロホンは5mm未満の相互間隔を有する、請求項15に記載の光マイクロホンの配置。
  17. 複数の倍音を使用するように配置された、請求項15または16に記載の光マイクロホンの配置。
  18. 前記光マイクロホンは前記基底周波数の半波長より短い相互間隔を有する、請求項15、16または17に記載の光マイクロホンの配置。
  19. 前記倍音(複数可)の周波数でビーム形成を実行するように配置される、請求項15〜18のいずれか1項に記載の光マイクロホンの配置。
  20. 前記光マイクロホンは、膜と、前記光の少なくとも一部は前記膜から反射されるように前記膜に光を向けるように配置された光源と、前記反射された光を検出するように配置された光検出器とを備える、請求項1〜19のいずれか1項に記載の光マイクロホンの配置。
  21. 前記光源と前記膜との間に提供される回折素子を備える、請求項20に記載の光マイクロホンの配置。
  22. 前記回折素子は、反射材料によって形成された回折パターンを備える、請求項21に記載の光マイクロホンの配置。
  23. それぞれのマイクロホンに対して複数の検出器を備える、請求項20、21または22に記載の光マイクロホンの配置。
  24. それぞれのマイクロホンに対して複数の回折素子を備える、請求項20〜23のいずれか1項に記載の光マイクロホンの配置。
  25. 入力可聴音から音声の少なくとも1つの要素の存在を決定する方法であって、前記可聴音は少なくともその一部を波長帯域内に有し、前記方法は、請求項1〜24のいずれかに記載の光マイクロホンのアレイを使用して前記可聴音を受信することであって、前記マイクロホンは、前記波長帯域の最長波長の半分より短い相互間隔を有する、受信することと、音声の前記要素を検出するために前記マイクロホンからの前記信号を処理することとを含む、方法。
  26. 入力可聴音から音声の少なくとも1つの要素の存在を決定する方法であって、前記可聴音は少なくともその一部を波長帯域内に有し、前記方法は、基板上で光マイクロホンのアレイを使用して前記可聴音を受信することであって、前記マイクロホンは、前記波長帯域の最長波長の半分より短い相互間隔を有し、それぞれの前記光マイクロホンは、前記可聴音の結果としてそれぞれの膜の変位を示す信号を提供する、受信することと、音声の前記要素を検出するために前記マイクロホンからの前記信号を処理することとを含む、方法。
  27. 前記マイクロホンは、前記波長帯域の中央波長の半分より短い相互間隔を有する、請求項25または26に記載の方法。
  28. 所与の方向または方向の範囲から受信した前記可聴音の一部を優先的に使用するように、前記マイクロホンからの前記信号を処理することを含む、請求項25、26または27に記載の方法。
  29. 複数の方向からの音を使用することと、それに基づいて最良の結果を与える前記方向の1つを選択することとを含む、請求項28に記載の方法。
JP2017552958A 2015-04-09 2016-04-11 音声認識 Pending JP2018517325A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GBGB1506046.0A GB201506046D0 (en) 2015-04-09 2015-04-09 Speech recognition
GB1506046.0 2015-04-09
PCT/GB2016/051010 WO2016162701A1 (en) 2015-04-09 2016-04-11 Speech recognition

Publications (2)

Publication Number Publication Date
JP2018517325A true JP2018517325A (ja) 2018-06-28
JP2018517325A5 JP2018517325A5 (ja) 2019-04-04

Family

ID=53333540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017552958A Pending JP2018517325A (ja) 2015-04-09 2016-04-11 音声認識

Country Status (8)

Country Link
US (1) US10356533B2 (ja)
EP (1) EP3281200B1 (ja)
JP (1) JP2018517325A (ja)
KR (1) KR20170134640A (ja)
CN (1) CN107533842A (ja)
CA (1) CA2981690A1 (ja)
GB (1) GB201506046D0 (ja)
WO (1) WO2016162701A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022546379A (ja) * 2019-08-30 2022-11-04 ホアウェイ・テクノロジーズ・カンパニー・リミテッド マイクロフォンチップ、マイクロフォン、及び端末デバイス

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NO20130884A1 (no) * 2013-06-21 2014-12-22 Sinvent As Sensorelement med optisk forskyvning
KR20180036032A (ko) * 2016-09-30 2018-04-09 삼성전자주식회사 영상처리장치 및 기록매체
GB201708100D0 (en) 2017-05-19 2017-07-05 Sintef Input device
US10460729B1 (en) * 2017-06-30 2019-10-29 Amazon Technologies, Inc. Binary target acoustic trigger detecton
US10460722B1 (en) * 2017-06-30 2019-10-29 Amazon Technologies, Inc. Acoustic trigger detection
GB201807889D0 (en) 2018-05-15 2018-06-27 Sintef Tto As Microphone housing
CN108957390B (zh) * 2018-07-09 2022-03-18 东南大学 一种存在互耦时基于稀疏贝叶斯理论的到达角估计方法
CN110164423B (zh) 2018-08-06 2023-01-20 腾讯科技(深圳)有限公司 一种方位角估计的方法、设备及存储介质
CN110503969B (zh) 2018-11-23 2021-10-26 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质
CN109461456B (zh) * 2018-12-03 2022-03-22 云知声智能科技股份有限公司 一种提升语音唤醒成功率的方法
CN109448720A (zh) * 2018-12-18 2019-03-08 维拓智能科技(深圳)有限公司 便民服务自助终端及其语音唤醒方法
CN109841214B (zh) * 2018-12-25 2021-06-01 百度在线网络技术(北京)有限公司 语音唤醒处理方法、装置和存储介质
DE102019200954A1 (de) * 2019-01-25 2020-07-30 Sonova Ag Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen
US11889264B2 (en) * 2019-04-18 2024-01-30 Orta Dogu Teknik Universitesi Fiber optic MEMS microphone
KR20200132613A (ko) * 2019-05-16 2020-11-25 삼성전자주식회사 웨이크 언 보이스(Wake on Voice, WoV) 기술을 이용한 음성 인식 수행 방법 및 장치
CN113923580B (zh) * 2020-06-23 2022-07-26 中国科学院声学研究所 一种双模拾音装置
CN112447184A (zh) * 2020-11-10 2021-03-05 北京小米松果电子有限公司 语音信号处理方法及装置、电子设备、存储介质
JP2024509207A (ja) * 2021-03-12 2024-02-29 クゥアルコム・インコーポレイテッド 低減レイテンシスピーチ処理

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000078695A (ja) * 1998-09-01 2000-03-14 Fujitsu Ltd 指向性光マイクロフォン
JP2002152873A (ja) * 2000-11-09 2002-05-24 Nippon Hoso Kyokai <Nhk> マイク
WO2005048239A1 (ja) * 2003-11-12 2005-05-26 Honda Motor Co., Ltd. 音声認識装置
WO2014210392A2 (en) * 2013-06-27 2014-12-31 Rawles Llc Detecting self-generated wake expressions

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3173208B2 (ja) 1993-01-29 2001-06-04 キヤノン株式会社 変位測定装置
CN1035135C (zh) 1993-06-10 1997-06-11 清华大学 高温全息光栅及其制造方法
US5920418A (en) 1994-06-21 1999-07-06 Matsushita Electric Industrial Co., Ltd. Diffractive optical modulator and method for producing the same, infrared sensor including such a diffractive optical modulator and method for producing the same, and display device including such a diffractive optical modulator
CA2149933A1 (en) 1994-06-29 1995-12-30 Robert M. Boysel Micro-mechanical accelerometers with improved detection circuitry
US5969838A (en) * 1995-12-05 1999-10-19 Phone Or Ltd. System for attenuation of noise
US6567572B2 (en) 2000-06-28 2003-05-20 The Board Of Trustees Of The Leland Stanford Junior University Optical displacement sensor
TW501116B (en) 2000-07-05 2002-09-01 Matsushita Electric Ind Co Ltd Optical device, optical semiconductor device, and optical information processor comprising them
IL138459A0 (en) 2000-09-14 2001-10-31 Phone Or Ltd Membranes for optical microphone/sensors
DE60234992D1 (de) 2001-02-06 2010-02-25 Optoplan As Hochempfindlicher transversaler beschleunigungsaufnehmer
CN1313846C (zh) 2001-10-05 2007-05-02 松下电器产业株式会社 衍射光学元件及使用了该衍射光学元件的光学头
NO315397B1 (no) 2001-11-13 2003-08-25 Sinvent As Optisk forskyvnings-sensor
NO315177B1 (no) 2001-11-29 2003-07-21 Sinvent As Optisk forskyvnings-sensor
US7518737B2 (en) 2002-03-29 2009-04-14 Georgia Tech Research Corp. Displacement-measuring optical device with orifice
US7116430B2 (en) 2002-03-29 2006-10-03 Georgia Technology Research Corporation Highly-sensitive displacement-measuring optical device
JP2004281026A (ja) 2002-08-23 2004-10-07 Matsushita Electric Ind Co Ltd 光ピックアップヘッド装置及び光情報装置及び光情報再生方法
US7355720B1 (en) * 2005-12-20 2008-04-08 Sandia Corporation Optical displacement sensor
US7826629B2 (en) 2006-01-19 2010-11-02 State University New York Optical sensing in a directional MEMS microphone
RU2365064C1 (ru) 2008-04-18 2009-08-20 Государственное образовательное учреждение высшего профессионального образования "Санкт-Петербургский государственный электротехнический университет "ЛЭТИ" им. В.И. Ульянова (Ленина)" (СПбГЭТУ "ЛЭТИ" им. В.И. Ульянова (Ленина) Оптический микрофон и способ изготовления его звукочувствительной мембраны
US8154734B2 (en) 2008-04-25 2012-04-10 Symphony Acoustics, Inc. Optical interferometric sensor
US8131494B2 (en) 2008-12-04 2012-03-06 Baker Hughes Incorporated Rotatable orientation independent gravity sensor and methods for correcting systematic errors
US8205497B1 (en) * 2009-03-05 2012-06-26 Sandia Corporation Microelectromechanical inertial sensor
US8818806B2 (en) * 2010-11-30 2014-08-26 JVC Kenwood Corporation Speech processing apparatus and speech processing method
RU2473181C1 (ru) 2011-05-17 2013-01-20 Федеральное государственное учреждение 24 Центральный научно-исследовательский институт Министерства обороны Российской Федерации Оптический микрофон
US8949118B2 (en) 2012-03-19 2015-02-03 Vocalzoom Systems Ltd. System and method for robust estimation and tracking the fundamental frequency of pseudo periodic signals in the presence of noise
CN104884915A (zh) 2012-10-11 2015-09-02 硅音震有限公司 用于具有光学读出的位移传感器的闭合环路控制技术
US20140358535A1 (en) * 2013-05-28 2014-12-04 Samsung Electronics Co., Ltd. Method of executing voice recognition of electronic device and electronic device using the same
NO20130884A1 (no) 2013-06-21 2014-12-22 Sinvent As Sensorelement med optisk forskyvning
NO20140263A1 (no) 2014-02-28 2015-08-31 Pgs Geophysical As Optisk bevegelsessensor
US9404860B2 (en) * 2014-05-09 2016-08-02 Apple Inc. Micro-electro-mechanical system optical sensor with tilt plates
CN105182000B (zh) 2015-05-30 2018-05-22 浙江大学 光学mems加速度计中三光路信号补偿系统及其方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000078695A (ja) * 1998-09-01 2000-03-14 Fujitsu Ltd 指向性光マイクロフォン
JP2002152873A (ja) * 2000-11-09 2002-05-24 Nippon Hoso Kyokai <Nhk> マイク
WO2005048239A1 (ja) * 2003-11-12 2005-05-26 Honda Motor Co., Ltd. 音声認識装置
WO2014210392A2 (en) * 2013-06-27 2014-12-31 Rawles Llc Detecting self-generated wake expressions

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022546379A (ja) * 2019-08-30 2022-11-04 ホアウェイ・テクノロジーズ・カンパニー・リミテッド マイクロフォンチップ、マイクロフォン、及び端末デバイス
US11902742B2 (en) 2019-08-30 2024-02-13 Huawei Technologies Co., Ltd. Microphone chip, microphone, and terminal device

Also Published As

Publication number Publication date
US10356533B2 (en) 2019-07-16
EP3281200A1 (en) 2018-02-14
KR20170134640A (ko) 2017-12-06
WO2016162701A1 (en) 2016-10-13
EP3281200B1 (en) 2020-12-16
CN107533842A (zh) 2018-01-02
GB201506046D0 (en) 2015-05-27
CA2981690A1 (en) 2016-10-13
US20180075867A1 (en) 2018-03-15

Similar Documents

Publication Publication Date Title
JP2018517325A (ja) 音声認識
CN107924681B (zh) 用于在具有语音功能的装置之间的仲裁中的方法以及用于仲裁的系统
Takeda et al. Discriminative multiple sound source localization based on deep neural networks using independent location model
KR101688354B1 (ko) 신호 소스 분리
CN106023996B (zh) 基于十字形声阵列宽带波束形成的声识别方法
US20120183149A1 (en) Sound signal processing apparatus, sound signal processing method, and program
JP2018517325A5 (ja)
US20220408180A1 (en) Sound source localization with co-located sensor elements
US9478230B2 (en) Speech processing apparatus, method, and program of reducing reverberation of speech signals
US10262678B2 (en) Signal processing system, signal processing method and storage medium
US11495215B1 (en) Deep multi-channel acoustic modeling using frequency aligned network
Adalbjörnsson et al. Sparse localization of harmonic audio sources
Danes et al. Information-theoretic detection of broadband sources in a coherent beamspace MUSIC scheme
El Badawy et al. Direction of arrival with one microphone, a few legos, and non-negative matrix factorization
Ozanich et al. A deep network for single-snapshot direction of arrival estimation
Li et al. Local relative transfer function for sound source localization
Park et al. Generalization of the subspace-based array shape estimations
Ito et al. Crystal-MUSIC: Accurate localization of multiple sources in diffuse noise environments using crystal-shaped microphone arrays
Trawicki et al. Multichannel speech recognition using distributed microphone signal fusion strategies
Suksiri et al. Multiple frequency and source angle estimation by gaussian mixture model with modified microphone array data model
Kindt et al. Improved separation of closely-spaced speakers by exploiting auxiliary direction of arrival information within a u-net architecture
Das et al. Human voice localization in noisy environment by SRP-PHAT and MFCC
Hu et al. Wake-up-word detection by estimating formants from spatial eigenspace information
Nakano et al. Directional acoustic source's position and orientation estimation approach by a microphone array network
Nadeu et al. Model-based processing for acoustic scene analysis

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190219

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200407

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20201201