JP6345327B1 - 音声抽出装置、音声抽出方法および音声抽出プログラム - Google Patents
音声抽出装置、音声抽出方法および音声抽出プログラム Download PDFInfo
- Publication number
- JP6345327B1 JP6345327B1 JP2017171820A JP2017171820A JP6345327B1 JP 6345327 B1 JP6345327 B1 JP 6345327B1 JP 2017171820 A JP2017171820 A JP 2017171820A JP 2017171820 A JP2017171820 A JP 2017171820A JP 6345327 B1 JP6345327 B1 JP 6345327B1
- Authority
- JP
- Japan
- Prior art keywords
- unit
- channel
- signal
- speech
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 139
- 238000009826 distribution Methods 0.000 claims abstract description 93
- 238000012545 processing Methods 0.000 claims abstract description 57
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 27
- 230000005236 sound signal Effects 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims description 78
- 238000000034 method Methods 0.000 claims description 62
- 238000010187 selection method Methods 0.000 claims 1
- 238000004519 manufacturing process Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 74
- 238000003860 storage Methods 0.000 description 48
- 238000004891 communication Methods 0.000 description 40
- 230000008569 process Effects 0.000 description 36
- 238000010586 diagram Methods 0.000 description 28
- 230000004807 localization Effects 0.000 description 21
- 238000012986 modification Methods 0.000 description 12
- 230000004048 modification Effects 0.000 description 12
- 239000000284 extract Substances 0.000 description 9
- 238000012795 verification Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/23—Direction finding using a sum-delay beam-former
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
図1は、実施形態に係る抽出処理の一例を示す図である。図1を参照しながら、本実施形態に係る抽出処理の一例について説明する。図1では、本願に係る音声抽出装置20が、マイクロホンアレイ装置10により受音された話者の音声に基づく音声信号(以下、「観測信号」と称する場合がある)に対して、マイクロホンアレイ装置10の各マイクロホンに対応して予め形成した指向性に従って、各チャネルの観測信号を強調し、強調信号の振幅の頻度分布のカートシスに基づいてチャネルを選択し、選択されたチャネルに対応する観測信号を出力する抽出処理を実行する例を示す。ここで、チャネルとは、マイクロホンアレイ装置10において話者の音声を受音する各受音部を示すものとし、具体的には、上述のように指向性が形成された各マイクロホンに対応するものとする。
図3は、実施形態に係る音声認識システムの構成例を示す図である。図3を参照しながら、本実施形態に係る音声認識システム1の構成について説明する。
図4は、実施形態に係る音声抽出装置の構成例を示す図である。図4を参照しながら、本実施形態に係る音声抽出装置20の構成について説明する。
通信部210は、マイクロホンアレイ装置10と情報の通信を行う機能部である。具体的には、通信部210は、例えば、マイクロホンアレイ装置10が受音した話者の音声を音声信号(観測信号)として受信する。通信部210は、後述する図13に示す通信I/F1600(例えば、USB(Universal Serial Bus)インターフェース等)によって実現される。
記憶部220は、音声抽出装置20の処理の用に供する様々な情報を記憶する機能部である。記憶部220は、例えば、後述する制御部230の形成部232により形成された指向性を決めるパラメータ、生成部234により生成された強調信号の振幅の頻度分布の情報、および、算出部235により算出された頻度分布のカートシス(尖度)等を記憶する。図4に示すように、記憶部220は、算出結果記憶部221を有する。記憶部220は、後述する図13に示すRAM(Random Access Memory)1200、補助記憶装置1400(HDD(Hard Disk Drive)またはSSD(Solid State Drive)等)、または記録媒体1900(DVD−RW(Digital Versatile Disc ReWritable)等)のうち少なくともいずれかによって実現される。
算出結果記憶部221は、後述する算出部235により算出された頻度分布のカートシス(尖度)等を記憶する。
制御部230は、音声抽出装置20全体の動作の制御を司る機能部である。図4に示すように、制御部230は、取得部231と、形成部232と、強調部233と、生成部234と、算出部235と、選択部236と、出力部237と、を有する。制御部230は、後述する図13に示すCPU(Central Processing Unit)1100が、ROM(Read Only Memory)1300および補助記憶装置1400等に記憶されているプログラムを、RAM1200を作業領域として実行することにより実現される。
取得部231は、マイクロホンアレイ装置10の各マイクロホン(各チャネル)で受音された音声を観測信号として、通信部210を介して取得する機能部である。取得部231は、取得した各マイクロホンの観測信号を、強調部233へ送る。
形成部232は、マイクロホンアレイ装置10の各マイクロホンに正対する方向から来る音声が強調されるように指向性を形成する機能部である。形成部232は、音声抽出装置20による抽出処理の最初の処理として、予め各マイクロホンに対応する指向性を形成する。形成部232の機能は、上述の図1に示した指向性形成・強調機能61に含まれる。
強調部233は、形成部232により形成された指向性に従って、各チャネルの観測信号を強調して強調信号を生成する機能部である。具体的には、強調部233は、特定のマイクロホン(チャネル)に正対する音声を強調する場合、形成部232により決定されたパラメータを用いて、各チャネルで受音された音声の観測信号に対して重みづけおよび加算を行うことによって、当該特定のマイクロホンに正対する音声を強調する。以下、各チャネルで受音された音声の観測信号、および形成部232により決定された特定のチャネルの指向性に対応するパラメータを用いて、当該特定のチャネルのマイクロホンに正対する音声を強調することを、単に、当該特定のチャネルの観測信号を強調するという場合がある。そして、強調部233は、生成した各チャネルの強調信号を、生成部234へ送る。強調部233の機能は、上述の図1に示した指向性形成・強調機能61に含まれる。
生成部234は、強調部233により強調された各チャネルの強調信号に基づいて、当該強調信号の振幅の頻度分布をチャネルごとに生成する機能部である。生成部234は、チャネルごとに生成した強調信号の振幅の頻度分布の情報を、記憶部220に記憶させる。生成部234の機能は、上述の図1に示したチャネル選択機能62に含まれる。
算出部235は、生成部234により生成された各チャネルの強調信号の振幅の頻度分布についてのカートシス(尖度)を算出する機能部である。ここで、カートシス(尖度)とは、振幅の頻度分布(例えば、図7に示す頻度分布)のピーク部分およびその近傍部分の分布形状の鋭さを示す値である。
選択部236は、算出部235により算出された各チャネルのカートシスに基づいて、認識装置30に観測信号を出力するチャネルを選択する機能部である。具体的には、選択部236は、各チャネルのカートシスのうち、最大のカートシスに対応するチャネルを選択する。選択部236は、図5に示すように、マイクロホンアレイ装置10のマイクロホンのマイクロホンIDに関連付けて、選択フラグを算出結果記憶部221に記憶させる。選択部236の機能は、上述の図1に示したチャネル選択機能62に含まれる。
出力部237は、マイクロホンアレイ装置10の各マイクロホンで受音された音声の観測信号のうち、選択部236により選択されたチャネルに対応する観測信号を抽出して、通信部240を介して、認識装置30へ出力する機能部である。出力部237の機能は、上述の図1に示したチャネル選択機能62に含まれる。
通信部240は、認識装置30と情報の通信を行う機能部である。具体的には、通信部240は、例えば、出力部237による機能により、選択部236により選択されたチャネルに対応する観測信号を、ネットワークNを介して、認識装置30へ送信する。通信部240は、後述する図13に示すネットワークI/F1500(例えば、NIC(Netowork Interface Card)等)によって実現される。
図9は、実施形態に係る認識装置の構成例を示す図である。図9を参照しながら、本実施形態に係る認識装置30の構成について説明する。
通信部310は、本実施形態に係る音声抽出装置20と情報の通信を行う機能部である。具体的には、通信部310は、例えば、マイクロホンアレイ装置10により受音された音声の観測信号に対して、音声抽出装置20により抽出処理が実行されて出力された観測信号を、ネットワークNを介して受信する。通信部310は、後述する図13に示すネットワークI/F1500(例えば、NIC(Netowork Interface Card)等)によって実現される。
記憶部320は、認識装置30の処理の用に供する様々な情報を記憶する機能部である。記憶部320は、例えば、後述する制御部330の取得部331により取得された観測信号のデータ、および、音声認識部332による音声認識処理により生成されたテキストのデータ等を記憶する。記憶部320は、後述する図13に示すRAM1200、補助記憶装置1400(HDDまたはSSD等)、または記録媒体1900(DVD−RW等)のうち少なくともいずれかによって実現される。
制御部330は、認識装置30全体の動作の制御を司る機能部である。図9に示すように、制御部330は、取得部331と、音声認識部332と、出力部333と、を有する。制御部330は、後述する図13に示すCPU1100が、ROM1300および補助記憶装置1400等に記憶されているプログラムを、RAM1200を作業領域として実行することにより実現される。
取得部331は、マイクロホンアレイ装置10により受音された音声の観測信号に対して、音声抽出装置20により抽出処理が実行されて出力された観測信号を、通信部310を介して取得する機能部である。取得部331は、取得した強調信号を、音声認識部332へ送る。
音声認識部332は、取得部331により取得された観測信号に対して音声認識処理を実行し、テキストに変換する機能部である。ここで、音声認識処理としては、ディープニューラルネットワークを用いた認識アルゴリズム等の公知のアルゴリズムにより実行されるものとすればよい。音声認識部332は、観測信号から変換したテキストを、出力部333へ送る。
出力部333は、音声認識部332により観測信号から変換されたテキストを、通信部310を介して、当該テキストを利用する外部装置に出力する機能部である。なお、音声認識部332により観測信号から変換されたテキストは、必ずしも外部へ出力される必要はなく、認識装置30内で実行されているアプリケーションに対して出力するものとしてもよい。
図10は、実施形態に係る音声認識システムの処理の一例を示すフローチャートである。図10を参照しながら、本実施形態に係る音声認識システム1の処理の流れについて説明する。
音声抽出装置20の形成部232は、マイクロホンアレイ装置10の各マイクロホンに正対する方向から来る音声が強調されるように、予め指向性を形成する。そして、ステップS102へ移行する。
マイクロホンアレイ装置10が、各マイクロホンにより話者の音声を受音した場合(ステップS102:Yes)、ステップS103へ移行し、音声を受音していない場合(ステップS102:No)、処理を終了する。
マイクロホンアレイ装置10は、各マイクロホン(各チャネル)で受音された音声を観測信号として、音声抽出装置20へ送信する。そして、ステップS104へ移行する。
音声抽出装置20の強調部233は、形成部232により形成された指向性に従って、取得部231により取得された各チャネルの観測信号を強調して強調信号を生成する。そして、ステップS105へ移行する。
音声抽出装置20の生成部234は、強調部233により強調された各チャネルの強調信号に基づいて、当該強調信号の振幅の頻度分布をチャネルごとに生成する。そして、ステップS106へ移行する。
音声抽出装置20の算出部235は、生成部234により生成された各チャネルの強調信号の振幅の頻度分布についてのカートシス(尖度)を算出する。このとき、算出部235は、算出した各チャネルに対応するカートシスを、算出結果記憶部221に記憶させる。そして、ステップS107へ移行する。
音声抽出装置20の選択部236は、算出部235により算出された各チャネルのカートシスに基づいて、認識装置30に観測信号を出力するチャネルを選択する。具体的には、選択部236は、各チャネルのカートシスのうち、最大のカートシスに対応するチャネルを選択する。そして、音声抽出装置20の出力部237は、選択部236により選択されたチャネルに対応する観測信号を、通信部240を介して、認識装置30へ出力する。そして、ステップS108へ移行する。
認識装置30の取得部331は、音声抽出装置20により抽出処理が実行されて出力された観測信号を、通信部310を介して取得する。認識装置30の音声認識部332は、取得部331により取得された観測信号に対して音声認識処理を実行し、テキストに変換する。認識装置30の出力部333は、音声認識部332により観測信号から変換されたテキストを、通信部310を介して、当該テキストを利用する外部装置に出力する。そして、処理を終了する。
上述した音声抽出装置20は、上述の実施形態以外にも種々の異なる形態にて実施されてよい。以下では、音声抽出装置の他の実施形態について説明する。
図11は、変形例に係る抽出処理の一例を示す図である。上述の実施形態では、選択されたチャネルに対応する観測信号を認識装置30に対して出力する例を示した。これに対して、図11を参照しながら、選択されたチャネルに対応する強調信号を認識装置30に対して出力する処理について説明する。
上述の実施形態では、算出部235は、生成部234により生成された各チャネルの強調信号の振幅の頻度分布についてのカートシス(尖度)を算出し、選択部236は、算出部235により算出された各チャネルのカートシスのうち、最大のカートシスに対応するチャネルを選択するものとした。しかし、これに限定されるものではなく、例えば、以下のような方法によって、認識装置30に観測信号(または強調信号)を出力するチャネルを選択するものとしてもよい。
図13は、音声抽出装置の機能を実現するコンピュータのハードウェア構成の一例を示す図である。上述してきた実施形態に係る音声抽出装置20および認識装置30は、例えば、図13に示すような構成のコンピュータ1000によって実現される。以下、音声抽出装置20を例に挙げて説明する。
また、上述の実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述の文書中および図面中で示した処理手順、具体的名称、各種のデータ、ならびにパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
上述してきたように、実施形態に係る音声抽出装置20(20a)は、形成部232と、取得部231と、強調部233と、生成部234と、選択部236と、を有する。形成部232は、複数のマイクロホンを有することにより複数のチャネルが形成されたマイクロホンアレイ装置10において、各マイクロホンについてビームフォーミング処理により、予め指向性を形成する。取得部231は、各チャネルで受音された音声の信号である観測信号を取得する。強調部233は、形成部232により形成された各マイクロホンについての指向性に従って、各チャネルの観測信号を強調して強調信号を生成する。生成部234は、強調部233により生成された強調信号の振幅の頻度分布をチャネルごとに生成する。選択部236は、生成部234により生成された前記各チャネルに対応する頻度分布に基づいて、各チャネルのうち、音声認識に用いる音声信号に対応するチャネルを選択する。
・マイクロホンアレイ形状:円状、半径3.7cm
・音声認識モデルの学習に使用した音声:雑音や残響を付加した音声
・評価データ:実環境で収録したコマンド発話 9900発話
・4部屋、マイクロホンおよび話者の位置の組み合わせ6組
上述の変形例に係る音声抽出装置20aを用いた音声認識システムであり、ビームフォーミング処理としてDS法を用いた。
<2>channel_select(obs)
上述の実施形態に係る音声抽出装置20を用いた音声認識システムであり、ビームフォーミング処理としてDS法を用いた。
<3>Static
マイクロホンアレイ装置におけるマイクロホンのうち話者の正面に位置する1のマイクロホンのみを用いて受音するものとしたシステムである。
<4>BeamformIt
図2に示す従来の音声認識システムであり、音源定位にGCC−PHATを用い、ビームフォーミング処理にDS法を用いた。また、音源定位を行う際には、GCC−PHATの結果に対してさらにViterbiアルゴリズムを適用している。
<5>BeamformIt(channel_select)
BeamformItにおいて信号として、選択されたチャネルにおける観測信号を用いた音声認識システムである。
・計測方法:Linux(登録商標)のtimeコマンド、user時間で計測
・4980発話を処理したときの平均および標準偏差を計算
10 マイクロホンアレイ装置
20 音声抽出装置
30 認識装置
210 通信部
220 記憶部
221 算出結果記憶部
230 制御部
231 取得部
232 形成部
233 強調部
234 生成部
235 算出部
236 選択部
237 出力部
240 通信部
Claims (9)
- 複数のマイクロホンを有することにより複数のチャネルが形成されたマイクロホンアレイにおいて、前記各マイクロホンについてビームフォーミング処理により、予め指向性を形成する形成部と、
前記各チャネルで受音された音声の信号である観測信号を取得する取得部と、
前記形成部により形成された前記各マイクロホンについての前記指向性に従って、前記各チャネルの前記観測信号を強調して強調信号を生成する強調部と、
前記強調部により生成された前記強調信号の振幅の頻度分布を前記チャネルごとに生成する生成部と、
前記生成部により生成された前記各チャネルに対応する前記頻度分布のカートシス、頻値、最頻値、分散、ピーク部分と裾の部分との高さ、又はピーク部分からの所定位置におけるグラフの幅に基づいて、前記各チャネルのうち、音声認識に用いる音声信号に対応するチャネルを選択する選択部と、
を備えたことを特徴とする音声抽出装置。 - 前記マイクロホンアレイの前記各チャネルのうち、前記選択部により選択されたチャネルに対応する音声信号を、音声認識を行う認識装置に出力する出力部を、さらに備えたことを特徴とする請求項1に記載の音声抽出装置。
- 前記選択部は、前記生成部により生成された前記各チャネルに対応する前記頻度分布に基づいて、前記各チャネルのうち、前記音声認識に用いる音声信号としての前記観測信号に対応するチャネルを選択し、
前記出力部は、前記選択部により選択されたチャネルに対応する前記観測信号を、前記認識装置に出力することを特徴とする請求項2に記載の音声抽出装置。 - 前記選択部は、前記生成部により生成された前記各チャネルに対応する前記頻度分布に基づいて、前記各チャネルのうち、前記音声認識に用いる音声信号としての前記強調信号に対応するチャネルを選択し、
前記出力部は、前記選択部により選択されたチャネルに対応する前記強調信号を、前記認識装置に出力することを特徴とする請求項2に記載の音声抽出装置。 - 前記生成部により生成された前記各チャネルに対応する前記頻度分布のカートシス、頻値、最頻値、分散、ピーク部分と裾の部分との高さ、又はピーク部分からの所定位置におけるグラフの幅に対する指標値を算出する算出部を、さらに備え、
前記選択部は、前記算出部により算出された前記指標値に基づいて、前記各チャネルのうち、音声認識に用いる音声信号に対応するチャネルを選択することを特徴とする請求項1〜4のいずれか一項に記載の音声抽出装置。 - 前記選択部は、前記算出部により算出された前記各チャネルに対応する前記カートシス、頻値、最頻値、分散、ピーク部分と裾の部分との高さ、又はピーク部分からの所定位置におけるグラフの幅のうち、最大のカートシス、頻値、最頻値、分散、ピーク部分と裾の部分との高さ、又はピーク部分からの所定位置におけるグラフの幅に対応するチャネルを選択することを特徴とする請求項5に記載の音声抽出装置。
- 前記算出部は、前記各チャネルに対応する前記頻度分布のカートシス、頻値、最頻値、分散、ピーク部分と裾の部分との高さ、又はピーク部分からの所定位置におけるグラフの幅と、予め定められた音声信号の振幅の頻度分布のモデルのカートシス、頻値、最頻値、分散、ピーク部分と裾の部分との高さ、又はピーク部分からの所定位置におけるグラフの幅との類似度を前記各チャネルについて算出し、
前記選択部は、前記算出部により算出された前記各チャネルに対応する前記類似度のうち、最大の類似度に対応するチャネルを選択することを特徴とする請求項5に記載の音声抽出装置。 - コンピュータが実行する算出方法であって、
複数のマイクロホンを有することにより複数のチャネルが形成されたマイクロホンアレイにおいて、前記各マイクロホンについてビームフォーミング処理により、予め指向性を形成する形成工程と、
前記各チャネルで受音された音声の信号である観測信号を取得する取得工程と、
形成した前記各マイクロホンについての前記指向性に従って、前記各チャネルの前記観測信号を強調して強調信号を生成する強調工程と、
生成した前記強調信号の振幅の頻度分布を前記チャネルごとに生成する生成工程と、
生成した前記各チャネルに対応する前記頻度分布のカートシス、頻値、最頻値、分散、ピーク部分と裾の部分との高さ、又はピーク部分からの所定位置におけるグラフの幅に基づいて、前記各チャネルのうち、音声認識に用いる音声信号に対応するチャネルを選択する選択工程と、
を含んだことを特徴とする音声抽出方法。 - 複数のマイクロホンを有することにより複数のチャネルが形成されたマイクロホンアレイにおいて、前記各マイクロホンについてビームフォーミング処理により、予め指向性を形成する形成手順と、
前記各チャネルで受音された音声の信号である観測信号を取得する取得手順と、
形成した前記各マイクロホンについての前記指向性に従って、前記各チャネルの前記観測信号を強調して強調信号を生成する強調手順と、
生成した前記強調信号の振幅の頻度分布を前記チャネルごとに生成する生成手順と、
生成した前記各チャネルに対応する前記頻度分布のカートシス、頻値、最頻値、分散、ピーク部分と裾の部分との高さ、又はピーク部分からの所定位置におけるグラフの幅に基づいて、前記各チャネルのうち、音声認識に用いる音声信号に対応するチャネルを選択する選択手順と、
をコンピュータに実行させることを特徴とする音声抽出プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017171820A JP6345327B1 (ja) | 2017-09-07 | 2017-09-07 | 音声抽出装置、音声抽出方法および音声抽出プログラム |
US16/122,338 US11120819B2 (en) | 2017-09-07 | 2018-09-05 | Voice extraction device, voice extraction method, and non-transitory computer readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017171820A JP6345327B1 (ja) | 2017-09-07 | 2017-09-07 | 音声抽出装置、音声抽出方法および音声抽出プログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018023284A Division JP6570673B2 (ja) | 2018-02-13 | 2018-02-13 | 音声抽出装置、音声抽出方法および音声抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6345327B1 true JP6345327B1 (ja) | 2018-06-20 |
JP2019045818A JP2019045818A (ja) | 2019-03-22 |
Family
ID=62635788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017171820A Active JP6345327B1 (ja) | 2017-09-07 | 2017-09-07 | 音声抽出装置、音声抽出方法および音声抽出プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11120819B2 (ja) |
JP (1) | JP6345327B1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3644588B1 (en) * | 2018-10-24 | 2024-05-01 | Yamaha Corporation | Audio signal processing apparatus, mixer and audio signal processing method |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107290711A (zh) * | 2016-03-30 | 2017-10-24 | 芋头科技(杭州)有限公司 | 一种语音寻向系统及方法 |
JP6345327B1 (ja) * | 2017-09-07 | 2018-06-20 | ヤフー株式会社 | 音声抽出装置、音声抽出方法および音声抽出プログラム |
US20190324117A1 (en) * | 2018-04-24 | 2019-10-24 | Mediatek Inc. | Content aware audio source localization |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008020872A (ja) * | 2006-06-14 | 2008-01-31 | Denso Corp | 車両用音声認識装置及び車両用ナビゲーション装置 |
JP2009217063A (ja) * | 2008-03-11 | 2009-09-24 | Toyota Motor Corp | 信号分離装置及び信号分離方法 |
JP2014013494A (ja) * | 2012-07-04 | 2014-01-23 | Nikon Corp | 表示制御装置、表示システム、表示装置、端末装置、表示制御方法及びプログラム |
JP2017059951A (ja) * | 2015-09-15 | 2017-03-23 | シャープ株式会社 | マイクシステム、音声認識装置、音声処理方法、および音声処理プログラム |
Family Cites Families (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3970788A (en) * | 1971-10-06 | 1976-07-20 | Cooper Duane H | Monaural and stereo compatible multidirectional sound matrixing |
US3856992A (en) * | 1971-10-06 | 1974-12-24 | D Cooper | Multidirectional sound reproduction |
US4236039A (en) * | 1976-07-19 | 1980-11-25 | National Research Development Corporation | Signal matrixing for directional reproduction of sound |
US4682248A (en) * | 1983-04-19 | 1987-07-21 | Compusonics Video Corporation | Audio and video digital recording and playback system |
US5830064A (en) * | 1996-06-21 | 1998-11-03 | Pear, Inc. | Apparatus and method for distinguishing events which collectively exceed chance expectations and thereby controlling an output |
JP3789685B2 (ja) * | 1999-07-02 | 2006-06-28 | 富士通株式会社 | マイクロホンアレイ装置 |
US7877312B2 (en) * | 2000-06-22 | 2011-01-25 | Wgal, Llp | Apparatus and method for displaying trading trends |
JP2002091469A (ja) | 2000-09-19 | 2002-03-27 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声認識装置 |
US8091100B2 (en) * | 2001-06-18 | 2012-01-03 | The Nielsen Company (Us), Llc | Prompting of audience member identification |
US7359671B2 (en) * | 2001-10-30 | 2008-04-15 | Unwired Technology Llc | Multiple channel wireless communication system |
US7240001B2 (en) * | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
KR101086398B1 (ko) * | 2003-12-24 | 2011-11-25 | 삼성전자주식회사 | 다수의 마이크로폰을 이용한 지향성 제어 가능 스피커시스템 및 그 방법 |
JP2006337851A (ja) * | 2005-06-03 | 2006-12-14 | Sony Corp | 音声信号分離装置及び方法 |
US8874477B2 (en) * | 2005-10-04 | 2014-10-28 | Steven Mark Hoffberg | Multifactorial optimization system and method |
US7942818B2 (en) * | 2006-02-01 | 2011-05-17 | University Of Florida Research Foundation, Inc. | Obstetric analgesia system |
WO2008106474A1 (en) * | 2007-02-26 | 2008-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for signal separation |
US8160273B2 (en) * | 2007-02-26 | 2012-04-17 | Erik Visser | Systems, methods, and apparatus for signal separation using data driven techniques |
US8005237B2 (en) * | 2007-05-17 | 2011-08-23 | Microsoft Corp. | Sensor array beamformer post-processor |
US8175291B2 (en) * | 2007-12-19 | 2012-05-08 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
US8831936B2 (en) * | 2008-05-29 | 2014-09-09 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement |
US8538749B2 (en) * | 2008-07-18 | 2013-09-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced intelligibility |
US9202455B2 (en) * | 2008-11-24 | 2015-12-01 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced active noise cancellation |
JP5207479B2 (ja) * | 2009-05-19 | 2013-06-12 | 国立大学法人 奈良先端科学技術大学院大学 | 雑音抑圧装置およびプログラム |
JP5452158B2 (ja) * | 2009-10-07 | 2014-03-26 | 株式会社日立製作所 | 音響監視システム、及び音声集音システム |
JP2011120028A (ja) * | 2009-12-03 | 2011-06-16 | Canon Inc | 音声再生装置、及びその制御方法 |
JP5994639B2 (ja) * | 2011-02-01 | 2016-09-21 | 日本電気株式会社 | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム |
US8929564B2 (en) * | 2011-03-03 | 2015-01-06 | Microsoft Corporation | Noise adaptive beamforming for microphone arrays |
JP2012234150A (ja) * | 2011-04-18 | 2012-11-29 | Sony Corp | 音信号処理装置、および音信号処理方法、並びにプログラム |
JP2014017645A (ja) * | 2012-07-09 | 2014-01-30 | Sony Corp | 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体 |
US9591508B2 (en) * | 2012-12-20 | 2017-03-07 | Google Technology Holdings LLC | Methods and apparatus for transmitting data between different peer-to-peer communication groups |
US9979531B2 (en) * | 2013-01-03 | 2018-05-22 | Google Technology Holdings LLC | Method and apparatus for tuning a communication device for multi band operation |
JP6169849B2 (ja) * | 2013-01-15 | 2017-07-26 | 本田技研工業株式会社 | 音響処理装置 |
JP2014145838A (ja) * | 2013-01-28 | 2014-08-14 | Honda Motor Co Ltd | 音響処理装置及び音響処理方法 |
US10229697B2 (en) * | 2013-03-12 | 2019-03-12 | Google Technology Holdings LLC | Apparatus and method for beamforming to obtain voice and noise signals |
JP5958833B2 (ja) * | 2013-06-24 | 2016-08-02 | パナソニックIpマネジメント株式会社 | 指向性制御システム |
CN104424953B (zh) * | 2013-09-11 | 2019-11-01 | 华为技术有限公司 | 语音信号处理方法与装置 |
EP3053356B8 (en) * | 2013-10-30 | 2020-06-17 | Cerence Operating Company | Methods and apparatus for selective microphone signal combining |
US9380384B2 (en) * | 2013-11-26 | 2016-06-28 | Qualcomm Incorporated | Systems and methods for providing a wideband frequency response |
US9491007B2 (en) * | 2014-04-28 | 2016-11-08 | Google Technology Holdings LLC | Apparatus and method for antenna matching |
US9508335B2 (en) * | 2014-12-05 | 2016-11-29 | Stages Pcs, Llc | Active noise control and customized audio system |
US10206035B2 (en) * | 2015-08-31 | 2019-02-12 | University Of Maryland | Simultaneous solution for sparsity and filter responses for a microphone network |
US10482899B2 (en) * | 2016-08-01 | 2019-11-19 | Apple Inc. | Coordination of beamformers for noise estimation and noise suppression |
US10264999B2 (en) * | 2016-09-07 | 2019-04-23 | Massachusetts Institute Of Technology | High fidelity systems, apparatus, and methods for collecting noise exposure data |
US20180343501A1 (en) * | 2017-05-29 | 2018-11-29 | EVA Automation, Inc. | Automated Identification of Viewed Content |
JP6345327B1 (ja) * | 2017-09-07 | 2018-06-20 | ヤフー株式会社 | 音声抽出装置、音声抽出方法および音声抽出プログラム |
GB2585086A (en) * | 2019-06-28 | 2020-12-30 | Nokia Technologies Oy | Pre-processing for automatic speech recognition |
-
2017
- 2017-09-07 JP JP2017171820A patent/JP6345327B1/ja active Active
-
2018
- 2018-09-05 US US16/122,338 patent/US11120819B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008020872A (ja) * | 2006-06-14 | 2008-01-31 | Denso Corp | 車両用音声認識装置及び車両用ナビゲーション装置 |
JP2009217063A (ja) * | 2008-03-11 | 2009-09-24 | Toyota Motor Corp | 信号分離装置及び信号分離方法 |
JP2014013494A (ja) * | 2012-07-04 | 2014-01-23 | Nikon Corp | 表示制御装置、表示システム、表示装置、端末装置、表示制御方法及びプログラム |
JP2017059951A (ja) * | 2015-09-15 | 2017-03-23 | シャープ株式会社 | マイクシステム、音声認識装置、音声処理方法、および音声処理プログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3644588B1 (en) * | 2018-10-24 | 2024-05-01 | Yamaha Corporation | Audio signal processing apparatus, mixer and audio signal processing method |
Also Published As
Publication number | Publication date |
---|---|
US11120819B2 (en) | 2021-09-14 |
JP2019045818A (ja) | 2019-03-22 |
US20190074030A1 (en) | 2019-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6345327B1 (ja) | 音声抽出装置、音声抽出方法および音声抽出プログラム | |
CN105981404B (zh) | 使用麦克风阵列的混响声的提取 | |
JP3949150B2 (ja) | 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 | |
US9601119B2 (en) | Systems and methods for segmenting and/or classifying an audio signal from transformed audio information | |
JP4912778B2 (ja) | 信号源の軌跡をモデル化する方法及びシステム | |
US20220141612A1 (en) | Spatial Audio Processing | |
JP2019503107A (ja) | 音響信号を向上させるための音響信号処理装置および方法 | |
JPWO2006085537A1 (ja) | 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体 | |
US9966081B2 (en) | Method and apparatus for synthesizing separated sound source | |
JP2008158035A (ja) | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 | |
JP6158006B2 (ja) | 音声処理装置、方法、及びプログラム | |
JP2018040848A (ja) | 音響処理装置および音響処理方法 | |
JP6570673B2 (ja) | 音声抽出装置、音声抽出方法および音声抽出プログラム | |
JP4769238B2 (ja) | 信号分離装置、信号分離方法、プログラム及び記録媒体 | |
JP6538624B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP2007047427A (ja) | 音声処理装置 | |
JP5974901B2 (ja) | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム | |
JP6606784B2 (ja) | 音声処理装置および音声処理方法 | |
JP5726790B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
WO2012105386A1 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
JP5815489B2 (ja) | 音源別音声強調装置、方法、プログラム | |
JP2019032446A (ja) | 音響シミュレーション方法、装置、及びプログラム | |
JP6059112B2 (ja) | 音源分離装置とその方法とプログラム | |
JP2007248975A (ja) | パーミュテーションフリー・ブラインド音源分離方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180424 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180522 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6345327 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |