JP2020003724A - 集音装置、集音装置の制御方法 - Google Patents

集音装置、集音装置の制御方法 Download PDF

Info

Publication number
JP2020003724A
JP2020003724A JP2018125290A JP2018125290A JP2020003724A JP 2020003724 A JP2020003724 A JP 2020003724A JP 2018125290 A JP2018125290 A JP 2018125290A JP 2018125290 A JP2018125290 A JP 2018125290A JP 2020003724 A JP2020003724 A JP 2020003724A
Authority
JP
Japan
Prior art keywords
sound
noise
captured image
sound collection
human body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018125290A
Other languages
English (en)
Other versions
JP7079160B2 (ja
JP2020003724A5 (ja
Inventor
智彦 黒木
Tomohiko Kuroki
智彦 黒木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2018125290A priority Critical patent/JP7079160B2/ja
Priority to US16/447,104 priority patent/US10812898B2/en
Publication of JP2020003724A publication Critical patent/JP2020003724A/ja
Publication of JP2020003724A5 publication Critical patent/JP2020003724A5/ja
Application granted granted Critical
Publication of JP7079160B2 publication Critical patent/JP7079160B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/22Source localisation; Inverse modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Abstract

【課題】 集音した音から目的音をより高精度に取得するための技術を提供すること。【解決手段】 周囲を撮像した撮像画像中のオブジェクトの領域と、集音対象の位置として入力された集音対象位置と、に基づいて集音方向を決定する。撮像画像におけるオブジェクトの配置に基づいて、ノイズ方向を決定する。周囲から集音した音を、集音方向の音と、ノイズ方向の音と、に分離し、ノイズ方向の音を用いて集音方向の音に対するノイズキャンセルを行う。【選択図】 図1

Description

本発明は、集音技術に関するものである。
カーナビゲーションシステムやスマートスピーカなどにおいて音声認識機能は必須の機能となっている。音声認識における認識率の向上のため、複数のマイクを搭載したマイクアレイを用いて指定方向の音源を分離し、目的の音を取得するビームフォーミング技術がある。しかし、ビームフォーミング技術は、全体的に環境音が騒がしい環境下では目的音を精度よく抽出することが出来ないといった課題がある。
従来技術では、環境音をノイズ音として取得し、スペクトラルサブトラクション法などを用いて、分離した目的音からノイズ音をキャンセルすることで、目的音を精度よく抽出している。特許文献1には、目的方向とは逆方向の音をビームフォーミングで取得し、目的方向の音からキャンセルすることで目的音を精度よく抽出する方法が開示されている。
特開2016−46769号公報
しかしながら、上述の従来技術では、キャンセル対象のノイズ音に目的音に近しい音が入った場合、目的音までキャンセルされてしまうため、抽出精度がかえって低くなってしまう場合がある。たとえば、指定方向の人の会話音声を取得する際に、逆方向にも会話を行っている人がいると、キャンセルするノイズ音に人の声が入ってしまうため、指定方向の人の会話音声もキャンセルされてしまい、抽出精度が下がってしまう。また、ノイズ源が逆方向にいない場合は、キャンセル処理の効果を十分に発揮できないといった課題がある。本発明では、集音した音から目的音をより高精度に取得するための技術を提供する。
本発明の一様態は、周囲を撮像した撮像画像中のオブジェクトの領域と、集音対象の位置として入力された集音対象位置と、に基づいて集音方向を決定する第1の決定手段と、前記撮像画像におけるオブジェクトの配置に基づいて、ノイズ方向を決定する第2の決定手段と、周囲から集音した音を、前記集音方向の音と、前記ノイズ方向の音と、に分離し、前記ノイズ方向の音を用いて前記集音方向の音に対するノイズキャンセルを行うノイズキャンセル手段とを備えることを特徴とする。
本発明の構成によれば、集音した音から目的音をより高精度に取得することができる。
音声認識システムの機能構成例を示すブロック図。 音声認識システムA1000の動作のフローチャート。 集音方向及びノイズ方向の決定方法の一例を示す図。 音声認識システムの機能構成例を示すブロック図。 音声認識システムB1000の動作のフローチャート。 コンピュータ装置のハードウェア構成例を示すブロック図。
以下、添付図面を参照し、本発明の実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載した構成の具体的な実施形態の1つである。
[第1の実施形態]
先ず、本実施形態に係る音声認識システムの機能構成例について、図1のブロック図を用いて説明する。本実施形態に係る音声認識システムA1000は、人が発話した音声から発話内容を認識し、該認識の結果を表示するシステムである。
図1に示す如く、本実施形態に係る音声認識システムA1000は、情報入力装置A1001、画像入力装置A1002、アレイマイクA1003、集音装置A1004、音声認識装置A1005、モニタ装置A1006、を有する。集音装置A1004と音声認識装置A1005との間はオーディオインターフェースを介して接続されており、集音装置A1004とモニタ装置A1006との間はビデオインターフェースを介して接続されている。しかし、装置間の接続形態は特定の接続形態に限らない。
先ず、情報入力装置A1001について説明する。情報入力装置A1001は、ユーザが操作することで集音対象(収音対象)に係る情報(集音対象情報)を入力可能な装置であり、マウス、キーボード、タッチパネル画面、スマートフォン、タブレット端末装置等の機器が適用可能である。本実施形態では、集音対象情報には、集音対象の位置(集音対象位置)が含まれている。情報入力装置A1001は、ユーザにより入力された集音対象情報を集音装置A1004に対して出力する。
次に、画像入力装置A1002について説明する。画像入力装置A1002は、自身の周囲の画像を撮像可能な装置である。画像入力装置A1002は、周囲のパノラマ画像を撮像する撮像装置であっても良いし、それぞれ異なる方向を撮像することで周囲の撮像画像を得る複数台の撮像装置であっても良い。画像入力装置A1002は、自身の周囲を撮像した撮像画像を集音装置A1004に対して出力する。
次に、アレイマイクA1003について説明する。アレイマイクA1003は、自身の周囲の音を複数のマイクで集音して複数チャネルの音声情報を同時生成する装置であり、該複数チャネルの音声情報を集音装置A1004に対して出力する。
次に、集音装置A1004について説明する。集音装置A1004は、PC(パーソナルコンピュータ)、スマートフォン、タブレット端末装置などのコンピュータ装置である。制御部A1099は、集音装置A1004の動作制御を行う。
情報入力部A1007は、情報入力装置A1001から出力された集音対象情報を取得し、該取得した集音対象情報を後段の判断部A1010に対して出力する。画像入力部A1008は、画像入力装置A1002から出力された撮像画像を取得し、該取得した撮像画像を後段の人体検出部A1009に対して出力する。音声入力部A1011は、アレイマイクA1003から出力された複数チャネルの音声情報を取得し、該取得した複数チャネルの音声情報を後段の音源分離部A1012に対して出力する。
人体検出部A1009は、画像入力部A1008から出力された撮像画像から人体を検出する。画像から人体を検出するための技術にはテンプレートマッチング法等の様々な技術があり、本実施形態では如何なる技術を用いて画像からの人体検出を行っても良い。そして人体検出部A1009は、画像入力部A1008から出力された撮像画像はモニタ装置A1006に対して出力し、該撮像画像から検出した人体の検出結果は後段の判断部A1010に対して出力する。本実施形態では、人体の検出結果には、撮像画像から検出した該人体の画像領域(人体領域)を規定する人体領域情報(例えば該人体領域の左上隅及び右上隅の画像座標)が含まれている。
判断部A1010は、情報入力部A1007からの集音対象情報に含まれている集音対象の位置と、人体検出部A1009からの人体の検出結果に含まれている人体領域情報が規定する人体領域と、を取得して、集音方向とノイズ方向とを決定する。判断部A1010は、アレイマイクA1003から「集音対象情報に含まれている集音対象の位置」への方向に人体がある場合には、該人体への方向を集音方向とする。また判断部A1010は、アレイマイクA1003から人体のない方向をノイズ方向とする。
判断部A1010による集音方向及びノイズ方向の決定方法について、図3を例に取り、より詳細に説明する。人体B002,B003,B004は撮像画像から検出された人体である。
先ず、集音方向の決定方法について説明する。判断部A1010は、アレイマイクA1003から「集音対象情報に含まれている集音対象の位置」への方向B005を求め、該方向B005に人体が存在するか否かを判断し、存在する場合には、該人体への方向を集音方向とする。図3では、アレイマイクA1003から方向B005に人体B002が存在するので、アレイマイクA1003から該人体B002への方向を集音方向とする。
方向B005に人体が存在するか否かは、例えば、撮像画像において方向B005に対応する画像座標を求め、該撮像画像における人体領域のうち該画像座標を含む人体領域が存在するか否かを判断する。アレイマイクA1003からの方向と撮像画像において該方向に対応する画像座標との間の対応関係は既知であるものとする。図3の場合は、撮像画像から人体B002,B003,B004が検出されている。然るにこの場合は、人体B002,B003,B004のそれぞれの人体領域のうち、撮像画像において方向B005に対応する画像座標を内部に含む人体領域が存在するか否かを判断することになる。この判断の結果、方向B005に対応する画像座標を含む人体領域が存在する場合には「方向B005に人体が存在する」と判断する。一方、方向B005に対応する画像座標を含む人体領域が存在しない場合には「方向B005には人体は存在しない」と判断する。
次に、ノイズ方向の決定方法について説明する。判断部A1010は、人体の配置間隔を求める。図3の例では、人体B002と人体B003との間の配置間隔B007は120°、人体B003と人体B004との間の配置間隔B008は60°、人体B004と人体B002との間の配置間隔B009は180°となっている。例えば、撮像画像がパノラマ画像(撮像画像の水平方向が方位方向に対応している)の場合、パノラマ画像の水平方向の画素数をW、パノラマ画像における水平方向の人体A(人体領域)と人体B(人体領域)との間の距離(画素数)をwとする。このとき、人体Aと人体Bとの間の配置間隔は180×w/W(°)として求めることができる。なお、配置間隔は角度で表すことに限らない。そして判断部A1010は、配置間隔B007,B008,B009のうち最も広い配置間隔を特定し、該特定した配置間隔の中央方向をノイズ方向とする。図3の場合、配置間隔B007=120°,配置間隔B008=60°,配置間隔B009=180°であるから、最も広い配置間隔B009の中央方向B006をノイズ方向とする。そして判断部A1010は、上記のようにして決定した集音方向と、ノイズ方向と、を音源分離部A1012に対して出力する。
音源分離部A1012は、音声入力部A1011から出力された複数チャネルの音声情報から集音方向の音源とノイズ方向の音源とを分離するビームフォーミング処理を行うことで、集音方向の音である目的音とノイズ方向の音であるノイズ音とを得る。そして音源分離部A1012は、目的音とノイズ音とを後段のキャンセル部A1013に対して出力する。
キャンセル部A1013は、目的音からスペクトラルサブトラクション法を用いてノイズ音をキャンセルするべく、目的音に対してスペクトラルサブトラクション法を用いてノイズ音をキャンセルすることでノイズキャンセル処理を実現する。そしてキャンセル部A1013は、ノイズキャンセル処理を行った目的音を音声認識装置A1005に対して出力する。
次に、音声認識装置A1005について説明する。音声認識装置A1005は、キャンセル部A1013から出力された「ノイズキャンセル処理を行った目的音」に基づいて音声認識を行い、該音声認識の結果をモニタ装置A1006に対して出力する。
次に、モニタ装置A1006について説明する。モニタ装置A1006は、液晶画面、タッチパネル画面、プロジェクタ装置などの表示装置であり、人体検出部A1009から出力された撮像画像と、音声認識装置A1005から出力された音声認識の結果と、を表示する。撮像画像及び音声認識の結果の表示形態については特定の表示形態に限らず、撮像画像上に音声認識の結果を重畳させて表示しても良いし、それぞれ別個の表示領域に表示しても良い。
上記の音声認識システムA1000の動作について、図2のフローチャートに従って説明する。なお、図2の各ステップにおける処理の詳細については上記の通りであるため、ここでは簡単に説明する。音声認識システムA1000は、ユーザ操作によって起動されると音声認識処理を開始し、図2のフローチャートに従った処理を行う。
ステップS1では、画像入力部A1008は、画像入力装置A1002から出力された撮像画像を取得する。ステップS2では、人体検出部A1009は、画像入力部A1008から出力された撮像画像から人体を検出する。
ステップS3では、情報入力部A1007は、情報入力装置A1001から集音対象情報を取得したか否かを判断し、取得していない場合には処理はステップS11に進み、取得した場合には、処理はステップS4に進む。
ステップS4では、人体検出部A1009は、撮像画像中に複数の人体が存在したか否か、つまり、ステップS2において撮像画像から複数の人体を検出したか否かを判断する。この判断の結果、撮像画像中に複数の人体が存在した(ステップS2において撮像画像から複数の人体を検出した)場合には、処理はステップS5に進む。一方、撮像画像中に複数の人体が存在しなかった(ステップS2において撮像画像から複数の人体を検出しなかった)場合には、処理はステップS11に進む。
ステップS5では、判断部A1010は、情報入力部A1007が取得した集音対象情報に含まれている集音対象の位置と、人体検出部A1009による人体の検出結果に含まれている人体領域と、に基づいて、集音方向を決定する。ステップS6では、判断部A1010は、人体検出部A1009による人体の検出結果に含まれている人体領域間の配置間隔に基づいて、ノイズ方向を決定する。
ステップS7では、音声入力部A1011は、アレイマイクA1003から出力された複数チャネルの音声情報を取得する。ステップS8では、音源分離部A1012は、複数チャネルの音声情報から集音方向の音源とノイズ方向の音源とを分離するビームフォーミング処理を行うことで、集音方向の音である目的音とノイズ方向の音であるノイズ音とを得る。
ステップS9では、キャンセル部A1013は、目的音に対してスペクトラルサブトラクション法を用いてノイズ音をキャンセルすることで、ノイズキャンセル処理を実現する。ステップS10では、音声認識装置A1005は、ステップS9でノイズキャンセル処理を行った目的音に基づいて音声認識を行う。ステップS11では、モニタ装置A1006は、ステップS1で取得した撮像画像と、ステップS10における音声認識の結果と、を表示する。
ステップS12では、制御部A1099は、音声認識システムA1000の不図示のOn/Offスイッチがユーザにより操作されて音声認識システムA1000の停止操作が行われた等、音声認識システムA1000の停止条件が満たされたか否かを判断する。この判断の結果、停止条件が満たされた場合には、図2のフローチャートに従った処理は終了し、停止条件が満たされていない場合には、処理はステップS1に進む。
このように、本実施形態では、周囲を撮像した撮像画像から人体がない方向を判断し、その方向の音をノイズ源として目的音からキャンセルすることで精度よく目的音を抽出することができる。
<変形例>
第1の実施形態では、撮像画像や音声認識の結果を表示したが、撮像画像や音声認識の結果の出力形態は特定の出力形態に限らない。例えば、撮像画像や音声認識の結果をネットワークを介して外部の装置に対して送信しても良いし、音声認識システムA1000の内部メモリ若しくは外部メモリに撮像画像や音声認識の結果を格納するようにしても良い。
また、図2では、情報入力装置A1001、画像入力装置A1002、アレイマイクA1003、集音装置A1004、音声認識装置A1005、モニタ装置A1006、をそれぞれ別個の装置として説明した。しかし、これらの装置の2つ以上を1つの装置にまとめても良い。また、これらの装置のそれぞれの機能を2つ以上の装置に分散させても良い。
また、音源分離部A1012による集音方向の音とノイズ方向の音とに分離するための技術については、上記のビームフォーミング処理に限らないし、ノイズキャンセル技術についても、スペクトラルサブトラクション法に限らない。
[第2の実施形態]
以下では、第1の実施形態との差分について説明し、以下で特に触れない限りは第1の実施形態と同様であるものとする。本実施形態に係る音声認識システムの機能構成例について、図4のブロック図を用いて説明する。
本実施形態に係る音声認識システムB1000は、上記の集音装置A1004の代わりに集音装置B1004を有している。また、集音装置B1004は、上記の集音装置A1004において制御部A1099、人体検出部A1009、判断部A1010をそれぞれ、制御部B1099、検出部B1009、判断部B1010に置き換えたものである。
検出部B1009は、画像入力部A1008から出力された撮像画像から第1の実施形態と同様に人体を検出する。更に検出部B1009は、画像入力部A1008から出力された撮像画像から、ノイズ源となりうるオブジェクトとして予め指定されているオブジェクト(テレビ、スピーカ、動物、車体、扇風機等)をノイズオブジェクトとして検出する。撮像画像からのノイズオブジェクトの検出方法については人体の検出方法と同様の方法を用いるものとするが、人体とノイズオブジェクトとで検出方法を変えても良い。また、ノイズオブジェクトの種別に応じて異なる検出方法を採用しても良い。
そして検出部B1009は、画像入力部A1008から出力された撮像画像についてはモニタ装置A1006に対して出力し、人体の検出結果及びノイズオブジェクトの検出結果については後段の判断部B1010に対して出力する。本実施形態では、人体の検出結果には、撮像画像から検出した該人体の画像領域(人体領域)を規定する人体領域情報(例えば該人体領域の左上隅及び右上隅の画像座標)が含まれている。また、ノイズオブジェクトの検出結果には、撮像画像から検出した該ノイズオブジェクトの画像領域(ノイズオブジェクト領域)を規定するノイズオブジェクト領域情報(例えば該ノイズオブジェクト領域の左上隅及び右上隅の画像座標)が含まれている。
判断部B1010は、集音方向及びノイズ方向を決定するのであるが、集音方向については第1の実施形態と同様にして決定する。ノイズ方向については以下のようにして決定する。つまり判断部B1010は、撮像画像からノイズオブジェクトが検出されている場合、該撮像画像中における該ノイズオブジェクトのノイズオブジェクト領域の位置に対応する方向をノイズ方向とする。「ノイズオブジェクト領域の位置」は、例えば、ノイズオブジェクト領域の中心位置やノイズオブジェクト領域の四隅の何れかの位置である。一方、判断部B1010は、撮像画像からノイズオブジェクトが検出されなかった場合には、集音方向と逆方向をノイズ方向とする。
本実施形態に係る音声認識システムB1000の動作について、図5のフローチャートに従って説明する。なお、図5において、図2に示した処理ステップと同じ処理ステップには同じステップ番号を付しており、該処理ステップに係る説明は省略する。
ステップS102では、検出部B1009は、ステップS1において取得した撮像画像から人体及びノイズオブジェクトを検出する。ステップS106では、検出部B1009は、撮像画像からノイズオブジェクトを検出したか否かを判断する。この判断の結果、撮像画像からノイズオブジェクトを検出した場合には、処理はステップS108に進み、撮像画像からノイズオブジェクトを検出しなかった場合には、処理はステップS107に進む。
ステップS107では、判断部B1010は、集音方向と逆方向をノイズ方向とする。一方、ステップS108では、判断部B1010は、撮像画像中におけるノイズオブジェクト領域の位置に対応する方向をノイズ方向とする。
このように、本実施形態では、撮像画像からノイズ源の方向を判断し、その方向の音をノイズ源として目的音からキャンセルすることで精度よく目的音を抽出することができる。
<変形例>
図4では、情報入力装置A1001、画像入力装置A1002、アレイマイクA1003、集音装置B1004、音声認識装置A1005、モニタ装置A1006、をそれぞれ別個の装置として説明した。しかし、これらの装置の2つ以上を1つの装置にまとめても良い。また、これらの装置のそれぞれの機能を2つ以上の装置に分散させても良い。
[第3の実施形態]
第1の実施形態に係る集音装置A1004に、撮像画像から人の唇の動きを検出して発話しているかどうかを検出する検出部を加え、該撮像画像において発話している人がいない位置に対応する方向をノイズ方向としても良い
また、第2の実施形態に係る集音装置B1004に、撮像画像からオブジェクトの動きを検出して音を発しているかを推定する推定部を加えても良い。そして、音を発しているオブジェクトが存在する場合には、撮像画像において該オブジェクトの位置に対応する方向、音を発しているオブジェクトが存在しない場合には集音方向と逆方向、をノイズ方向としても良い。また、第1〜3の実施形態において「人体」は、検出するオブジェクトの一例に過ぎず、他の種類のオブジェクトを対象とするようにしても構わない。
[第4の実施形態]
集音装置A1004が有するものとして図1に示した各機能部、集音装置B1004が有するものとして図4に示した各機能部、はハードウェアで実装しても構わないし、ソフトウェア(コンピュータプログラム)で実装しても構わない。後者の場合、このコンピュータプログラムを実行可能なコンピュータ装置は上記の集音装置A1004や集音装置B1004に適用可能である。上記の集音装置A1004や集音装置B1004に適用可能なコンピュータ装置のハードウェア構成例について、図6のブロック図を用いて説明する。
CPU601は、RAM602やROM603に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりCPU601は、コンピュータ装置全体の動作制御を行うと共に、上記の集音装置A1004や集音装置B1004が行うものとして上述した各処理を実行若しくは制御する。
RAM602は、ROM603や外部記憶装置604からロードされたコンピュータプログラムやデータ、I/F(インターフェース)605を介して外部から受信したデータ、を格納するためのエリアを有する。さらにRAM602は、CPU601が各種の処理を実行する際に用いるワークエリアを有する。このようにRAM602は、各種のエリアを適宜提供することができる。ROM603には、コンピュータ装置の設定データや起動プログラムなど、書換不要の情報が格納されている。
外部記憶装置604は、ハードディスクドライブ装置に代表される大容量情報記憶装置である。外部記憶装置604には、OS(オペレーティングシステム)や、上記の集音装置A1004や集音装置B1004が行うものとして上述した各処理をCPU601に実行若しくは制御させるためのコンピュータプログラムやデータが保存されている。
外部記憶装置604に保存されているコンピュータプログラムには、図1に示した集音装置A1004の各機能部の機能や図4に示した集音装置B1004の各機能部の機能をCPU601に実現させるためのコンピュータプログラムが含まれている。また、外部記憶装置604に保存されているデータには、上記の説明において既知の情報として上記の集音装置A1004や集音装置B1004が取り扱った情報が含まれている。
外部記憶装置604に保存されているコンピュータプログラムやデータはCPU601による制御に従って適宜RAM602にロードされ、CPU601による処理対象となる。
I/F605は、外部の機器との間のデータ通信を行うための複数種類のインターフェースを有する。I/F605には、例えば、上記の情報入力装置A1001、画像入力部A1008、アレイマイクA1003、音声認識装置A1005、モニタ装置A1006が接続される。
CPU601、RAM602、ROM603、外部記憶装置604、I/F605は何れもバス606に接続されている。なお、図6に示した構成は上記の集音装置A1004や集音装置B1004に適用可能なコンピュータ装置のハードウェア構成の一例に過ぎず、適宜変更/変形が可能である。
また、図6に示した構成は、情報入力装置A1001、画像入力装置A1002、音声認識装置A1005にも適用可能である。その場合、適用する装置によっては図6の構成に適宜デバイスを追加したり削除したりしても良い。例えば、図6のコンピュータ装置を情報入力装置A1001に適用する場合には、ユーザが集音対象情報等を入力するために操作する操作部(キーボード、マウス、タッチパネル画面など)をコンピュータ装置に新たに設ける必要がある。
また、音声認識装置A1005についてはソフトウェアとして実装しても構わない。この場合、このソフトウェアは外部記憶装置604に保存され、CPU601が実行することになる。
なお、上記の各実施形態や各変形例の一部若しくは全部を適宜組み合わせて使用しても構わない。また、上記の各実施形態や各変形例の一部若しくは全部を選択的に使用しても構わない。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
A1007:情報入力部 A1008:画像入力部 A1009:人体検出部 A1010:判断部 A1011:音声入力部 A1012:音源分離部 A1013:キャンセル部

Claims (11)

  1. 周囲を撮像した撮像画像中のオブジェクトの領域と、集音対象の位置として入力された集音対象位置と、に基づいて集音方向を決定する第1の決定手段と、
    前記撮像画像におけるオブジェクトの配置に基づいて、ノイズ方向を決定する第2の決定手段と、
    周囲から集音した音を、前記集音方向の音と、前記ノイズ方向の音と、に分離し、前記ノイズ方向の音を用いて前記集音方向の音に対するノイズキャンセルを行うノイズキャンセル手段と
    を備えることを特徴とする集音装置。
  2. 前記第1の決定手段は、前記集音対象位置への方向に対応する前記撮像画像中の位置と前記撮像画像中のオブジェクトの領域とに基づいて前記集音方向を決定することを特徴とする請求項1に記載の集音装置。
  3. 前記第2の決定手段は、前記撮像画像中のオブジェクトの配置間隔のうち最も広い配置間隔に対応する方向を前記ノイズ方向として決定することを特徴とする請求項1または2に記載の集音装置。
  4. 前記第2の決定手段は、ノイズ源となりうるオブジェクトとして予め指定されているオブジェクトの前記撮像画像中の領域に対応する方向を前記ノイズ方向として決定することを特徴とする請求項1または2に記載の集音装置。
  5. 前記第2の決定手段は、ノイズ源となりうるオブジェクトとして予め指定されているオブジェクトが前記撮像画像から検出されなかった場合には、前記集音方向とは逆方向を前記ノイズ方向として決定することを特徴とする請求項4に記載の集音装置。
  6. 前記第2の決定手段は、前記オブジェクトである人の唇の動きを前記撮像画像から検出して発話しているかどうかを検出し、前記撮像画像において発話している人がいない位置に対応する方向をノイズ方向として決定することを特徴とする請求項1または2に記載の集音装置。
  7. 前記第2の決定手段は、前記撮像画像からオブジェクトの動きを検出して音を発しているかを推定し、前記撮像画像において音を発しているオブジェクトの位置に対応する方向をノイズ方向として決定することを特徴とする請求項1または2に記載の集音装置。
  8. 前記集音装置は更に、前記ノイズキャンセル手段によりノイズキャンセルを行った音に基づいて音声認識を行う音声認識手段を備えることを特徴とする請求項1乃至7の何れか1項に記載の集音装置。
  9. 前記集音装置は更に、前記撮像画像と、前記音声認識の結果と、を出力する出力手段を備えることを特徴とする請求項8に記載の集音装置。
  10. 集音装置の制御方法であって、
    前記集音装置の第1の決定手段が、周囲を撮像した撮像画像中のオブジェクトの領域と、集音対象の位置として入力された集音対象位置と、に基づいて集音方向を決定する第1の決定工程と、
    前記集音装置の第2の決定手段が、前記撮像画像におけるオブジェクトの配置に基づいて、ノイズ方向を決定する第2の決定工程と、
    前記集音装置のノイズキャンセル手段が、周囲から集音した音を、前記集音方向の音と、前記ノイズ方向の音と、に分離し、前記ノイズ方向の音を用いて前記集音方向の音に対するノイズキャンセルを行うノイズキャンセル工程と
    を備えることを特徴とする集音装置の制御方法。
  11. コンピュータを、請求項1乃至9の何れか1項に記載の集音装置の各手段として機能させるためのコンピュータプログラム。
JP2018125290A 2018-06-29 2018-06-29 集音装置、集音装置の制御方法 Active JP7079160B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018125290A JP7079160B2 (ja) 2018-06-29 2018-06-29 集音装置、集音装置の制御方法
US16/447,104 US10812898B2 (en) 2018-06-29 2019-06-20 Sound collection apparatus, method of controlling sound collection apparatus, and non-transitory computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018125290A JP7079160B2 (ja) 2018-06-29 2018-06-29 集音装置、集音装置の制御方法

Publications (3)

Publication Number Publication Date
JP2020003724A true JP2020003724A (ja) 2020-01-09
JP2020003724A5 JP2020003724A5 (ja) 2021-08-05
JP7079160B2 JP7079160B2 (ja) 2022-06-01

Family

ID=69054836

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018125290A Active JP7079160B2 (ja) 2018-06-29 2018-06-29 集音装置、集音装置の制御方法

Country Status (2)

Country Link
US (1) US10812898B2 (ja)
JP (1) JP7079160B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2620960A (en) * 2022-07-27 2024-01-31 Nokia Technologies Oy Pair direction selection based on dominant audio direction

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250397A (ja) * 2004-03-08 2005-09-15 Nec Corp ロボット
US20060104454A1 (en) * 2004-11-17 2006-05-18 Siemens Aktiengesellschaft Method for selectively picking up a sound signal
JP2009296232A (ja) * 2008-06-04 2009-12-17 Casio Hitachi Mobile Communications Co Ltd 音入力装置、音入力方法およびプログラム
JPWO2015162645A1 (ja) * 2014-04-25 2017-04-13 パナソニックIpマネジメント株式会社 音声処理方法、音声処理システム、及び記憶媒体
JP2017153065A (ja) * 2016-02-25 2017-08-31 パナソニック株式会社 音声認識方法、音声認識装置及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7778425B2 (en) * 2003-12-24 2010-08-17 Nokia Corporation Method for generating noise references for generalized sidelobe canceling
US9197974B1 (en) * 2012-01-06 2015-11-24 Audience, Inc. Directional audio capture adaptation based on alternative sensory input
JP2015162645A (ja) 2014-02-28 2015-09-07 三菱電機株式会社 半導体装置およびその製造方法
JP2016046769A (ja) 2014-08-26 2016-04-04 パナソニックIpマネジメント株式会社 集音装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250397A (ja) * 2004-03-08 2005-09-15 Nec Corp ロボット
US20060104454A1 (en) * 2004-11-17 2006-05-18 Siemens Aktiengesellschaft Method for selectively picking up a sound signal
JP2009296232A (ja) * 2008-06-04 2009-12-17 Casio Hitachi Mobile Communications Co Ltd 音入力装置、音入力方法およびプログラム
JPWO2015162645A1 (ja) * 2014-04-25 2017-04-13 パナソニックIpマネジメント株式会社 音声処理方法、音声処理システム、及び記憶媒体
JP2017153065A (ja) * 2016-02-25 2017-08-31 パナソニック株式会社 音声認識方法、音声認識装置及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中臺一博: ""世界に飛び出す日本のソフトウェア ロボット聴覚用オープンソースソフトウェアHARKの展開"", 情報処理学会デジタルプラクティス, vol. 2, no. 2, JPN6022015371, 15 April 2011 (2011-04-15), pages 133 - 140, ISSN: 0004757959 *

Also Published As

Publication number Publication date
JP7079160B2 (ja) 2022-06-01
US20200007979A1 (en) 2020-01-02
US10812898B2 (en) 2020-10-20

Similar Documents

Publication Publication Date Title
CN108513070B (zh) 一种图像处理方法、移动终端及计算机可读存储介质
US10206030B2 (en) Microphone array system and microphone array control method
WO2022127919A1 (zh) 表面缺陷检测方法、装置、系统、存储介质及程序产品
CN107534725B (zh) 一种语音信号处理方法及装置
JP5456832B2 (ja) 入力された発話の関連性を判定するための装置および方法
US9500739B2 (en) Estimating and tracking multiple attributes of multiple objects from multi-sensor data
JP2012040655A (ja) ロボット制御方法、プログラム、及びロボット
US10798483B2 (en) Audio signal processing method and device, electronic equipment and storage medium
WO2017113937A1 (zh) 移动终端和降噪方法
CN108989672B (zh) 一种拍摄方法及移动终端
CN107749046B (zh) 一种图像处理方法及移动终端
KR101623642B1 (ko) 로봇 청소기, 단말장치의 제어방법 및 이를 포함하는 로봇 청소기 제어 시스템
CN108881544B (zh) 一种拍照的方法及移动终端
EP3975046A1 (en) Method and apparatus for detecting occluded image and medium
JP2016213677A (ja) 遠隔コミュニケーションシステム、その制御方法、及びプログラム
WO2017112070A1 (en) Controlling audio beam forming with video stream data
CN109246351B (zh) 一种构图方法及终端设备
CN106503682A (zh) 视频数据中的关键点定位方法及装置
CN106550226A (zh) 投影画面校正方法及装置
WO2018141109A1 (zh) 图像处理的方法和设备
JP7079160B2 (ja) 集音装置、集音装置の制御方法
EP4135314A1 (en) Camera-view acoustic fence
US20220215852A1 (en) Sound pickup device and sound pickup method
KR20230071720A (ko) 얼굴 이미지의 랜드마크 좌표 예측 방법 및 장치
JP6631166B2 (ja) 撮影装置、プログラム及び撮影方法

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20210103

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210625

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210625

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220422

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220520

R151 Written notification of patent or utility model registration

Ref document number: 7079160

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151