JP2018527857A - 音響装置における再生管理のためのイベント検出 - Google Patents

音響装置における再生管理のためのイベント検出 Download PDF

Info

Publication number
JP2018527857A
JP2018527857A JP2018526614A JP2018526614A JP2018527857A JP 2018527857 A JP2018527857 A JP 2018527857A JP 2018526614 A JP2018526614 A JP 2018526614A JP 2018526614 A JP2018526614 A JP 2018526614A JP 2018527857 A JP2018527857 A JP 2018527857A
Authority
JP
Japan
Prior art keywords
sound
ambient sound
detecting
microphone
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018526614A
Other languages
English (en)
Other versions
JP6959917B2 (ja
JP2018527857A5 (ja
Inventor
ポン ヴァルマ エベネゼル、サムエル
ポン ヴァルマ エベネゼル、サムエル
Original Assignee
シーラス ロジック インターナショナル セミコンダクター リミテッド
シーラス ロジック インターナショナル セミコンダクター リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シーラス ロジック インターナショナル セミコンダクター リミテッド, シーラス ロジック インターナショナル セミコンダクター リミテッド filed Critical シーラス ロジック インターナショナル セミコンダクター リミテッド
Publication of JP2018527857A publication Critical patent/JP2018527857A/ja
Publication of JP2018527857A5 publication Critical patent/JP2018527857A5/ja
Application granted granted Critical
Publication of JP6959917B2 publication Critical patent/JP6959917B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/002Damping circuit arrangements for transducers, e.g. motional feedback circuits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/05Noise reduction with a separate noise microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)

Abstract

本開示の実施形態によれば、音響装置における音響情報を処理するための方法は、通信用音響出力信号を生成することによって、前記音響装置の少なくとも1つの変換器に音響情報を複製する工程と、前記音響装置外部の周辺音響を示す少なくとも1つの入力信号を受信する工程と、前記少なくとも1つの入力信号から、前記周辺音響における近傍界音響を検出する工程と、前記近傍界音響の検出に応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正する工程とを含んでもよい。

Description

関連出願
本開示は、2015年8月7日出願の米国仮特許出願第62/202,303号と、2015年10月6日出願の米国仮特許出願第62/237,868号と、2016年6月17日出願の米国仮特許出願第62/351,499号とに基づく優先権を主張する、2016年8月5日出願の米国非仮特許出願第15/229,429号に基づく優先権を主張し、これらの各々は、参照によりその全体が本明細書中に組み込まれる。
本開示の代表的な実施形態の分野は、音響装置における再生管理に関連又は関係する方法、機器又は実装に関する。用途としては、所定の周辺イベントの検出が挙げられるが、近傍界音響及び近接音響の検出並びに複数のマイクから受信した信号に基づく空間処理を用いた音調警報検出に関連する用途に限定されない。
個人用音響装置が普及してきており、それらは多様な周辺環境で用いられている。これらの音響装置に用いられるヘッドホンは、能動的又は受動的方法によって引き起こされる閉塞により、ユーザが音響装置外部の周辺音場を抑制するほどに進化してきている。殆どの場合において、高められた隔離性と中断されない聴き取りが好ましいものの、安全性又はユーザ体験向上のために、ユーザが特定の周辺イベントを聞き取り、そのイベントに対して適切な行動を取ることが必須となる場合もある。例えば、ユーザが自身のヘッドセットで音楽を聴いており、そのユーザと会話を始めようとする誰かによって遮られた場合、ユーザが再生信号を一時停止するか再生信号の音量を減らさない限りは、会話を維持することが難しいかも知れない。例えば特許文献1には、再生信号が周辺音響場に応じて修正される音響装置が提案されている。別の例として、特許文献2には、イベントに基づいた再生内容の修正を行うのに用いることのできる、個人用音響装置における周辺イベント検出が教示されている。上述の文献にはまた、マイクを用いて種々の音響イベントを検出することも教示されている。更なる例として、2014年7月7日出願の特許文献3には、発話検出器をイベント検出器として用いて、再生信号を会話の際に調整することが教示されている。追加の例として、特許文献4には、到来方向(DOA)推定及び複数のマイクの組からの干渉−所望(近傍界)発話信号比推定を用いて、非定常的な背景雑音が存在する中で所望の発話を検出し、ノイズリダクションエコー除去(NREC)システムにおいて発話向上アルゴリズムを制御することが教示されている。同様に、特許文献5には、複数のマイクの相互相関解析を通じて導出した、正規化相互相関統計量の最大値が、近傍界発話を検出する有効な識別因子となりうることが教示されている。背景雑音の存在を背景音楽と識別するための、スペクトル平坦性測定に基づくNRECシステム用音楽検出器が特許文献6に提案されている。特許文献1及び2、特許文献3、特許文献4、特許文献5、特許文献6は、参照によりその全体が本明細書中に組み込まれる。
米国特許第7,903,825号明細書 米国特許第8,804,974号明細書 米国特許出願第14/324,286号 米国特許第8,565,446号明細書 米国特許出願第13/199,593号 米国特許第8,126,706号明細書 米国特許第7,492,889号明細書
本開示の教えによれば、個人用音響装置における再生管理のためのイベント検出に対する既存の手法に伴う1つ又は複数の不利な点及び問題が、抑制又は解消され得る。
本開示の実施形態によれば、音響装置における音響情報を処理するための方法は、通信用音響出力信号を生成することによって、前記音響装置の少なくとも1つの変換器に音響情報を複製する(reproducing)工程と、前記音響装置外部の周辺音響を示す少なくとも1つの入力信号を受信する工程と、前記少なくとも1つの入力信号から、前記周辺音響における近傍界音響を検出する工程と、前記近傍界音響の検出に応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正する工程とを含んでもよい。
本開示のこれらの及び他の実施形態によれば、音響装置の少なくとも一部を実現するための集積回路は、通信用音響出力信号を生成することによって、前記音響装置の少なくとも1つの変換器に音響情報を複製するように構成された音響出力と、前記音響装置外部の周辺音響を示す入力信号を受信するように構成されたマイク入力と、前記入力信号から、前記周辺音響における近傍界音響を検出し、前記近傍界音響の検出に応じて、前記音響情報の特徴を修正するように構成されたプロセッサとを含んでもよい。
本開示のこれらの及び他の実施形態によれば、音響装置における音響情報を処理するための方法は、通信用音響出力信号を生成することによって、前記音響装置の少なくとも1つの変換器に音響情報を複製する工程と、前記音響装置外部の周辺音響を示す少なくとも1つの入力信号を受信する工程と、前記少なくとも1つの入力信号から、音響イベントを検出する工程と、前記音響イベントの検出が少なくとも所定時間継続することに応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正する工程とを含んでもよい。
本開示のこれらの及び他の実施形態によれば、音響装置の少なくとも一部を実現するための集積回路は、通信用音響出力信号を、前記音響装置の少なくとも1つの変換器に生成することによって音響情報を複製するように構成された音響出力と、前記音響装置外部の周辺音響を示す入力信号を受信するように構成されたマイク入力と、前記入力信号から、音響イベントを検出し、少なくとも所定時間継続する前記音響イベントの検出に応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正するように構成されたプロセッサとを含んでもよい。
本開示の技術的利点は、本明細書に含まれる図、説明、及び請求項から、当該技術分野における通常の技術を有する者によって容易に理解されるであろう。本実施形態の目的及び利点は、少なくとも特に請求項において指摘されている要素、特徴、及び組み合わせによって達成及び実現されるであろう。
前述の概要及び以下の詳細な説明の両方は例示的かつ説明的であり、本開示にて明らかにされる請求項を制限するものではないと理解すべきである。
実施例、本実施形態及びそれらの特定の利点に対するより完全な理解は、附属の図面に伴う以下の説明を参照することによって得られ、参照符号等は特徴等を示す。
図1は、本開示の実施形態に係る使用ケースのシナリオの例を示し、そのような検出器は、ユーザ体験を向上させるために、再生管理システムと共に用いてもよい。 図2は、イベント検出器からの判断に基づいて再生信号を修正する、本開示の実施形態に係る再生管理システムの例を示す。 図3は、本開示の実施形態に係るイベント検出器の例を示す。 図4は、音響イベントを検出するのに用いられ得る近傍界空間統計量を導出するための、本開示の実施形態に係るシステムの機能ブロックを示す。 図5は、本開示の実施形態に係る、近傍界音響を検出するための結合ロジックの例を示す。 図6は、本開示の実施形態に係る、近接音響を検出するための結合ロジックの例を示す。 図7は、本開示の実施形態に係る、近接発話検出器の実施形態を示す。 図8は、本開示の実施形態に係る、音調警報イベントを検出するための結合ロジックの例を示す。 図9は、検証済音響イベント信号を生成するために瞬間音響イベント検出信号に適用し得る、本開示の実施形態に係るホールドオフ及びハングオーバーロジックを示すタイミング図の例を示す。 図10は、ホールドオフ及びハングオーバーロジックを有する、本開示の実施形態に係る別の音響イベント検出器を示す。
本開示の実施形態によれば、システム及び方法は、自動再生管理フレームワークにおいて用いられ得る少なくとも3つの異なる音響イベント検出器を使用してもよい。そのような音響装置用音響イベント検出器は、音響装置の近傍界で音響が検出されたとき、例えば音響装置のユーザ(例えば音響装置を身につけているか使用しているユーザ)が発話したときに検出を行う近傍界検出器や、音響装置のそばの音響が検出されたとき、例えば音響装置のユーザのそばの別の人が発話したときに検出を行う近接検出器及び音響装置近くに源を発する音響警報が生じたことを検出する音調警報検出器を含んでもよい。図1は、本開示の実施形態に係る使用ケースのシナリオの例を示し、そのような検出器は、ユーザ体験を向上させるために、再生管理システムと共に用いてもよい。
図2は、イベント検出器2からの判断に基づいて再生信号を修正する、本開示の実施形態に係る再生管理システムの例を示す。プロセッサ50における信号処理機能は、出力音響変換器51(例えば拡声器)とマイク52との間のエコーカップリングにより、マイク52で受信される音響エコーを除去し得る音響エコー除去装置1を含んでもよい。エコー抑制信号は、1つ又は複数の種々の周辺イベントを検出しうるイベント検出器2に伝達してもよく、周辺イベントは、近傍界検出器3によって検出される近傍界イベント(例えば音響装置のユーザからの発話が挙げられるが、これに限定されない)や、近接検出器4によって検出される近接イベント(例えば発話や、近傍界音響以外の他の周辺音響が挙げられるが、これらには限定されない)及び/又は警報検出器5によって検出される音調警報イベントが挙げられるが、これらには限定されない。音響イベントが検出されると、イベントに基づく再生制御6は、出力音響変換器51に複製した音響情報の特徴(図2の「再生内容」として示される)を修正してもよい。音響情報は、出力音響変換器51で複製され得るどのような情報を含んでもよく、通信ネットワーク(例えばセルラーネットワーク)を介して受信される、電話を通じての会話に関するダウンリンクスピーチ及び/又は内部オーディオソース(例えば楽曲ファイル、動画ファイル等)からの内部オーディオが挙げられるが、これらには限定されない。
図3は、本開示の実施形態に係るイベント検出器の例を示す。図3に示されるように、イベント検出器の例は、音声活動検出器10と、音楽検出器9と、到来方向推定装置7と、近傍界空間情報抽出装置8と、背景雑音レベル推定装置11と、決定結合ロジック12であって、音声活動検出器10、音楽検出器9、到来方向推定装置7、近傍界空間情報抽出装置8及び背景雑音レベル推定装置11からの情報を用いて音響イベントを検出する決定結合ロジック12とを含んでもよく、音響イベントとしては、近傍界音響、近傍界音響以外の近接音響及び音調警報が挙げられるが、これらには限定されない。
近傍界検出器3は、発話を含む近傍界音響を検出してもよい。そのような近傍界音響が検出された場合、近傍界音響の検出はユーザが会話に参加していることを示す可能性があるため、出力音響変換器51に複製された音響情報を修正することが望ましい。そのような近傍界検出は、音響的に騒音のある条件において近傍界音響を検出可能である必要があり、非常に多様な背景雑音条件(例えばレストランにおける背景雑音や、車を運転している際の音響雑音等)において近傍界音響の誤検出に耐性を有している必要がある。以下により詳細に説明するように、近傍界検出は、複数のマイク51を用いた空間音響処理を必要とし得る。幾つかの実施形態では、そのような近傍界音響検出は、特許文献4及び特許文献5に記載のものと同一又は類似の方式で行ってもよい。
近接検出器4は、近傍界音響以外の周辺音響(例えばユーザのそばの人からの発話や背景音楽等)を検出してもよい。以下により詳細に説明するように、近接音響を非定常的な背景雑音及び背景音楽から識別することは難しいため、近接検出器は、近接音響の誤検出に起因するプアーなユーザ体験を避けるために、音楽検出器及び雑音レベル推定を利用して近接検出器4の近接検出を無効化してもよい。幾つかの実施形態では、そのような近接音響検出は、特許文献6、特許文献4及び/又は特許文献5に記載のものと同一又は類似の方式で行ってもよい。
音調警報検出器5は、音響装置に近接した音調警報(例えばサイレン)を検出してもよい。最大限のユーザ体験を提供するために、音調警報検出器5は、特定の警報(例えば微弱な又は低音量の警報)を無視することが望ましい。以下により詳細に説明するように、音調警報検出は、複数のマイク51を用いた空間音響処理を必要とし得る。幾つかの実施形態では、そのような近接音響検出は、特許文献6及び特許文献5に記載のものと同一又は類似の方式で行ってもよい。
図4は、音響イベントを検出するのに用いられ得る近傍界空間統計量を導出するための、本開示の実施形態に係るシステムの機能ブロックを示す。近傍及び遠方マイク間のマイク間レベル差(imd)を推定することにより、マイク52に対してレベル分析41を行ってもよい(例えば特許文献5に記載)。マイク52に衝突する周辺音響の到来方向情報DOAを得るために、マイク52が受信した信号に対して相互相関解析13を行ってもよい(例えば特許文献4に記載)。相互相関解析13において、最大正規化相関値normMaxCorrを得てもよい(例えば特許文献5に記載)。音声活動検出器10は、発話の存在を検出し、周辺音響における発話の有無を示す信号speechDetを生成してもよい(例えば、特許文献7の、確率に基づく発話の有無に基づく手法に記載)。ビームフォーマー15は、マイク52からの信号に基づき、周辺音響における雑音のレベルnoiseLevelと、干渉−近傍界信号比idrとを決定するために雑音分析14によって利用され得る、近傍界信号推定及び干渉信号推定を生成する。特許文献4には、ビームフォーマー15の組を利用して干渉−近傍界信号比idrを推定するための手法の例が記載されている。音声活動検出器36は、干渉推定を利用して、所望の信号方向に源を発しない発話信号を検出(proxSpeechDet)してもよい。雑音分析14は、周辺音響の到来方向推定DOAが近傍界音響の受入角の外にある場合には必ず干渉信号エネルギーを更新することにより、到来方向推定DOAに基づいて行ってもよい。近傍界音響の到来方向は、個人用音響装置の工業設計における所与のマイク列配置に対して予め既知であってもよい。
図4のシステムによって生成された種々の統計量は、その後近傍界音響の存在を検出するのに使用してもよい。図5は、本開示の実施形態に係る、近傍界音響を検出するための結合ロジックの例を示す。図5に示されるように、近傍界発話は、以下の全ての基準を満たしたときに検出してもよい:
・周辺音響の到来方向推定DOAが、近傍界音響の受入角以内である(ブロック16)
・最大正規化相互相関統計量normMaxCorrが、閾値normMaxCorrThres1よりも大きい(ブロック17)
・干渉−近傍界所望信号比idrが、閾値idrThres1よりも小さい(ブロック18)
・信号speechDetに示されるように音声活動が検出される(ブロック19)
・マイク間レベル差統計量imdが、閾値imdThよりも大きい(ブロック42)
幾つかの実施形態では、閾値idrThres及びimdThは背景雑音レベル推定に基づき、動的に調整してもよい。
近接発話の信号特性は、音楽や雑音といった周辺信号と酷似していることがあるため、近接検出器4の近接検出は、近傍界検出器3の近傍界音響検出と異なっていてもよい。従って、近接検出器4は、満足のいくユーザ体験を実現するために、近接発話の誤検出を回避しなければならない。従って、音楽検出器9は、背景に音楽が存在する場合は必ず近接検出を無効化するのに使用してもよい。同様に、近接検出器4は、背景雑音レベルが所定の閾値を超えている場合には必ず無効化してもよい。背景雑音の閾値は、閾値レベル未満における誤検出の可能性が非常に低くなるように、予め決定してもよい。図6は、本開示の実施形態に係る、近接音響(例えば発話)を検出するための結合ロジックの例を示す。更に、本質的に一時的な音響刺激を生成する多くの環境雑音源が存在する可能性がある。これらの雑音種は、音声検出器によって音声信号として誤検出され得る。誤検出の可能性を低減するために、音楽検出器9からのスペクトル平坦性測定(SFM)統計量を使用し、発話を一時的な雑音と区別してもよい。例えば、SFMを所定時間追跡し、sfmSwingとして定義される、同じ時間に渡る最大及び最小SFM値の差を計算してもよい。sfmSwingの値は一般に、一時的な雑音信号に対して小さい。これら信号のスペクトル成分が本質的に広帯域であり、それらは短い時間間隔(300〜500ms)において定常的な傾向があるためである。音声信号のスペクトル成分が一時的な信号よりも速く変化するため、sfmSwingの値は音声信号に対して高い。図6に示されるように、近接音響(例えば発話)は、以下の全ての基準を満たしたときに検出してもよい:
・音楽が背景において検出されない(ブロック20)
・到来方向推定DOAが、近接音響の受入角以内である(ブロック21)
・最大正規化相互相関統計量normMaxCorrが、閾値normMaxCorrThres2よりも大きい(ブロック22)
・背景雑音レベルnoiseLevelが、閾値noiseLevelTh未満である(ブロック23)
・信号proxSpeechDetに示されるように近接音声活動が検出される(ブロック19)
・SFM変化統計量sfmSwingが、閾値sfmSwingThよりも大きい(ブロック37)
・干渉−近傍界所望信号比idrが、閾値idrThres2よりも大きい(ブロック40)
・マイク間レベル差統計量imdが、0dBに近い(ブロック43)
幾つかの実施形態では、特許文献6に教示されている音楽検出器を用いて音楽検出器9を実現し、背景音楽の存在を検出してもよい。本開示の実施形態に係る、近接発話検出器の別の実施形態が図7に示されている。この実施形態によれば、以下の条件を満たした場合に近接発話を検出してもよい:
・干渉−近傍界所望信号比idrが、閾値idrThres2よりも大きい(ブロック39)
・近接音声活動が検出される(ブロック27)
・最大正規化相互相関統計量normMaxCorrが、閾値normMaxCorrThres3よりも大きい(ブロック28)
・到来方向推定DOAが近接音響の受入角以内である(ブロック29)
・音楽が背景において検出されない(ブロック30)
・低若しくは中間レベルの背景雑音が存在する、又は一切の背景雑音が存在しない(ブロック31)。この条件は、推定背景雑音レベルを閾値noiseLevelThLoと比較することによって検証される。低雑音レベルが検出された場合、近接発話の存在を確認するために、以下の2つの条件が試験される。
・SFM変化統計量sfmSwingが閾値sfmSwingThよりも大きい(ブロック38)
・マイク間レベル差統計量imdが、0dBに近い(ブロック44)
上述の背景雑音レベル条件がブロック31で満たされなかった場合、(例えば背景雑音条件に起因する)誤警報の発生を増加させることなく近接発話の検出率を改善するために、以下の条件が近接発話を示してもよい:
・定常的背景雑音が存在する(ブロック32)。定常的背景雑音は、所定時間に渡り音楽検出器(ブロック9)によって生成されるSFMの、ピーク−二乗平均平方根値の比を計算することによって検出してもよい。具体的には、上述の比が高い場合、非定常的な雑音が存在する可能性がある。非定常的な雑音のスペクトル平坦性測定は、定常的な雑音よりも早く変化する傾向にあるからである。
・高い雑音レベルが存在する(ブロック32)。推定背景雑音が閾値noiseLevelLoよりも大きく且つ閾値noiseLevelHiよりも小さい場合に、高い雑音条件を検出してもよい。
上記の定常的雑音及び到来方向条件がブロック32で満たされない場合、以下の両方の組の条件の存在が、近接発話の存在を示してもよい:
・近くで話している近接話者が存在する(ブロック33)。最大正規化相互相関統計量normMaxCorrが閾値normMaxCorrThres4よりも大きい場合(閾値normMaxCorrThres4は、近くの話者の存在を示すために、normMaxCorrThres3よりも大きくてよい)、近くで話している近接話者が検出されてもよい。
・低、中間若しくは高レベルの背景雑音が存在する、又は一切の背景雑音が存在しない(ブロック34)。この条件は、推定背景雑音レベルが閾値noiseLevelThHi未満の場合に検出されてもよい。
上述の到来方向条件がブロック29で満たされない場合、以下の条件の存在が近接発話を示してもよい:
・音楽が存在しない(ブロック35)。
・近くで話している近接話者が存在する(ブロック33)。最大正規化相互相関統計量normMaxCorrが閾値normMaxCorrThres4よりも大きい場合(閾値normMaxCorrThres4は、近くの話者の存在を示すために、normMaxCorrThres3よりも大きくてよい)、近くで話している近接話者が検出されてもよい。
・低、中間若しくは高レベルの背景雑音が存在する、又は一切の背景雑音が存在しない(ブロック34)。この条件は、推定背景雑音レベルが閾値noiseLevelThHi未満の場合に検出されてもよい。
音調警報検出器5は、本質的に調性を有する警報信号を検出するように構成されており、そのような警報信号の音波帯域幅もまた狭い(例えばサイレンやブザー)。幾つかの実施形態では、周辺音響の調性は、時間−周波数領域変換を介して、時間領域信号を複数のサブバンドに分割することによって測定してもよく、音楽検出器9によって生成される信号sfm[]として図6に示されるスペクトル平坦性測定を、各サブバンドにおいて計算してもよい。全てのサブバンドからのスペクトル平坦性測定sfm[]を評価してもよく、音調警報イベントを、全てのサブバンドではないが、殆どのサブバンドにおいてスペクトルが平坦である場合に検出してもよい。更に、再生管理システムにおいて、遠方界警報信号の検出が必要無い場合がある。従って、図3の近傍界空間統計量8を、遠方界警報信号を近傍界信号と識別するために使用してもよい。図8は、本開示の実施形態に係る、音調警報イベント(例えばサイレンやブザー)を検出するための結合ロジックの例を示す。図8に示されるように、音調警報イベントは、以下の全ての基準を満たしたときに検出してもよい:
・到来方向推定DOAが、警報信号の受入角以内である(ブロック24)
・最大正規化相互相関統計量normMaxCorrが、閾値normMaxCorrThres5よりも大きい(ブロック25)
・スペクトル平坦性測定sfm[]が、全てのサブバンドではないが、殆どのサブバンドにおいて雑音スペクトルが平坦であることを示す(ブロック26)
実際、図5、6、7及び8に示されるような、近傍界検出器3、近接検出器4及び音調警報検出器5の瞬間音響イベント検出は、誤った音響イベントを検出してもよい。従って、イベント検出信号を再生制御ブロック6に伝達する前に、瞬間音響イベント検出信号を検証することが望ましい。図9は、検証済音響イベント信号を生成するために瞬間音響イベント検出信号に適用し得る、本開示の実施形態に係るホールドオフ及びハングオーバーロジックを示すタイミング図の例を示す。図9に示されるように、ホールドオフロジックは、少なくとも所定時間継続する音響イベント(例えば近傍界音響、近接音響、音調警報イベント)の瞬間検出に応じて検証済音響イベント信号を生成してもよく、一方ハングオーバーロジックは、第2の所定時間の間音響イベントの瞬間検出が停止するまで、検証済音響イベント信号をアサートし続けてもよい。
以下の擬似コードにより、本開示の実施形態に係るホールドオフ及びハングオーバーロジックを適用して音響イベントの誤検出を抑制することが示される。
/*瞬間検出が真(true)の場合、ホールドオフカウンタをインクリメントし、ハングオーバー*カウンタをリセットする*/
if(instDet == TRUE)

holdOffCntr = holdOffCntr + 1;
hangOverCntr = 0;

/*瞬間検出が偽の場合、ハングオーバーカウンタをインクリメントし、ホールドオフ*カウンタをリセットする*/
else

hangOverCntr = hangOverCntr + 1;
holdOffCntr = 0;

/******************
*ホールドオフロジック*
******************/
/*瞬間検出が一定時間真であり続け、且つ前回の有効な検出が偽(false)であった場合、*有効な検出は真状態に遷移する*/
if(holdOffCntr > holdOffThres && validDet == FALSE)

validDet = TRUE;
holdOffCntr = 0;
hangOverCntr = 0;

/*******************
*ハングオーバーロジック*
*******************/
/*瞬間NF検出が一定時間偽であり続け、且つ前回の有効なNF検出が真であった場合、*有効なNF検出は偽状態に遷移する*/
if(hangOverCntr > hangOverThres && validDet == TRUE)

validDet = FALSE;
holdOffCntr = 0;
hangOverCntr = 0;
検証済イベントは、再生モード切替制御を生成する前に、更に検証してもよい。例えば、以下の擬似コードにより、会話モード(例えば、出力音響変換器51に複製された音響情報が、音響イベントに応じて修正され得る)と通常再生モード(例えば、出力音響変換器51に複製された音響情報が、修正されない)との間の切り替えを優雅に行うためのホールドオフ及びハングオーバーロジックを適用することが示される。
/***********************************
*会話モード移行ロジック*
***********************************/
/*イベント検出が真であり、且つモードが会話モードでない場合、
*時間をインクリメントして会話モードカウンタに移行する。カウンタが閾値を超えた場合、
*会話モードに切り替えてカウンタをリセットする。
*イベント検出は、連続的に真である必要は無いことに注意。*/
if(convModeEn == FALSE && validDet == TRUE)

timeToEnterConvModeCntr = timeToEnterConvModeCntr + 1;
if(timeToEnterConvModeCntr > timeToEnterConvModeThres)

convModeEn = TRUE;
timeToEnterConvModeCntr = 0;
timeToExitConvModeCntr = 0;


/*********************************
*会話モード終了ロジック*
*********************************/
/*イベント検出が偽であり、且つモードが会話モードである場合、
*時間をインクリメントして会話モードカウンタを終了する。カウンタが閾値を超えた場合、
*通常モードに切り替えてカウンタをリセットする。
*イベント検出は、連続的に偽でなければならないことに注意。*/
if(convModeEn == TRUE && validDet == FALSE)

timeToExitConvModeCntr++;
if(timeToExitConvModeCntr > timeToExitConvModeThres)

convModeEn = FALSE;
timeToEnterConvModeCntr = 0;
timeToExitConvModeCntr = 0;


else

timeToExitConvModeCntr = 0;
図10は、ホールドオフ及びハングオーバーロジックを有する、本開示の実施形態に係る異なる音響イベント検出器を示す。各検出器に対するホールドオフ期間及び/又はハングオーバー期間は、異なる設定としてもよい。加えて、幾つかの実施形態では、検出したイベントの種類に基づいて、異なる再生管理を行ってもよい。これらの及び他の実施形態では、図9に示されるように、音響イベントのうちの1つ又は複数が検出された場合は必ず、再生ゲイン(従って出力音響変換器51で複製される音響情報)を減衰してもよい。これらの及び他の実施形態では、滑らかなゲイン遷移を提供するために、再生ゲインを、以下の擬似コードで表される1次の指数平均フィルタを用いて平滑化してもよい。
if(convModeEn == TRUE)

playBackGain = (1−alpha)*convModeGain + alpha*playBackGain

else

playBackGain = (1−beta)*normalModeGain + beta*playBackGain
平滑化パラメータアルファ及びベータは、ゲインランプレートを調製するために、異なる値に設定してもよい。
本明細書に記載の、特に図に関連する種々の操作は、他の回路又は他のハードウェアコンポーネントによって実現してもよいと−特に当該技術分野における通常の技術を有し、本開示の利益を持つ者によって−理解すべきである。ある方法の各操作が行われる順序を変更してもよく、本明細書に示されるシステムの種々の要素を加えたり、順序を変えたり、組合せたり、省略したり、修正したり等、してもよい。本開示はそのような修正及び変更を全て包含することを意図しており、従って上記は制限的な意味ではなく、例示的な意味であると見なされなければならない。
同様に、本開示は具体的な実施形態について言及するが、本開示の範囲及びカバレッジから逸脱することなく、それらの実施形態に特定の修正及び変更を加えてもよい。更に、具体的な実施形態に関して本明細書に記載された利益、利点又は問題への解決策はいずれも、重要であったり、必須又は不可欠な特徴或いは要素として解釈されることを意図していない。
更なる実施形態も同様に、本開示の利益と共に、当該技術分野における通常の技術を有する者にとって明らかとなり、そのような実施形態は本明細書に含まれるとみなされるべきである。

Claims (68)

  1. 音響装置における音響情報を処理するための方法であって、
    通信用音響出力信号を生成することによって、前記音響装置の少なくとも1つの変換器に音響情報を複製する工程と、
    前記音響装置外部の周辺音響を示す少なくとも1つの入力信号を受信する工程と、
    前記少なくとも1つの入力信号から、前記周辺音響における近傍界音響を検出する工程と、
    前記近傍界音響の検出に応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正する工程と
    を含む方法。
  2. 前記少なくとも1つの入力信号から、前記周辺音響の方向を決定する工程と、
    前記周辺音響の方向が、前記周辺音響が前記音響装置のユーザからの音響であることを示すことに応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正する工程と
    を更に含む、請求項1に記載の方法。
  3. 前記少なくとも1つの入力信号から、前記周辺音響の方向を決定する工程と、
    前記周辺音響の方向が、前記周辺音響が前記音響装置のユーザからの発話であることを示すことに応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正する工程と
    を更に含む、請求項1に記載の方法。
  4. 前記音響情報の特徴を修正する工程が、前記音響情報を減衰させる工程を含む、請求項1に記載に記載の方法。
  5. 前記近傍界音響の検出が少なくとも所定時間継続することに応じて、前記音響情報の特徴を修正する工程を更に含む、請求項1に記載の方法。
  6. 前記少なくとも1つの入力信号から、前記周辺音響において前記近傍界音響が存在しないことを検出する工程と、
    少なくとも第2の所定時間の間前記近傍界音響が存在しないことに応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正することを停止する工程と、
    を更に含む、請求項5に記載の方法。
  7. 前記近傍界音響を検出する工程に加えて、前記少なくとも1つの入力信号から、前記周辺音響における前記近傍界音響以外の周辺音響を検出する工程と、
    前記周辺音響の検出に応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正する工程と
    を更に含む、請求項1に記載の方法。
  8. 前記少なくとも1つの入力信号から、前記周辺音響の方向を決定する工程と、
    前記周辺音響の方向が、前記周辺音響が前記近傍界音響以外の音響であることを示すことに応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正する工程と
    を更に含む、請求項7に記載の方法。
  9. 前記少なくとも1つの入力信号から、前記周辺音響が背景雑音を含むか否かを検出する工程と、
    前記周辺音響における前記背景雑音の検出に応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正する工程と
    を更に含む、請求項7に記載の方法。
  10. 前記少なくとも1つの入力信号から、前記周辺音響が音調警報を含むか否かを検出する工程と、
    前記周辺音響における前記音調警報の検出に応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正する工程と
    を更に含む、請求項7に記載の方法。
  11. 前記周辺音響における前記音調警報を検出する工程が、
    前記少なくとも1つの入力信号から、前記周辺音響の方向を検出する工程と、
    前記少なくとも1つの入力信号から、前記周辺音響のスペクトル平坦性測定を検出する工程と、
    前記少なくとも1つの入力信号から、前記周辺音響の近傍界空間統計量を検出する工程と、
    前記周辺音響の方向、前記背景雑音の有無、及び前記近傍界空間統計量に基づいて、前記音調警報を検出する工程と
    を含む、請求項10に記載の方法。
  12. 前記少なくとも1つの入力信号が、第1のマイクでの周辺音響を示す第1のマイク信号と、第2のマイクでの周辺音響を示す第2のマイク信号とを含み、
    前記近傍界空間統計量が、前記第1のマイク信号と前記第2のマイク信号との間の相関を含む、
    請求項11に記載の方法。
  13. 前記周辺音響の方向を検出する工程が、前記周辺音響の方向が近傍界音響の受入角以内であるか否かを決定する工程を含む、請求項11に記載の方法。
  14. 前記周辺音響の前記近傍界空間統計量を検出する工程が、正規化相互相関統計量が閾値よりも大きいか否かを検出する工程を含む、請求項11に記載の方法。
  15. 前記周辺音響の前記スペクトル平坦性測定を検出する工程が、前記雑音スペクトルが前記周辺音響の全てのサブバンドではないが、前記周辺音響の殆どのサブバンドにおいて平坦であるか否かを検出する工程を含む、請求項11に記載の方法。
  16. 前記周辺音響における前記近傍界音響を検出する工程が、
    前記少なくとも1つの入力信号から、前記周辺音響の方向を検出する工程と、
    前記少なくとも1つの入力信号から、前記周辺音響における発話の存在を検出する工程と、
    前記少なくとも1つの入力信号から、前記周辺音響の近傍界空間統計量を検出する工程と、
    前記方向、発話の有無、及び前記周辺音響の前記近空間統計量に基づいて、前記近傍界音響を検出する工程と
    を含む、請求項1に記載の方法。
  17. 前記少なくとも1つの入力信号が、第1のマイクでの周辺音響を示す第1のマイク信号と、第2のマイクでの周辺音響を示す第2のマイク信号とを含み、
    前記近傍界空間統計量が、前記第1のマイク信号と前記第2のマイク信号との間の相関を含む、
    請求項16に記載の方法。
  18. 前記少なくとも1つの入力信号が、第1のマイクでの周辺音響を示す第1のマイク信号と、第2のマイクでの周辺音響を示す第2のマイク信号とを含み、
    前記近傍界空間統計量が、前記近傍界音響と紐づく干渉−信号比を含む、
    請求項16に記載の方法。
  19. 前記少なくとも1つの入力信号が、第1のマイクでの周辺音響を示す第1のマイク信号と、第2のマイクでの周辺音響を示す第2のマイク信号とを含み、
    前記近傍界空間統計量が、前記第1のマイク信号と前記第2のマイク信号との間のマイク間レベル差を含む、
    請求項16に記載の方法。
  20. 前記周辺音響の方向を検出する工程が、前記周辺音響の方向が近傍界音響の受入角以内であるか否かを決定する工程を含む、請求項16に記載の方法。
  21. 前記周辺音響の前記近傍界空間統計量を検出する工程が、
    正規化相互相関統計量が第1閾値よりも大きいか否かを検出する工程と、
    干渉−近傍界所望信号比が第2閾値よりも小さいか否かを検出する工程と、
    マイク間レベル差が、第3閾値よりも大きいか否かを検出する工程と
    を含む、請求項16に記載の方法。
  22. 前記第2閾値が、前記周辺音響における背景雑音の推定に基づいて調整される、請求項21に記載の方法。
  23. 前記第3閾値が、前記周辺音響における背景雑音の推定に基づいて調整される、請求項21に記載の方法。
  24. 前記少なくとも1つの入力信号から、前記周辺音響の方向を検出する工程と、
    前記少なくとも1つの入力信号から、前記周辺音響における背景雑音の存在を検出する工程と、
    前記少なくとも1つの入力信号から、前記周辺音響における近接発話の存在を検出する工程と、
    前記少なくとも1つの入力信号から、前記周辺音響の音量を検出する工程と、
    前記少なくとも1つの入力信号から、前記周辺音響の近傍界空間統計量を検出する工程と、
    前記方向、背景雑音の有無、前記発話の有無、前記音量、及び前記周辺音響の前記近空間統計量に基づいて、近接音響イベントを含む音響イベントの存在を検出する工程と、
    前記音響イベントの存在に応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正する工程と
    を更に含む、請求項1に記載の方法。
  25. 前記周辺音響のスペクトル成分の変化を検出する工程と、
    前記方向、背景雑音の有無、前記発話の有無、前記音量、前記周辺音響の前記近空間統計量、及び前記周辺音響の前記スペクトル成分に基づいて、近接音響イベントを含む音響イベントの存在を検出する工程と
    を更に含む、請求項24に記載の方法。
  26. 前記少なくとも1つの入力信号が、第1のマイクでの周辺音響を示す第1のマイク信号と、第2のマイクでの周辺音響を示す第2のマイク信号とを含み、
    前記近傍界空間統計量が、前記第1のマイク信号と前記第2のマイク信号との間の相関を含む、
    請求項25に記載の方法。
  27. 前記少なくとも1つの入力信号が、第1のマイクでの周辺音響を示す第1のマイク信号と、第2のマイクでの周辺音響を示す第2のマイク信号とを含み、
    前記近傍界空間統計量が、前記近傍界音響と紐づく干渉−信号比を含む、
    請求項25に記載の方法。
  28. 前記少なくとも1つの入力信号が、第1のマイクでの周辺音響を示す第1のマイク信号と、第2のマイクでの周辺音響を示す第2のマイク信号とを含み、
    前記近傍界空間統計量が、前記第1のマイク信号と前記第2のマイク信号との間のマイク間レベル差を含む、
    請求項25に記載の方法。
  29. 前記周辺音響における近接発話の存在を検出する工程が、定常的背景雑音を検出する工程を含む、請求項25に記載の方法。
  30. 前記周辺音響における近接発話の存在を検出する工程が、近くで話している近接話者からの発話を検出する工程を含む、請求項25に記載の方法。
  31. 前記周辺音響における近接発話の存在を検出する工程が、前記少なくとも1つの入力信号から、前記周辺音響のスペクトル平坦性測定を検出する工程を含み、前記周辺音響の前記スペクトル平坦性測定を検出する工程が、前記周辺音響のスペクトル成分の変化を検出する工程を含む、請求項25に記載の方法。
  32. 音響装置の少なくとも一部を実現するための集積回路であって、
    通信用音響出力信号を生成することによって、前記音響装置の少なくとも1つの変換器に音響情報を複製するように構成された音響出力と、
    前記音響装置外部の周辺音響を示す入力信号を受信するように構成されたマイク入力と、
    前記入力信号から、前記周辺音響における近傍界音響を検出し、
    前記近傍界音響の検出に応じて、前記音響情報の特徴を修正する
    ように構成されたプロセッサと
    を含む、集積回路。
  33. 前記プロセッサが更に、
    前記少なくとも1つの入力信号から、前記周辺音響の方向を決定し、
    前記周辺音響の方向が、前記周辺音響が前記音響装置のユーザからの音響であることを示すことに応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正する
    ように構成されている、請求項32に記載の集積回路。
  34. 前記プロセッサが更に、
    前記少なくとも1つの入力信号から、前記周辺音響の方向を決定し、
    前記周辺音響の方向が、前記周辺音響が前記音響装置のユーザからの発話であることを示すことに応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正する
    ように構成されている、請求項32に記載の集積回路。
  35. 前記音響情報の特徴を修正することが、前記音響情報を減衰させることを含む、請求項32に記載の集積回路。
  36. 前記プロセッサが更に、前記近傍界音響の検出が少なくとも所定時間継続することに応じて、前記音響情報の特徴を修正するように構成されている、請求項32に記載の集積回路。
  37. 前記プロセッサが更に、前記少なくとも1つの入力信号から、前記周辺音響において前記近傍界音響が存在しないことを検出し、
    少なくとも第2の所定時間の間前記近傍界音響が存在しないことに応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正することを停止する
    ように構成されている、請求項36に記載の集積回路。
  38. 前記プロセッサが更に、
    前記近傍界音響を検出することに加えて、前記少なくとも1つの入力信号から、前記周辺音響における前記近傍界音響以外の周辺音響を検出し、
    前記周辺音響の検出に応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正する
    ように構成されている、請求項36に記載の集積回路。
  39. 前記プロセッサが更に、
    前記少なくとも1つの入力信号から、前記周辺音響の方向を決定し、
    前記周辺音響の方向が、前記周辺音響が前記近傍界音響以外の音響であることを示すことに応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正する
    ように構成されている、請求項38に記載の集積回路。
  40. 前記プロセッサが更に、
    前記少なくとも1つの入力信号から、前記周辺音響が背景雑音を含むか否かを検出し、
    前記周辺音響における前記背景雑音の検出に応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正する
    ように構成されている、請求項38に記載の集積回路。
  41. 前記プロセッサが更に、
    前記少なくとも1つの入力信号から、前記周辺音響が音調警報を含むか否かを検出し、
    前記周辺音響における前記音調警報の検出に応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正する
    ように構成されている、請求項38に記載の集積回路。
  42. 前記周辺音響における前記音調警報を検出することが、
    前記少なくとも1つの入力信号から、前記周辺音響の方向を検出することと、
    前記少なくとも1つの入力信号から、前記周辺音響のスペクトル平坦性測定を検出することと、
    前記少なくとも1つの入力信号から、前記周辺音響の近傍界空間統計量を検出することと、
    前記周辺音響の方向、前記背景雑音の有無、及び前記近傍界空間統計量に基づいて、前記音調警報を検出することと
    を含む、請求項41に記載の集積回路。
  43. 前記少なくとも1つの入力信号が、第1のマイクでの周辺音響を示す第1のマイク信号と、第2のマイクでの周辺音響を示す第2のマイク信号とを含み、
    前記近傍界空間統計量が、前記第1のマイク信号と前記第2のマイク信号との間の相関を含む、
    請求項41に記載の集積回路。
  44. 前記周辺音響の方向を検出することが、前記周辺音響の方向が近傍界音響の受入角以内であるか否かを決定することを含む、請求項42に記載の集積回路。
  45. 前記周辺音響の前記近傍界空間統計量を検出することが、正規化相互相関統計量が閾値よりも大きいか否かを検出することを含む、請求項42に記載の集積回路。
  46. 前記周辺音響の前記スペクトル平坦性測定を検出することが、前記雑音スペクトルが前記周辺音響の全てのサブバンドではないが、前記周辺音響の殆どのサブバンドにおいて平坦であるか否かを検出することを含む、請求項42に記載の集積回路。
  47. 前記周辺音響における前記近傍界音響を検出することが、
    前記少なくとも1つの入力信号から、前記周辺音響の方向を検出することと、
    前記少なくとも1つの入力信号から、前記周辺音響における発話の存在を検出することと、
    前記少なくとも1つの入力信号から、前記周辺音響の近傍界空間統計量を検出することと、
    前記方向、発話の有無、及び前記周辺音響の前記近空間統計量に基づいて、前記近傍界音響を検出することと
    を含む、請求項32に記載の集積回路。
  48. 前記少なくとも1つの入力信号が、第1のマイクでの周辺音響を示す第1のマイク信号と、第2のマイクでの周辺音響を示す第2のマイク信号とを含み、
    前記近傍界空間統計量が、前記第1のマイク信号と前記第2のマイク信号との間の相関を含む、
    請求項47に記載の集積回路。
  49. 前記少なくとも1つの入力信号が、第1のマイクでの周辺音響を示す第1のマイク信号と、第2のマイクでの周辺音響を示す第2のマイク信号とを含み、
    前記近傍界空間統計量が、近傍界音響と紐づく干渉−信号比を含む、
    請求項47に記載の集積回路。
  50. 前記少なくとも1つの入力信号が、第1のマイクでの周辺音響を示す第1のマイク信号と、第2のマイクでの周辺音響を示す第2のマイク信号とを含み、
    前記近傍界空間統計量が、前記第1のマイク信号と前記第2のマイク信号との間のマイク間レベル差を含む、
    請求項47に記載の集積回路。
  51. 前記周辺音響の方向を検出することが、前記周辺音響の方向が近傍界音響の受入角以内であるか否かを決定することを含む、請求項47に記載の集積回路。
  52. 前記周辺音響の前記近傍界空間統計量を検出することが、
    正規化相互相関統計量が第1閾値よりも大きいか否かを検出することと、
    干渉−近傍界所望信号比が第2閾値よりも小さいか否かを検出することと、
    マイク間レベル差が、第3閾値よりも大きいか否かを検出することと
    を含む、請求項47に記載の集積回路。
  53. 前記第2閾値が、前記周辺音響における背景雑音の推定に基づいて調整される、請求項52に記載の集積回路。
  54. 前記第2閾値が、前記周辺音響における背景雑音の推定に基づいて調整される、請求項52に記載の集積回路。
  55. 前記プロセッサが更に、
    前記少なくとも1つの入力信号から、前記周辺音響の方向を検出する工程と、
    前記少なくとも1つの入力信号から、前記周辺音響における背景雑音の存在を検出し、
    前記少なくとも1つの入力信号から、前記周辺音響における近接発話の存在を検出し、
    前記少なくとも1つの入力信号から、前記周辺音響の音量を検出し、
    前記少なくとも1つの入力信号から、前記周辺音響の近傍界空間統計量を検出し、
    前記方向、背景雑音の有無、前記発話の有無、前記音量、及び前記周辺音響の前記近空間統計量に基づいて、近接音響イベントを含む音響イベントの存在を検出し、
    前記音響イベントの存在に応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正する
    ように構成されている、請求項32に記載の集積回路。
  56. 前記プロセッサが更に、
    前記周辺音響のスペクトル成分の変化を検出し、
    前記方向、背景雑音の有無、前記発話の有無、前記音量、前記周辺音響の前記近空間統計量、及び前記周辺音響の前記スペクトル成分に基づいて、近接音響イベントを含む音響イベントの存在を検出する
    ように構成されている、請求項32に記載の集積回路。
  57. 前記少なくとも1つの入力信号が、第1のマイクでの周辺音響を示す第1のマイク信号と、第2のマイクでの周辺音響を示す第2のマイク信号とを含み、
    前記近傍界空間統計量が、前記第1のマイク信号と前記第2のマイク信号との間の相関を含む、
    請求項56に記載の集積回路。
  58. 前記少なくとも1つの入力信号が、第1のマイクでの周辺音響を示す第1のマイク信号と、第2のマイクでの周辺音響を示す第2のマイク信号とを含み、
    前記近傍界空間統計量が、近傍界音響と紐づく干渉−信号比を含む、
    請求項56に記載の集積回路。
  59. 前記少なくとも1つの入力信号が、第1のマイクでの周辺音響を示す第1のマイク信号と、第2のマイクでの周辺音響を示す第2のマイク信号とを含み、
    前記近傍界空間統計量が、前記第1のマイク信号と前記第2のマイク信号との間のマイク間レベル差を含む、
    請求項56に記載の集積回路。
  60. 前記周辺音響における近接発話の存在を検出することが、定常的背景雑音を検出することを含む、請求項56に記載の集積回路。
  61. 前記周辺音響における近接発話の存在を検出することが、近くで話している近接話者からの発話を検出することを含む、請求項56に記載の集積回路。
  62. 前記周辺音響における近接発話の存在を検出することが、前記少なくとも1つの入力信号から、前記周辺音響のスペクトル平坦性測定を検出することを含み、前記周辺音響の前記スペクトル平坦性測定を検出することが、前記周辺音響のスペクトル成分の変化を検出することを含む、請求項56に記載の集積回路。
  63. 音響装置における音響情報を処理するための方法であって、
    通信用音響出力信号を生成することによって、前記音響装置の少なくとも1つの変換器に音響情報を複製する工程と、
    前記音響装置外部の周辺音響を示す少なくとも1つの入力信号を受信する工程と、
    前記少なくとも1つの入力信号から、音響イベントを検出する工程と、
    前記音響イベントの検出が少なくとも所定時間継続することに応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正する工程と
    を含む方法。
  64. 少なくとも第2の所定時間の間前記音響イベントが存在しないことに応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正することを停止する工程を更に含む、請求項63に記載の方法。
  65. 前記音響イベントが、近傍界イベント、近接イベント、及び警報イベントのうちの少なくとも1つを含む、請求項63に記載の方法。
  66. 音響装置の少なくとも一部を実現するための集積回路であって、
    通信用音響出力信号を生成することによって、前記音響装置の少なくとも1つの変換器に音響情報を複製するように構成された音響出力と、
    前記音響装置外部の周辺音響を示す入力信号を受信するように構成されたマイク入力と、
    前記入力信号から、音響イベントを検出し、
    前記音響イベントの検出が少なくとも所定時間継続することに応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正する
    ように構成されたプロセッサと
    を含む、集積回路。
  67. 前記プロセッサが更に、少なくとも第2の所定時間の間前記音響イベントが存在しないことに応じて、前記少なくとも1つの変換器に複製された前記音響情報の特徴を修正することを停止するように構成されている、請求項66に記載の集積回路。
  68. 前記音響イベントが、近傍界イベント、近接イベント、及び警報イベントのうちの少なくとも1つを含む、請求項66に記載の集積回路。
JP2018526614A 2015-08-07 2016-08-05 音響装置における再生管理のためのイベント検出 Active JP6959917B2 (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201562202303P 2015-08-07 2015-08-07
US62/202,303 2015-08-07
US201562237868P 2015-10-06 2015-10-06
US62/237,868 2015-10-06
US201662351499P 2016-06-17 2016-06-17
US62/351,499 2016-06-17
PCT/US2016/045834 WO2017027397A2 (en) 2015-08-07 2016-08-05 Event detection for playback management in an audio device
US15/229,429 US11621017B2 (en) 2015-08-07 2016-08-05 Event detection for playback management in an audio device
US15/229,429 2016-08-05

Publications (3)

Publication Number Publication Date
JP2018527857A true JP2018527857A (ja) 2018-09-20
JP2018527857A5 JP2018527857A5 (ja) 2019-09-12
JP6959917B2 JP6959917B2 (ja) 2021-11-05

Family

ID=56894237

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018526614A Active JP6959917B2 (ja) 2015-08-07 2016-08-05 音響装置における再生管理のためのイベント検出

Country Status (4)

Country Link
US (1) US11621017B2 (ja)
JP (1) JP6959917B2 (ja)
KR (1) KR102409536B1 (ja)
WO (1) WO2017027397A2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6513513B2 (ja) * 2015-07-09 2019-05-15 アルプスアルパイン株式会社 入力装置とその制御方法及びプログラム
US10242696B2 (en) 2016-10-11 2019-03-26 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications
US10475471B2 (en) * 2016-10-11 2019-11-12 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications using a neural network
CN107103916B (zh) * 2017-04-20 2020-05-19 深圳市蓝海华腾技术股份有限公司 一种应用于音乐喷泉的音乐开始和结束检测方法及系统
CN110049403A (zh) * 2018-01-17 2019-07-23 北京小鸟听听科技有限公司 一种基于场景识别的自适应音频控制装置和方法
JP2019200387A (ja) * 2018-05-18 2019-11-21 日本電信電話株式会社 検知装置、その方法、およびプログラム
US11217268B2 (en) * 2019-11-06 2022-01-04 Bose Corporation Real-time augmented hearing platform
US10917704B1 (en) * 2019-11-12 2021-02-09 Amazon Technologies, Inc. Automated video preview generation
CN114613380A (zh) * 2020-12-04 2022-06-10 中国移动通信集团终端有限公司 一种录音的方法、装置、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002516535A (ja) * 1998-05-15 2002-06-04 ピクチャーテル コーポレイション オーディオソースの位置決定
JP2004013084A (ja) * 2002-06-11 2004-01-15 Sharp Corp 音量制御装置
JP2004187283A (ja) * 2002-11-18 2004-07-02 Matsushita Electric Ind Co Ltd マイクロホン装置および再生装置
JP2004336251A (ja) * 2003-05-02 2004-11-25 Alpine Electronics Inc 難聴予防装置
WO2006011310A1 (ja) * 2004-07-23 2006-02-02 Matsushita Electric Industrial Co., Ltd. 音声識別装置、音声識別方法、及びプログラム
US20080091421A1 (en) * 2003-06-17 2008-04-17 Stefan Gustavsson Device And Method For Voice Activity Detection
US20080240458A1 (en) * 2006-12-31 2008-10-02 Personics Holdings Inc. Method and device configured for sound signature detection
JP2011097268A (ja) * 2009-10-28 2011-05-12 Sony Corp 再生装置、ヘッドホン及び再生方法
WO2013166439A1 (en) * 2012-05-04 2013-11-07 Setem Technologies, Llc Systems and methods for source signal separation
US20140270200A1 (en) * 2013-03-13 2014-09-18 Personics Holdings, Llc System and method to detect close voice sources and automatically enhance situation awareness

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4306115A (en) * 1980-03-19 1981-12-15 Humphrey Francis S Automatic volume control system
US7492889B2 (en) 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
US8126706B2 (en) 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction
US7903825B1 (en) 2006-03-03 2011-03-08 Cirrus Logic, Inc. Personal audio playback device having gain control responsive to environmental sounds
US8488803B2 (en) * 2007-05-25 2013-07-16 Aliphcom Wind suppression/replacement component for use with electronic systems
US8275412B2 (en) * 2008-12-31 2012-09-25 Motorola Mobility Llc Portable electronic device having directional proximity sensors based on device orientation
US8565446B1 (en) 2010-01-12 2013-10-22 Acoustic Technologies, Inc. Estimating direction of arrival from plural microphones
US8712069B1 (en) * 2010-04-19 2014-04-29 Audience, Inc. Selection of system parameters based on non-acoustic sensor information
US9007871B2 (en) * 2011-04-18 2015-04-14 Apple Inc. Passive proximity detection
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US9338551B2 (en) * 2013-03-15 2016-05-10 Broadcom Corporation Multi-microphone source tracking and noise suppression
US11165399B2 (en) * 2013-12-12 2021-11-02 Jawbone Innovations, Llc Compensation for ambient sound signals to facilitate adjustment of an audio volume
EP3211918B1 (en) * 2014-10-20 2021-08-25 Sony Group Corporation Voice processing system

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002516535A (ja) * 1998-05-15 2002-06-04 ピクチャーテル コーポレイション オーディオソースの位置決定
JP2004013084A (ja) * 2002-06-11 2004-01-15 Sharp Corp 音量制御装置
JP2004187283A (ja) * 2002-11-18 2004-07-02 Matsushita Electric Ind Co Ltd マイクロホン装置および再生装置
JP2004336251A (ja) * 2003-05-02 2004-11-25 Alpine Electronics Inc 難聴予防装置
US20080091421A1 (en) * 2003-06-17 2008-04-17 Stefan Gustavsson Device And Method For Voice Activity Detection
WO2006011310A1 (ja) * 2004-07-23 2006-02-02 Matsushita Electric Industrial Co., Ltd. 音声識別装置、音声識別方法、及びプログラム
US20080240458A1 (en) * 2006-12-31 2008-10-02 Personics Holdings Inc. Method and device configured for sound signature detection
JP2011097268A (ja) * 2009-10-28 2011-05-12 Sony Corp 再生装置、ヘッドホン及び再生方法
WO2013166439A1 (en) * 2012-05-04 2013-11-07 Setem Technologies, Llc Systems and methods for source signal separation
US20140270200A1 (en) * 2013-03-13 2014-09-18 Personics Holdings, Llc System and method to detect close voice sources and automatically enhance situation awareness

Also Published As

Publication number Publication date
KR102409536B1 (ko) 2022-06-17
WO2017027397A2 (en) 2017-02-16
JP6959917B2 (ja) 2021-11-05
US20170040029A1 (en) 2017-02-09
WO2017027397A3 (en) 2017-04-20
KR20180036778A (ko) 2018-04-09
US11621017B2 (en) 2023-04-04

Similar Documents

Publication Publication Date Title
JP6959917B2 (ja) 音響装置における再生管理のためのイベント検出
US11614916B2 (en) User voice activity detection
TWI713844B (zh) 用於語音處理的方法及積體電路
TWI720314B (zh) 基於相關性之近場偵測器
US9520139B2 (en) Post tone suppression for speech enhancement
Jeub et al. Model-based dereverberation preserving binaural cues
US7464029B2 (en) Robust separation of speech signals in a noisy environment
JP5581329B2 (ja) 会話検出装置、補聴器及び会話検出方法
US9558755B1 (en) Noise suppression assisted automatic speech recognition
US11373665B2 (en) Voice isolation system
KR102578147B1 (ko) 통신 어셈블리에서의 사용자 음성 액티비티 검출을 위한 방법, 그것의 통신 어셈블리
JP2009522942A (ja) 発話改善のためにマイク間レベル差を用いるシステム及び方法
JP2018527857A5 (ja)
US9225937B2 (en) Ultrasound pairing signal control in a teleconferencing system
JP2023509593A (ja) 風雑音減衰のための方法及び装置
Tokgöz et al. Real-time estimation of direction of arrival of speech source using three microphones
EP3332558B1 (en) Event detection for playback management in an audio device
Miyahara et al. Gain relaxation: a solution to overlooked performance degradation in speech recognition with signal enhancement
Madhu et al. Source number estimation for multi-speaker localisation and tracking

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190805

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190805

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200923

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201001

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201228

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210401

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210929

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211008

R150 Certificate of patent or registration of utility model

Ref document number: 6959917

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250