JP2017530409A - ランニング範囲正規化を利用したニューラルネットワーク音声活動検出 - Google Patents

ランニング範囲正規化を利用したニューラルネットワーク音声活動検出 Download PDF

Info

Publication number
JP2017530409A
JP2017530409A JP2017516763A JP2017516763A JP2017530409A JP 2017530409 A JP2017530409 A JP 2017530409A JP 2017516763 A JP2017516763 A JP 2017516763A JP 2017516763 A JP2017516763 A JP 2017516763A JP 2017530409 A JP2017530409 A JP 2017530409A
Authority
JP
Japan
Prior art keywords
activity detection
voice activity
estimate
feature
running
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017516763A
Other languages
English (en)
Other versions
JP6694426B2 (ja
Inventor
ヴィッカース,アール
Original Assignee
サイファ,エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by サイファ,エルエルシー filed Critical サイファ,エルエルシー
Publication of JP2017530409A publication Critical patent/JP2017530409A/ja
Application granted granted Critical
Publication of JP6694426B2 publication Critical patent/JP6694426B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • G10L2015/0636Threshold criteria for the updating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

「ランニング範囲正規化」法は、音声活動検出(VAD)に有用な特徴の値の範囲のランニング推定値を演算するステップと、特徴を望ましい範囲にマッピングすることにより、特徴を正規化するステップと、を含む。ランニング範囲正規化は、VAD特徴の最小及び最大値のランニング推定値の演算ステップと、オリジナルの範囲を望ましい範囲にマッピングすることにより、特徴を正規化するステップと、を含む。スムージング係数は、任意選択により、最小及び最大値のランニング推定値うちの少なくとも1つの推定値の変化レートを方向的にバイアスするように、選択されている。正規化済みのVAD特徴パラメータは、音声活動を検出し、且つ、トレーニングされた機械学習アルゴリズムを使用してオーディオデータの発話コンポーネントを隔離又は改善するように、機械学習アルゴリズムをトレーニングするべく、使用される。

Description

関連出願に対する相互参照
本出願は、いずれも「Neural Network Voice Activity Detection Employing Running Range Normalization」という名称を有する2014年9月26日付けで出願された米国仮特許出願第62/056,045号及び2015年9月25日付けで出願された米国特許出願第14/866,824号に対する優先権を主張するものであり、これらの特許文献は、引用により、そのすべてが本明細書に包含される。
技術分野
本開示は、一般に、オーディオ信号の出力の前に、音声データを隔離し、オーディオ信号からノイズを除去し、又は、その他の方法でオーディオ信号を改善する技法を含む、オーディオ信号を処理する技法に関する。更に詳しくは、本開示は、音声活動検出(VAD:Voice Activity Detection)に関し、且つ、更に詳しくは、オーディオ信号から導出された1つ又は複数の音声活動検出特徴又は特徴パラメータを正規化する方法に関する。また、オーディオ信号を処理する装置及びシステムも開示されている。
背景
音声活動検出器は、オーディオ信号内の発話を改善するべく、且つ、発話認識又は特定の発話者の音声の認識を含む様々なその他の目的のために、長期にわたって使用されている。
従来、音声活動検出器は、オーディオ信号が発話を含むかどうかについての判定を実行するべく、エネルギーレベル及びゼロ交差レートなどの特徴との関連におけるファジー規則又は経験則に依存している。いくつかのケースにおいては、従来の音声活動検出器によって利用されている閾値は、オーディオ信号の信号対ノイズ比(SNR:Signal-to Noise Ratio)に依存しており、その結果、適切な閾値の選択が困難になっている。これに加えて、従来の音声活動検出器は、オーディオ信号が高SNRを有するという条件下においては良好に動作するが、オーディオ信号のSNRが小さい際には、その信頼性が低い。
いくつかの音声活動検出器は、ニューラルネットワークなどの機械学習技法を使用することによって改善されており、これらの機械学習技法は、通常、相対的に正確な音声活動推定値を提供するべく、いくつかのありふれた音声活動検出(VAD)特徴を組み合わせている(本明細書において使用されている「ニューラルネットワーク」という用語は、サポートベクトル機械、決定木、ロジスティック回帰、統計的分類器などのようなその他の機械学習技法をも意味しうる)。これらの改善された音声活動検出器は、そのトレーニングに使用されるオーディオ信号によって良好に動作するが、通常、異なるタイプのノイズを含む、又は、音声活動検出器のトレーニングに使用されたオーディオ信号とは異なる量の残響を含む、異なる環境から取得されたオーディオ信号に適用された際には、信頼性が相対的に低下する。
安定性を改善するべく、「特徴正規化(feature normalization)」と呼称される技法が使用されており、これによれば、様々な異なる特性を有するオーディオ信号を評価する際に、音声活動検出器を使用することができる。例えば、平均−分散正規化(MVN:Mean-Variance Normalization)においては、特徴ベクトルのそれぞれの要素の平均及び分散が、それぞれ、0及び1に正規化される。異なるデータセットに対する安定性の改善に加えて、特徴正規化は、現時点のフレームと以前のフレームの比較に関する情報を黙示的に提供する。例えば、所与の隔離されたデータフレーム内の正規化されていない特徴が0.1の値を有している場合には、これは、特に我々がSNRについての知識を有していない場合には、このフレームが発話に対応しているかどうかに関する情報をほとんど提供することができない。但し、特徴が長期間の統計の記録に基づいて正規化されている場合には、このフレームと全体信号の比較に関する更なるコンテキストが提供される。
但し、MVNなどの従来の特徴正規化技法は、通常、発話に対応したオーディオ信号の百分率(即ち、人物が発話している時間の百分率)の影響を非常に受けやすい。ランタイムにおけるオンライン発話データが、ニューラルネットワークのトレーニングに使用されたデータと格段に異なる発話の百分率を有している場合には、VAD特徴の平均値が相応してシフトすることになり、その結果、誤解の恐れのある結果が生成されることになる。従って、音声活動検出及び特徴正規化の改善が求められている。
発明の概要
本発明の一態様は、いくつかの実施形態においては、オーディオ信号から正規化済みの音声活動検出特徴を取得する方法を特徴としている。方法は、演算システムにおいて実行され、且つ、オーディオ信号を時間フレームのシーケンスに分割するステップと、時間フレームのそれぞれごとにオーディオ信号の1つ又は複数の音声活動検出特徴を演算するステップと、時間フレームのそれぞれごとにオーディオ信号の1つ又は複数の音声活動検出特徴の最小及び最大値のランニング推定値を演算するステップと、を含む。方法は、時間フレームのそれぞれごとのオーディオ信号の1つ又は複数の音声活動検出特徴の最小及び最大値のランニング推定値を比較することにより、1つ又は複数の音声活動検出特徴の入力範囲を演算するステップと、1つ又は複数の正規化された音声活動検出特徴を取得するべく、時間フレームのそれぞれごとのオーディオ信号の1つ又は複数の音声活動検出特徴を入力範囲から1つ又は複数の望ましいターゲット範囲にマッピングするステップと、更に含む。
いくつかの実施形態においては、発話された音声データを示すオーディオ信号の1つ又は複数の特徴は、フル帯域エネルギー、低帯域エネルギー、第1及び基準マイクロフォンにおいて計測されたエネルギーの比率、分散値、スペクトル重心比率、スペクトル分散、スペクトル差の分散、スペクトルフラットネス、及びゼロ交差レートのうちの1つ又は複数を含む。
いくつかの実施形態においては、1つ又は複数の正規化された音声活動検出特徴は、発話された音声データの尤度の推定値を生成するべく、使用される。
いくつかの実施形態においては、方法は、発話/非発話2値識別子及び発話活動の尤度のうちの少なくとも1つを通知する音声活動検出推定値を生成するべく、1つ又は複数の正規化済みの音声活動検出特徴を機械学習アルゴリズムに適用するステップを更に含む。
いくつかの実施形態においては、方法は、1つ又は複数の適応フィルタの適応レートを制御するべく、音声活動検出推定値を使用するステップを更に含む。
いくつかの実施形態においては、時間フレームは、時間フレームのシーケンス内においてオーバーラップしている。
いくつかの実施形態においては、方法は、スムージング、量子化、及び閾値処理のうちの少なくとも1つを含む1つ又は複数の正規化済みの音声活動検出特徴を事後処理するステップを更に含む。
いくつかの実施形態においては、1つ又は複数の正規化済みの音声活動検出特徴は、ノイズ低減、適応フィルタリング、パワーレベル差の演算、及び非発話フレームの減衰のうちの1つ又は複数によってオーディオ信号を改善するべく、使用される。
いくつかの実施形態においては、方法は、非音声データを実質的に含んでいない発話された音声データを有する浄化されたオーディオ信号(clarified audio signal)を生成するステップを更に含む。
いくつかの実施形態においては、1つ又は複数の正規化済みの音声活動検出特徴は、発話を検出するための機械学習アルゴリズムをトレーニングするべく、使用される。
いくつかの実施形態においては、1つ又は複数の音声活動検出特徴の最小及び最大値のランニング推定値を演算するステップは、非対称指数平均化を1つ又は複数の音声活動検出特徴に対して適用するステップを含む。いくつかの実施形態においては、方法は、スムージングされた最小値推定値及びスムージングされた最大値推定値のうちの1つの推定値の漸進的な変化及び迅速な変化のうちの1つを生成するべく選択された時定数に対応するようにスムージング係数を設定するステップを更に含む。いくつかの実施形態においては、スムージング係数は、最大値推定値の連続的な更新が、相対的に大きな音声活動検出特徴値に対して迅速に応答し、且つ、相対的に小さな音声活動検出特徴値に応答して相対的に低速で減衰するように、選択される。いくつかの実施形態においては、スムージング係数は、最小値推定値の連続的な更新が、相対的に小さな音声活動検出特徴値に対して迅速に応答し、且つ、相対的に大きな音声活動検出特徴値に応答して低速で増大するように、選択される。
いくつかの実施形態においては、マッピングは、normalizedFeatureValue=2×(newFeatureValue-featureFloor)/(featureCeiling-featureFloor)-1という式に従って実行される。
いくつかの実施形態においては、マッピングは、normalizedFeatureValue=(newFeatureValue-featureFloor)/(featureCeiling-featureFloor)という式に従って実行される。
いくつかの実施形態においては、1つ又は複数の音声活動検出特徴の入力範囲を演算するステップは、最大値のランニング推定値から最小値のランニング推定値を減算することにより、実行される。
本発明の別の態様は、いくつかの実施形態において、音声活動検出特徴を正規化する方法を特徴としている。方法は、オーディオ信号を時間フレームのシーケンスにセグメント化するステップと、音声活動検出特徴のランニング最小及び最大値推定値を演算するステップと、ランニング最小及び最大値推定値を比較することにより、入力範囲を演算するステップと、音声活動検出特徴を入力範囲から1つ又は複数の望ましいターゲット範囲にマッピングすることにより、音声活動検出特徴を正規化するステップと、を含む。
いくつかの実施形態においては、ランニング最小及び最大値推定値を演算するステップは、ランニング最小及び最大値推定値のうちの少なくとも1つの推定値の方向的にバイアスされた変化レートを確立するように、スムージング係数を選択するステップを有する。
いくつかの実施形態においては、スムージング係数は、ランニング最大値推定値が、相対的に大きな最大値に対しては、相対的に迅速に応答し、且つ、相対的に小さな最大値に対しては、相対的に低速で応答するように、選択される。
いくつかの実施形態においては、スムージング係数は、ランニング最小値推定値が、相対的に小さな最小値に対しては、相対的に迅速に応答し、且つ、相対的に大きな最小値に対しては、相対的に低速で応答するように、選択される。
本発明の別の態様は、いくつかの実施形態においては、オーディオ信号内の音声データを識別する方法を実行するコンピュータプログラムを保存したコンピュータ可読媒体を特徴としており、コンピュータ可読媒体は、コンピュータストレージ媒体と、コンピュータストレージ媒体上において保存されたコンピュータ実行可能命令と、を含み、コンピュータ実行可能命令は、演算システムによって実行された際に、演算システムが、複数の音声活動検出特徴を演算し、音声活動検出特徴の最小及び最大値のランニング推定値を演算し、最小及び最大値のランニング推定値を比較することにより、音声活動検出特徴の入力範囲を演算し、且つ、正規化された音声活動検出特徴を取得するべく、音声活動検出特徴を入力範囲から1つ又は複数の望ましいターゲット範囲にマッピングするように構成される。
図面の簡単な説明
本発明については、添付図面との関連における検討において以下の詳細な説明を参照することにより、更に十分に理解することができる。
一実施形態によるランニング範囲正規化を利用した音声活動検出方法を示す。 一実施形態によるVAD特徴を正規化するべくランニング範囲正規化を使用する方法のプロセスフローを示す。 対応するフロア及びシーリング値、並びに、結果的に得られる正規化済みのVAD特徴と共に、代表的な正規化されていないVAD特徴の時間的な変化を示す。 一実施形態による音声活動検出器をトレーニングする方法を示す。 一実施形態による音声活動検出器を試験する方法のプロセスフローを示す。 デジタルオーディオオーディオを分析するコンピュータアーキテクチャを示す。
詳細な説明
以下の説明は、本発明の例示用の実施例に関するものに過ぎず、且つ、本発明の範囲、適用可能性、又は構成を限定することを意図したものではない。むしろ、以下の説明は、本発明の様々な実施形態を実装するための便利な例示の提供を意図している。明らかになるように、本明細書において記述されている本発明の範囲を逸脱することなしに、これらの実施形態において記述されている要素の機能及び範囲の様々な変更が実施されてもよい。従って、本明細書における詳細な説明は、限定ではなく、例示を目的として提示されるものに過ぎない。
「一実施形態」又は「実施形態」に対する本明細書における参照は、その実施形態との関連において記述されている特定の特徴、構造、又は特性が、本発明の少なくとも1つの実施形態に含まれていることを示すことを意図したものである。本明細書の様々な場所における「一実施形態又は実施形態において」というフレーズの出現は、必ずしも、そのすべてが、同一の実施形態を参照しているものではない。
本発明は、デジタルデータを分析する方法、システム、及びコンピュータプログラムプロダクトに拡張される。分析対象のデジタルデータは、例えば、デジタルオーディオファイル、デジタルビデオファイル、リアルタイムオーディオストリーム、及びリアルタイムビデオ、ストリーム、並びに、これらに類似したものの形態を有していてもよい。本発明は、デジタルデータの供給源のパターンを識別し、且つ、識別されたパターンを使用することにより、例えば、音声データを隔離又は改善するべく、デジタルデータを分析、分類、及びフィルタリングする。本発明の特定の実施形態は、デジタルオーディオに関するものである。実施形態は、任意のオーディオ供給源からの非破壊的なオーディオの隔離及び分離を実行するように設計される。
一態様においては、オーディオ信号(例えば、電話機、携帯電話機、オーディオ記録機器、又はこれらに類似したものなどのようなオーディオ装置のマイクロフォンによって受信されたオーディオ信号)が、「音声活動検出」(VAD)と当技術分野において呼称される人間の音声に対応したオーディオを含む尤度を判定するべく使用される1つ又は複数の特徴を、連続的に正規化する方法が開示される。この方法は、「ランニング範囲正規化」と本明細書において呼称されるプロセスを含み、このプロセスは、人間の音声の様々な側面を恐らくは記述しているオーディオ信号の特徴のパラメータを追跡し、且つ、任意選択により、連続的に変更するステップを含む。限定を伴うことなしに、ランニング範囲正規化は、人間の音声がオーディオ信号の少なくとも一部分を構成していることを通知しうるオーディオ信号の1つ又は複数の特徴の最小及び最大値のランニング推定値(即ち、それぞれ、特徴フロア推定値及び特徴シーリング推定値)の演算を含んでいてもよい。対象の特徴は、オーディオ信号が人間の音声を含んでいるかどうかを示していることから、これらの特徴は、「VAD特徴」と呼称されてもよい。特定のVAD特徴のフロア及びシーリング推定値を追跡及び変更することにより、オーディオ信号の特定の特徴が、発話された音声の存在を示しているかどうかに関する信頼性のレベルを極大化させることができる。
VAD特徴のいくつかの非限定的な例は、フル帯域エネルギー、低帯域エネルギー(例えば、<1kHz)を含む様々な帯域内のエネルギー、第1及び基準マイクロフォンにおいて計測されたエネルギーの比率、分散値、スペクトル重心比率、スペクトル分散、スペクトル差の分散、スペクトルフラットネス、及びゼロ交差レートを含む。
図1を参照すれば、VAD方法100の一実施形態が示されている。VAD方法は、(任意選択により、オーバーラップしている)時間フレームのシーケンスに分割されうる1つ又は複数のオーディオ信号(「ノイズを有する発話」)を取得するステップを含んでいてもよい(ステップ102)。いくつかの実施形態においては、オーディオ信号には、オーディオ信号が音声活動を含んでいるかどうかについての判定が実施される前に、なんらかの改善処理が施されてもよい。それぞれの時間フレームにおいて、それぞれのオーディオ信号は、1つ又は複数のVAD特徴を判定又は演算するべく、評価されてもよい(「VAD特徴の演算」)(ステップ104)。特定の時間フレームからの1つ又は複数のVAD特徴について、ランニング範囲正規化プロセスがこれらのVAD特徴に対して実行されてもよい(「ランニング範囲正規化」)(ステップ106)。ランニング範囲正規化プロセスは、その時間フレームの特徴フロア推定値及び特徴シーリング推定値を演算するステップを含んでいてもよい。特徴フロア推定値と特徴シーリング推定値との間の範囲に対してマッピングすることにより、対応するVAD特徴のパラメータが、複数の時間フレームにわたって、又は、時間に伴って、正規化されてもよい(「正規化されたVAD特徴」)(ステップ108)。
次いで、正規化されたVAD特徴は、オーディオ信号が音声信号を含んでいるかどうかについて判定するべく、(例えば、ニューラルネットワークなどによって)使用されてもよい。このプロセスは、オーディオ信号が処理される間に、音声活動検出器を連続的に更新するべく、反復されてもよい。
正規化されたVAD特徴のシーケンスが付与された場合に、ニューラルネットワークは、発話/非発話2値決定、発話活動の尤度、又は、発話/非発話2値決定を生成するべく任意選択によって閾値が適用されうる実数を通知するVAD推定値を生成してもよい(ステップ110)。ニューラルネットワークによって生成されたVAD推定値には、量子化、スムージング、閾値処理、「孤立除去(orphan removal)」などのような更なる処理が適用されてもよく、その結果、オーディオ信号の更なる処理を制御するべく使用されうる事後処理済みのVAD推定値が生成される(ステップ112)。例えば、音声活動がオーディオ信号又はオーディオ信号の一部分内において検出されない場合には、オーディオ信号内のオーディオのその他の供給源(例えば、ノイズや音楽など)は、オーディオ信号の関連する部分から除去されてもよく、この結果、無音のオーディオ信号が得られる。また、(任意選択の事後処理を伴う)VAD推定値は、適応フィルタの適応レートを制御するべく、又は、その他の発話改善パラメータを制御するべく、使用されてもよい。
オーディオ信号は、マイクロフォンにより、取得されてもよく、レシーバにより、電気信号として取得されてもよく、又は、任意のその他の適切な方式によって取得されてもよい。オーディオ信号は、コンピュータプロセッサ、マイクロコントローラ、又は任意のその他の適切な処理要素に送信されてもよく、これらの装置は、適切なプログラミングの制御下において動作した際に、本明細書において提供される開示に従ってオーディオ信号を分析及び/又は処理してもよい。
非限定的な実施形態として、オーディオ信号は、電話機、携帯電話機、オーディオ記録機器、或いは、これらに類似したものなどのオーディオ装置の1つ又は複数のマイクロフォンによって受信されてもよい。オーディオ信号は、デジタルオーディオ信号に変換されてもよく、且つ、次いで、オーディオ装置の処理要素に送信されてもよい。処理要素は、本開示によるVAD方法をデジタルオーディオ信号に対して適用してもよく、且つ、いくつかの実施形態においては、デジタルオーディオ信号を更に浄化するか(clarify)又はこれからノイズを除去するべく、デジタルオーディオ信号に対してその他のプロセスを実行してもよい。次いで、処理要素は、浄化済みのオーディオ信号を保存してもよく、浄化済みのオーディオ信号を送信してもよく、且つ/又は、浄化済みのオーディオ信号を出力してもよい。
別の非限定的な実施形態においては、デジタルオーディオ信号は、電話機、携帯電話機、オーディオ記録機器、オーディオ再生機器、又は、これらに類似したものなどのオーディオ装置によって受信されてもよい。デジタルオーディオ信号は、オーディオ装置の処理要素に伝達されてもよく、この処理要素は、次いで、本開示によるVAD方法をデジタルオーディオ信号に対して実施するプログラムを実行してもよい。これに加えて、処理要素は、デジタルオーディオ信号の清浄性を更に改善する1つ又は複数のその他のプロセスを実行してもよい。次いで、処理要素は、浄化済みのデジタルオーディオ信号を保存してもよく、送信してもよく、且つ/又は、可聴方式によって出力してもよい。
図2を参照すれば、ランニング範囲正規化プロセス200は、正規化されていないVAD特徴の組を正規化済みのVAD特徴の組に変換するべく、使用される。それぞれの時間フレームにおいて、それぞれの特徴ごとに、更新済みのフロア及びシーリング推定値が演算される(ステップ202、204)。次いで、それぞれの特徴は、フロア及びシーリング推定値に基づいて、所定の範囲に対してマッピングされており(ステップ206)、これにより、正規化済みのVAD特徴の組が生成される(ステップ208)。
特徴フロア推定値及び特徴シーリング推定値は、ゼロに初期化されてもよい。或いは、この代わりに、(例えば、リアルタイムで取得されたオーディオ信号に伴う)オーディオ信号の最初の数秒における性能を最適化するべく、特徴フロア推定値及び特徴シーリング推定値を(例えば、工場などにおいて)事前に判定された代表的な値に初期化することもできよう。(例えば、電話通話の過程において、オーディオ信号が、例えば、音声を検出するべく、且つ/又は、オーディオ信号を浄化するべく、その他の方法で受信又は処理されるとき)特徴フロア推定値及び特徴シーリング推定値の更なる演算は、複数の時間フレームにわたって、それぞれ、スムージングされた特徴フロア推定値及びスムージングされた特徴シーリング推定値を追跡するべく、非対称的指数平均化の適用を含んでいてもよい。非対称指数平均化の代わりに、フロア及び/又はシーリング推定値を追跡するその他の方法が使用されてもよい。例えば、最小統計アルゴリズムは、有限ウィンドウ内において(任意選択により、周波数の関数として)ノイズを有する発話パワーの最小値を追跡する。
特徴フロア推定値の文脈において、非対称指数平均化の使用は、オーディオ信号からの新しいVAD特徴の値を特徴フロア推定値と比較するステップと、新しいVAD特徴の値が特徴フロア推定値を超過している場合に、特徴フロア推定値を徐々に増大させるステップと、を含んでいてもよい。特徴フロア推定値の漸進的な増大は、5秒以上などの低速な時定数に対応した値にスムージング係数を設定することにより、実現されてもよい。代替例においては、オーディオ信号からの新しいVAD特徴の値が特徴フロア推定値未満である場合には、特徴フロア推定値は、迅速に減少させられてもよい。特徴フロア推定値の迅速な減少は、1秒以下などの高速の時定数に対応した値にスムージング係数を設定することにより、実現されてもよい。featureFloornew=cFloor×featureFloorprevious+(1-cFloor)×newFeatureValueという式は、非対称指数平均化を特徴フロア推定値に対して適用するべく使用されうるアルゴリズムを表しており、この場合に、cFloorは、現時点のフロアスムージング係数であり、featureFloorpreviousは、以前のスムージング済みの特徴フロア推定値であり、newFeatureValueは、最も最近の正規化されていないVAD特徴であり、且つ、featureFloornewは、新しいスムージング済みの特徴フロア推定値である。
特徴シーリング推定値の文脈において、非対称指数平均化の使用は、オーディオ信号からの新しいVAD特徴の値を特徴シーリング推定値と比較するステップを含んでいてもよい。新しいVAD特徴が特徴シーリング推定値未満の値を有している場合には、特徴シーリング推定値は、徐々に減少させられてもよい。特徴フロア推定値の漸進的な減少は、5秒以上などの低速時定数に対応した値にスムージング係数を設定することにより、実現されてもよい。その代わりに、新しいVAD特徴が特徴シーリング推定値を上回っている場合には、特徴シーリング推定値は、迅速に増大させられてもよい。特徴シーリング推定値の迅速な増大は、1秒以下などの高速の時定数に対応した値にスムージング係数を設定することにより、実現されてもよい。特定の一実施形態においては、非対称指数平均化を特徴シーリング推定値に対して適用するべく、featureCeilnew=cCeil*featureCeilprevious+(l-cCeil)*newFeatureValueというアルゴリズムが使用されてもよく、この場合に、cCeilは、現時点のシーリングスムージング係数であり、featureCeilpreviousは、以前のスムージング済みの特徴シーリング推定値であり、newFeatureValueは、最も最近の正規化されていないVAD特徴であり、且つ、featureCeilnewは、新しいスムージング済みの特徴シーリング推定値である。
図3の上部のプロットには、代表的な一連の正規化されていないVAD特徴値及び対応するフロア及びシーリング値が示されている。実線は、フレームからフレームへと変化するのに伴う正規化されていないVAD特徴値を示しており、破線は、対応するシーリング値を示し、且つ、一点鎖線は、対応するフロア値を示している。特徴シーリング推定値は、新しいピークに対して迅速に応答しているが、小さな特徴値に応答して低速で減衰している。同様に、特徴フロア推定値は、小さな特徴値に対して迅速に応答しているが、大きな値に応答して低速で増大している。
通常は、0.25秒のレベルの時定数を使用している高速の係数は、特徴フロア及びシーリング値が最小及び最大特徴値のランニング推定値において迅速に収束することを許容している一方で、低速の係数は、MVNなどの正規化技法の場合に実際的であるものよりも格段に長い時定数(18秒など)を使用することができる。低速の時定数によれば、ランニング範囲正規化は、発話の百分率の影響を格段に受けなくなり、その理由は、featureCeil値が、長期の無音の際に、最大特徴値を記憶する傾向を有することになるからである。発話者が発話を再度始めた際に、高速の時定数は、featureCeilが新しい最大特徴値に迅速に接近することを支援することになる。これに加えて、ランニング範囲正規化は、ノイズフロアに対応した最小特徴値の明示的な推定値を生成する。VAD閾値は、ノイズフロアに相対的に近接する傾向を有することから、これらの明示的な最小特徴推定値は、平均及び分散を追跡することによって実現される黙示的な推定値よりも有用であるものと考えらえる。いくつかの用途においては、例えば、シーリング推定値をフロア推定値よりも迅速に適応させるべく、フロア及びシーリング推定値について異なる時定数のペアを使用することが有利である場合があり、この逆も又真である。
特徴フロア推定値及び特徴シーリング推定値が特定のVAD特徴について算出されたら、特徴フロア推定値と特徴シーリング推定値との間の範囲を望ましいターゲット範囲にマッピングすることにより、VAD特徴が正規化されてもよい。望ましいターゲット範囲は、任意選択により、−1から+1まで延在していてもよい。特定の一実施形態においては、マッピングは、
Figure 2017530409

という式を使用することにより、実行されてもよい。
図3の下部プロットには、結果的に得られる正規化済みの特徴値が示されており、これは、図3の上部プロットにおける正規化されていない特徴値に対応している。この例においては、正規化済みの特徴値は、−1から+1までの望ましいターゲット範囲をほぼ占有する傾向を有している。これらの正規化済みの特徴値は、一般に、変化する環境条件に対して相対的に安定しており、且つ、VADニューラルネットワークのトレーニング及び適用のために相対的に有用である。
同様に、望ましいターゲット範囲が0から+1である場合には、マッピングは、
Figure 2017530409

という式を使用することにより、実行されてもよい。同様に、様々な非線形マッピングが使用されてもよい。
一般に、正規化されていないVAD特徴値は、しばしば、スムージング済みのフロア及びシーリング推定値の遅延応答に起因して、現時点のフロア及びシーリング推定値の間の範囲外となり、その結果、正規化済みのVAD特徴値も、望ましいターゲット範囲外となる。これは、通常、ニューラルネットワークのトレーニング及び適用を目的とした場合には、問題とならないが、適宜、ターゲット範囲の最大値を上回る正規化済みの特徴値をターゲット範囲の最大値に設定することが可能であり、同様に、ターゲット範囲の最小値を下回る正規化済みの特徴をターゲット範囲の最小値に設定することもできる。
別の態様においては、先程開示したものなどのVAD方法は、音声活動検出器のトレーニングのために使用されてもよい。このようなトレーニング方法は、ノイズ信号及びクリーンな発話信号を含む複数のトレーニング信号の使用を含んでいてもよい。ノイズ信号とクリーンな発話信号は、ノイズを有する発話信号を生成するべく、様々な信号対ノイズ比において混合されてもよい。
音声活動検出器のトレーニングは、結果的に複数のVAD特徴を判定又は演算するべく、ノイズを有する発話信号を処理するステップを含んでいてもよい。正規化済みのVAD特徴を提供するべく、本明細書において先程開示したものなどのランニング範囲正規化プロセスがVAD特徴に適用されてもよい。
別個に、クリーンな発話のために最適化された音声活動検出器が、複数のノイズを有するオーディオ信号に対応した複数のクリーンなオーディオ信号に対して適用されてもよい。クリーンな発話のために最適化された音声活動検出器によってクリーンなオーディオ信号を処理することにより、VAD特徴のグラウンドトルースデータを取得してもよい。
次いで、ノイズを有するオーディオ信号から導出されたグラウンドトルースデータ及び正規化されたVAD特徴は、ニューラルネットワークが、類似した正規化済みのVAD特徴の組を、対応したグラウンドトルースデータと関連付けることを「学習」しうるように、ニューラルネットワークのトレーニングのために使用されてもよい。
図4を参照すれば、音声活動検出器をトレーニングする方法400の一実施形態が示されている。VADをトレーニングする方法400は、所与の信号対ノイズ比を有する「ノイズを有する発話」の例を生成するべく、クリーンな発話データ402をノイズデータ404と混合するステップを含んでいてもよい(ステップ406)。それぞれのノイズを有する発話信号は、それぞれの時間フレームごとに1つ又は複数のVAD特徴を判定又は演算するべく評価されてもよい(「VadFeaturesの演算」)(ステップ408)。最も最近の時間フレームからの1つ又は複数のVAD特徴と、任意選択により、1つ又は複数の以前の時間フレームから導出された特徴情報と、を使用することにより、ランニング範囲正規化プロセスがこれらのVAD特徴に対して実行されてもよい(「ランニング範囲正規化」)(ステップ410)。ランニング範囲正規化プロセスは、それぞれの時間フレームごとに特徴フロア推定値及び特徴シーリング推定値を演算するステップを含んでいてもよい。特徴フロア推定値及び特徴シーリング推定値の間の範囲を望ましいターゲット範囲に対してマッピングすることにより、対応したVAD特徴のパラメータが、複数の時間フレームにわたって、又は、時間に伴って、正規化されてもよい(「正規化済みのVAD特徴」)(ステップ412)。
「グラウンドトルースVADデータ」は、クリーンな発話データのハンドマーキングによって取得されてもよく、又は、その入力が、ノイズを有する発話及びVAD特徴が導出されたものと同一のクリーンな発話データである従来のVADから取得されてもよい(ステップ414)。次いで、ニューラルネットワークは、ニューラルネットワークが、正規化済みのVAD特徴の特定の組合せ及び/又はシーケンスが特定のタイプのグラウンドトルースVADデータに対応しているという事実から外挿(「学習」)しうるように、正規化済みのVAD特徴及びグラウンドトルースVADデータを使用することにより、トレーニングされる(ステップ416)。
音声活動検出器がトレーニングされたら、トレーニング済みの音声活動検出器、並びに、その最適化された正規化済みのVAD特徴が試験されてもよい。図5は、音声活動検出器を試験する方法500の一実施形態のプロセスフローを示している。トレーニング済みの音声活動検出器の試験は、クリーンな発話データ502(例えば、更なるトレーニング信号)及びノイズデータ504のうちの1つ又は複数の更なる組を利用してもよく、これらの組は、ノイズを有する発話信号を生成するべく、様々な信号対ノイズ比において1つに混合されてもよい(ステップ506)。それぞれの時間フレームにおいて、VAD特徴の組が、ノイズを有する発話から演算されており(ステップ508)、且つ、対応した正規化済みのVAD特徴の組を生成するべく、ランニング範囲正規化プロセスが使用される(ステップ210)。これらの正規化済みのVAD特徴は、ニューラルネットワークに対して適用される(ステップ512)。ニューラルネットワークは、任意選択により、スムージング、量子化、閾値処理、又はその他の事後処理が実行されうるVAD推定を生成するべく、構成及びトレーニングされる(ステップ514)。別個に、グラウンドトルースVADデータの組518を生成するべく、クリーンな発話データが、クリーンな発話のために最適化されたVADに対して適用されており(ステップ516)、グラウンドトルースVADデータの組には、任意選択により、スムージング、量子化、閾値処理、又はその他の事後処理が実施されてもよい(ステップ520)。ニューラルネットワークからの(任意選択によって事後処理済みの)VAD推定値及び(任意選択によって事後処理済みの)グラウンドトルースVADデータを「精度」及び「リコール」などの正確性の尺度を演算するプロセスに適用することにより、開発者が最良の性能のためにアルゴリズムを微細チューニングできるようにしてもよい(ステップ522)。
また、本発明の実施形態は、デジタルデータを分析するコンピュータプログラムプロダクトに拡張されてもよい。このようなコンピュータプログラムプロダクトは、デジタルデータを分析する方法を実行するべく、コンピュータプロセッサ上においてコンピュータ実行可能命令を実行するように意図されたものであってもよい。このようなコンピュータプログラムプロダクトは、エンコードされたコンピュータ実行可能命令を有するコンピュータ可読媒体を有していてもよく、この場合に、コンピュータ実行可能命令は、適切なコンピュータ環境において適切なプロセッサにおいて実行された際に、本明細書において更に記述されているように、デジタルデータを分析する方法を実行する。
本発明の実施形態は、更に詳細に後述するように、例えば、1つ又は複数のコンピュータプロセッサ及びデータストレージ又はシステムメモリなどのコンピュータハードウェアを含む特殊目的又は汎用コンピュータを含んでいてもよく、或いは、利用していてもよい。また、本発明の範囲内の実施形態は、コンピュータ実行可能命令及び/又はデータ構造を担持又は保存する物理的な且つその他のコンピュータ可読媒体をも含んでいる。このようなコンピュータ可読媒体は、汎用又は特殊目的コンピュータシステムによってアクセスされうる任意の入手可能な媒体であってもよい。コンピュータ実行可能命令を保存するコンピュータ可読媒体は、コンピュータストレージ媒体である。コンピュータ実行可能命令を担持するコンピュータ可読媒体は、送信媒体である。従って、限定ではなく、例として、本発明の実施形態は、コンピュータストレージ媒体及び送信媒体という少なくとも2つの明確に異なる種類のコンピュータ可読媒体を含むことができる。
コンピュータストレージ媒体は、RAM、ROM、EEPROM、CD−ROM又はその他の光ディスクストレージ、磁気ディスクストレージ、又はその他の磁気ストレージ装置、或いは、コンピュータ実行可能命令又はデータ構造の形態を有する望ましいプログラムコード手段を保存するべく使用されうると共に汎用又は特殊目的コンピュータによってアクセスされうる任意のその他の物理媒体を含む。
「ネットワーク」は、コンピュータシステム及び/又はモジュール及び/又はその他の電子装置の間における電子データの搬送を可能にする1つ又は複数のデータリンクとして定義される。情報がネットワーク又は別の通信接続(有線、無線、又は有線又は無線の組合せ)上においてコンピュータに転送又は提供された際に、コンピュータは、接続を送信媒体として適切に見なす。送信媒体は、汎用又は特殊目的コンピュータによって受信又はアクセスされうるコンピュータ実行可能命令及び/又はデータ構造の形態を有する望ましいプログラムコード手段を担持又は送信するべく使用されうるネットワーク及び/又はデータリンクを含みうる。また、上述のものの組合せも、コンピュータ可読媒体の範囲に含まれている。
更には、様々なコンピュータシステムコンポーネントに到達した際に、コンピュータ実行可能命令又はデータ構造の形態を有するプログラムコード手段は、送信媒体からコンピュータストレージ媒体に自動的に転送することもできる(逆も又真である)。例えば、ネットワーク又はデータリンク上において受信されたコンピュータ実行可能命令又はデータ構造は、ネットワークインターフェイスモジュール(例えば、「NIC:Network Interface Module」)のRAM内においてバッファ保存することが可能であり、且つ、次いで、最終的に、コンピュータシステムのRAM及び/又はコンピュータシステムにおける相対的に低揮発性のコンピュータストレージ媒体に転送することもできる。従って、コンピュータストレージ媒体は、こちらも(又は、恐らくは、主に)送信媒体を利用しているコンピュータシステムコンポーネントに含まれうることを理解されたい。
コンピュータ実行可能命令は、例えば、プロセッサにおいて実行された際に、汎用コンピュータ、特殊目的コンピュータ、又は、特殊目的処理装置が、特定の機能又は機能のグループを実行するようにする命令及びデータを含む。コンピュータ実行可能命令は、例えば、プロセッサ上において直接的に実行されうるバイナリ、アセンブリ言語などの中間フォーマット命令、或いは、場合によっては、特定の機械又はプロセッサをターゲットとしたコンパイラによるコンパイルを必要としうる相対的にハイレベルなソースコードであってもよい。主題は、構造的な特徴及び/又は方法の動作に固有の言語において記述されているが、添付の請求項において定義されている主題は、必ずしも、記述されている特徴又は上述されている動作に限定されるものではないことを理解されたい。むしろ、記述されている特徴及び動作は、請求項を実装するための例示用の形態として開示されている。
当業者は、本発明が、パーソナルコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、メッセージプロセッサ、ハンドヘルド装置、マルチプロセッサシステム、マイクロプロセッサに基づいた又はプログラム可能な消費者電子装置、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、携帯電話機、PDA、ページャ、ルーター、スイッチ、及びこれらに類似したものを含む多くのタイプのコンピュータシステム構成を有するネットワーク演算環境において実施されうることを理解するであろう。また、本発明は、ネットワークを通じて(有線データリンクにより、無線データリンクにより、又は、有線及び無線データリンクの組合せによって)リンクされたローカル及びリモートコンピュータシステムの両方がタスクを実行する分散システム環境において実施されてもよい。分散システム環境においては、プログラムモジュールは、ローカル及びリモートメモリストレージ装置内において配置されてもよい。
図6を参照すれば、デジタルオーディオデータを分析するための例示用のコンピュータアーキテクチャ600が示されている。本明細書においてコンピュータシステム600とも呼称されているコンピュータアーキテクチャ600は、1つ又は複数のコンピュータプロセッサ602と、データストレージと、を含む。データストレージは、演算システム600内のメモリ604であってもよく、且つ、揮発性又は不揮発性メモリであってもよい。また、演算システム600は、データ又はその他の情報の表示のためのディスプレイ612を含んでいてもよい。また、演算システム600は、演算システム600が、例えば、(恐らくは、インターネット610などの)ネットワーク上において、その他の演算システム、装置、又はデータソースと通信することを許容する通信チャネル608を含んでいてもよい。また、演算システム600は、デジタル又はアナログデータの供給源へのアクセスを許容するマイクロフォン606などの入力装置を含んでいてもよい。このようなデジタル又はアナログデータは、例えば、オーディオ又はビデオデータであってもよい。デジタル又はアナログデータは、動作中のマイクロフォンからのものなどのリアルタイムストリーミングデータの形態を有していてもよく、或いは、データストレージ614からアクセスされる保存データであってもよく、データストレージ614は、演算システム600によって直接的にアクセスされることも可能であり、或いは、通信チャネル608を通じて又はインターネット610などのネットワークを介して、相対的に遠隔方式でアクセスされることも可能である。
通信チャネル608は、送信媒体の例である。送信媒体は、通常、搬送波又はその他の搬送メカニズムなどの変調されたデータ信号内において、コンピュータ可読命令、データ構造、プログラムモジュール、或いは、その他のデータを実施し、且つ、任意の情報供給媒体を含んでいる。限定ではなく、例として、送信媒体は、有線ネットワーク及び直接的な有線接続などの有線媒体と、音響、高周波、赤外線、及びその他の無線媒体などの無線媒体と、を含む。本明細書において使用されている「コンピュータ可読媒体」という用語は、コンピュータストレージ媒体と送信媒体との両方を含む。
また、本発明の範囲内の実施形態は、その上部において保存されたコンピュータ実行可能命令又はデータ構造を担持又は有するコンピュータ可読媒体をも含む。「コンピュータストレージ媒体」と呼称されるこのような物理的なコンピュータ可読媒体は、汎用又は特殊目的コンピュータによってアクセスされうる任意の入手可能な物理媒体であってもよい。限定ではなく、例として、このようなコンピュータ可読媒体は、RAM、ROM、EEPROM、CD−ROM、又はその他の光ディスクストレージ、磁気ディスクストレージ、又はその他の磁気ストレージ装置、或いは、コンピュータ実行可能命令又はデータ構造の形態を有する望ましいプログラムコード手段を保存するべく使用されうると共に汎用又は特殊目的コンピュータによってアクセスされうる任意のその他の物理媒体などの物理的なストレージ及び/又はメモリ媒体を含みうる。
コンピュータシステムは、例えば、ローカルエリアネットワーク(「LAN:Local Area Network」)、ワイドエリアネットワーク(「WAN:Wide Area Network」)、無線ワイドエリアネットワーク(「WWAN:Wireless Wide Area Network」)、及び、場合によっては、インターネット110などのネットワーク上において互いに接続されていてもよい(又は、その一部分であってもよい)。従って、図示のコンピュータシステム、並びに、任意のその他の接続されたコンピュータシステムのそれぞれ及びそのコンポーネントは、メッセージに関係したデータを生成することが可能であり、且つ、メッセージに関係したデータ(例えば、インターネットプロトコル(「IP:Internet Protocol」)データグラム、並びに、送信制御プロトコル(「TCP:Transmission Control Protocol」)、ハイパーテキスト転送プロトコル(「HTTP:Hipertext Transfer Protocol」)、シンプルメール転送プロトコル(「SMTP:Simple Mail Transfer Protocol」)などのようなIPデータグラムを利用したその他の相対的に高位の層プロトコル)をネットワーク上において交換することができる。
開示されている主題のその他の態様、並びに、様々な態様の特徴及び利点については、以上において提供されている開示、添付図面、及び添付の請求項の検討を通じて、当業者に明らかとなろう。
以上の開示は、多数の具体的な事項を提供しているが、これらは、添付の請求項のうちのいずれかの請求項の範囲を限定するものと解釈されてはならない。請求項の範囲を逸脱しないその他の実施形態が考案されてもよい。異なる実施形態の特徴が、組合せにおいて利用されてもよい。
最後に、様々な例示用の実施形態を参照し、本発明について上述したが、本発明の範囲を逸脱することなしに、これらの実施形態に対して、多くの変更、組合せ、及び変形が実施されてもよい。例えば、本発明は、発話検出において使用されるものとして記述されているが、本発明の態様は、その他のオーディオ、ビデオ、データ検出方式に対して容易に適用されうる。更には、様々な要素、コンポーネント、及び/又はプロセスは、代替方法によって実装されてもよい。これらの代替肢は、特定の用途に応じて、且つ、方法又はシステムの実装形態又は動作と関連した任意の数の要因を考慮することにより、適切に選択することができる。これに加えて、本明細書において記述されている技法は、その他のタイプの用途及びシステムと共に使用されるように、拡張又は変更されてもよい。これらの及びその他の変化又は変形は、本発明の範囲に含まれるものと解釈されたい。

Claims (22)

  1. オーディオ信号から正規化済みの音声活動検出特徴を取得する方法であって、
    演算システムにおいて、オーディオ信号を時間フレームのシーケンスに分割するステップと、
    前記時間フレームのそれぞれごとに前記オーディオ信号の1つ又は複数の音声活動検出特徴を演算するステップと、
    前記時間フレームのそれぞれごとに前記オーディオ信号の前記1つ又は複数の音声活動検出特徴の最小及び最大値のランニング推定値を演算するステップと、
    前記時間フレームのそれぞれごとの前記オーディオ信号の前記1つ又は複数の音声活動検出特徴の前記最小及び最大値の前記ランニング推定値を比較することにより、前記1つ又は複数の音声活動検出特徴の入力範囲を演算するステップと、
    1つ又は複数の正規化済みの音声活動検出特徴を取得するべく、前記時間フレームのそれぞれごとの前記オーディオ信号の前記1つ又は複数の音声活動検出特徴を前記入力範囲から1つ又は複数の望ましいターゲット範囲にマッピングするステップと、
    を含む方法。
  2. 発話された音声データを示す前記オーディオ信号の前記1つ又は複数の特徴は、フル帯域エネルギー、低帯域エネルギー、第1及び基準マイクロフォンにおいて計測されたエネルギーの比率、分散値、スペクトル重心比率、スペクトル分散、スペクトル差の分散、スペクトルフラットネス、及びゼロ交差レートのうちの1つ又は複数を含む請求項1に記載の方法。
  3. 前記1つ又は複数の正規化済みの音声活動検出特徴は、発話された音声データの尤度の推定値を生成するべく、使用される請求項1に記載の方法。
  4. 発話/非発話2値識別子及び発話活動の尤度のうちの少なくとも1つを示す音声活動検出推定値を生成するべく、前記1つ又は複数の正規化済みの音声活動検出特徴を機械学習アルゴリズムに対して適用するステップを更に含む請求項1に記載の方法。
  5. 1つ又は複数の適応フィルタの適応レートを制御するべく、前記音声活動検出推定値を使用するステップを更に含む請求項4に記載の方法。
  6. 前記時間フレームは、前記時間フレームのシーケンス内においてオーバーラップしている請求項1に記載の方法。
  7. スムージング、量子化、及び閾値処理のうちの少なくとも1つを含む前記1つ又は複数の正規化済みの音声活動検出特徴を事後処理するステップを更に含む請求項1に記載の方法。
  8. 前記1つ又は複数の正規化済みの音声活動検出特徴は、ノイズ低減、適応フィルタリング、パワーレベル差の演算、及び非発話フレームの減衰のうちの1つ又は複数により、前記オーディオ信号を改善するべく使用される請求項1に記載の方法。
  9. 非音声データを実質的に含んでいない前記発話された音声データを有する浄化済みのオーディオ信号を生成するステップを更に含む請求項1に記載の方法。
  10. 前記1つ又は複数の正規化済みの音声活動検出特徴は、発話を検出するように機械学習アルゴリズムをトレーニングするべく使用される請求項1に記載の方法。
  11. 前記1つ又は複数の音声活動検出特徴の最小及び最大値のランニング推定値を演算するステップは、非対称指数平均化を前記1つ又は複数の音声活動検出特徴に対して適用するステップを含む請求項1に記載の方法。
  12. スムージング済みの最小値推定値及びスムージング済みの最大値推定値のうちの1つの推定値の漸進的な変化及び迅速な変化のうちの1つを生成するべく選択された時定数に対応するようにスムージング係数を設定するステップを更に含む請求項11に記載の方法。
  13. 前記スムージング係数は、最大値推定値の連続的な更新が、相対的に大きな音声活動検出特徴値に対して迅速に応答し、且つ、相対的に小さな音声活動検出特徴値に応答して相対的に低速で減少するように、選択されている請求項12に記載の方法。
  14. 前記スムージング係数は、最小値推定値の連続的な更新が、相対的に小さな音声活動検出特徴値に対して迅速に応答し、且つ、相対的に大きな音声活動検出特徴値に応答して低速で増大するように、選択されている請求項12に記載の方法。
  15. 前記マッピングステップは、normalizedFeatureValue=2×(newFeatureValue-featureFloor)/(featureCeiling-featureFloor)-1という式に従って実行される請求項1に記載の方法。
  16. 前記マッピングステップは、normalizedFeatureValue=(newFeatureValue-featureFloor)/(featureCeiling-featureFloor)という式に従って実行される請求項1に記載の方法。
  17. 前記1つ又は複数の音声活動検出特徴の入力範囲の前記演算は、前記最大値の前記ランニング推定値から前記最小値の前記ランニング推定値を減算することにより、実行される請求項1に記載の方法。
  18. 音声活動検出特徴を正規化する方法であって、
    オーディオ信号を時間フレームのシーケンスにセグメント化するステップと、
    音声活動検出特徴のランニング最小及び最大値推定値を演算するステップと、
    前記ランニング最小及び最大値推定値を比較することにより、入力範囲を演算するステップと、
    前記音声活動検出特徴を前記入力範囲から1つ又は複数の望ましいターゲット範囲にマッピングすることにより、前記音声活動検出特徴を正規化するステップと、
    を含む方法。
  19. ランニング最小及び最大値推定値を演算するステップは、前記ランニング最小及び最大値推定値のうちの少なくとも1つの推定値の方向的にバイアスされた変化レートを確立するように、スムージング係数を選択するステップを含む請求項18に記載の方法。
  20. 前記スムージング係数は、前記ランニング最大値推定値が、相対的に大きな最大値に対して相対的に迅速に応答し、且つ、相対的に小さな最大値に対して相対的に低速で応答するように、選択されている請求項19に記載の方法。
  21. 前記スムージング係数は、前記ランニング最小値推定値が、相対的に小さな最小値に対して相対的に迅速に応答し、且つ、相対的に大きな最小値に対して相対的に低速で応答するように、選択されている請求項19に記載の方法。
  22. オーディオ信号内の音声データを識別する方法を実行するコンピュータプログラムを保存するコンピュータ可読媒体であって、前記コンピュータ可読媒体は、コンピュータストレージ媒体と、前記コンピュータストレージ媒体上において保存されたコンピュータ実行可能命令と、を含んでおり、前記コンピュータ実行可能命令は、演算システムによって実行された際に、前記演算システムが、
    複数の音声活動検出特徴を演算し、
    前記音声活動検出特徴の最小及び最大値のランニング推定値を演算し、
    前記最小及び最大値の前記ランニング推定値を比較することにより、前記音声活動検出特徴の入力範囲を演算し、
    正規化済みの音声活動検出特徴を取得するべく、前記音声活動検出特徴を前記入力範囲から1つ又は複数の望ましいターゲット範囲にマッピングする、
    ように構成されている、コンピュータ可読媒体。
JP2017516763A 2014-09-26 2015-09-26 ランニング範囲正規化を利用したニューラルネットワーク音声活動検出 Expired - Fee Related JP6694426B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462056045P 2014-09-26 2014-09-26
US62/056,045 2014-09-26
US14/866,824 US9953661B2 (en) 2014-09-26 2015-09-25 Neural network voice activity detection employing running range normalization
US14/866,824 2015-09-25
PCT/US2015/052519 WO2016049611A1 (en) 2014-09-26 2015-09-26 Neural network voice activity detection employing running range normalization

Publications (2)

Publication Number Publication Date
JP2017530409A true JP2017530409A (ja) 2017-10-12
JP6694426B2 JP6694426B2 (ja) 2020-05-13

Family

ID=55582142

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017516763A Expired - Fee Related JP6694426B2 (ja) 2014-09-26 2015-09-26 ランニング範囲正規化を利用したニューラルネットワーク音声活動検出

Country Status (6)

Country Link
US (2) US9953661B2 (ja)
EP (1) EP3198592A4 (ja)
JP (1) JP6694426B2 (ja)
KR (1) KR102410392B1 (ja)
CN (1) CN107004409B (ja)
WO (1) WO2016049611A1 (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9672841B2 (en) * 2015-06-30 2017-06-06 Zte Corporation Voice activity detection method and method used for voice activity detection and apparatus thereof
KR102494139B1 (ko) * 2015-11-06 2023-01-31 삼성전자주식회사 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
US9978397B2 (en) * 2015-12-22 2018-05-22 Intel Corporation Wearer voice activity detection
US10880833B2 (en) * 2016-04-25 2020-12-29 Sensory, Incorporated Smart listening modes supporting quasi always-on listening
US10242696B2 (en) 2016-10-11 2019-03-26 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications
US10475471B2 (en) * 2016-10-11 2019-11-12 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications using a neural network
KR101893789B1 (ko) * 2016-10-27 2018-10-04 에스케이텔레콤 주식회사 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치
EP3373208A1 (en) * 2017-03-08 2018-09-12 Nxp B.V. Method and system for facilitating reliable pattern detection
US10224053B2 (en) * 2017-03-24 2019-03-05 Hyundai Motor Company Audio signal quality enhancement based on quantitative SNR analysis and adaptive Wiener filtering
KR20180111271A (ko) 2017-03-31 2018-10-11 삼성전자주식회사 신경망 모델을 이용하여 노이즈를 제거하는 방법 및 장치
US11501154B2 (en) 2017-05-17 2022-11-15 Samsung Electronics Co., Ltd. Sensor transformation attention network (STAN) model
US10929754B2 (en) * 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning
US11304000B2 (en) * 2017-08-04 2022-04-12 Nippon Telegraph And Telephone Corporation Neural network based signal processing device, neural network based signal processing method, and signal processing program
KR102014384B1 (ko) 2017-08-17 2019-08-26 국방과학연구소 보코더 유형 판별 장치 및 방법
US10504539B2 (en) * 2017-12-05 2019-12-10 Synaptics Incorporated Voice activity detection systems and methods
AU2019287569A1 (en) 2018-06-14 2021-02-04 Pindrop Security, Inc. Deep neural network based speech enhancement
US10460749B1 (en) * 2018-06-28 2019-10-29 Nuvoton Technology Corporation Voice activity detection using vocal tract area information
KR101992955B1 (ko) * 2018-08-24 2019-06-25 에스케이텔레콤 주식회사 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치
US11527265B2 (en) 2018-11-02 2022-12-13 BriefCam Ltd. Method and system for automatic object-aware video or audio redaction
JP7407580B2 (ja) 2018-12-06 2024-01-04 シナプティクス インコーポレイテッド システム、及び、方法
JP7498560B2 (ja) * 2019-01-07 2024-06-12 シナプティクス インコーポレイテッド システム及び方法
KR102237286B1 (ko) * 2019-03-12 2021-04-07 울산과학기술원 음성 구간 검출장치 및 그 방법
TWI759591B (zh) * 2019-04-01 2022-04-01 威聯通科技股份有限公司 語音增強方法及系統
CN113841195B (zh) * 2019-04-16 2023-12-22 谷歌有限责任公司 联合端点确定和自动语音识别
KR102271357B1 (ko) 2019-06-28 2021-07-01 국방과학연구소 보코더 유형 판별 방법 및 장치
KR20210010133A (ko) 2019-07-19 2021-01-27 삼성전자주식회사 음성 인식 방법, 음성 인식을 위한 학습 방법 및 그 장치들
US11830519B2 (en) 2019-07-30 2023-11-28 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Multi-channel acoustic event detection and classification method
KR20210017252A (ko) 2019-08-07 2021-02-17 삼성전자주식회사 다채널 오디오 신호 처리 방법 및 전자 장치
US11823706B1 (en) * 2019-10-14 2023-11-21 Meta Platforms, Inc. Voice activity detection in audio signal
US11217262B2 (en) * 2019-11-18 2022-01-04 Google Llc Adaptive energy limiting for transient noise suppression
US11064294B1 (en) 2020-01-10 2021-07-13 Synaptics Incorporated Multiple-source tracking and voice activity detections for planar microphone arrays
TR202021840A1 (tr) * 2020-12-26 2022-07-21 Cankaya Ueniversitesi Konuşma sinyali aktivite bölgelerinin belirlenmesini sağlayan yöntem.
CN113192536B (zh) * 2021-04-28 2023-07-28 北京达佳互联信息技术有限公司 语音质量检测模型的训练方法、语音质量检测方法及装置
CN113470621B (zh) * 2021-08-23 2023-10-24 杭州网易智企科技有限公司 语音检测方法、装置、介质及电子设备
US11823707B2 (en) 2022-01-10 2023-11-21 Synaptics Incorporated Sensitivity mode for an audio spotting system
KR102516391B1 (ko) 2022-09-02 2023-04-03 주식회사 액션파워 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법
KR20240055337A (ko) 2022-10-20 2024-04-29 주식회사 이엠텍 복수의 음향 환경들을 고려하는 음향 신호 처리 장치

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10508389A (ja) * 1994-07-18 1998-08-18 松下電器産業株式会社 音声検出装置
WO2001086633A1 (en) * 2000-05-10 2001-11-15 Multimedia Technologies Institute - Mti S.R.L. Voice activity detection and end-point detection
JP2002542692A (ja) * 1999-04-19 2002-12-10 モトローラ・インコーポレイテッド 外部音声活動検出を用いたノイズ抑制
JP2005516247A (ja) * 2002-01-24 2005-06-02 モトローラ・インコーポレイテッド 雑音環境のための音声活動検出器及び有効化器
JP2010541010A (ja) * 2007-09-28 2010-12-24 クゥアルコム・インコーポレイテッド 複数マイクロホン音声アクティビティ検出器
US20120209601A1 (en) * 2011-01-10 2012-08-16 Aliphcom Dynamic enhancement of audio (DAE) in headset systems
JP2013515287A (ja) * 2009-12-21 2013-05-02 マインドスピード テクノロジーズ インコーポレイテッド 音声帯域拡張方法及び音声帯域拡張システム
US20130132076A1 (en) * 2011-11-23 2013-05-23 Creative Technology Ltd Smart rejecter for keyboard click noise
JP2013545136A (ja) * 2010-10-25 2013-12-19 クゥアルコム・インコーポレイテッド 音声アクティビティ検出のための、システム、方法、および装置

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI114247B (fi) * 1997-04-11 2004-09-15 Nokia Corp Menetelmä ja laite puheen tunnistamiseksi
US6249757B1 (en) * 1999-02-16 2001-06-19 3Com Corporation System for detecting voice activity
US6330532B1 (en) * 1999-07-19 2001-12-11 Qualcomm Incorporated Method and apparatus for maintaining a target bit rate in a speech coder
US20020123308A1 (en) * 2001-01-09 2002-09-05 Feltstrom Alberto Jimenez Suppression of periodic interference in a communications system
CN1181466C (zh) * 2001-12-17 2004-12-22 中国科学院自动化研究所 基于子带能量和特征检测技术的语音信号端点检测方法
CA2420129A1 (en) * 2003-02-17 2004-08-17 Catena Networks, Canada, Inc. A method for robustly detecting voice activity
WO2005070130A2 (en) * 2004-01-12 2005-08-04 Voice Signal Technologies, Inc. Speech recognition channel normalization utilizing measured energy values from speech utterance
US7873114B2 (en) 2007-03-29 2011-01-18 Motorola Mobility, Inc. Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate
TWI467568B (zh) * 2007-07-13 2015-01-01 Dolby Lab Licensing Corp 使用位準時變評估機率密度之時變音訊信號位準
CN101802910B (zh) * 2007-09-12 2012-11-07 杜比实验室特许公司 利用话音清晰性的语音增强
US8223988B2 (en) * 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
WO2014062152A1 (en) * 2012-10-15 2014-04-24 Mh Acoustics, Llc Noise-reducing directional microphone array
WO2010046954A1 (ja) * 2008-10-24 2010-04-29 三菱電機株式会社 雑音抑圧装置および音声復号化装置
US8340405B2 (en) * 2009-01-13 2012-12-25 Fuji Xerox Co., Ltd. Systems and methods for scalable media categorization
US8412525B2 (en) * 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble
US8571231B2 (en) * 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
CN102804261B (zh) * 2009-10-19 2015-02-18 瑞典爱立信有限公司 用于语音编码器的方法和语音活动检测器
WO2012109384A1 (en) * 2011-02-10 2012-08-16 Dolby Laboratories Licensing Corporation Combined suppression of noise and out - of - location signals
US9384759B2 (en) * 2012-03-05 2016-07-05 Malaspina Labs (Barbados) Inc. Voice activity detection and pitch estimation
CN103325386B (zh) * 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和系统
US9305567B2 (en) * 2012-04-23 2016-04-05 Qualcomm Incorporated Systems and methods for audio signal processing
US20150262574A1 (en) * 2012-10-31 2015-09-17 Nec Corporation Expression classification device, expression classification method, dissatisfaction detection device, dissatisfaction detection method, and medium
KR101716646B1 (ko) * 2013-01-10 2017-03-15 한국전자통신연구원 국부이진패턴을 이용한 객체 검출 인식 방법 및 장치
CN103345923B (zh) * 2013-07-26 2016-05-11 电子科技大学 一种基于稀疏表示的短语音说话人识别方法
US9984706B2 (en) * 2013-08-01 2018-05-29 Verint Systems Ltd. Voice activity detection using a soft decision mechanism
CN104424956B9 (zh) * 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置
US9454975B2 (en) * 2013-11-07 2016-09-27 Nvidia Corporation Voice trigger
CN103578466B (zh) * 2013-11-11 2016-02-10 清华大学 基于分数阶傅里叶变换的语音非语音检测方法
US9524735B2 (en) * 2014-01-31 2016-12-20 Apple Inc. Threshold adaptation in two-channel noise estimation and voice activity detection

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10508389A (ja) * 1994-07-18 1998-08-18 松下電器産業株式会社 音声検出装置
JP2002542692A (ja) * 1999-04-19 2002-12-10 モトローラ・インコーポレイテッド 外部音声活動検出を用いたノイズ抑制
WO2001086633A1 (en) * 2000-05-10 2001-11-15 Multimedia Technologies Institute - Mti S.R.L. Voice activity detection and end-point detection
JP2005516247A (ja) * 2002-01-24 2005-06-02 モトローラ・インコーポレイテッド 雑音環境のための音声活動検出器及び有効化器
JP2010541010A (ja) * 2007-09-28 2010-12-24 クゥアルコム・インコーポレイテッド 複数マイクロホン音声アクティビティ検出器
JP2013515287A (ja) * 2009-12-21 2013-05-02 マインドスピード テクノロジーズ インコーポレイテッド 音声帯域拡張方法及び音声帯域拡張システム
JP2013545136A (ja) * 2010-10-25 2013-12-19 クゥアルコム・インコーポレイテッド 音声アクティビティ検出のための、システム、方法、および装置
US20120209601A1 (en) * 2011-01-10 2012-08-16 Aliphcom Dynamic enhancement of audio (DAE) in headset systems
US20130132076A1 (en) * 2011-11-23 2013-05-23 Creative Technology Ltd Smart rejecter for keyboard click noise

Also Published As

Publication number Publication date
CN107004409B (zh) 2021-01-29
KR20170060108A (ko) 2017-05-31
EP3198592A4 (en) 2018-05-16
US9953661B2 (en) 2018-04-24
US20180240472A1 (en) 2018-08-23
JP6694426B2 (ja) 2020-05-13
EP3198592A1 (en) 2017-08-02
KR102410392B1 (ko) 2022-06-16
WO2016049611A1 (en) 2016-03-31
US20160093313A1 (en) 2016-03-31
CN107004409A (zh) 2017-08-01

Similar Documents

Publication Publication Date Title
JP6694426B2 (ja) ランニング範囲正規化を利用したニューラルネットワーク音声活動検出
US10504539B2 (en) Voice activity detection systems and methods
US10127919B2 (en) Determining noise and sound power level differences between primary and reference channels
JP5596039B2 (ja) オーディオ信号における雑音推定の方法および装置
KR100486736B1 (ko) 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
JP4842583B2 (ja) 多感覚音声強調のための方法および装置
US9520138B2 (en) Adaptive modulation filtering for spectral feature enhancement
KR101260938B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
KR101317813B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
Martín-Doñas et al. Dual-channel DNN-based speech enhancement for smartphones
JP6190373B2 (ja) オーディオ信号ノイズ減衰
JP6265903B2 (ja) 信号雑音減衰
KR101335417B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
US10332541B2 (en) Determining noise and sound power level differences between primary and reference channels
Tashev et al. Unified framework for single channel speech enhancement
Zhang et al. Incorporating phase-encoded spectrum masking into speaker-independent monaural source separation
JP5147012B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180919

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200218

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200316

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200417

R150 Certificate of patent or registration of utility model

Ref document number: 6694426

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees