JP2019095551A - 生成装置、生成方法、および生成プログラム - Google Patents

生成装置、生成方法、および生成プログラム Download PDF

Info

Publication number
JP2019095551A
JP2019095551A JP2017223704A JP2017223704A JP2019095551A JP 2019095551 A JP2019095551 A JP 2019095551A JP 2017223704 A JP2017223704 A JP 2017223704A JP 2017223704 A JP2017223704 A JP 2017223704A JP 2019095551 A JP2019095551 A JP 2019095551A
Authority
JP
Japan
Prior art keywords
signal
range
predetermined
observation
information providing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017223704A
Other languages
English (en)
Other versions
JP6991041B2 (ja
Inventor
祐介 木田
Yusuke Kida
祐介 木田
トラン デュング
Tran Dung
トラン デュング
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2017223704A priority Critical patent/JP6991041B2/ja
Priority to US16/131,561 priority patent/US20190156846A1/en
Publication of JP2019095551A publication Critical patent/JP2019095551A/ja
Application granted granted Critical
Publication of JP6991041B2 publication Critical patent/JP6991041B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】目的信号の認識精度を向上させること。【解決手段】本願に係る生成装置は、観測信号のうち、所定の信号が含まれる所定範囲を推定する推定部と、前記所定範囲に含まれる信号のうち前記所定の信号を強調した強調範囲に基づいて、前記観測信号のうち前記所定範囲以外の範囲から前記所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する生成部とを有することを特徴とする。【選択図】図1

Description

本発明は生成装置、生成方法、および生成プログラムに関する。
従来、観測信号に含まれる複数の信号から認識目的となる信号(以下、「目的信号」と記載する場合がある。)の認識精度を向上させる技術が知られている。このような技術の一例として、複数の測定装置が同時期に測定した測定信号の比較結果に基づいて、目的信号の伝達元となる方向を推定し、推定した方向から伝達する信号を強調するビームフォーミング処理が提案されている。
特開2017−90853号公報
しかしながら、従来技術では、目的信号の認識精度を向上させることができない恐れがある。
例えば、上述した従来技術では、観測信号のうち目的信号が含まれる時間帯を推定し、推定した時間帯の観測信号を用いて、目的信号を強調するための空間相関行列を算出する。しかしながら、このような技術では、推定した時間帯に目的信号以外の信号(例えば、雑音となる信号や残響信号等)が含まれている場合、目的信号以外の信号を強調する空間相関行列を算出する恐れがある。
本願は、上記に鑑みてなされたものであって、目的信号の認識精度を向上させることを目的とする。
本願に係る生成装置は、観測信号のうち、所定の信号が含まれる所定範囲を推定する推定部と、前記所定範囲に含まれる信号のうち前記所定の信号を強調した強調範囲に基づいて、前記観測信号のうち前記所定範囲以外の範囲から前記所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する生成部とを有することを特徴とする。
実施形態の一態様によれば、目的信号の認識精度を向上させることができる。
図1は、実施形態に係る情報提供装置が実行する学習処理および生成処理の一例を示す図である。 図2は、実施形態に係る情報提供装置および音声デバイスの構成例を示す図である。 図3は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。 図4は、実施形態に係る観測信号データベースに登録される情報の一例を示す図である。 図5は、実施形態に係る情報提供装置が信号を強調する処理結果の一例を示す図である。 図6は、実施形態に係る情報提供装置が実行する処理の流れの一例を示すフローチャートである。 図7は、ハードウェア構成の一例を示す図である。
以下に、本願に係る生成装置、生成方法、および生成プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る生成装置、生成方法、および生成プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.情報提供装置の概要について〕
まず、図1を用いて、生成装置の一例である情報提供装置が実行する学習処理および生成処理の一例について説明する。図1は、実施形態に係る情報提供装置が実行する学習処理および生成処理の一例を示す図である。図1では、情報提供装置10は、以下に説明する学習処理および生成処理を実行する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。
例えば、情報提供装置10は、インターネット等の所定のネットワークN(例えば、図2参照)を介して、所定の情報処理装置100および音声デバイス200と通信可能である。例えば、情報処理装置100は、情報処理装置100や音声デバイス200との間で、音声に関するデータ等、各種データの送受信を行う。
情報処理装置100は、各種データを保持する情報処理装置であり、サーバ装置やクラウドシステム等により実現される。例えば、情報処理装置100は、後述する学習処理において用いる学習データを保持し、学習データを情報提供装置10に提供する。
音声デバイス200は、周囲の音を取得するマイク等の取得装置と、任意の音を出力可能なスピーカー等の出力装置とを有する入出力装置とを有する入出力装置であり、例えば、スマートスピーカーと呼ばれるデバイスである。例えば、音声デバイス200は、出力装置を用いて、音楽の出力や音声による情報提供を実現可能な装置である。また、音声デバイス200は、音の入力を受付ける受付機能を有し、利用者Uが発した音声を取得すると、取得した音声の内容に応じた音を出力する出力機能を有する。
例えば、音声デバイス200は、利用者Uが所定の楽曲の曲名を示す音声を発した場合には、各種の音声解析技術により、音声が示す曲名を特定し、特定した曲名が示す楽曲のデータを、ネットワークN(例えば、図2を参照)を介して、所定の外部サーバ(図示は省略)から取得する。そして、音声デバイスは、取得した楽曲を再生する。
なお、音声デバイス200は、例えば、利用者Uが発した音声の内容を各種の音声解析技術により特定し、特定した内容に応じた応答を出力する機能を有する。例えば、音声デバイス200は、「今日の天気は?」といった利用者Uの音声を取得した場合は、外部サーバから天気や気温などといった各種の気象情報を取得し、取得した気象情報を読み上げることで、利用者Uに天気の情報を提供する。また、音声デバイス200は、上述した処理以外にも、例えば、電子商店街に出品された商品の注文、空調装置や照明装置等といった各種家電機器の制御、メールやスケジュールの読み上げ等といった各種の処理を実現可能なスマートスピーカーである。
ここで、音声デバイス200は、それぞれ異なる位置に取付けられた複数の取得装置(例えば、マイク等)を有し、各取得装置を介して受付けた音声を用いて、上述した各種の処理を実行するものとする。なお、音声デバイス200は、それぞれ異なる位置に取付けられた複数の取得装置を有する装置であれば、例えば、スマートデバイスや録音装置等、任意の装置であってもよい。また、音声デバイス200は、物理的に離間した位置に設置された複数の取得装置と無線LAN(Local Area Network)やブルートゥース(登録商標)等の無線通信を介して接続され、各取得装置が取得した音声を収集する装置であってもよい。
なお、以下の説明では、音声デバイス200は、入力装置として複数のマイクを有するものとする。また、以下の説明では、各マイクが取得した音声信号を観測信号と記載する場合がある。
〔1−1.情報提供装置10が実行する処理について〕
ここで、利用者Uが発した声を精度よく解析するため、ビームフォーミングと呼ばれる技術が知られている。このような技術では、利用者Uの声が発せられた方向とマイクの間の空間的な情報を推定する。そして、利用者Uの声が発せられた方向から到来する音声を強調するよう、推定した空間的な情報を用いて各マイクが観測した観測信号に対する重み付けを行い、各観測信号の合成が行われる。
ここで、「音楽をかけて」や「今日の天気は?」等といった認識対象となる利用者Uの声の音声信号、すなわち、目的信号の認識精度を向上させるため、このようなビームフォーミングの技術を用いる手法が考えられる。しかしながら、観測信号に目的信号のみならず、雑音や残響音の信号(以下、「雑音信号」と総称する)が含まれる場合、雑音信号を強調してしまう恐れがある。例えば、テレビやラジオから音声が出力されている場合、利用者Uが「今日の天気は?」といった発話を行ったとしても、テレビやラジオから出力されている音声の音声信号を目的信号として誤認し、テレビやラジオから出力されている音声の音声信号を強調し、利用者Uの発話の音声信号を雑音信号として低減させる恐れがある。
一方で、音声デバイス200に対して何かしらの指示を音声により行う場合、所定のキーワードを発話した後で、指示の内容を続けて発話する態様が考えられる。そこで、情報提供装置10は、以下の生成処理を実行する。
まず、情報提供装置10は、観測信号のうち、所定の信号が含まれる所定範囲を推定する。そして、情報提供装置10は、所定範囲に含まれる信号のうち所定の信号を強調した所定範囲(以下、「強調範囲」と記載する。)に基づいて、観測信号のうち所定範囲以外の範囲から所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する。例えば、情報提供装置10は、音声信号のうち所定の信号が含まれる範囲を所定範囲として推定する。そして、情報提供装置10は、所定範囲に含まれる信号のうち、所定の信号であると推定される信号を強調した強調範囲を生成し、生成した強調範囲に含まれる各信号(以下、「強調信号」と記載する。)に基づいて、音声信号のうち所定範囲以外の範囲から所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する。
例えば、情報提供装置10は、音声デバイス200の各マイクが観測した観測信号をそれぞれ取得する。このような場合、情報提供装置10は、観測信号ごとに、所定の信号として、波形若しくは周波数特性が所定の特徴を有する信号が含まれる範囲を所定範囲として推定する。より具体的には、情報提供装置10は、観測信号として観測された音声信号のうち、利用者Uが所定のキーワードを発話した際の音声信号が含まれる範囲を所定範囲として推定する。なお、情報提供装置10は、1つのマイクが観測した観測信号から所定範囲を推定し、推定した所定範囲を各マイクで共有してもよい。例えば、情報提供装置10は、第1のマイクが観測した観測信号のうちある範囲を所定範囲として推定した場合、第1のマイクが所定範囲を観測した際に、第2のマイクが観測していた観測信号の範囲を第2のマイクが観測した観測信号の所定範囲としてもよい。
そして、情報提供装置10は、観測信号のうち、所定範囲よりも後の範囲から所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する。すなわち、情報提供装置10は、観測信号のうち、利用者Uがキーワードを発話した際の音声信号(以下、「キーワード信号」と記載する)よりも後に観測された音声信号、すなわち、キーワードに続いて発話された指示の内容の音声信号を強調するためのフィルタを生成する。
ここで、推定された所定範囲には、キーワード信号のみならず、雑音信号や残響音の信号等が含まれる恐れがある。そこで、情報提供装置10は、所定範囲に含まれる各信号のうち、キーワード信号であると推定される信号(例えば、周波数特性等といった特徴が、キーワード信号と類似する信号)を強調した強調範囲を生成する。より具体的には、情報提供装置10は、キーワード信号等といった所定の信号が有する特徴を学習したモデルを用いて、所定範囲に含まれる各信号のうちキーワード信号と類似する特徴を有する信号を推定し、推定した信号を強調するマスクを生成する。そして、情報提供装置10は、マスクを用いて、所定範囲に含まれる各信号のうち所定信号を強調した強調範囲を生成し、強調範囲に含まれる信号、すなわち、強調信号を用いて、観測信号からキーワード信号と類似する信号を強調するフィルタを生成する。
換言すると、情報提供装置10は、観測信号のうち、キーワード信号が含まれる所定範囲をそのまま用いるのではなく、所定範囲に含まれる信号のうち所定の信号を強調した強調信号を用いて、キーワード信号に続く目的信号を強調するためのフィルタを生成する。その後、情報提供装置10は、生成したフィルタを用いて、観測信号から目的信号を強調し、目的信号の解析を行う。例えば、情報提供装置10は、音声解析技術により目的信号から利用者Uの指示発話の内容を特定し、特定した内容に応じた処理を実行する。このように、情報提供装置10は、所定の信号を強調した強調信号に基づいて、所定の信号と共通する特徴を有する信号を強調するフィルタを生成するので、フィルタの精度を向上させることができる。
〔1−2.情報提供装置10が生成するフィルタについて〕
ここで、情報提供装置10は、観測信号から目的信号を強調するためのフィルタであれば、任意のフィルタを生成してよい。例えば、キーワードと指示発話とは、同じ利用者Uによって発話されることとなるため、音声の到来方向や周波数特性が類似すると考えられる。そこで、情報提供装置10は、観測信号に含まれる各種の信号のうち、キーワード信号と空間的な特徴や周波数特性が類似する信号を目的信号として強調するためのフィルタを生成する。
例えば、情報提供装置10は、空間的な特徴として、キーワード信号の到来方向を推定し、推定した方向から到来する信号を目的信号として強調するためのフィルタを生成する。より具体的には、情報提供装置10は、それぞれ設置位置が異なる複数のマイクが同時期に取得した複数の観測信号を合成する際の重みづけ係数を、各マイクごとに生成する。すなわち、情報提供装置10は、複数の観測信号のうち所定範囲以外の範囲から所定の信号と空間的な特徴(例えば、信号の到来方向等)が類似する信号を強調するためのフィルタを生成する。
例えば、情報提供装置10は、周知のマイクアレーの技術を用いて、目的信号を強調するためのフィルタを生成する。例えば、情報提供装置10は、各マイクが観測した観測信号の時間的なずれを補正し、補正した観測信号の足し合わせを行うことで、目的信号の強調を行う。あるいは、情報提供装置10は、観測信号を周波数変換し、周波数領域でフィルタリングを実行することで、目的信号の強調を行う。例えば、情報提供装置10は、フーリエ変換した周波数fの信号をX(f)、フィルタ(重み)をW(f)とすると、Y(f)=W(f)X(f)という乗算を行い、周波数fごとに得られたY(f)を逆フーリエ変換することで、再度時間信号に戻すことで、目的信号が協調された観測信号を得ることができる。
また、情報提供装置10は、空間的な特徴のみならず、例えば、所定の信号と周波数特性が類似する信号を強調するためのフィルタを生成してもよい。例えば、情報提供装置10は、観測信号から所定範囲を推定し、推定した所定範囲に含まれる信号から所定の特徴(例えば、波形が所定の特徴を有する信号等)を有する信号をキーワード信号として抽出する。そして、情報提供装置10は、抽出したキーワード信号が有する周波数特性を特定し、観測信号のうち所定範囲以外の範囲に含まれる信号のうち、特定した周波数特定を有する信号を強調するためのフィルタを生成してもよい。
〔1−3.所定範囲の推定および所定の信号の抽出について〕
ここで、情報提供装置10は、任意の手法を用いて、所定範囲の推定を行ってもよい。例えば、情報提供装置10は、公知の音声推定技術を用いて、観測信号のうちキーワード信号が含まれる範囲を推定してもよい。より具体的な例を挙げると、情報提供装置10は、キーワード信号の波形や周波数特性の特徴をあらかじめ学習し、観測信号に学習した特性を有する信号が含まれる可能性が高い範囲をキーワード信号が含まれる範囲、すなわち、所定範囲として推定してもよい。
ここで、所定範囲からキーワード信号を適切に抽出できない場合、目的信号を強調するフィルタの精度が劣化する恐れがある。そこで、情報提供装置10は、キーワード信号等といった所定の信号が有する特徴を学習したモデルを用いて、所定範囲に含まれる信号のうち所定の信号と類似する特徴を有する類似信号を強調し、類似信号を強調した所定範囲に基づいて、フィルタを生成してもよい。すなわち、情報提供装置10は、所定範囲に含まれる信号のうち類似信号を強調することで、雑音や残響音であると推定される信号を抑制した強調信号を生成する。そして、情報提供装置10は、強調信号を用いて、フィルタを生成してもよい。このような処理の結果、情報提供装置10は、キーワード信号であると推定される信号の寄与がより大きい信号を用いて、フィルタの生成を行うので、利用者の指示発話をより精度良く強調するフィルタの生成を実現できる。
例えば、情報提供装置10は、観測信号のうち所定の信号が含まれる範囲の波形又は周波数特性を深層学習したモデルの学習を行う学習処理をあらかじめ実行する。そして、情報提供装置10は、学習を行ったモデルを用いて、所定範囲に含まれるキーワード信号を強調し、強調したキーワード信号を含む強調信号を用いて、目的信号を強調するフィルタの生成を行う。
以下、情報提供装置10が実行する学習処理の一例について説明する。例えば、情報提供装置10は、複数のノードを多段に接続したニューラルネットワークをモデルとして準備する。このようなモデルは、例えば、DNN(Deep Neural Network)、LSTM(Long Short-Term Memory)畳み込みニューラルネットワークや、再帰型ニューラルネットワークであってもよい。また、モデルは、これら畳み込みニューラルネットワークや、再帰型ニューラルネットワークの機能を組み合わせたものであってもよい。また、情報提供装置10は、サポートベクトル回帰(Support Vector Regression)等の任意の回帰モデルを用いてもよい。
続いて、情報提供装置10は、学習処理に用いる信号(以下、「学習信号」と総称する場合がある。)を取得する。例えば、情報提供装置10は、雑音の少ない環境で発話された様々なキーワードの音声信号と、雑音や反響音等といった様々な雑音信号を取得する。そして、情報提供装置10は、取得した音声信号と雑音信号との混合信号を学習信号として取得し、取得した学習信号、すなわち混合信号をモデルへの入力信号とし、混合信号に含まれるキーワード音声信号の割合を示すマスクを教師信号として、学習信号に含まれるキーワード信号を強調するためのマスク(以下、「キーワード強調マスク」と記載する。)を出力するように、モデルの学習を行う。
例えば、情報提供装置10は、学習信号を入力信号として入力した際に、入力信号を所定の範囲の周波数帯と所定の長さの時間帯との組に分割した各組ごとに、キーワード信号を構成する信号が含まれる確度を算出するように、モデルの学習を行う。より具体的には、情報提供装置10は、学習信号を周波数帯と時間帯との組に分割し、各組にキーワード信号が含まれているか否かを判定する。そして、情報提供装置10は、学習信号をモデルに入力した際に、キーワード信号が含まれている組の確度が高くなり、キーワード信号が含まれていない組の確度が低くなるように、モデルの学習を行う。例えば、情報提供装置10は、モデルが有するノード間の接続係数、すなわち、あるノードが次段のノードに値を伝達する際の重みづけ係数を修正することで、キーワード信号が有する特徴を学習させる。
また、情報提供装置10は、観測信号のうち推定した所定範囲を入力信号として学習済モデルに入力する。このような場合、学習済モデルは、入力信号の周波数帯と時間帯との組ごとに、キーワード信号が含まれる確度を出力する。すなわち、学習済モデルは、入力信号に含まれる各信号のうち、キーワード信号と類似する特徴を有する可能性が高い信号が含まれる確度を、入力信号の周波数帯と時間帯との組ごとに出力する。このような確度は、所定範囲に含まれる信号のうち、キーワード信号等の所定の信号を強調し、雑音等の他の信号を低減するマスクとして利用可能である。このため、情報提供装置10は、学習済モデルが出力した確度を用いて、所定範囲のうちキーワード信号の強調を行う。例えば、情報提供装置10は、所定範囲に含まれる周波数帯と時間帯との組のうち、学習済モデルが出力した確度が所定の閾値を超える組に含まれる信号の振幅を増大させ、他の組に含まれる信号の振幅を減少させてもよい。また、情報提供装置10は、各組に含まれる信号の振幅に対し、学習済モデルが出力した確度若しくはその確度に応じた係数を積算してもよい。すなわち、情報提供装置10は、学習済モデルが出力した確度をキーワード強調マスクとして利用する。
このような処理の結果、情報提供装置10は、キーワード信号が協調された所定範囲、すなわち、強調範囲を得ることができる。このような処理を各観測信号から推定された所定範囲ごとに実行することで、情報提供装置10は、キーワード信号が有する特徴を適切に抽出し、抽出した特徴に基づいて、目的信号を強調するフィルタを作成することができる。
〔1−4.情報提供装置10が実行する処理の一例について〕
次に、図1を用いて、情報提供装置10が実行する処理の流れの一例について説明する。例えば、情報提供装置10は、情報処理装置100からキーワードを含む音声データを学習信号として取得する(ステップS1)。このような場合、情報提供装置10は、音声データの中からキーワードの音声部分を強調するキーワード強調マスクを生成するようにモデルの学習を行う(ステップS2)。例えば、情報提供装置10は、キーワードの音声と雑音とが混ざった信号や、キーワードの音声と残響音とが混ざった信号を入力信号として入力した際に、キーワードの音声部分、すなわち、キーワード信号部分を強調するキーワード強調マスクを出力するようにモデルの学習を行う。
一方、音声デバイス200は、複数のマイクを用いて観測信号を取得する(ステップS3)。例えば、音声デバイス200は、利用者Uの発話のみならず、テレビジョンから発せされた音声等といった雑音を含む音声信号を観測信号として取得する。なお、図1に示す例では、利用者Uの発話には、キーワードと指示発話とが含まれるものとする。
このような場合、情報提供装置10は、各マイクが取得した観測信号を取得する(ステップS4)。そして、情報提供装置10は、各観測信号ごとに、キーワードを含む範囲を所定範囲として推定し、推定した所定範囲から、モデルを用いてキーワード強調マスクを生成する(ステップS5)。
例えば、情報提供装置10は、マイク#1が取得した観測信号#1を解析し、キーワード信号が含まれる可能性が高い範囲を所定範囲#1として抽出する。また、情報提供装置10は、観測信号#1のうち、所定範囲#1に続く所定の範囲(例えば、数十秒間の範囲や、音声が含まれる範囲)を指示発話が含まれる指示範囲#1として抽出する。
続いて、情報提供装置10は、学習済モデルに所定範囲#1を入力信号として入力し、所定範囲#1からキーワード信号を強調するためのキーワード強調マスク#1を取得する。そして、情報提供装置10は、キーワード強調マスクを用いて、各マイクが観測した観測信号の所定範囲に含まれるキーワードを強調する(ステップS6)。例えば、情報提供装置10は、所定範囲#1とキーワード強調マスク#1とを用いて、所定範囲#1に含まれる信号のうち、キーワード信号を強調した強調信号#1を生成する。また、情報提供装置10は、マイク#2が取得した観測信号#2から所定範囲#2を推定し、推定した所定範囲#2から生成したキーワード強調マスク#2と所定範囲#2とから、所定範囲#2に含まれる信号のうちキーワード信号を強調した強調信号#2を生成する。また、情報提供装置10は、他のマイクが取得した観測信号についても同様の処理を行い、マイクごとにキーワード信号を強調した強調信号を取得する。
そして、情報提供装置10は、各強調信号を用いて、キーワードの到来方向の信号を強調するフィルタを生成する(ステップS7)。例えば、情報提供装置10は、マイク#1〜マイク#4が取得した観測信号#1〜#4から生成した強調信号#1〜#4を比較することで、キーワード信号を取得した時間のタイミングのズレやキーワード信号の強度のズレを特定し、タイミングや強度のズレと各マイクの設置位置との関係性に基づいて、キーワード信号の到来方向を推定する。そして、情報提供装置10は、推定した方向から到来する信号を強調するためのフィルタを空間フィルタとして生成する。例えば、情報提供装置10は、各マイクが取得した観測信号を合成する際の重みづけ係数を各マイクごとに設定する。
なお、情報提供装置10は、例えば、MVDR(Minimum Variance Distortionless Response)、GEV(Generalized Eigenvalue)、若しくはML(Maximum Likelihood)等といった各種ビームフォーミング技術を用いて、フィルタの生成を行ってもよい。
そして、情報提供装置10は、空間フィルタを用いて各マイクが観測した指示範囲を合成し、合成した指示範囲の音声認識結果に応じた処理結果を取得する(ステップS8)。例えば、情報提供装置10は、各マイクが取得した指示範囲に含まれる信号の振幅に対し、各マイクごとに設定した係数を積算した信号を生成し、生成した信号を合成した合成指示範囲を生成する。そして、情報提供装置10は、音声認識技術により合成指示範囲に含まれる指示範囲を認識し、認識結果に応じた処理結果を取得する。そして、情報提供装置10は、処理結果を音声デバイス200に出力する(ステップS9)。
このように、情報提供装置10は、観測信号からキーワード信号が含まれる所定範囲を推定し、推定した所定範囲に含まれる信号に基づいて、所定範囲に続く範囲に含まれる指示発話を強調するフィルタを生成する。そして、情報提供装置10は、生成したフィルタを用いて指示発話を強調し、強調した指示発話の認識を行うので、利用者Uが発話した指示発話を精度よく認識し、適切な処理結果を提供することができる。
〔1−5.処理の実行主体について〕
上述した例では、情報提供装置10は、学習済モデルの学習、観測信号からキーワード信号が含まれる所定範囲の推定、所定範囲からモデルを用いたキーワード強調マスクの作成、キーワード強調マスクを用いたキーワード信号の強調、キーワード信号を強調した強調信号を用いたフィルタの生成、およびフィルタを用いた指示発話の特定を行った。しかしながら、実施形態は、これに限定されるものではない。
例えば、上述した各処理は、音声デバイス200がスタンドアローンで実行してもよい。また、情報提供装置10は、学習済モデルの学習を行い、学習済モデルを音声デバイス200に提供してもよい。すなわち、情報提供装置10は、モデルの学習を行う学習装置であってもよい。
例えば、音声デバイス200は、観測信号からキーワード信号が含まれる所定範囲を推定し、所定範囲から学習済モデルを用いてキーワード強調マスクを作成する。また、音声デバイス200は、キーワード強調マスクを用いたキーワード信号の強調を行い、キーワード信号を強調した強調信号を用いたフィルタの生成を行う。そして、音声デバイス200は、フィルタを用いた指示発話の特定を行い、特定した指示発話を情報提供装置10へと提供してもよい。このような場合、情報提供装置10は、音声デバイス200から取得した指示発話に従って処理を行い、処理結果を音声デバイス200に提供してもよい。
また、上述した各処理は、情報提供装置10と音声デバイス200とのいずれかによって実現されてもよい。また、フィルタを用いて合成した合成指示範囲から指示発話を認識する処理は、音声認識を行う任意の外部サーバにより実現されてもよい。
また、例えば、情報提供装置10は、他の学習装置によって学習が行われた学習済モデルを用いて、推定範囲からキーワード強調マスクを生成し、生成したキーワード強調マスクを他のサーバ装置に提供する装置であってもよい。また、情報提供装置10は、他のサーバ装置によって生成されたキーワード強調マスクを用いて、観測信号からキーワード信号を強調し、強調したキーワード信号を用いて目的信号を強調するフィルタを生成する生成装置であってもよい。
〔1−6.処理の適用範囲について〕
上述した説明では、情報提供装置10は、音声デバイス200が取得した音声信号を観測信号とし、観測信号から所定範囲の推定や、指示発話の音声信号を目的信号として強調するフィルタの生成を行った。しかしながら、実施形態は、これに限定されるものではない。すなわち、上述したフィルタを生成する生成処理等は、音声のみならず、任意の波形を有する任意の観測対象に対して適用可能である。
例えば、情報提供装置10は、複数のアンテナがそれぞれ取得した携帯端末からの電波を観測信号として取得する。このような場合、情報提供装置10は、ハンドシェイクを行う際の電波等、所定の信号を含む範囲を所定範囲として推定し、所定範囲から所定の信号の強調を行い、強調した所定の信号と各アンテナの位置関係とから、端末装置の方向を推定し、推定した方向から到来する電波を強調するフィルタの生成を行ってもよい。
また、情報提供装置10は、キーワード信号以外にも、任意の信号を所定の信号としてもよい。例えば、情報提供装置10は、目的信号に先駆けて観測される可能性が高い信号を所定の信号とし、所定の信号が含まれる所定範囲から目的信号を強調するフィルタを生成すればよい。
〔1−7.モデルの学習内容について〕
上述した例では、情報提供装置10は、キーワード信号を強調するキーワード強調マスクを出力するように、モデルの学習を行った。しかしながら、実施形態は、これに限定されるものではない。例えば、DNN等のモデルは、ある入力情報を入力した際に、その入力情報が有する特徴に基づいた出力情報を出力するように学習を行うことが可能である。このようなモデルの特性を考慮し、例えば、情報提供装置10は、学習信号を入力した際に、時間帯と周波数帯との各組に含まれるキーワード信号の振幅を直接出力するように、モデルの学習を行ってもよい。例えば、情報提供装置10は、教師信号として、入力信号となる混合信号に含まれるキーワード信号を取得する。そして、情報提供装置10は、混合信号をモデルに入力した際に、キーワード信号を出力するように、モデルの学習を行ってもよい。
このように、情報提供装置10は、キーワード信号等といった所定の信号の特徴を学習したモデルを用いて、所定範囲に含まれる信号から所定の信号を抽出する。すなわち、情報提供装置10は、モデルを用いて、所定範囲に含まれる信号のうち、所定の信号を強調し、雑音信号等の他の信号を低減した強調範囲を生成する。そして、情報提供装置10は、生成した強調範囲、すなわち、所定範囲に含まれる信号からモデルが推定した所定の信号を用いて、フィルタの生成を行ってもよい。すなわち、所定範囲から所定の信号を強調するといった処理は、モデルを用いてキーワード強調マスクを生成する処理のみならず、モデルを用いてキーワード信号であると推定される信号のみを抽出する処理を含む概念である。
〔2.情報提供装置が有する機能構成の一例について〕
以下、上記した検出処理および配信処理を実現する情報提供装置10および音声デバイス200が有する機能構成の一例について説明する。図2は、実施形態に係る情報提供装置および音声デバイスの構成例を示す図である。図2に示すように、音声デバイス200は、通信部210、出力部220、および観測部230を有する。また、情報提供装置10は、通信部20、記憶部30、および制御部40を有する。
まず、音声デバイス200が有する機能構成の一例について説明する。通信部210は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部210は、ネットワークNと有線または無線で接続され、例えば、情報提供装置10との間で各種データの送受信、入力情報および対応情報の送受信を行う。
出力部220は、各種の情報を出力する出力装置であり、例えば、音声信号を出力するスピーカー等により実現される。また、出力部220は、文字や画像等を出力するモニタ等の表示装置であってもよい。
観測部230は、各種観測対象となる信号を観測する観測装置である。例えば、観測部230は、設置位置がそれぞれ異なる複数のマイク#1、#2等により実現される。例えば、観測部230は、各マイクにより同時期に観測された観測信号を、それぞれ情報提供装置10へと出力する。
なお、音声デバイス200は、図2に示す機能構成以外にも、各種の情報処理を実行する処理部や、記憶部を有していてもよい。このような処理部は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。また、記憶部は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現されてもよい。
続いて、情報提供装置10が有する機能構成の一例について説明する。例えば、通信部20は、例えば、NIC等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、例えば、情報処理装置100や音声デバイス200との間で学習データの送受信、観測信号や処理結果の送受信を行う。
記憶部30は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部30は、学習データデータベース31、観測信号データベース32、およびモデルデータベース33を記憶する。
学習データデータベース31は、学習データが登録される。例えば、図3は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図3に示すように、学習データデータベース31には、「学習データID(Identifier)」、「入力信号」、および「教師信号」といった項目を有する情報が登録される。
ここで、「学習データID」とは、学習データの識別子である。また、「入力信号」とは、モデルの学習時に用いられる信号であり、例えば、キーワード信号を含む音声信号である。また、「教師信号」とは、対応付けられた入力信号のうち、キーワード信号が含まれる範囲(すなわち、キーワード信号が含まれる周波数帯と時間帯との組)を示す信号である。なお、教師信号は、入力信号に含まれるキーワード信号そのものであってもよい。
例えば、図3に示す例では、学習データデータベース31には学習データID「ID#1」、入力信号「入力信号#1」、教師信号「教師信号#1」が対応付けて登録されている。このような情報は、学習データID「ID#1」が示す学習データが、入力信号「入力信号#1」であり、入力信号「入力信号#1」のうち、キーワード信号が教師信号「教師信号#1」が示す範囲である旨を示す。
なお、図3に示す例では、「入力信号#1」や「教師信号#1」といった概念的な値を記載したが、実際には、学習データデータベース31には、音声信号等が入力信号や教師信号として登録されることとなる。また、図3に示す情報以外にも、学習データデータベース31には、任意の情報が登録されていてよい。
図2に戻り、説明を続ける。観測信号データベース32には、音声デバイス200によって観測された観測信号が登録される。例えば、図4は、実施形態に係る観測信号データベースに登録される情報の一例を示す図である。図4に示すように、観測信号データベース32には、「信号ID」、「装置ID」、および「観測信号」といった項目を有する情報が登録される。
ここで、「信号ID」とは、観測信号の識別子である。また、「装置ID」とは、対応付けられた信号IDが示す観測信号を測定した観測装置、すなわち、音声デバイス200が有するマイクを識別するための識別子である。また、「観測信号」とは、対応付けられた「装置ID」が示す観測装置により観測された観測信号である。
例えば、図4に示す例では、観測信号データベース32には信号ID「信号#1」、装置ID「マイク#1」、観測信号「観測信号#1」が対応付けて登録されている。このような情報は、信号ID「信号#1」が示す観測信号が、観測信号「観測信号#1」であり、装置ID「マイク#1」が示すマイクにより観測された旨を示す。
なお、図4に示す例では、「観測信号#1」といった概念的な値を記載したが、実際には、観測信号データベース32には、観測信号として音声信号等が登録されることとなる。また、図4に示す情報以外にも、観測信号データベース32には、例えば、各マイクの設置位置等が登録されていてよい。
図2に戻り、説明を続ける。モデルデータベース33には、学習済モデルが登録される。例えば、モデルデータベース33には、モデルに入力される情報である入力情報が入力される入力層と、入力層に入力された入力情報に対して所定の処理を順次行う複数の中間層と、複数の中間層のうち最後に処理を行う終端中間層の出力に基づいて、入力情報に対応する出力情報を生成する出力層とを有するモデルのデータが登録されている。より具体的には、モデルデータベース33には、各ノードの接続関係や、ノード間の接続係数を示すデータが登録される。
ここで、モデルは、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、入力層に入力された情報と対応する情報を出力層から出力するようコンピュータを機能させる。なお、モデルは、人工知能ソフトウェアの一部であるプログラムモジュールとしての利用が想定されるものであってもよい。
このようなモデルは、入力層に観測信号の所定範囲といった入力信号が入力された場合に、出力層から、入力信号のうち所定の信号を強調するマスクを出力するようコンピュータを機能させる。例えば、モデルは、CPU及びメモリを備えるコンピュータにて用いられる。具体的には、コンピュータのCPUが、メモリに記憶された学習済モデルからの指令に従って、モデルの入力層に入力された入力信号に対して、ニューラルネットワークにおける学習済みの重みづけ係数と応答関数等に基づく演算を行い、出力層から入力された入力信号のうち所定の信号(例えば、キーワード信号等)を強調するマスクを出力するよう動作する。
ここで、モデルをDNN等、1つまたは複数の中間層を有するニューラルネットワークで実現される場合、各モデルが含む第1要素とは、入力層または中間層が有するいずれかのノードと見做すことができ、第2要素とは、第1要素と対応するノードから値が伝達されるノード、すなわち、次段のノードと対応し、第1要素の重みとは、第1要素と対応するノードから第2要素と対応するノードに伝達される値に対して考慮される重み、すなわち、接続係数である。
ここで、情報提供装置10は、学習データデータベース31に登録される学習データを用いて、所定の信号を強調するマスクを生成するモデルを生成する。すなわち、学習データデータベース31に登録される学習データは、入力情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力情報の特徴を反映させた重みに基づく演算を行うことにより、入力された入力情報に対応する出力情報(例えば、入力信号に含まれるキーワード信号を強調するマスク)を出力層から出力するよう、コンピュータを機能させるためのデータである。
制御部40は、コントローラ(controller)であり、例えば、CPU、MPU等のプロセッサによって、情報提供装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部40は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現されてもよい。
また、制御部40は、記憶部30に記憶されるモデルを実行することで、モデルの入力層に入力された入力信号に対し、モデルが有する係数(すなわち、モデルが学習した各特徴に対応する係数)に基づく演算を行い、入力された入力信号から所定の信号を強調するマスクを生成し、モデルの出力層から出力する。
図2に示すように、制御部40は、学習部41、取得部42、推定部43、マスク生成部44、フィルタ生成部45、解析部46、および提供部47を有する。
学習部41は、モデルの学習を行う。より具体的には、学習部41は、観測信号のうち所定の信号が含まれる範囲の特徴をモデルに学習させる。例えば、学習部41は、所定の信号と雑音信号とを含む観測信号が入力された際に、観測信号のうち、所定の信号が含まれる範囲(例えば、時間帯と周波数との組)を強調するためのマスクを出力するように、モデルの学習を行う。
例えば、学習部41は、所定の構造を有するモデルを生成し、学習データデータベース31に登録された入力信号#1をモデルに入力する。そして、学習部41は、入力信号#1のうち、教師信号#1が示す信号を含む範囲に対してより高い値の確度を出力し、他の範囲に対してより低い値の確度を出力するように、バックプロパゲーション等の学習手法を用いて、モデルが有する接続係数の値を修正する。なお、学習部41は、任意の学習手法を用いて、モデルの学習を行ってよい。そして、学習部41は、学習済モデルをモデルデータベース33に登録する。
取得部42は、処理対象となる観測信号を取得する。例えば、取得部42は、音声デバイス200が各マイクを用いて取得した観測信号をそれぞれ取得する。このような場合、取得部42は、観測信号を観測信号データベース32に登録する。
推定部43は、観測信号のうち、所定の信号が含まれる所定範囲を推定する。例えば、推定部43は、音声信号のうち所定の信号が含まれる範囲を所定範囲として推定する。例えば、推定部43は、観測信号データベース32に登録された各観測信号を読み出し、読み出した観測信号ごとに、所定の信号として、波形若しくは周波数特性が所定の特徴を有する信号が含まれる範囲を推定する。例えば、推定部43は、観測信号として観測された音声信号のうち、利用者Uが所定のキーワードを発話した際の音声信号、すなわち、キーワード信号が含まれる範囲を所定範囲として推定する。より具体的には、推定部43は、それぞれ設置位置が異なる複数の取得装置が同時期に取得した複数の観測信号のうち、所定の信号が含まれる所定範囲を推定する。
例えば、推定部43は、任意の音声推定技術を用いて、観測信号のうち、キーワード信号が含まれる可能性が高い範囲を所定範囲として推定する。なお、推定部43は、例えば、学習部41によって学習が行われた学習モデルを用いて、観測信号の各領域のうち、キーワード信号が含まれる可能性が高い領域を特定し、特定した領域を含む時間帯を所定範囲として推定してもよい。
マスク生成部44は、所定の信号が有する特徴を学習したモデルを用いて、所定範囲に含まれる信号のうち所定の信号と類似する特徴を有する類似信号を強調するマスクを生成する。例えば、マスク生成部44は、観測信号のうち所定の信号が含まれる範囲の波形又は周波数特性を深層学習したモデルを用いて、所定範囲に含まれる信号のうち所定の信号と類似する特徴を有する類似信号を強調するマスクを生成する。
例えば、マスク生成部44は、観測信号のうち推定部43によって推定された所定範囲を抽出し、抽出した所定範囲に含まれる信号を入力信号として学習済モデルに入力する。そして、マスク生成部44は、学習済モデルの出力を、キーワード信号を強調するマスクとして取得する。すなわち、マスク生成部44は、観測信号に含まれる信号のうち、キーワード信号であると推定される信号(すなわち、特徴を学習したキーワード信号と類似する特徴を有する信号)を強調するマスクを生成する。
そして、マスク生成部44は、生成したマスクを用いて、所定範囲に含まれるキーワード信号を強調した強調信号を生成する。例えば、マスク生成部44は、所定範囲の各領域に含まれる信号の振幅を、学習済モデルが所定範囲の各領域ごとに算出した確度に従って増幅した強調信号を生成する。
フィルタ生成部45は、所定範囲に含まれる信号のうち所定の信号を強調した強調範囲に基づいて、観測信号のうち所定範囲以外の範囲から所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する。すなわち、フィルタ生成部45は、観測信号に含まれるキーワード信号を用いて、キーワード信号と同様の特徴を有する信号、すなわち、目的信号を強調するためのフィルタを生成する。
例えば、フィルタ生成部45は、音声信号のうち所定範囲に含まれる信号に基づいて、音声信号のうち所定範囲以外の範囲から所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する。具体的には、フィルタ生成部45は、各マイクごとに取得された観測信号からマスク生成部44が生成した強調信号を取得する。このような場合、フィルタ生成部45は、各強調信号に含まれる信号のうちキーワード信号の可能性が高い信号を抽出する。そして、フィルタ生成部45は、各強調信号から抽出した信号から、所定範囲よりも後の範囲から所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する。すなわち、フィルタ生成部45は、類似信号を強調した所定範囲に基づいて、フィルタを生成する。
例えば、フィルタ生成部45は、各強調信号から抽出した信号が観測された時間と、各マイクの設置位置とに基づいて、抽出した信号、すなわち、キーワード信号の到来方向を推定する。そして、フィルタ生成部45は、推定した到来方向から到来する信号を強調するためのフィルタを生成する。すなわち、フィルタ生成部45は、複数の観測信号のうち所定範囲以外の範囲から所定の信号と空間的な特徴が類似する信号を強調するためのフィルタを生成する。例えば、フィルタ生成部45は、複数のマイクがそれぞれ取得した観測信号を合成する際の重みづけ係数をフィルタとして生成する。
なお、フィルタ生成部45は、複数の観測信号のうち所定範囲以外の範囲から所定の信号と周波数特性が類似する信号を強調するための関数を生成してもよい。例えば、キーワードと指示発話とは、同じ利用者Uによって発話されるため、類似する周波数特性を有するとも考えられる。そこでフィルタ生成部45は、強調されたキーワード信号の周波数特性を推定し、観測信号から推定した周波数特性を有する信号を強調するためのフィルタを生成してもよい。
解析部46は、フィルタ生成部45によって生成されたフィルタを用いて、観測信号のうち所定範囲以外の範囲から目的信号を抽出する。そして、解析部46は、抽出した目的信号を解析し、利用者Uの指示発話を特定する。例えば、解析部46は、各マイクが取得した観測信号を、フィルタ生成部45によって生成されたフィルタを用いて合成する。例えば、解析部46は、各観測信号から、所定範囲に続く範囲を指示範囲として抽出する。そして、解析部46は、指示範囲を、フィルタ生成部45がフィルタとして生成した重みづけ係数を考慮して合成した合成指示範囲を生成する。そして、解析部46は、合成指示範囲に含まれる信号の解析を行い、利用者Uが発話した指示発話を特定する。
提供部47は、利用者Uの指示発話に応じた処理を実行し、処理結果を音声デバイス200に提供する。例えば、提供部47は、指示発話が「今日の天気は?」といった内容であった場合、外部サーバから天気予報を取得し、取得した天気予報の内容を読み上げる音声データを生成する。そして、提供部47は、生成した音声データを音声デバイス200に提供し、音声データの再生を実行させることで、利用者Uの指示発話に対応する処理結果を提供する。
〔3.精度の一例について〕
ここで、上述したモデルを用いて所定範囲からキーワード信号を強調する処理の結果の一例について説明する。図5は、実施形態に係る情報提供装置が信号を強調する処理結果の一例を示す図である。なお、図5に示す例では、キーワードの発話音声のみを含む第1音声信号、キーワードの発話音声と雑音とを含む第2音声信号、第2音声信号に対して音声のパワースペクトル密度を推定するモデルを用いて生成したマスクを反映させた第3音声信号、および第2音声信号に対してキーワード信号の特徴を学習したモデルを用いて生成したマスクを反映させた第4音声信号のパワースペクトルの一例について例示した。
例えば、図5中(A)には、キーワードの発話音声のみを含む第1音声信号のパワースペクトルを示し、図5中(B)には、キーワードの発話音声と雑音とを含む第2音声信号のパワースペクトルを示した。図5中(B)に示すように、キーワードと雑音とを含む第2音声信号においては、キーワードの発話音声であるキーワード信号が雑音により隠されてしまっている。
また、図5中(C)には、第2音声信号に対して音声のパワースペクトル密度を推定するモデルを用いて生成したマスクを反映させた第3音声信号のパワースペクトルを示した。図5中(C)に示すように、第3音声信号においては、タイミングT1に含まれる音声、すなわち、キーワード信号ではない雑音信号が除去されておらず、タイミングT2に含まれる音声、すなわち、キーワード信号が雑音とともに除去されてしまっている。
一方、図5中(D)には、第2音声信号に対してキーワード信号の特徴を学習したモデル、すなわち、上述した学習処理により学習が行われた学習済モデルを用いて生成したマスクを反映させた第4音声信号のパワースペクトルを示した。図5中(D)に示すように、第4音声信号においては、タイミングT1に含まれる音声、すなわち、キーワード信号ではない雑音信号が第3音声信号よりも軽減されており、タイミングT2に含まれる音声、すなわち、キーワード信号が第3音声信号よりも多く残されている。
このような第4音声信号を用いて、キーワード信号と推定される信号を抽出した場合、キーワード信号の成分が雑音よりも多い信号を抽出することができる。このような信号を用いて、指示発話等の目的信号を強調するフィルタを生成した場合、目的信号をより精度よく強調するフィルタを生成することができる。この結果、情報提供装置10は、目的信号の認識精度を向上させることができる。
〔4.情報提供装置が実行する処理の流れについて〕
次に、図6を用いて、情報提供装置10が実行する処理の流れの一例について説明する。図6は、実施形態に係る情報提供装置が実行する処理の流れの一例を示すフローチャートである。
まず、情報提供装置10は、複数のマイクが観測した観測信号を取得する(ステップS101)。このような場合、情報提供装置10は、キーワード信号等の所定の信号が含まれる所定範囲を推定し、推定した所定範囲から所定の信号を強調するマスクを作成する(ステップS102)。そして、情報提供装置10は、マスクを用いて所定範囲に含まれる所定の信号を強調する(ステップS103)。
また、情報提供装置10は、所定の信号を強調した強調信号を用いて、所定の信号と同様の特徴を有する目的信号を強調するフィルタを生成する(ステップS104)。そして、情報提供装置10は、生成したフィルタを用いて、各観測信号を合成する(ステップS105)。すなわち、情報提供装置10は、生成したフィルタを用いて各観測信号を合成することで、観測信号に含まれる目的信号を強調した信号を生成する。
また、情報提供装置10は、合成した信号から目的信号を抽出し、目的信号に対応する処理を実行する(ステップS106)。そして、情報提供装置10は、処理結果を提供し(ステップS107)、処理を終了する。
〔5.変形例〕
上記では、情報提供装置10による学習処理および生成処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10が実行する検出処理や配信処理のバリエーションについて説明する。
〔5−1.装置構成〕
記憶部30に登録された各データベース31〜33は、外部のストレージサーバに保持されていてもよい。また、情報提供装置10は、学習処理を実行する学習サーバ、生成処理を実行する生成サーバ、および利用者Uの発話に応じた各種の処理を実行する処理サーバとが連携して動作することにより、実現されてもよい。このような場合、学習サーバには、学習部41が配置されていればよく、生成サーバには、取得部42、推定部43、マスク生成部44、フィルタ生成部45が配置されていればよく、処理サーバには、解析部46および提供部47が配置されていればよい。
また、例えば、推定部43、マスク生成部44およびフィルタ生成部45は、音声デバイス200が有していてもよい。すなわち、生成処理は、音声デバイス200によって実現されてもよい。
〔5−2.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔5−3.プログラム〕
また、上述した実施形態に係る情報提供装置10は、例えば図7に示すような構成のコンピュータ1000によって実現される。図7は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等により実現される。
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
例えば、コンピュータ1000が情報提供装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムまたはデータ(例えば、モデルM1)を実行することにより、制御部40の機能を実現する。コンピュータ1000の演算装置1030は、これらのプログラムまたはデータ(例えば、モデルM1)を一次記憶装置1040から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
〔6.効果〕
上述したように、情報提供装置10は、観測信号のうち、所定の信号が含まれる所定範囲を推定する。そして、情報提供装置10は、所定範囲に含まれる信号のうち所定の信号を強調した強調範囲に基づいて、観測信号のうち所定範囲以外の範囲から所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する。この結果、情報提供装置10は、所定の信号と同様の特徴を有する信号、すなわち、目的信号を精度よく強調するフィルタを生成することができるので、目的信号の認識精度を向上させることができる。
また、情報提供装置10は、所定の信号として、波形若しくは周波数特性が所定の特徴を有する信号が含まれる範囲を推定する。例えば、情報提供装置10は、所定の信号として、利用者Uが所定のキーワードを発話した際の音声信号が含まれる範囲を推定する。また、情報提供装置10は、観測信号のうち、所定範囲よりも後の範囲から所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する。このため、情報提供装置10は、例えば、キーワードに続いて利用者Uが発話する指示発話の認識精度を向上させることができる。
また、情報提供装置10は、それぞれ設置位置が異なる複数の取得装置が同時期に取得した複数の観測信号のうち、所定の信号が含まれる所定範囲を推定する。そして、情報提供装置10は、複数の観測信号のうち所定範囲以外の範囲から所定の信号と空間的な特徴が類似する信号を強調するためのフィルタを生成する。例えば、情報提供装置10は、フィルタとして、複数の取得装置がそれぞれ取得した観測信号を合成する際の重みづけ係数を生成する。また、情報提供装置10は、観測信号のうち所定範囲に含まれる信号に基づいて、フィルタを生成する。このため、情報提供装置10は、例えば、目的信号に先立つ所定の信号と同じ方向から到来する信号を精度よく強調するフィルタを生成することができるので、目的信号の認識精度を向上させることができる。
また、情報提供装置10は、複数の観測信号のうち所定範囲以外の範囲から所定の信号と周波数特性が類似する信号を強調するための関数を生成する。このため、情報提供装置10は、例えば、目的信号と同じ発生源の信号を精度よく強調するフィルタを生成することができる。
また、情報提供装置10は、所定の信号と類似する特徴を有する信号を強調するマスクを用いて、所定範囲に含まれる各信号のうち所定の信号を強調した強調範囲を生成し、生成した強調範囲に含まれる各信号、すなわち、強調信号に基づいて、フィルタの生成を行う。例えば、情報提供装置10は、所定の信号が有する特徴を学習したモデルを用いて、所定範囲に含まれる信号のうち所定の信号と類似する特徴を有する類似信号を強調するマスクを生成し、生成したマスクを用いて、強調範囲の生成を行う。また、情報提供装置10は、モデルとして、観測信号のうち所定の信号が含まれる範囲の波形又は周波数特性を深層学習したモデルを用いる。このため、情報提供装置10は、所定範囲から所定の信号を推定される信号を精度よく強調することができるので、所定の信号と類似する信号を精度よく強調するフィルタの生成を実現する結果、目的信号の認識精度を向上させることができる。
また、情報提供装置10は、音声信号のうち所定の信号が含まれる範囲を所定範囲として推定し、所定範囲に含まれる信号のうち所定の信号を強調した強調範囲に含まれる信号に基づいて、音声信号のうち所定範囲以外の範囲から所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する。このため、情報提供装置10は、例えば、キーワードを発話した利用者等、所定の利用者Uの発話を精度よく強調するフィルタを生成することができるので、指示発話等といった目的信号の認識精度を向上させることができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、検出部は、検出手段や検出回路に読み替えることができる。
10 情報提供装置
20、210 通信部
30 記憶部
31 学習データデータベース
32 観測信号データベース
33 モデルデータベース
40 制御部
41 学習部
42 取得部
43 推定部
44 マスク生成部
45 フィルタ生成部
46 解析部
47 提供部
100 情報処理装置
200 音声デバイス
220 出力部
230 観測部

Claims (13)

  1. 観測信号のうち、所定の信号が含まれる所定範囲を推定する推定部と、
    前記所定範囲に含まれる信号のうち前記所定の信号を強調した強調範囲に基づいて、前記観測信号のうち前記所定範囲以外の範囲から前記所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する生成部と
    を有することを特徴とする生成装置。
  2. 前記推定部は、前記所定の信号として、波形若しくは周波数特性が所定の特徴を有する信号が含まれる範囲を推定する
    ことを特徴とする請求項1に記載の生成装置。
  3. 前記推定部は、前記所定の信号として、利用者が所定のキーワードを発話した際の音声信号が含まれる範囲を推定する
    ことを特徴とする請求項2に記載の生成装置。
  4. 前記生成部は、前記観測信号のうち、前記所定範囲よりも後の範囲から前記所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する
    ことを特徴とする請求項1〜3のうちいずれか1つに記載の生成装置。
  5. 前記推定部は、それぞれ設置位置が異なる複数の取得装置が同時期に取得した複数の観測信号のうち、前記所定の信号が含まれる所定範囲を推定し、
    前記生成部は、前記複数の観測信号のうち前記所定範囲以外の範囲から前記所定の信号と空間的な特徴が類似する信号を強調するためのフィルタを生成する
    ことを特徴とする請求項1〜4のうちいずれか1つに記載の生成装置。
  6. 前記生成部は、前記フィルタとして、前記複数の取得装置がそれぞれ取得した観測信号を合成する際の重みづけ係数を生成する
    ことを特徴とする請求項5に記載の生成装置。
  7. 前記生成部は、観測信号のうち前記所定範囲以外の範囲から前記所定の信号と周波数特性が類似する信号を強調するための関数を生成する
    ことを特徴とする請求項1〜6のうちいずれか1つに記載の生成装置。
  8. 前記生成部は、前記所定の信号と類似する特徴を有する信号を強調するマスクを用いて、前記所定範囲に含まれる各信号のうち前記所定の信号を強調した強調範囲を生成し、当該強調範囲に含まれる各信号に基づいて、前記フィルタを生成する
    ことを特徴とする請求項1〜7のうちいずれか1つに記載の生成装置。
  9. 前記生成部は、前記所定の信号が有する特徴を学習したモデルを用いて、前記所定範囲に含まれる信号のうち前記所定の信号と類似する特徴を強調する前記マスクを生成し、生成したマスクを用いて、前記強調範囲を生成する
    ことを特徴とする請求項8に記載の生成装置。
  10. 前記生成部は、前記モデルとして、観測信号のうち所定の信号が含まれる範囲の波形又は周波数特性を深層学習したモデルを用いる
    ことを特徴とする請求項9に記載の生成装置。
  11. 前記推定部は、音声信号のうち所定の信号が含まれる範囲を前記所定範囲として推定し、
    前記生成部は、前記強調範囲に含まれる信号に基づいて、前記音声信号のうち前記所定範囲以外の範囲から前記所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する
    ことを特徴とする請求項1〜10のうちいずれか1つに記載の生成装置。
  12. 生成装置が実行する生成方法であって、
    観測信号のうち、所定の信号が含まれる所定範囲を推定する推定工程と、
    前記所定範囲に含まれる信号のうち前記所定の信号を強調した強調範囲に基づいて、前記観測信号のうち前記所定範囲以外の範囲から前記所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する生成工程と
    を含むことを特徴とする生成方法。
  13. 観測信号のうち、所定の信号が含まれる所定範囲を推定する推定手順と、
    前記所定範囲に含まれる信号のうち前記所定の信号を強調した強調範囲に基づいて、前記観測信号のうち前記所定範囲以外の範囲から前記所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する生成手順と
    コンピュータに実行させるための生成プログラム。
JP2017223704A 2017-11-21 2017-11-21 生成装置、生成方法、および生成プログラム Active JP6991041B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017223704A JP6991041B2 (ja) 2017-11-21 2017-11-21 生成装置、生成方法、および生成プログラム
US16/131,561 US20190156846A1 (en) 2017-11-21 2018-09-14 Creating device, creating method, and non-transitory computer readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017223704A JP6991041B2 (ja) 2017-11-21 2017-11-21 生成装置、生成方法、および生成プログラム

Publications (2)

Publication Number Publication Date
JP2019095551A true JP2019095551A (ja) 2019-06-20
JP6991041B2 JP6991041B2 (ja) 2022-01-12

Family

ID=66534546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017223704A Active JP6991041B2 (ja) 2017-11-21 2017-11-21 生成装置、生成方法、および生成プログラム

Country Status (2)

Country Link
US (1) US20190156846A1 (ja)
JP (1) JP6991041B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159305A (ja) * 2018-03-14 2019-09-19 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド ファーフィールド音声機能の実現方法、設備、システム及び記憶媒体
JP2021036297A (ja) * 2019-08-30 2021-03-04 株式会社東芝 信号処理装置、信号処理方法、及びプログラム
WO2021070483A1 (ja) * 2019-10-10 2021-04-15 パナソニックIpマネジメント株式会社 状態検出装置、状態検出システム、および状態検出プログラム
JP2021516369A (ja) * 2018-05-24 2021-07-01 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 混合音声の認識方法、装置及びコンピュータ可読記憶媒体

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021028758A1 (ja) * 2019-08-09 2021-02-18 株式会社半導体エネルギー研究所 音響装置、及びその動作方法
US11423906B2 (en) 2020-07-10 2022-08-23 Tencent America LLC Multi-tap minimum variance distortionless response beamformer with neural networks for target speech separation

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006504130A (ja) * 2002-10-23 2006-02-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声に基づく装置制御

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004040555A1 (ja) * 2002-10-31 2004-05-13 Fujitsu Limited 音声強調装置
US9847093B2 (en) * 2015-06-19 2017-12-19 Samsung Electronics Co., Ltd. Method and apparatus for processing speech signal
KR102476600B1 (ko) * 2015-10-21 2022-12-12 삼성전자주식회사 전자 장치, 그의 음성 인식 방법 및 비일시적 컴퓨터 판독가능 기록매체
US9881634B1 (en) * 2016-12-01 2018-01-30 Arm Limited Multi-microphone speech processing system
US10170134B2 (en) * 2017-02-21 2019-01-01 Intel IP Corporation Method and system of acoustic dereverberation factoring the actual non-ideal acoustic environment

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006504130A (ja) * 2002-10-23 2006-02-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声に基づく装置制御

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159305A (ja) * 2018-03-14 2019-09-19 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド ファーフィールド音声機能の実現方法、設備、システム及び記憶媒体
US11295760B2 (en) 2018-03-14 2022-04-05 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus, system and storage medium for implementing a far-field speech function
JP2021516369A (ja) * 2018-05-24 2021-07-01 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 混合音声の認識方法、装置及びコンピュータ可読記憶媒体
JP7177167B2 (ja) 2018-05-24 2022-11-22 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 混合音声の特定方法、装置及びコンピュータプログラム
US11996091B2 (en) 2018-05-24 2024-05-28 Tencent Technology (Shenzhen) Company Limited Mixed speech recognition method and apparatus, and computer-readable storage medium
JP2021036297A (ja) * 2019-08-30 2021-03-04 株式会社東芝 信号処理装置、信号処理方法、及びプログラム
WO2021070483A1 (ja) * 2019-10-10 2021-04-15 パナソニックIpマネジメント株式会社 状態検出装置、状態検出システム、および状態検出プログラム
JP2021061876A (ja) * 2019-10-10 2021-04-22 パナソニックIpマネジメント株式会社 状態検出装置、状態検出システム、および状態検出プログラム
JP7478981B2 (ja) 2019-10-10 2024-05-08 パナソニックIpマネジメント株式会社 状態検出装置、状態検出システム、および状態検出プログラム

Also Published As

Publication number Publication date
JP6991041B2 (ja) 2022-01-12
US20190156846A1 (en) 2019-05-23

Similar Documents

Publication Publication Date Title
JP6991041B2 (ja) 生成装置、生成方法、および生成プログラム
US11715489B2 (en) Linear filtering for noise-suppressed speech detection
EP3857911B1 (en) Linear filtering for noise-suppressed speech detection via multiple network microphone devices
JP5724125B2 (ja) 音源定位装置
JP2021036297A (ja) 信号処理装置、信号処理方法、及びプログラム
US8693287B2 (en) Sound direction estimation apparatus and sound direction estimation method
US11488617B2 (en) Method and apparatus for sound processing
JP2015042989A (ja) マルチセンサ音源定位
JP7212718B2 (ja) 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム
WO2019116889A1 (ja) 信号処理装置および方法、学習装置および方法、並びにプログラム
JP6439682B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP2018040848A (ja) 音響処理装置および音響処理方法
US20120271630A1 (en) Speech signal processing system, speech signal processing method and speech signal processing method program
JP2010175431A (ja) 音源方向推定装置とその方法と、プログラム
CN112992190A (zh) 音频信号的处理方法、装置、电子设备和存储介质
CN110890098B (zh) 盲信号分离方法、装置和电子设备
JP2019045818A (ja) 音声抽出装置、音声抽出方法および音声抽出プログラム
KR20190032868A (ko) 음성인식 방법 및 그 장치
JP6856697B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラム
US11322169B2 (en) Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program
US9398387B2 (en) Sound processing device, sound processing method, and program
JP5986901B2 (ja) 音声強調装置、その方法、プログラム及び記録媒体
JP2007328268A (ja) 音楽信号の帯域拡張方式
WO2020208972A1 (ja) 応答生成装置及び応答生成方法
CN112447183A (zh) 音频处理模型的训练、音频去噪方法、装置及电子设备

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201222

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211007

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20211007

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20211018

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20211019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211207

R150 Certificate of patent or registration of utility model

Ref document number: 6991041

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350