JP2012163918A - 音声信号処理装置、および音声信号処理方法、並びにプログラム - Google Patents

音声信号処理装置、および音声信号処理方法、並びにプログラム Download PDF

Info

Publication number
JP2012163918A
JP2012163918A JP2011026240A JP2011026240A JP2012163918A JP 2012163918 A JP2012163918 A JP 2012163918A JP 2011026240 A JP2011026240 A JP 2011026240A JP 2011026240 A JP2011026240 A JP 2011026240A JP 2012163918 A JP2012163918 A JP 2012163918A
Authority
JP
Japan
Prior art keywords
base
input
learning
unit
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011026240A
Other languages
English (en)
Inventor
Yuki Mitsufuji
祐基 光藤
Masayuki Nishiguchi
正之 西口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2011026240A priority Critical patent/JP2012163918A/ja
Priority to CA2763312A priority patent/CA2763312A1/en
Priority to US13/363,892 priority patent/US20120203719A1/en
Priority to CN201210027300XA priority patent/CN102637435A/zh
Publication of JP2012163918A publication Critical patent/JP2012163918A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

【課題】複数の音が混在した音声信号から、特定音源のコマンドを高精度に分離する装置、方法を提供する。
【解決手段】複数音源からの音を含む学習用音声信号に基づいて各音源対応の基底周波数Bからなる学習データを生成し、この各音源対応の基底周波数Bを結合した全基底周波数Ballを生成する。さらに、入力音声信号に対して、時間周波数分析を実行して時間周波数分析結果を生成する。この入力音声信号に対する時間周波数分析結果に対して、全基底周波数Ballを適用した基底分解を行い、入力音声信号に対する基底アクティビティHを生成する。最後に生成した基底アクティビティHの識別処理を実行してコマンド識別を行う。これらの学習データに基づく音源分離処理により、高精度なコマンド識別が実現される。
【選択図】図1

Description

本発明は、音声信号処理装置、および音声信号処理方法、並びにプログラムに関する。さらに、詳細には複数の信号が混合された信号を例えば音源単位で分離する処理を実行する音声信号処理装置、および音声信号処理方法、並びにプログラムに関する。
本発明は、声や雑音などの様々な音源からの音が混合して入力される環境において、例えばユーザの声に対応する音声コマンドなど、特定の音源からの音を選択分離する信号処理装置、および信号処理方法、並びにプログラムに関する。
昨今の情報処理機器や家電機器などの装置では、音声入力部としてのマイクを備え、マイクから入力するユーザの声を認識して、認識結果に基づいて様々な動作を実行するものがある。すなわちユーザの発する言葉を解析して音声コマンドとして解釈し、そのコマンドに従って処理を実行するものである。
音声コマンドによる処理を実行する装置においては、正確な音声認識を行うことが要請されるが、様々な雑音やノイズの発生している環境では、音声入力部としてのマイクを介して入力する音信号に、ユーザの声の他、様々な音源からのノイズが混在した信号となってしまう。
このような混合信号からユーザの声を抽出するため、多くの装置ではマイクを介した入力信号を音源分離処理を実行する信号処理部に入力し、ユーザの声を分離する処理を行う。その後、分離抽出されたユーザの声に基づいてコマンド解釈が行われる。
なお、音源分離処理について開示した従来技術としては、例えば特許文献1(特開2006−238409号公報)や、特許文献2(特開2008−134298号公報)がある。これらの特許文献は、独立成分分析(ICA:Independent Component Analysis)に基づく音源分離処理を開示している。
しかし、音源分離処理における問題点として、簡易な構成では分離処理機能が不十分であり、一方、高い分離機能を実現するためには処理負荷や処理時間が増大し、装置としてのコストも大きくなるという問題点がある。一般的な家電機器等に備えるためには、処理負荷やコストを低く抑えることが要求される。また、従来の音源分離処理は、前段の分離処理と後段の認識処理が別のモジュールとして独立していたため、認識に必要な特徴量の情報を用いて分離処理を行うなどの全体最適化を行うことが困難であるという問題があった。
特開2006−238409号公報 特開2008−134289号公報
本発明は、このような状況に鑑みてなされたものであり、簡易な構成で実現でき、かつ全体最適化が行われ、より精度の高い音源分離を実現する音声信号処理装置、および音声信号処理方法、並びにプログラムを提供することを目的とする。
本発明の第1の側面は、
入力音声信号の時間周波数分析を実行する時間周波数分析部と、
複数音源からの音を含む学習用音声信号に基づいて予め生成した学習データであり、各音源対応の基底周波数Bからなる学習データを入力し、前記各音源対応の基底周波数Bを結合した全基底周波数Ballを適用して、前記時間周波数分析部から入力する入力音声信号に対する時間周波数分析結果の基底分解を行い、入力音声信号に対する基底アクティビティHを生成する基底分解部と、
前記基底分解部から、前記基底アクティビティHを入力し、入力した基底アクティビティHの識別処理を実行してコマンド識別を行うコマンド識別部を有する音声信号処理装置にある。
さらに、本発明の音声信号処理装置の一実施態様において、前記学習データは、前記コマンドとして識別する音に対応する基底周波数を持つ目的音と、識別対象としない非目的音とを含む学習用音声信号に基づいて生成される学習データであり、前記基底分解部は、前記目的音対応の基底周波数と、前記非目的音対応の基底周波数を結合した全基底周波数Ballを適用して、前記時間周波数分析部から入力する入力音声信号に対する時間周波数分析結果の基底分解を行い、入力音声信号に対する基底アクティビティHを生成する。
さらに、本発明の音声信号処理装置の一実施態様において、前記時間周波数分析部は、前記入力音声信号の時間周波数分析を行い、時間周波数スペクトルを生成し、さらに前記時間周波数スペクトルに基づくパワースペクトルを算出し、該パワースペクトルを前記時間周波数分析結果として、前記基底分解部に提供する。
さらに、本発明の音声信号処理装置の一実施態様において、前記基底分解部は、前記入力音声信号に基づいて生成されたパワースペクトルを、前記時間周波数分析部から入力し、入力パワースペクトルに対して、前記全基底周波数Ballを適用して基底分解を行い、入力音声信号に対する基底アクティビティHを生成する。
さらに、本発明の音声信号処理装置の一実施態様において、前記コマンド識別部は、前記基底分解部から、前記基底アクティビティHを入力し、入力した基底アクティビティHと、予め設定した閾値との比較処理を行ってコマンドと非コマンドを判定する処理を実行する。
さらに、本発明の音声信号処理装置の一実施態様において、前記音声信号処理装置は、複数音源からの音を含む学習用音声信号に基づいて、各音源対応の基底周波数Bからなる学習データを生成する学習処理部を有し、前記基底分解部は、前記学習処理部の生成した学習データを適用して、前記入力音声信号の基底アクティビティHを生成する。
さらに、本発明の第2の側面は、
音声コマンドの正負判定に必要な特徴量を予め算出する学習処理部と、
前記学習処理部において学習された特徴量を用いて音源分離処理を行う解析処理部を備えた音声信号処理装置にある。
さらに、本発明の音声信号処理装置の一実施態様において、前記学習処理部において算出する音声コマンドの正負判定に必要な特徴量は、前記解析処理部における音声コマンド認識処理において実行する音声コマンド対応の目的音と音声コマンド非対応の非目的音との判別処理である正負判定処理に必要な特徴量である。
さらに、本発明の第3の側面は、
音声信号処理装置において、入力音声信号からのコマンド識別処理を行う音声信号処理方法であり、
時間周波数分析部が、入力音声信号の時間周波数分析を実行する時間周波数分析ステップと、
基底分解部が、複数音源からの音を含む学習用音声信号に基づいて予め生成した学習データであり、各音源対応の基底周波数Bからなる学習データを入力し、前記各音源対応の基底周波数Bを結合した全基底周波数Ballを適用して、前記時間周波数分析部から入力する入力音声信号に対する時間周波数分析結果の基底分解を行い、入力音声信号に対する基底アクティビティHを生成する基底分解ステップと、
コマンド識別部が、前記基底分解ステップにおいて生成した前記基底アクティビティHを入力し、入力した基底アクティビティHの識別処理を実行してコマンド識別を行うコマンド識別ステップを実行する音声信号処理方法にある。
さらに、本発明の第4の側面は、
音声信号処理装置において、入力音声信号からのコマンド識別処理を行う音声信号処理方法であり、
学習処理部が、音声コマンドの正負判定に必要な特徴量を予め算出する学習処理ステップと、
解析処理部が、前記学習処理ステップにおいて学習された特徴量を用いて音源分離処理を行う解析処理ステップを実行する音声信号処理方法にある。
さらに、本発明の第5の側面は、
音声信号処理装置において、入力音声信号からのコマンド識別処理を実行させるプログラムであり、
時間周波数分析部に。入力音声信号の時間周波数分析を実行させる時間周波数分析ステップと、
基底分解部に、複数音源からの音を含む学習用音声信号に基づいて予め生成した学習データであり、各音源対応の基底周波数Bからなる学習データを入力し、前記各音源対応の基底周波数Bを結合した全基底周波数Ballを適用して、前記時間周波数分析部から入力する入力音声信号に対する時間周波数分析結果の基底分解を行い、入力音声信号に対する基底アクティビティHを生成させる基底分解ステップと、
コマンド識別部に、前記基底分解ステップにおいて生成した前記基底アクティビティHを入力し、入力した基底アクティビティHの識別処理を実行してコマンド識別を行わせるコマンド識別ステップを実行させるプログラムにある。
なお、本発明のプログラムは、例えば、様々なプログラム・コードを実行可能な画像処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の一実施例の構成によれば、複数の音が混在した音声信号から、特定音源のコマンドを高精度に分離する装置、方法が実現される。具体的には、例えば、複数音源からの音を含む学習用音声信号に基づいて各音源対応の基底周波数Bからなる学習データを生成し、この各音源対応の基底周波数Bを結合した全基底周波数Ballを生成する。さらに、入力音声信号に対して、時間周波数分析を実行して時間周波数分析結果を生成する。この入力音声信号に対する時間周波数分析結果に対して、全基底周波数Ballを適用した基底分解を行い、入力音声信号に対する基底アクティビティHを生成する。最後に生成した基底アクティビティHの識別処理を実行してコマンド識別を行う。
これらの学習データに基づく音源分離処理により、高精度なコマンド識別が実現される。
音声信号処理装置の構成例について説明する図である。 時間周波数分析部において実行する時間周波数分析処理について説明する図である。 1つの行列を2つの行列に分解する処理例について説明する図である。 図1に示す上段の学習処理部110において基底を学習した後、下段の解析処理部120において学習された基底を結合して使用する例について説明する図である。
以下、図面を参照しながら本発明の音声信号処理装置、および音声信号処理方法、並びにプログラムの詳細について説明する。説明は以下の項目に従って行う。
1.音声信号処理装置の全体構成について
2.音声信号処理装置の各構成部の処理について
2.1.時間周波数分析部について
2.2.基底学習部について
2.3.基底分解部について
2.4.コマンド識別部について
[1.音声信号処理装置の全体構成について]
まず、図1を参照して、この発明の実施の形態に係る音声信号処理装置の全体構成について説明する。
図1は、この発明の実施の形態に係る音声信号処理装置100の一例を示す図である。図1に示す音声信号処理装置100は、ユーザの言葉を入力して、ユーザの言葉から装置に対する要求である音声コマンドの認識処理を実行する装置である。
図1に示す音声信号処理装置は、音声コマンドの正負判定に必要な特徴量を予め算出する学習処理部110と、学習処理部110において学習された特徴量を用いて音源分離処理を行う解析処理部120を備えた構成である。学習処理部110において算出する音声コマンドの正負判定に必要な特徴量は、例えば解析処理部120における音声コマンド認識処理において実行する音声コマンド対応の目的音と音声コマンド非対応の非目的音との判別処理である正負判定処理に必要な特徴量である。
図1に示すように、音声信号処理装置100は、上段の学習処理部110と、下段の解析処理部120を有する。
上段の学習処理部110は、予め目的音声と非目的音声の特徴量空間における基底学習を行い、その学習結果を学習データとして解析処理部120に提供する。
解析処理部120は、学習処理部110から提供される目的音と非目的音の特徴量空間における基底学習結果を利用して、実際に解析対象となるユーザの声を含む音を入力し、入力音から目的とするユーザの声を分離し、分離結果に基づくコマンド識別処理を行う。
図1に示すように、学習処理部110は、時間周波数分析部111と、基底学習部112を有する。
また解析処理部120は、時間周波数分析部121と、基底分解部122と、コマンド識別部123を有する。
学習処理部110の処理と、解析処理部120の処理の概要について説明する。
学習処理部110は、目的音と非目的音からなる学習用音声信号51を入力し、この学習用音声信号51に対して、時間周波数分析部111において時間周波数分析を行う。さらに、基底学習部112が、時間周波数分析結果を用いて学習処理を実行し、学習結果として、目的音の基底周波数行列W1の要素である基底周波数B1(k,p)と、目的外音の基底周波数行列W2の要素である基底周波数B2(k,p)を生成する。これを学習データとして、解析処理部120に提供する。
解析処理部120は、抽出対象とするコマンドを含むユーザの声(=目的音)やノイズ(=非目的音)を含む入力音声信号81を入力する。時間周波数分析部121は、入力音声信号81に対する時間周波数分析を実行し、分析結果を基底分解部122に提供する。
基底分解部122は、時間周波数分析部121から入力する時間周波数分析結果と、学習処理部110の基底学習部112から入力する学習データ、すなわち、目的音と非目的音に対応する基底周波数データを適用して、基底分解を行い、基底アクティビティH(p,l)を得る。
さらに、コマンド識別部123が、基底分解部122から供給された基底アクティビティH(p,l)に対する識別処理を行い、コマンド82を取得する。このコマンドが識別結果としてのコマンド82は、コマンドに基づくデータ処理を実行する次段のデータ処理部に提供されることになる。
以下、各構成部の処理の詳細について説明する。
[2.音声信号処理装置の各構成部の処理について]
(2.1.時間周波数分析部について)
図1に示すように、時間周波数分析部は、学習処理部110と解析処理部120の双方の処理部に設定されている。
図1に示す学習処理部110の時間周波数分析部111は、目的音と非目的音からなる学習用音声信号51を入力し、この学習用音声信号51に対して時間周波数分析を行う。
また、解析処理部120の時間周波数分析部121は、抽出対象とするコマンドを含むユーザの声(=目的音)や、コマンド抽出対象とならないユーザの声以外のノイズ(=非目的音)を含む入力音声信号81に対して時間周波数分析を行う。
なお、学習処理部110において学習対象として入力する学習用音声信号51は、解析処理部120の入力する音声信号と同様のユーザの声(=目的音)と、ユーザの声以外のノイズ(=非目的音)を含む音声信号に設定することが好ましい。
学習処理部110の時間周波数分析部111と、解析処理部120の時間周波数分析部121において実行する時間周波数分析処理について、図2を参照して説明する。
時間周波数分析部111と、時間周波数分析部121は、入力する音信号の時間周波数情報を分析する。
マイク等を介して入力する入力信号をxとする。図2の最上段に入力信号xの例を示す。横軸が時間(またはサンプル番号)、縦軸が振幅である。
入力信号xは、様々な音源からの音が混合した信号である。
学習処理部110の時間周波数分析部111に対する入力信号xは、目的音と非目的音からなる学習用音声信号51である。
また、解析処理部120の時間周波数分析部121に対する入力信号xは、抽出対象とするコマンドを含むユーザの声(=目的音)やノイズ(=非目的音)を含む入力音声信号81である。
まず、入力信号xから固定サイズのフレーム分割を行い、入力フレーム信号x(n,l)を得る。
図2のステップS101の処理である。
図2に示す例では、フレーム分割のサイズをNとし、各フレームのシフト量(sf)をフレームの大きさNの50%とし、各フレームを重複させた設定としている。
さらに、入力フレーム信号x(n,l)に対して、所定の窓関数:wを乗算して窓関数適用信号wx(n,l)を得る。窓関数は例えばハミング窓が適用可能である。
窓関数適用信号wx(n,l)は、以下の(式1)によって示される。
Figure 2012163918
・・・・・(式1)
上記式(式1)において、
x:入力信号、
n:時間インデックス、n=0,…,N−1、l=0,…,L−1
(Nはフレームの大きさ)
l:フレーム番号、l=0,…,L−1
(Lは全フレーム数)
w:窓関数、
wx:窓関数適用信号、
である。
なお、窓関数:wは、ハミング窓の他、ハニング窓やブラックマンハリス窓などのその他の窓関数も使用可能である。
フレームの大きさNは、例えば、0.02sec相当のサンプル数(N=サンプリング周波数fs*0.02)である。ただし、それ以外の大きさでも構わない。
また、図2に示す例では、フレームのシフト量(sf)はフレームの大きさ(N)の50%とし、各フレームを重複した設定としているが、それ以外のシフト量でも構わない。
上記(式1)に従って得られた窓関数適用信号wx(n,l)に対して、以下に示す(式2)に従って時間周波数分析を行い時間周波数スペクトルX(k,l)を得る。
Figure 2012163918
・・・・・(式2)
上記式(式2)において、
wx:窓関数適用信号、
j:純虚数、
M:DFT(離散フーリエ変換)のポイント数、
k:周波数インデックス、
X:時間周波数スペクトル、
である。
窓関数適用信号wx(n,l)に対する時間周波数分析処理としては、例えば、DFT(離散フーリエ変換)による周波数分析が適用される。その他、DCT(離散コサイン変換)やMDCT(修正離散コサイン変換)などの他の周波数分析を用いてもよい。また、必要であれば、DFT(離散フーリエ変換)のポイント数Mに合わせて適切に零詰めを行ってもよい。DFTのポイント数Mは、N以上の2のべき乗の値としているが、それ以外のポイント数でも構わない。
次に、上記式(式2)に従って得られた時間周波数スペクトルX(k,l)から、以下に示す(式3)に従って、パワースペクトルPX(k,l)を得る。
Figure 2012163918
・・・・・(式3)
上記式(式3)において、
X:時間周波数スペクトル、
conj:複素共役、
PX:パワースペクトル、
である。
この処理は、図2に示すステップS102の処理に対応する。
図1に示す学習処理部110の時間周波数分析部111に対する入力信号xは、目的音と非目的音からなる学習用音声信号51である。学習処理部110の時間周波数分析部111は、この目的音と非目的音からなる学習用音声信号51に対する時間周波数分析結果として得られるパワースペクトルPX(k,l)を基底学習部112へ供給する。
また、解析処理部120の時間周波数分析部121に対する入力信号xは、抽出対象とするコマンドを含むユーザの声(=目的音)やノイズ(=非目的音)を含む入力音声信号81である。解析処理部120の時間周波数分析部121は、この抽出対象とするコマンドを含むユーザの声(=目的音)やノイズ(=非目的音)を含む入力音声信号81に対する時間周波数分析結果として得られるパワースペクトルPX(k,l)を基底分解部122へ供給する。
図2に示すステップS103には、フレーム毎に算出したパワースペクトルPX(k,l)を行列として表現した場合の行列の要素を示している。
周波数(周波数ビン)を行、
時間(フレーム)を列、
としたM行L列の行列として、行列の各要素を示したものである。
(2.2.基底学習部について)
上述したように、図1に示す学習処理部110の時間周波数分析部111に対する入力信号xは、目的音と非目的音からなる学習用音声信号51である。学習処理部110の時間周波数分析部111は、この目的音と非目的音からなる学習用音声信号51に対する時間周波数分析結果として得られるパワースペクトルPX(k,l)を学習データとして基底学習部112へ供給する。
基底学習部112では、時間周波数分析部111より供給されたパワースペクトルPX(k,l)を、M行L列の行列として捉え、それを新たな二つの行列に分解する。
M行L列の行列とは、図2に示すステップS103に示す行列である。
基底学習部112は、このM行L列の行列形式のパワースペクトルPX(k,l)を新たな二つの行列に分解する。
この行列分解には、例えば、NMF(非負値行列分解)を適用する。
分解数をPとして、基底数P個の基底周波数B(k,p)と、その各々に対応する基底数P個の基底アクティビティH(p,l)を得る。
なお、pは基底インデックスを表し、p=0,…,P−1である。
本実施例の場合、
基底周波数B(k,p)は、入力信号の時間周波数情報を表すパワースペクトルPX(k,l)の周波数方向の性質を表し、
基底アクティビティH(p,l)は時間方向の性質を表している。
入力信号xに対する分解数をPとし、以下の(式4)によって定義される誤差関数Eを最小化することで、基底周波数B(k,p)と基底アクティビティH(p,l)を得る。
Figure 2012163918
・・・・・(式4)
上記式(式4)において、
E:誤差関数
V:パワースペクトル行列、
W:基底周波数行列、
H:基底アクティビティ行列、
である。
なお、パワースペクトルPX(k,l)は、図2の(S103)に示すようなK行L列の行列Vに対応する。
基底周波数B(k,p)はK行P列の行列W、
基底アクティビティH(p,l)はP行L列の行列H、
で表す。
1つの行列を2つの行列に分解する処理について図3を参照して説明する。
図3に示す例は、
パワースペクトルPX(k,l)を示すM行L列の1つの行列V201を、
基底周波数B(k,p)を示すM行P列の行列W202と、
基底アクティビティH(p,l)をP行L列の行列H203、
これらの2つの行列に分解した例を示している。
上記(式4)で示される誤差関数Eを勾配法により最小化することにより以下の(式5)に示す更新式を得る。
Figure 2012163918
・・・・・(式5)
なお、上記(式4)で示される誤差関数Eを勾配法により最小化する場合、例えば予測結果と観測結果との差の算出にユークリッド距離を用いる。その他、KLダイバージェンスやその他の距離なども利用可能である。
基底学習部112は、上記処理によって得られた基底周波数行列Wの要素である基底周波数B(k,p)を、解析処理部120の基底分解部122へ供給する。
すなわち、図1に示す学習処理部110では、まず、時間周波数分析部111が、目的音と非目的音からなる学習用音声信号51に対する時間周波数分析を実行し、時間周波数分析結果としてパワースペクトルPX(k,l)を生成する。
次に、基底学習部112が、目的音と非目的音からなる学習用音声信号51に対する時間周波数分析結果であるパワースペクトルPX(k,l)に基づいて、上記(式5)に示す更新式によって基底周波数行列Wの要素である基底周波数B(k,p)を算出し、算出した基底周波数B(k,p)を解析処理部120の基底分解部122へ供給する。
なお、基底学習部112が算出する基底周波数B(k,p)は、
(1)目的音の基底周波数行列W1の要素である基底周波数B1(k,p)
(2)非目的音の基底周波数行列W2の要素である基底周波数B2(k,p)
である。
このように、図1に示す学習処理部110は、目的音の基底周波数行列W1の要素である基底周波数B1(k,p)と、非目的音の基底周波数行列W2の要素である基底周波数B2(k,p)を、学習用音声信号51に基づく学習データとして生成し、解析処理部120に提供する。
ただし、基底数Pの値は、それぞれの音源で同じである必要はなく、適宜変化させてよい。図4は、図1に示す上段の学習処理部110において基底を学習した後、下段の解析処理部120において学習された基底が結合されて使用される概念を説明する図である。
図4に示す例は、
(1)目的音について、
パワースペクトルPXを示す1つの行列V_1,311を、
基底周波数B(k,p)を示す行列W_1,312と、
基底アクティビティH(p,l)を示す行列H_1,313、
これらの2つの行列への分解例。
(2)非目的音について、
パワースペクトルPXを示す1つの行列V_2,321を、
基底周波数B(k,p)を示す行列W_2,322と、
基底アクティビティH(p,l)を示す行列H_2,323、
これらの2つの行列への分解例。
(3)目的音と非目的音の混合信号について、
パワースペクトルPXを示す1つの行列V_3,331を、
基底周波数B(k,p)を示す行列W_3,332と、
基底アクティビティH(p,l)を示す行列H_3,333、
これらの2つの行列への分解例。
これらを示している。
図1に示す上段の学習処理部110における基底学習により、図4(1),(2)のデータが生成される。
下段の解析処理部120の基底分解部122は、これら図4(1),(2)のデータを適用して、図4(3)に示す目的音と非目的音の混合信号から得られるパワースペクトルPXを示す1つの行列V_3,331から得られる基底周波数B(k,p)を示す行列W_3,332と、基底アクティビティH(p,l)を示す行列H_3,333について、目的音対応の行列(a)と、非目的音対応の行列(b)とに分離することを行うものである。
(2.3.基底分解部について)
次に、図1に示す解析処理部120の基底分解部122の処理について説明する。
基底分解部122は、前段の時間周波数分析部121において、入力信号81に対する時間周波数分析によって生成されたパワースペクトルPX(k,l)を入力する。
さらに、基底分解部122は、学習処理部110の基底学習部112から、学習済みの様々な音源の基底周波数B(k,p)を入力する。
基底分解部122は、学習処理部110の基底学習部112から、学習済みの様々な音源の個別の基底周波数B(k,p)に基づいて、これらを結合させた全基底周波数Ball(k,p)を生成する。
この処理は、図4に示す(3)の処理に相当する。
基底分解部122は、個別の基底周波数B(k,p)を結合させた全基底周波数Ball(k,p)を用いて基底分解を行い、基底アクティビティH(p,l)を得る。ただし、p=0,…,P_all−1である。P_allは様々な音源毎に定められた基底数Pの数の総和をとったものである。
なお、パワースペクトルPX(k,l)をK行L列の行列Vで表し、全基底周波数Ball(k,p)をK行P_all列の行列Wallで表し、基底アクティビティH(p,l)をP_all行L列の行列Hで表す。
図4に示すように、全基底周波数Ball(k,p)は学習処理部110において既に学習されているため、勾配法による更新は行わず、基底アクティビティH(p,l)のみを更新する。
基底アクティビティH(p,l)の更新処理は、以下の(式6)に従って行われる。
Figure 2012163918
・・・・・(式6)
基底分解部122の算出した基底アクティビティH(p,l)は、基底分解部122からコマンド識別部123へ供給される。
(2.4.コマンド識別部について)
次に、図1に示す解析処理部120のコマンド識別部123の処理について説明する。
コマンド識別部123では、基底分解部122より供給された基底アクティビティH(p,l)に対する識別処理を行い、コマンド結果を得る。例えば、以下の(式7)に従って、閾値比較を実行してコマンド結果を得る。
Figure 2012163918
・・・・・(式7)
なお、上記の(式7)は、予め設定した閾値との比較処理を行ってコマンドと非コマンドを判定する処理を行っているが、この方法に限らず、例えば一般化線形判別など活性化関数を伴う非線形な識別を行ってもよい。また、上記(式7)では閾値処理の結果をAND演算しているがOR演算などその他の論理演算を適用してもよい。
コマンド識別部123は、上記の(式7)に従った判定処理により得られたコマンド情報を、図1に示すコマンド出力82とする。
このコマンド出力82が、例えばコマンドに応じたデータ処理を実行するデータ処理部に入力され、コマンドに従って様々な処理が実行される。
なお、上記の実施例では、図1に示す音声信号処理装置100として、学習処理部110と、解析処理部120の2つの処理部を有する構成例として説明したが、学習処理部110の学習結果として得られる学習データを予め記憶部に格納する構成としてもよい。すなわち、記憶部に格納された学習データを解析処理部120が必要に応じて取得して入力信号に対する処理を行う構成としてもよい。この構成の場合は、学習処理部を省略した解析処理部と学習結果としての学習データを格納した記憶部によって音声信号処理装置を構成することか可能である。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本発明の一実施例の構成によれば、複数の音が混在した音声信号から、特定音源のコマンドを高精度に分離する装置、方法が実現される。具体的には、例えば、複数音源からの音を含む学習用音声信号に基づいて各音源対応の基底周波数Bからなる学習データを生成し、この各音源対応の基底周波数Bを結合した全基底周波数Ballを生成する。さらに、入力音声信号に対して、時間周波数分析を実行して時間周波数分析結果を生成する。この入力音声信号に対する時間周波数分析結果に対して、全基底周波数Ballを適用した基底分解を行い、入力音声信号に対する基底アクティビティHを生成する。最後に生成した基底アクティビティHの識別処理を実行してコマンド識別を行う。
これらの学習データに基づく音源分離処理により、高精度なコマンド識別が実現される。
51 学習用音声信号
81 入力音声信号
82 出力音声信号
100 音声信号処理装置
110 学習処理部
111 時間周波数分析部
112 基底学習部
120 解析処理部
121 時間周波数分析部
122 基底分解部
123 コマンド識別部

Claims (11)

  1. 入力音声信号の時間周波数分析を実行する時間周波数分析部と、
    複数音源からの音を含む学習用音声信号に基づいて予め生成した学習データであり、各音源対応の基底周波数Bからなる学習データを入力し、前記各音源対応の基底周波数Bを結合した全基底周波数Ballを適用して、前記時間周波数分析部から入力する入力音声信号に対する時間周波数分析結果の基底分解を行い、入力音声信号に対する基底アクティビティHを生成する基底分解部と、
    前記基底分解部から、前記基底アクティビティHを入力し、入力した基底アクティビティHの識別処理を実行してコマンド識別を行うコマンド識別部を有する音声信号処理装置。
  2. 前記学習データは、
    前記コマンドとして識別する音に対応する基底周波数を持つ目的音と、識別対象としない非目的音とを含む学習用音声信号に基づいて生成される学習データであり、
    前記基底分解部は、
    前記目的音対応の基底周波数と、前記非目的音対応の基底周波数を結合した全基底周波数Ballを適用して、前記時間周波数分析部から入力する入力音声信号に対する時間周波数分析結果の基底分解を行い、入力音声信号に対する基底アクティビティHを生成する請求項1に記載の音声信号処理装置。
  3. 前記時間周波数分析部は、
    前記入力音声信号の時間周波数分析を行い、時間周波数スペクトルを生成し、さらに前記時間周波数スペクトルに基づくパワースペクトルを算出し、該パワースペクトルを前記時間周波数分析結果として、前記基底分解部に提供する請求項1に記載の音声信号処理装置。
  4. 前記基底分解部は、
    前記入力音声信号に基づいて生成されたパワースペクトルを、前記時間周波数分析部から入力し、入力パワースペクトルに対して、前記全基底周波数Ballを適用して基底分解を行い、入力音声信号に対する基底アクティビティHを生成する請求項3に記載の音声信号処理装置。
  5. 前記コマンド識別部は、
    前記基底分解部から、前記基底アクティビティHを入力し、入力した基底アクティビティHと、予め設定した閾値との比較処理を行ってコマンドと非コマンドを判定する処理を実行する請求項1に記載の音声信号処理装置。
  6. 前記音声信号処理装置は、
    複数音源からの音を含む学習用音声信号に基づいて、各音源対応の基底周波数Bからなる学習データを生成する学習処理部を有し、
    前記基底分解部は、
    前記学習処理部の生成した学習データを適用して、前記入力音声信号の基底アクティビティHを生成する請求項1に記載の音声信号処理装置。
  7. 音声コマンドの正負判定に必要な特徴量を予め算出する学習処理部と、
    前記学習処理部において学習された特徴量を用いて音源分離処理を行う解析処理部を備えた音声信号処理装置。
  8. 前記学習処理部において算出する音声コマンドの正負判定に必要な特徴量は、前記解析処理部における音声コマンド認識処理において実行する音声コマンド対応の目的音と音声コマンド非対応の非目的音との判別処理である正負判定処理に必要な特徴量である請求項7に記載の音声信号処理装置。
  9. 音声信号処理装置において、入力音声信号からのコマンド識別処理を行う音声信号処理方法であり、
    時間周波数分析部が、入力音声信号の時間周波数分析を実行する時間周波数分析ステップと、
    基底分解部が、複数音源からの音を含む学習用音声信号に基づいて予め生成した学習データであり、各音源対応の基底周波数Bからなる学習データを入力し、前記各音源対応の基底周波数Bを結合した全基底周波数Ballを適用して、前記時間周波数分析部から入力する入力音声信号に対する時間周波数分析結果の基底分解を行い、入力音声信号に対する基底アクティビティHを生成する基底分解ステップと、
    コマンド識別部が、前記基底分解ステップにおいて生成した前記基底アクティビティHを入力し、入力した基底アクティビティHの識別処理を実行してコマンド識別を行うコマンド識別ステップを実行する音声信号処理方法。
  10. 音声信号処理装置において、入力音声信号からのコマンド識別処理を行う音声信号処理方法であり、
    学習処理部が、音声コマンドの正負判定に必要な特徴量を予め算出する学習処理ステップと、
    解析処理部が、前記学習処理ステップにおいて学習された特徴量を用いて音源分離処理を行う解析処理ステップを実行する音声信号処理方法。
  11. 音声信号処理装置において、入力音声信号からのコマンド識別処理を実行させるプログラムであり、
    時間周波数分析部に。入力音声信号の時間周波数分析を実行させる時間周波数分析ステップと、
    基底分解部に、複数音源からの音を含む学習用音声信号に基づいて予め生成した学習データであり、各音源対応の基底周波数Bからなる学習データを入力し、前記各音源対応の基底周波数Bを結合した全基底周波数Ballを適用して、前記時間周波数分析部から入力する入力音声信号に対する時間周波数分析結果の基底分解を行い、入力音声信号に対する基底アクティビティHを生成させる基底分解ステップと、
    コマンド識別部に、前記基底分解ステップにおいて生成した前記基底アクティビティHを入力し、入力した基底アクティビティHの識別処理を実行してコマンド識別を行わせるコマンド識別ステップを実行させるプログラム。
JP2011026240A 2011-02-09 2011-02-09 音声信号処理装置、および音声信号処理方法、並びにプログラム Withdrawn JP2012163918A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2011026240A JP2012163918A (ja) 2011-02-09 2011-02-09 音声信号処理装置、および音声信号処理方法、並びにプログラム
CA2763312A CA2763312A1 (en) 2011-02-09 2012-01-05 Audio signal processing device, audio signal processing method, and program
US13/363,892 US20120203719A1 (en) 2011-02-09 2012-02-01 Audio signal processing device, audio signal processing method, and program
CN201210027300XA CN102637435A (zh) 2011-02-09 2012-02-02 音频信号处理设备、音频信号处理方法和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011026240A JP2012163918A (ja) 2011-02-09 2011-02-09 音声信号処理装置、および音声信号処理方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2012163918A true JP2012163918A (ja) 2012-08-30

Family

ID=46601360

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011026240A Withdrawn JP2012163918A (ja) 2011-02-09 2011-02-09 音声信号処理装置、および音声信号処理方法、並びにプログラム

Country Status (4)

Country Link
US (1) US20120203719A1 (ja)
JP (1) JP2012163918A (ja)
CN (1) CN102637435A (ja)
CA (1) CA2763312A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015079110A (ja) * 2013-10-17 2015-04-23 ヤマハ株式会社 音響解析装置
JP2015096921A (ja) * 2013-11-15 2015-05-21 キヤノン株式会社 音響信号処理装置および方法
JP2015138053A (ja) * 2014-01-20 2015-07-30 キヤノン株式会社 音響信号処理装置およびその方法
WO2017217412A1 (ja) * 2016-06-16 2017-12-21 日本電気株式会社 信号処理装置、信号処理方法およびコンピュータ読み取り可能記録媒体
WO2017217396A1 (ja) * 2016-06-16 2017-12-21 日本電気株式会社 信号処理装置、信号処理方法およびコンピュータ読み取り可能記録媒体
WO2018042791A1 (ja) * 2016-09-01 2018-03-08 ソニー株式会社 情報処理装置、情報処理方法及び記録媒体
WO2019008625A1 (ja) * 2017-07-03 2019-01-10 日本電気株式会社 信号処理装置、信号処理方法およびプログラムを記憶する記憶媒体
JP2020143908A (ja) * 2019-03-04 2020-09-10 日本電気株式会社 パッシブソーナー装置及びその制御方法、並びにプログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5662276B2 (ja) * 2011-08-05 2015-01-28 株式会社東芝 音響信号処理装置および音響信号処理方法
EP2731359B1 (en) * 2012-11-13 2015-10-14 Sony Corporation Audio processing device, method and program
US9788119B2 (en) * 2013-03-20 2017-10-10 Nokia Technologies Oy Spatial audio apparatus
JP2014215461A (ja) * 2013-04-25 2014-11-17 ソニー株式会社 音声処理装置および方法、並びにプログラム
US9373320B1 (en) * 2013-08-21 2016-06-21 Google Inc. Systems and methods facilitating selective removal of content from a mixed audio recording
CN108170710A (zh) * 2017-11-28 2018-06-15 苏州市东皓计算机系统工程有限公司 一种计算机声音识别系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1953735B1 (en) * 2007-02-02 2010-01-06 Harman Becker Automotive Systems GmbH Voice control system and method for voice control

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015079110A (ja) * 2013-10-17 2015-04-23 ヤマハ株式会社 音響解析装置
JP2015096921A (ja) * 2013-11-15 2015-05-21 キヤノン株式会社 音響信号処理装置および方法
JP2015138053A (ja) * 2014-01-20 2015-07-30 キヤノン株式会社 音響信号処理装置およびその方法
JPWO2017217412A1 (ja) * 2016-06-16 2019-04-18 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
US10817719B2 (en) 2016-06-16 2020-10-27 Nec Corporation Signal processing device, signal processing method, and computer-readable recording medium
JP7006592B2 (ja) 2016-06-16 2022-01-24 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
WO2017217396A1 (ja) * 2016-06-16 2017-12-21 日本電気株式会社 信号処理装置、信号処理方法およびコンピュータ読み取り可能記録媒体
JPWO2017217396A1 (ja) * 2016-06-16 2019-04-11 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
WO2017217412A1 (ja) * 2016-06-16 2017-12-21 日本電気株式会社 信号処理装置、信号処理方法およびコンピュータ読み取り可能記録媒体
US10679646B2 (en) 2016-06-16 2020-06-09 Nec Corporation Signal processing device, signal processing method, and computer-readable recording medium
JPWO2018042791A1 (ja) * 2016-09-01 2019-06-24 ソニー株式会社 情報処理装置、情報処理方法及び記録媒体
US11031028B2 (en) 2016-09-01 2021-06-08 Sony Corporation Information processing apparatus, information processing method, and recording medium
WO2018042791A1 (ja) * 2016-09-01 2018-03-08 ソニー株式会社 情報処理装置、情報処理方法及び記録媒体
JPWO2019008625A1 (ja) * 2017-07-03 2020-04-02 日本電気株式会社 信号処理装置、信号処理方法およびプログラムを記憶する記憶媒体
WO2019008625A1 (ja) * 2017-07-03 2019-01-10 日本電気株式会社 信号処理装置、信号処理方法およびプログラムを記憶する記憶媒体
US11200882B2 (en) 2017-07-03 2021-12-14 Nec Corporation Signal processing device, signal processing method, and storage medium for storing program
JP2020143908A (ja) * 2019-03-04 2020-09-10 日本電気株式会社 パッシブソーナー装置及びその制御方法、並びにプログラム
JP7302203B2 (ja) 2019-03-04 2023-07-04 日本電気株式会社 パッシブソーナー装置、検出方法、及びプログラム

Also Published As

Publication number Publication date
CA2763312A1 (en) 2012-08-09
US20120203719A1 (en) 2012-08-09
CN102637435A (zh) 2012-08-15

Similar Documents

Publication Publication Date Title
JP2012163918A (ja) 音声信号処理装置、および音声信号処理方法、並びにプログラム
US20210089967A1 (en) Data training in multi-sensor setups
JP4810109B2 (ja) 別個の信号の成分を分離する方法およびシステム
Ozerov et al. Multichannel nonnegative tensor factorization with structured constraints for user-guided audio source separation
JP6027087B2 (ja) スペクトル挙動の変換を実行する音響信号処理システム及び方法
JP5662276B2 (ja) 音響信号処理装置および音響信号処理方法
US10657973B2 (en) Method, apparatus and system
US11610593B2 (en) Methods and systems for processing and mixing signals using signal decomposition
JP6622159B2 (ja) 信号処理システム、信号処理方法およびプログラム
EP2731359B1 (en) Audio processing device, method and program
JP2017520784A (ja) オンザフライの音源分離の方法及びシステム
US20140046666A1 (en) Information processing apparatus, computer program product, and information processing method
US20190188468A1 (en) Signal processing device, signal processing method, and computer-readable recording medium
JP2007256689A (ja) 音声の類似度の評価を行う方法および装置
JP7315087B2 (ja) 信号処理装置、信号処理方法、および、信号処理プログラム
WO2017046976A1 (ja) 信号検知装置、信号検知方法、および信号検知プログラム
JP2017152825A (ja) 音響信号解析装置、音響信号解析方法、及びプログラム
JP4946330B2 (ja) 信号分離装置及び方法
JP2017151228A (ja) 信号処理方法および音信号処理装置
JP6734237B2 (ja) 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム
Bahmaninezhad et al. A unified framework for speech separation
JP6911930B2 (ja) 信号処理装置、信号処理方法およびプログラム
US20180358030A1 (en) Media content mixing apparatuses, methods and systems
Duong et al. Multichannel audio source separation exploiting NMF-based generic source spectral model in Gaussian modeling framework
US20240127841A1 (en) Acoustic signal enhancement apparatus, method and program

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20140513