JP6747447B2 - 信号検知装置、信号検知方法、および信号検知プログラム - Google Patents

信号検知装置、信号検知方法、および信号検知プログラム Download PDF

Info

Publication number
JP6747447B2
JP6747447B2 JP2017540456A JP2017540456A JP6747447B2 JP 6747447 B2 JP6747447 B2 JP 6747447B2 JP 2017540456 A JP2017540456 A JP 2017540456A JP 2017540456 A JP2017540456 A JP 2017540456A JP 6747447 B2 JP6747447 B2 JP 6747447B2
Authority
JP
Japan
Prior art keywords
matrix
signal
basis
activation
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017540456A
Other languages
English (en)
Other versions
JPWO2017046976A1 (ja
Inventor
達也 小松
達也 小松
裕三 仙田
裕三 仙田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2017046976A1 publication Critical patent/JPWO2017046976A1/ja
Application granted granted Critical
Publication of JP6747447B2 publication Critical patent/JP6747447B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本発明は、信号検知装置、信号検知方法、および信号検知プログラムに関する。
非負値行列因子分解(NMF;Nonnegative Matrix Factorization、以下NMFという。)を実施することによって音源を分離する技術が知られている。NMFは、以下の式(1)のように、スペクトログラムであるf行t列の行列Vを、f行k列のスペクトル基底行列Wと、k行t列のアクティベーション行列Hの積に近似する行列分解手法である。kは、基底数を示すパラメータである。
V≒WH ・・・式(1)
非特許文献1には、NMFを用いて音響信号に含まれる音響イベントを検知する技術が記載されている。
音響イベントは、物理イベントに対応する音響信号のパターンである。物理イベントが引き起こす物理状態の遷移に伴い、対応する区間の音響信号パターンも変化する。
また、音響要素は、所定の物理状態に対応する音響信号パターンである。所定の物理状態が取り得る状態の振れ幅の分だけ、音響信号パターンも振れ幅を取り得る。すなわち、音響要素は、振れ幅を有する音響信号パターンである。
音響要素は、スペクトログラム上の、1フレーム分の音響信号、または複数フレーム分の音響信号の断片に相当する。すなわち、音響信号パターンが各物理状態に対応する音響要素ごとに分解されることによって、音響イベントが検知されやすい状態になる。
以下、非特許文献1に記載されている音響イベントの検知方法の概要を説明する。
非特許文献1に記載されている検知方法は、最初に音響信号に対して短時間フーリエ変換を行うことによって、音響信号をスペクトログラムに変換する。次いで、非特許文献1に記載されている検知方法は、変換されたスペクトログラムに対してNMFを実施することによって、スペクトログラムに含まれるスペクトル基底辞書の発現度合いを算出する。
非特許文献1に記載されている検知方法は、算出された発現度合い同士の組み合わせを用いて、音響信号に音響イベントが含まれているか否かを識別する。上記の手順で、非特許文献1に記載されている検知方法は、音響信号に含まれている音響イベントを検知する。
以下、非特許文献1に記載されている音響イベントの検知方法をより具体的に説明する。非特許文献1に記載されている検知方法は、最初に検知対象音が含まれる音響信号(既知の音響信号)がつなぎ合わせられたスペクトログラムに対してNMFを実施し、スペクトル基底辞書を作成する。
次いで、非特許文献1に記載されている検知方法は、短時間フーリエ変換を行うことによって未知の音響信号をスペクトログラムに変換し、変換されたスペクトログラムにおける、作成されたスペクトル基底辞書を構成する各基底のアクティベーション(発現度合い)を算出する。
次いで、非特許文献1に記載されている検知方法は、算出されたアクティベーション同士の組み合わせを用いて音響イベントが含まれているか否かを識別することによって、未知の音響信号に含まれている音響イベントを検知する。非特許文献1に記載されている検知方法は、同一の音響イベントに関する各基底のアクティベーションは同様の傾向を示すという仮定に基づいて、音響イベントを検知している。
アクティベーションは、スペクトル基底辞書を用いたNMFが実施されることによってスペクトログラムが分解される際に算出される。また、アクティベーション同士の組み合わせが用いられる音響イベント有無の識別処理には、例えば、隠れマルコフモデル(HMM;Hidden Markov Model)が使用される。
Courtenay V. Cotton and Daniel P. W. Ellis, ‘SPECTRAL VS. SPECTRO-TEMPORAL FEATURES FOR ACOUSTIC EVENT DETECTION’, 2011 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics
非特許文献1に記載されている技術は、検知精度が信号対雑音比(SNR;Signal to Noise ratio)に影響されにくいという特長を有する。しかし、非特許文献1に記載されている技術は、SNRが高い場合、すなわち信号が検知されやすい状況であっても精度よく信号を検知することが困難であるという課題を有する。
その理由は、スペクトル基底辞書を用いたNMFが実施されることによって算出される、スペクトルを表現できるスペクトル基底とアクティベーションとの組み合わせが複数存在するためである。すなわち、NMFにおいて選択される組み合わせが処理ごとに異なる。よって、NMFが実施されることによって算出されるアクティベーションは、毎回所定の結果になるとは限らず、安定しない。
上記の不安定性により、所定の結果以外のアクティベーションが算出されると、音響イベント有無の識別が失敗する可能性がある。すなわち、毎回音響イベント有無の識別に成功するわけではないため、非特許文献1に記載されている技術は、音響イベントの検知精度が低いという課題を有する。
そこで、本発明は、上述した課題を解決し、音響イベントを精度よく検知できる信号検知装置、信号検知方法、および信号検知プログラムを提供することを目的とする。
本発明による信号検知装置は、基底行列を構成する基底に関連付けられている、音響イベントを構成する音響要素の情報を用いて、基底行列が用いられた非負値行列因子分解で算出されたアクティベーション行列の、同一の音響要素の情報に関連付けられている基底に対応する行の要素を列ごとに加算することによって、アクティベーション行列を圧縮する圧縮部を備えることを特徴とする。
本発明による信号検知方法は、基底行列を構成する基底に関連付けられている、音響イベントを構成する音響要素の情報を用いて、基底行列が用いられた非負値行列因子分解で算出されたアクティベーション行列の、同一の音響要素の情報に関連付けられている基底に対応する行の要素を列ごとに加算することによって、アクティベーション行列を圧縮することを特徴とする。
本発明による信号検知プログラムは、コンピュータに、基底行列を構成する基底に関連付けられている、音響イベントを構成する音響要素の情報を用いて、基底行列が用いられた非負値行列因子分解で算出されたアクティベーション行列の、同一の音響要素の情報に関連付けられている基底に対応する行の要素を列ごとに加算することによって、アクティベーション行列を圧縮する圧縮処理を実行させることを特徴とする。
本発明によれば、音響イベントを精度よく検知できる。
本発明による信号検知装置の第1の実施形態の構成例を示すブロック図である。 第1の実施形態の信号検知装置100による信号検知処理の動作を示すフローチャートである。 本発明による信号検知装置の第2の実施形態の構成例を示すブロック図である。 基底行列Wを構成する基底と音響要素との関係を示す説明図である。 第2の実施形態の信号検知装置200による基底行列および識別モデル作成処理の動作を示すフローチャートである。 本発明による信号検知装置の第3の実施形態の構成例を示すブロック図である。 第3の実施形態の信号検知装置300による基底行列および識別モデル作成処理の動作を示すフローチャートである。 本発明による信号検知装置の概要を示すブロック図である。
実施形態1.
[構成の説明]
以下、本発明の実施形態を、図面を参照して説明する。図1は、本発明による信号検知装置の第1の実施形態の構成例を示すブロック図である。図1に示す信号検知装置100は、対象信号をスペクトログラムとして入力し、入力されたスペクトログラムに基づいて、対象信号内に検知目標とする音響イベントが含まれているか否かを識別する装置である。
図1に示す信号検知装置100は、基底格納部101と、解析部102と、モデル格納部103と、識別部104とを備える。
基底格納部101は、基底行列Wと、音響要素ID情報とを格納する機能を有する。
音響要素ID情報は、基底行列Wを構成する各基底に対応する音響要素IDを示す情報である。音響要素IDは、各音響要素に対応付けられている識別番号である。なお、音響要素IDは、先頭から所定番目の基底ごとに割り振られてもよい。
また、音響要素ID情報は、各基底に対応する音響要素IDが並べられたベクトルとして表されてもよい。本実施形態では、基底格納部101が、各基底に対応する音響要素IDが並べられたベクトルである音響要素IDベクトルCを格納する。
解析部102は、NMFを実施する機能を有する。解析部102は、スペクトログラムVを入力とし、基底行列Wを用いてNMFを実施することによって、アクティベーション行列Hを算出する。スペクトログラムVは、音響イベントが含まれるか否かが判別される、検知対象の音響信号のスペクトログラムである。
すなわち、解析部102は、式(1)に示すように、スペクトログラムVを基底行列Wとアクティベーション行列Hの積WHで表現する。以下、基底行列Wを構成するスペクトル基底を、単一の時間フレームに対応する時間幅を有する基底として説明する。
NMFを実施する際、解析部102は、具体的には、コスト関数D(V,W,H)が最小になるアクティベーション行列Hを算出する。コスト関数Dとして、例えば一般化Kullback-Leibler divergenceにおけるコスト関数DKLが使用される。コスト関数DKLの例を、以下の式(2)に示す。
Figure 0006747447
式(2)における〇は、行列の要素ごとの積を表す。また、式(2)における分数表記は、行列の要素ごとの商を表す。コスト関数Dには、DKL以外にフロベニウスノルムや板倉斉藤距離などが用いられてもよい。
解析部102は、コスト関数Dを最小にするアクティベーション行列Hを求めるために、例えば、基底行列Wを用いてアクティベーション行列Hを以下の式(3)に示すように更新する。
Figure 0006747447
式(3)におけるWTは、行列Wの転置行列を表す。また、式(3)における行列Oは、スペクトログラムVと同じ形式であり、要素が全て1の行列を表す。アクティベーション行列Hの初期値には、通常、乱数を要素として有するように生成された行列H0が用いられる。
解析部102は、所定の条件が満たされるまで、式(3)に従ってアクティベーション行列Hを更新する。所定の条件は、例えば、コスト関数Dの値が閾値以下になることである。また、所定の条件は、アクティベーション行列Hの更新回数が設定された繰り返し回数に達することでもよい。
次いで、解析部102は、所定の条件が満たされた状態で算出されたアクティベーション行列Hと、音響要素IDベクトルCとを用いて、音響要素IDごとにアクティベーション行列Hの圧縮処理を行い、圧縮行列H2を生成する。例えば、解析部102は、以下の式(4)に示すように圧縮行列H2を生成する。
Figure 0006747447
式(4)におけるHk,jは、アクティベーション行列Hのk行j列の要素を表す。また、式(4)におけるH2m,jは、圧縮行列H2のm行j列の要素を表す。また、式(4)におけるC(k)=mは、音響要素IDベクトルCのk番目の成分、すなわち音響要素IDがmであることを表す。
式(4)では、mの音響要素IDに関連付けられたアクティベーション行列Hの1つ以上の行の要素が、列ごとにそれぞれ加算される。要素同士が列ごとに加算されることによって生成された1つの行は、圧縮行列H2のm番目の行になる。
すなわち、圧縮処理は、同一の音響要素IDに関連付けられたアクティベーション行列Hの要素の、音響要素IDごとの総和をとることによって、アクティベーション行列Hの行数を音響要素数に削減する処理である。具体的には、例えば式(4)の場合、行数がkのアクティベーション行列Hは、行数がmの圧縮行列H2に圧縮されている。
モデル格納部103は、識別モデルを格納する機能を有する。本実施形態では、モデル格納部103に格納されている、インデックスとしてAが付与されている識別モデルに、サポートベクトルマシン(SVM; Support Vector Machine、以下SVMという。)が格納されているとする。
識別部104は、音響イベントを検知する機能を有する。識別部104は、圧縮行列H2と識別モデルとを用いて、音響イベントの有無を識別する。例えば、識別部104は、モデル格納部103に格納されているインデックスがAの識別モデルを用いる。
識別部104は、具体的には、圧縮行列H2から所定の時間幅分の行列を切り出すことによって、部分行列Pを作成する。所定の時間幅は、例えば600msである。
次いで、識別部104は、部分行列Pの時間平均をとり、特徴ベクトルxを算出する。識別部104は、特徴ベクトルxと、SVMで学習された識別面を表す行列Aと、ベクトルbとを使用し、以下に示す式(5)および式(6)に従って、音響イベントの有無を識別する。
Figure 0006747447
式(5)に示すf(x)が1の場合、すなわち式(6)に示すg(x)が正の場合、識別部104は、特徴ベクトルxを検知目的の音響イベントとして検知する。また、式(5)に示すf(x)が−1の場合、すなわち式(6)に示すg(x)が負の場合、識別部104は、音響イベントを検知しない。
なお、識別部104は、SVMの代わりに、隠れマルコフモデルを用いてもよいし、他の識別方式を用いてもよい。モデル格納部103には、識別部104が用いる識別方式に応じた識別モデルが格納される。
上記の手順で、識別部104は、音響イベントの有無を識別する。なお、識別部104は、上記の手順以外の手順で音響イベントの有無を識別してもよい。
また、解析部102は、コスト関数Dに音響要素IDベクトルCを含めることによって、音響要素の分解性能を上げることができる。例えば、制約条件Ω(H,C)が加えられたコスト関数D(V,W,H,C)の例を、以下の式(7)に示す。
Figure 0006747447
式(7)におけるλは、制約の強さが反映されるパラメータである。制約条件Ω(H)として、例えば、以下の式(8)に示す制約条件が用いられる。
Figure 0006747447
制約条件が加えられたコスト関数D(V,W,H,C)を最小にするアクティベーション行列Hを求めるために、解析部102は、例えば、以下の式(9)および式(10)に示すようにアクティベーション行列Hを更新する。
Figure 0006747447
式(10)におけるht (g)は、対応付けられた音響要素IDがgである基底に対応するアクティベーション行列の要素を表す。ht (g)のtは、アクティベーション行列Hの列インデックスである。すなわち、ht (g)は、列インデックスtに対応する列ベクトルであり、t番目の時間フレームにおけるアクティベーションを表す。
解析部102は、最初に式(9)に従ってアクティベーション行列Hを更新し、次に式(10)に従ってht (g)を音響要素IDのグループごとに更新する演算を、所定の条件が満たされるまで繰り返し実施する。所定の条件は、例えば、コスト関数Dの値が閾値以下になるという条件である。また、所定の条件は、演算回数が設定された繰り返し回数に達するという条件でもよい。
NMFで用いられる音響要素が少ないほど値が小さくなる制約条件Ω(H)がコスト関数Dに加えられる理由は以下の通りである。例えば、1つの音響要素で構成されるスペクトログラムに対してNMFが実施された場合であっても、アクティベーションが値を有する対象になる音響要素以外の、他の音響要素のアクティベーションが値を有する場合がある。
NMFで用いられる音響要素が多いほどコストが大きくなるような制約条件Ω(H)が加えられると、コスト関数Dの値が小さくなるにつれてアクティベーションが値を有する音響要素は少なくなる。その結果、アクティベーションが値を有する対象になる優位な音響要素のアクティベーションのみが値を有するようになり、上記のような事象は発生しなくなる。すなわち、制約条件Ω(H)がコスト関数Dに加えられると、より安定したアクティベーション行列が得られるためである。
また、式(4)に示すように、音響要素IDごとの総和がとられることによって、同一の音響要素IDに関連付けられた複数のアクティベーション行列の要素は、1つのアクティベーション行列の要素として計上される。すなわち、解析部102は、アクティベーション行列Hの各行にそれぞれ関連する各基底を、1つの基底として扱うことができる。
また、信号検知装置100は、基底行列Wを構成するスペクトル基底が複数の時間フレームに対応する時間幅を有する基底である場合であっても、Convolutive-NMFを実施することによって、基底行列Wを取り扱うことができる。複数の時間フレームに対応する時間幅は、例えば100msである。
上記の場合、基底行列Wを構成するスペクトル基底は、時間フレームインデックスτを用いて、W(τ)と表記される。スペクトログラムVは、例えば、以下の式(11)に示すように分解される。
Figure 0006747447
式(11)におけるTは、複数の時間フレームに対応する、基底が有する時間幅を表す。また、式(11)におけるH^(t→)は、各要素が右側にt列だけ移動したアクティベーション行列Hを表す。具体例として、以下の式(12)に示す行列Aに対して、行列Aの要素が右側に1列だけ移動した行列A^(1→)を、以下の式(13)に示す。
Figure 0006747447
式(11)において、アクティベーション行列Hの値は、W(0)が生起するタイミングを表す。また、W(0)が生起した1フレーム後にW(1)が生起し、W(0)が生起した2フレーム後にW(2)が生起する。
基底行列Wを構成するスペクトル基底が複数の時間フレームに対応する時間幅を有する基底である場合のコスト関数Dの例を、以下の式(14)に示す。
Figure 0006747447
また、式(14)に示すコスト関数Dを最小にするアクティベーション行列Hを求めるために、解析部102は、例えば以下の式(15)に示すようにアクティベーション行列Hを更新する。
Figure 0006747447
なお、T=1の場合、式(14)および式(15)は、単一の時間フレームに対応する時間幅を有する基底で構成される基底行列Wが用いられるNMFにおける各式と等価になる。すなわち、式(14)に示すコスト関数Dは、式(2)に示すコスト関数Dと等価になる。また、式(15)に示す更新式は、式(3)に示す更新式と等価になる。
以上のように、本実施形態の信号検知装置は、音響イベントを各物理状態に対応する音響要素ごとに分解することによって、精度よく音響イベントを検知できる。
[動作の説明]
以下、本実施形態の信号検知装置100の動作を図2を参照して説明する。図2は、第1の実施形態の信号検知装置100による信号検知処理の動作を示すフローチャートである。
解析部102に、検知対象の音響信号がスペクトログラムVとして入力される(ステップS101)。
次いで、解析部102は、基底格納部101に格納されている基底行列Wを用いて、入力されたスペクトログラムVに対してNMFを実施する。NMFを実施することによって、解析部102は、アクティベーション行列Hを算出する(ステップS102)。
次いで、解析部102は、所定の条件が満たされているか否かを確認する(ステップS103)。所定の条件が満たされている場合(ステップS103におけるYes)、解析部102は、ステップS105の処理を行う。
所定の条件が満たされていない場合(ステップS103におけるNo)、解析部102は、算出されたアクティベーション行列Hを更新する(ステップS104)。更新した後、解析部102は、再度所定の条件が満たされているか否かを確認する(ステップS103)。
なお、所定の条件は、例えば、上述したようなコスト関数Dの値が閾値以下になることや、アクティベーション行列Hの更新回数が設定された繰り返し回数に達することである。所定の条件は、上述した条件以外の条件でもよい。
次いで、解析部102は、音響要素IDベクトルCを用いて、所定の条件が満たされた状態におけるアクティベーション行列Hを圧縮する(ステップS105)。解析部102は、圧縮されたアクティベーション行列Hである圧縮行列を、識別部104に入力する。
次いで、識別部104は、解析部102から入力された圧縮行列と、モデル格納部103に格納されている識別モデルとを用いて、音響信号内に音響イベントが含まれているか否かを識別する(ステップS106)。識別部104は、音響イベント有無の識別結果を出力する。出力した後、信号検知装置100は、信号検知処理を終了する。
[効果の説明]
本実施形態の信号検知装置は、NMFを実施することによって、検知目標とする音響イベントを構成する音響要素を抽出できる。抽出する際、解析部は、音響要素IDを用いて基底をグループ化し、音響要素IDごとにアクティベーション行列の要素の総和をとることによって、圧縮されたアクティベーション行列を生成する。すなわち、解析部は、単に基底行列を構成する基底ごとに独立してスペクトログラムを分解するのではなく、音響要素単位でスペクトログラムを分解する。
すなわち、音響イベントが対応する物理状態の組み合わせとして捉えられるため、解析部は、誤ったNMFを実施する可能性が低い。従って、非特許文献1に記載されている技術が有する課題である、スペクトルを表現する組み合わせが複数存在することに起因する、アクティベーションの不安定性が解消される。識別部も、算出されたアクティベーションを用いて、精度よく音響イベントを検知できる。
また、本実施形態の信号検知装置は、算出されるアクティベーションに対して圧縮処理を実施できる。圧縮処理を実施すると識別器の次元数を求められる最小値まで削減できるため、信号検知装置は、高精度な検知と低コストな演算の両方を実現できる。すなわち、信号検知装置は、信号対雑音比が高い場合、または信号対雑音比が低い場合のいずれの場合であっても、音響イベントを精度よく検知できる。
実施形態2.
[構成の説明]
次に、本発明の第2の実施形態を、図面を参照して説明する。図3は、本発明による信号検知装置の第2の実施形態の構成例を示すブロック図である。図3に示す信号検知装置200は、対象信号をスペクトログラムとして入力し、入力されたスペクトログラムに基づいて、対象信号内に検知目標とする音響イベントが含まれているか否かを識別する装置である。
図3に示す信号検知装置200は、信号検知装置100と、基底生成部201と、ラベル付き解析部202と、学習部203とを備える。本実施形態の信号検知装置100の構成は、図1に示す第1の実施形態の信号検知装置100の構成と同様である。また、信号検知装置100の各構成要素の機能は、第1の実施形態の各構成要素の機能と同様である。
基底生成部201は、音響要素の基底辞書を生成する機能を有する。基底生成部201は、検知目標とする音響イベントを構成する音響要素を含むようなスペクトログラムV0に対してNMFを実施することによって、基底辞書を生成する。
基底辞書を生成するために、基底生成部201は、最初にスペクトログラムV0に対して通常のNMFを実施することによって、初期基底W0を算出する。本実施形態のコスト関数Dの例を、以下の式(16)に示す。
Figure 0006747447
また、基底生成部201は、例えば以下の式(17)に示すようにアクティベーション行列Hを更新する。また、基底生成部201は、例えば以下の式(18)に示すように初期基底W0を更新する。
Figure 0006747447
基底生成部201は、所定の条件が満たされるまでアクティベーション行列Hおよび初期基底W0を更新する。所定の条件は、例えばコスト関数Dの値が閾値以下になることである。または、所定の条件は、アクティベーション行列Hおよび初期基底W0の更新回数が設定された繰り返し回数に達することでもよい。例えば、基底生成部201は、初期基底W0とアクティベーション行列Hを交互に更新し、コスト関数DKLが最小になる初期基底W0とアクティベーション行列Hの組を算出する。
次いで、基底生成部201は、所定の条件が満たされた状態で算出された初期基底W0を、例えばk-means法を用いてクラスタリングし、G個のクラスに分割する。G個のクラスへの分割により、セントロイドベクトルμ(g)が得られる。gは、g番目のクラスを表すインデックスである。セントロイドベクトルμ(g)は、初期基底W0の代表的な要素で構成されるベクトルであり、各音響要素に対応する。
次いで、基底生成部201は、スペクトログラムV0に対して、基底行列を用いて再度NMFを実施する。実施する際、基底生成部201は、基底行列の初期値に、例えば以下の式(19)に示すW1を用いる。
Figure 0006747447
式(19)は、各音響要素を構成する基底の数がn(g)であることを示す。式(19)に示すW1は、μ(g)がそれぞれn(g)個ずつ並べられた行列である。
また、再度NMFが実施される際に使用されるコスト関数Dには、各グループの基底とセントロイドベクトルとの距離が短くなるような制約条件が含められる。再度NMFが実施される際に使用されるコスト関数Dの例を、以下の式(20)に示す。
Figure 0006747447
また、式(20)に示すコスト関数Dを最小にする基底行列Wを求めるために、基底生成部201は、例えば以下の式(21)に示すように基底行列Wを更新する。また、式(20)に示すコスト関数Dを最小にするアクティベーション行列Hを求めるために、基底生成部201は、例えば以下の式(22)および式(23)に示すようにアクティベーション行列Hを更新する。
Figure 0006747447
式(23)におけるht (g)は、対応付けられた音響要素IDがgである基底に対応するアクティベーション行列Hの要素を表す。
基底生成部201は、所定の条件が満たされるまで基底行列Wおよびアクティベーション行列Hを更新する。所定の条件は、例えばコスト関数Dの値が閾値以下になることである。または、所定の条件は、基底行列Wおよびアクティベーション行列Hの更新回数が設定された繰り返し回数に達することでもよい。例えば、基底生成部201は、式(21)〜式(23)に従う各更新処理を、所定の条件が満たされるまで順番に繰り返し実施する。
更新処理の後、基底生成部201は、G個の各音響要素をn(g)個の基底でそれぞれ表現する基底行列Wを生成する。n(g)個の基底は、各音響要素の振れ幅を表現する。
また、基底生成部201は、基底行列Wの、どの行がどの音響要素IDのグループに対応しているかを示すベクトルを、音響要素IDベクトルとして生成する。なお、基底生成部201は、各音響要素の振れ幅に応じてn(g)を変化させてもよい。また、基底生成部201は、全てのn(g)に同じ値を設定してもよい。
上記のように基底生成部201が生成した各基底が音響要素を囲む基底行列Wと、一般的なNMFで作成された基底行列との違いを、図4を参照して説明する。
図4は、基底行列Wを構成する基底と音響要素との関係を示す説明図である。図4に示す円は、スペクトルである。図4は、二次元平面上に表現された、3つの音響要素で構成されるスペクトログラムを構成するスペクトルを示す。また、図4に示す白い矩形は、基底である。また、図4に示す破線は、基底同士の線形結合である。
図4(a)は、一般的なNMFで作成された基底行列を構成する基底と音響要素との関係を示す。図4(a)に示す白い各矩形は、基底w1〜基底w7にそれぞれ対応する。基底w1〜基底w7は、図4(a)に示すスペクトルで構成されるスペクトログラムに対してNMFが実施された際に得られた基底である。
一般的なNMFにおいてスペクトログラムは、非負の重み係数(すなわち、アクティベーション)が用いられた各基底の線形和で表現される。例えば、基底w1〜基底w7の線形和で表現される範囲は、図4(a)に示す基底w1〜基底w7で囲われる範囲である。
一般的なNMFで基底行列が作成される場合、音響要素の分布は考慮されずに基底行列が作成される。よって、作成される基底行列は、図4(a)に示すように、各基底の1つの大きな分布として表現される。図4(a)に示す基底の分布と音響要素の分布との間に、対応関係は特に見受けられない。すなわち、一般的なNMFにおいてスペクトログラムが任意の基底の線形和で表現されるため、NMFで得られるアクティベーションが安定しない。
図4(b)は、基底生成部201が生成した基底行列を構成する基底と音響要素との関係を示す。図4(b)に示す網掛けの矩形は、セントロイドベクトルである。
図4(b)に示す白い各矩形は、基底w1 (1)〜基底w4 (1)、基底w1 (2)〜基底w4 (2)、基底w1 (3)〜基底w4 (3)にそれぞれ対応する。また、図4(b)に示す網掛けの各矩形は、セントロイドベクトルμ(1)〜セントロイドベクトルμ(3)にそれぞれ対応する。
図4(b)に示すように、例えば、基底w1 (1)〜基底w4 (1)は、セントロイドベクトルμ(1)に近づけるという制約の下で生成される。セントロイドベクトルは音響要素に対応するため、セントロイドベクトルに近づけるという条件が付与されることによって、基底w1 (1)〜基底w4 (1)は、音響要素を囲むように生成される。基底w1 (2)〜基底w4 (2)、基底w1 (3)〜基底w4 (3)も、それぞれ基底w1 (1)〜基底w4 (1)と同様に生成される。
すなわち、上記のように基底生成部201は、各基底をセントロイドベクトルμ(g)に近づけるという制約の下で基底行列Wを生成する。よって、基底行列Wを構成する各基底は、音響要素を囲むように生成される。
以上により、各音響要素に対応するスペクトルは、音響要素に対応するアクティベーションのみで表現される。基底生成部201が生成した基底行列Wは、基底格納部101に格納される。
ラベル付き解析部202は、ラベル付きスペクトログラムに対してNMFを実施する機能を有する。ラベル付き解析部202は、ラベル付きスペクトログラムを入力とし、入力されたラベル付きスペクトログラムに対してNMFを実施することによって、ラベル付きアクティベーション行列を算出する。
ラベル付きスペクトログラムは、スペクトログラム自身が対応する音響信号が検知対象の信号であるか否かを示すラベルが付されているスペクトログラムである。また、スペクトログラム自身が対応する音響信号が検知対象の信号である場合、ラベル付きスペクトログラムには、音響信号がどの音響イベントに対応するかを示すラベルも付されている。
NMFを実施する際、ラベル付き解析部202は、基底格納部101に格納されている、基底生成部201が生成した基底行列Wを使用する。
学習部203は、識別部104が用いる識別モデルを学習する機能を有する。例えば、学習部203は、SVMの識別面を表す行列Aとベクトルbを学習する。学習部203がSVMを学習する際、各アクティベーションがどの音響イベントを含む音響信号のアクティベーションであるかを示すラベルが求められる。
よって、学習部203は、ラベル付き解析部202により算出されたラベル付きアクティベーション行列を用いて、SVMを学習する。学習部203は、学習したSVMの識別面を表す行列Aとベクトルbを、モデル格納部103に格納する。
なお、本実施形態の基底生成部201も、第1の実施形態と同様に、一般的なNMFの代わりにConvolutive-NMFを実施することによって、時間構造が含まれた基底を生成できる。時間構造が含まれた基底を生成する場合、基底生成部201が使用する各式の形式は、式(11)、式(14)、および式(15)に対応した形式に置き換えられる。
[動作の説明]
以下、本実施形態の信号検知装置200の動作を図5を参照して説明する。図5は、第2の実施形態の信号検知装置200による基底行列および識別モデル作成処理の動作を示すフローチャートである。
基底生成部201に、検知目標とする音響イベントを構成する音響要素を含むスペクトログラムV0が入力される(ステップS201)。
次いで、基底生成部201は、入力されたスペクトログラムV0に対してNMFを実施する。NMFを実施することによって、基底生成部201は、初期基底W0とアクティベーション行列Hを算出する(ステップS202)。
次いで、基底生成部201は、所定の条件が満たされているか否かを確認する(ステップS203)。所定の条件が満たされている場合(ステップS203におけるYes)、基底生成部201は、ステップS205の処理を行う。
所定の条件が満たされていない場合(ステップS203におけるNo)、基底生成部201は、算出された初期基底W0およびアクティベーション行列Hを更新する(ステップS204)。更新した後、基底生成部201は、再度所定の条件が満たされているか否かを確認する(ステップS203)。
なお、所定の条件は、例えば、上述したようなコスト関数Dの値が閾値以下になることや、更新回数が設定された繰り返し回数に達することである。所定の条件は、上述した条件以外の条件でもよい。
次いで、基底生成部201は、所定の条件が満たされた状態における初期基底W0をクラスタリングする。基底生成部201は、クラスタリングによって生成されたセントロイドベクトルを基に、行列W1を生成する(ステップS205)。
次いで、基底生成部201は、生成された行列W1を用いて、入力されたスペクトログラムV0に対して再度NMFを実施する。NMFを実施することによって、基底生成部201は、基底行列Wとアクティベーション行列Hを算出する(ステップS206)。
次いで、基底生成部201は、所定の条件が満たされているか否かを確認する(ステップS207)。所定の条件が満たされている場合(ステップS207におけるYes)、基底生成部201は、ステップS209の処理を行う。
所定の条件が満たされていない場合(ステップS207におけるNo)、基底生成部201は、算出された基底行列Wおよびアクティベーション行列Hを更新する(ステップS208)。更新した後、基底生成部201は、再度所定の条件が満たされているか否かを確認する(ステップS207)。
なお、所定の条件は、例えば、上述したようなコスト関数Dの値が閾値以下になることや、更新回数が設定された繰り返し回数に達することである。所定の条件は、上述した条件以外の条件でもよい。
次いで、基底生成部201は、所定の条件が満たされた状態における基底行列Wを、基底格納部101に格納する。また、基底生成部201は、基底行列Wに基づいて、音響要素IDベクトルCを生成する。基底生成部201は、生成された音響要素IDベクトルCを基底格納部101に格納する(ステップS209)。
次いで、ラベル付き解析部202に、ラベル付きスペクトログラムが入力される(ステップS210)。
ラベル付き解析部202は、ステップS209の処理で基底格納部101に格納された基底行列Wを用いて、入力されたラベル付きスペクトログラムに対してNMFを実施する。NMFを実施することによって、ラベル付き解析部202は、ラベル付きアクティベーション行列を算出する(ステップS211)。
ラベル付き解析部202は、算出されたラベル付きアクティベーション行列を学習部203に入力する。次いで、学習部203は、入力されたラベル付きアクティベーション行列を用いて、識別モデルを学習する(ステップS212)。
次いで、学習部203は、学習された識別モデルをモデル格納部103に格納する(ステップS213)。格納した後、信号検知装置200は、基底行列および識別モデル作成処理を終了する。
また、本実施形態の信号検知装置200による信号検知処理は、図2に示す信号検知処理と同様である。
[効果の説明]
本実施形態の信号検知装置は、第1の実施形態の特長に加えて、基底生成部が音響要素を直接的に表す基底行列を生成でき、解析部が生成された基底行列を用いてNMFを実施することによって、高精度に音響要素を抽出できる。すなわち、本実施形態の信号検知装置は、信号対雑音比が高い場合、または信号対雑音比が低い場合のいずれの場合であっても、第1の実施形態に比べて音響イベントをより精度よく検知できる。
実施形態3.
[構成の説明]
次に、本発明の第3の実施形態を、図面を参照して説明する。図6は、本発明による信号検知装置の第3の実施形態の構成例を示すブロック図である。図6に示す信号検知装置300は、対象信号をスペクトログラムとして入力し、入力されたスペクトログラムに基づいて、対象信号内に検知目標とする音響イベントが含まれているか否かを識別する装置である。
図6に示す信号検知装置300は、基底生成部301と、基底格納部302と、ラベル付き解析部303と、学習部304と、モデル格納部305と、解析部306と、識別部307とを備える。すなわち、本実施形態の信号検知装置300の構成は、図3に示す第2の実施形態の信号検知装置200の構成と同様である。
本実施形態の基底生成部301は、第2の実施形態の基底生成部201とは異なる機能を有する。基底生成部301以外の各構成要素は、第2の実施形態の各構成要素と同様である。
基底生成部301は、制約付きNMFを実施する機能を有する。基底生成部301は、基底生成用のスペクトログラムを入力とし、制約付きNMFを実施することによって、基底行列を算出する。基底生成用のスペクトログラムには、例えば、検知目標とする音響イベントを構成する音響要素を含むようなスペクトログラムが用いられる。
基底格納部302は、基底生成部301が算出した基底行列を格納する。また、ラベル付き解析部303は、ラベル付きスペクトログラムを入力とし、基底格納部302に格納された基底行列を用いてNMFを実施し、ラベル付きアクティベーション行列を算出する。
また、学習部304は、ラベル付き解析部303が算出したラベル付きアクティベーション行列を用いて、識別モデルを学習する。また、モデル格納部305は、学習部304が学習した識別モデルを格納する。
また、解析部306は、対象信号のスペクトログラムを入力とし、基底格納部302に格納された基底行列を用いて入力されたスペクトログラムに対して通常のNMFを実施し、アクティベーション行列を算出する。
また、識別部307は、解析部306が算出したアクティベーション行列と、モデル格納部305に格納された識別モデルとを用いて識別処理を実施し、音響イベントを検知する。上述したように、基底生成部301以外の各構成要素の機能は、第2の実施形態の各構成要素の機能と同様である。
また、第1の実施形態と同様、識別部307は、SVMや隠れマルコフモデルを用いて識別処理を実施できる。学習部304は、識別部307が用いる識別方式に応じた識別モデルを生成する。また、モデル格納部305には、識別部307が用いる識別方式に応じた識別モデルが格納される。
以下、本実施形態の基底生成部301が実施する制約付きNMFを説明する。制約付きNMFとして、Convex-NMFを例に説明する。
クラスタリングを基にしているConvex-NMFが用いられると、スペクトログラムに基づいて音響要素を表現する基底行列が直接的に作成される。その理由は、Convex-NMFが用いられる場合、基底行列WがスペクトログラムVの線形和で表されるためである。すなわち、基底行列Wは、重み係数行列Gを用いてW=VGで表現される。
基底生成部301がConvex-NMFを実施する際に用いられるコスト関数Dの例を、以下の式(24)に示す。
Figure 0006747447
なお、式(24)に示すコスト関数Dの例は、コスト関数としてフロベニウスノルムが用いられた例である。フロベニウスノルムは、行列の要素ごとの二乗誤差の、全要素分の総和である。
基底生成部301は、例えば以下の式(25)に示すように重み係数行列Gを更新する。また、基底生成部301は、例えば以下の式(26)に示すようにアクティベーション行列Hを更新する。
Figure 0006747447
基底生成部301が抽出する基底行列W=VGを構成する各スペクトル基底は、音響要素の振れ幅を表現しない。しかし、基底生成部301は、スペクトログラムVの線形和で直接的にスペクトル基底を作成し、より的確に音響要素を表すスペクトル基底を抽出するため、音響要素を単独の基底で表現できる。
[動作の説明]
以下、本実施形態の信号検知装置300の動作を図7を参照して説明する。図7は、第3の実施形態の信号検知装置300による基底行列および識別モデル作成処理の動作を示すフローチャートである。
ステップS301〜ステップS305の処理は、図5に示すステップS201〜ステップS205の処理と同様である。
基底生成部301は、生成された行列W1を用いて、入力されたスペクトログラムV0に対して制約付きNMFを実施する。制約付きNMFを実施することによって、基底生成部301は、基底行列Wを算出する(ステップS306)。
次いで、基底生成部301は、所定の条件が満たされているか否かを確認する(ステップS307)。所定の条件が満たされている場合(ステップS307におけるYes)、基底生成部301は、ステップS309の処理を行う。
所定の条件が満たされていない場合(ステップS307におけるNo)、基底生成部301は、算出された基底行列Wを構成する重み係数行列G、およびアクティベーション行列Hを更新する(ステップS308)。更新した後、基底生成部301は、再度所定の条件が満たされているか否かを確認する(ステップS307)。
なお、所定の条件は、例えば、上述したようなコスト関数Dの値が閾値以下になることや、更新回数が設定された繰り返し回数に達することである。所定の条件は、上述した条件以外の条件でもよい。
ステップS309〜ステップS313の処理は、図5に示すステップS209〜ステップS213の処理と同様である。
また、本実施形態の信号検知装置300による信号検知処理は、図2に示す信号検知処理と同様である。
[効果の説明]
本実施形態の信号検知装置は、対象信号に検知目標の音響イベントと他の音が混在して含まれている場合であっても、NMFを実施することによって雑音に影響されずに音響要素を抽出できる。その理由は、本実施形態で用いられる基底行列を構成するスペクトル基底はスペクトログラムの線形和で作成されるので、各基底が音響要素そのものを表し、各基底のアクティベーションも各音響要素の発現度合いそのものに対応するためである。
よって、本実施形態の信号検知装置は、スペクトログラムに含まれる音響要素の数と同程度の基底数で基底辞書を構成できる。すなわち、信号検知装置は、第1の実施形態および第2の実施形態に比べて少ない演算量で、信号対雑音比が高い場合、または信号対雑音比が低い場合のいずれの場合であっても、音響イベントを精度よく検知できる。
以上、各実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されない。
例えば、各実施形態において、スペクトログラムVには音響信号に対する短時間フーリエ変換で得られたスペクトログラムが用いられると説明した。スペクトログラムVは、短時間フーリエ変換で得られたスペクトログラム以外に、ウェーブレット変換などの他の周波数解析手法で作成された行列でもよい。スペクトログラムVは、NMFを実施できる、加算的な値を取り扱う行列であればどのような行列でもよい。また、音響信号に対する変換処理の種類や、音響信号自身の種類は限定されない。
また、本発明は、複数の機器で構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。
さらに、本発明は、各実施形態の機能を実現する情報処理プログラムが、システムまたは装置に供給される場合にも適用可能である。情報処理プログラムは、装置にUSB(Universal Serial Bus)メモリなどから直接供給されてもよいし、遠隔地から供給されてもよい。
すなわち、本発明の機能をコンピュータで実現するために、コンピュータに導入されるプログラム、プログラムが格納された媒体、またはプログラムを通信可能に接続されている他サーバに転送するWWW(World Wide Web)サーバも、本発明の範疇に含まれる。
特に、少なくとも、上述した各実施形態に含まれる処理ステップをコンピュータに実行させるプログラムが格納された非一時的コンピュータ可読媒体(non-transitory computer readable medium)は、本発明の範疇に含まれる。
また、各実施形態の信号検知装置における各部は、ハードウェア回路によって実現されてもよい。
本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、各実施形態に含まれる各々の特徴が組み合わせられた要素を有するシステムまたは装置も、本発明の範疇に含まれる。
次に、本発明の概要を説明する。図8は、本発明による信号検知装置の概要を示すブロック図である。図8に示す信号検知装置10は、対象信号をスペクトログラムとして入力し、入力されたスペクトログラムに基づいて、対象信号内に検知目標とする音響イベントが含まれているか否かを識別する装置である。
本発明による信号検知装置10は、基底行列を構成する基底に関連付けられている、音響イベントを構成する音響要素の情報を用いて、基底行列が用いられた非負値行列因子分解で算出されたアクティベーション行列の、同一の音響要素の情報に関連付けられている基底に対応する行の要素を列ごとに加算することによって、アクティベーション行列を圧縮する圧縮部11(例えば、解析部102)を備える。
そのような構成により、信号検知装置は、音響イベントを精度よく検知できる。
また、信号検知装置10は、圧縮されたアクティベーション行列と音響イベントの検知に使用される検知モデルとを用いて、アクティベーション行列が構成するスペクトログラムに対応する音響信号に含まれている音響イベントを検知する検知部(例えば、識別部104)を備えてもよい。
そのような構成により、信号検知装置は、圧縮されたアクティベーション行列と識別モデルとを用いて、音響イベントの有無を識別できる。
また、信号検知装置10は、音響イベントを構成する音響要素を含むスペクトログラムに対して、所定の条件を満たすように非負値行列因子分解を実施することによって、音響要素に対応する基底で構成される基底行列を生成する生成部(例えば、基底生成部201)を備えてもよい。
そのような構成により、信号検知装置は、各スペクトル基底が音響要素を囲むような基底行列を生成できる。
また、信号検知装置10は、対応する音響信号が検知対象の信号であるか否かを示す情報が対応付けられているスペクトログラムに対して、生成部により生成された基底行列を用いて非負値行列因子分解を実施する解析部(例えば、ラベル付き解析部202)を備えてもよい。
そのような構成により、信号検知装置は、ラベル付きアクティベーション行列を生成できる。
また、信号検知装置10は、要素に対応する音響信号に含まれる音響イベントを示す情報が対応付けられている、要素で構成されるアクティベーション行列を用いて、検知モデルを学習する学習部(例えば、学習部203)を備えてもよい。
そのような構成により、信号検知装置は、ラベル付きアクティベーション行列を用いて識別モデルを学習できる。
また、生成部は、制約付き非負値行列因子分解を実施することによって基底行列を生成してもよい。
そのような構成により、信号検知装置は、対象信号に検知目標とする音響イベントと他の音が混在して含まれている場合であっても、雑音に影響されずに音響要素を抽出できる。
また、信号検知装置10は、基底行列と音響要素ID情報が格納される基底格納部(例えば、基底格納部101)と、検知モデルが格納されるモデル格納部(例えば、モデル格納部103)とを備えてもよい。また、圧縮部11は、スペクトログラムを入力とし、基底格納部に格納されている基底行列を用いて非負値行列因子分解を実施することによって、アクティベーション行列を算出してもよい。
以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2015年9月16日に出願された日本特許出願2015−182816を基礎とする優先権を主張し、その開示の全てをここに取り込む。
10、100、200、300 信号検知装置
11 圧縮部
101、302 基底格納部
102、306 解析部
103、305 モデル格納部
104、307 識別部
201、301 基底生成部
202、303 ラベル付き解析部
203、304 学習部

Claims (9)

  1. 基底行列を構成する基底に関連付けられている、信号パターンを構成する信号要素の情報を用いて、前記基底行列が用いられた非負値行列因子分解で算出されたアクティベーション行列の、同一の前記信号要素の情報に関連付けられている基底に対応する行の要素を列ごとに加算することによって、前記アクティベーション行列を圧縮する圧縮部を備える
    ことを特徴とする信号検知装置。
  2. 圧縮されたアクティベーション行列と信号パターンの検知に使用される検知モデルとを用いて、前記アクティベーション行列が構成するスペクトログラムに対応する信号に含まれている信号パターンを検知する検知部を備える
    請求項1記載の信号検知装置。
  3. 信号パターンを構成する信号要素を含むスペクトログラムに対して、所定の条件を満たすように非負値行列因子分解を実施することによって、前記信号要素に対応する基底で構成される基底行列を生成する生成部を備える
    請求項1または請求項2記載の信号検知装置。
  4. 対応する信号が検知対象の信号であるか否かを示す情報が対応付けられているスペクトログラムに対して、生成部により生成された基底行列を用いて非負値行列因子分解を実施する解析部を備える
    請求項3記載の信号検知装置。
  5. 要素に対応する信号に含まれる信号パターンを示す情報が対応付けられている、前記要素で構成されるアクティベーション行列を用いて、検知モデルを学習する学習部を備える
    請求項1から請求項4のうちのいずれか1項に記載の信号検知装置。
  6. 基底行列を構成する基底に関連付けられている、信号パターンを構成する信号要素の情報を用いて、前記基底行列が用いられた非負値行列因子分解で算出されたアクティベーション行列の、同一の前記信号要素の情報に関連付けられている基底に対応する行の要素を列ごとに加算することによって、前記アクティベーション行列を圧縮する
    ことを特徴とする信号検知方法。
  7. 圧縮されたアクティベーション行列と信号パターンの検知に使用される検知モデルとを用いて、前記アクティベーション行列が構成するスペクトログラムに対応する信号に含まれている信号パターンを検知する
    請求項6記載の信号検知方法。
  8. コンピュータに、
    基底行列を構成する基底に関連付けられている、信号パターンを構成する信号要素の情報を用いて、前記基底行列が用いられた非負値行列因子分解で算出されたアクティベーション行列の、同一の前記信号要素の情報に関連付けられている基底に対応する行の要素を列ごとに加算することによって、前記アクティベーション行列を圧縮する圧縮処理
    を実行させるための信号検知プログラム。
  9. コンピュータに、
    圧縮されたアクティベーション行列と信号パターンの検知に使用される検知モデルとを用いて、前記アクティベーション行列が構成するスペクトログラムに対応する信号に含まれている信号パターンを検知する検知処理を実行させる
    請求項8記載の信号検知プログラム。
JP2017540456A 2015-09-16 2016-06-16 信号検知装置、信号検知方法、および信号検知プログラム Active JP6747447B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015182816 2015-09-16
JP2015182816 2015-09-16
PCT/JP2016/002904 WO2017046976A1 (ja) 2015-09-16 2016-06-16 信号検知装置、信号検知方法、および信号検知プログラム

Publications (2)

Publication Number Publication Date
JPWO2017046976A1 JPWO2017046976A1 (ja) 2018-07-05
JP6747447B2 true JP6747447B2 (ja) 2020-08-26

Family

ID=58288432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017540456A Active JP6747447B2 (ja) 2015-09-16 2016-06-16 信号検知装置、信号検知方法、および信号検知プログラム

Country Status (3)

Country Link
US (1) US10650842B2 (ja)
JP (1) JP6747447B2 (ja)
WO (1) WO2017046976A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017217412A1 (ja) * 2016-06-16 2017-12-21 日本電気株式会社 信号処理装置、信号処理方法およびコンピュータ読み取り可能記録媒体
WO2019077723A1 (ja) * 2017-10-19 2019-04-25 日本電気株式会社 信号処理装置、信号処理方法およびプログラムを記憶する記憶媒体
US20210064928A1 (en) * 2018-02-16 2021-03-04 Nec Corporation Information processing apparatus, method, and non-transitory storage medium
US20230267301A1 (en) * 2022-02-23 2023-08-24 International Business Machines Corporation Neural network inference quantization

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5942420B2 (ja) * 2011-07-07 2016-06-29 ヤマハ株式会社 音響処理装置および音響処理方法
US20140114650A1 (en) * 2012-10-22 2014-04-24 Mitsubishi Electric Research Labs, Inc. Method for Transforming Non-Stationary Signals Using a Dynamic Model
JP2014134688A (ja) 2013-01-10 2014-07-24 Yamaha Corp 音響解析装置
JP2014137389A (ja) 2013-01-15 2014-07-28 Yamaha Corp 音響解析装置

Also Published As

Publication number Publication date
US20190156853A1 (en) 2019-05-23
US10650842B2 (en) 2020-05-12
WO2017046976A1 (ja) 2017-03-23
JPWO2017046976A1 (ja) 2018-07-05

Similar Documents

Publication Publication Date Title
JP7149197B2 (ja) 異常音検知装置および異常音検知方法
US10832685B2 (en) Speech processing device, speech processing method, and computer program product
JP6747447B2 (ja) 信号検知装置、信号検知方法、および信号検知プログラム
JP2012163918A (ja) 音声信号処理装置、および音声信号処理方法、並びにプログラム
US10296844B2 (en) Automatic discovery of message ordering invariants in heterogeneous logs
US10817719B2 (en) Signal processing device, signal processing method, and computer-readable recording medium
JPWO2019220620A1 (ja) 異常検出装置、異常検出方法及びプログラム
Dogan et al. A novel ternary and signum kernelled linear hexadecimal pattern and hybrid feature selection based environmental sound classification method
JP6099032B2 (ja) 信号処理装置、信号処理方法及びコンピュータプログラム
Tengtrairat et al. Single-channel separation using underdetermined blind autoregressive model and least absolute deviation
JP5791081B2 (ja) 音源分離定位装置、方法、及びプログラム
JP6923089B2 (ja) 情報処理装置、方法およびプログラム
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
US10679646B2 (en) Signal processing device, signal processing method, and computer-readable recording medium
JP6911930B2 (ja) 信号処理装置、信号処理方法およびプログラム
JP6874842B2 (ja) 信号処理装置、信号処理方法およびプログラム
CN113380268A (zh) 模型训练的方法、装置和语音信号的处理方法、装置
US20220028372A1 (en) Learning device and pattern recognition device
JP2019028406A (ja) 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム
JP2019035851A (ja) 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム
US11922966B2 (en) Signal separation apparatus, signal separation method and program
KR20180087581A (ko) 퍼스널 컴퓨터 및 휴대용 단말기를 이용한 복수음 악기소리인식 및 처리방법

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A5211

Effective date: 20180309

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190513

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200720

R150 Certificate of patent or registration of utility model

Ref document number: 6747447

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150