JP6747447B2 - 信号検知装置、信号検知方法、および信号検知プログラム - Google Patents
信号検知装置、信号検知方法、および信号検知プログラム Download PDFInfo
- Publication number
- JP6747447B2 JP6747447B2 JP2017540456A JP2017540456A JP6747447B2 JP 6747447 B2 JP6747447 B2 JP 6747447B2 JP 2017540456 A JP2017540456 A JP 2017540456A JP 2017540456 A JP2017540456 A JP 2017540456A JP 6747447 B2 JP6747447 B2 JP 6747447B2
- Authority
- JP
- Japan
- Prior art keywords
- matrix
- signal
- basis
- activation
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 116
- 239000011159 matrix material Substances 0.000 claims description 220
- 230000004913 activation Effects 0.000 claims description 111
- 238000004458 analytical method Methods 0.000 claims description 50
- 238000000034 method Methods 0.000 claims description 34
- 238000007906 compression Methods 0.000 claims description 21
- 230000006835 compression Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 17
- 238000001994 activation Methods 0.000 description 98
- 230000014509 gene expression Effects 0.000 description 57
- 230000006870 function Effects 0.000 description 48
- 230000003595 spectral effect Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 9
- 238000012706 support-vector machine Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Algebra (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
[構成の説明]
以下、本発明の実施形態を、図面を参照して説明する。図1は、本発明による信号検知装置の第1の実施形態の構成例を示すブロック図である。図1に示す信号検知装置100は、対象信号をスペクトログラムとして入力し、入力されたスペクトログラムに基づいて、対象信号内に検知目標とする音響イベントが含まれているか否かを識別する装置である。
以下、本実施形態の信号検知装置100の動作を図2を参照して説明する。図2は、第1の実施形態の信号検知装置100による信号検知処理の動作を示すフローチャートである。
本実施形態の信号検知装置は、NMFを実施することによって、検知目標とする音響イベントを構成する音響要素を抽出できる。抽出する際、解析部は、音響要素IDを用いて基底をグループ化し、音響要素IDごとにアクティベーション行列の要素の総和をとることによって、圧縮されたアクティベーション行列を生成する。すなわち、解析部は、単に基底行列を構成する基底ごとに独立してスペクトログラムを分解するのではなく、音響要素単位でスペクトログラムを分解する。
[構成の説明]
次に、本発明の第2の実施形態を、図面を参照して説明する。図3は、本発明による信号検知装置の第2の実施形態の構成例を示すブロック図である。図3に示す信号検知装置200は、対象信号をスペクトログラムとして入力し、入力されたスペクトログラムに基づいて、対象信号内に検知目標とする音響イベントが含まれているか否かを識別する装置である。
以下、本実施形態の信号検知装置200の動作を図5を参照して説明する。図5は、第2の実施形態の信号検知装置200による基底行列および識別モデル作成処理の動作を示すフローチャートである。
本実施形態の信号検知装置は、第1の実施形態の特長に加えて、基底生成部が音響要素を直接的に表す基底行列を生成でき、解析部が生成された基底行列を用いてNMFを実施することによって、高精度に音響要素を抽出できる。すなわち、本実施形態の信号検知装置は、信号対雑音比が高い場合、または信号対雑音比が低い場合のいずれの場合であっても、第1の実施形態に比べて音響イベントをより精度よく検知できる。
[構成の説明]
次に、本発明の第3の実施形態を、図面を参照して説明する。図6は、本発明による信号検知装置の第3の実施形態の構成例を示すブロック図である。図6に示す信号検知装置300は、対象信号をスペクトログラムとして入力し、入力されたスペクトログラムに基づいて、対象信号内に検知目標とする音響イベントが含まれているか否かを識別する装置である。
以下、本実施形態の信号検知装置300の動作を図7を参照して説明する。図7は、第3の実施形態の信号検知装置300による基底行列および識別モデル作成処理の動作を示すフローチャートである。
本実施形態の信号検知装置は、対象信号に検知目標の音響イベントと他の音が混在して含まれている場合であっても、NMFを実施することによって雑音に影響されずに音響要素を抽出できる。その理由は、本実施形態で用いられる基底行列を構成するスペクトル基底はスペクトログラムの線形和で作成されるので、各基底が音響要素そのものを表し、各基底のアクティベーションも各音響要素の発現度合いそのものに対応するためである。
11 圧縮部
101、302 基底格納部
102、306 解析部
103、305 モデル格納部
104、307 識別部
201、301 基底生成部
202、303 ラベル付き解析部
203、304 学習部
Claims (9)
- 基底行列を構成する基底に関連付けられている、信号パターンを構成する信号要素の情報を用いて、前記基底行列が用いられた非負値行列因子分解で算出されたアクティベーション行列の、同一の前記信号要素の情報に関連付けられている基底に対応する行の要素を列ごとに加算することによって、前記アクティベーション行列を圧縮する圧縮部を備える
ことを特徴とする信号検知装置。 - 圧縮されたアクティベーション行列と信号パターンの検知に使用される検知モデルとを用いて、前記アクティベーション行列が構成するスペクトログラムに対応する信号に含まれている信号パターンを検知する検知部を備える
請求項1記載の信号検知装置。 - 信号パターンを構成する信号要素を含むスペクトログラムに対して、所定の条件を満たすように非負値行列因子分解を実施することによって、前記信号要素に対応する基底で構成される基底行列を生成する生成部を備える
請求項1または請求項2記載の信号検知装置。 - 対応する信号が検知対象の信号であるか否かを示す情報が対応付けられているスペクトログラムに対して、生成部により生成された基底行列を用いて非負値行列因子分解を実施する解析部を備える
請求項3記載の信号検知装置。 - 要素に対応する信号に含まれる信号パターンを示す情報が対応付けられている、前記要素で構成されるアクティベーション行列を用いて、検知モデルを学習する学習部を備える
請求項1から請求項4のうちのいずれか1項に記載の信号検知装置。 - 基底行列を構成する基底に関連付けられている、信号パターンを構成する信号要素の情報を用いて、前記基底行列が用いられた非負値行列因子分解で算出されたアクティベーション行列の、同一の前記信号要素の情報に関連付けられている基底に対応する行の要素を列ごとに加算することによって、前記アクティベーション行列を圧縮する
ことを特徴とする信号検知方法。 - 圧縮されたアクティベーション行列と信号パターンの検知に使用される検知モデルとを用いて、前記アクティベーション行列が構成するスペクトログラムに対応する信号に含まれている信号パターンを検知する
請求項6記載の信号検知方法。 - コンピュータに、
基底行列を構成する基底に関連付けられている、信号パターンを構成する信号要素の情報を用いて、前記基底行列が用いられた非負値行列因子分解で算出されたアクティベーション行列の、同一の前記信号要素の情報に関連付けられている基底に対応する行の要素を列ごとに加算することによって、前記アクティベーション行列を圧縮する圧縮処理
を実行させるための信号検知プログラム。 - コンピュータに、
圧縮されたアクティベーション行列と信号パターンの検知に使用される検知モデルとを用いて、前記アクティベーション行列が構成するスペクトログラムに対応する信号に含まれている信号パターンを検知する検知処理を実行させる
請求項8記載の信号検知プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015182816 | 2015-09-16 | ||
JP2015182816 | 2015-09-16 | ||
PCT/JP2016/002904 WO2017046976A1 (ja) | 2015-09-16 | 2016-06-16 | 信号検知装置、信号検知方法、および信号検知プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2017046976A1 JPWO2017046976A1 (ja) | 2018-07-05 |
JP6747447B2 true JP6747447B2 (ja) | 2020-08-26 |
Family
ID=58288432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017540456A Active JP6747447B2 (ja) | 2015-09-16 | 2016-06-16 | 信号検知装置、信号検知方法、および信号検知プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10650842B2 (ja) |
JP (1) | JP6747447B2 (ja) |
WO (1) | WO2017046976A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017217412A1 (ja) * | 2016-06-16 | 2017-12-21 | 日本電気株式会社 | 信号処理装置、信号処理方法およびコンピュータ読み取り可能記録媒体 |
WO2019077723A1 (ja) * | 2017-10-19 | 2019-04-25 | 日本電気株式会社 | 信号処理装置、信号処理方法およびプログラムを記憶する記憶媒体 |
US20210064928A1 (en) * | 2018-02-16 | 2021-03-04 | Nec Corporation | Information processing apparatus, method, and non-transitory storage medium |
US20230267301A1 (en) * | 2022-02-23 | 2023-08-24 | International Business Machines Corporation | Neural network inference quantization |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5942420B2 (ja) * | 2011-07-07 | 2016-06-29 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
US20140114650A1 (en) * | 2012-10-22 | 2014-04-24 | Mitsubishi Electric Research Labs, Inc. | Method for Transforming Non-Stationary Signals Using a Dynamic Model |
JP2014134688A (ja) | 2013-01-10 | 2014-07-24 | Yamaha Corp | 音響解析装置 |
JP2014137389A (ja) | 2013-01-15 | 2014-07-28 | Yamaha Corp | 音響解析装置 |
-
2016
- 2016-06-16 US US15/759,571 patent/US10650842B2/en active Active
- 2016-06-16 JP JP2017540456A patent/JP6747447B2/ja active Active
- 2016-06-16 WO PCT/JP2016/002904 patent/WO2017046976A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US20190156853A1 (en) | 2019-05-23 |
US10650842B2 (en) | 2020-05-12 |
WO2017046976A1 (ja) | 2017-03-23 |
JPWO2017046976A1 (ja) | 2018-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7149197B2 (ja) | 異常音検知装置および異常音検知方法 | |
US10832685B2 (en) | Speech processing device, speech processing method, and computer program product | |
JP6747447B2 (ja) | 信号検知装置、信号検知方法、および信号検知プログラム | |
JP2012163918A (ja) | 音声信号処理装置、および音声信号処理方法、並びにプログラム | |
US10296844B2 (en) | Automatic discovery of message ordering invariants in heterogeneous logs | |
US10817719B2 (en) | Signal processing device, signal processing method, and computer-readable recording medium | |
JPWO2019220620A1 (ja) | 異常検出装置、異常検出方法及びプログラム | |
Dogan et al. | A novel ternary and signum kernelled linear hexadecimal pattern and hybrid feature selection based environmental sound classification method | |
JP6099032B2 (ja) | 信号処理装置、信号処理方法及びコンピュータプログラム | |
Tengtrairat et al. | Single-channel separation using underdetermined blind autoregressive model and least absolute deviation | |
JP5791081B2 (ja) | 音源分離定位装置、方法、及びプログラム | |
JP6923089B2 (ja) | 情報処理装置、方法およびプログラム | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
US10679646B2 (en) | Signal processing device, signal processing method, and computer-readable recording medium | |
JP6911930B2 (ja) | 信号処理装置、信号処理方法およびプログラム | |
JP6874842B2 (ja) | 信号処理装置、信号処理方法およびプログラム | |
CN113380268A (zh) | 模型训练的方法、装置和语音信号的处理方法、装置 | |
US20220028372A1 (en) | Learning device and pattern recognition device | |
JP2019028406A (ja) | 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム | |
JP2019035851A (ja) | 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム | |
US11922966B2 (en) | Signal separation apparatus, signal separation method and program | |
KR20180087581A (ko) | 퍼스널 컴퓨터 및 휴대용 단말기를 이용한 복수음 악기소리인식 및 처리방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A5211 Effective date: 20180309 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190513 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200707 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200720 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6747447 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |