JP6911854B2 - 信号処理装置、信号処理方法および信号処理プログラム - Google Patents
信号処理装置、信号処理方法および信号処理プログラム Download PDFInfo
- Publication number
- JP6911854B2 JP6911854B2 JP2018523921A JP2018523921A JP6911854B2 JP 6911854 B2 JP6911854 B2 JP 6911854B2 JP 2018523921 A JP2018523921 A JP 2018523921A JP 2018523921 A JP2018523921 A JP 2018523921A JP 6911854 B2 JP6911854 B2 JP 6911854B2
- Authority
- JP
- Japan
- Prior art keywords
- basis
- sound source
- spectral
- spectrogram
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 197
- 238000009826 distribution Methods 0.000 claims description 191
- 239000011159 matrix material Substances 0.000 claims description 121
- 230000004913 activation Effects 0.000 claims description 88
- 238000000926 separation method Methods 0.000 claims description 80
- 230000014509 gene expression Effects 0.000 claims description 66
- 238000000034 method Methods 0.000 claims description 65
- 238000004458 analytical method Methods 0.000 claims description 57
- 238000001228 spectrum Methods 0.000 claims description 44
- 230000005236 sound signal Effects 0.000 claims description 17
- 238000001994 activation Methods 0.000 description 84
- 230000006870 function Effects 0.000 description 26
- 239000011521 glass Substances 0.000 description 20
- 238000007405 data analysis Methods 0.000 description 19
- 239000000203 mixture Substances 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 230000007613 environmental effect Effects 0.000 description 10
- 238000001514 detection method Methods 0.000 description 7
- LHASLBSEALHFGO-ASZAQJJISA-N 1-[(4s,5r)-4-hydroxy-5-(hydroxymethyl)oxolan-2-yl]-5-[[(2r,3r,4s,5s,6r)-3,4,5-trihydroxy-6-(hydroxymethyl)oxan-2-yl]oxymethyl]pyrimidine-2,4-dione Chemical compound C1[C@H](O)[C@@H](CO)OC1N1C(=O)NC(=O)C(CO[C@H]2[C@@H]([C@@H](O)[C@H](O)[C@@H](CO)O2)O)=C1 LHASLBSEALHFGO-ASZAQJJISA-N 0.000 description 4
- QPILHXCDZYWYLQ-UHFFFAOYSA-N 2-nonyl-1,3-dioxolane Chemical compound CCCCCCCCCC1OCCO1 QPILHXCDZYWYLQ-UHFFFAOYSA-N 0.000 description 3
- 101000851593 Homo sapiens Separin Proteins 0.000 description 3
- 206010039740 Screaming Diseases 0.000 description 3
- 102100036750 Separin Human genes 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000005284 basis set Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
次に、本発明の第1の実施形態を説明する。図1は、第1の実施形態の信号処理装置110の構成例を示すブロック図である。図1に示す信号処理装置110は、検知対象とされる音響信号のスペクトログラムである識別用スペクトログラムVを入力とし、該スペクトログラムVに含まれる音響イベントの識別結果を示す音響イベントラベルを出力する音響イベント識別装置として機能する装置である。なお、いずれの音響イベントも含まれていない場合は、その旨を示す識別結果が出力される。
次に、本発明の第2の実施形態について説明する。図3は、第2の実施形態の信号処理装置200の構成例を示すブロック図である。図3に示す信号処理装置200は、第1の実施形態の信号処理装置110の構成に加えて、基底生成部10と、学習データ分析部12と、モデル学習部13とをさらに備えている。なお、図3には、信号処理装置200が、第1の実施形態の信号処理装置110が備える各要素(符号111〜114)を、音響イベント識別部11の各要素として含む例が示されている。
本例の基底生成処理では、まず信号処理装置200に基底生成用スペクトログラムVbaseが入力される(ステップS211)。
したがって、例えば、第2の実施形態の構成において、基底生成部10に代えて本実施形態の信号処理装置100を用いれば、音響イベントに対応するアクティベーションHeを精度よく推定でき、音響イベントの識別精度を向上できる。
次に、本発明の第4の実施形態について説明する。図9は、第4の実施形態の信号処理装置400の構成例を示すブロック図である。図9に示す信号処理装置400は、第2の実施形態の構成における基底生成部10に代えて、基底生成部40を含む。なお、基底生成部40の構成は、図7に示す第3の実施形態の信号処理装置100の構成に、さらに分布解析部103を加えたものと同様である。
次に、本発明の第5の実施形態を説明する。図11は、本実施形態の信号処理装置500の構成例を示すブロック図である。図11に示す信号処理装置500は、基底生成部50と、学習データ分析部52と、モデル学習部53と、音響イベント識別部51とを備える。
ここで、Hg(gr,j)の列ベクトルh j は、hj (r)におけるr=1〜Rとして各hj (r)を行方向に連結したものに相当する。
次に、本発明の第6の実施形態を説明する。図12は、本実施形態の信号処理装置600の構成例を示すブロック図である。図12に示す信号処理装置600は、分布解析部61と、事前分布格納部62と、音源分離部63と、音源再構築部64とを備える。
Vn=WnHn ・・・(g−3)
10、40、50 基底生成部
101、501 事前分布格納部
102、502 基底信号分析部
103、503 分布解析部
11、51 音響イベント識別部
111、511 基底格納部
112、512 識別信号分析部
113、513 モデル格納部
114、514 信号識別部
12、52 学習データ分析部
13、53 モデル学習部
61 分布解析部
62 事前分布格納部
63 音源分離部
64 音源再構築部
Claims (7)
- 検知対象とされる音響イベントが特定音源の発生であり、前記特定音源のスペクトル基底の代表的なスペクトル形状を示す事前分布の集合である事前分布群を格納する事前分布格納手段と、
基底生成用のスペクトログラムを入力として、検知対象とされる音響イベントのスペクトル基底の集合である音響イベント基底群を生成する基底生成手段と、
前記特定音源の音のみを含む音響信号のスペクトログラムを入力として、前記事前分布群を生成する分布解析手段と、
音源分離用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、前記基底生成手段によって生成された音響イベント基底群を表す第1基底行列を用い、かつ前記事前分布群に含まれる各事前分布を対応する特定音源のスペクトル基底の制約として用いて前記第1基底行列を学習させて音源分離を行う音源分離手段と、
前記音源分離の結果得られる、前記音源分離用音響信号のスペクトログラムにおける特定音源のスペクトル基底および該スペクトル基底の発現度合いを基に、前記音源分離用音響信号から前記特定音源の音のみの信号を生成する音源再構築手段と、
を備える信号処理装置。 - 音響イベント基底群は、音響イベントを構成する音の代表的なスペクトル形状ごとに2以上のスペクトル基底がグループ化されたサブ集合の集合であり、
前記基底生成手段は、前記事前分布群に含まれる各事前分布を対応する代表的なスペクトル形状のグループに含まれるスペクトル基底の制約として用い、かつグループごとに、当該グループに含まれるスペクトル基底の発現度合いの集合を表すアクティベーション群に対して、更新の際に更新前の値が大きければ更新後の値も大きく、更新前の値が小さければ更新後の値も小さくなるようなスパース制約を用いて、基底生成用のスペクトログラムに対して音源分離を行い、音響イベント基底群を生成する請求項1に記載の信号処理装置。 - 音響イベント基底群に含まれる音響イベントごとのサブ集合には、当該音響イベントを構成する音の代表的なスペクトル形状に対して異なるバリエーションまたは揺らぎが表現された2以上のスペクトル基底が含まれる請求項1に記載の信号処理装置。
- 音響イベント基底群は、音響イベントを構成する音の代表的なスペクトル形状ごとに2以上のスペクトル基底がグループ化されたサブ集合の集合であり、
前記基底生成手段は、前記事前分布群に含まれる各事前分布を、対応する代表的なスペクトル形状のグループに含まれるスペクトル基底の制約として用い、かつグループごとに、当該グループに含まれるスペクトル基底の発現度合いの集合を表すアクティベーション群に対して、更新の際に更新前の値が大きければ更新後の値も大きく、更新前の値が小さければ更新後の値も小さくなるようなスパース制約を用いて、基底生成用のスペクトログラムに対して音源分離を行い、音響イベント基底群を生成し、
前記音源分離手段は、音源分離用音響信号のスペクトログラムを、前記音響イベント基底群を表す第1基底行列と前記第1基底行列の各スペクトル基底の発現度合いを表す第1アクティベーション行列とに分解する処理において、グループごとに、当該グループに含まれるスペクトル基底の発現度合いの集合を表すアクティベーション群に対して、更新の際に更新前の値が大きければ更新後の値も大きく、更新前の値が小さければ更新後の値も小さくなるようなスパース制約を課して分解する請求項1乃至3のいずれかに記載の信号処理装置。 - 前記音源分離手段は、音源分離用音響信号のスペクトログラムに対して、音響イベント基底群に特定音源以外の音に対応するスペクトル基底を加えたスペクトル基底集合を用い、かつそのうちの前記音響イベント基底群のスペクトル基底は前記事前分布群に含まれる各事前分布を制約として用いて学習させ、未知のスペクトル基底は制約なしで学習させて音源分離を行う請求項4に記載の信号処理装置。
- 特定音源の音のみを含む音響信号のスペクトログラムを入力として、前記特定音源のスペクトル基底の代表的なスペクトル形状を示す事前分布の集合である事前分布群を生成し、
基底生成用のスペクトログラムが入力されると、前記事前分布群に含まれる各事前分布を対応する特定音源のスペクトル基底の制約として用いて、前記基底生成用のスペクトログラムに対して音源分離を行い、特定音源のスペクトル基底の集合である音響イベント基底群を生成し、
音源分離用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、前記音響イベント基底群を表す第1基底行列を用い、かつ前記事前分布群に含まれる各事前分布を対応する特定音源のスペクトル基底の制約として用いて前記第1基底行列を学習させて音源分離を行い、前記音源分離用音響信号のスペクトログラムにおける特定音源のスペクトル基底および該スペクトル基底の発現度合いを算出し、
算出された前記音源分離用音響信号のスペクトログラムにおける前記特定音源のスペクトル基底および該スペクトル基底の発現度合いを基に、前記音源分離用音響信号から前記特定音源の音のみの信号を生成することを特徴とする信号処理方法。 - コンピュータに、
特定音源の音のみを含む音響信号のスペクトログラムを入力として、前記特定音源のスペクトル基底の代表的なスペクトル形状を示す事前分布の集合である事前分布群を生成する処理、
基底生成用のスペクトログラムが入力されると、前記事前分布群に含まれる各事前分布を対応する特定音源のスペクトル基底の制約として用いて、前記基底生成用のスペクトログラムに対して音源分離を行い、特定音源のスペクトル基底の集合である音響イベント基底群を生成する処理、音源分離用音響信号のスペクトログラムが入力されると、当該スペクトログラムに対して、前記音響イベント基底群を表す第1基底行列を用い、かつ前記事前分布群に含まれる各事前分布を対応する特定音源のスペクトル基底の制約として用いて前記第1基底行列を学習させて音源分離を行い、前記音源分離用音響信号のスペクトログラムにおける前記特定音源のスペクトル基底および該スペクトル基底の発現度合いを算出する処理、および
算出された前記音源分離用音響信号のスペクトログラムにおける前記特定音源のスペクトル基底および該スペクトル基底の発現度合いを基に、前記音源分離用音響信号から前記特定音源の音のみの信号を生成する処理を実行させるための信号処理プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016120127 | 2016-06-16 | ||
JP2016120127 | 2016-06-16 | ||
PCT/JP2017/021775 WO2017217396A1 (ja) | 2016-06-16 | 2017-06-13 | 信号処理装置、信号処理方法およびコンピュータ読み取り可能記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2017217396A1 JPWO2017217396A1 (ja) | 2019-04-11 |
JP6911854B2 true JP6911854B2 (ja) | 2021-07-28 |
Family
ID=60664610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018523921A Active JP6911854B2 (ja) | 2016-06-16 | 2017-06-13 | 信号処理装置、信号処理方法および信号処理プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10679646B2 (ja) |
JP (1) | JP6911854B2 (ja) |
WO (1) | WO2017217396A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2577570A (en) * | 2018-09-28 | 2020-04-01 | Cirrus Logic Int Semiconductor Ltd | Sound event detection |
CN111524536B (zh) * | 2019-02-01 | 2023-09-08 | 富士通株式会社 | 信号处理方法和信息处理设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012163918A (ja) * | 2011-02-09 | 2012-08-30 | Sony Corp | 音声信号処理装置、および音声信号処理方法、並びにプログラム |
JP5942420B2 (ja) * | 2011-07-07 | 2016-06-29 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
JP5800718B2 (ja) * | 2012-01-12 | 2015-10-28 | 日本電信電話株式会社 | 特定状況モデルデータベース作成装置とその方法と状況推定装置とプログラム |
US9099096B2 (en) * | 2012-05-04 | 2015-08-04 | Sony Computer Entertainment Inc. | Source separation by independent component analysis with moving constraint |
EP2912660B1 (en) * | 2012-11-21 | 2017-01-11 | Huawei Technologies Co., Ltd. | Method for determining a dictionary of base components from an audio signal |
JP2014164126A (ja) | 2013-02-25 | 2014-09-08 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号分析方法、装置、及びプログラム |
JP6195548B2 (ja) | 2014-08-19 | 2017-09-13 | 日本電信電話株式会社 | 信号解析装置、方法、及びプログラム |
US20160071526A1 (en) * | 2014-09-09 | 2016-03-10 | Analog Devices, Inc. | Acoustic source tracking and selection |
-
2017
- 2017-06-13 US US16/309,512 patent/US10679646B2/en active Active
- 2017-06-13 JP JP2018523921A patent/JP6911854B2/ja active Active
- 2017-06-13 WO PCT/JP2017/021775 patent/WO2017217396A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2017217396A1 (ja) | 2017-12-21 |
US10679646B2 (en) | 2020-06-09 |
US20190251988A1 (en) | 2019-08-15 |
JPWO2017217396A1 (ja) | 2019-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7006592B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP6556575B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
JP6911854B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP6747447B2 (ja) | 信号検知装置、信号検知方法、および信号検知プログラム | |
EP3267438B1 (en) | Speaker authentication with artificial neural networks | |
US10431191B2 (en) | Method and apparatus for analyzing characteristics of music information | |
CN111488486A (zh) | 一种基于多音源分离的电子音乐分类方法及系统 | |
JP6499095B2 (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
CN113380268A (zh) | 模型训练的方法、装置和语音信号的处理方法、装置 | |
US11200882B2 (en) | Signal processing device, signal processing method, and storage medium for storing program | |
Sheng et al. | Feature design using audio decomposition for intelligent control of the dynamic range compressor | |
Xie et al. | Acoustic features for multi-level classification of Australian frogs | |
JP6911930B2 (ja) | 信号処理装置、信号処理方法およびプログラム | |
WO2020059465A1 (ja) | 演奏データの情報処理装置 | |
Anderson | Musical instrument classification utilizing a neural network | |
JP2010197596A (ja) | 信号解析装置、信号解析方法、プログラム、及び記録媒体 | |
Grigore et al. | Self-organizing maps for identifying impaired speech | |
CN116189636B (zh) | 基于电子乐器的伴奏生成方法、装置、设备及存储介质 | |
KR102241436B1 (ko) | 임의의 오디오에 사용된 악기를 판단하고 분류하기 위한 학습 방법 및 테스트 방법, 이를 이용한 학습 장치 및 테스트 장치 | |
Arora et al. | Discriminative PLCA based polyphonic source identification | |
Ike | Inequity in Popular Voice Recognition Systems Regarding African Accents | |
Sharma et al. | Recognition of Voice and Noise Based on Artificial Neural Networks | |
Gonçalves et al. | Instrumentals/Songs Separation for Background Music Removal | |
Dhole et al. | Support Vector Machine Classification of Stress Types in Speech | |
Seyedin et al. | Discriminative sparse-based feature extraction and dictionary learning for sound classification applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181213 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200515 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210506 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210608 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210621 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6911854 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |