JP7211523B2 - マスク生成装置、音信号処理装置、マスク生成方法、およびプログラム - Google Patents
マスク生成装置、音信号処理装置、マスク生成方法、およびプログラム Download PDFInfo
- Publication number
- JP7211523B2 JP7211523B2 JP2021543902A JP2021543902A JP7211523B2 JP 7211523 B2 JP7211523 B2 JP 7211523B2 JP 2021543902 A JP2021543902 A JP 2021543902A JP 2021543902 A JP2021543902 A JP 2021543902A JP 7211523 B2 JP7211523 B2 JP 7211523B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- event
- spectrogram
- unit
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/1752—Masking
- G10K11/1754—Speech masking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
図1~図8を参照して、実施形態1について以下で説明する。
図1を参照して、本実施形態1に係わるマスク生成装置120について説明する。図1は、マスク生成装置120の構成を示すブロック図である。図1に示すように、マスク生成装置120は、抽出部21および二値化部22を備えている。
図3を参照して、本実施形態1に係わるマスク生成装置120の動作について説明する。図3は、マスク生成装置120の各部が実行するマスク生成処理の流れを示すフローチャートである。
図4を参照して、本実施形態1に係わる音信号処理装置1について説明する。図4は、音信号処理装置1の構成を示すブロック図である。図4に示すように、音信号処理装置1は、周波数変換部10、マスキング部20、学習部30、検出部40、およびイベントモデルデータベース50を備えている。
図7を参照して、本実施形態1に係わる音信号処理装置1の動作について説明する。図7は、音信号処理装置1の各部が実行する処理の流れを示すシーケンス図である。
図8を参照して、本実施形態1に係わる音信号処理装置1の別の動作について説明する。図8は、音信号処理装置1の各部が実行するイベント検出処理の流れを示すフローチャートである。
本実施形態の構成によれば、マスク生成装置120の抽出部21は、スペクトログラムから音圧情報を抽出する。二値化部22は、抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成する。このように生成されたイベントマスクを用いることにより、スペクトル形状が未知の場合であっても、音イベントを検出できる。
図9~図14を用いて、実施形態2について説明する。
図9は、本実施形態2に係わるマスク生成装置220の構成を示すブロック図である。図9に示すように、マスク生成装置220は、抽出部221および二値化部222を備えている。ここで二値化部222は、前処理部2221、統合部2222、および平滑化部2223を備えている。
図10および図11を参照して、二値化部222の動作を説明する。図10は、二値化部222の各部が実行する処理の流れを示すフローチャートである。図11は、スペクトログラムからイベントマスクが生成される一連の流れを示す図である。図11において、音圧情報P1、P2には、0以上の整数の連続する番号(0、1)が、あらかじめ割り当てられている。
本実施形態の構成によれば、抽出部221は、スペクトログラムから複数の音圧情報を抽出する。複数の音圧情報を用いることにより、音イベントの検出漏れを防ぐ効果が期待できる。二値化部222は、抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成する。
図12~図14を参照して、実施形態3について説明する。
図12を参照して、本実施形態3に係わる音信号処理装置2について説明する。図12は、音信号処理装置2の構成を示すブロック図である。図12に示すように、音信号処理装置2は、周波数変換部10、マスキング部20、学習部30、検出部40、およびイベントモデルデータベース50を備えている。
図13を参照して、本実施形態3に係わる音信号処理装置2の動作について説明する。図13は、音信号処理装置2の各部が実行する処理の流れを示すフローチャートである。
図14を参照して、本実施形態3に係わる音信号処理装置2の別の動作について説明する。図14は、音信号処理装置2の各部が実行するイベント検出処理の流れを示すフローチャートである。
本実施形態の構成によれば、マスキング部20は、入力信号に対し、マスキング処理を実行する。検出部40は、マスキング処理された入力信号から音イベントを検出する。その後、検出部40は、音イベントの検出結果を出力する。したがって、音信号処理装置2は、学習済みのイベントモデルを用いて、スペクトルの形状が未知の音を、音イベントとして検出できる。
図15~図16を参照して、実施形態4について説明する。本実施形態4では、イベントマスクを利用して、イベントラベルに対し、音イベントが存在する時間を示す情報を付与する構成を説明する。前記実施形態1、3では、イベントマスクは、後述する音信号処理装置1がスペクトログラムに対してマスキング処理を実施するために使用された。一方、本実施形態4では、特定の性質を有するイベントラベル(後述する弱ラベルである)に対し、イベントマスクが適用される。
図15を参照して、本実施形態4に係わる音信号処理装置3について説明する。図15は、音信号処理装置3の構成を示すブロック図である。図15に示すように、音信号処理装置3は、周波数変換部10、マスキング部20、学習部30、検出部40、およびイベントモデルデータベース50を備えている。
図16を参照して、本実施形態4に係わる音信号処理装置3の動作について説明する。図16は、音信号処理装置3の各部が実行する処理の流れを示すシーケンス図である。本実施形態4に係わる音信号処理装置3の動作は、図16のステップS3312に示す処理についてのみ、前記実施形態3に係わる音信号処理装置2の動作と異なる。
本実施形態4に係わるイベント検出処理では、本実施形態1~3のようには、マスキング処理が行われない。本実施形態4に係わるイベント検出処理では、検出部40は、学習済みのイベントモデルを用いて、音イベントを検出する。以上で、音信号処理装置3の動作は終了する。
本実施形態の構成によれば、マスキング部20は、検出対象の音イベントが存在する時間を示す時間情報を持たない弱ラベルに対して、イベントマスクを適用する。これにより、弱ラベルに対し、音イベントが存在する時間を示す時間情報が付与される。
2 音信号処理装置
3 音信号処理装置
120 マスク生成装置
21 抽出部
22 二値化部
220 マスク生成装置
221 抽出部
222 二値化部
2221 前処理部
2222 統合部
2223 平滑化部
Claims (5)
- スペクトログラムから音圧情報を抽出する抽出手段と、
抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成する二値化手段と
を備え、
前記抽出手段は、前記スペクトログラムから、前記音圧情報として、前記スペクトログラムの最大値系列および前記スペクトログラムの平均値系列を少なくとも抽出する
マスク生成装置。 - 前記抽出手段は、
音信号を二値化する前処理手段と、
二値化した前記音圧情報を統合する統合手段と、
統合した前記音圧情報を平滑化する平滑化手段とを含む
ことを特徴とする請求項1に記載のマスク生成装置。 - 請求項1または2に記載のマスク生成装置が生成した前記イベントマスクを用いて、入力信号から音イベントを検出することを特徴とする音信号処理装置。
- スペクトログラムから音圧情報を抽出し、
抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成すること
を含み、
前記音圧情報は、前記スペクトログラムの最大値系列および平均値系列を少なくとも含む
マスク生成方法。 - スペクトログラムから音圧情報を抽出することと、
抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成することと
をコンピュータに実行させ、
前記音圧情報は、前記スペクトログラムの最大値系列および平均値系列を少なくとも含む
プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/035032 WO2021044595A1 (ja) | 2019-09-05 | 2019-09-05 | マスク生成装置、マスク生成方法、および記録媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2021044595A1 JPWO2021044595A1 (ja) | 2021-03-11 |
JPWO2021044595A5 JPWO2021044595A5 (ja) | 2022-03-22 |
JP7211523B2 true JP7211523B2 (ja) | 2023-01-24 |
Family
ID=74853190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021543902A Active JP7211523B2 (ja) | 2019-09-05 | 2019-09-05 | マスク生成装置、音信号処理装置、マスク生成方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11881200B2 (ja) |
JP (1) | JP7211523B2 (ja) |
WO (1) | WO2021044595A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003131688A (ja) | 2001-10-24 | 2003-05-09 | Takayoshi Yamamoto | 信号源毎の信号を求める方法及び装置 |
JP2003223176A (ja) | 2002-01-28 | 2003-08-08 | Telecommunication Advancement Organization Of Japan | スピーチ近似データによる字幕用データ作成・編集支援システム |
JP2016156938A (ja) | 2015-02-24 | 2016-09-01 | 国立大学法人京都大学 | 歌声信号分離方法及びシステム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8517918D0 (en) * | 1985-07-16 | 1985-08-21 | British Telecomm | Recognition system |
JP2012083746A (ja) * | 2010-09-17 | 2012-04-26 | Kinki Univ | 音処理装置 |
WO2014027419A1 (ja) | 2012-08-17 | 2014-02-20 | Toa株式会社 | 雑音除去装置 |
JP6048025B2 (ja) * | 2012-09-18 | 2016-12-21 | 富士ゼロックス株式会社 | 分類装置及びプログラム |
JP6648377B2 (ja) | 2015-09-28 | 2020-02-14 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
JP6882057B2 (ja) | 2017-05-11 | 2021-06-02 | キヤノン株式会社 | 信号処理装置、信号処理方法、およびプログラム |
-
2019
- 2019-09-05 WO PCT/JP2019/035032 patent/WO2021044595A1/ja active Application Filing
- 2019-09-05 US US17/638,387 patent/US11881200B2/en active Active
- 2019-09-05 JP JP2021543902A patent/JP7211523B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003131688A (ja) | 2001-10-24 | 2003-05-09 | Takayoshi Yamamoto | 信号源毎の信号を求める方法及び装置 |
JP2003223176A (ja) | 2002-01-28 | 2003-08-08 | Telecommunication Advancement Organization Of Japan | スピーチ近似データによる字幕用データ作成・編集支援システム |
JP2016156938A (ja) | 2015-02-24 | 2016-09-01 | 国立大学法人京都大学 | 歌声信号分離方法及びシステム |
Non-Patent Citations (1)
Title |
---|
大内 康裕, 外1名,一般化調和解析による信号の分離-オーケストラの楽音の分離-,日本音響学会研究発表会議講演論文集-I-,日本音響学会,1997年09月17日,第579-580ページ |
Also Published As
Publication number | Publication date |
---|---|
US11881200B2 (en) | 2024-01-23 |
US20220301536A1 (en) | 2022-09-22 |
WO2021044595A1 (ja) | 2021-03-11 |
JPWO2021044595A1 (ja) | 2021-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | A feature study for classification-based speech separation at low signal-to-noise ratios | |
Murty et al. | Epoch extraction from speech signals | |
US7117149B1 (en) | Sound source classification | |
KR20060044629A (ko) | 신경 회로망을 이용한 음성 신호 분리 시스템 및 방법과음성 신호 강화 시스템 | |
Prasanna et al. | Detection of vowel onset point events using excitation information. | |
Esmaili et al. | Automatic classification of speech dysfluencies in continuous speech based on similarity measures and morphological image processing tools | |
GB2579038A (en) | Language disorder diagnosis/screening | |
Chaki | Pattern analysis based acoustic signal processing: a survey of the state-of-art | |
JP2018180334A (ja) | 感情認識装置、方法およびプログラム | |
KR20210036692A (ko) | 적대적 학습(adversarial training) 모델을 이용한 강인한 음성 향상 훈련 방법 및 그 장치 | |
Airaksinen et al. | Data augmentation strategies for neural network F0 estimation | |
Hasan et al. | Preprocessing of continuous bengali speech for feature extraction | |
Rahman et al. | Dynamic time warping assisted svm classifier for bangla speech recognition | |
Labied et al. | An overview of automatic speech recognition preprocessing techniques | |
US5452398A (en) | Speech analysis method and device for suppyling data to synthesize speech with diminished spectral distortion at the time of pitch change | |
JP7211523B2 (ja) | マスク生成装置、音信号処理装置、マスク生成方法、およびプログラム | |
Hasija et al. | Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier | |
Soni et al. | Effectiveness of ideal ratio mask for non-intrusive quality assessment of noise suppressed speech | |
JP7294422B2 (ja) | 音モデル生成装置、音信号処理システム、音モデル生成方法、およびプログラム | |
JP2016191788A (ja) | 音響処理装置、音響処理方法、及び、プログラム | |
JP2010060846A (ja) | 合成音声評価システム及び合成音声評価方法 | |
Dai et al. | 2D Psychoacoustic modeling of equivalent masking for automatic speech recognition | |
US20150364146A1 (en) | Method for Providing Visual Feedback for Vowel Quality | |
Girirajan et al. | Hybrid Feature Extraction Technique for Tamil Automatic Speech Recognition System in Noisy Environment | |
Barmatz et al. | Segmentation and analysis of bird trill vocalizations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211227 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221226 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7211523 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |