JP7294422B2 - 音モデル生成装置、音信号処理システム、音モデル生成方法、およびプログラム - Google Patents
音モデル生成装置、音信号処理システム、音モデル生成方法、およびプログラム Download PDFInfo
- Publication number
- JP7294422B2 JP7294422B2 JP2021529660A JP2021529660A JP7294422B2 JP 7294422 B2 JP7294422 B2 JP 7294422B2 JP 2021529660 A JP2021529660 A JP 2021529660A JP 2021529660 A JP2021529660 A JP 2021529660A JP 7294422 B2 JP7294422 B2 JP 7294422B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- feature
- sound model
- feature amount
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims description 101
- 238000000034 method Methods 0.000 title claims description 10
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 238000001228 spectrum Methods 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 26
- 238000010586 diagram Methods 0.000 description 11
- 230000002159 abnormal effect Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 230000001174 ascending effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
図1~図2を参照して、実施形態1について説明する。
図1を参照して、本実施形態1に係わる音モデル生成装置1の構成を説明する。図1は、音モデル生成装置1の構成を示すブロック図である。図1に示すように、音モデル生成装置1は、連結部20、および学習部30を備えている。
図2を参照して、本実施形態1に係わる音モデル生成装置1の動作を説明する。図2は、音モデル生成装置1の動作の流れを示すフローチャートである。
本実施形態の構成によれば、連結部20は、学習データである音信号の複数の特徴量を連結して、連結特徴量を生成する。学習部30は、生成した連結特徴量を用いて、音信号から音イベントを判別するための音モデルに学習させる。こうして、学習済み音モデルが生成される。学習済み音モデルは、連結特徴量のデータを入力されると、音イベントの判別結果を出力する。したがって、複数の特徴量を用いて、音イベントを判別可能な音モデルをより簡便に生成することができる。
図3~図8を参照して、実施形態2について説明する。本実施形態では、音モデル生成装置、音モデル記憶装置、および音イベント判別装置を含む音信号処理システムについて説明する。
図3を参照して、本実施形態2に係わる音信号処理システム1000の構成を説明する。図3は、音信号処理システム1000の構成を示すブロック図である。
図4を参照して、本実施形態2に係わる音モデル生成装置2の構成を説明する。図4は、音モデル生成装置2の構成を示すブロック図である。
図5を参照して、本実施形態2に係わる音イベント判別装置200の構成を説明する。図5は、音イベント判別装置200の構成を示すブロック図である。図5に示すように、音イベント判別装置200は、音イベント検出部210、特徴量生成部220、判別部230、および出力部240を備えている。
図6は、複数の特徴量を連結した連結特徴量の一例を概略的に示す。図6に示すように、連結特徴量は、複数の特徴量をチャネル方向に連結することによって生成される。図6に示す連結特徴量は、N(≧2)個のチャネルを有する。それぞれの特徴量が、連結特徴量の1つのチャネルに相当する。
図7を参照して、本実施形態2に係わる音モデル生成装置2の動作を説明する。図7は、音モデル生成装置2の動作の流れを示すフローチャートである。
図8を参照して、本実施形態2に係わる音イベント判別装置200の動作を説明する。図8は、音イベント判別装置200の動作の流れを示すフローチャートである。
本実施形態の構成によれば、特徴量抽出部10は、学習データである音信号から複数の特徴量を抽出する。連結部20は、複数の特徴量を連結して、連結特徴量を生成する。学習部30は、生成した連結特徴量を用いて音イベントを判別するための音モデルに学習させる。こうして生成された学習済み音モデルは、連結特徴量に含まれる複数の特徴量を用いて、音イベントを判別できる。したがって、複数の特徴量を用いて、音イベントを判別可能な音モデルをより簡便に生成することができる。
図9を参照して、実施形態3について以下で説明する。
前記実施形態1~2で説明した音モデル生成装置1、2の各構成要素は、機能単位のブロックを示している。これらの構成要素の一部又は全部は、例えば図9に示すような情報処理装置900により実現される。図9は、情報処理装置900のハードウェア構成の一例を示すブロック図である。
・ROM(Read Only Memory)902
・RAM(Random Access Memory)903
・RAM903にロードされるプログラム904
・プログラム904を格納する記憶装置905
・記録媒体906の読み書きを行うドライブ装置907
・通信ネットワーク909と接続する通信インタフェース908
・データの入出力を行う入出力インタフェース910
・各構成要素を接続するバス911
前記実施形態1~2で説明した音モデル生成装置1、2の各構成要素は、これらの機能を実現するプログラム904をCPU901が読み込んで実行することで実現される。各構成要素の機能を実現するプログラム904は、例えば、予め記憶装置905やROM902に格納されており、必要に応じてCPU901がRAM903にロードして実行される。なお、プログラム904は、通信ネットワーク909を介してCPU901に供給されてもよいし、予め記録媒体906に格納されており、ドライブ装置907が当該プログラムを読み出してCPU901に供給してもよい。
本実施形態の構成によれば、前記実施形態において説明した音モデル生成装置が、ハードウェアとして実現される。したがって、前記実施形態において説明した効果と同様の効果を奏することができる。
学習データである音信号の複数の特徴量を連結して、連結特徴量を生成する連結手段と、
生成した前記連結特徴量を用いて、前記音信号から音イベントを判別するための音モデルに学習させる学習手段と
を備えた
音モデル生成装置。
前記連結手段は、前記複数の特徴量を複数のチャネルとして含む多チャネルの特徴量を、前記連結特徴量として生成する
ことを特徴とする付記1に記載の音モデル生成装置。
前記学習手段は、前記連結特徴量を深層学習することによって、前記音モデルに学習させる
ことを特徴とする付記1または2に記載の音モデル生成装置。
学習データである前記音信号から前記複数の特徴量を抽出する特徴量抽出手段をさらに備えた
ことを特徴とする付記1から3のいずれか1項に記載の音モデル生成装置。
前記特徴量抽出手段は、前記音信号に対し、特定の変換を行うことによって、前記複数の特徴量を抽出する
ことを特徴とする付記4に記載の音モデル生成装置。
前記特徴量抽出手段は、前記音信号に対し、STFT(Short Time Fourier Transform)、ウェーブレット変換、またはCQT(Constant Quality Factor Transform)を実行する
ことを特徴とする付記5に記載の音モデル生成装置。
前記複数の特徴量は、平均振幅、パワー、パワースペクトル、対数スペクトル、メルスペクトル、CQTスペクトル、LSP(Line Spectral Pair)スペクトル、位相スペクトル、自己相関係数列、MFCC(Mel-Frequency Cepstrum Coefficients)係数列、および群遅延係数列のうち少なくともいずれかを含む
ことを特徴とする付記1から6のいずれか1項に記載の音モデル生成装置。
付記1から7のいずれか1項に記載の音モデル生成装置と、
学習した前記音モデルを記憶する音モデル記憶装置と、
前記音モデル記憶装置が記憶する前記音モデルを用いて、前記音イベントを判別する音イベント判別装置と
を含む
音信号処理システム。
音イベントを検出する音イベント検出手段と、
付記1から8のいずれか1項に記載の音モデル生成装置が生成した前記音モデルを用いて、前記音イベントを判別する判別手段と、
前記音イベントの判別結果を出力する出力手段とを備えた
音イベント判別装置。
学習データである音信号の複数の特徴量を連結して、連結特徴量を生成し、
生成した前記連結特徴量を用いて、前記音信号から音イベントを判別するための音モデルに学習させること
を含む
音モデル生成方法。
学習データである音信号の複数の特徴量を連結して、連結特徴量を生成すること、および
生成した前記連結特徴量を用いて、前記音信号から音イベントを判別するための音モデルに学習させること
をコンピュータに実行させるためのプログラムを格納した、一時的でない記録媒体。
2 音モデル生成装置
10 特徴量抽出部
20 連結部
30 学習部
200 音イベント判別装置
300 音モデル記憶装置
1000 音信号処理システム
Claims (10)
- 学習データである音信号の複数の特徴量をチャネル方向に連結して、前記複数の特徴量を複数のチャネルとして含む多チャネルの特徴量である連結特徴量を生成する連結手段と、
生成した前記連結特徴量を用いて、前記音信号から音イベントを判別するための音モデルに学習させる学習手段と
を備えた
音モデル生成装置。 - 前記複数のチャネルそれぞれは、特徴量の種別を基に設定される
ことを特徴とする請求項1に記載の音モデル生成装置。 - 前記学習手段は、深層学習によって、前記音モデルに前記連結特徴量を学習させる
ことを特徴とする請求項1または2に記載の音モデル生成装置。 - 学習データである前記音信号から前記複数の特徴量を抽出する特徴量抽出手段をさらに備えた
ことを特徴とする請求項1から3のいずれか1項に記載の音モデル生成装置。 - 前記特徴量抽出手段は、前記音信号に対し、特定の変換を行うことによって、前記複数の特徴量を抽出する
ことを特徴とする請求項4に記載の音モデル生成装置。 - 前記特徴量抽出手段は、前記音信号に対し、STFT(Short Time Fourier Transform)、ウェーブレット変換、またはCQT(Constant Quality Factor Transform)を実行する
ことを特徴とする請求項5に記載の音モデル生成装置。 - 前記複数の特徴量は、平均振幅、パワー、パワースペクトル、対数スペクトル、メルスペクトル、CQTスペクトル、LSP(Line Spectral Pair)スペクトル、位相スペクトル、自己相関係数列、MFCC(Mel-Frequency Cepstrum Coefficients)係数列、および群遅延係数列のうち少なくともいずれかを含む
ことを特徴とする請求項1から6のいずれか1項に記載の音モデル生成装置。 - 請求項1から7のいずれか1項に記載の音モデル生成装置と、
学習した前記音モデルを記憶する音モデル記憶装置と、
前記音モデル記憶装置が記憶する前記音モデルを用いて、前記音イベントを判別する音イベント判別装置と
を含む
音信号処理システム。 - 学習データである音信号の複数の特徴量をチャネル方向に連結して、前記複数の特徴量を複数のチャネルとして含む多チャネルの特徴量である連結特徴量を生成し、
生成した前記連結特徴量を用いて、前記音信号から音イベントを判別するための音モデルに学習させること
を含む
音モデル生成方法。 - 学習データである音信号の複数の特徴量をチャネル方向に連結して、前記複数の特徴量を複数のチャネルとして含む多チャネルの特徴量である連結特徴量を生成すること、および
生成した前記連結特徴量を用いて、前記音信号から音イベントを判別するための音モデルに学習させること
をコンピュータに実行させるためのプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/026659 WO2021001998A1 (ja) | 2019-07-04 | 2019-07-04 | 音モデル生成装置、音モデル生成方法、および記録媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2021001998A1 JPWO2021001998A1 (ja) | 2021-01-07 |
JPWO2021001998A5 JPWO2021001998A5 (ja) | 2022-03-11 |
JP7294422B2 true JP7294422B2 (ja) | 2023-06-20 |
Family
ID=74100794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021529660A Active JP7294422B2 (ja) | 2019-07-04 | 2019-07-04 | 音モデル生成装置、音信号処理システム、音モデル生成方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US12106770B2 (ja) |
JP (1) | JP7294422B2 (ja) |
WO (1) | WO2021001998A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020194098A (ja) * | 2019-05-29 | 2020-12-03 | ヤマハ株式会社 | 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法 |
KR102579572B1 (ko) * | 2020-11-12 | 2023-09-18 | 한국광기술원 | 음향 기반의 비상벨 관제 시스템 및 그 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006017936A (ja) | 2004-06-30 | 2006-01-19 | Sharp Corp | 通話装置,中継処理装置,通信認証システム,通話装置の制御方法,通話装置の制御プログラム,および通話装置の制御プログラムを記録した記録媒体 |
JP2008224911A (ja) | 2007-03-10 | 2008-09-25 | Toyohashi Univ Of Technology | 話者認識システム |
JP2011039511A (ja) | 2009-08-14 | 2011-02-24 | Honda Motor Co Ltd | 楽譜位置推定装置、楽譜位置推定方法および楽譜位置推定ロボット |
JP2015040963A (ja) | 2013-08-21 | 2015-03-02 | カシオ計算機株式会社 | 音響用フィルタ装置、音響用フィルタリング方法、およびプログラム |
JP2018081169A (ja) | 2016-11-15 | 2018-05-24 | 日本電信電話株式会社 | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3410756B2 (ja) | 1993-03-18 | 2003-05-26 | シャープ株式会社 | 音声認識装置 |
US20130070928A1 (en) * | 2011-09-21 | 2013-03-21 | Daniel P. W. Ellis | Methods, systems, and media for mobile audio event recognition |
TWI536366B (zh) * | 2014-03-18 | 2016-06-01 | 財團法人工業技術研究院 | 新增口說語彙的語音辨識系統與方法及電腦可讀取媒體 |
CN108885133B (zh) | 2016-04-01 | 2021-05-14 | 日本电信电话株式会社 | 异常音检测学习装置、其方法以及记录介质 |
US10672387B2 (en) * | 2017-01-11 | 2020-06-02 | Google Llc | Systems and methods for recognizing user speech |
US10580414B2 (en) * | 2018-05-07 | 2020-03-03 | Microsoft Technology Licensing, Llc | Speaker recognition/location using neural network |
US11859488B2 (en) * | 2018-11-29 | 2024-01-02 | Bp Exploration Operating Company Limited | DAS data processing to identify fluid inflow locations and fluid type |
KR102594163B1 (ko) * | 2021-01-05 | 2023-10-26 | 한국전자통신연구원 | 음향 신호를 인식하는 학습 모델의 트레이닝 방법과 그 학습 모델을 이용한 음향 신호의 인식 방법 및 그 방법들을 수행하는 장치 |
-
2019
- 2019-07-04 US US17/623,316 patent/US12106770B2/en active Active
- 2019-07-04 JP JP2021529660A patent/JP7294422B2/ja active Active
- 2019-07-04 WO PCT/JP2019/026659 patent/WO2021001998A1/ja active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006017936A (ja) | 2004-06-30 | 2006-01-19 | Sharp Corp | 通話装置,中継処理装置,通信認証システム,通話装置の制御方法,通話装置の制御プログラム,および通話装置の制御プログラムを記録した記録媒体 |
JP2008224911A (ja) | 2007-03-10 | 2008-09-25 | Toyohashi Univ Of Technology | 話者認識システム |
JP2011039511A (ja) | 2009-08-14 | 2011-02-24 | Honda Motor Co Ltd | 楽譜位置推定装置、楽譜位置推定方法および楽譜位置推定ロボット |
JP2015040963A (ja) | 2013-08-21 | 2015-03-02 | カシオ計算機株式会社 | 音響用フィルタ装置、音響用フィルタリング方法、およびプログラム |
JP2018081169A (ja) | 2016-11-15 | 2018-05-24 | 日本電信電話株式会社 | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2021001998A1 (ja) | 2021-01-07 |
JPWO2021001998A1 (ja) | 2021-01-07 |
US20220358953A1 (en) | 2022-11-10 |
US12106770B2 (en) | 2024-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Selvaperumal et al. | Speech to text synthesis from video automated subtitling using Levinson Durbin method of linear predictive coding | |
JP7294422B2 (ja) | 音モデル生成装置、音信号処理システム、音モデル生成方法、およびプログラム | |
KR19990028694A (ko) | 음성 전달 신호의 속성 평가 방법 및 장치 | |
WO2020065257A1 (en) | Sound event detection | |
US20210118464A1 (en) | Method and apparatus for emotion recognition from speech | |
JP2015069063A (ja) | 音声認識システム、音声認識方法、及び音声認識プログラム | |
Tsenov et al. | Speech recognition using neural networks | |
US10971149B2 (en) | Voice interaction system for interaction with a user by voice, voice interaction method, and program | |
CN114596879B (zh) | 一种虚假语音的检测方法、装置、电子设备及存储介质 | |
KR102508550B1 (ko) | 음악 구간 검출 장치 및 방법 | |
US11735202B2 (en) | Systems and methods for pre-filtering audio content based on prominence of frequency content | |
CN115223584A (zh) | 音频数据处理方法、装置、设备及存储介质 | |
Lin et al. | Speaker-aware speech enhancement with self-attention | |
CN116935889B (zh) | 一种音频类别的确定方法、装置、电子设备及存储介质 | |
Jassim et al. | Voice activity detection using neurograms | |
CN112201227B (zh) | 语音样本生成方法及装置、存储介质、电子装置 | |
CN113674769A (zh) | 语音系统测试方法、装置、设备、介质及程序产品 | |
Maniak et al. | Automated sound signalling device quality assurance tool for embedded industrial control applications | |
JPWO2021001998A5 (ja) | 音モデル生成装置、音信号処理システム、音モデル生成方法、およびプログラム | |
US12070688B2 (en) | Apparatus and method for audio data analysis | |
JP4513796B2 (ja) | 異常監視装置 | |
JP7211523B2 (ja) | マスク生成装置、音信号処理装置、マスク生成方法、およびプログラム | |
CN111782860A (zh) | 一种音频检测方法及装置、存储介质 | |
CN113257284B (zh) | 语音活动检测模型训练、语音活动检测方法及相关装置 | |
Danylenko et al. | Research of Digital-Analog Conversion Method for Reproduction of Mechanical Oscillations. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211217 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230509 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230522 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7294422 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |