JP7294422B2 - 音モデル生成装置、音信号処理システム、音モデル生成方法、およびプログラム - Google Patents

音モデル生成装置、音信号処理システム、音モデル生成方法、およびプログラム Download PDF

Info

Publication number
JP7294422B2
JP7294422B2 JP2021529660A JP2021529660A JP7294422B2 JP 7294422 B2 JP7294422 B2 JP 7294422B2 JP 2021529660 A JP2021529660 A JP 2021529660A JP 2021529660 A JP2021529660 A JP 2021529660A JP 7294422 B2 JP7294422 B2 JP 7294422B2
Authority
JP
Japan
Prior art keywords
sound
feature
sound model
feature amount
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021529660A
Other languages
English (en)
Other versions
JPWO2021001998A5 (ja
JPWO2021001998A1 (ja
Inventor
咲子 美島
裕 清川
貴裕 戸泉
和俊 鷺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2021001998A1 publication Critical patent/JPWO2021001998A1/ja
Publication of JPWO2021001998A5 publication Critical patent/JPWO2021001998A5/ja
Application granted granted Critical
Publication of JP7294422B2 publication Critical patent/JP7294422B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本発明は、音モデル生成装置、音モデル生成方法、および記録媒体に関し、特に、音声または音響に係わる音イベントを判別するための音モデルを生成する音モデル生成装置、音モデル生成方法、および記録媒体に関する。
学習データである音信号(音声信号または音響信号)を用いて学習(訓練)した音モデルを用いて、音信号から音イベントを判別する関連技術が存在する。音イベントとは、音信号として発生するイベント、または音信号を伴って発生するイベントであり、例えば、機械の異常発生に伴う異常音、構造物の破壊または自然現象に伴う突発音(インパルス音とも呼ばれる)、人間又は動物の声(大声、叫び声、鳴き声、悲鳴)などである。
例えば、特許文献1に記載の装置は、業務用の機器から発せられる正常音および異常音をマイクロフォンで集音し、録音した音信号のスペクトルから、それぞれ特徴量を抽出する。また、特許文献1に記載の装置は、抽出した特徴量を学習データとして用いて、異常音の音イベントを判別可能な異常音モデルを生成し、さらに、生成した異常音モデルを用いて、機器の異常を検知し、アラートを出力する。
特許文献2には、音素の特徴点をニューラルネットワークに入力して、音素を表す特徴ベクトルを判別できるように、ニューラルネットワークを学習させることが記載されている。
国際公開第2017/171051号 特開平06-274197号公報
特許文献1および2に記載の関連技術では、音モデルの学習に適した音信号の特徴量を人が決定しているため、音モデルの学習には人の熟練および知見が必要である。
本発明は、上記の課題に鑑みてなされたものであり、その目的は、複数の特徴量を用いて、音イベントを判別可能な音モデルをより簡便に生成できる音モデル生成装置等を提供することにある。
本発明の一態様に係わる音モデル生成装置は、学習データである音信号の複数の特徴量を連結して、連結特徴量を生成する連結手段と、生成した前記連結特徴量を用いて、前記音信号から音イベントを判別するための音モデルに学習させる学習手段とを備えている。
本発明の一態様に係わる音モデル生成方法は、学習データである音信号の複数の特徴量を連結して、連結特徴量を生成し、生成した前記連結特徴量を用いて、前記音信号から音イベントを判別するための音モデルに学習させることを含む。
本発明の一態様に係わる記録媒体は、学習データである音信号の複数の特徴量を連結して、連結特徴量を生成すること、および生成した前記連結特徴量を用いて、前記音信号から音イベントを判別するための音モデルに学習させることをコンピュータに実行させるためのプログラムを格納している。
本発明によれば、複数の特徴量を用いて、音イベントを判別可能な音モデルをより簡便に生成できる。
実施形態1に係わる音モデル生成装置の構成を示すブロック図である。 実施形態1に係わる音モデル生成装置の動作の流れを示すフローチャートである。 実施形態2に係わる音信号処理システムの構成を示すブロック図である。 実施形態2に係わる音モデル生成装置の構成を示すブロック図である。 実施形態2に係わる音イベント判別装置の構成を示すブロック図である。 複数の特徴量を連結した連結特徴量の概略図である。 実施形態2に係わる音モデル生成装置の動作の流れを示すフローチャートである。 実施形態2に係わる音イベント判別装置の動作の流れを示すフローチャートである。 実施形態3に係わる情報処理装置のハードウェア構成を示す図である。
〔実施形態1〕
図1~図2を参照して、実施形態1について説明する。
(音モデル生成装置1)
図1を参照して、本実施形態1に係わる音モデル生成装置1の構成を説明する。図1は、音モデル生成装置1の構成を示すブロック図である。図1に示すように、音モデル生成装置1は、連結部20、および学習部30を備えている。
連結部20は、学習データである音信号の複数の特徴量を連結して、連結特徴量を生成する。連結部20は、連結手段の一例である。具体的には、連結部20は、例えば図示しない特徴データベースから、学習データである音信号の複数の特徴量を示す情報を取得する。連結部20は、取得した複数の特徴量を連結することによって、1つの連結特徴量を生成する。
音信号とは、音がマイクロフォンで集音されて得られた波形である。音信号は、ある時刻tにおける振幅値として表現される。音信号には、ステレオ音響信号などのようにある時刻tにおいて振幅値が複数の値、すなわち複数の音響チャネルを持つものもある。複数の音響チャネル(以下、単にチャネルと呼ぶ場合がある)からなる音信号に対しても本実施形態は成立する。
音イベントとは、実世界の現象(イベント)に対応する音信号である。音イベントは、単独の音信号として存在する場合もあるし、音信号の中に他の音信号と混在して時間区分的あるいは連続的に存在する場合もある。
時刻tにおける特徴ベクトルは、時刻tを含む時間区間の音信号に対して、特定の変換によって得られるベクトルである。例えば、特徴ベクトルは、平均振幅、パワー、パワースペクトル、対数スペクトル、メルスペクトル、CQTスペクトル、LSP(Line Spectral Pair)スペクトル、位相スペクトル、自己相関係数列、MFCC(Mel-Frequency Cepstrum Coefficients)係数列、群遅延係数列、などである。特徴ベクトルがパワーの場合は特徴ベクトルの次元数は1である。また特徴ベクトルがスペクトルの場合は特徴ベクトルの次元数はスペクトルの総ビン数に一致する。特徴ベクトルがパワースペクトルの場合の各特徴ベクトルのビン番号は周波数と対応する。特徴ベクトルがメルスペクトルの場合はメル尺度がビン番号に対応する。メル尺度とは、人間の高音知覚が考慮された周波数軸の尺度である。特徴ベクトルが位相スペクトルの場合には各特徴ベクトルのビン番号は位相と対応する。特徴ベクトルが自己相関係数列の場合は各特徴ベクトルのビン番号は時間差(遅れ量)に対応する。
特徴量は、複数の特徴ベクトルを並べた行列として定義される。特徴量は、時刻の組(t1,t2,…,t_N)の各々の時刻における特徴ベクトルで構成される(Nは正の整数)。特徴量は、例えば、STFTで得られるスペクトログラムである。ここで時刻t1,t2,…,t_Nは一つとして同じ値を取らず、また通常はΔt>0としてt2=t1+Δt,t3=t2+Δt,…,t_N=t_(N-1)+Δtと定義される。すなわち時刻の組(t1,t2,…,t_N)は、昇順かつ等間隔に定義される。
ただし、時刻の組(t1,t2,…,t_N)のうち、複数の時刻における特徴ベクトルが同じ値である場合があり得る。この場合の特徴量の情報量は、重複する特徴ベクトルを除いた特徴量の情報量と同じになる。例えば、時刻t1,t2における特徴ベクトルが同じ値である場合、時刻の組(t1,t2,…,t_N)の各々の時刻における特徴ベクトルで構成される特徴量の情報量は、時刻の組(t1,t3,…,t_N)の各々の時刻における特徴ベクトルで構成される特徴量の情報量と同じである。よって、このような場合には、時刻の組(t1,t2,…,t_N)を、時刻の組(t1,t3,t4,…,t_N)と同様に扱ってよい。つまり、時刻の組(t1,t2,…,t_N)の各々の時刻における特徴ベクトルで構成される特徴量を計算する代わりに、時刻の組(t1,t3,…,t_N)の各々の時刻における特徴ベクトルで構成される特徴量を計算してもよい。
時刻の組(t1,t2,…,t_N)が昇順に並んでいない場合も、特徴量の情報量は変わらない。したがって、この場合は時刻の組(t1,t2,…,t_N)を昇順にソートした時刻の組(T1,T2,…,T_N)の場合と同様に扱う。時刻の組(t1,t2,…,t_N)が等間隔ではない場合も、時刻の組(t1,t2,…,t_N)が等間隔である場合と同様に扱う。
あるいは、特徴ベクトルを生成せずに音信号から時刻の組(t1,t2,…,t_N)に対応する特徴量を直接生成することもできる。この場合、時間に依存して変化する変換、たとえばウェーブレット変換などを用いて、音信号から特徴量を生成することができる。以下では、特徴ベクトルを生成せずに音信号から生成した特徴量と、特徴ベクトルを介して生成した特徴量とを区別しない。
連結特徴量とは、音信号の複数の特徴量を連結することによって生成される1つの特徴量のことである。連結とは、複数のもの(ここでは複数の特徴量)をつなぎ合わせることである。具体的には、連結部20は、複数の特徴量を複数のチャネルとして含む連結特徴量を生成する。換言すれば、連結部20は、複数の特徴量を、チャネル方向に連結することによって、連結特徴量を生成する。
連結部20は、生成した連結特徴量を示す情報を、学習部30へ送信する。なお、複数の特徴量を複数のチャネルとして含む連結特徴量の具体例を、実施形態2で説明する。
学習部30は、生成した連結特徴量を用いて、音信号から音イベントを判別するための音モデルに学習させる。言い換えれば、学習部30は、連結特徴量を用いて、音信号から音イベントを判別するように、音モデルを訓練する。学習部30は、学習手段の一例である。具体的には、学習部30は、連結部20から、連結特徴量を示す情報を受信する。学習部30は、連結特徴量を用いて、音モデルに対する機械学習(例えば深層学習)を行い、学習済み音モデルを生成する。
音モデルは、音信号から音イベントを判別するために用いられる推論プログラムである。例えば、音モデルは、音信号の連結特徴量のデータを入力され、音イベントの判別結果を出力するニューラルネットワークである。特に、音モデルは、CNN(Convolutional Neural Network)であってよい。
学習部30は、学習済み音モデルを、図示しない音モデル記憶装置(データベース)に格納してもよい。あるいは、学習部30は、学習済み音モデルを、図示しない音イベント判別装置(音イベントを判別する装置)へ出力してもよい。なお、音イベント判別装置に関して、後述する実施形態2において説明する。
(音モデル生成装置1の動作)
図2を参照して、本実施形態1に係わる音モデル生成装置1の動作を説明する。図2は、音モデル生成装置1の動作の流れを示すフローチャートである。
図2に示すように、連結部20は、複数の特徴量を示す情報を受信する(S1)。
連結部20は、受信した複数の特徴量を連結する(S2)。これにより、連結部20は、複数の特徴量を連結した連結特徴量を生成する。
連結部20は、生成した連結特徴量を示す情報を、学習部30へ送信する。
学習部30は、連結部20から、連結特徴量を示す情報を受信する。学習部30は、連結特徴量を用いて音モデルに学習させる(S3)。
学習部30は、生成した音モデルを、図示しないデータベースに格納してもよい。あるいは、学習部30は、学習済み音モデルを、図示しない音イベント判別装置(音イベントを判別する装置)へ出力してもよい。
以上で、音モデル生成装置1の動作は終了する。
(本実施形態の効果)
本実施形態の構成によれば、連結部20は、学習データである音信号の複数の特徴量を連結して、連結特徴量を生成する。学習部30は、生成した連結特徴量を用いて、音信号から音イベントを判別するための音モデルに学習させる。こうして、学習済み音モデルが生成される。学習済み音モデルは、連結特徴量のデータを入力されると、音イベントの判別結果を出力する。したがって、複数の特徴量を用いて、音イベントを判別可能な音モデルをより簡便に生成することができる。
〔実施形態2〕
図3~図8を参照して、実施形態2について説明する。本実施形態では、音モデル生成装置、音モデル記憶装置、および音イベント判別装置を含む音信号処理システムについて説明する。
(音信号処理システム1000)
図3を参照して、本実施形態2に係わる音信号処理システム1000の構成を説明する。図3は、音信号処理システム1000の構成を示すブロック図である。
図3に示すように、音信号処理システム1000は、音モデル生成装置2、音イベント判別装置200、および音モデル記憶装置300を含む。
音モデル生成装置2は、学習データである音信号を取得する。音信号は、音声または音響を示す信号である。ここでいう音信号は、人物の声を示す音声信号であってもよいし、機械の作動音を示す音響信号であってもよい。
音モデル生成装置2は、取得した音信号に基づいて、音モデルに学習させる。音モデルとは、音信号から音イベントを判別するために用いられる推論プログラムである。
例えば、音モデルは、ニューラルネットワークであり、学習によってこのニューラルネットワークが重み付けされる。音モデル生成装置2は、学習済み音モデルを示す情報を、音モデル記憶装置300に格納する。
音モデル生成装置2は、音イベントごとに、音モデルを学習させ、音イベントを示す情報と、学習済み音モデルを示す情報とを紐付けて、音モデル記憶装置300に格納する。
例えば、音イベントとは、機械の異常発生とそれに伴う異常音、または、機械の破壊とそれに伴う突発音(インパルス音)である。音モデル生成装置2の詳細な構成(構成要素)については、後で説明する。
音モデル記憶装置300は、音モデル生成装置2が生成した、音イベントごとの音モデルを記憶している。音モデル記憶装置300は、音モデル生成装置2および音イベント判別装置200と、ネットワークを介して、接続されていてよい。あるいは、音モデル記憶装置300は、インターネット上の外部リソースであってもよい。
音イベント判別装置200は、判別の対象である音イベントに関する情報を受信する。音イベント判別装置200は、例えば、マイクロフォンを用いて集音した音信号を受信する。
音イベント判別装置200は、音モデル記憶装置300を参照して、学習済み音モデルを取得する。音イベント判別装置200は、学習済み音モデルに基づいて、音信号から音イベントを判別する。そして、音イベント判別装置200は、音イベントの判別結果を出力する。なお、音イベント判別装置200が音イベントを判別する方法の具体例を後で説明する。
音イベント判別装置200は、音イベントの判別結果を、図示しないディスプレイに表示してもよい。あるいは、音イベント判別装置200は、音イベントの判別結果に応じたアラートを出力してもよい。
例えば、音イベント判別装置200は、音イベントが機械の異常によるものである場合、回転灯(非常灯)を点灯させる。それ以外に、音イベント判別装置200は、図示しないスピーカから、警告音を出力してもよい。音イベント判別装置200の詳細な構成(構成要素)については、後で説明する。
(音モデル生成装置2)
図4を参照して、本実施形態2に係わる音モデル生成装置2の構成を説明する。図4は、音モデル生成装置2の構成を示すブロック図である。
図4に示すように、音モデル生成装置2は、特徴量抽出部10、連結部20、および学習部30を備えている。
特徴量抽出部10は、学習データである音信号から複数の特徴量を抽出する。特徴量抽出部10は、特徴量抽出手段の一例である。
具体的には、特徴量抽出部10は、学習データとして、音信号を取得する。学習データである音信号は、モータ音などの、周期性を有する定常信号であってもよいし、機械の異常音などの、突発的な、かつ時間変化の急激な信号であってもよい。例えば、音信号は、人物の声を示す音声信号である。あるいは、音信号は、機械の作動音を示す音響信号であってもよい。以下では、これらの音声信号または音響信号を、マイクロフォンで収集し、量子化し、データベースに保存したものを音信号として説明する。
特徴量抽出部10は、取得した音信号から、複数の特徴量を抽出する。音信号の特徴量とは、音信号の特性を表す情報である。本実施形態2では、特徴量抽出部10は、学習データの音信号に対し、様々な変換を実行することによって、複数の特徴量を得る。例えば、特徴量抽出部10は、学習データの音信号に対し、STFT(Short Time Fourier Transform)、ウェーブレット変換、およびCQT(constant quality factor transform)を、それぞれ実行する。これにより、複数の特徴量が得られる。
特徴量抽出部10は、様々な変換を実行する前に、音信号に対し、ノイズキャンセル、フィルタリング、またはその他の前処理を行ってもよい。
特徴量抽出部10は、予め決定された時刻t1,t2,…,t_Nにおいて、音信号から複数の特徴量を抽出し、抽出した複数の特徴量を示す情報を連結部20へ送信する。
連結部20は、複数の特徴量を連結して、連結特徴量を生成する。連結部20は、連結手段の一例である。
具体的には、連結部20は、特徴量抽出部10から、複数の特徴量を示す情報を受信する。連結部20は、受信した複数の特徴量を連結することによって、1つの連結特徴量を生成する。生成された連結特徴量は、連結された複数の特徴量を含んでいる。
以上のように、本実施形態2に係わる連結特徴量は、複数の特徴量を、複数のチャネルとして含む。ここでいうチャネルとは、画像における色の表現(RGBやYMCK)を表す方向の次元に相当する。連結部20は、生成した連結特徴量を示す情報を、学習部30へ送信する。なお、連結特徴量の一例を後述する。
学習部30は、生成した連結特徴量を用いて、音イベントを判別するための音モデルに学習させる。言い換えれば、学習部30は、連結特徴量を用いて、音イベントを判別するように、音モデルを訓練する。学習部30は、学習手段の一例である。
具体的には、学習部30は、連結部20から、連結特徴量を示す情報を受信する。学習部30は、連結特徴量を用いて、機械学習(例えば深層学習)を行うことによって、学習済み音モデルを生成する。音モデルとは、音信号から音イベントを判別するために用いられる推論プログラムである。
本実施形態2では、学習部30は、多チャネルの連結特徴量を学習データとして用いて、音モデルを学習させる。学習済み音モデルは、前記実施形態1で説明した方法で音信号から生成された連結特徴量を用いて、音イベントを判別する。学習部30は、学習済み音モデルのプログラムデータおよびパラメータデータを、図3に示す音モデル記憶装置300に格納する。
(音イベント判別装置200)
図5を参照して、本実施形態2に係わる音イベント判別装置200の構成を説明する。図5は、音イベント判別装置200の構成を示すブロック図である。図5に示すように、音イベント判別装置200は、音イベント検出部210、特徴量生成部220、判別部230、および出力部240を備えている。
音イベント検出部210は、音イベントを検出する。具体的には、音イベント検出部210は、音センサ(例えばマイクロフォン)を用いて、音イベントに基づく音信号を検出する。音イベント検出部210は、検出した音信号(以下、音イベント情報と呼ぶ)を、特徴量生成部220へ送信する。
特徴量生成部220は、音イベント検出部210から、音イベント情報(すなわち音信号)を受信する。特徴量生成部220は、音イベント検出部210が検出した音信号から、複数の特徴量を抽出し、さらに抽出した複数の特徴量を連結することによって、連結特徴量を生成する。
特徴量生成部220が音信号から特徴量を抽出するために用いる手法は、音モデル生成装置2の特徴量抽出部10が複数の特徴量を抽出する手法と同じである。例えば、特徴量生成部220は、STFT解析によって、音信号からスペクトログラムを生成する。
特徴量生成部220は、こうして生成した連結特徴量を示す情報を、判別部230へ送信する。
判別部230は、特徴量生成部220から、連結特徴量を示す情報を受信する。判別部230は、音モデル記憶装置300に格納された学習済み音モデルを用いて、音イベントを判別する。より詳細には、判別部230は、学習済み音モデルに対し、連結特徴量を入力し、学習済み音モデルから出力される音イベントの判別結果を受信する。
判別部230は、音イベントの判別結果を、出力部240へ送信する。例えば、判別部230は、判別した音イベントが所定の音イベントに該当するか否かを示す情報を出力する。あるいは、判別部230は、判別した音イベントが所定の音イベントに該当する場合、出力部240にアラートを出力させるためのトリガー信号を、出力部240へ送信してもよい。
出力部240は、判別部230から、音イベントの判別結果を受信する。出力部240は、音イベントの判別結果に応じた報知を行う。具体的には、出力部240は、判別部230が判別した音イベントが所定の音イベントに該当する場合、アラートを出力する。例えば、出力部240は、回転灯またはスピーカを用いて、アラートを出力する。
以上のように、学習済み音モデルは、連結特徴量を用いて、音イベントを判別できる。音イベント判別装置200が、音信号から生成した連結特徴量を、学習済み音モデルへ入力することによって、学習済み音モデルから、音イベントの判別結果が出力される。したがって、音イベント判別装置200は、学習済み音モデルに対し、音信号から生成した連結特徴量を入力することによって、音イベントの判別結果を得られる。
(連結特徴量の一例)
図6は、複数の特徴量を連結した連結特徴量の一例を概略的に示す。図6に示すように、連結特徴量は、複数の特徴量をチャネル方向に連結することによって生成される。図6に示す連結特徴量は、N(≧2)個のチャネルを有する。それぞれの特徴量が、連結特徴量の1つのチャネルに相当する。
(音モデル生成装置2の動作)
図7を参照して、本実施形態2に係わる音モデル生成装置2の動作を説明する。図7は、音モデル生成装置2の動作の流れを示すフローチャートである。
図7に示すように、特徴量抽出部10は、学習データとして、音信号を取得する(S101)。
特徴量抽出部10は、取得した音信号から、複数の特徴量を抽出する(S102)。特徴量抽出部10は、抽出した複数の特徴量を示す情報を、連結部20へ送信する。
連結部20は、特徴量抽出部10から、複数の特徴量を示す情報を受信する。連結部20は、受信した複数の特徴量を連結する(S103)。こうして、連結部20は、複数の特徴量を連結した連結特徴量を生成する。連結部20は、生成した連結特徴量を示す情報を、学習部30へ送信する。
学習部30は、連結部20から、連結特徴量を示す情報を受信する。学習部30は、連結特徴量を用いて音モデルに学習させる(S104)。
学習部30は、学習済み音モデルのプログラムデータおよびパラメータデータを、音モデル記憶装置300に格納する(S105)。
以上で、音モデル生成装置2の動作は終了する。
(音イベント判別装置200の動作)
図8を参照して、本実施形態2に係わる音イベント判別装置200の動作を説明する。図8は、音イベント判別装置200の動作の流れを示すフローチャートである。
図8に示すように、音イベント検出部210は、音センサ(例えばマイクロフォン)を用いて、音イベントとして音信号を検出する(S201)。音イベント検出部210は、検出した音信号を含む音イベント情報を、特徴量生成部220へ送信する。
特徴量生成部220は、音イベント検出部210から、音イベント情報を受信する。特徴量生成部220は、音イベント検出部210が検出した音信号から、複数の特徴量を抽出する(S202)。特徴量生成部220は、抽出した複数の特徴量を示す情報を、判別部230へ送信する。
判別部230は、特徴量生成部220から、複数の特徴量を示す情報を受信する。判別部230は、判別部230は、音モデル記憶装置300に格納された学習済み音モデルに、受信した複数の特徴量を連結した連結特徴量を入力する(S203)。判別部230は、学習済み音モデルから出力される音イベントの判別結果を受信する。判別部230は、音イベントの判別結果を、出力部240へ送信する。
出力部240は、判別部230から、音イベントの判別結果を受信する。出力部240は、音イベントの判別結果に応じた報知を行う(S204)。なお、報知の具体例は上述したとおりである。
以上で、音イベント判別装置200の動作は終了する。
(本実施形態の効果)
本実施形態の構成によれば、特徴量抽出部10は、学習データである音信号から複数の特徴量を抽出する。連結部20は、複数の特徴量を連結して、連結特徴量を生成する。学習部30は、生成した連結特徴量を用いて音イベントを判別するための音モデルに学習させる。こうして生成された学習済み音モデルは、連結特徴量に含まれる複数の特徴量を用いて、音イベントを判別できる。したがって、複数の特徴量を用いて、音イベントを判別可能な音モデルをより簡便に生成することができる。
〔実施形態3〕
図9を参照して、実施形態3について以下で説明する。
(ハードウェア構成について)
前記実施形態1~2で説明した音モデル生成装置1、2の各構成要素は、機能単位のブロックを示している。これらの構成要素の一部又は全部は、例えば図9に示すような情報処理装置900により実現される。図9は、情報処理装置900のハードウェア構成の一例を示すブロック図である。
図9に示すように、情報処理装置900は、一例として、以下のような構成を含む。
・CPU(Central Processing Unit)901
・ROM(Read Only Memory)902
・RAM(Random Access Memory)903
・RAM903にロードされるプログラム904
・プログラム904を格納する記憶装置905
・記録媒体906の読み書きを行うドライブ装置907
・通信ネットワーク909と接続する通信インタフェース908
・データの入出力を行う入出力インタフェース910
・各構成要素を接続するバス911
前記実施形態1~2で説明した音モデル生成装置1、2の各構成要素は、これらの機能を実現するプログラム904をCPU901が読み込んで実行することで実現される。各構成要素の機能を実現するプログラム904は、例えば、予め記憶装置905やROM902に格納されており、必要に応じてCPU901がRAM903にロードして実行される。なお、プログラム904は、通信ネットワーク909を介してCPU901に供給されてもよいし、予め記録媒体906に格納されており、ドライブ装置907が当該プログラムを読み出してCPU901に供給してもよい。
(本実施形態の効果)
本実施形態の構成によれば、前記実施形態において説明した音モデル生成装置が、ハードウェアとして実現される。したがって、前記実施形態において説明した効果と同様の効果を奏することができる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
学習データである音信号の複数の特徴量を連結して、連結特徴量を生成する連結手段と、
生成した前記連結特徴量を用いて、前記音信号から音イベントを判別するための音モデルに学習させる学習手段と
を備えた
音モデル生成装置。
(付記2)
前記連結手段は、前記複数の特徴量を複数のチャネルとして含む多チャネルの特徴量を、前記連結特徴量として生成する
ことを特徴とする付記1に記載の音モデル生成装置。
(付記3)
前記学習手段は、前記連結特徴量を深層学習することによって、前記音モデルに学習させる
ことを特徴とする付記1または2に記載の音モデル生成装置。
(付記4)
学習データである前記音信号から前記複数の特徴量を抽出する特徴量抽出手段をさらに備えた
ことを特徴とする付記1から3のいずれか1項に記載の音モデル生成装置。
(付記5)
前記特徴量抽出手段は、前記音信号に対し、特定の変換を行うことによって、前記複数の特徴量を抽出する
ことを特徴とする付記4に記載の音モデル生成装置。
(付記6)
前記特徴量抽出手段は、前記音信号に対し、STFT(Short Time Fourier Transform)、ウェーブレット変換、またはCQT(Constant Quality Factor Transform)を実行する
ことを特徴とする付記5に記載の音モデル生成装置。
(付記7)
前記複数の特徴量は、平均振幅、パワー、パワースペクトル、対数スペクトル、メルスペクトル、CQTスペクトル、LSP(Line Spectral Pair)スペクトル、位相スペクトル、自己相関係数列、MFCC(Mel-Frequency Cepstrum Coefficients)係数列、および群遅延係数列のうち少なくともいずれかを含む
ことを特徴とする付記1から6のいずれか1項に記載の音モデル生成装置。
(付記8)
付記1から7のいずれか1項に記載の音モデル生成装置と、
学習した前記音モデルを記憶する音モデル記憶装置と、
前記音モデル記憶装置が記憶する前記音モデルを用いて、前記音イベントを判別する音イベント判別装置と
を含む
音信号処理システム。
(付記9)
音イベントを検出する音イベント検出手段と、
付記1から8のいずれか1項に記載の音モデル生成装置が生成した前記音モデルを用いて、前記音イベントを判別する判別手段と、
前記音イベントの判別結果を出力する出力手段とを備えた
音イベント判別装置。
(付記10)
学習データである音信号の複数の特徴量を連結して、連結特徴量を生成し、
生成した前記連結特徴量を用いて、前記音信号から音イベントを判別するための音モデルに学習させること
を含む
音モデル生成方法。
(付記11)
学習データである音信号の複数の特徴量を連結して、連結特徴量を生成すること、および
生成した前記連結特徴量を用いて、前記音信号から音イベントを判別するための音モデルに学習させること
をコンピュータに実行させるためのプログラムを格納した、一時的でない記録媒体。
以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、上述した実施形態は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
本発明は、例えば、屋内または街中で、人々の行動をモニタリングすること、および、機械が正常に作動しているかどうかを監視することに利用できる。また、本発明は、イヤホンまたは補聴器の過渡特性を評価することに利用できる。
1 音モデル生成装置
2 音モデル生成装置
10 特徴量抽出部
20 連結部
30 学習部
200 音イベント判別装置
300 音モデル記憶装置
1000 音信号処理システム

Claims (10)

  1. 学習データである音信号の複数の特徴量をチャネル方向に連結して、前記複数の特徴量を複数のチャネルとして含む多チャネルの特徴量である連結特徴量を生成する連結手段と、
    生成した前記連結特徴量を用いて、前記音信号から音イベントを判別するための音モデルに学習させる学習手段と
    を備えた
    音モデル生成装置。
  2. 前記複数のチャネルそれぞれは、特徴量の種別を基に設定される
    ことを特徴とする請求項1に記載の音モデル生成装置。
  3. 前記学習手段は、深層学習によって、前記音モデルに前記連結特徴量を学習させる
    ことを特徴とする請求項1または2に記載の音モデル生成装置。
  4. 学習データである前記音信号から前記複数の特徴量を抽出する特徴量抽出手段をさらに備えた
    ことを特徴とする請求項1から3のいずれか1項に記載の音モデル生成装置。
  5. 前記特徴量抽出手段は、前記音信号に対し、特定の変換を行うことによって、前記複数の特徴量を抽出する
    ことを特徴とする請求項4に記載の音モデル生成装置。
  6. 前記特徴量抽出手段は、前記音信号に対し、STFT(Short Time Fourier Transform)、ウェーブレット変換、またはCQT(Constant Quality Factor Transform)を実行する
    ことを特徴とする請求項5に記載の音モデル生成装置。
  7. 前記複数の特徴量は、平均振幅、パワー、パワースペクトル、対数スペクトル、メルスペクトル、CQTスペクトル、LSP(Line Spectral Pair)スペクトル、位相スペクトル、自己相関係数列、MFCC(Mel-Frequency Cepstrum Coefficients)係数列、および群遅延係数列のうち少なくともいずれかを含む
    ことを特徴とする請求項1から6のいずれか1項に記載の音モデル生成装置。
  8. 請求項1から7のいずれか1項に記載の音モデル生成装置と、
    学習した前記音モデルを記憶する音モデル記憶装置と、
    前記音モデル記憶装置が記憶する前記音モデルを用いて、前記音イベントを判別する音イベント判別装置と
    を含む
    音信号処理システム
  9. 学習データである音信号の複数の特徴量をチャネル方向に連結して、前記複数の特徴量を複数のチャネルとして含む多チャネルの特徴量である連結特徴量を生成し、
    生成した前記連結特徴量を用いて、前記音信号から音イベントを判別するための音モデルに学習させること
    を含む
    音モデル生成方法。
  10. 学習データである音信号の複数の特徴量をチャネル方向に連結して、前記複数の特徴量を複数のチャネルとして含む多チャネルの特徴量である連結特徴量を生成すること、および
    生成した前記連結特徴量を用いて、前記音信号から音イベントを判別するための音モデルに学習させること
    をコンピュータに実行させるためのプログラム。
JP2021529660A 2019-07-04 2019-07-04 音モデル生成装置、音信号処理システム、音モデル生成方法、およびプログラム Active JP7294422B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/026659 WO2021001998A1 (ja) 2019-07-04 2019-07-04 音モデル生成装置、音モデル生成方法、および記録媒体

Publications (3)

Publication Number Publication Date
JPWO2021001998A1 JPWO2021001998A1 (ja) 2021-01-07
JPWO2021001998A5 JPWO2021001998A5 (ja) 2022-03-11
JP7294422B2 true JP7294422B2 (ja) 2023-06-20

Family

ID=74100794

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021529660A Active JP7294422B2 (ja) 2019-07-04 2019-07-04 音モデル生成装置、音信号処理システム、音モデル生成方法、およびプログラム

Country Status (3)

Country Link
US (1) US12106770B2 (ja)
JP (1) JP7294422B2 (ja)
WO (1) WO2021001998A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020194098A (ja) * 2019-05-29 2020-12-03 ヤマハ株式会社 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法
KR102579572B1 (ko) * 2020-11-12 2023-09-18 한국광기술원 음향 기반의 비상벨 관제 시스템 및 그 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006017936A (ja) 2004-06-30 2006-01-19 Sharp Corp 通話装置,中継処理装置,通信認証システム,通話装置の制御方法,通話装置の制御プログラム,および通話装置の制御プログラムを記録した記録媒体
JP2008224911A (ja) 2007-03-10 2008-09-25 Toyohashi Univ Of Technology 話者認識システム
JP2011039511A (ja) 2009-08-14 2011-02-24 Honda Motor Co Ltd 楽譜位置推定装置、楽譜位置推定方法および楽譜位置推定ロボット
JP2015040963A (ja) 2013-08-21 2015-03-02 カシオ計算機株式会社 音響用フィルタ装置、音響用フィルタリング方法、およびプログラム
JP2018081169A (ja) 2016-11-15 2018-05-24 日本電信電話株式会社 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3410756B2 (ja) 1993-03-18 2003-05-26 シャープ株式会社 音声認識装置
US20130070928A1 (en) * 2011-09-21 2013-03-21 Daniel P. W. Ellis Methods, systems, and media for mobile audio event recognition
TWI536366B (zh) * 2014-03-18 2016-06-01 財團法人工業技術研究院 新增口說語彙的語音辨識系統與方法及電腦可讀取媒體
CN108885133B (zh) 2016-04-01 2021-05-14 日本电信电话株式会社 异常音检测学习装置、其方法以及记录介质
US10672387B2 (en) * 2017-01-11 2020-06-02 Google Llc Systems and methods for recognizing user speech
US10580414B2 (en) * 2018-05-07 2020-03-03 Microsoft Technology Licensing, Llc Speaker recognition/location using neural network
US11859488B2 (en) * 2018-11-29 2024-01-02 Bp Exploration Operating Company Limited DAS data processing to identify fluid inflow locations and fluid type
KR102594163B1 (ko) * 2021-01-05 2023-10-26 한국전자통신연구원 음향 신호를 인식하는 학습 모델의 트레이닝 방법과 그 학습 모델을 이용한 음향 신호의 인식 방법 및 그 방법들을 수행하는 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006017936A (ja) 2004-06-30 2006-01-19 Sharp Corp 通話装置,中継処理装置,通信認証システム,通話装置の制御方法,通話装置の制御プログラム,および通話装置の制御プログラムを記録した記録媒体
JP2008224911A (ja) 2007-03-10 2008-09-25 Toyohashi Univ Of Technology 話者認識システム
JP2011039511A (ja) 2009-08-14 2011-02-24 Honda Motor Co Ltd 楽譜位置推定装置、楽譜位置推定方法および楽譜位置推定ロボット
JP2015040963A (ja) 2013-08-21 2015-03-02 カシオ計算機株式会社 音響用フィルタ装置、音響用フィルタリング方法、およびプログラム
JP2018081169A (ja) 2016-11-15 2018-05-24 日本電信電話株式会社 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム

Also Published As

Publication number Publication date
WO2021001998A1 (ja) 2021-01-07
JPWO2021001998A1 (ja) 2021-01-07
US20220358953A1 (en) 2022-11-10
US12106770B2 (en) 2024-10-01

Similar Documents

Publication Publication Date Title
Selvaperumal et al. Speech to text synthesis from video automated subtitling using Levinson Durbin method of linear predictive coding
JP7294422B2 (ja) 音モデル生成装置、音信号処理システム、音モデル生成方法、およびプログラム
KR19990028694A (ko) 음성 전달 신호의 속성 평가 방법 및 장치
WO2020065257A1 (en) Sound event detection
US20210118464A1 (en) Method and apparatus for emotion recognition from speech
JP2015069063A (ja) 音声認識システム、音声認識方法、及び音声認識プログラム
Tsenov et al. Speech recognition using neural networks
US10971149B2 (en) Voice interaction system for interaction with a user by voice, voice interaction method, and program
CN114596879B (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
KR102508550B1 (ko) 음악 구간 검출 장치 및 방법
US11735202B2 (en) Systems and methods for pre-filtering audio content based on prominence of frequency content
CN115223584A (zh) 音频数据处理方法、装置、设备及存储介质
Lin et al. Speaker-aware speech enhancement with self-attention
CN116935889B (zh) 一种音频类别的确定方法、装置、电子设备及存储介质
Jassim et al. Voice activity detection using neurograms
CN112201227B (zh) 语音样本生成方法及装置、存储介质、电子装置
CN113674769A (zh) 语音系统测试方法、装置、设备、介质及程序产品
Maniak et al. Automated sound signalling device quality assurance tool for embedded industrial control applications
JPWO2021001998A5 (ja) 音モデル生成装置、音信号処理システム、音モデル生成方法、およびプログラム
US12070688B2 (en) Apparatus and method for audio data analysis
JP4513796B2 (ja) 異常監視装置
JP7211523B2 (ja) マスク生成装置、音信号処理装置、マスク生成方法、およびプログラム
CN111782860A (zh) 一种音频检测方法及装置、存储介质
CN113257284B (zh) 语音活动检测模型训练、语音活动检测方法及相关装置
Danylenko et al. Research of Digital-Analog Conversion Method for Reproduction of Mechanical Oscillations.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211217

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230522

R151 Written notification of patent or utility model registration

Ref document number: 7294422

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151