JP6749874B2 - 音波信号から音波種別を判定するプログラム、システム、装置及び方法 - Google Patents
音波信号から音波種別を判定するプログラム、システム、装置及び方法 Download PDFInfo
- Publication number
- JP6749874B2 JP6749874B2 JP2017172695A JP2017172695A JP6749874B2 JP 6749874 B2 JP6749874 B2 JP 6749874B2 JP 2017172695 A JP2017172695 A JP 2017172695A JP 2017172695 A JP2017172695 A JP 2017172695A JP 6749874 B2 JP6749874 B2 JP 6749874B2
- Authority
- JP
- Japan
- Prior art keywords
- sound wave
- sampling data
- sampling
- loss
- wave type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 25
- 238000005070 sampling Methods 0.000 claims description 204
- 230000006870 function Effects 0.000 claims description 38
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 230000007613 environmental effect Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000010411 cooking Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 206010011469 Crying Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 210000000225 synapse Anatomy 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
また、人の発話以外の音波信号に対しては、音素毎の音響的特徴を反映した音ユニットの特徴量を追加する技術もある(例えば特許文献2参照)。これは、音を、閾値に基づくクラスタリングとLDA(Latent Dirichlet Allocation)法とによって識別する。
特に、確率モデルを学習するために、パラメータの値を予め適切に設定する必要がある。具体的には、入力される音データのサンプリングスケール(長さ)を予め適切に設定する必要がある。
また、特許文献1及び非特許文献1によれば、隠れ状態の数を予め適切に設定する必要もある。
更に、特許文献2によれば、クラスタリングに用いる距離の閾値を予め適切に設定する必要もある。
このように、確率モデル用いた音響識別技術によれば、パラメータを予め適切に設定する必要がある。パラメータの設定によっては、音響識別の精度に悪影響を与える場合がある。
音波信号から、異なるサンプリングスケールの複数のサンプリングデータを取得するサンプリングデータ取得手段と、
異なるサンプリングスケールの各サンプリングデータを、基準サンプリングスケールにリスケールした基準サンプリングデータを生成する基準サンプリングデータ生成手段と、
学習モデルと
してコンピュータを機能させ、
学習モデルは、
学習機能として、音波種別が正解イベントとして予め付与された教師対象の音波信号から、サンプリングデータ取得手段及び基準サンプリングデータ生成手段によって生成された、複数の基準サンプリングデータと音波種別とを対応付けて入力することによって学習し、
運用機能として、識別対象の音波信号から、サンプリングデータ取得手段及び基準サンプリングデータ生成手段によって生成された、複数の基準サンプリングデータを入力し、正解イベントの音波種別を出力する
ようにコンピュータを機能させることを特徴とする。
サンプリングデータ取得手段は、異なるサンプリングスケールのスライディングウィンドウを時間経過に応じてシフトさせることによって、異なるサンプリングスケールの複数のサンプリングデータを収集し、サンプリングスケール毎にランダムにサンプリングデータを選択する
ようにコンピュータを機能させることも好ましい。
基準サンプリングデータ生成手段は、最短のサンプリングスケール以下の所定サンプリングスケールに合わせて、全てのサンプリングデータをリスケールする
ようにコンピュータを機能させることも好ましい。
学習モデルは、畳み込みニューラルネットワークであり、
異なるサンプリングスケールSについて、基準サンプリングデータを畳み込みニューラルネットワークで所定回数の誤差逆伝播によって損失関数に基づく誤差を最小化して、確率分布パラメータφを生成することを繰り返す
N:異なるサンプリングスケールの数
S:異なるサンプリングスケール、S=[s1,s2,・・・,sn]、n=N
φ:Sの確率分布パラメータ、 φ=[φ1,φ2,・・・,φn]、n=N
ようにコンピュータを機能させることも好ましい。
M:音波種別の総数
θ:学習モデルのモデルパラメータ
X:音波信号の基準サンプリングデータ
π(X|θ):θを持つ畳み込みニューラルネットワークからの出力データ
要素M個のベクトル、各要素は各音波種別の判定確率
y:音波種別毎の確率、yi=y1,y2,・・・,yM(0≦yi≦1)
P(S):Sの確率分布、 P=[p1,p2,・・・,pn]、n=N
P(S=si)=exp(φi)/Σjexp(φj)
によって表され、
損失関数Es[loss]は、M個のバイナリ交差エントロピーの和となる
loss:誤差、loss=[loss1,loss2,・・・,lossN]
Es[loss]=Σi=1 N(pi×lossi)
∂Es[loss]/∂φi=
(∂Es[loss]/∂P(S=si))・(∂P(S=si)/∂φi)
+Σj≠i(∂Es[loss]/∂P(S=sj))・(∂P(S=sj)/∂φi)
=lossi・P(S=si)・(1−P(S=si))
+Σj≠ilossj・(−P(S=si)・P(S=sj))
ようにコンピュータを機能させることも好ましい。
サーバが、学習モデルの内部パラメータを端末へ送信し、
端末が、自らの学習モデルに内部パラメータを組み込み、
端末が、マイクで収音した周辺の環境音に対して、サンプリングデータ取得手段及び基準サンプリングデータ生成手段によって基準サンプリングデータを生成し、当該基準サンプリングデータを学習モデルに入力することによって音波種別を取得することを特徴とする。
音波信号から、異なるサンプリングスケールの複数のサンプリングデータを取得するサンプリングデータ取得手段と、
異なるサンプリングスケールの各サンプリングデータを、基準サンプリングスケールにリスケールした基準サンプリングデータを生成する基準サンプリングデータ生成手段と、
学習モデルと
を有し、
学習モデルは、
学習機能として、音波種別が正解イベントとして予め付与された教師対象の音波信号から、サンプリングデータ取得手段及び基準サンプリングデータ生成手段によって生成された、複数の基準サンプリングデータと音波種別とを対応付けて入力することによって学習し、
運用機能として、識別対象の音波信号から、サンプリングデータ取得手段及び基準サンプリングデータ生成手段によって生成された、複数の基準サンプリングデータを入力し、正解イベントの音波種別を出力する
ことを特徴とする。
学習段階として、
音波信号から、異なるサンプリングスケールの複数のサンプリングデータを取得する第11のステップと、
異なるサンプリングスケールの各サンプリングデータを、基準サンプリングスケールにリスケールした基準サンプリングデータを生成する第12のステップと、
音波種別が正解イベントとして予め付与された教師対象の音波信号から、複数の基準サンプリングデータと音波種別とを対応付けて入力することによって学習モデルとして学習する第13のステップと
を実行し、
運用段階として、
識別対象の音波信号から、異なるサンプリングスケールの複数のサンプリングデータを取得する第21のステップと、
異なるサンプリングスケールの各サンプリングデータを、基準サンプリングスケールにリスケールした基準サンプリングデータを生成する第22のステップと、
学習モデルに、複数の基準サンプリングデータを入力し、正解イベントの音波種別を取得する第23のステップと
を実行することを特徴とする。
そして、端末2は、その音波信号を、ネットワークを介して音波種別判定サーバ1へ送信する。
音波信号蓄積部10は、教師データとして、音波種別(正解イベント)が予め付与された教師対象の音波信号を蓄積する。
例えばYouTube(登録商標)サイトから音データ(音波信号)をクロールし、その音データに音声種別(正解イベント)を付与して蓄積する。音声種別が付与されていない音データは、例えばクラウドソーシングのように人手によって付与するものであってもよい。
また、エンドユーザの許諾がある場合にのみ、端末から受信した音データであってもよく、その音データに何らかの手法で正解イベントを付与するものであってもよい。
サンプリングデータ取得部11は、音波信号から、異なるサンプリングスケールの複数のサンプリングデータを取得する。
サンプリングデータ取得部11は、学習段階では、音波信号蓄積部10の音波信号から複数のサンプリングデータを取得し、運用段階では、識別対象音波信号受信部14の音波信号から複数のサンプリングデータを取得する。
これに対し、本発明のサンプリングデータ取得部11は、異なるサンプリングスケールのスライディングウィンドウを時間経過に応じてシフトさせることによって、異なるサンプリングスケールの複数のサンプリングデータを収集し、サンプリングスケール毎にランダムにサンプリングデータを選択する。
N:異なるサンプリングスケールの数
S:異なるサンプリングスケール、S=[s1,s2,・・・,sn]、n=N
5個のサンプリングスケールの場合、S=[s1,s2,s3, s4,s5]によって表す。即ち、例えば同一の計測開始時刻であっても、5つのサンプリングスケールが取得される。
選択された複数のサンプリングデータは、基準サンプリングデータ生成部12へ出力される。
基準サンプリングデータ生成部12は、異なるサンプリングスケールの各サンプリングデータを、基準サンプリングスケールにリスケールした基準サンプリングデータを生成する。
例えば1秒〜5秒の全てのサンプリングデータを、1秒のサンプリングデータにリスケールする。
例えば以下のように、いずれかのリスケール方法を用いることができる。
L:サンプリングデータの長さ(学習モデルの入力の長さ)
S:サンプリングスケール
x1、x2、・・・、xSL:音波信号からサンプリングしたシーケンス
x'1、x'2、・・・、x'L:サンプリングスケール後のシーケンス
(リスケール方法1)
f(x1,x2,・・・,xSL)={x'1,x'2,・・・,x'L | x'i=mean(x(i-1)S+1,・・・,iS)}
連続のS個毎の元データの平均値を取る。
(リスケール方法2)
f(x1,x2,・・・,xSL)={x'1,x'2,・・・x'L | x'i=x(i-1)S+j,0<j<S}
連続のS個のデータブロックについて、j個目を取る。
学習モデル13は、学習機能によって教師データの音波信号及び音波種別から学習し、運用機能によって識別対象の音波信号から音波種別を判定する。
識別対象音波信号受信部14は、端末2から識別対象の音波信号を受信する。受信した音波信号は、学習モデル13へ入力される。
音波種別返信部15は、学習モデル13によって判定された音波種別を、端末2へ送信する。
図5は、本発明の学習モデルにおけるニューラルネットワークの一般的な機能構成図である。
ニューラルネットワークとは、生体の脳における特性を計算機上のシミュレーションによって表現することを目指した数学モデルをいう。シナプスの結合によってネットワークを形成した人工ニューロン(ユニット)が、学習によってシナプスの結合強度を変化させ、問題解決能力を持つようなモデル全般をいう。
ニューラルネットワークとしては、様々な構成があるが、基本的には複数種類の層の重ね合わせ(又はグラフ構造)で表現される。ニューラルネットワークは、入力データと正解イベントとが対応付けられた教師データを入力する。そして、ニューラルネットワークは、入力データに対する最終的な出力結果が正解イベントと一致するように、モデルパラメータを学習する(タスクに応じて入力に対する出力を近似させる)。
その誤差を算出するために、「損失関数」(loss function)が定義される。損失関数は、畳み込み層及び全結合層のパラメータに対して、正則化を施し、過学習を防ぐために用いられる。
誤差は、「誤差逆伝播法」によって、出力層側から入力層側へ向けて次々に伝播し、各層の重みを少しずつ更新していく。最終的に、誤差が小さくなるように、各層の重みを適切な値に調整する収束計算を実行する。これは、損失関数を予め設計した上で、勾配下降(Gradient Descent)によって損失関数を最小化していく。
即ち、教師データに基づいて重みを学習する際に、誤差逆伝播によって目的タスクの損失関数に基づく誤差を最小化する。
(第1段階:学習モデルのモデルパラメータθの学習)
一度にN回まで畳み込みニューラルネットワークを繰り返すことなく、K(<N)回毎に実行する。
教師データのミニバッチとなる基準サンプリングデータに対して、SGD(Stochastic Gradient Descent)やAdam’s Optimizerなどの勾配下降方法によって、K回だけ畳み込みニューラルネットワークを繰り返し、損失関数を最小化にする。
第1段階でK回の繰り返し実行毎に、Sの確率分布パラメータφを更新する。
以下の式に従って、各環境音イベントに対して個々の入力データスケールで計算した尤度(likelihood)の期待値(expectation)に対する勾配でφを更新する。
φnew=φold−∂φ
φ:Sの確率分布パラメータ、φ=[φ1,φ2,・・・,φn]、n=N
M:音波種別の総数
θ:学習モデルのモデルパラメータ
X:畳み込みネットワークに入力される音波信号の基準サンプリングデータ
π(X|θ):θを持つ畳み込みニューラルネットワークからの出力データ
要素M個のベクトル、各要素は各音波種別の判定確率
y:音波種別毎の確率、yi=y1,y2,・・・,yM(0≦yi≦1)
P(S):Sの確率分布、P=[p1,p2,・・・,pn]、n=N
P(S=si)=exp(φi)/Σjexp(φj)
loss:誤差、loss=[loss1,loss2,・・・,lossN]
Es[loss]=Σi=1 N(pi×lossi)
∂Es[loss]/∂φi=
(∂Es[loss]/∂P(S=si))・(∂P(S=si)/∂φi)
+Σj≠i(∂Es[loss]/∂P(S=sj))・(∂P(S=sj)/∂φi)
=lossi・P(S=si)・(1−P(S=si))
+Σj≠ilossj・(−P(S=si)・P(S=sj))
L:サンプリングデータの長さ
K:バッチサイズ
L(X,y)=1/K Σi=1 KLi(Xi,yi)
Li(Xi,yi)=−πyi(Xi)+log(Σj=1 Nexp(πj(Xi)))
これに対し、本発明のバイナリ交差エントロピーは、以下のように表される。
ES:Sの期待値
L(X,y|S)=ES[1/K Σi=1 KLi(Xi,yi)]
Li(Xi,yi)=−πyi(Xi)+log(Σj=1 Nexp(πj(Xi)))
このとき、音波種別毎の誤差loss1〜lossNと、音波種別毎の初期値の確率p1〜pNとから、以下のよう損失関数Es[loss]が算出される。
loss1=0.69、loss2=0.58、loss3=0.50、loss4=0.23、loss5=0.48
P(S):p1=0.2、 p2=0.2、 p3=0.2、 p4=0.2、 p5=0.2
Es[loss]=[0.2×0.69、 0.2×0.58、 0.2×0.50、 0.2×0.23、 0.2×0.48]
∂Es[loss]/∂φ1= 0.69×0.2×(1-0.2)−0.58×0.2×0.2−0.50×0.2×0.2
−0.23×0.2×0.2−0.48×0.2×0.2=0.0388
∂Es[loss]/∂φ2= 0.58×0.2×(1-0.2)−0.69×0.2×0.2−0.50×0.2×0.2
−0.23×0.2×0.2−0.48×0.2×0.2=0.0168
∂Es[loss]/∂φ3= 0.50×0.2×(1-0.2)−0.69×0.2×0.2−0.58×0.2×0.2
−0.23×0.2×0.2−0.48×0.2×0.2=0.0008
∂Es[loss]/∂φ4= 0.23×0.2×(1-0.2)−0.69×0.2×0.2−0.58×0.2×0.2
−0.50×0.2×0.2−0.48×0.2×0.2=-0.0532
∂Es[loss]/∂φ5= 0.48×0.2×(1-0.2)−0.69×0.2×0.2−0.58×0.2×0.2
−0.50×0.2×0.2−0.23×0.2×0.2=-0.0032
φnew=φold−∂φ
φ1=1.0−0.0388=0.9612
φ2=1.0−0.0168=0.9832
φ3=1.0−0.0008=0.9992
φ4=1.0−(-0.0532)=1.0532
φ5=1.0−(-0.0032)=1.0032
P(S=si)=exp(φi)/Σjexp(φj)
Σjexp(φj)=exp(0.9612)+exp(0.9832)+exp(0.9992)+exp(1.0532)
+exp(1.0032)
=13.5977
P(S=s1)=exp(0.9612)/13.5977=0.1923
P(S=s2)=exp(0.9832)/13.5977=0.1966
P(S=s3)=exp(0.9992)/13.5977=0.1997
P(S=s4)=exp(1.0532)/13.5977=0.2108★
P(S=s5)=exp(1.0032)/13.5977=0.2005
これによれば、S=s4の音波種別の確率が最大となっている。そのために、入力された音波信号の基準サンプリングデータに対する音波種別=4と判定される。
(S12)音波種別判定サーバ1は、学習段階として、教師データのサンプリングデータから、前述した基準サンプリングデータ生成部12と同様の処理を実行する。
(S13)音波種別判定サーバ1は、学習段階として、教師データの基準サンプリングデータから、学習モデル13で学習する。
(S14)音波種別判定サーバ1は、学習モデルの内部パラメータφを、端末2へ送信する。
(S21)端末2は、マイクで収音した周辺の環境音に対して、前述したサンプリングデータ取得部11と同様の処理を実行する。
(S22)端末2は、サンプリングデータに対して、前述した基準サンプリングデータ生成部12と同様の処理を実行する。
(S23)端末2は、運用段階として、基準サンプリングデータを学習モデル13へ入力し、音波種別を取得する。
(S24)そして、端末2にインストールされたアプリケーションは、音波種別に応じて制御される。
例えば音波種別「料理音」と判定された場合、端末2のアプリケーションは、料理中のユーザに聞かせたい特売情報やレシピ情報をユーザに明示するものであってもよい。
例えば音波種別「(赤ちゃんの)泣き声」と判定された場合、端末2のアプリケーションは、新生児に関する商品情報やクーポン情報をユーザに明示するものであってもよい。
10 音波信号蓄積部
11 サンプリングデータ取得部
12 基準サンプリングデータ生成部
13 学習モデル
14 識別対象音波信号受信部
15 音波種別返信部
2 端末
Claims (8)
- 識別対象の音波信号を入力し、音波種別を出力する装置に搭載されたコンピュータを機能させるプログラムであって、
音波信号から、異なるサンプリングスケールの複数のサンプリングデータを取得するサンプリングデータ取得手段と、
異なるサンプリングスケールの各サンプリングデータを、基準サンプリングスケールにリスケールした基準サンプリングデータを生成する基準サンプリングデータ生成手段と、
学習モデルと
してコンピュータを機能させ、
前記学習モデルは、
学習機能として、音波種別が正解イベントとして予め付与された教師対象の音波信号から、前記サンプリングデータ取得手段及び前記基準サンプリングデータ生成手段によって生成された、複数の基準サンプリングデータと音波種別とを対応付けて入力することによって学習し、
運用機能として、識別対象の音波信号から、前記サンプリングデータ取得手段及び前記基準サンプリングデータ生成手段によって生成された、複数の基準サンプリングデータを入力し、正解イベントの音波種別を出力する
ようにコンピュータを機能させることを特徴とするプログラム。 - 前記サンプリングデータ取得手段は、異なるサンプリングスケールのスライディングウィンドウを時間経過に応じてシフトさせることによって、異なるサンプリングスケールの複数のサンプリングデータを収集し、サンプリングスケール毎にランダムにサンプリングデータを選択する
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。 - 前記基準サンプリングデータ生成手段は、最短のサンプリングスケール以下の所定サンプリングスケールに合わせて、全てのサンプリングデータをリスケールする
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。 - 前記学習モデルは、畳み込みニューラルネットワークであり、
異なるサンプリングスケールSについて、前記基準サンプリングデータを前記畳み込みニューラルネットワークで所定回数の誤差逆伝播によって損失関数に基づく誤差を最小化して、確率分布パラメータφを生成することを繰り返す
N:異なるサンプリングスケールの数
S:異なるサンプリングスケール、S=[s1,s2,・・・,sn]、n=N
φ:Sの確率分布パラメータ、 φ=[φ1,φ2,・・・,φn]、n=N
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。 - M:音波種別の総数
θ:学習モデルのモデルパラメータ
X:音波信号の基準サンプリングデータ
π(X|θ):θを持つ畳み込みニューラルネットワークからの出力データ
要素M個のベクトル、各要素は各音波種別の判定確率
y:音波種別毎の確率、yi=y1,y2,・・・,yM(0≦yi≦1)
P(S):Sの確率分布、 P=[p1,p2,・・・,pn]、n=N
P(S=si)=exp(φi)/Σjexp(φj)
によって表され、
損失関数Es[loss]は、M個のバイナリ交差エントロピーの和となる
loss:誤差、loss=[loss1,loss2,・・・,lossN]
Es[loss]=Σi=1 N(pi×lossi)
∂Es[loss]/∂φi=
(∂Es[loss]/∂P(S=si))・(∂P(S=si)/∂φi)
+Σj≠i(∂Es[loss]/∂P(S=sj))・(∂P(S=sj)/∂φi)
=lossi・P(S=si)・(1−P(S=si))
+Σj≠ilossj・(−P(S=si)・P(S=sj))
ようにコンピュータを機能させることを特徴とする請求項4に記載のプログラム。 - 請求項1から5のいずれか1項に記載のプログラムを実行するサーバ及び端末が、ネットワークを介して通信するシステムであって、
前記サーバが、前記学習モデルの内部パラメータを前記端末へ送信し、
前記端末が、自らの前記学習モデルに前記内部パラメータを組み込み、
前記端末が、マイクで収音した周辺の環境音に対して、前記サンプリングデータ取得手段及び前記基準サンプリングデータ生成手段によって基準サンプリングデータを生成し、当該基準サンプリングデータを前記学習モデルに入力することによって音波種別を取得する
ことを特徴とするシステム。 - 識別対象の音波信号を入力し、音波種別を出力する音波種別判定装置であって、
音波信号から、異なるサンプリングスケールの複数のサンプリングデータを取得するサンプリングデータ取得手段と、
異なるサンプリングスケールの各サンプリングデータを、基準サンプリングスケールにリスケールした基準サンプリングデータを生成する基準サンプリングデータ生成手段と、
学習モデルと
を有し、
前記学習モデルは、
学習機能として、音波種別が正解イベントとして予め付与された教師対象の音波信号から、前記サンプリングデータ取得手段及び前記基準サンプリングデータ生成手段によって生成された、複数の基準サンプリングデータと音波種別とを対応付けて入力することによって学習し、
運用機能として、識別対象の音波信号から、前記サンプリングデータ取得手段及び前記基準サンプリングデータ生成手段によって生成された、複数の基準サンプリングデータを入力し、正解イベントの音波種別を出力する
ことを特徴とする音波種別判定装置。 - 識別対象の音波信号を入力し、音波種別を出力する装置の音波種別判定方法であって、
学習段階として、
音波信号から、異なるサンプリングスケールの複数のサンプリングデータを取得する第11のステップと、
異なるサンプリングスケールの各サンプリングデータを、基準サンプリングスケールにリスケールした基準サンプリングデータを生成する第12のステップと、
音波種別が正解イベントとして予め付与された教師対象の音波信号から、複数の基準サンプリングデータと音波種別とを対応付けて入力することによって学習モデルとして学習する第13のステップと
を実行し、
運用段階として、
識別対象の音波信号から、異なるサンプリングスケールの複数のサンプリングデータを取得する第21のステップと、
異なるサンプリングスケールの各サンプリングデータを、基準サンプリングスケールにリスケールした基準サンプリングデータを生成する第22のステップと、
前記学習モデルに、複数の基準サンプリングデータを入力し、正解イベントの音波種別を取得する第23のステップと
を実行することを特徴とする装置の音波種別判定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017172695A JP6749874B2 (ja) | 2017-09-08 | 2017-09-08 | 音波信号から音波種別を判定するプログラム、システム、装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017172695A JP6749874B2 (ja) | 2017-09-08 | 2017-09-08 | 音波信号から音波種別を判定するプログラム、システム、装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019049601A JP2019049601A (ja) | 2019-03-28 |
JP6749874B2 true JP6749874B2 (ja) | 2020-09-02 |
Family
ID=65906331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017172695A Expired - Fee Related JP6749874B2 (ja) | 2017-09-08 | 2017-09-08 | 音波信号から音波種別を判定するプログラム、システム、装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6749874B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020054822A1 (ja) * | 2018-09-13 | 2020-03-19 | LiLz株式会社 | 音解析装置及びその処理方法、プログラム |
CN111274910B (zh) * | 2020-01-16 | 2024-01-30 | 腾讯科技(深圳)有限公司 | 场景互动方法、装置及电子设备 |
WO2021176770A1 (ja) * | 2020-03-06 | 2021-09-10 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 行動識別方法、行動識別装置及び行動識別プログラム |
CN111445926B (zh) * | 2020-04-01 | 2023-01-03 | 杭州叙简科技股份有限公司 | 一种基于声音的农村道路交通事故警情识别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3248522B2 (ja) * | 1999-07-21 | 2002-01-21 | 住友電気工業株式会社 | 音源種別識別装置 |
JP4219539B2 (ja) * | 2000-08-11 | 2009-02-04 | 日本放送協会 | 音響分類装置 |
FR2842014B1 (fr) * | 2002-07-08 | 2006-05-05 | Lyon Ecole Centrale | Procede et appareil pour affecter une classe sonore a un signal sonore |
JP5515317B2 (ja) * | 2009-02-20 | 2014-06-11 | ヤマハ株式会社 | 楽曲処理装置、およびプログラム |
-
2017
- 2017-09-08 JP JP2017172695A patent/JP6749874B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2019049601A (ja) | 2019-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6749874B2 (ja) | 音波信号から音波種別を判定するプログラム、システム、装置及び方法 | |
US10643602B2 (en) | Adversarial teacher-student learning for unsupervised domain adaptation | |
JP6712642B2 (ja) | モデル学習装置、その方法、及びプログラム | |
EP3046053B1 (en) | Method and apparatus for training language model | |
US11264044B2 (en) | Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program | |
EP3032533B1 (en) | Method and apparatus for training language model and recognizing speech | |
JP6350148B2 (ja) | 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム | |
CN105139864B (zh) | 语音识别方法和装置 | |
JP5982297B2 (ja) | 音声認識装置、音響モデル学習装置、その方法及びプログラム | |
US10580432B2 (en) | Speech recognition using connectionist temporal classification | |
JP2006285899A (ja) | 学習装置および学習方法、生成装置および生成方法、並びにプログラム | |
JP2017058877A (ja) | 学習装置、音声検出装置、学習方法およびプログラム | |
Lee et al. | Ensemble of jointly trained deep neural network-based acoustic models for reverberant speech recognition | |
JPWO2018062265A1 (ja) | 音響モデル学習装置、その方法、及びプログラム | |
JP6453681B2 (ja) | 演算装置、演算方法およびプログラム | |
Bacchiani et al. | Asynchronous, online, GMM-free training of a context dependent acoustic model for speech recognition | |
Tang et al. | Knowledge transfer pre-training | |
Achkar et al. | Voice identity finder using the back propagation algorithm of an artificial neural network | |
Boulanger-Lewandowski et al. | Phone sequence modeling with recurrent neural networks | |
Halageri et al. | Speech recognition using deep learning | |
Seurin et al. | A Machine of Few Words--Interactive Speaker Recognition with Reinforcement Learning | |
Oruh et al. | Deep Learning‐Based Classification of Spoken English Digits | |
Chien et al. | Stochastic curiosity maximizing exploration | |
Yoon | ANN-based collaborative sensor calibration and GA-approach to sensor mutation management | |
CN112951270A (zh) | 语音流利度检测的方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190801 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200605 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200804 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200812 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6749874 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |