JP6749874B2 - 音波信号から音波種別を判定するプログラム、システム、装置及び方法 - Google Patents

音波信号から音波種別を判定するプログラム、システム、装置及び方法 Download PDF

Info

Publication number
JP6749874B2
JP6749874B2 JP2017172695A JP2017172695A JP6749874B2 JP 6749874 B2 JP6749874 B2 JP 6749874B2 JP 2017172695 A JP2017172695 A JP 2017172695A JP 2017172695 A JP2017172695 A JP 2017172695A JP 6749874 B2 JP6749874 B2 JP 6749874B2
Authority
JP
Japan
Prior art keywords
sound wave
sampling data
sampling
loss
wave type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2017172695A
Other languages
English (en)
Other versions
JP2019049601A (ja
Inventor
聿津 湯
聿津 湯
吉原 貴仁
貴仁 吉原
真弥 和田
真弥 和田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2017172695A priority Critical patent/JP6749874B2/ja
Publication of JP2019049601A publication Critical patent/JP2019049601A/ja
Application granted granted Critical
Publication of JP6749874B2 publication Critical patent/JP6749874B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本発明は、識別対象の音波信号から音波種別を判定する技術に関する。特に、ユーザ周辺の環境音を識別する用途に適する。
近年、IoT(Internet of Things)デバイスの発展に伴って、ユーザ周辺で収集した環境音から、そのユーザの行動状態を識別する技術がある。例えば、車に搭載された音響識別装置が、環境音から踏切の音を識別した際に、自動的に車内のラジオの音を小さめにするという運転補助の技術がある(例えば特許文献1参照)。
音響識別の技術の多くは、確率モデルに基づく方式である。これは、音波信号から特徴量を抽出し、半隠れマルコフモデル(HMM(Hidden Markov Model))で識別モデルを学習する。そして、Viterbiアルゴリズムを用いて尤度が最大となる音響イベントを識別する(例えば特許文献1及び非特許文献1参照)。
また、人の発話以外の音波信号に対しては、音素毎の音響的特徴を反映した音ユニットの特徴量を追加する技術もある(例えば特許文献2参照)。これは、音を、閾値に基づくクラスタリングとLDA(Latent Dirichlet Allocation)法とによって識別する。
WO2006/011310 特開2015−49398号公報
三木一浩、西浦敬信、中村哲、鹿野清宏「HMMを用いた環境音識別の検討」電子情報通信学会技術報告、SP99−106、pp.79−84(1999)
しかしながら、前述したような確率モデル用いた音響識別技術によれば、音を識別する際に、音データからメル周波数ケプストラム係数(MFCC(Mel-Frequency Cepstrum Coefficients)の特徴量を抽出する必要があり、計算コストが膨大になる。そのために、音響の収音と同時に、リアルタイムにその音響種別を識別することが難しい。
特に、確率モデルを学習するために、パラメータの値を予め適切に設定する必要がある。具体的には、入力される音データのサンプリングスケール(長さ)を予め適切に設定する必要がある。
また、特許文献1及び非特許文献1によれば、隠れ状態の数を予め適切に設定する必要もある。
更に、特許文献2によれば、クラスタリングに用いる距離の閾値を予め適切に設定する必要もある。
このように、確率モデル用いた音響識別技術によれば、パラメータを予め適切に設定する必要がある。パラメータの設定によっては、音響識別の精度に悪影響を与える場合がある。
そこで、本発明は、確率モデルのパラメータを予め設定することなく、且つ、特徴量を抽出する必要もなく、識別対象の音波信号から音波種別を判定するプログラム、システム、装置及び方法を提供することを目的とする。
本発明によれば、識別対象の音波信号を入力し、音波種別を出力する装置に搭載されたコンピュータを機能させるプログラムであって、
音波信号から、異なるサンプリングスケールの複数のサンプリングデータを取得するサンプリングデータ取得手段と、
異なるサンプリングスケールの各サンプリングデータを、基準サンプリングスケールにリスケールした基準サンプリングデータを生成する基準サンプリングデータ生成手段と、
学習モデルと
してコンピュータを機能させ、
学習モデルは、
学習機能として、音波種別が正解イベントとして予め付与された教師対象の音波信号から、サンプリングデータ取得手段及び基準サンプリングデータ生成手段によって生成された、複数の基準サンプリングデータと音波種別とを対応付けて入力することによって学習し、
運用機能として、識別対象の音波信号から、サンプリングデータ取得手段及び基準サンプリングデータ生成手段によって生成された、複数の基準サンプリングデータを入力し、正解イベントの音波種別を出力する
ようにコンピュータを機能させることを特徴とする。
本発明のプログラムにおける他の実施形態によれば、
サンプリングデータ取得手段は、異なるサンプリングスケールのスライディングウィンドウを時間経過に応じてシフトさせることによって、異なるサンプリングスケールの複数のサンプリングデータを収集し、サンプリングスケール毎にランダムにサンプリングデータを選択する
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
基準サンプリングデータ生成手段は、最短のサンプリングスケール以下の所定サンプリングスケールに合わせて、全てのサンプリングデータをリスケールする
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
学習モデルは、畳み込みニューラルネットワークであり、
異なるサンプリングスケールSについて、基準サンプリングデータを畳み込みニューラルネットワークで所定回数の誤差逆伝播によって損失関数に基づく誤差を最小化して、確率分布パラメータφを生成することを繰り返す
N:異なるサンプリングスケールの数
S:異なるサンプリングスケール、S=[s1,s2,・・・,sn]、n=N
φ:Sの確率分布パラメータ、 φ=[φ1,φ2,・・・,φn]、n=N
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
M:音波種別の総数
θ:学習モデルのモデルパラメータ
X:音波信号の基準サンプリングデータ
π(X|θ):θを持つ畳み込みニューラルネットワークからの出力データ
要素M個のベクトル、各要素は各音波種別の判定確率
y:音波種別毎の確率、yi=y1,y2,・・・,y(0≦yi≦1)
P(S):Sの確率分布、 P=[p1,p2,・・・,pn]、n=N
P(S=si)=exp(φi)/Σjexp(φj)
によって表され、
損失関数Es[loss]は、M個のバイナリ交差エントロピーの和となる
loss:誤差、loss=[loss1,loss2,・・・,lossN
Es[loss]=Σi=1 N(pi×lossi)
∂Es[loss]/∂φi
(∂Es[loss]/∂P(S=si))・(∂P(S=si)/∂φi)
+Σj≠i(∂Es[loss]/∂P(S=sj))・(∂P(S=sj)/∂φi)
=lossi・P(S=si)・(1−P(S=si))
+Σj≠ilossj・(−P(S=si)・P(S=sj))
ようにコンピュータを機能させることも好ましい。
本発明によれば、前述したプログラムを実行するサーバ及び端末が、ネットワークを介して通信するシステムであって、
サーバが、学習モデルの内部パラメータを端末へ送信し、
端末が、自らの学習モデルに内部パラメータを組み込み、
端末が、マイクで収音した周辺の環境音に対して、サンプリングデータ取得手段及び基準サンプリングデータ生成手段によって基準サンプリングデータを生成し、当該基準サンプリングデータを学習モデルに入力することによって音波種別を取得することを特徴とする。
本発明によれば、識別対象の音波信号を入力し、音波種別を出力する音波種別判定装置であって、
音波信号から、異なるサンプリングスケールの複数のサンプリングデータを取得するサンプリングデータ取得手段と、
異なるサンプリングスケールの各サンプリングデータを、基準サンプリングスケールにリスケールした基準サンプリングデータを生成する基準サンプリングデータ生成手段と、
学習モデルと
を有し、
学習モデルは、
学習機能として、音波種別が正解イベントとして予め付与された教師対象の音波信号から、サンプリングデータ取得手段及び基準サンプリングデータ生成手段によって生成された、複数の基準サンプリングデータと音波種別とを対応付けて入力することによって学習し、
運用機能として、識別対象の音波信号から、サンプリングデータ取得手段及び基準サンプリングデータ生成手段によって生成された、複数の基準サンプリングデータを入力し、正解イベントの音波種別を出力する
ことを特徴とする。
本発明によれば、識別対象の音波信号を入力し、音波種別を出力する装置の音波種別判定方法であって、
学習段階として、
音波信号から、異なるサンプリングスケールの複数のサンプリングデータを取得する第11のステップと、
異なるサンプリングスケールの各サンプリングデータを、基準サンプリングスケールにリスケールした基準サンプリングデータを生成する第12のステップと、
音波種別が正解イベントとして予め付与された教師対象の音波信号から、複数の基準サンプリングデータと音波種別とを対応付けて入力することによって学習モデルとして学習する第13のステップと
を実行し、
運用段階として、
識別対象の音波信号から、異なるサンプリングスケールの複数のサンプリングデータを取得する第21のステップと、
異なるサンプリングスケールの各サンプリングデータを、基準サンプリングスケールにリスケールした基準サンプリングデータを生成する第22のステップと、
学習モデルに、複数の基準サンプリングデータを入力し、正解イベントの音波種別を取得する第23のステップと
を実行することを特徴とする。
本発明のプログラム、システム、装置及び方法によれば、確率モデルのパラメータを予め設定することなく、且つ、特徴量を抽出する必要もなく、識別対象の音波信号から音波種別を判定することができる。
本発明におけるシステム構成図である。 本発明における音波種別判定サーバの機能構成図である。 本発明におけるサンプリングデータ取得部の説明図である。 本発明における基準サンプリングデータ生成部の説明図である。 本発明の学習モデルにおけるニューラルネットワークの一般的な機能構成図である。 本発明における学習モデルのフローチャートである。 本発明における学習モデルの第1の処理説明図である。 本発明における学習モデルの第2の処理説明図である。 本発明における音波種別判定サーバと端末との間のシーケンス図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明におけるシステム構成図である。
図1によれば、端末2は、AI(Artificial intelligence)アシスタント(例えばGoogle Home(登録商標))やスマートフォン、携帯端末である。本発明の用途によれば、端末2は、内蔵又は外付けのマイクによって、ユーザ周辺の環境音を収音する。例えばユーザが料理中であれば、その音波信号が収音される。音波信号とは、時間経過に対する音波の振幅を表す信号である。
そして、端末2は、その音波信号を、ネットワークを介して音波種別判定サーバ1へ送信する。
音波種別判定サーバ1は、教師データとして音波信号(サンプリングデータ)と音波種別(正解イベント)とから予め学習し、端末2から受信した識別対象の音波信号から音波種別を判定することができる。例えば端末2のユーザ周辺の環境音から、そのユーザが「料理中」であることを判定することができる。
音波種別判定サーバ1は、例えば、料理を炒めている料理中の音や、赤ちゃんの泣き声、インターフォンの音など、日常生活にある様々な環境音を識別することができる。識別された環境音によってユーザの行動を理解し、アプリケーションの制御や、情報の配信をすることができる。
図2は、本発明における音波種別判定サーバの機能構成図である。
図2によれば、音波種別判定サーバ1は、音波信号蓄積部10と、サンプリングデータ取得部11と、基準サンプリングデータ生成部12と、学習モデル13と、識別対象音波信号受信部14と、音波種別返信部15とを有する。これら機能構成図は、サーバに搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、装置の音波種別判定方法としても理解できる。
[音波信号蓄積部10]
音波信号蓄積部10は、教師データとして、音波種別(正解イベント)が予め付与された教師対象の音波信号を蓄積する。
例えばYouTube(登録商標)サイトから音データ(音波信号)をクロールし、その音データに音声種別(正解イベント)を付与して蓄積する。音声種別が付与されていない音データは、例えばクラウドソーシングのように人手によって付与するものであってもよい。
また、エンドユーザの許諾がある場合にのみ、端末から受信した音データであってもよく、その音データに何らかの手法で正解イベントを付与するものであってもよい。
[サンプリングデータ取得部11]
サンプリングデータ取得部11は、音波信号から、異なるサンプリングスケールの複数のサンプリングデータを取得する。
サンプリングデータ取得部11は、学習段階では、音波信号蓄積部10の音波信号から複数のサンプリングデータを取得し、運用段階では、識別対象音波信号受信部14の音波信号から複数のサンプリングデータを取得する。
図3は、本発明におけるサンプリングデータ取得部の説明図である。
従来技術によれば、固定のサンプリングスケール(長さ)を規定した上で、入力された音波信号を、そのサンプリングスケールでミニバッチデータに区分する。
これに対し、本発明のサンプリングデータ取得部11は、異なるサンプリングスケールのスライディングウィンドウを時間経過に応じてシフトさせることによって、異なるサンプリングスケールの複数のサンプリングデータを収集し、サンプリングスケール毎にランダムにサンプリングデータを選択する。
図3によれば、音波信号は、正規化された音波の振幅(縦軸)が、時間経過の方向(横軸)へ流れている。本発明のスライディングウィンドウとしては、例えば1秒、2秒、3秒、4秒、5秒の5個の異なるサンプリングスケールが規定されている。
N:異なるサンプリングスケールの数
S:異なるサンプリングスケール、S=[s1,s2,・・・,sn]、n=N
5個のサンプリングスケールの場合、S=[s1,s2,s3, s4,s5]によって表す。即ち、例えば同一の計測開始時刻であっても、5つのサンプリングスケールが取得される。
また、これらスライディングウィンドウを時間経過に応じてシフトさせる。これによって、異なるサンプリングスケールの多数のサンプリングデータが収集される。そして、それら多数のサンプリングデータの中から、サンプリングスケール毎に、ランダムにサンプリングデータが選択される。
選択された複数のサンプリングデータは、基準サンプリングデータ生成部12へ出力される。
サンプリングスケールが1秒のように短い場合、音波信号の振幅がフラットの波形のみになる場合もあり、そのサンプリングデータは、全て0になってしまう。このような情報量が少ないサンプリングデータが大量に発生すると、後段の学習モデル13の学習精度に影響を与える。そのために、サンプリングデータ取得部11は、異なるサンプリングスケールでサンプリングデータを取得しておくことによって、音波種別に応じてできる限り最適なサンプリングスケールのサンプリングデータで、学習モデル13に学習させることができる。
[基準サンプリングデータ生成部12]
基準サンプリングデータ生成部12は、異なるサンプリングスケールの各サンプリングデータを、基準サンプリングスケールにリスケールした基準サンプリングデータを生成する。
図4は、本発明における基準サンプリングデータ生成部の説明図である。
基準サンプリングデータ生成手段は、最短のサンプリングスケール以下の所定サンプリングスケールに合わせて、全てのサンプリングデータをリスケールする。
例えば1秒〜5秒の全てのサンプリングデータを、1秒のサンプリングデータにリスケールする。
例えば以下のように、いずれかのリスケール方法を用いることができる。
L:サンプリングデータの長さ(学習モデルの入力の長さ)
S:サンプリングスケール
x1、x2、・・・、xSL:音波信号からサンプリングしたシーケンス
x'1、x'2、・・・、x'L:サンプリングスケール後のシーケンス
(リスケール方法1)
f(x1,x2,・・・,xSL)={x'1,x'2,・・・,x'L | x'i=mean(x(i-1)S+1,・・・,iS)}
連続のS個毎の元データの平均値を取る。
(リスケール方法2)
f(x1,x2,・・・,xSL)={x'1,x'2,・・・x'L | x'i=x(i-1)S+j,0<j<S}
連続のS個のデータブロックについて、j個目を取る。
[学習モデル13]
学習モデル13は、学習機能によって教師データの音波信号及び音波種別から学習し、運用機能によって識別対象の音波信号から音波種別を判定する。
学習モデル13は、学習機能として、音波種別が正解イベントとして予め付与された教師対象の音波信号から、サンプリングデータ取得部11及び基準サンプリングデータ生成部12によって生成された、複数の基準サンプリングデータと音波種別とを対応付けて入力することによって学習する。
また、学習モデル13は、運用機能として、識別対象の音波信号から、サンプリングデータ取得部11及び基準サンプリングデータ生成部12によって生成された、複数の基準サンプリングデータを入力し、正解イベントの音波種別を出力する。
学習モデル13は、1つの音波信号に基づく複数の基準サンプリングデータを入力することによって、音波種別の総数がN個の要素を含む確率分布P=[p1,p2,・・・,pn]、n=Nを出力する。各要素piは、各音波種別(正解イベント)の確率を表す。ここで、最も高い確率の音波種別が、正解イベントとして出力される。
[識別対象音波信号受信部14]
識別対象音波信号受信部14は、端末2から識別対象の音波信号を受信する。受信した音波信号は、学習モデル13へ入力される。
[音波種別返信部15]
音波種別返信部15は、学習モデル13によって判定された音波種別を、端末2へ送信する。
<学習モデル13の処理>
図5は、本発明の学習モデルにおけるニューラルネットワークの一般的な機能構成図である。
本発明の学習モデル13は、ニューラルネットワーク(Neural Network)によって構成されている。
ニューラルネットワークとは、生体の脳における特性を計算機上のシミュレーションによって表現することを目指した数学モデルをいう。シナプスの結合によってネットワークを形成した人工ニューロン(ユニット)が、学習によってシナプスの結合強度を変化させ、問題解決能力を持つようなモデル全般をいう。
ニューラルネットワークとしては、様々な構成があるが、基本的には複数種類の層の重ね合わせ(又はグラフ構造)で表現される。ニューラルネットワークは、入力データと正解イベントとが対応付けられた教師データを入力する。そして、ニューラルネットワークは、入力データに対する最終的な出力結果が正解イベントと一致するように、モデルパラメータを学習する(タスクに応じて入力に対する出力を近似させる)。
図5によれば、順伝播型の畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)として、入力層(input layer)と、隠れ層(hidden layer)と、出力層(output layer)との3つの層から構成され、入力層から出力層へ向けて一方向に伝播する。隠れ層は、グラフ状に複数の層から構成することができる。各層は、複数のユニット(ニューロン)を持ち、前方層のユニットから後方層のユニットへつなぐ関数のパラメータを、「重み(weight)」と称す。学習とは、この関数のパラメータとして、適切な「重み」を算出することにある。
深層学習の畳み込みニューラルネットワークは、入力層と、畳み込み層(convolutional layer)と、プーリング層(pooling layer)と、全結合層(full-connected layer)と、出力層とから構成される。また、前方層における(全てのユニットではない)特定のユニットのみが、後方層のユニットへ結合されている。
学習とは、教師データの入力データに対する出力層からの出力データと、教師データの正解イベントとの誤差を用いて、各層の重みを最適に更新することをいう。
その誤差を算出するために、「損失関数」(loss function)が定義される。損失関数は、畳み込み層及び全結合層のパラメータに対して、正則化を施し、過学習を防ぐために用いられる。
誤差は、「誤差逆伝播法」によって、出力層側から入力層側へ向けて次々に伝播し、各層の重みを少しずつ更新していく。最終的に、誤差が小さくなるように、各層の重みを適切な値に調整する収束計算を実行する。これは、損失関数を予め設計した上で、勾配下降(Gradient Descent)によって損失関数を最小化していく。
学習モデル13の入力層には、基準サンプリングデータ生成部12から出力された基準サンプリングデータが入力される。また、その基準サンプリングデータの音波種別が、損失関数に正解イベントとして入力される。そして、学習モデル13は、その正解イベントに合うように誤差を最小化するべく、内部パラメータ(重み)を学習する。
即ち、教師データに基づいて重みを学習する際に、誤差逆伝播によって目的タスクの損失関数に基づく誤差を最小化する。
損失関数は、例えばバイナリ交差エントロピー(binary cross-entropy)によって誤差を計算する。バイナリ交差エントロピーとは、2つのパターンについて、一方の確率がpのとき、他方の確率は1−pとなる。即ち、特定の確率分布に従って生成されたものを直交化したものである。
図6は、本発明における学習モデルのフローチャートである。
畳み込みニューラルネットワークの学習は、2段階の交代学習となる。
(第1段階:学習モデルのモデルパラメータθの学習)
一度にN回まで畳み込みニューラルネットワークを繰り返すことなく、K(<N)回毎に実行する。
教師データのミニバッチとなる基準サンプリングデータに対して、SGD(Stochastic Gradient Descent)やAdam’s Optimizerなどの勾配下降方法によって、K回だけ畳み込みニューラルネットワークを繰り返し、損失関数を最小化にする。
(第2段階:Sの確率分布パラメータφの更新)
第1段階でK回の繰り返し実行毎に、Sの確率分布パラメータφを更新する。
以下の式に従って、各環境音イベントに対して個々の入力データスケールで計算した尤度(likelihood)の期待値(expectation)に対する勾配でφを更新する。
φnew=φold−∂φ
学習モデル13は、異なるサンプリングスケール(N回)について、基準サンプリングデータを畳み込みニューラルネットワークで所定回数(K回)の誤差逆伝播によって損失関数に基づく誤差を最小化して、確率分布パラメータφを生成することを繰り返す。
φ:Sの確率分布パラメータ、φ=[φ12,・・・,φn]、n=N
学習モデル13では、以下のように表される。
M:音波種別の総数
θ:学習モデルのモデルパラメータ
X:畳み込みネットワークに入力される音波信号の基準サンプリングデータ
π(X|θ):θを持つ畳み込みニューラルネットワークからの出力データ
要素M個のベクトル、各要素は各音波種別の判定確率
y:音波種別毎の確率、yi=y1,y2,・・・,y(0≦yi≦1)
P(S):Sの確率分布、P=[p1,p2,・・・,pn]、n=N
P(S=si)=exp(φi)/Σjexp(φj)
そして、損失関数Es[loss]は、M個のバイナリ交差エントロピーの和となる
loss:誤差、loss=[loss1,loss2,・・・,lossN
Es[loss]=Σi=1 N(pi×lossi)
∂Es[loss]/∂φi
(∂Es[loss]/∂P(S=si))・(∂P(S=si)/∂φi)
+Σj≠i(∂Es[loss]/∂P(S=sj))・(∂P(S=sj)/∂φi)
=lossi・P(S=si)・(1−P(S=si))
+Σj≠ilossj・(−P(S=si)・P(S=sj))
尚、一般的なバイナリ交差エントロピーは、以下のように表される。
L:サンプリングデータの長さ
K:バッチサイズ
L(X,y)=1/K Σi=1 Ki(Xi,yi)
i(Xi,yi)=−πyi(Xi)+log(Σj=1 Nexp(πj(Xi)))
これに対し、本発明のバイナリ交差エントロピーは、以下のように表される。
S:Sの期待値
L(X,y|S)=ES[1/K Σi=1 Ki(Xi,yi)]
i(Xi,yi)=−πyi(Xi)+log(Σj=1 Nexp(πj(Xi)))
図7は、本発明における学習モデルの第1の処理説明図である。
図7によれば、音波種別が付与された基準サンプリングデータが入力されている。これらは全て、同一の基準サンプリングスケールに基づくものである。
このとき、音波種別毎の誤差loss1〜lossNと、音波種別毎の初期値の確率p1〜pNとから、以下のよう損失関数Es[loss]が算出される。
loss1=0.69、loss2=0.58、loss3=0.50、loss4=0.23、loss5=0.48
P(S):p1=0.2、 p2=0.2、 p3=0.2、 p4=0.2、 p5=0.2
Es[loss]=[0.2×0.69、 0.2×0.58、 0.2×0.50、 0.2×0.23、 0.2×0.48]
次に、Sの確率分布パラメータφ=[φ12,・・・,φN]の勾配を算出する。
∂Es[loss]/∂φ1= 0.69×0.2×(1-0.2)−0.58×0.2×0.2−0.50×0.2×0.2
−0.23×0.2×0.2−0.48×0.2×0.2=0.0388
∂Es[loss]/∂φ2= 0.58×0.2×(1-0.2)−0.69×0.2×0.2−0.50×0.2×0.2
−0.23×0.2×0.2−0.48×0.2×0.2=0.0168
∂Es[loss]/∂φ3= 0.50×0.2×(1-0.2)−0.69×0.2×0.2−0.58×0.2×0.2
−0.23×0.2×0.2−0.48×0.2×0.2=0.0008
∂Es[loss]/∂φ4= 0.23×0.2×(1-0.2)−0.69×0.2×0.2−0.58×0.2×0.2
−0.50×0.2×0.2−0.48×0.2×0.2=-0.0532
∂Es[loss]/∂φ5= 0.48×0.2×(1-0.2)−0.69×0.2×0.2−0.58×0.2×0.2
−0.50×0.2×0.2−0.23×0.2×0.2=-0.0032
図8は、本発明における学習モデルの第2の処理説明図である。
次に、尤度の期待値となるSの確率分布パラメータφnewを、以下のように算出する。
φnew=φold−∂φ
φ1=1.0−0.0388=0.9612
φ2=1.0−0.0168=0.9832
φ3=1.0−0.0008=0.9992
φ4=1.0−(-0.0532)=1.0532
φ5=1.0−(-0.0032)=1.0032
そして、音波種別毎の確率P(S=si)を以下のように算出する。
P(S=si)=exp(φi)/Σjexp(φj)
Σjexp(φj)=exp(0.9612)+exp(0.9832)+exp(0.9992)+exp(1.0532)
+exp(1.0032)
=13.5977
P(S=s1)=exp(0.9612)/13.5977=0.1923
P(S=s2)=exp(0.9832)/13.5977=0.1966
P(S=s3)=exp(0.9992)/13.5977=0.1997
P(S=s4)=exp(1.0532)/13.5977=0.2108★
P(S=s5)=exp(1.0032)/13.5977=0.2005
これによれば、S=s4の音波種別の確率が最大となっている。そのために、入力された音波信号の基準サンプリングデータに対する音波種別=4と判定される。
図9は、本発明における音波種別判定サーバと端末との間のシーケンス図である。
(S11)音波種別判定サーバ1は、学習段階として、教師データの音波信号及び音波種別から、前述したサンプリングデータ取得部11と同様の処理を実行する。
(S12)音波種別判定サーバ1は、学習段階として、教師データのサンプリングデータから、前述した基準サンプリングデータ生成部12と同様の処理を実行する。
(S13)音波種別判定サーバ1は、学習段階として、教師データの基準サンプリングデータから、学習モデル13で学習する。
(S14)音波種別判定サーバ1は、学習モデルの内部パラメータφを、端末2へ送信する。
端末2は、音波種別判定サーバ1から受信した内部パラメータφを、学習モデルに組み込む(リロードする)。
(S21)端末2は、マイクで収音した周辺の環境音に対して、前述したサンプリングデータ取得部11と同様の処理を実行する。
(S22)端末2は、サンプリングデータに対して、前述した基準サンプリングデータ生成部12と同様の処理を実行する。
(S23)端末2は、運用段階として、基準サンプリングデータを学習モデル13へ入力し、音波種別を取得する。
(S24)そして、端末2にインストールされたアプリケーションは、音波種別に応じて制御される。
例えば音波種別「料理音」と判定された場合、端末2のアプリケーションは、料理中のユーザに聞かせたい特売情報やレシピ情報をユーザに明示するものであってもよい。
例えば音波種別「(赤ちゃんの)泣き声」と判定された場合、端末2のアプリケーションは、新生児に関する商品情報やクーポン情報をユーザに明示するものであってもよい。
端末2は、ユーザの許諾がある場合にのみ、その音波信号及び音波種別を教師データとして、音波種別判定サーバ1へ送信するものであってもよい。これによって、音波種別判定サーバ1の学習モデル13を更に学習させることができる。
以上、詳細に説明したように、本発明のプログラム、システム、装置及び方法によれば、確率モデルのパラメータを予め設定することなく、且つ、特徴量を抽出する必要もなく、識別対象の音波信号から音波種別を判定することができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 音波種別判定サーバ
10 音波信号蓄積部
11 サンプリングデータ取得部
12 基準サンプリングデータ生成部
13 学習モデル
14 識別対象音波信号受信部
15 音波種別返信部
2 端末

Claims (8)

  1. 識別対象の音波信号を入力し、音波種別を出力する装置に搭載されたコンピュータを機能させるプログラムであって、
    音波信号から、異なるサンプリングスケールの複数のサンプリングデータを取得するサンプリングデータ取得手段と、
    異なるサンプリングスケールの各サンプリングデータを、基準サンプリングスケールにリスケールした基準サンプリングデータを生成する基準サンプリングデータ生成手段と、
    学習モデルと
    してコンピュータを機能させ、
    前記学習モデルは、
    学習機能として、音波種別が正解イベントとして予め付与された教師対象の音波信号から、前記サンプリングデータ取得手段及び前記基準サンプリングデータ生成手段によって生成された、複数の基準サンプリングデータと音波種別とを対応付けて入力することによって学習し、
    運用機能として、識別対象の音波信号から、前記サンプリングデータ取得手段及び前記基準サンプリングデータ生成手段によって生成された、複数の基準サンプリングデータを入力し、正解イベントの音波種別を出力する
    ようにコンピュータを機能させることを特徴とするプログラム。
  2. 前記サンプリングデータ取得手段は、異なるサンプリングスケールのスライディングウィンドウを時間経過に応じてシフトさせることによって、異なるサンプリングスケールの複数のサンプリングデータを収集し、サンプリングスケール毎にランダムにサンプリングデータを選択する
    ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。
  3. 前記基準サンプリングデータ生成手段は、最短のサンプリングスケール以下の所定サンプリングスケールに合わせて、全てのサンプリングデータをリスケールする
    ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。
  4. 前記学習モデルは、畳み込みニューラルネットワークであり、
    異なるサンプリングスケールSについて、前記基準サンプリングデータを前記畳み込みニューラルネットワークで所定回数の誤差逆伝播によって損失関数に基づく誤差を最小化して、確率分布パラメータφを生成することを繰り返す
    N:異なるサンプリングスケールの数
    S:異なるサンプリングスケール、S=[s1,s2,・・・,sn]、n=N
    φ:Sの確率分布パラメータ、 φ=[φ1,φ2,・・・,φn]、n=N
    ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。
  5. M:音波種別の総数
    θ:学習モデルのモデルパラメータ
    X:音波信号の基準サンプリングデータ
    π(X|θ):θを持つ畳み込みニューラルネットワークからの出力データ
    要素M個のベクトル、各要素は各音波種別の判定確率
    y:音波種別毎の確率、yi=y1,y2,・・・,y(0≦yi≦1)
    P(S):Sの確率分布、 P=[p1,p2,・・・,pn]、n=N
    P(S=si)=exp(φi)/Σjexp(φj)
    によって表され、
    損失関数Es[loss]は、M個のバイナリ交差エントロピーの和となる
    loss:誤差、loss=[loss1,loss2,・・・,lossN
    Es[loss]=Σi=1 N(pi×lossi)
    ∂Es[loss]/∂φi
    (∂Es[loss]/∂P(S=si))・(∂P(S=si)/∂φi)
    +Σj≠i(∂Es[loss]/∂P(S=sj))・(∂P(S=sj)/∂φi)
    =lossi・P(S=si)・(1−P(S=si))
    +Σj≠ilossj・(−P(S=si)・P(S=sj))
    ようにコンピュータを機能させることを特徴とする請求項4に記載のプログラム。
  6. 請求項1から5のいずれか1項に記載のプログラムを実行するサーバ及び端末が、ネットワークを介して通信するシステムであって、
    前記サーバが、前記学習モデルの内部パラメータを前記端末へ送信し、
    前記端末が、自らの前記学習モデルに前記内部パラメータを組み込み、
    前記端末が、マイクで収音した周辺の環境音に対して、前記サンプリングデータ取得手段及び前記基準サンプリングデータ生成手段によって基準サンプリングデータを生成し、当該基準サンプリングデータを前記学習モデルに入力することによって音波種別を取得する
    ことを特徴とするシステム。
  7. 識別対象の音波信号を入力し、音波種別を出力する音波種別判定装置であって、
    音波信号から、異なるサンプリングスケールの複数のサンプリングデータを取得するサンプリングデータ取得手段と、
    異なるサンプリングスケールの各サンプリングデータを、基準サンプリングスケールにリスケールした基準サンプリングデータを生成する基準サンプリングデータ生成手段と、
    学習モデルと
    を有し、
    前記学習モデルは、
    学習機能として、音波種別が正解イベントとして予め付与された教師対象の音波信号から、前記サンプリングデータ取得手段及び前記基準サンプリングデータ生成手段によって生成された、複数の基準サンプリングデータと音波種別とを対応付けて入力することによって学習し、
    運用機能として、識別対象の音波信号から、前記サンプリングデータ取得手段及び前記基準サンプリングデータ生成手段によって生成された、複数の基準サンプリングデータを入力し、正解イベントの音波種別を出力する
    ことを特徴とする音波種別判定装置。
  8. 識別対象の音波信号を入力し、音波種別を出力する装置の音波種別判定方法であって、
    学習段階として、
    音波信号から、異なるサンプリングスケールの複数のサンプリングデータを取得する第11のステップと、
    異なるサンプリングスケールの各サンプリングデータを、基準サンプリングスケールにリスケールした基準サンプリングデータを生成する第12のステップと、
    音波種別が正解イベントとして予め付与された教師対象の音波信号から、複数の基準サンプリングデータと音波種別とを対応付けて入力することによって学習モデルとして学習する第13のステップと
    を実行し、
    運用段階として、
    識別対象の音波信号から、異なるサンプリングスケールの複数のサンプリングデータを取得する第21のステップと、
    異なるサンプリングスケールの各サンプリングデータを、基準サンプリングスケールにリスケールした基準サンプリングデータを生成する第22のステップと、
    前記学習モデルに、複数の基準サンプリングデータを入力し、正解イベントの音波種別を取得する第23のステップと
    を実行することを特徴とする装置の音波種別判定方法。
JP2017172695A 2017-09-08 2017-09-08 音波信号から音波種別を判定するプログラム、システム、装置及び方法 Expired - Fee Related JP6749874B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017172695A JP6749874B2 (ja) 2017-09-08 2017-09-08 音波信号から音波種別を判定するプログラム、システム、装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017172695A JP6749874B2 (ja) 2017-09-08 2017-09-08 音波信号から音波種別を判定するプログラム、システム、装置及び方法

Publications (2)

Publication Number Publication Date
JP2019049601A JP2019049601A (ja) 2019-03-28
JP6749874B2 true JP6749874B2 (ja) 2020-09-02

Family

ID=65906331

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017172695A Expired - Fee Related JP6749874B2 (ja) 2017-09-08 2017-09-08 音波信号から音波種別を判定するプログラム、システム、装置及び方法

Country Status (1)

Country Link
JP (1) JP6749874B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020054822A1 (ja) * 2018-09-13 2020-03-19 LiLz株式会社 音解析装置及びその処理方法、プログラム
CN111274910B (zh) * 2020-01-16 2024-01-30 腾讯科技(深圳)有限公司 场景互动方法、装置及电子设备
WO2021176770A1 (ja) * 2020-03-06 2021-09-10 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 行動識別方法、行動識別装置及び行動識別プログラム
CN111445926B (zh) * 2020-04-01 2023-01-03 杭州叙简科技股份有限公司 一种基于声音的农村道路交通事故警情识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3248522B2 (ja) * 1999-07-21 2002-01-21 住友電気工業株式会社 音源種別識別装置
JP4219539B2 (ja) * 2000-08-11 2009-02-04 日本放送協会 音響分類装置
FR2842014B1 (fr) * 2002-07-08 2006-05-05 Lyon Ecole Centrale Procede et appareil pour affecter une classe sonore a un signal sonore
JP5515317B2 (ja) * 2009-02-20 2014-06-11 ヤマハ株式会社 楽曲処理装置、およびプログラム

Also Published As

Publication number Publication date
JP2019049601A (ja) 2019-03-28

Similar Documents

Publication Publication Date Title
JP6749874B2 (ja) 音波信号から音波種別を判定するプログラム、システム、装置及び方法
US10643602B2 (en) Adversarial teacher-student learning for unsupervised domain adaptation
JP6712642B2 (ja) モデル学習装置、その方法、及びプログラム
EP3046053B1 (en) Method and apparatus for training language model
US11264044B2 (en) Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program
EP3032533B1 (en) Method and apparatus for training language model and recognizing speech
JP6350148B2 (ja) 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
CN105139864B (zh) 语音识别方法和装置
JP5982297B2 (ja) 音声認識装置、音響モデル学習装置、その方法及びプログラム
US10580432B2 (en) Speech recognition using connectionist temporal classification
JP2006285899A (ja) 学習装置および学習方法、生成装置および生成方法、並びにプログラム
JP2017058877A (ja) 学習装置、音声検出装置、学習方法およびプログラム
Lee et al. Ensemble of jointly trained deep neural network-based acoustic models for reverberant speech recognition
JPWO2018062265A1 (ja) 音響モデル学習装置、その方法、及びプログラム
JP6453681B2 (ja) 演算装置、演算方法およびプログラム
Bacchiani et al. Asynchronous, online, GMM-free training of a context dependent acoustic model for speech recognition
Tang et al. Knowledge transfer pre-training
Achkar et al. Voice identity finder using the back propagation algorithm of an artificial neural network
Boulanger-Lewandowski et al. Phone sequence modeling with recurrent neural networks
Halageri et al. Speech recognition using deep learning
Seurin et al. A Machine of Few Words--Interactive Speaker Recognition with Reinforcement Learning
Oruh et al. Deep Learning‐Based Classification of Spoken English Digits
Chien et al. Stochastic curiosity maximizing exploration
Yoon ANN-based collaborative sensor calibration and GA-approach to sensor mutation management
CN112951270A (zh) 语音流利度检测的方法、装置和电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190801

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200812

R150 Certificate of patent or registration of utility model

Ref document number: 6749874

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees