JP7286894B2

JP7286894B2 - 信号変換システム、機械学習システムおよび信号変換プログラム

Info

Publication number: JP7286894B2
Application number: JP2020571028A
Authority: JP
Inventors: 博光西▲崎▼; 直輝澤田
Original assignee: University of Yamanashi NUC
Current assignee: University of Yamanashi NUC
Priority date: 2019-02-07
Filing date: 2019-12-17
Publication date: 2023-06-06
Anticipated expiration: 2039-12-17
Also published as: JPWO2020162048A1; WO2020162048A1

Description

本発明は、信号変換システム、機械学習システムおよび信号変換プログラムに関する。

従来、各種の分類や認識等に機械学習が利用されている。例えば、特許文献１には、入力情報を示す数値を２進数のビット系列に変換する技術が開示されている。具体的には、単語を示すＩＤの数値を２進数のビット系列に変換する構成が開示されている。

特許第６２５９９４６号公報

時間変化する信号に関して分類や認識、あるいは未来の信号変化の予測を精度良く実行するためには、当該信号の時間変化の特徴を詳細に捉えることが可能なフォーマットで信号を表現する必要があるが、従来、このような表現は知られていなかった。例えば、時間変化する波形信号の振幅をサンプリングして１０進数の値で表現した場合、微細な振幅の変化や大局的な振幅の時間変化を直接的に捉えることは困難である。フーリエ変換等によって周波数空間の情報を得ようとしても、時間空間で短期間の信号を利用すると周波数空間の情報の精度が低下する。時間空間で長期間の信号を利用すると周波数空間の情報の精度が向上するが、短期間の信号の分類や認識に不適切な信号となってしまう。
本発明は、前記課題にかんがみてなされたもので、信号の時間変化の特徴を捉えやすいデータを生成する技術を提供することを目的とする。

上述の目的を達成するため、信号変換システムは、時間変化する信号であって、時間軸上の複数の位置における値のそれぞれが１個の成分で表現された信号を取得する信号取得部と、複数の位置毎の値のそれぞれを、複数の成分の値で表現した多次元量に変換する変換部と、多次元量を、連続する複数の位置における多次元量の同一の成分の値を少なくとも含む、Ｌ個（Ｌは１以上、多次元量の成分の数以下の整数）の時系列データとして出力する出力部と、Ｌ個の時系列データを入力する機械学習モデルに基づいて、信号の特徴に関する情報を出力する特徴出力部と、を備える。

すなわち、信号変換システムにおいては、時間軸上の１箇所の位置の値が１個の成分で表現された信号を、変換部が、複数の成分の値で表現した多次元量に変換する。この結果、元の信号よりも多様な特徴を捉えることが可能なフォーマットで信号を表現することができる。そして、出力部においては、多次元量を、時間軸上で連続する複数の位置における多次元量の同一の成分の値を少なくとも含むＬ個の時系列データとして出力する。さらに、当該Ｌ個の時系列データを機械学習モデルに適用することで信号の特徴に関する情報を出力する。すなわち、時系列データにおいては、多次元量の同一の成分の値の時間変化を示しており、成分毎に信号の時間変化の特徴を捉えることが可能である。このような構成によれば、信号の時間変化の特徴を捉えやすいデータを生成することが可能である。

一実施形態のシステム構成を示す図である。データの変換および出力を説明する図である。学習対象のモデルを示す図である。機械学習処理のフローチャートである。特徴出力処理のフローチャートである。時系列データの例を示す図である。他の実施形態における学習対象のモデルを示す図である。

ここでは、下記の順序に従って本発明の実施の形態について説明する。
（１）システムの構成：
（１－１）機械学習処理：
（１－２）特徴出力処理：
（２）他の実施形態：

（１）システムの構成：
図１は、本発明の一実施形態である信号変換システム、特徴出力システム、機械学習システムとして機能するコンピュータ１０の概略構成を示す図である。コンピュータ１０は、マイクロホン１０ａ、Ａ／Ｄ変換部１０ｂ、制御部２０、記憶媒体３０、表示部４０を備えている。制御部２０は、図示しないＣＰＵ，ＲＡＭ，ＲＯＭを備えており、記憶媒体３０等に記憶された各種プログラムを実行することができる。マイクロホン１０ａ、Ａ／Ｄ変換部１０ｂ、制御部２０、記憶媒体３０、表示部４０は、一体的なコンピュータで構成されていても良いし、少なくとも一部が別の装置であり、ＵＳＢケーブル等によって接続される構成であっても良い。コンピュータ１０の態様は種々の態様であって良く、例えば、据置型の汎用コンピュータであっても良いし、スマートフォンやタブレット端末などの可搬型のコンピュータであっても良い。

マイクロホン１０ａは、周囲の音を集音し、音圧の時間変化を示すアナログ音波信号を出力する。Ａ／Ｄ変換部１０ｂは、アナログ信号をデジタル信号に変換する装置であり、制御部２０に指示されたサンプリング周波数でアナログ音波信号をサンプリングしてデジタル音波信号として出力する。本実施形態において、デジタル音波信号は、時間軸上の複数の位置毎の音圧の振幅値で構成され、当該振幅値は１０進数で表現されている。従って、当該デジタル音波信号は、時間軸上の複数の位置における値のそれぞれが１個の成分で表現された信号である。

記憶媒体３０は、各種の情報を記憶可能な媒体であり、本実施形態においては、機械学習のための教師データ３０ａが記憶媒体３０に記憶される。また、機械学習によって機械学習済モデルが生成されると、当該モデルを示す情報が機械学習済モデル３０ｂとして記憶媒体３０に記憶される。表示部４０は、各種の情報を表示するディスプレイである。

本実施形態において、制御部２０は、信号変換プログラムを実行することができる。信号変換プログラムは、時間変化する信号を変換して出力する機能を制御部２０に実行させるプログラムである。また、本実施形態において信号変換プログラムは、変換された信号に基づいて機械学習を行う機能と、変換された信号に基づいて音の特徴を示す出力を行う機能とを有している。

信号変換プログラムが実行されると、制御部２０は、信号取得部２０ａ，変換部２０ｂ，出力部２０ｃ，機械学習部２０ｄ，特徴出力部２０ｅとして機能する。本実施形態においては、音源の種類が音源の特徴として出力される。すなわち、制御部２０は、音源の種類を分類することができる。分類の数は任意であって良いが、ここでは、音源が音楽であるか否かを分類する例を説明する。

本実施形態においては、機械学習を利用して音源の種類を分類する。すなわち、分類を行う前に予め機械学習済モデル３０ｂが生成され、分類対象の音を示すデジタル信号を機械学習済モデル３０ｂに入力することによって分類結果を出力する。このような分類を正確に行うためには、音の詳細な特徴を捉えられるデジタル信号を機械学習済モデル３０ｂへの入力値とすることが好ましい。

このため、本実施形態において制御部２０は、音を示すデジタル音波信号を多次元量に変換し、音の詳細な特徴を捉えられる時系列データとして出力する機能を有している。時系列データの例としては、図２の点線で囲われたデータ列が挙げられる。詳細については後述する。本実施形態においては、この時系列データを用いて機械学習し、この時系列データを用いて分類を行うことによって、高精度に音の分類を実行するように構成されている。すなわち、本実施形態においては、機械学習対象のモデルを学習する際の入力データとして時系列データが利用され、また、機械学習済モデル３０ｂに基づいて分類を行うための入力データとしても時系列データが利用される。

本実施形態において、当該時系列データの生成は、制御部２０が、信号取得部２０ａ、変換部２０ｂ、出力部２０ｃの機能を実行することによって実現される。また、時系列データを利用した機械学習は、制御部２０が、機械学習部２０ｄの機能を実行することによって実現される。さらに、時系列データを利用した音源の種類の分類は、制御部２０が、特徴出力部２０ｅの機能を実行することによって実現される。以下においては、機械学習と、音源の種類の分類（特徴出力）を順に説明する。

（１－１）機械学習処理：
本実施形態においては、機械学習を行うために予め教師データ３０ａが用意される。教師データ３０ａは、音波信号と当該音波信号が示す音の音源の種類とを対応づけた情報である。例えば、音楽を示す音波信号に音楽であることが対応づけられた１組のデータや、音楽以外の音（人の発話等）を示す音波信号に音楽ではないことが対応づけられた１組のデータが教師データ３０ａとなり得る。むろん、教師データ３０ａとしては、機械学習を行うために充分な量のデータが予め用意される。

教師データ３０ａは、種々の手法で用意されて良く、例えば、複数のクライアントで取得されたデータがサーバ等で収集されるなどして用意されて良い。本実施形態においては、コンピュータ１０で教師データ３０ａを生成することも可能である。すなわち、コンピュータ１０が備えるマイクロホン１０ａで音が集音され、Ａ／Ｄ変換部１０ｂで変換されたデジタル音波信号に対して音源の種類を示す情報が対応づけられて記憶媒体３０に教師データ３０ａとして記憶されても良い。いずれにしても、教師データ３０ａにおいては、時間軸上の複数の位置の音圧を示す値が１０進数で表現されている。

図２は、データの変換を説明するための図である。図２においては、音波信号Ｓｓの一部がグラフ上に示されている。マイクロホン１０ａによって音波信号Ｓｓが集音されると、Ａ／Ｄ変換部１０ｂは、制御部２０に指示されたサンプリング周波数で音波信号をデジタル音波信号に変換する。図２において音波信号Ｓｓに重ねられた黒丸はサンプリングされた振幅を示しており、その下部にサンプリング値が示されている。例えば、図２においては、最初のサンプリング値は１０進数で０，次のサンプリング値は１０進数で１２である。教師データ３０ａにおいては、このようにして得られた時間軸上の複数の位置における値のセットに対して、音源の種類を示す情報（ラベル）が対応づけられている。

本実施形態において、機械学習処理は、ニューラルネットワークを形成する訓練モデルを最適化する処理であり、本実施形態においては、図４に示すフローチャートに従って実行される。ここで、モデルとは、分類対象のデータと分類結果のデータとの対応関係を導出する式を示す情報であり、本実施形態において分類結果は、音楽であるか否かである。分類対象は音波信号から変換、出力された時系列データである。すなわち、本実施形態においては、機械学習のモデルに対して、Ａ／Ｄ変換部１０ｂされたデジタル音波信号（１０進数表現）を直接入力するのではなく、デジタル音波信号を変換し、出力した時系列データを入力する。

このように時系列データを利用した処理を行うために、制御部２０は、信号取得部２０ａ、変換部２０ｂ、出力部２０ｃを備えている。信号取得部２０ａは、時間変化する信号であって、時間軸上の複数の位置における値のそれぞれが１個の成分で表現された信号を取得する機能を制御部２０に実行させる。本実施形態において当該時間変化する信号は、音波信号を既定のサンプリング周波数でサンプリングして１０進数の値で表現した信号であり、機械学習の際には教師データ３０ａが当該信号に相当する。すなわち、機械学習処理が開始されると、制御部２０は、記憶媒体３０を参照し、各教師データ３０ａから音波信号を取得する（ステップＳ１００）。この結果、図２に示すように、音波信号の複数の時間軸上の位置における振幅を１０進数で表現したデータセットが複数個得られる。

変換部２０ｂは、複数の位置毎の値のそれぞれを、複数の成分の値で表現した多次元量に変換する機能を制御部２０に実行させるプログラムモジュールである。すなわち、１０進数による振幅の表現は、時間軸上のある位置における振幅の大きさを１個の成分で示しているため、制御部２０は、より多数の成分によって音波信号を表現するため、音波信号を多次元量に変換する（ステップＳ１０５）。

多次元量への変換では、１個の成分での表現を複数個の成分での表現に変換することができればよく、本実施形態において制御部２０は、時間軸上の各位置における振幅の大きさを２進数の値に変換する。すなわち、変換後の２進数の値の各桁が多次元量の成分となる。図２においては、音圧の振幅の大きさを示す値の下方に変換後の２進数の値（８ビット）を示している。この例では、上方から下方に向けて下位の桁から上位の桁が並ぶように表示してある。例えば、最初のサンプリング値である１０進数の０は２進数で００００００００、次のサンプリング値である１０進数の１２は２進数で００００１１００である。なお、実際のデジタル音波信号における時間長は、図２に示された時間長より長く、例えば、１０ｋＨｚでサンプリングされた１秒分のデータ（１００００個のデータ）等でデジタル音波信号が構成され、当該デジタル音波信号が変換対象となる。

出力部２０ｃは、多次元量を、連続する複数の位置における多次元量の同一の成分の値を少なくとも含む時系列データとして出力する機能を制御部２０に実行させるプログラムモジュールである。本実施形態においては、ステップＳ１０５で変換された２進数の値の桁を成分と見なしており、制御部２０は、出力部２０ｃの機能により、桁毎の値を抽出することで時系列データを出力する（ステップＳ１１０）。

例えば、図２に示す例においては、２進数で表現された多次元量の最下位桁を一点鎖線で囲んで示している。制御部２０は、当該最下位桁において時間軸上で異なる位置に存在する各値を、時間軸上の順序に従って並べたデータを、最下位桁成分の時系列データＤ₁として生成する。このように、本実施形態において時系列データは、同一の成分の値の時間変化を示す１次元データである。１次元データは、多次元量の各成分について実施されてよい。すなわち、２進数の上位桁について時系列データが抽出された場合、当該時系列データはデジタル音波信号の振幅の大きい変化を示している。一方、２進数の下位桁について時系列データが抽出された場合、当該時系列データはデジタル音波信号の振幅の細かい変化を示している。

従って、機械学習の目的や分類対象に応じて、時系列データとして抽出すべき成分の数は、１以上、多次元量の成分の数以下の整数の中から選択されてよい。本実施形態においては、８桁の２進数の全成分（全桁）について時系列データが出力される。このため、図２においては、時系列データＤ₁以外にも、時系列データＤ₂～Ｄ₈が出力されることが示されている。

本実施形態においては、以上のようにして出力された時系列データに基づいて音の分類を行う。すなわち、時系列データを入力するモデルを機械学習によって最適化する機械学習処理を行う。機械学習は、種々の手法で行われて良いが、本実施形態においては、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）と再帰ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）とを含むニューラルネットワークによって機械学習が行われる例を説明する。

図３は、図２に示す例に適用可能なモデルの一例を示す図である。図３においては、下部から上方に向けて演算が進行するようにモデルが記載されている。図３に示す例において、初期の３層はＣＮＮによって構成されている。また、図３に示す例において、ＣＮＮによる出力結果はＲＮＮに入力され、ＲＮＮによる出力は全結合を経て出力層に至る。

図３の最下部には入力データとなる８チャンネル分の時系列データＤ₁～Ｄ₈が例示されている。ここでは、時間軸上の位置が１００００個、すなわち、１０ｋＨｚで１００００回サンプリングされることによって得られたデジタル音波信号が変換され、時系列データとして出力された例を示している。本実施形態においては、時系列データＤ₁～Ｄ₈の時間方向の情報を畳み込む演算が行われる。

すなわち、時系列データＤ₁～Ｄ₈のそれぞれは１次元の時系列データであり、合計で８チャンネルである。そこで、本実施形態においては、２次元（時間軸方向とチャンネル方向）のフィルタが用意され、畳み込み演算が行われる。図３に示す例において、フィルタは２次元であり、３０×８個の値（時間軸上で連続する３０個の位置の値が８チャンネル分存在する）を畳み込むフィルタである。図３においては、当該フィルタの大きさが１×３０×８として示されている。むろん、フィルタの大きさは３０に限定されず、例えば５０、４０、２０または１０でもよいし、これら例示した数値の何れか２つの間の範囲であってもよい。フィルタの大きさが短い方が信号を取得後の処理を早く始めることができる。また図３では入力データを８チャンネルとしているがこれも８に限定されない。フィルタの数も限定されないが、図３に示す例においてＣＮＮの最初の層でのフィルタ数は１２８個である。図３においては、これらのフィルタがＦ_1-1～Ｆ_1-128として示されている。本実施形態においては、このように時間軸方向の大きさが短いフィルタを用いることができるので、従来技術に比べて時系列データの微細な変化を捉えることができる。従来技術では、時間変化する波形信号の振幅をサンプリングして１０進数の値で表現した場合、時間軸方向の大きさが短いフィルタでは微細な振幅の変化や大局的な振幅の時間変化を直接的に捉えることは困難である。フーリエ変換等では、時間空間で短期間の信号を利用すると周波数空間の情報の精度が低下してしまう。すなわち信号を取得してから特徴を出力するまでにより時間が必要となる。

各フィルタは、既定のパディングやストライドで時系列データＤ₁～Ｄ₈のそれぞれに適用される。例えば、ストライド１０で適宜パディングを行えば１００００個のデータは１０００個になる。これらを足し合わせることによって１個のフィルタによる出力結果が得られる。従って、フィルタ数が１２８個の場合、１０００個のデータを有する１次元のデータが１２８個生成される。図３においては、当該１×１０００×１２８のデータが長方形によって示されている。むろん、ストライドやパディング等のハイパーパラメータは一例であり、出力されるデータの数（１０００個等）等も一例である（他の層も同様）。

いずれにしてもＣＮＮの最初の層による演算によって１×１０００×１２８のデータが出力されると、このデータは次のＣＮＮの層への入力データとなる。図３においては、第２層で１×３０×１２８の大きさのフィルタが２５６個用意され、さらに第３層で１×３０×２５６の大きさのフィルタが５１２個用意される例が示されている。ストライドやパディングは最初の層と同様である。この例であれば、以上の３層の演算により、１×１０×５１２個のデータＤ_CNNが出力される。

当該データＤ_CNNは、ＲＮＮへの入力になる。図３に示すＲＮＮを構成する要素はＬＳＴＭ（Long Short-Term Memory）であるが、要素はＧＲＵ（Gated Recurrent Unit）であってもよいし、双方向のモデルが採用されてもよく、種々の構成を採用可能である。むろん、ハイパーパラメータは種々のパラメータとして良い。

いずれにしても、図３に示す例においては、ＲＮＮに入力されるデータＤ_CNNが１×１０×５１２個のデータであるため、この例ではＬＳＴＭに対して５１２個のデータを１０回入力する演算が行われる。図３においては、最初に入力される５１２個の入力値をＸ_1-1～Ｘ_1-512、次に入力される５１２個の入力値をＸ_2-1～Ｘ_2-512などのようにして示している。

さらに、図３に示すＬＳＴＭではＬＳＴＭからの出力が１０２４個である例が想定されており、最後のＬＳＴＭから出力されるデータＹ₁～Ｙ₁₀₂₄が次の層に入力される。すなわち、データＹ₁～Ｙ₁₀₂₄が全結合層に入力され、全結合層の次の層で音楽であるか否かの分類結果を出力する。

本実施形態において制御部２０は、機械学習部２０ｄの機能により、以上のようなモデルに基づいて機械学習処理を実行する。すなわち、制御部２０は、機械学習部２０ｄの機能により、時系列データを入力し、信号の音源の特徴に関する情報を出力する機械学習済モデルを機械学習する。具体的には、制御部２０は、機械学習部２０ｄの機能により、訓練モデルを取得する（ステップＳ１１５）。すなわち、図３に示すようなニューラルネットワークの構造に対応した各種の情報（モデルを示すフィルタや活性化関数等の情報）が予め定義されており、制御部２０は、当該情報を取得することで訓練モデルを取得する。

次に、制御部２０は、機械学習部２０ｄの機能により、教師データ３０ａのラベルを取得する（ステップＳ１２０）。すなわち、制御部２０は、ステップＳ１００で取得した各音波信号の音源の種類を示すラベルを取得する。例えば、図３に示す例であれば、ラベルは出力層のノードの出力値が１，０のいずれであるかを示しており、ステップＳ１００で取得された音波信号の音源が音楽である場合に１，音楽以外の音である場合に０が取得される。

次に、制御部２０は、機械学習部２０ｄの機能により、テストデータを取得する（ステップＳ１２５）。本実施形態において制御部２０は、ステップＳ１１０で取得されたデータの一部を抽出し、ステップＳ１２０で取得されたラベルを対応づけてテストデータとする。テストデータは、学習の汎化が行われたか否かを確認するためのデータであり、機械学習には使用されない。

次に、制御部２０は、機械学習部２０ｄの機能により、初期値を決定する（ステップＳ１３０）。すなわち、制御部２０は、ステップＳ１１５で取得した訓練モデルのうち、学習対象となる可変のパラメーター（フィルタの重みやバイアス等）に対して初期値を与える。初期値は、種々の手法で決定されて良い。むろん、学習の過程でパラメータが最適化されるように初期値が調整されても良いし、各種のデータベース等から学習済のパラメータが取得されて利用されても良い。

次に、制御部２０は、機械学習部２０ｄの機能により、学習を行う（ステップＳ１３５）。すなわち、制御部２０は、ステップＳ１１５で取得した訓練モデルにステップＳ１１０で出力された時系列データを入力し、分類結果を示す情報を出力する。分類結果を示す情報が出力されると、制御部２０は、当該出力と、ステップＳ１２０で取得されたラベルとの誤差を示す損失関数によって誤差を特定する。損失関数が得られたら、制御部２０は、既定の最適化アルゴリズム、例えば、確率的勾配降下法等によってパラメータを更新する。すなわち、制御部２０は、損失関数のパラメータによる微分に基づいてパラメータを更新する処理を既定回数繰り返す。

以上のようにして、既定回数のパラメータの更新が行われると、制御部２０は、訓練モデルの汎化が完了したか否かを判定する（ステップＳ１４０）。すなわち、制御部２０は、ステップＳ１２５で取得したテストデータを訓練モデルに入力して音波信号の分類結果を出力する。そして、制御部２０は、出力された分類結果と、テストデータに対応づけられた分類結果とが一致している数（分類結果とラベルとの誤差が既定値以下である数）を取得し、サンプル数で除することで分類精度を取得する。本実施形態において、制御部２０は、分類精度が閾値以上である場合に汎化が完了したと判定する。

なお、汎化性能の評価に加え、ハイパーパラメータの妥当性の検証が行われてもよい。すなわち、学習対象となる可変のパラメータ以外の可変量であるハイパーパラメータ、例えば、フィルタサイズやノードの数等がチューニングされる構成において、制御部２０は、検証データに基づいてハイパーパラメータの妥当性を検証しても良い。検証データは、ステップＳ１２５と同様の処理により、検証データを予め抽出し、訓練に用いないデータとして確保しておくことで取得すれば良い。

ステップＳ１４０において、訓練モデルの汎化が完了したと判定されない場合、制御部２０は、ステップＳ１３５を繰り返す。すなわち、さらに学習対象となる可変のパラメータを更新する処理を行う。一方、ステップＳ１４０において、訓練モデルの汎化が完了したと判定された場合、制御部２０は、機械学習済モデルを記録する（ステップＳ１４５）。すなわち、制御部２０は、訓練モデルを機械学習済モデル３０ｂとして記憶媒体３０に記録する。

（１－２）特徴出力処理：
次に、音源の種類を分類する特徴出力処理を図５に示すフローチャートに基づいて説明する。コンピュータ１０の周辺で分類対象の音源から音が出力されている状態で、コンピュータ１０の利用者は、キーボードやマウスなどの図示しない入力部を操作して特徴出力処理の実行開始指示を行う。利用者が当該実行開始指示を行うと、制御部２０は、特徴出力処理の実行を開始する。

特徴出力処理の実行が開始されると、制御部２０は、音波信号を取得する（ステップＳ２００）。すなわち、音源から音波が出力されると、マイクロホン１０ａは当該音波を取得してアナログ音波信号を出力する。制御部２０は機械学習の際に使用されたサンプリング周波数と同一のサンプリング周波数を予めＡ／Ｄ変換部１０ｂに指示している。Ａ／Ｄ変換部１０ｂは当該サンプリング周波数でアナログ音波信号をサンプリングし、デジタル音波信号に変換する。そして、Ａ／Ｄ変換部１０ｂからデジタル音波信号が出力されると、制御部２０は、信号取得部２０ａの機能により、当該デジタル音波信号を取得する。例えば、図２に示す音波信号Ｓｓであれば、Ａ／Ｄ変換部１０ｂによって１０進数のデジタル音波信号（０，１２，６，，，，）が出力されるため、制御部２０は、当該デジタル音波信号を取得する。

次に、制御部２０は、Ａ／Ｄ変換部１０ｂの機能により、音波信号を多次元量に変換する（ステップＳ２０５）。すなわち、制御部２０は、ステップＳ２００で取得されたデジタル音波信号を取得し、時間軸上の複数の位置のそれぞれの振幅を示す１０進数の値を２進数に変換する。例えば、ステップＳ２００において、図２に示すデジタル音波信号（０，１２，６，，，，）が取得された場合、図２に示す２進数の多次元量（００００００００，００００１１００，，，，）が取得される。

次に、制御部２０は、出力部２０ｃの機能により、時系列データを出力する（ステップＳ２１０）。すなわち、制御部２０は、多次元量の桁毎の値を抽出し、各桁の時系列データを生成する。例えば、図２に示す例であれば、制御部２０は、時系列データＤ₁～Ｄ₈を取得する。

次に、制御部２０は、特徴出力部２０ｅの機能により、音の特徴を判定する（ステップＳ２１５）。すなわち、制御部２０は、機械学習済モデル３０ｂを取得し、ステップＳ２１０で出力された時系列データＤ₁～Ｄ₈を当該機械学習済モデル３０ｂに対して入力する。制御部２０は、当該機械学習済モデル３０ｂが示すパラメータを利用して図３に示すＣＮＮ，ＲＮＮ等の演算を行う。この結果、出力層の値が決定される。なお、図２，図３に示す例においては、８チャンネルの１次元データである時系列データＤ₁～Ｄ₈を機械学習済モデル３０ｂに入力しているが、チャンネル数は８に限定されず、１以上、多次元量の成分の数以下の整数であって良い。

制御部２０は、出力層の値と閾値とを比較し、閾値以上であれば音源の種類が音楽であると判定し、閾値より小さければ音源の種類が音楽ではないと判定する。例えば、出力層の値が０～１の範囲で変化し、閾値が０．９である場合、出力層の値が０．９以上であれば、制御部２０は、音源の種類が音楽であると見なす。

次に、制御部２０は、特徴出力部２０ｅの機能により、判定結果を出力する（ステップＳ２２０）。すなわち、制御部２０は、表示部４０を制御して、音源の種類を示す情報を表示させる。以上の構成においては、１０進数の数値で表現された振幅をより多数の成分の値で表現した多次元量に変換して機械学習した結果に基づいて音の特徴を判定することができる。従って、１０進数で表現された元の信号よりも多様な特徴を捉えた機械学習を行って音の特徴を判定することができ、高精度に音の特徴を判定することができる。

さらに、本実施形態においては、多次元量を、同一成分（同一桁毎）毎に分解し、同一成分の値の時間変化を示す時系列データを用いて機械学習および特徴の取得を行う。この結果、大局的な時間変化と微細な時間変化の双方を含んだ音波信号の時間変化を詳細に捉えることができる。従って、１０進数で表現された元の信号よりも多様な時間変化を捉えた機械学習を行って音の特徴を判定することができ、高精度に音の特徴を判定することができる。なお、微細な時間変化がノイズであり、微細な時間変化を除いた部分に信号の特徴が現れる場合には、微細な時間変化が分類に与える重みが小さくなるように学習される。従って、ノイズが含まれていても高精度に音の特徴を判定することができる。

ここで、本実施形態を用いて環境音イベント分類を行った場合と、公知の手法を用いて環境音イベント分類を行った場合とにおける分類精度を比較する。環境音は、参考文献のTable 2に記載された２８種類のイベントを含むデータベースを利用した。このデータベースに基づいて、参考文献に記載されたようにパワースペクトル（２５６次元）とその変化量Δ、ΔΔの３チャンネルを分類モデルに入力し、環境音イベントを分類する例を対比例とする。なお、この場合の分類モデルは、６層のＣＮＮを通した結果を３層の全結合層に通すモデルである。当該分類モデルで機械学習を行った場合の分類精度は、８０．３％であった。

一方、このデータベースに基づいて、本実施形態の図３に基づいて機械学習を行った場合、分類精度は８８．３％であった。このように、本実施形態によれば、公知の手法と比較して分類精度が大幅に改善している。（参考文献）N. Takahashi, et al., "Deep Convolutional Neural Networks and Data Augmentation for Acoustic Event Detection," Proc. of INTERSPEECH2016, pp.2982-2986, 2016

（２）他の実施形態：
以上の実施形態は本発明を実施するための一例であり、時間変化する信号の時間軸上の各位置における値を多次元量で表現し、多次元量の成分毎の時間変化を示す時系列データを出力する限りにおいて、他にも種々の実施形態を採用可能である。例えば、１台のコンピュータ１０によって、信号変換システム、機械学習システム、特徴出力システムが構成されていたが、それぞれが別のシステムであっても良いし、２個のシステムが１台のシステムとして構成されてもよい。

むろん、別個のシステムの連携法は種々の手法であって良く、クライアントとサーバとして構成されていても良い。さらに、信号取得部２０ａ，変換部２０ｂ，出力部２０ｃ，機械学習部２０ｄ，特徴出力部２０ｅの少なくとも一部が複数の装置に分かれて存在してもよい。例えば、信号取得部２０ａによって教師データ３０ａが取得される処理と、分類対象のデジタル音波信号が取得される処理とが異なる装置で実施される構成等であっても良い。むろん、上述の実施形態の一部の構成が省略されてもよいし、処理の順序が変動または省略されてもよい。

例えば、上述の実施形態に示す機械学習のモデルによる処理過程で得られる情報が出力されるシステムが構成されても良い。具体的には、図３に示すモデルの過程でＣＮＮのデータＤ_CNNが得られるが、当該データＤ_CNNが音の特徴を示す情報であるとして出力されても良い。当該情報は、音の特徴を示しているため、例えば、特定の音の種類の場合におけるデータＤ_CNNのパターンを予め特定しておけば、音の種類の分類を行うことが可能である。むろん、機械学習を行うモデルは図３に示す例に限定されず、例えば、ＲＮＮが省略され、ＣＮＮのデータＤ_CNNが全結合層に入力され、その後の層で分類結果を示す情報が出力される構成等であっても良い。

機械学習の態様は限定されず、例えばニューラルネットワークによる機械学習が行われる場合、モデルを構成する層の数やノードの数、活性化関数の種類、損失関数の種類、勾配降下法の種類、勾配降下法の最適化アルゴリズムの種類、ミニバッチ学習の有無やバッチの数、学習率、初期値、過学習抑制手法の種類や有無、畳み込み層の有無、畳み込み演算におけるフィルタのサイズ、フィルタの種類、パディングやストライドの種類、プーリング層の種類や有無、全結合層の有無、再帰的な構造の有無など、種々の要素を適宜選択して機械学習が行われればよい。むろん、他の機械学習、例えば、深層学習（ディープラーニング）、サポートベクターマシンやクラスタリング、強化学習等によって学習が行われてもよい。さらに、モデルの構造（例えば、層の数や層毎のノードの数等）が自動的に最適化される機械学習が行われてもよい。

分類態様は音楽と非音楽に限定されず、音楽と音声の分類であってもよいし、より多くの種類の音源の分類であっても良い。むろん、信号変換システムや機械学習システム、特徴出力システムの用途は、音源の種類の分類に限定されない。例えば、打音検査などの異常音検出に利用されても良いし、音楽の詳細分類（ジャンル分類や楽曲名分類等）に利用されても良いし、音声認識に利用されても良いし、音が関連するイベントの分類（環境音の種類の分類）に利用されても良い。利用場面も限定されず、例えば、放送音声に対する分類等が行われることによって放送内容の統計管理に利用されても良い。また、本発明は音源の分離に対しても適用できる。例えば音楽に対し音声が重畳された音源をニューラルネットワークに入力し音楽のみまたは音声のみを分離する技術が知られているが、本発明の時系列データをニューラルネットワークへ入力することにより、信号の時間変化の特徴を捉えやすくなるので、高精度・高効率な分離を実現できる。

信号取得部は、時間変化する信号であって、時間軸上の複数の位置における値のそれぞれが１個の成分で表現された信号を取得することができればよい。すなわち、信号取得部は、時間軸上の各位置における値を単一成分で表現した信号を取得する。成分は、信号の特徴を示しており、成分が１個であれば信号を１個の特徴で表現することになる。従って、上述の実施形態のように、音波信号の振幅を一定期間毎にサンプリングし、時間軸上の１箇所について値が１個（スカラー量）であるような信号は、１個の成分で表現された信号である。また、１個の成分で表現された信号としては他にも種々の態様が採用され得る。

また、時間変化する信号は、時間軸上の異なる位置における値が異なり得る信号であれば良く、音波に限定されない。例えば、超音波や脳波、心電図、筋電図などの生体信号や、温度や湿度、気圧といった環境信号などの任意の波は、時間変化する信号になり得る。さらに、株価や為替チャートなどのように、着目している対象が時間変化する場合、対象の時間変化を示す情報は時間変化する信号に該当し得る。さらに、動画等の画像信号などにも適応が可能である。動画の画像信号においては、複数枚の画像の時系列の変化によって動画が表現される。そして、各画像においては、カラー画像の場合に赤・緑・青等の３チャンネルで１画素の色が表現され、グレー画像の場合に１チャンネルで１画素の輝度が表現され、各チャンネルのそれぞれが階調値を持つ（通常は０～２５５の値）。したがって、これらの画素の階調値を多次元量に変換し、変換後の成分毎の値を示す時系列データを出力する構成を採用することもできる。むろん、本発明の一実施形態で出力された特徴は、分類や認識以外にも種々の目的で利用されて良く、例えば、未来の信号変化の予測等に利用されても良い。以上のように、時間変化する信号の特徴が音源の種類である構成に限定されず、信号における種々の特徴が特徴出力部によって出力されて良い。

時間軸上の位置は、離散的な位置であれば良く、その間隔は任意の間隔であって良い。例えば、波形信号をサンプリングして信号を取得する場合、そのサンプリング周期は任意であるし、サンプリング周期は固定であっても良いし時間変化しても良い。

変換部は、複数の位置毎の値のそれぞれを、複数の成分の値で表現した多次元量に変換することができればよい。すなわち、変換部は、時間軸上の各位置で１個の値を、時間上の各位置で複数の値となるように変換する。多次元量への変換は、種々の手法でおこなわれてもよい。すなわち、時間軸上の各位置における１個の値を２進数に変換し、変換された値の各桁が多次元量の各成分となる構成以外にも種々の構成が採用されてよい。

例えば、信号波形を示すグラフを２次元の画像と捉え、当該画像を２値化すると、信号波が存在する位置が１、信号波が存在しない位置が０のデータが得られる。図６は、図２に示す音波信号Ｓｓと同様の信号を時間軸および振幅軸からなるグラフで表現した例を示している。また、図６においては、このグラフを画像と捉え、時間軸方向の複数の位置において振幅値が存在する部分を１、存在しない部分を０として２値化した例を示している。このような変換であっても、時間変化する信号の時間軸上の各位置における値が多次元量で表現されており、この例を含めて、多次元量への変換としては種々の変換が採用されてよい。

むろん、多次元量の各成分の値を表現するための桁数は１に限定されず、例えば、２進数の複数桁分の値が１個の成分の値であっても良い。さらに、変換前の１個の成分の解釈法も種々の手法で行われてよい。例えば、変換前の１個の成分が１０進数の１個の値であり複数桁に渡る場合、この値を桁毎の値に分解した後に桁毎にｎ進数（ｎは２以上の整数）の値に変換し、変換された値を多次元量の各成分の値としても良いし、変換された値の各桁を多次元量の各成分の値としても良い。

より具体的な例としては、例えば、変換前の１個の成分の値が１０進数の"８０６"である場合に、"８"，"０"，"６"のそれぞれを２進数の"１０００"，"００００"，"０１１０"とし、"１０００"，"００００"，"０１１０"のそれぞれを多次元量の３個の成分の各値としても良い。また、"１００００００００１１０"の各桁を多次元量の１２個の成分の各値としても良い。

多次元量は、複数の成分で表現された値であれば良く、種々の手法で決められて良い。また、成分毎の関係も種々の関係であって良い。例えば、上述の実施形態のように、２進数表現の各桁が成分であっても良いし、各成分が線形独立となるように表現された量であっても良い。

出力部は、多次元量を、連続する複数の位置における多次元量の同一の成分の値を少なくとも含む時系列データとして出力することができればよい。すなわち、時系列データは、多次元量の同一の成分の値が時間変化する様子を示していればよい。時系列データで表現された時間軸上の位置の数（時系列データが示す時間長）は、複数であれば任意の数であって良く、時系列データの用途等によって時間軸上の位置の数が選択されればよい。

また、時系列データは、多次元量の同一の成分の値が時間変化する様子を示していれば良いので、成分の数は１以上、多次元量の成分の数以下の整数の範囲で任意である。ここでも、時系列データの用途等によって成分の数が選択されればよい。

時系列データとされる多次元量の成分の数が複数である場合、時系列データは２次元データとなる。この場合、例えば、多次元量から、時間軸上の同一の位置における異なる成分の値が第１軸方向に並び、時間軸上の異なる位置における同一の成分の値が第１軸方向と異なる第２軸方向に並ぶ２次元データが抽出される構成であっても良い。

図２に示す例であれば、左下に示された８桁の２進数の全桁を含む２次元データが抽出されても良い。すなわち、図２に示す多次元量は、図の上下方向に見ると時間軸上の同一の位置における異なる成分（桁）の値が並んでいるため上下方向を第１軸と見なすことができる。さらに、図の左右方向に見ると時間軸上の異なる位置における同一の成分の値が並んでいるため左右方向（時間方向）を第２軸と見なすことができる。

このような２次元データであっても、各成分に着目すると、連続する複数の位置における多次元量の同一の成分の値を含んでいるため、このようなデータを出力部２０ｃによる出力とする実施形態が構成されても良い。この場合、当該２次元データを入力する畳み込みニューラルネットワークを含む機械学習済モデル３０ｂが機械学習される。また、当該２次元データを入力する畳み込みニューラルネットワークを含む機械学習済モデル３０ｂに基づいて、信号の音源の特徴に関する情報が出力される。

このような構成は、図１に示す例において、機械学習モデルの構造、機械学習部２０ｄおよび特徴出力部２０ｅの処理を変更することによって実現される。図７は、２次元データを入力する機械学習のモデル例である。図７においては、下部から上方に向けて演算が進行するようにモデルが記載されている。図７に示す例において、初期の３層はＣＮＮによって構成されている。また、図７に示す例において、ＣＮＮによる出力結果はＲＮＮに入力され、ＲＮＮによる出力は全結合を経て出力層に至る。

図７の最下部には入力データとなる２次元データＤ_2Dが例示されている。ここでは、時間軸上の位置の数は任意である。例えば、１０ｋＨｚで１００００回サンプリングされることによって得られたデジタル音波信号が変換され１００００個の時間軸上の位置についてのデータが得られた場合、当該データを２次元データＤ_2Dとすることができる。

本例においては、２次元データＤ_2Dの時間方向および成分方向（桁方向）の情報を畳み込む演算が行われる。すなわち、２次元のフィルタが用意され、２次元データＤ_2Dに対して適用されて畳み込み演算が行われる。図７に示す例においては、フィルタの大きさが時間方向の大きさｘ、成分方向の大きさｙ、チャンネル方向の大きさｃｈの立方体で示されている。すなわち、第１層のＣＮＮにおけるフィルタの大きさは時間方向の大きさｘ₁、成分方向の大きさｙ₁、チャンネル方向の大きさ１、第２層のＣＮＮにおけるフィルタの大きさは時間方向の大きさｘ₂、成分方向の大きさｙ₂、チャンネル方向の大きさ１２８、第３層のＣＮＮにおけるフィルタの大きさは時間方向の大きさｘ₃、成分方向の大きさｙ₃、チャンネル方向の大きさ２５６である。

また、図７に示す例において、第１層のＣＮＮにおけるフィルタの数は１２８個、第２層のＣＮＮにおけるフィルタの数は２５６個、第３層のＣＮＮにおけるフィルタの数は５１２個である。むろん、フィルタの大きさやフィルタの数は適宜調整可能である。いずれにしても、各フィルタの演算において、パディングやストライドがハイパーパラメータとして予め決められ、畳み込み演算が行われると、順次、ニューラルネットワークの演算が行われる。例えば、第１層のＣＮＮの畳み込み演算が行われると、出力がｉ₁×ｊ₁×１２８個のデータとなり、第２層のＣＮＮの入力となる。

このようなＣＮＮの演算を第２層、第３層と繰り返すと、第２層の出力がｉ₂×ｊ₂×２５６個のデータとなり、第３層の出力がｉ₃×ｊ₃×５１２個のデータＤ_CNNとなる。図７に示すモデルにおいても当該データＤ_CNNは、ＲＮＮへの入力になる。図７に示すＲＮＮを構成する要素はＢｉＧＲＵ（Bidirectional Gated Recurrent Unit）であるが、要素はＬＳＴＭ等であってもよく、種々の構成を採用可能である。むろん、ハイパーパラメータは種々のパラメータとして良い。いずれにしても、図７に示す例においては、ＲＮＮに入力されるデータＤ_CNNが全結合層に入力され、全結合層の次の層で特徴の出力、例えば、音楽であるか否かの分類結果の出力が行われればよい。

機械学習のモデルが予め決められた状態において、図１に示す構成によって図４に示す機械学習処理が実行されると、２次元データを入力として音の特徴を出力する機械学習済モデル３０ｂが得られる。ただし、図４に示すステップＳ１１０において時系列データとして出力されるデータは、２次元データである。この状態において、制御部２０は、ステップＳ１１５において図７に示すようなモデルを示す情報を訓練モデルとして取得する。そして、ステップＳ１２０～Ｓ１３０を経て制御部２０がステップＳ１３５の学習を行えば、２次元データを入力として音の特徴を出力する機械学習済モデル３０ｂが得られる。

図５に示す特徴出力処理も同様であり、ステップＳ２１０で取得される時系列データが２次元データとなる。そして、ステップＳ２１５において、当該２次元データを制御部２０が機械学習済モデル３０ｂに入力すれば、音の特徴が判定される。以上のような２次元データであっても、時間軸上の位置毎の値が複数の成分に分解された状態で各成分の時間変化を含んでいる。従って、当該２次元データに基づいて機械学習および特徴の判定が行われることにより、多様な時間変化を捉えた機械学習を行って音の特徴を判定することができ、高精度に音の特徴を判定することができる。

なお、出力部による出力は、同一装置に対して行われてもよいし、異なる装置に対して行われてもよい。すなわち、上述の実施形態のように、出力部が、多次元量を時系列データに変換した結果を出力してさらに演算する構成であっても良いし、出力部が他の装置（例えば、外部に接続されたサーバ等）に出力する構成であっても良い。

さらに、本発明のように、時間変化する信号の時間軸上の各位置における値を多次元量で表現し、多次元量の成分毎の時間変化を示す時系列データを出力する手法は、プログラムや方法としても適用可能である。また、以上のようなシステム、プログラム、方法は、単独の装置として実現される場合や、複数の装置によって実現される場合が想定可能であり、各種の態様を含むものである。また、一部がソフトウェアであり一部がハードウェアであったりするなど、適宜、変更可能である。さらに、システムを制御するプログラムの記録媒体としても発明は成立する。むろん、そのソフトウェアの記録媒体は、磁気記録媒体であってもよいし半導体メモリであってもよいし、今後開発されるいかなる記録媒体においても全く同様に考えることができる。

以上説明したように、上記した例では信号取得部２０ａと、変換部２０ｂと、出力部２０ｃを少なくとも備えるシステムとして信号変換システムを構成している。また、この信号変換システムに、機械学習済モデル３０ｂに基づいて、入力信号の特徴に関する情報を出力する特徴出力部２０ｅを備えるようにして特徴出力システムを、同様にこの信号変換システムに、入力信号の特徴に関する情報を出力する機械学習済モデル３０ｂを機械学習する機械学習部２０ｄをさらに備えるようにして機械学習システムを構成している。なお、本実施形態での信号変換システムは上述のように信号変換プログラムとして実行可能なようにしてもよい。

１０…コンピュータ、１０ａ…マイクロホン、１０ｂ…Ａ／Ｄ変換部、２０…制御部、２０ａ…信号取得部、２０ｂ…変換部、２０ｃ…出力部、２０ｄ…機械学習部、２０ｅ…特徴出力部、３０…記憶媒体、３０ａ…教師データ、３０ｂ…機械学習済モデル、４０…表示部

Claims

時間変化する信号であって、時間軸上の複数の位置における値のそれぞれが１個の成分で表現された前記信号を取得する信号取得部と、
複数の前記位置毎の値のそれぞれを、複数の成分の値で表現した多次元量に変換する変換部と、
前記多次元量を、連続する複数の前記位置における前記多次元量の同一の成分の値を少なくとも含む、Ｌ個（Ｌは１以上、前記多次元量の成分の数以下の整数）の時系列データとして出力する出力部と、
Ｌ個の前記時系列データを入力して前記信号の特徴に関する情報を出力するように機械学習された機械学習モデルに対して、Ｌ個の前記時系列データを入力し、前記信号の特徴に関する情報を出力する特徴出力部と、
を備える信号変換システム。
前記機械学習モデルは、
畳み込みニューラルネットワークを含む、
請求項１に記載の信号変換システム。
前記変換部は、
複数の前記位置毎の値のそれぞれを、ｎ進数（ｎは２以上の整数）の値に変換し、変換された値の各桁を前記多次元量の成分とする、
請求項１または請求項２に記載の信号変換システム。
ｎは２である、
請求項３に記載の信号変換システム。
前記信号は音を示す、
請求項１～請求項４のいずれかに記載の信号変換システム。
前記時系列データは、
前記多次元量から、同一の成分の値の時間変化を示す１次元データがＬ個（Ｌは１以上、前記多次元量の成分の数以下の整数）抽出されたデータである、
請求項１～請求項５のいずれかに記載の信号変換システム。
前記時系列データは、
前記多次元量から、
時間軸上の同一の前記位置における異なる成分の値が第１軸方向に並び、
時間軸上の異なる前記位置における同一の成分の値が前記第１軸方向と異なる第２軸方向に並ぶ２次元データが抽出されたデータである、
請求項１～請求項５のいずれかに記載の信号変換システム。
前記２次元データを入力する畳み込みニューラルネットワークを含む機械学習済モデルに基づいて、前記信号の特徴に関する情報を出力する特徴出力部、をさらに備える、
請求項７に記載の信号変換システム。
機械学習システムに利用されるニューラルネットワークへの入力信号の信号変換システムであって、
時間変化する信号であって、時間軸上の複数の位置における値のそれぞれが１個の成分で表現された前記信号を取得する信号取得部と、
複数の前記位置毎の値のそれぞれを、２進数の値に変換し、変換された値の各桁が成分となる多次元量に変換する変換部と、
前記多次元量から、連続する複数の前記位置における前記多次元量の同一の成分の値の時間変化を示す１次元データをＬ個（Ｌは１以上、前記多次元量の成分の数以下の整数）抽出して出力する出力部と、
Ｌ個の前記１次元データを入力して前記信号の特徴に関する情報を出力するように機械学習された機械学習モデルに対して、Ｌ個の前記１次元データを入力し、前記信号の特徴に関する情報を出力する特徴出力部と、
を備える、信号変換システム。
請求項１～請求項７のいずれかに記載の信号変換システムと、
前記時系列データを入力し、前記信号の特徴に関する情報を出力する機械学習済モデルを機械学習する機械学習部と、
を備える機械学習システム。
コンピュータを、
時間変化する信号であって、時間軸上の複数の位置における値のそれぞれが１個の成分で表現された前記信号を取得する信号取得部、
複数の前記位置毎の値のそれぞれを、複数の成分の値で表現した多次元量に変換する変換部、
前記多次元量を、連続する複数の前記位置における前記多次元量の同一の成分の値を少なくとも含む、Ｌ個（Ｌは１以上、前記多次元量の成分の数以下の整数）の時系列データとして出力する出力部、
Ｌ個の前記時系列データを入力して前記信号の特徴に関する情報を出力するように機械学習された機械学習モデルに対して、Ｌ個の前記時系列データを入力し、前記信号の特徴に関する情報を出力する特徴出力部、
として機能させる信号変換プログラム。