JP6452061B1

JP6452061B1 - 学習データ生成方法、学習方法、及び評価装置

Info

Publication number: JP6452061B1
Application number: JP2018152116A
Authority: JP
Inventors: 継河合
Original assignee: クリスタルメソッド株式会社
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2019-01-16
Anticipated expiration: 2038-08-10
Also published as: JP2020027182A

Abstract

【課題】学習データを容易に取得することができる学習データ生成方法、学習方法、及び評価装置を提供する。【解決手段】機械学習の学習データとして用いる音データを疑似的に生成する学習データ生成方法であって、前記音データから変換されたスペクトログラムの一部を抽出した参照画像と、前記参照画像の一部を削除した訓練画像と、を取得する取得ステップと、前記参照画像と、前記訓練画像とを一対の入力データとした機械学習により第１データベースを生成する第１データベース生成ステップと、前記第１データベースを参照し、新たな前記参照画像又は新たな前記訓練画像に基づく疑似画像を生成する生成ステップと、前記疑似画像を、前記疑似音データに変換する変換ステップと、を備えることを特徴とする。【選択図】図１

Description

本発明は、学習データ生成方法、学習方法、及び評価装置に関する。

従来、発話等の音を評価する技術として、例えば特許文献１の評価装置等が提案されている。

特許文献１では、例えば発話者の自由発話の音声信号が入力される入力部と、入力された音声信号から評価に用いられる特徴を抽出する特徴抽出部と、特徴抽出部で抽出された特徴と予め格納されている参照特徴を比較する特徴評価部と、比較結果を出力する出力部と、を備え、前記評価に用いられる特徴には、少なくとも発声の明瞭さが含まれ、前記発声の明瞭さは、入力された音声信号における阻害音対共鳴音比によって表され、前記特徴抽出部は、入力された音声信号を複数のセグメントに分割する手段と、得られたセグメントを阻害音と共鳴音に分類する手段と、を用いて前記阻害音対共鳴音比を取得する、発話評価装置が開示されている。

特開２０１５−６８８９７号公報

ここで、例えば特許文献１のような音を評価する技術には、機械学習を用いて生成されたデータベース（分類器等）を参照する場合がある。機械学習を用いる場合、精度を向上させるために膨大な数の学習データが必要となる。特に、音を対象とした学習データを取得する場合、音の周波数や観測時間等のパラメータも多くなるため、文字や画像に比べて、学習データのファイル数やメモリ占有量等を必要とする傾向がある。このため、学習データを取得するためには、膨大な時間や費用が必要となり、容易に学習データを取得することが課題として挙げられる。この点、特許文献１の開示技術では、上述した課題を解決することは難しい。

そこで本発明は、上述した問題点に鑑みて案出されたものであり、その目的とするところは、学習データを容易に取得することができる学習データ生成方法、学習方法、及び評価装置を提供することにある。

第１発明に係る学習データ生成方法は、機械学習の学習データとして用いる音データを疑似的に生成する学習データ生成方法であって、学習用の前記音データから変換されたスペクトログラムの一部を抽出した参照画像と、前記参照画像の一部を削除した訓練画像と、を取得する取得ステップと、前記参照画像と、前記訓練画像とを一対の入力データとした機械学習により第１データベースを生成する第１データベース生成ステップと、前記第１データベースを参照し、新たな前記参照画像又は新たな前記訓練画像に基づく疑似画像を生成する生成ステップと、前記疑似画像を、疑似音データに変換する変換ステップと、を備えることを特徴とする。

第２発明に係る学習データ生成方法は、第１発明において、前記生成ステップは、１つの新たな前記参照画像又は１つの新たな前記訓練画像に対して、複数の前記疑似画像を生成し、複数の前記疑似画像は、それぞれ異なる前記疑似音データに変換されることを特徴とする。

第３発明に係る学習データ生成方法は、第１発明又は第２発明において、前記第１データベース生成ステップは、機械学習に基づき前記第１データベースを生成することを特徴とする。

第４発明に係る学習データ生成方法は、第１発明又は第２発明において、前記第１データベース生成ステップは、生成系の機械学習に基づき前記第１データベースを生成することを特徴とする。

第５発明に係る学習データ生成方法は、第１発明〜第４発明の何れかにおいて、前記音データは、コネクタ音と、周辺環境音とを含むことを特徴とする。

第６発明に係る学習データ生成方法は、第１発明〜第５発明の何れかにおいて、前記変換ステップは、逆短時間フーリエ変換を用いて前記疑似画像から変換された前記疑似音データに対して、乱数で発生させたノイズを加えることを特徴とする。

第７発明に係る学習方法は、第１発明〜第６発明における学習データ生成方法により生成された前記疑似音データを学習データとして機械学習する学習方法であって、前記疑似音データと、前記疑似音データに紐づく評価データとを一対の入力データとした機械学習により第２データベースを生成する第２データベース生成ステップと、を備えることを特徴とする。

第８発明に係る評価装置は、第７発明における学習方法により生成された前記第２データベースを用いて、評価対象用音データを評価する評価装置であって、前記評価対象用音データを取得する取得部と、前記第２データベースを参照して、前記評価対象用音データに基づく評価結果を生成する評価部と、を備えることを特徴とする。

第９発明に係る評価装置は、評価対象用音データを評価する評価装置であって、学習用の音データから変換されたスペクトログラムの一部を抽出した参照画像と、前記参照画像の一部を削除した訓練画像と、を取得する第１取得部と、前記参照画像と、前記訓練画像とを一対の入力データとした機械学習により第１データベースを生成する第１データベース生成部と、前記第１データベースを参照し、新たな前記参照画像又は新たな前記訓練画像に基づく疑似画像を生成する疑似画像生成部と、前記疑似画像を、前記疑似音データに変換する変換部と、前記疑似音データと、前記疑似音データに紐づく評価データとを一対の入力データとした機械学習により第２データベースを生成する第２データベース生成部と、前記評価対象用音データを取得する第２取得部と、前記第２データベースを参照して、前記評価対象用音データに基づく評価結果を生成する評価部と、を備えることを特徴とする。

第１０発明に係る学習データ生成方法は、機械学習の学習データとして用いる音データを疑似的に生成する学習データ生成方法であって、学習用の前記音データに基づく参照データと、前記参照データの一部を削除した訓練データと、を取得する取得ステップと、前記参照データと、前記訓練データとを一対の入力データとした機械学習により第１データベースを生成する第１データベース生成ステップと、前記第１データベースを参照し、新たな前記参照データ又は新たな前記訓練データに基づく疑似データを生成する生成ステップと、を備えることを特徴とする。

第１１発明に係る学習データ生成方法は、第１０発明において、前記生成ステップは、１つの新たな前記参照データ又は１つの新たな前記訓練データに対して、複数の前記疑似データを生成することを特徴とする。

第１２発明に係る学習方法は、第１０発明又は第１１発明における学習データ生成方法により生成された前記疑似データを学習データとして機械学習する学習方法であって、前記疑似データと、前記疑似データに紐づく評価データとを一対の入力データとした機械学習により第２データベースを生成する第２データベース生成ステップと、を備えることを特徴とする。

第１３発明に係る評価装置は、第１２発明における学習方法により生成された前記第２データベースを用いて、評価対象用音データを評価する評価装置であって、前記評価対象用音データを取得する取得部と、前記第２データベースを参照して、前記評価対象用音データに基づく評価結果を生成する評価部と、を備えることを特徴とする。

第１発明〜第８発明によれば、生成ステップは、新たな参照画像又は新たな訓練画像に基づく疑似画像を生成し、変換ステップは、疑似画像を疑似音データに変換する。すなわち、学習データとして用いられる音データが少ない場合においても、疑似音データを学習データとして用いることができる。このため、機械学習に用いられる学習データを容易に取得することができる。これにより、学習データを取得するための時間や費用の削減を実現することが可能となる。

特に、第８発明によれば、評価部は、第２データベースを参照して、評価対象用音データに基づく評価結果を生成する。このため、学習データとして用いられる音データが少ない場合においても、疑似音データを用いた機械学習により生成された第２データベースを参照することにより、評価結果の精度の向上を図ることが可能となる。

第９発明によれば、疑似画像生成部は、新たな参照画像又は新たな訓練画像に基づく疑似画像を生成し、変換部は、疑似画像を疑似音データに変換する。すなわち、学習データとして用いられる音データが少ない場合においても、疑似音データを学習データとして用いることができる。このため、機械学習に用いられる学習データを容易に取得することができる。これにより、学習データを取得するための時間や費用の削減を実現することが可能となる。

また、第９発明によれば、評価部は、第２データベースを参照して、評価対象用音データに基づく評価結果を生成する。このため、学習データとして用いられる音データが少ない場合においても、疑似音データを用いた機械学習により生成された第２データベースを参照することにより、評価結果の精度の向上を図ることが可能となる。

第１０発明〜第１３発明によれば、生成ステップは、新たな参照データ又は新たな訓練データに基づく疑似データを生成する。すなわち、学習データとして用いられる音データが少ない場合においても、疑似データを学習データとして用いることができる。このため、機械学習に用いられる学習データを容易に取得することができる。これにより、学習データを取得するための時間や費用の削減を実現することが可能となる。

特に、第１３発明によれば、評価部は、第２データベースを参照して、評価対象用音データに基づく評価結果を生成する。このため、学習データとして用いられる音データが少ない場合においても、疑似音データを用いた機械学習により生成された第２データベースを参照することにより、評価結果の精度の向上を図ることが可能となる。

図１（ａ）は、本実施形態における評価装置の用途の一例を示す模式図であり、図１（ｂ）は、本実施形態における学習方法の概要を示す模式図であり、図１（ｃ）は、本実施形態における学習データ生成方法の概要を示す模式図である。図２（ａ）は、音データの一例を示す模式図であり、図２（ｂ）は、スペクトログラムの一例を示す模式図であり、図２（ｃ）は、参照画像の一例を示す模式図であり、図２（ｄ）は、訓練画像の一例を示す模式図である。図３は、本実施形態における学習データ生成方法の一例を示すフローチャートである。図４（ａ）〜（ｃ）は、音データ、スペクトログラム、参照画像、及び訓練画像の関係を示す模式図である。図５は、本実施形態における学習方法の一例を示すフローチャートである。図６（ａ）は、本実施形態における評価装置の構成の一例を示す模式図であり、図６（ｂ）は、本実施形態における評価装置の機能の一例を示す模式図である。図７は、本実施形態における評価装置の動作の一例を示すフローチャートである。図８は、本実施形態における音データ及び訓練データの一例を示す模式図である。

以下、本発明を適用した実施形態における学習データ生成方法、学習方法、及び評価装置の一例について、図面を参照しながら説明する。

図１を参照して、本実施形態における学習データ生成方法、学習方法、及び評価装置１の一例について説明する。図１（ａ）は、本実施形態における評価装置１の用途の一例を示す模式図であり、図１（ｂ）は、本実施形態における学習方法の概要を示す模式図であり、図１（ｃ）は、本実施形態における学習データ生成方法の概要を示す模式図である。

本実施形態における評価装置１は、例えば図１（ａ）に示すように、音データ（評価対象用音データ）を取得し、音データに対する評価結果を出力するものである。評価装置１は、例えば工場等に設置され、特定の音が含まれるか否かの評価や製品の出荷検査等に用いられるほか、例えば環境音やノイズ音の制御が必要な空間の評価等に用いられる。評価装置１として、例えばパーソナルコンピュータ（ＰＣ）等の電子機器が用いられる。

評価装置１に取得される評価対象用音データは、例えば図示しないマイク等の収音装置により収集された音に基づき生成される。評価対象用音データは、例えば工場内における装置の稼働音、空調音、コネクタ音等の機械音や周辺環境音のほか、人の発話等の音声を含む。評価対象用音データは、例えば図２（ａ）に示すように、時間軸に対する振幅で示される。

評価装置１は、評価用データベース（第２データベース）を参照し、音データに対する評価結果を出力する。評価装置１は、例えば評価対象用音データに対して規格等の範囲内（ＯＫ）又は範囲外（ＮＧ）を評価した結果を、評価結果として出力する。評価結果の内容は、評価用データベースの生成時において任意に設定することができる。

本実施形態における学習方法は、例えば図１（ｂ）に示すように、疑似的に生成された疑似音データを学習データとして用いた機械学習により、評価用データベースを生成するものである。学習データには、疑似音データと疑似音データに紐づく評価データとの一対のデータが複数含まれるほか、マイク等の収音装置により収集された音から生成された音データと、音データに紐づく評価データとの一対のデータが複数含まれてもよい。学習データに含まれる疑似音データの割合は、任意である。

疑似音データ及び音データは、例えば図２（ａ）に示すように、上述した評価対象用データと同様に時間軸に対する振幅で示される。評価データは、例えば「ＯＫ」、「ＮＧ」等の２値で表される評価結果を示すほか、紐づく音データの特徴を評価した結果を示してもよい。なお、評価データの内容は、ユーザ等によって任意に設定できる。

学習方法では、例えばニューラルネットワークをモデルとした機械学習を用いて、評価用データベースを生成する。評価用データベースは、例えばＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）やオートエンコーダをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。評価用データベースには、例えば疑似音データと評価データとの間における連関度が記憶される。連関度は、疑似音データと評価データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の３値以上（３段階以上）で示されるほか、２値（２段階）で示されてもよい。

本実施形態における学習データ生成方法は、例えば図１（ｃ）に示すように、サンプル画像を取得し、サンプル画像に対する疑似画像を生成し、疑似画像を疑似音データに変換するものである。学習データ生成方法では、生成用データベースを参照し、サンプル画像に対する疑似画像を生成する。学習データ生成方法は、１つのサンプル画像に対して、少なくとも１つの疑似画像を生成することができる。

学習データ生成方法では、例えばニューラルネットワークをモデルとした機械学習を用いて、生成用データベース（第１データベース）を生成する。学習データ生成方法では、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）やオートエンコーダをモデルとした機械学習を用いて、生成用データベースが生成され、特に、ＣｏｎｄｉｔｉｏｎａｌＧＡＮの一種であるｐｉｘ２ｐｉｘをモデルとした機械学習を用いて、生成用データベースが生成されてもよい。

学習データ生成方法では、生成用データベースを生成する際、参照画像と、訓練画像との一対のデータが、学習データとして複数用いられる。学習データ生成方法では、学習用の音データを変換したスペクトログラムの一部を抽出した参照画像と、参照画像の一部を削除した訓練画像とが用いられる。

学習データ生成方法に用いられる学習用の音データとして、例えば図２（ａ）に示すように、上述した評価対象用音データと同種のデータが用いられる。スペクトログラムは、例えば図２（ｂ）に示すように、時間軸及び周波数軸に対する強度（振幅）で示され、例えばフーリエ変換（例えば短時間フーリエ変換）を用いて音データから変換される。学習データ生成方法において、スペクトログラムは、画像データとして用いられ、例えば１ピクセル×１ピクセルは、０．０６４ｓｅｃ×１５．６２４Ｈｚの範囲に対応する。

参照画像として、例えば図２（ｃ）に示すように、スペクトログラムにおける一部（図２（ｂ）では破線枠）を抽出した画像が用いられる。参照画像として、例えばスペクトログラムにおける０．５１２ｓｅｃ×１２８０Ｈｚの範囲を抽出した画像が用いられる。

訓練画像として、例えば図２（ｄ）に示すように、参照画像における一部を削除（図２（ｃ）では破線部）した画像が用いられる。訓練画像として、例えば０．５１２ｓｅｃ×１２５Ｈｚの範囲を削除した画像が用いられる。

生成用データベースは、参照画像と、訓練画像とを一対の入力データとした機械学習により生成されることで、入力データ（例えばサンプル画像）に対する疑似データの生成に用いることができる。この疑似データの生成は、ＧＡＮ等のようなＧｅｎｅｒａｔｏｒとＤｉｓｃｒｉｍｉｎａｔｏｒとの２つのネットワークを持つモデルを用いて行われる画像補完の技術を利用することで、実現することが可能である。即ち、参照画像を、訓練画像の正解画像として学習させることで、疑似画像を生成する精度を高めることができる。

学習データ生成方法に用いられるサンプル画像として、例えば参照画像又は訓練画像と同種の画像が用いられる。即ち、サンプル画像として、サンプルとして取得された音データを変換したスペクトログラムの一部を抽出した参照画像（新たな参照画像）、又は、参照画像における一部を削除した訓練画像（新たな訓練画像）が用いられる。何れの画像が用いられる場合においても、１つのサンプル画像から複数の疑似画像を生成することができる。

学習データ生成方法によって生成される疑似音データは、例えば逆フーリエ変換（例えば逆短時間フーリエ変換）を用いて疑似画像から変換される。これにより、サンプルとして取得された音データに対して疑似音データを取得することができる。

なお、学習データ生成方法では、例えば学習用の音データを画像に変換しないデータを参照データとし、参照データの一部を削除したデータを訓練データとして、参照データと訓練データを一対のデータとした機械学習により、生成用データベースを生成してもよい。この場合、例えば音データにおける特定の期間の振幅を抽出したものを参照データとし、参照データにおける特定の期間の振幅を削除したものを訓練データとする。ここで「振幅」は、アナログ値、デジタル値、又は画像表示値の何れでもよい。この場合、上述したサンプル画像の代わりに、参照データ又は訓練データと同種のサンプルデータが用いられる。
例えば、図８は、本実施形態における音データ及び訓練データの一例を示す模式図である。図８の（ａ）は、学習用の音データの一例である。図８の（ｂ）は、音データの一部を削除した訓練データである。

なお、評価装置１は、上述した学習データ生成方法及び学習方法を実施する機能を備えるほか、例えば他の端末等によって生成された生成用データベース、疑似音データ及び評価用データベースの少なくとも何れかを取得してもよい。

（学習データ生成方法）
次に、図３を参照して、本実施形態における学習データ生成方法の一例を説明する。図３は、本実施形態における学習データ生成方法の一例を示すフローチャートである。なお、以下では参照画像及び訓練画像を用いた動作について説明するが、参照データ及び訓練データを用いた場合においても同様の動作のため、説明を省略する。

＜取得ステップＳ１１０＞
先ず、参照情報と、訓練情報とを取得する（取得ステップＳ１１０）。取得ステップＳ１１０では、評価対象の基準となる学習用の音データから変換されたスペクトログラムの一部を抽出した参照画像と、参照画像の一部を削除した訓練画像とを取得する。なお、取得ステップＳ１１０では、例えば予め生成された参照情報及び訓練情報を取得するほか、例えば収音装置により収集された音に基づき生成された音データを取得し、音データをスペクトログラムに変換（図４（ａ））し、スペクトログラムから参照画像を抽出（図４（ｂ））し、参照画像の一部を削除した訓練画像を取得（図４（ｃ））する動作を実行する評価装置１等の電子機器を用いてもよい。この場合、スペクトログラムから参照画像を取得する範囲や、参照画像の一部を削除する範囲は、予め設定してもよい。

＜第１データベース生成ステップＳ１２０＞
次に、生成用データベース（第１データベース）を生成する（第１データベース生成ステップＳ１２０）。第１データベース生成ステップＳ１２０では、参照画像と、訓練画像とを一対の入力データとした機械学習により、生成データベースを生成する。入力データは、参照画像と訓練画像との一対のデータを複数（例えば１０００程度）含み、例えば１つの参照画像に対して、削除箇所の異なる複数の訓練画像を、それぞれ一対のデータとして入力データに含ませてもよい。第１データベース生成ステップＳ１２０では、例えばｐｉｘ２ｐｉｘをモデルとした機械学習を用いて、生成用データベースを生成する。

＜生成ステップＳ１３０＞
次に、疑似画像を生成する（生成ステップＳ１３０）。生成ステップＳ１３０では、生成データベースを参照し、サンプル画像（新たな参照画像又は新たな訓練画像）に基づく疑似画像を生成する。生成ステップＳ１３０では、例えば第１データベース生成ステップＳ１２０に用いた参照画像又は訓練画像を、サンプル画像として用いてもよいほか、例えば第１データベース生成ステップＳ１２０に用いられない参照画像又は訓練画像を、サンプル画像として用いてもよい。何れの場合においても、サンプル画像は、取得ステップＳ１１０により取得された参照情報又は訓練画像と同様の方法により取得できる。

生成ステップＳ１３０は、例えば１つのサンプル画像に対して、複数の疑似画像を生成してもよい。この場合、複数の疑似画像は、それぞれ異なる疑似音データに変換される。このため、１つの音データから複数の疑似音データを生成することができる。これにより、学習データが少ない場合においても、機械学習に必要な学習データを容易に確保することが可能となる。

＜変換ステップＳ１４０＞
次に、疑似画像を疑似音データに変換する（変換ステップＳ１４０）。変換ステップＳ１４０では、疑似画像を、疑似音データに変換する。変換ステップＳ１４０は、例えば疑似音データに乱数で発生させたノイズを加えてもよい。このため、疑似音データを、実際に取得される音に近づけることができる。これにより、学習データとしての質を向上させることが可能となる。

上述した各ステップを行うことで、本実施形態における学習データ生成方法が完了する。なお、参照データ及び訓練データを用いた場合、変換ステップＳ１４０を省略してもよい。

（学習方法）
次に、図５を参照して、本実施形態における学習方法の一例を説明する。図５は、本実施形態における学習方法の一例を示すフローチャートである。

＜第２データベース生成ステップＳ２１０＞
本実施形態における学習方法では、評価用データベース（第２データベース）を生成する（第２データベース生成ステップＳ２１０）。第２データベース生成ステップＳ２１０では、疑似音データと、疑似音データに紐づく評価データとを一対の入力データとした機械学習により、評価用データベースを生成する。入力データは、疑似音データと評価データとの一対のデータを複数含み、例えば収音装置より収集された音に基づき生成された音データと、評価データとの一対のデータを複数含んでもよい。第２データベース生成ステップＳ２１０では、例えばＣＮＮをモデルとした機械学習を用いて、評価用データベースを生成する。

上述したステップを行うことで、本実施形態における学習方法が完了する。

（評価装置１）
次に、図６を参照して、本実施形態における評価装置１の一例を説明する。図６（ａ）は、本実施形態における評価装置１の構成の一例を示す模式図であり、図６（ｂ）は、本実施形態における評価装置１の機能の一例を示す模式図である。

評価装置１は、例えば図６（ａ）に示すように、筐体１０と、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０３と、保存部１０４と、Ｉ／Ｆ１０５〜１０７とを備える。各構成１０１〜１０７は、内部バス１１０により接続される。

ＣＰＵ１０１は、評価装置１全体を制御する。ＲＯＭ１０２は、ＣＰＵ１０１の動作コードを格納する。ＲＡＭ１０３は、ＣＰＵ１０１の動作時に使用される作業領域である。保存部１０４は、音データ等の各種情報が記憶される。保存部１０４として、例えばＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）の他、ＳＳＤ（ｓｏｌｉｄｓｔａｔｅｄｒｉｖｅ）やフロッピーディスク等のデータ保存装置が用いられる。なお、例えば評価装置１は、図示しないＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を有してもよい。ＧＰＵを有することで、通常よりも高速演算処理が可能となる。

Ｉ／Ｆ１０５は、インターネット等の公衆通信網２を介してサ、他の端末や専用サーバ等との各種情報の送受信を行うためのインターフェースである。Ｉ／Ｆ１０６は、入力部分１０８との情報の送受信を行うためのインターフェースである。入力部分１０８として、例えばキーボードが用いられ、評価装置１の利用者等は、入力部分１０８を介して、各種情報又は評価装置１の制御コマンド等を入力する。Ｉ／Ｆ１０７は、出力部分１０９との各種情報の送受信を行うためのインターフェースである。出力部分１０９は、保存部１０４に保存された各種情報、又は評価装置１の処理状況等を出力する。出力部分１０９として、ディスプレイが用いられ、例えばタッチパネル式でもよい。

図６（ｂ）は、評価装置１の機能の一例を示す模式図である。評価装置１は、取得部１１と、データベース生成部１２と、疑似画像生成部１３と、変換部１４と、評価部１５と、出力部１６と、記憶部１７とを備える。なお、図６（ｂ）に示した機能は、ＣＰＵ１０１が、ＲＡＭ１０３を作業領域として、保存部１０４等に記憶されたプログラムを実行することにより実現され例えば人工知能により制御されてもよい。

＜取得部１１＞
取得部１１は、評価対象用音データを取得する。取得部１１は、例えば評価用データベースを生成するための音データ（疑似音データ）、評価データ等を取得してもよい。取得部１１は、例えば疑似音データを生成するための音データ、参照情報、訓練情報、サンプル画像等を取得してもよい。

取得部１１は、例えば第１取得部と、第２取得部とを有し、それぞれ異なる情報を取得するようにしてもよい。この場合、第１取得部は、参照画像と、訓練画像とを取得し、第２取得部は、評価対象用音データを取得する。

＜データベース生成部１２＞
データベース生成部１２は、生成用データベース、及び評価用データベースの少なくとも何れかを生成する。生成用データベース、及び評価用データベースの少なくとも何れかを生成する方法は、上述した内容と同様である。なお、生成用データベース、及び評価用データベースを他の端末等により生成する場合、評価装置１は、データベース生成部１２を備えなくてもよい。

データベース生成部１２は、例えば第１データベース生成部と、第２データベース生成部とを有し、それぞれ異なるデータベースを生成するようにしてもよい。この場合、第１データベース生成部は、生成用データベースを生成し、第２データベース生成部は、評価用データベースを生成する。

＜疑似画像生成部１３＞
疑似画像生成部１３は、生成用データベースを参照し、サンプル画像（新たな参照画像又は新たな訓練画像）に基づく疑似画像を生成する。疑似画像の生成方法は、上述した内容と同様である。なお、評価用データベースを他の端末等により生成する場合、評価装置１は、疑似画像生成部１３を備えなくてもよい。

＜変換部１４＞
変換部１４は、疑似画像を、疑似音データに変換する。変換部１４は、例えば疑似音データに乱数で発生させたノイズを加える。疑似音データを変換する方法は、上述した内容と同様である。なお、評価用データベースを他の端末等により生成する場合、評価装置１は、変換部１４を備えなくてもよい。

＜評価部１５＞
評価部１５は、評価用データベースを参照して、評価対象用音データに基づく評価結果を生成する。評価結果を生成する方法は、上述した内容と同様である。

＜出力部１６＞
出力部１６は、評価結果等を出力部分１０９等に出力する。出力部１６は、例えば公衆通信網２を介して、他の端末等に評価結果を送信する。

＜記憶部１７＞
記憶部１７は、取得部１１で取得した各種情報や、評価部１５で生成された評価結果等を、保存部１０４に保存し、必要に応じて保存部１０４に保存された各種情報を取出す。

（評価装置１の動作）
次に、図７を参照して、本実施形態における評価装置１の動作の一例を説明する。図７は、本実施形態における評価装置１の動作の一例を示すフローチャートである。

＜評価データ取得ステップＳ３１０＞
先ず、評価対象用音データを取得する（評価データ取得ステップＳ３１０）。取得部１１は、例えば収音装置により収集された音に基づき生成された音データを、評価対象用音データとして取得する。取得部１１は、上述した学習用の音データと同じ形式の評価対象用音データを取得する。取得部１１は、例えば記憶部１７を介して、取得した評価対象用音データを保存部１０４に保存する。

＜評価結果生成ステップＳ３２０＞
次に、評価対象用音データに基づく評価結果を生成する（評価結果生成ステップＳ３２０）。評価部１５は、評価用データベースを参照し、評価対象用音データに基づく評価結果を生成する。評価部１５は、例えば１つの評価対象用音データに対して１つの評価結果を生成するほか、複数の評価対象用音データに対して１つの評価結果を生成してもよい。

上述した各ステップを行うことで、本実施形態における評価装置１の動作が完了する。なお、評価装置１を用いて学習データ生成方法、又は学習方法を実施する場合においては、上述したデータベース生成部１２等を用いて行うことができる。

本実施形態によれば、生成ステップＳ１３０は、サンプル画像（新たな参照画像又は新たな訓練画像）に基づく疑似画像を生成し、変換ステップＳ１４０は、疑似画像を疑似音データに変換する。すなわち、学習データとして用いられる音データが少ない場合においても、疑似音データを学習データとして用いることができる。このため、機械学習に用いられる学習データを容易に取得することができる。これにより、学習データを取得するための時間や費用の削減を実現することが可能となる。

また、本実施形態によれば、評価部１５は、評価用データベース（第２データベース）を参照して、評価対象用音データに基づく評価結果を生成する。このため、学習データとして用いられる音データが少ない場合においても、疑似音データを用いた機械学習により生成された評価用データベースを参照することにより、評価結果の精度の向上を図ることが可能となる。

また、本実施形態によれば、疑似画像生成部１３は、新たな参照画像又は新たな訓練画像に基づく疑似画像を生成し、変換部１４は、疑似画像を疑似音データに変換する。すなわち、学習データとして用いられる音データが少ない場合においても、疑似音データを学習データとして用いることができる。このため、機械学習に用いられる学習データを容易に取得することができる。これにより、学習データを取得するための時間や費用の削減を実現することが可能となる。

また、本実施形態によれば、評価部１５は、評価用データベースを参照して、評価対象用音データに基づく評価結果を生成する。このため、学習データとして用いられる音データが少ない場合においても、疑似音データを用いた機械学習により生成された評価用データベースを参照することにより、評価結果の精度の向上を図ることが可能となる。

また、本実施形態によれば、複数の疑似画像は、それぞれ異なる疑似音データに変換される。このため、１つの音データから複数の疑似音データを生成することができる。これにより、学習データが少ない場合においても、機械学習に必要な学習データを容易に確保することが可能となる。

また、本実施形態によれば、第１データベース生成ステップＳ１２０は、ＧＡＮに基づき生成用データベースを生成する。このため、他の学習モデルを用いる場合に比べて、容易に疑似データを生成することが可能となる。

また、本実施形態によれば、変換ステップＳ１４０は、疑似音データに乱数で発生させたノイズを加えてもよい。このため、疑似音データを、実際に取得される音に近づけることができる。これにより、学習データとしての質を向上させることが可能となる。

また、本実施形態によれば、生成ステップＳ１３０は、サンプルデータ（新たな参照データ又は新たな訓練データ）に基づく疑似データを生成する。すなわち、学習データとして用いられる音データが少ない場合においても、疑似データを学習データとして用いることができる。このため、機械学習に用いられる学習データを容易に取得することができる。これにより、学習データを取得するための時間や費用の削減を実現することが可能となる。

本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１：評価装置
２：公衆通信網
１０：筐体
１１：取得部
１２：データベース生成部
１３：疑似画像生成部
１４：変換部
１５：評価部
１６：出力部
１７：記憶部
１０１：ＣＰＵ
１０２：ＲＯＭ
１０３：ＲＡＭ
１０４：保存部
１０５：Ｉ／Ｆ
１０６：Ｉ／Ｆ
１０７：Ｉ／Ｆ
１０８：入力部分
１０９：出力部分
１１０：内部バス
Ｓ１１０：取得ステップ
Ｓ１２０：第１データベース生成ステップ
Ｓ１３０：生成ステップ
Ｓ１４０：変換ステップ
Ｓ２１０：第２データベース生成ステップ
Ｓ３１０：評価データ取得ステップ
Ｓ３２０：評価結果生成ステップ

Claims

機械学習の学習データとして用いる音データを疑似的に生成する学習データ生成方法であって、
学習用の前記音データから変換されたスペクトログラムの一部を抽出した参照画像と、前記参照画像の一部を削除した訓練画像と、を取得する取得ステップと、
前記参照画像と、前記訓練画像とを一対の入力データとした機械学習により第１データベースを生成する第１データベース生成ステップと、
前記第１データベースを参照し、新たな前記参照画像又は新たな前記訓練画像に基づく疑似画像を生成する生成ステップと、
前記疑似画像を、疑似音データに変換する変換ステップと、
を備えることを特徴とする学習データ生成方法。
前記生成ステップは、１つの新たな前記参照画像又は１つの新たな前記訓練画像に対して、複数の前記疑似画像を生成し、
複数の前記疑似画像は、それぞれ異なる前記疑似音データに変換されること
を特徴とする請求項１記載の学習データ生成方法。
前記第１データベース生成ステップは、機械学習に基づき前記第１データベースを生成すること
を特徴とする請求項１又は２記載の学習データ生成方法。
前記第１データベース生成ステップは、生成系の機械学習に基づき前記第１データベースを生成すること
を特徴とする請求項１又は２記載の学習データ生成方法。
前記音データは、コネクタ音と、周辺環境音とを含むこと
を特徴とする請求項１〜４の何れか１項記載の学習データ生成方法。
前記変換ステップは、逆短時間フーリエ変換を用いて前記疑似画像から変換された前記疑似音データに対して、乱数で発生させたノイズを加えること
を特徴とする請求項１〜５の何れか１項記載の学習データ生成方法。
請求項１〜６の何れか１項記載の学習データ生成方法により生成された前記疑似音データを学習データとして機械学習する学習方法であって、
前記疑似音データと、前記疑似音データに紐づく評価データとを一対の入力データとした機械学習により第２データベースを生成する第２データベース生成ステップと、
を備えることを特徴とする学習方法。
請求項７記載の学習方法により生成された前記第２データベースを用いて、評価対象用音データを評価する評価装置であって、
前記評価対象用音データを取得する取得部と、
前記第２データベースを参照して、前記評価対象用音データに基づく評価結果を生成する評価部と、
を備えることを特徴とする評価装置。
評価対象用音データを評価する評価装置であって、
学習用の音データから変換されたスペクトログラムの一部を抽出した参照画像と、前記参照画像の一部を削除した訓練画像と、を取得する第１取得部と、
前記参照画像と、前記訓練画像とを一対の入力データとした機械学習により第１データベースを生成する第１データベース生成部と、
前記第１データベースを参照し、新たな前記参照画像又は新たな前記訓練画像に基づく疑似画像を生成する疑似画像生成部と、
前記疑似画像を、疑似音データに変換する変換部と、
前記疑似音データと、前記疑似音データに紐づく評価データとを一対の入力データとした機械学習により第２データベースを生成する第２データベース生成部と、
前記評価対象用音データを取得する第２取得部と、
前記第２データベースを参照して、前記評価対象用音データに基づく評価結果を生成する評価部と、
を備えることを特徴とする評価装置。
機械学習の学習データとして用いる音データを疑似的に生成する学習データ生成方法であって、
学習用の前記音データに基づく参照データと、前記参照データの一部を削除した訓練データと、を取得する取得ステップと、
前記参照データと、前記訓練データとを一対の入力データとした機械学習により第１データベースを生成する第１データベース生成ステップと、
前記第１データベースを参照し、新たな前記参照データ又は新たな前記訓練データに基づく疑似データを生成する生成ステップと、
を備えることを特徴とする学習データ生成方法。
前記生成ステップは、１つの新たな前記参照データ又は１つの新たな前記訓練データに対して、複数の前記疑似データを生成すること
を特徴とする請求項１０記載の学習データ生成方法。
請求項１０又は１１記載の学習データ生成方法により生成された前記疑似データを学習データとして機械学習する学習方法であって、
前記疑似データと、前記疑似データに紐づく評価データとを一対の入力データとした機械学習により第２データベースを生成する第２データベース生成ステップと、
を備えることを特徴とする学習方法。
請求項１２記載の学習方法により生成された前記第２データベースを用いて、評価対象用音データを評価する評価装置であって、
前記評価対象用音データを取得する取得部と、
前記第２データベースを参照して、前記評価対象用音データに基づく評価結果を生成する評価部と、
を備えることを特徴とする評価装置。