JP6452061B1 - 学習データ生成方法、学習方法、及び評価装置 - Google Patents

学習データ生成方法、学習方法、及び評価装置 Download PDF

Info

Publication number
JP6452061B1
JP6452061B1 JP2018152116A JP2018152116A JP6452061B1 JP 6452061 B1 JP6452061 B1 JP 6452061B1 JP 2018152116 A JP2018152116 A JP 2018152116A JP 2018152116 A JP2018152116 A JP 2018152116A JP 6452061 B1 JP6452061 B1 JP 6452061B1
Authority
JP
Japan
Prior art keywords
data
learning
database
evaluation
pseudo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018152116A
Other languages
English (en)
Other versions
JP2020027182A (ja
Inventor
継 河合
継 河合
Original Assignee
クリスタルメソッド株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by クリスタルメソッド株式会社 filed Critical クリスタルメソッド株式会社
Priority to JP2018152116A priority Critical patent/JP6452061B1/ja
Application granted granted Critical
Publication of JP6452061B1 publication Critical patent/JP6452061B1/ja
Publication of JP2020027182A publication Critical patent/JP2020027182A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】学習データを容易に取得することができる学習データ生成方法、学習方法、及び評価装置を提供する。【解決手段】機械学習の学習データとして用いる音データを疑似的に生成する学習データ生成方法であって、前記音データから変換されたスペクトログラムの一部を抽出した参照画像と、前記参照画像の一部を削除した訓練画像と、を取得する取得ステップと、前記参照画像と、前記訓練画像とを一対の入力データとした機械学習により第1データベースを生成する第1データベース生成ステップと、前記第1データベースを参照し、新たな前記参照画像又は新たな前記訓練画像に基づく疑似画像を生成する生成ステップと、前記疑似画像を、前記疑似音データに変換する変換ステップと、を備えることを特徴とする。【選択図】図1

Description

本発明は、学習データ生成方法、学習方法、及び評価装置に関する。
従来、発話等の音を評価する技術として、例えば特許文献1の評価装置等が提案されている。
特許文献1では、例えば発話者の自由発話の音声信号が入力される入力部と、入力された音声信号から評価に用いられる特徴を抽出する特徴抽出部と、特徴抽出部で抽出された特徴と予め格納されている参照特徴を比較する特徴評価部と、比較結果を出力する出力部と、を備え、前記評価に用いられる特徴には、少なくとも発声の明瞭さが含まれ、前記発声の明瞭さは、入力された音声信号における阻害音対共鳴音比によって表され、前記特徴抽出部は、入力された音声信号を複数のセグメントに分割する手段と、得られたセグメントを阻害音と共鳴音に分類する手段と、を用いて前記阻害音対共鳴音比を取得する、発話評価装置が開示されている。
特開2015−68897号公報
ここで、例えば特許文献1のような音を評価する技術には、機械学習を用いて生成されたデータベース(分類器等)を参照する場合がある。機械学習を用いる場合、精度を向上させるために膨大な数の学習データが必要となる。特に、音を対象とした学習データを取得する場合、音の周波数や観測時間等のパラメータも多くなるため、文字や画像に比べて、学習データのファイル数やメモリ占有量等を必要とする傾向がある。このため、学習データを取得するためには、膨大な時間や費用が必要となり、容易に学習データを取得することが課題として挙げられる。この点、特許文献1の開示技術では、上述した課題を解決することは難しい。
そこで本発明は、上述した問題点に鑑みて案出されたものであり、その目的とするところは、学習データを容易に取得することができる学習データ生成方法、学習方法、及び評価装置を提供することにある。
第1発明に係る学習データ生成方法は、機械学習の学習データとして用いる音データを疑似的に生成する学習データ生成方法であって、学習用の前記音データから変換されたスペクトログラムの一部を抽出した参照画像と、前記参照画像の一部を削除した訓練画像と、を取得する取得ステップと、前記参照画像と、前記訓練画像とを一対の入力データとした機械学習により第1データベースを生成する第1データベース生成ステップと、前記第1データベースを参照し、新たな前記参照画像又は新たな前記訓練画像に基づく疑似画像を生成する生成ステップと、前記疑似画像を、疑似音データに変換する変換ステップと、を備えることを特徴とする。
第2発明に係る学習データ生成方法は、第1発明において、前記生成ステップは、1つの新たな前記参照画像又は1つの新たな前記訓練画像に対して、複数の前記疑似画像を生成し、複数の前記疑似画像は、それぞれ異なる前記疑似音データに変換されることを特徴とする。
第3発明に係る学習データ生成方法は、第1発明又は第2発明において、前記第1データベース生成ステップは、機械学習に基づき前記第1データベースを生成することを特徴とする。
第4発明に係る学習データ生成方法は、第1発明又は第2発明において、前記第1データベース生成ステップは、生成系の機械学習に基づき前記第1データベースを生成することを特徴とする。
第5発明に係る学習データ生成方法は、第1発明〜第4発明の何れかにおいて、前記音データは、コネクタ音と、周辺環境音とを含むことを特徴とする。
第6発明に係る学習データ生成方法は、第1発明〜第5発明の何れかにおいて、前記変換ステップは、逆短時間フーリエ変換を用いて前記疑似画像から変換された前記疑似音データに対して、乱数で発生させたノイズを加えることを特徴とする。
第7発明に係る学習方法は、第1発明〜第6発明における学習データ生成方法により生成された前記疑似音データを学習データとして機械学習する学習方法であって、前記疑似音データと、前記疑似音データに紐づく評価データとを一対の入力データとした機械学習により第2データベースを生成する第2データベース生成ステップと、を備えることを特徴とする。
第8発明に係る評価装置は、第7発明における学習方法により生成された前記第2データベースを用いて、評価対象用音データを評価する評価装置であって、前記評価対象用音データを取得する取得部と、前記第2データベースを参照して、前記評価対象用音データに基づく評価結果を生成する評価部と、を備えることを特徴とする。
第9発明に係る評価装置は、評価対象用音データを評価する評価装置であって、学習用の音データから変換されたスペクトログラムの一部を抽出した参照画像と、前記参照画像の一部を削除した訓練画像と、を取得する第1取得部と、前記参照画像と、前記訓練画像とを一対の入力データとした機械学習により第1データベースを生成する第1データベース生成部と、前記第1データベースを参照し、新たな前記参照画像又は新たな前記訓練画像に基づく疑似画像を生成する疑似画像生成部と、前記疑似画像を、前記疑似音データに変換する変換部と、前記疑似音データと、前記疑似音データに紐づく評価データとを一対の入力データとした機械学習により第2データベースを生成する第2データベース生成部と、前記評価対象用音データを取得する第2取得部と、前記第2データベースを参照して、前記評価対象用音データに基づく評価結果を生成する評価部と、を備えることを特徴とする。
第10発明に係る学習データ生成方法は、機械学習の学習データとして用いる音データを疑似的に生成する学習データ生成方法であって、学習用の前記音データに基づく参照データと、前記参照データの一部を削除した訓練データと、を取得する取得ステップと、前記参照データと、前記訓練データとを一対の入力データとした機械学習により第1データベースを生成する第1データベース生成ステップと、前記第1データベースを参照し、新たな前記参照データ又は新たな前記訓練データに基づく疑似データを生成する生成ステップと、を備えることを特徴とする。
第11発明に係る学習データ生成方法は、第10発明において、前記生成ステップは、1つの新たな前記参照データ又は1つの新たな前記訓練データに対して、複数の前記疑似データを生成することを特徴とする。
第12発明に係る学習方法は、第10発明又は第11発明における学習データ生成方法により生成された前記疑似データを学習データとして機械学習する学習方法であって、 前記疑似データと、前記疑似データに紐づく評価データとを一対の入力データとした機械学習により第2データベースを生成する第2データベース生成ステップと、を備えることを特徴とする。
第13発明に係る評価装置は、第12発明における学習方法により生成された前記第2データベースを用いて、評価対象用音データを評価する評価装置であって、前記評価対象用音データを取得する取得部と、前記第2データベースを参照して、前記評価対象用音データに基づく評価結果を生成する評価部と、を備えることを特徴とする。
第1発明〜第8発明によれば、生成ステップは、新たな参照画像又は新たな訓練画像に基づく疑似画像を生成し、変換ステップは、疑似画像を疑似音データに変換する。すなわち、学習データとして用いられる音データが少ない場合においても、疑似音データを学習データとして用いることができる。このため、機械学習に用いられる学習データを容易に取得することができる。これにより、学習データを取得するための時間や費用の削減を実現することが可能となる。
特に、第8発明によれば、評価部は、第2データベースを参照して、評価対象用音データに基づく評価結果を生成する。このため、学習データとして用いられる音データが少ない場合においても、疑似音データを用いた機械学習により生成された第2データベースを参照することにより、評価結果の精度の向上を図ることが可能となる。
第9発明によれば、疑似画像生成部は、新たな参照画像又は新たな訓練画像に基づく疑似画像を生成し、変換部は、疑似画像を疑似音データに変換する。すなわち、学習データとして用いられる音データが少ない場合においても、疑似音データを学習データとして用いることができる。このため、機械学習に用いられる学習データを容易に取得することができる。これにより、学習データを取得するための時間や費用の削減を実現することが可能となる。
また、第9発明によれば、評価部は、第2データベースを参照して、評価対象用音データに基づく評価結果を生成する。このため、学習データとして用いられる音データが少ない場合においても、疑似音データを用いた機械学習により生成された第2データベースを参照することにより、評価結果の精度の向上を図ることが可能となる。
第10発明〜第13発明によれば、生成ステップは、新たな参照データ又は新たな訓練データに基づく疑似データを生成する。すなわち、学習データとして用いられる音データが少ない場合においても、疑似データを学習データとして用いることができる。このため、機械学習に用いられる学習データを容易に取得することができる。これにより、学習データを取得するための時間や費用の削減を実現することが可能となる。
特に、第13発明によれば、評価部は、第2データベースを参照して、評価対象用音データに基づく評価結果を生成する。このため、学習データとして用いられる音データが少ない場合においても、疑似音データを用いた機械学習により生成された第2データベースを参照することにより、評価結果の精度の向上を図ることが可能となる。
図1(a)は、本実施形態における評価装置の用途の一例を示す模式図であり、図1(b)は、本実施形態における学習方法の概要を示す模式図であり、図1(c)は、本実施形態における学習データ生成方法の概要を示す模式図である。 図2(a)は、音データの一例を示す模式図であり、図2(b)は、スペクトログラムの一例を示す模式図であり、図2(c)は、参照画像の一例を示す模式図であり、図2(d)は、訓練画像の一例を示す模式図である。 図3は、本実施形態における学習データ生成方法の一例を示すフローチャートである。 図4(a)〜(c)は、音データ、スペクトログラム、参照画像、及び訓練画像の関係を示す模式図である。 図5は、本実施形態における学習方法の一例を示すフローチャートである。 図6(a)は、本実施形態における評価装置の構成の一例を示す模式図であり、図6(b)は、本実施形態における評価装置の機能の一例を示す模式図である。 図7は、本実施形態における評価装置の動作の一例を示すフローチャートである。 図8は、本実施形態における音データ及び訓練データの一例を示す模式図である。
以下、本発明を適用した実施形態における学習データ生成方法、学習方法、及び評価装置の一例について、図面を参照しながら説明する。
図1を参照して、本実施形態における学習データ生成方法、学習方法、及び評価装置1の一例について説明する。図1(a)は、本実施形態における評価装置1の用途の一例を示す模式図であり、図1(b)は、本実施形態における学習方法の概要を示す模式図であり、図1(c)は、本実施形態における学習データ生成方法の概要を示す模式図である。
本実施形態における評価装置1は、例えば図1(a)に示すように、音データ(評価対象用音データ)を取得し、音データに対する評価結果を出力するものである。評価装置1は、例えば工場等に設置され、特定の音が含まれるか否かの評価や製品の出荷検査等に用いられるほか、例えば環境音やノイズ音の制御が必要な空間の評価等に用いられる。評価装置1として、例えばパーソナルコンピュータ(PC)等の電子機器が用いられる。
評価装置1に取得される評価対象用音データは、例えば図示しないマイク等の収音装置により収集された音に基づき生成される。評価対象用音データは、例えば工場内における装置の稼働音、空調音、コネクタ音等の機械音や周辺環境音のほか、人の発話等の音声を含む。評価対象用音データは、例えば図2(a)に示すように、時間軸に対する振幅で示される。
評価装置1は、評価用データベース(第2データベース)を参照し、音データに対する評価結果を出力する。評価装置1は、例えば評価対象用音データに対して規格等の範囲内(OK)又は範囲外(NG)を評価した結果を、評価結果として出力する。評価結果の内容は、評価用データベースの生成時において任意に設定することができる。
本実施形態における学習方法は、例えば図1(b)に示すように、疑似的に生成された疑似音データを学習データとして用いた機械学習により、評価用データベースを生成するものである。学習データには、疑似音データと疑似音データに紐づく評価データとの一対のデータが複数含まれるほか、マイク等の収音装置により収集された音から生成された音データと、音データに紐づく評価データとの一対のデータが複数含まれてもよい。学習データに含まれる疑似音データの割合は、任意である。
疑似音データ及び音データは、例えば図2(a)に示すように、上述した評価対象用データと同様に時間軸に対する振幅で示される。評価データは、例えば「OK」、「NG」等の2値で表される評価結果を示すほか、紐づく音データの特徴を評価した結果を示してもよい。なお、評価データの内容は、ユーザ等によって任意に設定できる。
学習方法では、例えばニューラルネットワークをモデルとした機械学習を用いて、評価用データベースを生成する。評価用データベースは、例えばCNN(Convolution Neural Network)やオートエンコーダをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。評価用データベースには、例えば疑似音データと評価データとの間における連関度が記憶される。連関度は、疑似音データと評価データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。
本実施形態における学習データ生成方法は、例えば図1(c)に示すように、サンプル画像を取得し、サンプル画像に対する疑似画像を生成し、疑似画像を疑似音データに変換するものである。学習データ生成方法では、生成用データベースを参照し、サンプル画像に対する疑似画像を生成する。学習データ生成方法は、1つのサンプル画像に対して、少なくとも1つの疑似画像を生成することができる。
学習データ生成方法では、例えばニューラルネットワークをモデルとした機械学習を用いて、生成用データベース(第1データベース)を生成する。学習データ生成方法では、GAN(Generative Adversarial Network)やオートエンコーダをモデルとした機械学習を用いて、生成用データベースが生成され、特に、Conditional GANの一種であるpix2pixをモデルとした機械学習を用いて、生成用データベースが生成されてもよい。
学習データ生成方法では、生成用データベースを生成する際、参照画像と、訓練画像との一対のデータが、学習データとして複数用いられる。学習データ生成方法では、学習用の音データを変換したスペクトログラムの一部を抽出した参照画像と、参照画像の一部を削除した訓練画像とが用いられる。
学習データ生成方法に用いられる学習用の音データとして、例えば図2(a)に示すように、上述した評価対象用音データと同種のデータが用いられる。スペクトログラムは、例えば図2(b)に示すように、時間軸及び周波数軸に対する強度(振幅)で示され、例えばフーリエ変換(例えば短時間フーリエ変換)を用いて音データから変換される。学習データ生成方法において、スペクトログラムは、画像データとして用いられ、例えば1ピクセル×1ピクセルは、0.064sec×15.624Hzの範囲に対応する。
参照画像として、例えば図2(c)に示すように、スペクトログラムにおける一部(図2(b)では破線枠)を抽出した画像が用いられる。参照画像として、例えばスペクトログラムにおける0.512sec×1280Hzの範囲を抽出した画像が用いられる。
訓練画像として、例えば図2(d)に示すように、参照画像における一部を削除(図2(c)では破線部)した画像が用いられる。訓練画像として、例えば0.512sec×125Hzの範囲を削除した画像が用いられる。
生成用データベースは、参照画像と、訓練画像とを一対の入力データとした機械学習により生成されることで、入力データ(例えばサンプル画像)に対する疑似データの生成に用いることができる。この疑似データの生成は、GAN等のようなGeneratorとDiscriminatorとの2つのネットワークを持つモデルを用いて行われる画像補完の技術を利用することで、実現することが可能である。即ち、参照画像を、訓練画像の正解画像として学習させることで、疑似画像を生成する精度を高めることができる。
学習データ生成方法に用いられるサンプル画像として、例えば参照画像又は訓練画像と同種の画像が用いられる。即ち、サンプル画像として、サンプルとして取得された音データを変換したスペクトログラムの一部を抽出した参照画像(新たな参照画像)、又は、参照画像における一部を削除した訓練画像(新たな訓練画像)が用いられる。何れの画像が用いられる場合においても、1つのサンプル画像から複数の疑似画像を生成することができる。
学習データ生成方法によって生成される疑似音データは、例えば逆フーリエ変換(例えば逆短時間フーリエ変換)を用いて疑似画像から変換される。これにより、サンプルとして取得された音データに対して疑似音データを取得することができる。
なお、学習データ生成方法では、例えば学習用の音データを画像に変換しないデータを参照データとし、参照データの一部を削除したデータを訓練データとして、参照データと訓練データを一対のデータとした機械学習により、生成用データベースを生成してもよい。この場合、例えば音データにおける特定の期間の振幅を抽出したものを参照データとし、参照データにおける特定の期間の振幅を削除したものを訓練データとする。ここで「振幅」は、アナログ値、デジタル値、又は画像表示値の何れでもよい。この場合、上述したサンプル画像の代わりに、参照データ又は訓練データと同種のサンプルデータが用いられる。
例えば、図8は、本実施形態における音データ及び訓練データの一例を示す模式図である。図8の(a)は、学習用の音データの一例である。図8の(b)は、音データの一部を削除した訓練データである。
なお、評価装置1は、上述した学習データ生成方法及び学習方法を実施する機能を備えるほか、例えば他の端末等によって生成された生成用データベース、疑似音データ及び評価用データベースの少なくとも何れかを取得してもよい。
(学習データ生成方法)
次に、図3を参照して、本実施形態における学習データ生成方法の一例を説明する。図3は、本実施形態における学習データ生成方法の一例を示すフローチャートである。なお、以下では参照画像及び訓練画像を用いた動作について説明するが、参照データ及び訓練データを用いた場合においても同様の動作のため、説明を省略する。
<取得ステップS110>
先ず、参照情報と、訓練情報とを取得する(取得ステップS110)。取得ステップS110では、評価対象の基準となる学習用の音データから変換されたスペクトログラムの一部を抽出した参照画像と、参照画像の一部を削除した訓練画像とを取得する。なお、取得ステップS110では、例えば予め生成された参照情報及び訓練情報を取得するほか、例えば収音装置により収集された音に基づき生成された音データを取得し、音データをスペクトログラムに変換(図4(a))し、スペクトログラムから参照画像を抽出(図4(b))し、参照画像の一部を削除した訓練画像を取得(図4(c))する動作を実行する評価装置1等の電子機器を用いてもよい。この場合、スペクトログラムから参照画像を取得する範囲や、参照画像の一部を削除する範囲は、予め設定してもよい。
<第1データベース生成ステップS120>
次に、生成用データベース(第1データベース)を生成する(第1データベース生成ステップS120)。第1データベース生成ステップS120では、参照画像と、訓練画像とを一対の入力データとした機械学習により、生成データベースを生成する。入力データは、参照画像と訓練画像との一対のデータを複数(例えば1000程度)含み、例えば1つの参照画像に対して、削除箇所の異なる複数の訓練画像を、それぞれ一対のデータとして入力データに含ませてもよい。第1データベース生成ステップS120では、例えばpix2pixをモデルとした機械学習を用いて、生成用データベースを生成する。
<生成ステップS130>
次に、疑似画像を生成する(生成ステップS130)。生成ステップS130では、生成データベースを参照し、サンプル画像(新たな参照画像又は新たな訓練画像)に基づく疑似画像を生成する。生成ステップS130では、例えば第1データベース生成ステップS120に用いた参照画像又は訓練画像を、サンプル画像として用いてもよいほか、例えば第1データベース生成ステップS120に用いられない参照画像又は訓練画像を、サンプル画像として用いてもよい。何れの場合においても、サンプル画像は、取得ステップS110により取得された参照情報又は訓練画像と同様の方法により取得できる。
生成ステップS130は、例えば1つのサンプル画像に対して、複数の疑似画像を生成してもよい。この場合、複数の疑似画像は、それぞれ異なる疑似音データに変換される。このため、1つの音データから複数の疑似音データを生成することができる。これにより、学習データが少ない場合においても、機械学習に必要な学習データを容易に確保することが可能となる。
<変換ステップS140>
次に、疑似画像を疑似音データに変換する(変換ステップS140)。変換ステップS140では、疑似画像を、疑似音データに変換する。変換ステップS140は、例えば疑似音データに乱数で発生させたノイズを加えてもよい。このため、疑似音データを、実際に取得される音に近づけることができる。これにより、学習データとしての質を向上させることが可能となる。
上述した各ステップを行うことで、本実施形態における学習データ生成方法が完了する。なお、参照データ及び訓練データを用いた場合、変換ステップS140を省略してもよい。
(学習方法)
次に、図5を参照して、本実施形態における学習方法の一例を説明する。図5は、本実施形態における学習方法の一例を示すフローチャートである。
<第2データベース生成ステップS210>
本実施形態における学習方法では、評価用データベース(第2データベース)を生成する(第2データベース生成ステップS210)。第2データベース生成ステップS210では、疑似音データと、疑似音データに紐づく評価データとを一対の入力データとした機械学習により、評価用データベースを生成する。入力データは、疑似音データと評価データとの一対のデータを複数含み、例えば収音装置より収集された音に基づき生成された音データと、評価データとの一対のデータを複数含んでもよい。第2データベース生成ステップS210では、例えばCNNをモデルとした機械学習を用いて、評価用データベースを生成する。
上述したステップを行うことで、本実施形態における学習方法が完了する。
(評価装置1)
次に、図6を参照して、本実施形態における評価装置1の一例を説明する。図6(a)は、本実施形態における評価装置1の構成の一例を示す模式図であり、図6(b)は、本実施形態における評価装置1の機能の一例を示す模式図である。
評価装置1は、例えば図6(a)に示すように、筐体10と、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、保存部104と、I/F105〜107とを備える。各構成101〜107は、内部バス110により接続される。
CPU101は、評価装置1全体を制御する。ROM102は、CPU101の動作コードを格納する。RAM103は、CPU101の動作時に使用される作業領域である。保存部104は、音データ等の各種情報が記憶される。保存部104として、例えばHDD(Hard Disk Drive)の他、SSD(solid state drive)やフロッピーディスク等のデータ保存装置が用いられる。なお、例えば評価装置1は、図示しないGPU(Graphics Processing Unit)を有してもよい。GPUを有することで、通常よりも高速演算処理が可能となる。
I/F105は、インターネット等の公衆通信網2を介してサ、他の端末や専用サーバ等との各種情報の送受信を行うためのインターフェースである。I/F106は、入力部分108との情報の送受信を行うためのインターフェースである。入力部分108として、例えばキーボードが用いられ、評価装置1の利用者等は、入力部分108を介して、各種情報又は評価装置1の制御コマンド等を入力する。I/F107は、出力部分109との各種情報の送受信を行うためのインターフェースである。出力部分109は、保存部104に保存された各種情報、又は評価装置1の処理状況等を出力する。出力部分109として、ディスプレイが用いられ、例えばタッチパネル式でもよい。
図6(b)は、評価装置1の機能の一例を示す模式図である。評価装置1は、取得部11と、データベース生成部12と、疑似画像生成部13と、変換部14と、評価部15と、出力部16と、記憶部17とを備える。なお、図6(b)に示した機能は、CPU101が、RAM103を作業領域として、保存部104等に記憶されたプログラムを実行することにより実現され例えば人工知能により制御されてもよい。
<取得部11>
取得部11は、評価対象用音データを取得する。取得部11は、例えば評価用データベースを生成するための音データ(疑似音データ)、評価データ等を取得してもよい。取得部11は、例えば疑似音データを生成するための音データ、参照情報、訓練情報、サンプル画像等を取得してもよい。
取得部11は、例えば第1取得部と、第2取得部とを有し、それぞれ異なる情報を取得するようにしてもよい。この場合、第1取得部は、参照画像と、訓練画像とを取得し、第2取得部は、評価対象用音データを取得する。
<データベース生成部12>
データベース生成部12は、生成用データベース、及び評価用データベースの少なくとも何れかを生成する。生成用データベース、及び評価用データベースの少なくとも何れかを生成する方法は、上述した内容と同様である。なお、生成用データベース、及び評価用データベースを他の端末等により生成する場合、評価装置1は、データベース生成部12を備えなくてもよい。
データベース生成部12は、例えば第1データベース生成部と、第2データベース生成部とを有し、それぞれ異なるデータベースを生成するようにしてもよい。この場合、第1データベース生成部は、生成用データベースを生成し、第2データベース生成部は、評価用データベースを生成する。
<疑似画像生成部13>
疑似画像生成部13は、生成用データベースを参照し、サンプル画像(新たな参照画像又は新たな訓練画像)に基づく疑似画像を生成する。疑似画像の生成方法は、上述した内容と同様である。なお、評価用データベースを他の端末等により生成する場合、評価装置1は、疑似画像生成部13を備えなくてもよい。
<変換部14>
変換部14は、疑似画像を、疑似音データに変換する。変換部14は、例えば疑似音データに乱数で発生させたノイズを加える。疑似音データを変換する方法は、上述した内容と同様である。なお、評価用データベースを他の端末等により生成する場合、評価装置1は、変換部14を備えなくてもよい。
<評価部15>
評価部15は、評価用データベースを参照して、評価対象用音データに基づく評価結果を生成する。評価結果を生成する方法は、上述した内容と同様である。
<出力部16>
出力部16は、評価結果等を出力部分109等に出力する。出力部16は、例えば公衆通信網2を介して、他の端末等に評価結果を送信する。
<記憶部17>
記憶部17は、取得部11で取得した各種情報や、評価部15で生成された評価結果等を、保存部104に保存し、必要に応じて保存部104に保存された各種情報を取出す。
(評価装置1の動作)
次に、図7を参照して、本実施形態における評価装置1の動作の一例を説明する。図7は、本実施形態における評価装置1の動作の一例を示すフローチャートである。
<評価データ取得ステップS310>
先ず、評価対象用音データを取得する(評価データ取得ステップS310)。取得部11は、例えば収音装置により収集された音に基づき生成された音データを、評価対象用音データとして取得する。取得部11は、上述した学習用の音データと同じ形式の評価対象用音データを取得する。取得部11は、例えば記憶部17を介して、取得した評価対象用音データを保存部104に保存する。
<評価結果生成ステップS320>
次に、評価対象用音データに基づく評価結果を生成する(評価結果生成ステップS320)。評価部15は、評価用データベースを参照し、評価対象用音データに基づく評価結果を生成する。評価部15は、例えば1つの評価対象用音データに対して1つの評価結果を生成するほか、複数の評価対象用音データに対して1つの評価結果を生成してもよい。
上述した各ステップを行うことで、本実施形態における評価装置1の動作が完了する。なお、評価装置1を用いて学習データ生成方法、又は学習方法を実施する場合においては、上述したデータベース生成部12等を用いて行うことができる。
本実施形態によれば、生成ステップS130は、サンプル画像(新たな参照画像又は新たな訓練画像)に基づく疑似画像を生成し、変換ステップS140は、疑似画像を疑似音データに変換する。すなわち、学習データとして用いられる音データが少ない場合においても、疑似音データを学習データとして用いることができる。このため、機械学習に用いられる学習データを容易に取得することができる。これにより、学習データを取得するための時間や費用の削減を実現することが可能となる。
また、本実施形態によれば、評価部15は、評価用データベース(第2データベース)を参照して、評価対象用音データに基づく評価結果を生成する。このため、学習データとして用いられる音データが少ない場合においても、疑似音データを用いた機械学習により生成された評価用データベースを参照することにより、評価結果の精度の向上を図ることが可能となる。
また、本実施形態によれば、疑似画像生成部13は、新たな参照画像又は新たな訓練画像に基づく疑似画像を生成し、変換部14は、疑似画像を疑似音データに変換する。すなわち、学習データとして用いられる音データが少ない場合においても、疑似音データを学習データとして用いることができる。このため、機械学習に用いられる学習データを容易に取得することができる。これにより、学習データを取得するための時間や費用の削減を実現することが可能となる。
また、本実施形態によれば、評価部15は、評価用データベースを参照して、評価対象用音データに基づく評価結果を生成する。このため、学習データとして用いられる音データが少ない場合においても、疑似音データを用いた機械学習により生成された評価用データベースを参照することにより、評価結果の精度の向上を図ることが可能となる。
また、本実施形態によれば、複数の疑似画像は、それぞれ異なる疑似音データに変換される。このため、1つの音データから複数の疑似音データを生成することができる。これにより、学習データが少ない場合においても、機械学習に必要な学習データを容易に確保することが可能となる。
また、本実施形態によれば、第1データベース生成ステップS120は、GANに基づき生成用データベースを生成する。このため、他の学習モデルを用いる場合に比べて、容易に疑似データを生成することが可能となる。
また、本実施形態によれば、変換ステップS140は、疑似音データに乱数で発生させたノイズを加えてもよい。このため、疑似音データを、実際に取得される音に近づけることができる。これにより、学習データとしての質を向上させることが可能となる。
また、本実施形態によれば、生成ステップS130は、サンプルデータ(新たな参照データ又は新たな訓練データ)に基づく疑似データを生成する。すなわち、学習データとして用いられる音データが少ない場合においても、疑似データを学習データとして用いることができる。このため、機械学習に用いられる学習データを容易に取得することができる。これにより、学習データを取得するための時間や費用の削減を実現することが可能となる。
本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1 :評価装置
2 :公衆通信網
10 :筐体
11 :取得部
12 :データベース生成部
13 :疑似画像生成部
14 :変換部
15 :評価部
16 :出力部
17 :記憶部
101 :CPU
102 :ROM
103 :RAM
104 :保存部
105 :I/F
106 :I/F
107 :I/F
108 :入力部分
109 :出力部分
110 :内部バス
S110 :取得ステップ
S120 :第1データベース生成ステップ
S130 :生成ステップ
S140 :変換ステップ
S210 :第2データベース生成ステップ
S310 :評価データ取得ステップ
S320 :評価結果生成ステップ

Claims (13)

  1. 機械学習の学習データとして用いる音データを疑似的に生成する学習データ生成方法であって、
    学習用の前記音データから変換されたスペクトログラムの一部を抽出した参照画像と、前記参照画像の一部を削除した訓練画像と、を取得する取得ステップと、
    前記参照画像と、前記訓練画像とを一対の入力データとした機械学習により第1データベースを生成する第1データベース生成ステップと、
    前記第1データベースを参照し、新たな前記参照画像又は新たな前記訓練画像に基づく疑似画像を生成する生成ステップと、
    前記疑似画像を、疑似音データに変換する変換ステップと、
    を備えることを特徴とする学習データ生成方法。
  2. 前記生成ステップは、1つの新たな前記参照画像又は1つの新たな前記訓練画像に対して、複数の前記疑似画像を生成し、
    複数の前記疑似画像は、それぞれ異なる前記疑似音データに変換されること
    を特徴とする請求項1記載の学習データ生成方法。
  3. 前記第1データベース生成ステップは、機械学習に基づき前記第1データベースを生成すること
    を特徴とする請求項1又は2記載の学習データ生成方法。
  4. 前記第1データベース生成ステップは、生成系の機械学習に基づき前記第1データベースを生成すること
    を特徴とする請求項1又は2記載の学習データ生成方法。
  5. 前記音データは、コネクタ音と、周辺環境音とを含むこと
    を特徴とする請求項1〜4の何れか1項記載の学習データ生成方法。
  6. 前記変換ステップは、逆短時間フーリエ変換を用いて前記疑似画像から変換された前記疑似音データに対して、乱数で発生させたノイズを加えること
    を特徴とする請求項1〜5の何れか1項記載の学習データ生成方法。
  7. 請求項1〜6の何れか1項記載の学習データ生成方法により生成された前記疑似音データを学習データとして機械学習する学習方法であって、
    前記疑似音データと、前記疑似音データに紐づく評価データとを一対の入力データとした機械学習により第2データベースを生成する第2データベース生成ステップと、
    を備えることを特徴とする学習方法。
  8. 請求項7記載の学習方法により生成された前記第2データベースを用いて、評価対象用音データを評価する評価装置であって、
    前記評価対象用音データを取得する取得部と、
    前記第2データベースを参照して、前記評価対象用音データに基づく評価結果を生成する評価部と、
    を備えることを特徴とする評価装置。
  9. 評価対象用音データを評価する評価装置であって、
    学習用の音データから変換されたスペクトログラムの一部を抽出した参照画像と、前記参照画像の一部を削除した訓練画像と、を取得する第1取得部と、
    前記参照画像と、前記訓練画像とを一対の入力データとした機械学習により第1データベースを生成する第1データベース生成部と、
    前記第1データベースを参照し、新たな前記参照画像又は新たな前記訓練画像に基づく疑似画像を生成する疑似画像生成部と、
    前記疑似画像を、疑似音データに変換する変換部と、
    前記疑似音データと、前記疑似音データに紐づく評価データとを一対の入力データとした機械学習により第2データベースを生成する第2データベース生成部と、
    前記評価対象用音データを取得する第2取得部と、
    前記第2データベースを参照して、前記評価対象用音データに基づく評価結果を生成する評価部と、
    を備えることを特徴とする評価装置。
  10. 機械学習の学習データとして用いる音データを疑似的に生成する学習データ生成方法であって、
    学習用の前記音データに基づく参照データと、前記参照データの一部を削除した訓練データと、を取得する取得ステップと、
    前記参照データと、前記訓練データとを一対の入力データとした機械学習により第1データベースを生成する第1データベース生成ステップと、
    前記第1データベースを参照し、新たな前記参照データ又は新たな前記訓練データに基づく疑似データを生成する生成ステップと、
    を備えることを特徴とする学習データ生成方法。
  11. 前記生成ステップは、1つの新たな前記参照データ又は1つの新たな前記訓練データに対して、複数の前記疑似データを生成すること
    を特徴とする請求項10記載の学習データ生成方法。
  12. 請求項10又は11記載の学習データ生成方法により生成された前記疑似データを学習データとして機械学習する学習方法であって、
    前記疑似データと、前記疑似データに紐づく評価データとを一対の入力データとした機械学習により第2データベースを生成する第2データベース生成ステップと、
    を備えることを特徴とする学習方法。
  13. 請求項12記載の学習方法により生成された前記第2データベースを用いて、評価対象用音データを評価する評価装置であって、
    前記評価対象用音データを取得する取得部と、
    前記第2データベースを参照して、前記評価対象用音データに基づく評価結果を生成する評価部と、
    を備えることを特徴とする評価装置。
JP2018152116A 2018-08-10 2018-08-10 学習データ生成方法、学習方法、及び評価装置 Active JP6452061B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018152116A JP6452061B1 (ja) 2018-08-10 2018-08-10 学習データ生成方法、学習方法、及び評価装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018152116A JP6452061B1 (ja) 2018-08-10 2018-08-10 学習データ生成方法、学習方法、及び評価装置

Publications (2)

Publication Number Publication Date
JP6452061B1 true JP6452061B1 (ja) 2019-01-16
JP2020027182A JP2020027182A (ja) 2020-02-20

Family

ID=65020469

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018152116A Active JP6452061B1 (ja) 2018-08-10 2018-08-10 学習データ生成方法、学習方法、及び評価装置

Country Status (1)

Country Link
JP (1) JP6452061B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020160344A (ja) * 2019-03-27 2020-10-01 株式会社 日立産業制御ソリューションズ 音響特徴量変換装置、音響モデル学習装置、音響認識装置、音響特徴量変換方法、および音響特徴量変換プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022201256A1 (ja) * 2021-03-22 2022-09-29 日本電気株式会社 情報処理装置、情報処理システム、情報処理方法、及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005196020A (ja) * 2004-01-09 2005-07-21 Nec Corp 音声処理装置と方法並びにプログラム
JP2014219605A (ja) * 2013-05-09 2014-11-20 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
EP3113180A1 (en) * 2015-07-02 2017-01-04 Thomson Licensing Method for performing audio inpainting on a speech signal and apparatus for performing audio inpainting on a speech signal

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005196020A (ja) * 2004-01-09 2005-07-21 Nec Corp 音声処理装置と方法並びにプログラム
JP2014219605A (ja) * 2013-05-09 2014-11-20 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
EP3113180A1 (en) * 2015-07-02 2017-01-04 Thomson Licensing Method for performing audio inpainting on a speech signal and apparatus for performing audio inpainting on a speech signal

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
伊藤 新 外3名: "「MLLR変換行列により制約された音響特徴量生成による頑健な音響モデル」", 電子情報通信学会技術研究報告, vol. 第110巻,第357号, JPN6018044210, 13 December 2010 (2010-12-13), pages pp.55−60 *
西崎 博光 外2名: "「音声コーデックと変分オートエンコーダを利用した音響モデル学習データの拡張」", 日本音響学会 2017年 秋季研究発表会講演論文集CD−ROM [CD−ROM], JPN6018044209, September 2017 (2017-09-01), pages pp.87−90 *
関 翔悟 外3名: "「時間領域信号推定に基づく音声スペクトログラムの欠損成分復元」", 電子情報通信学会技術研究報告, vol. 第116巻,第477号, JPN6018044211, 22 February 2017 (2017-02-22), pages pp.19−24 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020160344A (ja) * 2019-03-27 2020-10-01 株式会社 日立産業制御ソリューションズ 音響特徴量変換装置、音響モデル学習装置、音響認識装置、音響特徴量変換方法、および音響特徴量変換プログラム
JP7208846B2 (ja) 2019-03-27 2023-01-19 株式会社 日立産業制御ソリューションズ 音響特徴量変換装置、音響特徴量変換方法、および音響特徴量変換プログラム

Also Published As

Publication number Publication date
JP2020027182A (ja) 2020-02-20

Similar Documents

Publication Publication Date Title
CN111292764B (zh) 辨识系统及辨识方法
CN110335587B (zh) 语音合成方法、系统、终端设备和可读存储介质
US11355097B2 (en) Sample-efficient adaptive text-to-speech
KR20170053525A (ko) 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
CN113436643B (zh) 语音增强模型的训练及应用方法、装置、设备及存储介质
JP6452061B1 (ja) 学習データ生成方法、学習方法、及び評価装置
CN112735454A (zh) 音频处理方法、装置、电子设备和可读存储介质
CN113886643A (zh) 数字人视频生成方法、装置、电子设备和存储介质
CN112289343B (zh) 音频修复方法、装置及电子设备和计算机可读存储介质
CN113205793B (zh) 音频生成方法、装置、存储介质及电子设备
JP7124373B2 (ja) 学習装置、音響生成装置、方法及びプログラム
CN111028833B (zh) 一种交互、车辆的交互方法、装置
JP2020034683A (ja) 音声認識装置、音声認識プログラムおよび音声認識方法
CN112786001B (zh) 语音合成模型训练方法、语音合成方法和装置
JP6843409B1 (ja) 学習方法、コンテンツ再生装置、及びコンテンツ再生システム
CN110570877A (zh) 手语视频生成方法、电子设备及计算机可读存储介质
CN115995225A (zh) 模型训练方法和装置、语音合成方法、设备及存储介质
CN114822497A (zh) 语音合成模型的训练及语音合成方法、装置、设备和介质
CN113012706B (zh) 一种数据处理方法、装置及电子设备
CN110930333A (zh) 图像修复方法、装置、电子设备及计算机可读存储介质
CN113160849B (zh) 歌声合成方法、装置及电子设备和计算机可读存储介质
TWI814268B (zh) 資料生成裝置、資料生成方法及電腦程式產品
JP7055529B1 (ja) 意味判定プログラム、及び意味判定システム
JP6890867B1 (ja) 評価プログラム、及び評価システム
CN112967728B (zh) 结合声传递函数的端到端语音合成方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180820

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180820

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180903

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20180910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181129

R150 Certificate of patent or registration of utility model

Ref document number: 6452061

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250