JP2021117245A

JP2021117245A - 学習方法、評価装置、データ構造、及び評価システム

Info

Publication number: JP2021117245A
Application number: JP2020008229A
Authority: JP
Inventors: 継河合; Kei Kawai
Original assignee: Crystal Method Co Ltd
Current assignee: Crystal Method Co Ltd
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2021-08-10
Anticipated expiration: 2040-01-22
Also published as: JP6739828B1

Abstract

【課題】様々な種類の収音装置に適した処理を行うことができる学習方法、評価装置、データ構造、及び評価システムを提供する。【解決手段】機械学習によりデータベースを生成する学習方法であって、収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対の学習データとして、前記収音装置の種類毎に複数取得する取得ステップと、複数の前記学習データを用いた機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性が記憶された前記データベースを生成する学習ステップと、を備えることを特徴とする。【選択図】図１

Description

本発明は、学習方法、評価装置、データ構造、及び評価システムに関する。

従来、快適な相互音声通話等を実現する技術として、例えば特許文献１の音響信号処理装置等が提案されている。

特許文献１では、遠端側の受話信号から、その音響的特徴を分析して適切な制御信号を生成する音響信号分析部と、入力音響信号に混入している音響エコーをキャンセルするエコーキャンセラと、入力音響信号に混入している雑音をキャンセルするノイズキャンセラと、入力音響信号中に含まれる音声の特徴を強調する音声強調部とを備えたので、携帯電話や通信網の種別によらず、通話品質を維持することができ、高品質なハンズフリー音声通話ならびに高精度の音声認識が可能となる。

ＷＯ２０１８／１６３３２８号公報

ここで、例えば特許文献１のような音声信号処理装置では、携帯電話に用いられる特定の収音装置（マイク）により得られた入力音響信号の処理のみを前提としている。このため、携帯電話のほか、様々な種類の収音装置に適した処理を行うことが難しい。

そこで本発明は、上述した問題点に鑑みて案出されたものであり、その目的とするところは、様々な種類の収音装置に適した処理を行うことができる学習方法、評価装置、データ構造、及び評価システムを提供する。

第１発明に係る学習方法は、機械学習によりデータベースを生成する学習方法であって、収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対の学習データとして、前記収音装置の種類毎に複数取得する取得ステップと、複数の前記学習データを用いた機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性が記憶された前記データベースを生成する学習ステップと、を備えることを特徴とする。

第２発明に係る学習方法は、第１発明において、前記学習用音声情報は、前記収音装置の種類を示す特定情報を含むことを特徴とする。

第３発明に係る学習方法は、第１発明又は第２発明において、前記学習用音声情報、及び前記参照情報は、一人のユーザの音声のみを含むことを特徴とする。

第４発明に係る学習方法は、第１発明〜第３発明の何れかにおいて、予め取得された複数の過去の学習用音声情報を学習データとして、機械学習により生成された準備用学習済みモデルを更に備え、前記取得ステップは、前記準備用学習済みモデルを参照し、前記学習用音声情報に基づき新たな学習用音声情報を取得する準備ステップを有することを特徴とする。

第５発明に係る評価装置は、第１発明〜第４発明の何れかの学習方法により生成されたデータベースを参照し、音声データを評価する評価装置であって、第１収音装置を用いて収音された第１ユーザの音声を含む評価用音声情報を取得する取得部と、前記データベースを参照し、複数の前記参照情報のうち、前記評価用音声情報に対する第１参照情報を選択する選択部と、前記第１参照情報、及び前記評価用音声情報に基づき、前記基準収音装置を用いて前記第１ユーザの音声を収音した場合に想定される想定音声情報を生成する生成部と、を備えることを特徴とする。

第６発明に係るデータ構造は、保存部及び制御部を備えるコンピュータに用いられ、前記保存部に記憶されるデータ構造であって、収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対として含む学習データを、前記収音装置の種類毎に複数備え、複数の前記学習データは、前記コンピュータの備える制御部が実行するニューラルネットワークをモデルとした機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性を含む学習済みモデルを生成するために用いられることを特徴とする。

第７発明に係る評価システムは、機械学習により生成されたデータベースを参照し、音声データを評価する評価システムであって、収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対の学習データとして、前記収音装置の種類毎に複数取得する取得手段と、複数の前記学習データを用いた機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性が記憶された前記データベースを生成する学習手段と、第１収音装置を用いて収音された第１ユーザの音声を含む評価用音声情報を取得する音声情報取得手段と、前記データベースを参照し、複数の前記参照情報のうち、前記評価用音声情報に対する第１参照情報を選択する選択手段と、前記第１参照情報、及び前記評価用音声情報に基づき、前記基準収音装置を用いて前記第１ユーザの音声を収音した場合に想定される想定音声情報を生成する生成手段と、を備えることを特徴とする。

第８発明に係る評価システムは、第７発明において、予め取得された過去の想定音声情報、及び前記参照情報の少なくとも何れかを学習データとして、機械学習により生成された評価用学習済みモデルを更に備え、前記生成手段は、前記評価用学習済みモデルを参照し、前記想定音声情報に特定のユーザの音声が含まれているか否かを評価する評価手段を有することを特徴とする。

第９発明に係る評価システムは、第８発明において、前記評価手段により評価された内容に基づき、前記想定音声情報を出力する出力手段を更に備えることを特徴とする。

第１０発明に係る評価システムは、第８発明において、前記評価手段により評価された内容に基づき、前記想定音声情報を保存部に記憶させる記憶手段を更に備えることを特徴とする。

第１１発明に係る評価システムは、第８発明〜第１０発明の何れかにおいて、前記評価用学習済みモデルを生成するために用いられた前記過去の想定音声情報、及び前記参照情報は、一人のユーザの音声のみを含むことを特徴とする。

第１２発明に係る評価システムは、第８発明〜第１１発明の何れかにおいて、前記評価用学習済みモデルは、オートエンコーダを用いた機械学習により生成されることを特徴とする。

第１発明〜第５発明によれば、取得ステップは、学習用音声情報と、参照情報と、を一対の学習データとして、収音装置の種類毎に複数取得する。また、学習ステップは、学習データを用いた機械学習により、複数の学習用音声情報と、複数の参照情報との間における連関性が記憶されたデータベースを生成する。このため、生成されたデータベースを参照することで、収音装置毎に異なる特徴が作用したユーザの音声に対し、基準収音装置を用いてユーザの音声を収音した場合に想定される情報を示す参照情報を選択することができる。これにより、様々な種類の収音装置に適した処理を行うことが可能となる。

特に、第２発明によれば、学習用音声情報は、収音装置の種類を示す特定情報を含む。即ち、このため、収音装置毎に異なる僅かな特徴の違いも踏まえた参照情報を選択することができる。これにより、参照情報を選択する際の精度を向上させることが可能となる。

特に、第３発明によれば、学習用音声情報、及び参照情報は、一人のユーザの音声のみを含む。このため、収音装置の種類によって、学習用音声情報の特徴が僅かに異なる場合においても、容易に判別することができる。これにより、収音装置毎に適した処理を選択する際の精度を向上させることが可能となる。また、一人のユーザの音声のみを機械学習に用いることで、機械学習に必要なデータの容量を最小限に抑えることができる。これにより、データベースを生成する際の学習データを収集する時間、及び学習時間を大幅に削減することが可能となる。

特に、第４発明によれば、準備ステップは、準備用学習済みモデルを参照し、学習用音声情報に基づき新たな学習用音声情報を取得する。このため、機械学習に必要となる膨大な数の学習用音声情報を、容易に収集することができる。これにより、データベースを生成する際の学習データ収集する時間、及び学習データを収集するためのコストを削減することが可能となる。

特に、第５発明によれば、選択部は、データベースを参照し、評価用音声情報に対する第１参照情報を選択する。また、生成部は、第１参照情報、及び評価用音声情報に基づき、基準収音装置を用いて第１ユーザの音声を収音した場合に想定される想定音声情報を生成する。このため、収音に用いられる収音装置の種類によって異なる音声の特徴を、基準収音装置を用いた場合の特徴に統一することができる。これにより、様々な種類の収音装置に適した処理を実現することが可能となる。

第６発明によれば、学習データは、学習用音声情報と、参照情報と、を一対として含む。また、収音装置の種類毎に複数備えられた学習データは、コンピュータの備える制御部が実行するニューラルネットワークをモデルとした機械学習により、複数の学習用音声情報と、複数の参照情報との間における連関性を含む学習済みモデルを生成するために用いられる。このため、生成された学習済みモデルを参照することで、収音装置毎に異なる特徴が作用したユーザの音声に対し、基準収音装置を用いてユーザの音声を収音した場合に想定される情報を示す参照情報を選択することができる。これにより、様々な種類の収音装置に適した処理を行うことが可能となる。

第７発明〜第１２発明によれば、取得手段は、学習用音声情報と、参照情報と、を一対の学習データとして、収音装置の種類毎に複数取得する。また、学習手段は、学習データを用いた機械学習により、複数の学習用音声情報と、複数の参照情報との間における連関性が記憶されたデータベースを生成する。このため、生成されたデータベースを参照することで、収音装置毎に異なる特徴が作用したユーザの音声に対し、基準収音装置を用いてユーザの音声を収音した場合に想定される情報を示す参照情報を選択することができる。これにより、様々な種類の収音装置に適した処理を行うことが可能となる。

また、第７発明〜第１２発明によれば、選択手段は、データベースを参照し、評価用音声情報に対する第１参照情報を選択する。また、生成手段は、第１参照情報、及び評価用音声情報に基づき、基準収音装置を用いて第１ユーザの音声を収音した場合に想定される想定音声情報を生成する。このため、収音に用いられる収音装置の種類によって異なる音声の特徴を、基準収音装置を用いた場合の特徴に統一することができる。これにより、様々な種類の収音装置に適した処理を実現することが可能となる。

特に、第８発明によれば、評価手段は、評価用学習済みモデルを参照し、想定音声情報に特定のユーザの音声が含まれているか否かを評価する。このため、音声を収音した収音装置の種類による影響を排除した状態で、特定のユーザの音声が含まれているか否かを評価することができる。これにより、評価精度の向上を図ることが可能となる。

特に、第９発明によれば、出力手段は、評価された内容に基づき、想定音声情報を出力する。このため、音声を収音した収音装置の種類による影響を排除した状態で、必要となる想定音声情報のみを出力することができ、不要な想定音声情報の出力を防ぐことができる。これにより、評価システムの利用状況に応じて最適な情報の出力を実現することが可能となる。

特に、第１０発明によれば、記憶手段は、評価された内容に基づき、想定音声情報を保存部に記憶させる。このため、音声を収音した収音装置の種類による影響を排除した状態で、必要となる想定音声情報のみを記憶させることができ、不要な想定音声情報を記憶させることを防ぐことができる。これにより、評価システムの利用状況に応じて最適な情報の保存を実現することが可能となる。

特に、第１１発明によれば、想定音声情報、及び参照情報は、一人のユーザの音声のみを含む。このため、一人のユーザの音声のみを機械学習に用いることで、機械学習に必要なデータの容量を最小限に抑えることができる。これにより、評価用学習済みモデルを生成する際の学習データを収集する時間、及び学習時間を大幅に削減することが可能となる。

図１は、本実施形態における評価システムの概要の一例を示す模式図である。図２は、本実施形態における評価システムの動作の一例を示す模式図である。図３は、本実施形態における学習方法及びデータ構造の一例を示す模式図である。図４は、本実施形態における学習方法及びデータ構造の変形例を示す模式図である。図５は、データベースの一例を示す模式図である。図６は、データベースの変形例を示す模式図である。図７（ａ）は、本実施形態における評価装置の構成の一例を示す模式図であり、図７（ｂ）は、本実施形態における評価装置の機能の一例を示す模式図である。図８は、本実施形態における評価システムの動作の一例を示すフローチャートである。図９（ａ）は、本実施形態における評価システムの動作の第１変形例を示すフローチャートであり、図９（ｂ）は、本実施形態における評価システムの動作の第２変形例を示すフローチャートである。

以下、本発明を適用した実施形態における学習方法、評価装置、データ構造、及び評価システムの一例について、図面を参照しながら説明する。

（実施形態：評価システム１００、評価装置１、学習方法、データ構造）
図１、及び図２を参照して、本実施形態における学習方法、評価装置１、データ構造、及び評価システム１００の一例について説明する。図１は、本実施形態における評価システム１００の概要の一例を示す模式図であり、図２は、本実施形態における評価システム１００の動作の一例を示す模式図である。

＜評価システム１００＞
本実施形態における評価システム１００は、機械学習により生成されたデータベースを参照し、音声データを評価する場合に用いられる。評価システム１００は、例えば収音装置２毎に異なる特徴が作用したユーザの音声に対し、基準となる収音装置２（基準収音装置２ｉ）を用いて収音した場合に想定される音声を取得したい場合等に利用される。評価システム１００では、例えば評価用に取得した音声データ（評価用音声情報）から、音声を収集した収音装置２の特徴を特定することもできる。これらにより、評価システム１００を利用することで、様々な種類の収音装置２毎に適した音声情報の処理を行うことができる。

評価システム１００は、例えば図１に示すように、評価装置１を備える。評価装置１は、直接又は通信網４を介して、１以上の収音装置２（例えば収音装置２ａ、２ｂ、２ｃ）と接続される。評価装置１は、例えば通信網４を介して、端末３及びサーバ５の少なくとも何れかと接続されてもよい。

評価システム１００では、例えば図２に示すように、評価装置１が、収音装置２を用いて収音されたユーザ（第１ユーザ）の音声を含む評価用音声情報を取得する。評価装置１は、データベースを参照し、評価用音声情報に対する参照情報（第１参照情報）を選択する。参照情報は、例えば基準収音装置２ｉを用いて収音したユーザの音声を含む。このため、評価用音声情報を取得する際に用いられた収音装置２の種類に関わらず、評価基準に適した参照情報を選択することができる。様々な種類の収音装置２に応じた評価用音声情報の評価を実現することができる。

例えば評価装置１は、選択した参照情報、及び評価用音声情報に基づき、収音装置２の種類に適した処理を行う。例えば、参照情報と評価用音声情報とを比較し、評価用音声情報に含まれるノイズや収音装置２起因の影響（収音装置２の特徴）を特定することで、評価用音声情報に対してノイズキャンセリングや音声の補正等の処理を行うことができる。

また、例えば参照情報、及び評価用音声情報に基づき、基準収音装置２ｉを用いて第１ユーザの音声を収音した場合に想定される音声（想定音声情報）を生成する処理を行うことができる。

その後、例えば他のユーザが保有する端末３等に、処理済みの評価用音声情報を含む評価結果を出力する。これにより、評価用音声情報を収音した収音装置２の種類に関わらず、他のユーザが認識し易い音声を、端末３から出力させることができる。

上記のほか、例えば評価装置１は、選択した参照情報に基づき、評価用音声情報に含まれる音声の収音に用いられた収音装置２を特定するための情報を含む評価結果を、モニタ等に表示してもよい。評価装置１は、特定される収音装置２の種類を１つ表示するほか、例えば「収音装置Ａ：５０％、収音装置Ｂ：２０％」等のように複数の候補を表示してもよい。また、評価装置１は、例えば評価用音声情報に適した処理方法を表示してもよい。これにより、ユーザは、評価用音声情報に対して適した処理を行うことが可能となる。

評価用音声情報は、例えば収音装置２を用いて収音されたユーザの音声をデジタル形式に変換した音声データを含む。評価用音声情報は、例えば上記データに加えて収音装置２の種類を示す特定情報を含んでもよい。

＜データベース＞
データベースは、例えば図３に示すように、複数の学習データを用いた機械学習により生成される。本実施形態における学習方法では、例えばニューラルネットワークをモデルとした深層学習を用いて、データベースを生成する。データベースは、例えばＣＮＮ（Convolution Neural Network）をモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。

学習データは、学習用音声情報と、参照情報とを一対として含む。本実施形態におけるデータ構造は、複数の学習データを備える。学習用音声情報は、評価用音声情報と同種のデータ（例えば上述した音声データ）を含む（図３では特徴Ａ〜Ｃ）。学習用音声情報は、収音装置２の種類毎に複数準備される。参照情報は、例えば対となる学習用音声情報と同じ内容の音声を、基準収音装置２ｉによって収音した音声データを含む（図３では参照Ａ〜Ｃ）。このため、例えば学習用音声情報に対し、対となる参照情報の差分を取ることで、学習用音声情報における音声データの特徴（収音装置２の特徴）を抽出することができる。

学習用音声情報、及び参照情報は、例えば一人のユーザの音声のみを含んでもよい。この場合、収音装置２の種類によって、学習用音声情報の特徴が僅かに異なる場合においても、容易に判別することができる。

学習用音声情報は、例えば図４に示すように、音声を収音する収音装置２の種類を示す特定情報を含んでもよい。特定情報は、例えば収音装置２の変換形式特性、指向特性、周波数特性、最大音圧レベルの少なくとも何れかを含む。変換形式特性は、例えばダイナミック型と、コンデンサ型とを含む。指向特性は、例えば無指向性と、単一指向性と、双指向性とを含む。周波数特性は、例えば「○〜○ｋＨｚ帯向け」等の高感度帯域の情報を含む。

学習用音声情報に特定情報を含ませることで、同種の収音装置２毎に異なる僅かな特徴の違いを特定することが可能となる。例えば同種の収音装置２を用いた場合においても、製造バラつきや、経時変化の差によって、得られる音声データの特徴が異なる場合がある。このような場合においても、学習用音声情報に特定情報を含ませることで、収音装置２を特定する際の精度を向上させることが可能となる。

データベースには、複数の学習用音声情報と、複数の参照情報との間における連関性が記憶される。連関性は、多対多の情報（複数の学習用音声情報、対、複数の参照情報）の間における繋がりの度合いにより構築される。連関性は、機械学習の過程で適宜更新され、例えば複数の学習用音声情報、及び複数の参照情報に基づいて最適化された関数（分類器）を示す。なお、連関性は、例えば各情報の間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。

このため、評価システム１００では、複数の学習データにおける学習用音声情報と、参照情報との関係を全て踏まえた連関性を用いて、評価用音声情報に適した参照情報（第１参照情報）を選択することができる。これにより、評価用音声情報が、学習用音声情報と同一又は類似である場合のほか、非類似である場合においても、適した参照情報を定量的に選択することができる。なお、機械学習を行う際に汎化能力を高めることで、未知の評価用音声情報に対する評価精度の向上を図ることができる。

連関性として、例えば図５に示すように、複数の学習用音声情報と、複数の参照情報との間における繋がりの度合いを示す数値等が用いられてもよい。この場合、連関性を用いることで、複数の学習用音声情報に含まれる各特徴（図５では「特徴Ａ」〜「特徴Ｃ」）のそれぞれに対し、複数の参照情報（図５では「参照Ａ」〜「参照Ｃ」）の関係の度合いを紐づけて記憶させることができる。このため、例えば連関性を介して、１つの学習用音声情報に対して、複数の参照情報を紐づけることができる。これにより、評価用音声情報に対して多角的な参照情報の選択や評価を実現することができる。

連関性は、各学習用音声情報と、各参照情報とをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、１０段階、又は５段階等の３段階以上で示され、例えば線の特徴（例えば太さ等）で示されてもよい。例えば、学習用音声情報に含まれる「特徴Ａ」は、参照情報に含まれる「参照Ａ」との間の連関度ＡＡ「７５％」を示し、参照情報に含まれる「参照Ｂ」との間の連関度ＡＢ「１２％」を示す。すなわち、「連関度」は、各情報間における繋がりの度合いを示しており、例えば連関度が高いほど、各情報の繋がりが強いことを示す。

データベースには、例えば図６に示すように、音声データと、特定情報とを分割した状態に対応する連関性が記憶されてもよい。この場合、音声データ及び特定情報の組合わせと、参照情報との間の関係に基づいて、連関度が算出される。

例えば、音声データに含まれる「特徴Ａ」、及び特定情報に含まれる「特定Ａ」の組合わせは、「参照Ａ」との間の連関度ＡＡＡ「６３％」を示し、「参照Ｂ」との間の連関度ＡＢＡ「６３％」を示す。この場合、例えば音声データ及び特定情報をそれぞれ独立してデータを記憶させることができる。このため、参照情報を選択する際、精度の向上及び選択肢の範囲を拡大させることが可能となる。

＜評価装置１＞
次に、図７を参照して、本実施形態における評価装置１の一例を説明する。図７（ａ）は、本実施形態における評価装置１の構成の一例を示す模式図であり、図７（ｂ）は、本実施形態における評価装置１の機能の一例を示す模式図である。

評価装置１として、例えばラップトップ（ノート）ＰＣ又はデスクトップＰＣ等の電子機器が用いられる。評価装置１は、例えば図７（ａ）に示すように、筐体１０と、ＣＰＵ（Central Processing Unit）１０１と、ＲＯＭ（Read Only Memory）１０２と、ＲＡＭ（Random Access Memory）１０３と、保存部１０４と、Ｉ／Ｆ１０５〜１０７とを備える。各構成１０１〜１０７は、内部バス１１０により接続される。

ＣＰＵ１０１は、評価装置１全体を制御する。ＲＯＭ１０２は、ＣＰＵ１０１の動作コードを格納する。ＲＡＭ１０３は、ＣＰＵ１０１の動作時に使用される作業領域である。保存部１０４は、データベース等の各種情報が記憶される。保存部１０４として、例えばＨＤＤ（Hard Disk Drive）のほか、ＳＳＤ（Solid State Drive）等のデータ保存装置が用いられる。なお、例えば評価装置１は、図示しないＧＰＵ（Graphics Processing Unit）を有してもよい。

Ｉ／Ｆ１０５は、通信網４を介して、必要に応じて収音装置２、端末３、サーバ５等との各種情報の送受信を行うためのインターフェースである。Ｉ／Ｆ１０６は、入力部１０８との情報の送受信を行うためのインターフェースである。入力部１０８として、例えばキーボードが用いられ、評価装置１のユーザは、入力部１０８を介して、各種情報、又は評価装置１の制御コマンド等を入力する。Ｉ／Ｆ１０７は、表示部１０９との各種情報の送受信を行うためのインターフェースである。表示部１０９は、保存部１０４に保存された各種情報、又は評価結果等を表示する。表示部１０９として、ディスプレイが用いられ、例えばタッチパネル式の場合、入力部１０８と一体に設けられる。

図７（ｂ）は、評価装置１の機能の一例を示す模式図である。評価装置１は、取得部１１と、選択部１３と、記憶部１６とを備え、例えば学習部１２、生成部１４、出力部１５、更新部１７の少なくとも何れかを備えてもよい。なお、図７（ｂ）に示した各機能は、ＣＰＵ１０１が、ＲＡＭ１０３を作業領域として、保存部１０４等に記憶されたプログラムを実行することにより実現され、例えば人工知能等により制御されてもよい。

＜＜取得部１１＞＞
取得部１１は、評価用音声情報を取得する。取得部１１は、例えば収音装置２によって収音された音声に基づき生成された評価用音声情報を取得する。取得部１１は、例えばユーザ等により入力された収音装置２の特定情報を、評価用音声情報に含ませてもよい。

例えば評価装置１を用いて学習方法を行う場合、取得部１１は、複数の学習データを取得する。取得部１１は、例えば予め保存部１０４やサーバ５に保存された複数の学習データを取得する。学習データに含まれる一対の学習用音声情報、及び参照情報は、例えば同一のユーザから収音した同一の内容を示す音声を含む。この場合、例えばそれぞれ異なるユーザから収音した音声、又はそれぞれ異なる内容を示す音声を含む場合に比べ、参照情報を選択する際の精度を向上させることができる。なお、取得部１１は、例えば収音装置２又は基準収音装置２ｉによって収音された音声に基づき生成された音声データを、学習用音声情報又は参照情報として取得してもよい。

取得部１１は、例えば取得した音声データを含む学習用音声情報に基づき、予め保存部１０４やサーバ５に保存された複数の参照情報から、学習用音声情報に適した参照情報を取得し、一対の学習データとして取得してもよい。

取得部１１は、例えば準備用学習済みモデルを参照し、学習用音声情報（親音声情報）に基づき新たな学習用音声情報（子音声情報）を取得してもよい。準備用学習済みモデルは、予め取得された複数の過去の学習用音声情報を学習データとして、機械学習により生成される。準備用学習済みモデルは、例えば深層学習を用いて生成される。準備用学習済みモデルは、例えばＧＡＮ（Generative Adversarial Network）を用いた機械学習により生成される。

準備用学習済みモデルを用いて生成された子音声情報は、例えば親音声情報とは少なくとも一部が異なる特徴を示す音声データを含む。このため、データベースを生成する際の機械学習に必要となる学習用音声情報の数を、容易に収集することができる。

＜＜学習部１２＞＞
学習部１２は、例えば複数の学習データを用いた機械学習により、データベースを生成する。機械学習には、例えば上述した深層学習等が用いられる。なお、データベースを生成する際に用いる学習データの数は、任意に設定することができる。

＜＜選択部１３＞＞
選択部１３は、データベースを参照し、複数の参照情報のうち、評価用音声情報に対する参照情報（例えば第１参照情報）を選択する。選択部１３は、例えば評価用音声情報に対し、連関性の最も高い参照情報を、第１参照情報として選択するほか、例えば予め設定された閾値以上の連関度を有する複数の参照情報を、第１参照情報として選択してもよい。

例えば図５のデータベースを参照した場合、選択部１３は、評価用音声情報と同一又は類似する学習用音声情報（例えば「特徴Ａ」：第１特徴情報とする）を選択する。選択される第１特徴情報として、評価用音声情報と一部一致又は完全一致する学習用音声情報が選択されるほか、例えば評価用音声情報と類似する学習用音声情報が選択される。なお、学習用音声情報が選択される類似度の度合い、及び選択される学習用音声情報の数については、任意に設定できる。

選択部１３は、選択した第１特徴情報に紐づく参照情報のうち、例えば最も連関度の高い参照情報（例えば「参照Ａ」：第１参照情報とする）を選択するほか、例えば閾値（例えば１０％）以上の連関度を有する参照情報（例えば「参照Ａ」（連関度ＡＡ（７５％））、及び「参照Ｂ」（連関度ＡＢ（１２％）））を、第１参照情報として選択してもよい。

＜＜生成部１４＞＞
生成部１４は、例えば第１参照情報に基づく評価結果を生成する。生成部１４は、例えば第１参照情報に基づき、評価用音声情報に対して処理を行い、得られた処理データを含む評価結果を生成する。処理データは、例えば評価用音声情報に対してノイズキャンセリングや音声の補正等の処理を行ったデータを示す。生成部１４は、公知技術を用いて、評価用音声情報に対する処理を行う。

生成部１４は、例えば保存部１０４に保存された処理テーブル等を用いて、処理を行う。処理テーブルには、例えば複数の参照情報と、各参照情報に紐づく処理方法とが示される。このため、生成部１４は、第１参照情報を取得することで、処理テーブルを参照して評価用音声情報に対する処理方法を選択することができ、評価用音声情報に適した処理を行うことができる。

生成部１４は、例えば第１参照情報、及び評価用音声情報に基づき、想定音声情報を生成する処理を行ってもよい。想定音声情報は、基準収音装置２ｉを用いてユーザの音声を収音した場合に想定される情報を示す。生成部１４は、例えば第１参照情報と、評価用音声情報との差分結果を用いて、想定音声情報を生成することができる。生成部１４は、例えば想定音声情報を、評価結果として生成する。

生成部１４は、例えば第１参照情報に基づき、評価用音声情報に含まれる音声に用いられた収音装置２を特定するための情報を、評価結果に含ませてもよい。この場合、生成部１４は、例えば保存部１０４に予め記憶された表示用のフォーマットを用いて、ユーザが理解できる文字列等に変換した評価結果を生成する。

＜＜出力部１５＞＞
出力部１５は、評価用音声情報に対する評価結果を出力する。出力部１５は、例えば生成部１４によって生成された評価結果を、端末３等に出力する。出力部１５は、例えば評価音声情報を評価結果として、端末３等に出力してもよい。出力部１５は、例えばＩ／Ｆ１０７を介して表示部１０９に評価結果を送信するほか、例えばＩ／Ｆ１０５を介して、端末３等に評価結果を送信する。

＜＜記憶部１６＞＞
記憶部１６は、保存部１０４に保存されたデータベース等の各種データを必要に応じて取出す。記憶部１６は、各構成１１〜１５、１７により取得又は生成された各種データを、必要に応じて保存部１０４に保存する。

＜＜更新部１７＞＞
更新部１７は、例えばデータベースを更新する。更新部１７は、学習用音声情報と、参照情報との間の関係を新たに取得した場合には、関係を連関性に反映させる。例えば出力部１５により出力された評価結果を踏まえて、ユーザ等が評価結果の精度を検討し、検討結果を評価装置１が取得した場合、更新部１７は、検討結果に基づきデータベースに記憶される連関性を更新する。連関性の更新には、例えば上述した機械学習が用いられる。

＜収音装置２（基準収音装置２ｉ）＞
収音装置２は、ユーザ等の音声を収音し、音声データ（又は評価用音声情報）を生成する。収音装置２として、公知のマイクロフォンが用いられ、例えばＰＣや携帯電話等の電子機器に予め設けられたマイクロフォン、スタンドマイク、ボーカルマイク、ワイヤレスマイク、骨伝導マイク、ヘッドセット等が用いられる。

基準収音装置２ｉは、参照情報として取得される音声を収音する際に用いられ、評価の基準となる音声データを生成する。このため、基準収音装置２ｉとして、収音装置２に比べて、音声データに対して装置起因の影響が少ない装置が用いられることが望ましい。基準収音装置２ｉとして、例えば収音装置２に比べて、高性能なマイクロフォンが用いられる。

＜端末３＞
端末３は、例えば評価システム１００を利用するユーザ等が保有し、通信網４を介して評価装置１と接続される。端末３は、例えばデータベースを生成する電子機器を示してもよい。端末３は、例えばパーソナルコンピュータや、タブレット端末等の電子機器が用いられる。端末３は、例えば評価装置１の備える機能のうち、少なくとも一部の機能を備えてもよい。

＜サーバ５＞
サーバ５は、例えば通信網４を介して評価装置１と接続される。サーバ５は、例えば学習データ等が記憶され、必要に応じて評価装置１から各種データが送信される。サーバ５は、例えば評価装置１の備える機能のうち、少なくとも一部の機能を備えてもよく、例えば評価装置１の代わりに、データベースの生成等の少なくとも一部の処理を行ってもよい。サーバ５は、例えば評価装置１の保存部１０４に記憶された各種データのうち少なくとも一部が記憶され、例えば保存部１０４の代わりに用いられてもよい。

＜通信網４＞
通信網４は、例えば評価装置１が通信回路を介して接続されるインターネット網等である。通信網４は、いわゆる光ファイバ通信網で構成されてもよい。また、通信網４は、有線通信網のほか、無線通信網等の公知の通信技術で実現してもよい。

（実施形態：評価システム１００の動作）
次に、本実施形態における評価システム１００の動作の一例について説明する。図８は、本実施形態における評価システム１００の動作の一例を示すフローチャートである。

評価システム１００は、取得手段Ｓ１１０と、学習手段Ｓ１２０と、音声情報取得手段Ｓ２１０と、選択手段Ｓ２２０とを備え、例えば生成手段Ｓ２３０、出力手段Ｓ２４０、及び更新手段Ｓ２５０の少なくとも何れかを備えてもよい。

＜取得手段Ｓ１１０＞
取得手段Ｓ１１０は、収音装置２を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置２ｉを用いて収音したユーザの音声を含む参照情報と、を一対の学習データとして、収音装置２の種類毎に複数取得する。例えば取得部１１は、予め保存部１０４等に保存された複数の学習データを取得するほか、上述した方法により、複数の学習データを取得する。なお、各学習データの生成されたタイミング、及び取得するタイミングは、任意である。

取得部１１は、例えば準備用学習済みモデルを参照し、学習用音声情報（親音声情報）に基づき新たな学習用音声情報（子音声情報）を取得してもよい。この場合、取得部１１は、例えば親音声情報に紐づける参照情報を、子音声情報にも紐づけることで、学習データとして用いてもよい。

＜学習手段Ｓ１２０＞
学習手段Ｓ１２０は、複数の学習データを用いた機械学習により、複数の入力手段と、複数の参照情報との間における連関性が記憶されたデータベースを生成する。例えば学習部１２は、公知の機械学習により、データベースを生成する。学習部１２は、例えば記憶部１６を介して、生成したデータベースを保存部１０４に保存する。なお、生成されたデータベースは、例えばサーバ５や他の評価装置１にデータベースを保存してもよい。

＜音声情報取得手段Ｓ２１０＞
音声情報取得手段Ｓ２１０は、収音装置２（第１収音装置）を用いて収音されたユーザ（第１ユーザ）の音声を含む評価用音声情報を取得する。例えば取得部１１は、収音装置２によって生成された評価用音声情報を取得する。取得部１１は、例えばユーザ等により入力された収音装置２の特定情報を、評価用音声情報に含ませてもよい。取得部１１は、例えば収音装置２や端末３等から特定情報を取得してもよい。

＜選択手段Ｓ２２０＞
選択手段Ｓ２２０は、データベースを参照し、複数の参照情報のうち、評価用音声情報に対する参照情報（第１参照情報）を選択する。例えば選択部１３は、例えば評価用音声情報に対して最も連関度の高い参照情報を、第１参照情報として選択する。上記のほか、例えば選択部１３は、予め設定された閾値以上の連関度に紐づく１以上の参照情報を、第１参照情報として選択してもよい。

これにより、本実施形態における評価システム１００の動作が終了する。なお、上述した取得手段Ｓ１１０及び学習手段Ｓ１２０は、本実施形態における学習方法の備える取得ステップ及び学習ステップと同様とすることができる。また、上述した音声情報取得手段Ｓ２１０及び選択手段Ｓ２２０は、例えば本実施形態における学習方法の備える音声情報取得ステップ及び選択ステップと同様とすることができる。

＜生成手段Ｓ２３０＞
本実施形態における評価システム１００は、例えば選択手段Ｓ２２０のあと、第１参照情報に基づく評価結果を生成してもよい（生成手段Ｓ２３０）。例えば生成部１４は、第１参照情報に基づき、評価用音声情報に対して処理を行い、得られた処理データを含む評価結果を生成する。生成部１４は、例えば評価用音声情報の一部を加工又は除去し、その処理結果を処理データとして生成する。生成部１４は、例えば第１参照情報、及び評価用音声情報に基づき、想定音声情報を生成し、評価結果に含ませてもよい。

＜出力手段Ｓ２４０＞
本実施形態における評価システム１００は、例えば生成手段Ｓ２３０のあと、評価結果を出力してもよい（出力手段Ｓ２４０）。例えば出力部１５は、生成手段Ｓ２３０のあと、評価結果を端末３等に出力する。

＜更新手段Ｓ２５０＞
本実施形態における評価システム１００は、例えばデータベースを更新してもよい（更新手段Ｓ２５０）。例えば更新部１７は、評価結果に対するユーザ等の検討結果に基づき、データベースに記憶される連関性を更新する。なお、更新手段Ｓ２５０を行うタイミングや頻度は、任意である。

なお、上述した取得手段Ｓ１１０、及び学習手段Ｓ１２０を行う際に用いられる評価装置１は、音声情報取得手段Ｓ２１０、選択手段Ｓ２２０等を行う際に用いられる評価装置１とは異なる装置を用いてもよく、用途や状況に応じて１又は２以上の評価装置１が用いられてもよい。

（実施形態：評価システム１００の動作の変形例）
次に、本実施形態における評価システム１００の動作の変形例について説明する。図９（ａ）は、本実施形態における評価システム１００の動作の第１変形例を示すフローチャートであり、図９（ｂ）は、本実施形態における評価システム１００の動作の第２変形例を示すフローチャートである。

上述した実施形態と、各変形例との主な違いは、評価用学習済みモデルを参照した評価手段Ｓ２３２が行われる点である。なお、上述した実施形態と同様の内容については、説明を省略する。

評価用学習済みモデルは、予め取得された過去の想定音声情報、及び参照情報の少なくとも何れかを学習データとして、機械学習により生成される。評価用学習済みモデルは、例えば上述した公知の機械学習を用いて生成される。評価用学習済みモデルは、例えばオートエンコーダを用いた機械学習により生成される。

評価用学習済みモデルを生成するために用いられた学習データ（過去の想定音声情報、及び参照情報）は、特定のユーザの音声のみを含み、例えば一人のユーザの音声のみを含む。学習データに含まれる音声の対象を絞ることで、想定音声情報に特定のユーザの音声が含まれているか否かを高精度に評価することが可能となる。なお、評価用学習済みモデルは、例えば一人のユーザの音声のみを含む学習データにより、オートエンコーダを用いた機械学習により生成されてもよい。この場合、学習データの準備を最小限に抑えることが可能となる。また、評価対象となる音声情報（想定音声情報）に、一人のユーザの音声が含まれているか否かの評価を、高精度に行うことが可能となる。

（実施形態：評価システム１００の動作の第１変形例）
評価システム１００の第１変形例では、例えば図９（ａ）に示すように、生成手段Ｓ２３０は、想定音声情報生成手段Ｓ２３１と、評価手段Ｓ２３２とを有する。なお、評価手段Ｓ２３２を行う際に用いられる評価装置１は、音声情報取得手段Ｓ２１０、選択手段Ｓ２２０等を行う際に用いられる評価装置１とは異なる装置を用いてもよく、用途や状況に応じて１又は２以上の評価装置１が用いられてもよい。

＜想定音声情報生成手段Ｓ２３１＞
想定音声情報生成手段Ｓ２３１では、例えば生成部１４は、第１参照情報、及び評価用音声情報に基づき、想定音声情報を生成する。生成部１４は、上述した内容と同様の方法により、想定音声情報を生成することができる。

＜評価手段Ｓ２３２＞
評価手段Ｓ２３２は、評価用学習済みモデルを参照し、想定音声情報に特定のユーザの音声が含まれているか否かを評価する。例えば生成部１４は、評価用学習済みモデルを参照し、想定音声情報の音声と、特定のユーザの音声との類似度を算出することで、例えば閾値との比較による評価を行うことができる。なお、評価基準となる閾値等は、予め任意に設定することができる。生成部１４は、例えば想定音声情報を含む評価結果を生成する。

その後、例えば図９（ａ）に示すように、評価システム１００の第１変形例では、出力手段Ｓ２４１が行われる。出力手段Ｓ２４１では、例えば出力部１５は、評価された内容に基づき、想定音声情報を端末３等に出力する。なお、出力部１５は、例えば想定音声情報を含む評価結果を出力してもよい。

例えば評価手段Ｓ２３２において、想定音声情報に特定のユーザの音声が含まれていると判定された場合、出力部１５は、端末３等に想定音声情報を出力する。また、評価手段Ｓ２３２において、想定音声情報に特定のユーザの音声が含まれていないと判定された場合、出力部１５は、端末３等に想定音声情報を出力しない。このため、音声を収音した収音装置２の種類による影響を排除した状態で、必要となる想定音声情報のみを出力することができ、不要な想定音声情報の出力を防ぐことができる。

評価手段Ｓ２３２において、例えば生成部１４は、評価用学習済みモデルを参照し、想定音声情報に対し、特定のユーザの音声以外をフィルタリングする処理を行ってもよい。この場合、生成部１４は、例えば想定音声情報に対する評価や判定をせずに、フィルタリング処理された想定音声情報を、端末３等に出力してもよい。これにより、処理速度の向上を図ることが可能となる。なお、この場合におけるフィルタリングする処理方法については、公知の技術を用いることができる。

（実施形態：評価システム１００の動作の第２変形例）
評価システム１００の第２変形例では、例えば図９（ｂ）に示すように、第１変形例と同様に、生成手段Ｓ２３０は、想定音声情報生成手段Ｓ２３１と、評価手段Ｓ２３２とを有する。また、評価システム１００の第２変形例では、記憶手段Ｓ２６０を更に備える。なお、評価手段Ｓ２３２、及び記憶手段Ｓ２６０を行う際に用いられる評価装置１は、音声情報取得手段Ｓ２１０、選択手段Ｓ２２０等を行う際に用いられる評価装置１とは異なる装置を用いてもよく、用途や状況に応じて１又は２以上の評価装置１が用いられてもよい。

＜記憶手段Ｓ２６０＞
記憶手段Ｓ２６０は、例えば上述した評価手段Ｓ２３２のあとに行われる。記憶手段Ｓ２６０では、例えば記憶部１６は、評価手段Ｓ２３２により評価された内容に基づき、想定音声情報を保存部１０４に記憶させる。なお、記憶部１６は、例えば想定音声情報を含む評価結果を記憶させてもよい。

例えば評価手段Ｓ２３２において、想定音声情報に特定のユーザの音声が含まれていると判定された場合、記憶部１６は、保存部１０４に想定音声情報を記憶させる。また、評価手段Ｓ２３２において、想定音声情報に特定のユーザの音声が含まれていないと判定された場合、記憶部１６は、保存部１０４に想定音声情報を出力しない。このため、音声を収音した収音装置２の種類による影響を排除した状態で、必要となる想定音声情報のみを記憶させることができ、不要な想定音声情報を記憶させることを防ぐことができる。

本実施形態によれば、取得ステップは、学習用音声情報と、参照情報と、を一対の学習データとして、収音装置２の種類毎に複数取得する。また、学習ステップは、学習データを用いた機械学習により、複数の学習用音声情報と、複数の参照情報との間における連関性が記憶されたデータベースを生成する。このため、生成されたデータベースを参照することで、収音装置２毎に異なる特徴が作用したユーザの音声に対し、基準収音装置２ｉを用いてユーザの音声を収音した場合に想定される情報を示す参照情報を選択することができる。これにより、様々な種類の収音装置２に適した処理を行うことが可能となる。

また、本実施形態によれば、学習用音声情報は、収音装置２の種類を示す特定情報を含む。即ち、このため、収音装置２毎に異なる僅かな特徴の違いも踏まえた参照情報を選択することができる。これにより、参照情報を選択する際の精度を向上させることが可能となる。

また、本実施形態によれば、学習用音声情報、及び参照情報は、一人のユーザの音声のみを含む。このため、収音装置２の種類によって、学習用音声情報の特徴が僅かに異なる場合においても、容易に判別することができる。これにより、収音装置２毎に適した処理を選択する際の精度を向上させることが可能となる。また、一人のユーザの音声のみを機械学習に用いることで、機械学習に必要なデータの容量を最小限に抑えることができる。これにより、データベースを生成する際の学習データを収集する時間、及び学習時間を大幅に削減することが可能となる。

また、本実施形態によれば、準備ステップは、準備用学習済みモデルを参照し、学習用音声情報に基づき新たな学習用音声情報を取得する。このため、機械学習に必要となる膨大な数の学習用音声情報を、容易に収集することができる。これにより、データベースを生成する際の学習データ収集する時間、及び学習データを収集するためのコストを削減することが可能となる。

また、本実施形態によれば、選択部１３は、データベースを参照し、評価用音声情報に対する第１参照情報を選択する。また、生成部１４は、第１参照情報、及び評価用音声情報に基づき、基準収音装置２ｉを用いて第１ユーザの音声を収音した場合に想定される想定音声情報を生成する。このため、収音に用いられる収音装置２の種類によって異なる音声の特徴を、基準収音装置２ｉを用いた場合の特徴に統一することができる。これにより、様々な種類の収音装置２に適した処理を実現することが可能となる。

本実施形態によれば、学習データは、学習用音声情報と、参照情報と、を一対として含む。また、収音装置２の種類毎に複数備えられた学習データは、コンピュータの備える制御部が実行するニューラルネットワークをモデルとした機械学習により、複数の学習用音声情報と、複数の参照情報との間における連関性を含む学習済みモデルを生成するために用いられる。このため、生成された学習済みモデルを参照することで、収音装置２毎に異なる特徴が作用したユーザの音声に対し、基準収音装置２ｉを用いてユーザの音声を収音した場合に想定される情報を示す参照情報を選択することができる。これにより、様々な種類の収音装置２に適した処理を行うことが可能となる。

本実施形態によれば、取得手段Ｓ１１０は、学習用音声情報と、参照情報と、を一対の学習データとして、収音装置２の種類毎に複数取得する。また、学習手段Ｓ１２０は、学習データを用いた機械学習により、複数の学習用音声情報と、複数の参照情報との間における連関性が記憶されたデータベースを生成する。このため、生成されたデータベースを参照することで、収音装置２毎に異なる特徴が作用したユーザの音声に対し、基準収音装置２ｉを用いてユーザの音声を収音した場合に想定される情報を示す参照情報を選択することができる。これにより、様々な種類の収音装置２に適した処理を行うことが可能となる。

また、本実施形態によれば、選択手段Ｓ２２０は、データベースを参照し、評価用音声情報に対する第１参照情報を選択する。また、生成手段Ｓ２３０は、第１参照情報、及び評価用音声情報に基づき、基準収音装置２ｉを用いて第１ユーザの音声を収音した場合に想定される想定音声情報を生成する。このため、収音に用いられる収音装置２の種類によって異なる音声の特徴を、基準収音装置２ｉを用いた場合の特徴に統一することができる。これにより、様々な種類の収音装置２に適した処理を実現することが可能となる。

また、本実施形態によれば、評価手段Ｓ２３２は、評価用学習済みモデルを参照し、想定音声情報に特定のユーザの音声が含まれているか否かを評価する。このため、音声を収音した収音装置２の種類による影響を排除した状態で、特定のユーザの音声が含まれているか否かを評価することができる。これにより、評価精度の向上を図ることが可能となる。

また、本実施形態によれば、出力手段Ｓ２４０は、評価された内容に基づき、想定音声情報を出力する。このため、音声を収音した収音装置２の種類による影響を排除した状態で、必要となる想定音声情報のみを出力することができ、不要な想定音声情報の出力を防ぐことができる。これにより、評価システム１００の利用状況に応じて最適な情報の出力を実現することが可能となる。

また、本実施形態によれば、記憶手段Ｓ２６０は、評価された内容に基づき、想定音声情報を保存部１０４に記憶させる。このため、音声を収音した収音装置２の種類による影響を排除した状態で、必要となる想定音声情報のみを記憶させることができ、不要な想定音声情報を記憶させることを防ぐことができる。これにより、評価システム１００の利用状況に応じて最適な情報の保存を実現することが可能となる。

また、本実施形態によれば、想定音声情報、及び参照情報は、一人のユーザの音声のみを含む。このため、一人のユーザの音声のみを機械学習に用いることで、機械学習に必要なデータの容量を最小限に抑えることができる。これにより、評価用学習済みモデルを生成する際の学習データを収集する時間、及び学習時間を大幅に削減することが可能となる。

本発明の実施形態を説明したが、上述した実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。上述した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上述した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１：評価装置
１０：筐体
１１：取得部
１２：学習部
１３：選択部
１４：生成部
１５：出力部
１６：記憶部
１７：更新部
１０１：ＣＰＵ
１０２：ＲＯＭ
１０３：ＲＡＭ
１０４：保存部
１０５：Ｉ／Ｆ
１０６：Ｉ／Ｆ
１０７：Ｉ／Ｆ
１０８：入力部
１０９：表示部
１１０：内部バス
２：収音装置
３：端末
４：通信網
５：サーバ
１００：評価システム
Ｓ１１０：取得手段
Ｓ１２０：学習手段
Ｓ２１０：音声情報取得手段
Ｓ２２０：選択手段
Ｓ２３０：生成手段
Ｓ２４０：出力手段
Ｓ２５０：更新手段

第１発明に係る学習方法は、機械学習によりデータベースを生成する学習方法であって、収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対の学習データとして、前記収音装置の種類毎に複数取得する取得ステップと、複数の前記学習データを用いた機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性が記憶された前記データベースを生成する学習ステップと、予め取得された複数の過去の学習用音声情報を学習データとして、機械学習により生成された準備用学習済みモデルと、を備え、前記取得ステップは、前記準備用学習済みモデルを参照し、前記学習用音声情報に基づき新たな学習用音声情報を取得する準備ステップを有することを特徴とする。

第４発明に係る評価装置は、機械学習により生成されたデータベースを参照し、音声データを評価する評価装置であって、収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対の学習データとして、前記収音装置の種類毎に複数取得する取得ステップと、複数の前記学習データを用いた機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性が記憶された前記データベースを生成する学習ステップと、を備えた学習方法により生成された前記データベースと、第１収音装置を用いて収音された第１ユーザの音声を含む評価用音声情報を取得する取得部と、前記データベースを参照し、複数の前記参照情報のうち、前記評価用音声情報に対する第１参照情報を選択する選択部と、前記第１参照情報、及び前記評価用音声情報に基づき、前記基準収音装置を用いて前記第１ユーザの音声を収音した場合に想定される想定音声情報を生成する生成部と、を備えることを特徴とする。

第５発明に係る評価装置は、第１発明〜第３発明の何れかの学習方法により生成されたデータベースを参照し、音声データを評価する評価装置であって、第１収音装置を用いて収音された第１ユーザの音声を含む評価用音声情報を取得する取得部と、前記データベースを参照し、複数の前記参照情報のうち、前記評価用音声情報に対する第１参照情報を選択する選択部と、前記第１参照情報、及び前記評価用音声情報に基づき、前記基準収音装置を用いて前記第１ユーザの音声を収音した場合に想定される想定音声情報を生成する生成部と、を備えることを特徴とする。

第６発明に係る評価システムは、機械学習により生成されたデータベースを参照し、音声データを評価する評価システムであって、収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対の学習データとして、前記収音装置の種類毎に複数取得する取得手段と、複数の前記学習データを用いた機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性が記憶された前記データベースを生成する学習手段と、第１収音装置を用いて収音された第１ユーザの音声を含む評価用音声情報を取得する音声情報取得手段と、前記データベースを参照し、複数の前記参照情報のうち、前記評価用音声情報に対する第１参照情報を選択する選択手段と、前記第１参照情報、及び前記評価用音声情報に基づき、前記基準収音装置を用いて前記第１ユーザの音声を収音した場合に想定される想定音声情報を生成する生成手段と、を備えることを特徴とする。

第７発明に係る評価システムは、第６発明において、予め取得された過去の想定音声情報、及び前記参照情報の少なくとも何れかを学習データとして、機械学習により生成された評価用学習済みモデルを更に備え、前記生成手段は、前記評価用学習済みモデルを参照し、前記想定音声情報に特定のユーザの音声が含まれているか否かを評価する評価手段を有することを特徴とする。

第８発明に係る評価システムは、第７発明において、前記評価手段により評価された内容に基づき、前記想定音声情報を出力する出力手段を更に備えることを特徴とする。

第９発明に係る評価システムは、第７発明において、前記評価手段により評価された内容に基づき、前記想定音声情報を保存部に記憶させる記憶手段を更に備えることを特徴とする。

第１０発明に係る評価システムは、第７発明〜第９発明の何れかにおいて、前記評価用学習済みモデルを生成するために用いられた前記過去の想定音声情報、及び前記参照情報は、一人のユーザの音声のみを含むことを特徴とする。

第１１発明に係る評価システムは、第７発明〜第１０発明の何れかにおいて、前記評価用学習済みモデルは、オートエンコーダを用いた機械学習により生成されることを特徴とする。

第１発明〜第５発明によれば、取得ステップは、学習用音声情報と、参照情報と、を一対の学習データとして、収音装置の種類毎に複数取得する。また、学習ステップは、学習データを用いた機械学習により、複数の学習用音声情報と、複数の参照情報との間における連関性が記憶されたデータベースを生成する。このため、生成されたデータベースを参照することで、収音装置毎に異なる特徴が作用したユーザの音声に対し、基準収音装置を用いてユーザの音声を収音した場合に想定される情報を示す参照情報を選択することができる。これにより、様々な種類の収音装置に適した処理を行うことが可能となる。
また、第１発明〜第３発明、第５発明によれば、準備ステップは、準備用学習済みモデルを参照し、学習用音声情報に基づき新たな学習用音声情報を取得する。このため、機械学習に必要となる膨大な数の学習用音声情報を、容易に収集することができる。これにより、データベースを生成する際の学習データ収集する時間、及び学習データを収集するためのコストを削減することが可能となる。

特に、第４発明、第５発明によれば、選択部は、データベースを参照し、評価用音声情報に対する第１参照情報を選択する。また、生成部は、第１参照情報、及び評価用音声情報に基づき、基準収音装置を用いて第１ユーザの音声を収音した場合に想定される想定音声情報を生成する。このため、収音に用いられる収音装置の種類によって異なる音声の特徴を、基準収音装置を用いた場合の特徴に統一することができる。これにより、様々な種類の収音装置に適した処理を実現することが可能となる。

第６発明〜第１１発明によれば、取得手段は、学習用音声情報と、参照情報と、を一対の学習データとして、収音装置の種類毎に複数取得する。また、学習手段は、学習データを用いた機械学習により、複数の学習用音声情報と、複数の参照情報との間における連関性が記憶されたデータベースを生成する。このため、生成されたデータベースを参照することで、収音装置毎に異なる特徴が作用したユーザの音声に対し、基準収音装置を用いてユーザの音声を収音した場合に想定される情報を示す参照情報を選択することができる。これにより、様々な種類の収音装置に適した処理を行うことが可能となる。

また、第６発明〜第１１発明によれば、選択手段は、データベースを参照し、評価用音声情報に対する第１参照情報を選択する。また、生成手段は、第１参照情報、及び評価用音声情報に基づき、基準収音装置を用いて第１ユーザの音声を収音した場合に想定される想定音声情報を生成する。このため、収音に用いられる収音装置の種類によって異なる音声の特徴を、基準収音装置を用いた場合の特徴に統一することができる。これにより、様々な種類の収音装置に適した処理を実現することが可能となる。

特に、第７発明によれば、評価手段は、評価用学習済みモデルを参照し、想定音声情報に特定のユーザの音声が含まれているか否かを評価する。このため、音声を収音した収音装置の種類による影響を排除した状態で、特定のユーザの音声が含まれているか否かを評価することができる。これにより、評価精度の向上を図ることが可能となる。

特に、第８発明によれば、出力手段は、評価された内容に基づき、想定音声情報を出力する。このため、音声を収音した収音装置の種類による影響を排除した状態で、必要となる想定音声情報のみを出力することができ、不要な想定音声情報の出力を防ぐことができる。これにより、評価システムの利用状況に応じて最適な情報の出力を実現することが可能となる。

特に、第９発明によれば、記憶手段は、評価された内容に基づき、想定音声情報を保存部に記憶させる。このため、音声を収音した収音装置の種類による影響を排除した状態で、必要となる想定音声情報のみを記憶させることができ、不要な想定音声情報を記憶させることを防ぐことができる。これにより、評価システムの利用状況に応じて最適な情報の保存を実現することが可能となる。

特に、第１０発明によれば、想定音声情報、及び参照情報は、一人のユーザの音声のみを含む。このため、一人のユーザの音声のみを機械学習に用いることで、機械学習に必要なデータの容量を最小限に抑えることができる。これにより、評価用学習済みモデルを生成する際の学習データを収集する時間、及び学習時間を大幅に削減することが可能となる。

Claims

機械学習によりデータベースを生成する学習方法であって、
収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対の学習データとして、前記収音装置の種類毎に複数取得する取得ステップと、
複数の前記学習データを用いた機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性が記憶された前記データベースを生成する学習ステップと、
を備えること
を特徴とする学習方法。
前記学習用音声情報は、前記収音装置の種類を示す特定情報を含むこと
を特徴とする請求項１記載の学習方法。
前記学習用音声情報、及び前記参照情報は、一人のユーザの音声のみを含むこと
を特徴とする請求項１又は２記載の学習方法。
予め取得された複数の過去の学習用音声情報を学習データとして、機械学習により生成された準備用学習済みモデルを更に備え、
前記取得ステップは、前記準備用学習済みモデルを参照し、前記学習用音声情報に基づき新たな学習用音声情報を取得する準備ステップを有すること
を特徴とする請求項１〜３の何れか１項記載の学習方法。
請求項１〜４の何れかの学習方法により生成された前記データベースを参照し、音声データを評価する評価装置であって、
第１収音装置を用いて収音された第１ユーザの音声を含む評価用音声情報を取得する取得部と、
前記データベースを参照し、複数の前記参照情報のうち、前記評価用音声情報に対する第１参照情報を選択する選択部と、
前記第１参照情報、及び前記評価用音声情報に基づき、前記基準収音装置を用いて前記第１ユーザの音声を収音した場合に想定される想定音声情報を生成する生成部と、
を備えること
を特徴とする評価装置。
保存部及び制御部を備えるコンピュータに用いられ、前記保存部に記憶されるデータ構造であって、
収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対として含む学習データを、前記収音装置の種類毎に複数備え、
複数の前記学習データは、前記コンピュータの備える制御部が実行するニューラルネットワークをモデルとした機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性を含む学習済みモデルを生成するために用いられること
を特徴とするデータ構造。
機械学習により生成されたデータベースを参照し、音声データを評価する評価システムであって、
収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対の学習データとして、前記収音装置の種類毎に複数取得する取得手段と、
複数の前記学習データを用いた機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性が記憶された前記データベースを生成する学習手段と、
第１収音装置を用いて収音された第１ユーザの音声を含む評価用音声情報を取得する音声情報取得手段と、
前記データベースを参照し、複数の前記参照情報のうち、前記評価用音声情報に対する第１参照情報を選択する選択手段と、
前記第１参照情報、及び前記評価用音声情報に基づき、前記基準収音装置を用いて前記第１ユーザの音声を収音した場合に想定される想定音声情報を生成する生成手段と、
を備えること
を特徴とする評価システム。
予め取得された過去の想定音声情報、及び前記参照情報の少なくとも何れかを学習データとして、機械学習により生成された評価用学習済みモデルを更に備え、
前記生成手段は、前記評価用学習済みモデルを参照し、前記想定音声情報に特定のユーザの音声が含まれているか否かを評価する評価手段を有すること
を特徴とする請求項７記載の評価システム。
前記評価手段により評価された内容に基づき、前記想定音声情報を出力する出力手段を更に備えること
を特徴とする請求項８記載の評価システム。
前記評価手段により評価された内容に基づき、前記想定音声情報を保存部に記憶させる記憶手段を更に備えること
を特徴とする請求項８記載の評価システム。
前記評価用学習済みモデルを生成するために用いられた前記過去の想定音声情報、及び前記参照情報は、一人のユーザの音声のみを含むこと
を特徴とする請求項８〜１０の何れか１項記載の評価システム。
前記評価用学習済みモデルは、オートエンコーダを用いた機械学習により生成されること
を特徴とする請求項８〜１１の何れか１項記載の評価システム。