JP2021117245A - 学習方法、評価装置、データ構造、及び評価システム - Google Patents

学習方法、評価装置、データ構造、及び評価システム Download PDF

Info

Publication number
JP2021117245A
JP2021117245A JP2020008229A JP2020008229A JP2021117245A JP 2021117245 A JP2021117245 A JP 2021117245A JP 2020008229 A JP2020008229 A JP 2020008229A JP 2020008229 A JP2020008229 A JP 2020008229A JP 2021117245 A JP2021117245 A JP 2021117245A
Authority
JP
Japan
Prior art keywords
learning
voice
evaluation
information
voice information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020008229A
Other languages
English (en)
Other versions
JP6739828B1 (ja
Inventor
継 河合
Kei Kawai
継 河合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Crystal Method Co Ltd
Original Assignee
Crystal Method Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Crystal Method Co Ltd filed Critical Crystal Method Co Ltd
Priority to JP2020008229A priority Critical patent/JP6739828B1/ja
Application granted granted Critical
Publication of JP6739828B1 publication Critical patent/JP6739828B1/ja
Publication of JP2021117245A publication Critical patent/JP2021117245A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】様々な種類の収音装置に適した処理を行うことができる学習方法、評価装置、データ構造、及び評価システムを提供する。【解決手段】機械学習によりデータベースを生成する学習方法であって、収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対の学習データとして、前記収音装置の種類毎に複数取得する取得ステップと、複数の前記学習データを用いた機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性が記憶された前記データベースを生成する学習ステップと、を備えることを特徴とする。【選択図】図1

Description

本発明は、学習方法、評価装置、データ構造、及び評価システムに関する。
従来、快適な相互音声通話等を実現する技術として、例えば特許文献1の音響信号処理装置等が提案されている。
特許文献1では、遠端側の受話信号から、その音響的特徴を分析して適切な制御信号を生成する音響信号分析部と、入力音響信号に混入している音響エコーをキャンセルするエコーキャンセラと、入力音響信号に混入している雑音をキャンセルするノイズキャンセラと、入力音響信号中に含まれる音声の特徴を強調する音声強調部とを備えたので、携帯電話や通信網の種別によらず、通話品質を維持することができ、高品質なハンズフリー音声通話ならびに高精度の音声認識が可能となる。
WO2018/163328号公報
ここで、例えば特許文献1のような音声信号処理装置では、携帯電話に用いられる特定の収音装置(マイク)により得られた入力音響信号の処理のみを前提としている。このため、携帯電話のほか、様々な種類の収音装置に適した処理を行うことが難しい。
そこで本発明は、上述した問題点に鑑みて案出されたものであり、その目的とするところは、様々な種類の収音装置に適した処理を行うことができる学習方法、評価装置、データ構造、及び評価システムを提供する。
第1発明に係る学習方法は、機械学習によりデータベースを生成する学習方法であって、収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対の学習データとして、前記収音装置の種類毎に複数取得する取得ステップと、複数の前記学習データを用いた機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性が記憶された前記データベースを生成する学習ステップと、を備えることを特徴とする。
第2発明に係る学習方法は、第1発明において、前記学習用音声情報は、前記収音装置の種類を示す特定情報を含むことを特徴とする。
第3発明に係る学習方法は、第1発明又は第2発明において、前記学習用音声情報、及び前記参照情報は、一人のユーザの音声のみを含むことを特徴とする。
第4発明に係る学習方法は、第1発明〜第3発明の何れかにおいて、予め取得された複数の過去の学習用音声情報を学習データとして、機械学習により生成された準備用学習済みモデルを更に備え、前記取得ステップは、前記準備用学習済みモデルを参照し、前記学習用音声情報に基づき新たな学習用音声情報を取得する準備ステップを有することを特徴とする。
第5発明に係る評価装置は、第1発明〜第4発明の何れかの学習方法により生成されたデータベースを参照し、音声データを評価する評価装置であって、第1収音装置を用いて収音された第1ユーザの音声を含む評価用音声情報を取得する取得部と、前記データベースを参照し、複数の前記参照情報のうち、前記評価用音声情報に対する第1参照情報を選択する選択部と、前記第1参照情報、及び前記評価用音声情報に基づき、前記基準収音装置を用いて前記第1ユーザの音声を収音した場合に想定される想定音声情報を生成する生成部と、を備えることを特徴とする。
第6発明に係るデータ構造は、保存部及び制御部を備えるコンピュータに用いられ、前記保存部に記憶されるデータ構造であって、収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対として含む学習データを、前記収音装置の種類毎に複数備え、複数の前記学習データは、前記コンピュータの備える制御部が実行するニューラルネットワークをモデルとした機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性を含む学習済みモデルを生成するために用いられることを特徴とする。
第7発明に係る評価システムは、機械学習により生成されたデータベースを参照し、音声データを評価する評価システムであって、収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対の学習データとして、前記収音装置の種類毎に複数取得する取得手段と、複数の前記学習データを用いた機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性が記憶された前記データベースを生成する学習手段と、第1収音装置を用いて収音された第1ユーザの音声を含む評価用音声情報を取得する音声情報取得手段と、前記データベースを参照し、複数の前記参照情報のうち、前記評価用音声情報に対する第1参照情報を選択する選択手段と、前記第1参照情報、及び前記評価用音声情報に基づき、前記基準収音装置を用いて前記第1ユーザの音声を収音した場合に想定される想定音声情報を生成する生成手段と、を備えることを特徴とする。
第8発明に係る評価システムは、第7発明において、予め取得された過去の想定音声情報、及び前記参照情報の少なくとも何れかを学習データとして、機械学習により生成された評価用学習済みモデルを更に備え、前記生成手段は、前記評価用学習済みモデルを参照し、前記想定音声情報に特定のユーザの音声が含まれているか否かを評価する評価手段を有することを特徴とする。
第9発明に係る評価システムは、第8発明において、前記評価手段により評価された内容に基づき、前記想定音声情報を出力する出力手段を更に備えることを特徴とする。
第10発明に係る評価システムは、第8発明において、前記評価手段により評価された内容に基づき、前記想定音声情報を保存部に記憶させる記憶手段を更に備えることを特徴とする。
第11発明に係る評価システムは、第8発明〜第10発明の何れかにおいて、前記評価用学習済みモデルを生成するために用いられた前記過去の想定音声情報、及び前記参照情報は、一人のユーザの音声のみを含むことを特徴とする。
第12発明に係る評価システムは、第8発明〜第11発明の何れかにおいて、前記評価用学習済みモデルは、オートエンコーダを用いた機械学習により生成されることを特徴とする。
第1発明〜第5発明によれば、取得ステップは、学習用音声情報と、参照情報と、を一対の学習データとして、収音装置の種類毎に複数取得する。また、学習ステップは、学習データを用いた機械学習により、複数の学習用音声情報と、複数の参照情報との間における連関性が記憶されたデータベースを生成する。このため、生成されたデータベースを参照することで、収音装置毎に異なる特徴が作用したユーザの音声に対し、基準収音装置を用いてユーザの音声を収音した場合に想定される情報を示す参照情報を選択することができる。これにより、様々な種類の収音装置に適した処理を行うことが可能となる。
特に、第2発明によれば、学習用音声情報は、収音装置の種類を示す特定情報を含む。即ち、このため、収音装置毎に異なる僅かな特徴の違いも踏まえた参照情報を選択することができる。これにより、参照情報を選択する際の精度を向上させることが可能となる。
特に、第3発明によれば、学習用音声情報、及び参照情報は、一人のユーザの音声のみを含む。このため、収音装置の種類によって、学習用音声情報の特徴が僅かに異なる場合においても、容易に判別することができる。これにより、収音装置毎に適した処理を選択する際の精度を向上させることが可能となる。また、一人のユーザの音声のみを機械学習に用いることで、機械学習に必要なデータの容量を最小限に抑えることができる。これにより、データベースを生成する際の学習データを収集する時間、及び学習時間を大幅に削減することが可能となる。
特に、第4発明によれば、準備ステップは、準備用学習済みモデルを参照し、学習用音声情報に基づき新たな学習用音声情報を取得する。このため、機械学習に必要となる膨大な数の学習用音声情報を、容易に収集することができる。これにより、データベースを生成する際の学習データ収集する時間、及び学習データを収集するためのコストを削減することが可能となる。
特に、第5発明によれば、選択部は、データベースを参照し、評価用音声情報に対する第1参照情報を選択する。また、生成部は、第1参照情報、及び評価用音声情報に基づき、基準収音装置を用いて第1ユーザの音声を収音した場合に想定される想定音声情報を生成する。このため、収音に用いられる収音装置の種類によって異なる音声の特徴を、基準収音装置を用いた場合の特徴に統一することができる。これにより、様々な種類の収音装置に適した処理を実現することが可能となる。
第6発明によれば、学習データは、学習用音声情報と、参照情報と、を一対として含む。また、収音装置の種類毎に複数備えられた学習データは、コンピュータの備える制御部が実行するニューラルネットワークをモデルとした機械学習により、複数の学習用音声情報と、複数の参照情報との間における連関性を含む学習済みモデルを生成するために用いられる。このため、生成された学習済みモデルを参照することで、収音装置毎に異なる特徴が作用したユーザの音声に対し、基準収音装置を用いてユーザの音声を収音した場合に想定される情報を示す参照情報を選択することができる。これにより、様々な種類の収音装置に適した処理を行うことが可能となる。
第7発明〜第12発明によれば、取得手段は、学習用音声情報と、参照情報と、を一対の学習データとして、収音装置の種類毎に複数取得する。また、学習手段は、学習データを用いた機械学習により、複数の学習用音声情報と、複数の参照情報との間における連関性が記憶されたデータベースを生成する。このため、生成されたデータベースを参照することで、収音装置毎に異なる特徴が作用したユーザの音声に対し、基準収音装置を用いてユーザの音声を収音した場合に想定される情報を示す参照情報を選択することができる。これにより、様々な種類の収音装置に適した処理を行うことが可能となる。
また、第7発明〜第12発明によれば、選択手段は、データベースを参照し、評価用音声情報に対する第1参照情報を選択する。また、生成手段は、第1参照情報、及び評価用音声情報に基づき、基準収音装置を用いて第1ユーザの音声を収音した場合に想定される想定音声情報を生成する。このため、収音に用いられる収音装置の種類によって異なる音声の特徴を、基準収音装置を用いた場合の特徴に統一することができる。これにより、様々な種類の収音装置に適した処理を実現することが可能となる。
特に、第8発明によれば、評価手段は、評価用学習済みモデルを参照し、想定音声情報に特定のユーザの音声が含まれているか否かを評価する。このため、音声を収音した収音装置の種類による影響を排除した状態で、特定のユーザの音声が含まれているか否かを評価することができる。これにより、評価精度の向上を図ることが可能となる。
特に、第9発明によれば、出力手段は、評価された内容に基づき、想定音声情報を出力する。このため、音声を収音した収音装置の種類による影響を排除した状態で、必要となる想定音声情報のみを出力することができ、不要な想定音声情報の出力を防ぐことができる。これにより、評価システムの利用状況に応じて最適な情報の出力を実現することが可能となる。
特に、第10発明によれば、記憶手段は、評価された内容に基づき、想定音声情報を保存部に記憶させる。このため、音声を収音した収音装置の種類による影響を排除した状態で、必要となる想定音声情報のみを記憶させることができ、不要な想定音声情報を記憶させることを防ぐことができる。これにより、評価システムの利用状況に応じて最適な情報の保存を実現することが可能となる。
特に、第11発明によれば、想定音声情報、及び参照情報は、一人のユーザの音声のみを含む。このため、一人のユーザの音声のみを機械学習に用いることで、機械学習に必要なデータの容量を最小限に抑えることができる。これにより、評価用学習済みモデルを生成する際の学習データを収集する時間、及び学習時間を大幅に削減することが可能となる。
図1は、本実施形態における評価システムの概要の一例を示す模式図である。 図2は、本実施形態における評価システムの動作の一例を示す模式図である。 図3は、本実施形態における学習方法及びデータ構造の一例を示す模式図である。 図4は、本実施形態における学習方法及びデータ構造の変形例を示す模式図である。 図5は、データベースの一例を示す模式図である。 図6は、データベースの変形例を示す模式図である。 図7(a)は、本実施形態における評価装置の構成の一例を示す模式図であり、図7(b)は、本実施形態における評価装置の機能の一例を示す模式図である。 図8は、本実施形態における評価システムの動作の一例を示すフローチャートである。 図9(a)は、本実施形態における評価システムの動作の第1変形例を示すフローチャートであり、図9(b)は、本実施形態における評価システムの動作の第2変形例を示すフローチャートである。
以下、本発明を適用した実施形態における学習方法、評価装置、データ構造、及び評価システムの一例について、図面を参照しながら説明する。
(実施形態:評価システム100、評価装置1、学習方法、データ構造)
図1、及び図2を参照して、本実施形態における学習方法、評価装置1、データ構造、及び評価システム100の一例について説明する。図1は、本実施形態における評価システム100の概要の一例を示す模式図であり、図2は、本実施形態における評価システム100の動作の一例を示す模式図である。
<評価システム100>
本実施形態における評価システム100は、機械学習により生成されたデータベースを参照し、音声データを評価する場合に用いられる。評価システム100は、例えば収音装置2毎に異なる特徴が作用したユーザの音声に対し、基準となる収音装置2(基準収音装置2i)を用いて収音した場合に想定される音声を取得したい場合等に利用される。評価システム100では、例えば評価用に取得した音声データ(評価用音声情報)から、音声を収集した収音装置2の特徴を特定することもできる。これらにより、評価システム100を利用することで、様々な種類の収音装置2毎に適した音声情報の処理を行うことができる。
評価システム100は、例えば図1に示すように、評価装置1を備える。評価装置1は、直接又は通信網4を介して、1以上の収音装置2(例えば収音装置2a、2b、2c)と接続される。評価装置1は、例えば通信網4を介して、端末3及びサーバ5の少なくとも何れかと接続されてもよい。
評価システム100では、例えば図2に示すように、評価装置1が、収音装置2を用いて収音されたユーザ(第1ユーザ)の音声を含む評価用音声情報を取得する。評価装置1は、データベースを参照し、評価用音声情報に対する参照情報(第1参照情報)を選択する。参照情報は、例えば基準収音装置2iを用いて収音したユーザの音声を含む。このため、評価用音声情報を取得する際に用いられた収音装置2の種類に関わらず、評価基準に適した参照情報を選択することができる。様々な種類の収音装置2に応じた評価用音声情報の評価を実現することができる。
例えば評価装置1は、選択した参照情報、及び評価用音声情報に基づき、収音装置2の種類に適した処理を行う。例えば、参照情報と評価用音声情報とを比較し、評価用音声情報に含まれるノイズや収音装置2起因の影響(収音装置2の特徴)を特定することで、評価用音声情報に対してノイズキャンセリングや音声の補正等の処理を行うことができる。
また、例えば参照情報、及び評価用音声情報に基づき、基準収音装置2iを用いて第1ユーザの音声を収音した場合に想定される音声(想定音声情報)を生成する処理を行うことができる。
その後、例えば他のユーザが保有する端末3等に、処理済みの評価用音声情報を含む評価結果を出力する。これにより、評価用音声情報を収音した収音装置2の種類に関わらず、他のユーザが認識し易い音声を、端末3から出力させることができる。
上記のほか、例えば評価装置1は、選択した参照情報に基づき、評価用音声情報に含まれる音声の収音に用いられた収音装置2を特定するための情報を含む評価結果を、モニタ等に表示してもよい。評価装置1は、特定される収音装置2の種類を1つ表示するほか、例えば「収音装置A:50%、収音装置B:20%」等のように複数の候補を表示してもよい。また、評価装置1は、例えば評価用音声情報に適した処理方法を表示してもよい。これにより、ユーザは、評価用音声情報に対して適した処理を行うことが可能となる。
評価用音声情報は、例えば収音装置2を用いて収音されたユーザの音声をデジタル形式に変換した音声データを含む。評価用音声情報は、例えば上記データに加えて収音装置2の種類を示す特定情報を含んでもよい。
<データベース>
データベースは、例えば図3に示すように、複数の学習データを用いた機械学習により生成される。本実施形態における学習方法では、例えばニューラルネットワークをモデルとした深層学習を用いて、データベースを生成する。データベースは、例えばCNN(Convolution Neural Network)をモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。
学習データは、学習用音声情報と、参照情報とを一対として含む。本実施形態におけるデータ構造は、複数の学習データを備える。学習用音声情報は、評価用音声情報と同種のデータ(例えば上述した音声データ)を含む(図3では特徴A〜C)。学習用音声情報は、収音装置2の種類毎に複数準備される。参照情報は、例えば対となる学習用音声情報と同じ内容の音声を、基準収音装置2iによって収音した音声データを含む(図3では参照A〜C)。このため、例えば学習用音声情報に対し、対となる参照情報の差分を取ることで、学習用音声情報における音声データの特徴(収音装置2の特徴)を抽出することができる。
学習用音声情報、及び参照情報は、例えば一人のユーザの音声のみを含んでもよい。この場合、収音装置2の種類によって、学習用音声情報の特徴が僅かに異なる場合においても、容易に判別することができる。
学習用音声情報は、例えば図4に示すように、音声を収音する収音装置2の種類を示す特定情報を含んでもよい。特定情報は、例えば収音装置2の変換形式特性、指向特性、周波数特性、最大音圧レベルの少なくとも何れかを含む。変換形式特性は、例えばダイナミック型と、コンデンサ型とを含む。指向特性は、例えば無指向性と、単一指向性と、双指向性とを含む。周波数特性は、例えば「○〜○kHz帯向け」等の高感度帯域の情報を含む。
学習用音声情報に特定情報を含ませることで、同種の収音装置2毎に異なる僅かな特徴の違いを特定することが可能となる。例えば同種の収音装置2を用いた場合においても、製造バラつきや、経時変化の差によって、得られる音声データの特徴が異なる場合がある。このような場合においても、学習用音声情報に特定情報を含ませることで、収音装置2を特定する際の精度を向上させることが可能となる。
データベースには、複数の学習用音声情報と、複数の参照情報との間における連関性が記憶される。連関性は、多対多の情報(複数の学習用音声情報、対、複数の参照情報)の間における繋がりの度合いにより構築される。連関性は、機械学習の過程で適宜更新され、例えば複数の学習用音声情報、及び複数の参照情報に基づいて最適化された関数(分類器)を示す。なお、連関性は、例えば各情報の間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。
このため、評価システム100では、複数の学習データにおける学習用音声情報と、参照情報との関係を全て踏まえた連関性を用いて、評価用音声情報に適した参照情報(第1参照情報)を選択することができる。これにより、評価用音声情報が、学習用音声情報と同一又は類似である場合のほか、非類似である場合においても、適した参照情報を定量的に選択することができる。なお、機械学習を行う際に汎化能力を高めることで、未知の評価用音声情報に対する評価精度の向上を図ることができる。
連関性として、例えば図5に示すように、複数の学習用音声情報と、複数の参照情報との間における繋がりの度合いを示す数値等が用いられてもよい。この場合、連関性を用いることで、複数の学習用音声情報に含まれる各特徴(図5では「特徴A」〜「特徴C」)のそれぞれに対し、複数の参照情報(図5では「参照A」〜「参照C」)の関係の度合いを紐づけて記憶させることができる。このため、例えば連関性を介して、1つの学習用音声情報に対して、複数の参照情報を紐づけることができる。これにより、評価用音声情報に対して多角的な参照情報の選択や評価を実現することができる。
連関性は、各学習用音声情報と、各参照情報とをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、10段階、又は5段階等の3段階以上で示され、例えば線の特徴(例えば太さ等)で示されてもよい。例えば、学習用音声情報に含まれる「特徴A」は、参照情報に含まれる「参照A」との間の連関度AA「75%」を示し、参照情報に含まれる「参照B」との間の連関度AB「12%」を示す。すなわち、「連関度」は、各情報間における繋がりの度合いを示しており、例えば連関度が高いほど、各情報の繋がりが強いことを示す。
データベースには、例えば図6に示すように、音声データと、特定情報とを分割した状態に対応する連関性が記憶されてもよい。この場合、音声データ及び特定情報の組合わせと、参照情報との間の関係に基づいて、連関度が算出される。
例えば、音声データに含まれる「特徴A」、及び特定情報に含まれる「特定A」の組合わせは、「参照A」との間の連関度AAA「63%」を示し、「参照B」との間の連関度ABA「63%」を示す。この場合、例えば音声データ及び特定情報をそれぞれ独立してデータを記憶させることができる。このため、参照情報を選択する際、精度の向上及び選択肢の範囲を拡大させることが可能となる。
<評価装置1>
次に、図7を参照して、本実施形態における評価装置1の一例を説明する。図7(a)は、本実施形態における評価装置1の構成の一例を示す模式図であり、図7(b)は、本実施形態における評価装置1の機能の一例を示す模式図である。
評価装置1として、例えばラップトップ(ノート)PC又はデスクトップPC等の電子機器が用いられる。評価装置1は、例えば図7(a)に示すように、筐体10と、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、保存部104と、I/F105〜107とを備える。各構成101〜107は、内部バス110により接続される。
CPU101は、評価装置1全体を制御する。ROM102は、CPU101の動作コードを格納する。RAM103は、CPU101の動作時に使用される作業領域である。保存部104は、データベース等の各種情報が記憶される。保存部104として、例えばHDD(Hard Disk Drive)のほか、SSD(Solid State Drive)等のデータ保存装置が用いられる。なお、例えば評価装置1は、図示しないGPU(Graphics Processing Unit)を有してもよい。
I/F105は、通信網4を介して、必要に応じて収音装置2、端末3、サーバ5等との各種情報の送受信を行うためのインターフェースである。I/F106は、入力部108との情報の送受信を行うためのインターフェースである。入力部108として、例えばキーボードが用いられ、評価装置1のユーザは、入力部108を介して、各種情報、又は評価装置1の制御コマンド等を入力する。I/F107は、表示部109との各種情報の送受信を行うためのインターフェースである。表示部109は、保存部104に保存された各種情報、又は評価結果等を表示する。表示部109として、ディスプレイが用いられ、例えばタッチパネル式の場合、入力部108と一体に設けられる。
図7(b)は、評価装置1の機能の一例を示す模式図である。評価装置1は、取得部11と、選択部13と、記憶部16とを備え、例えば学習部12、生成部14、出力部15、更新部17の少なくとも何れかを備えてもよい。なお、図7(b)に示した各機能は、CPU101が、RAM103を作業領域として、保存部104等に記憶されたプログラムを実行することにより実現され、例えば人工知能等により制御されてもよい。
<<取得部11>>
取得部11は、評価用音声情報を取得する。取得部11は、例えば収音装置2によって収音された音声に基づき生成された評価用音声情報を取得する。取得部11は、例えばユーザ等により入力された収音装置2の特定情報を、評価用音声情報に含ませてもよい。
例えば評価装置1を用いて学習方法を行う場合、取得部11は、複数の学習データを取得する。取得部11は、例えば予め保存部104やサーバ5に保存された複数の学習データを取得する。学習データに含まれる一対の学習用音声情報、及び参照情報は、例えば同一のユーザから収音した同一の内容を示す音声を含む。この場合、例えばそれぞれ異なるユーザから収音した音声、又はそれぞれ異なる内容を示す音声を含む場合に比べ、参照情報を選択する際の精度を向上させることができる。なお、取得部11は、例えば収音装置2又は基準収音装置2iによって収音された音声に基づき生成された音声データを、学習用音声情報又は参照情報として取得してもよい。
取得部11は、例えば取得した音声データを含む学習用音声情報に基づき、予め保存部104やサーバ5に保存された複数の参照情報から、学習用音声情報に適した参照情報を取得し、一対の学習データとして取得してもよい。
取得部11は、例えば準備用学習済みモデルを参照し、学習用音声情報(親音声情報)に基づき新たな学習用音声情報(子音声情報)を取得してもよい。準備用学習済みモデルは、予め取得された複数の過去の学習用音声情報を学習データとして、機械学習により生成される。準備用学習済みモデルは、例えば深層学習を用いて生成される。準備用学習済みモデルは、例えばGAN(Generative Adversarial Network)を用いた機械学習により生成される。
準備用学習済みモデルを用いて生成された子音声情報は、例えば親音声情報とは少なくとも一部が異なる特徴を示す音声データを含む。このため、データベースを生成する際の機械学習に必要となる学習用音声情報の数を、容易に収集することができる。
<<学習部12>>
学習部12は、例えば複数の学習データを用いた機械学習により、データベースを生成する。機械学習には、例えば上述した深層学習等が用いられる。なお、データベースを生成する際に用いる学習データの数は、任意に設定することができる。
<<選択部13>>
選択部13は、データベースを参照し、複数の参照情報のうち、評価用音声情報に対する参照情報(例えば第1参照情報)を選択する。選択部13は、例えば評価用音声情報に対し、連関性の最も高い参照情報を、第1参照情報として選択するほか、例えば予め設定された閾値以上の連関度を有する複数の参照情報を、第1参照情報として選択してもよい。
例えば図5のデータベースを参照した場合、選択部13は、評価用音声情報と同一又は類似する学習用音声情報(例えば「特徴A」:第1特徴情報とする)を選択する。選択される第1特徴情報として、評価用音声情報と一部一致又は完全一致する学習用音声情報が選択されるほか、例えば評価用音声情報と類似する学習用音声情報が選択される。なお、学習用音声情報が選択される類似度の度合い、及び選択される学習用音声情報の数については、任意に設定できる。
選択部13は、選択した第1特徴情報に紐づく参照情報のうち、例えば最も連関度の高い参照情報(例えば「参照A」:第1参照情報とする)を選択するほか、例えば閾値(例えば10%)以上の連関度を有する参照情報(例えば「参照A」(連関度AA(75%))、及び「参照B」(連関度AB(12%)))を、第1参照情報として選択してもよい。
<<生成部14>>
生成部14は、例えば第1参照情報に基づく評価結果を生成する。生成部14は、例えば第1参照情報に基づき、評価用音声情報に対して処理を行い、得られた処理データを含む評価結果を生成する。処理データは、例えば評価用音声情報に対してノイズキャンセリングや音声の補正等の処理を行ったデータを示す。生成部14は、公知技術を用いて、評価用音声情報に対する処理を行う。
生成部14は、例えば保存部104に保存された処理テーブル等を用いて、処理を行う。処理テーブルには、例えば複数の参照情報と、各参照情報に紐づく処理方法とが示される。このため、生成部14は、第1参照情報を取得することで、処理テーブルを参照して評価用音声情報に対する処理方法を選択することができ、評価用音声情報に適した処理を行うことができる。
生成部14は、例えば第1参照情報、及び評価用音声情報に基づき、想定音声情報を生成する処理を行ってもよい。想定音声情報は、基準収音装置2iを用いてユーザの音声を収音した場合に想定される情報を示す。生成部14は、例えば第1参照情報と、評価用音声情報との差分結果を用いて、想定音声情報を生成することができる。生成部14は、例えば想定音声情報を、評価結果として生成する。
生成部14は、例えば第1参照情報に基づき、評価用音声情報に含まれる音声に用いられた収音装置2を特定するための情報を、評価結果に含ませてもよい。この場合、生成部14は、例えば保存部104に予め記憶された表示用のフォーマットを用いて、ユーザが理解できる文字列等に変換した評価結果を生成する。
<<出力部15>>
出力部15は、評価用音声情報に対する評価結果を出力する。出力部15は、例えば生成部14によって生成された評価結果を、端末3等に出力する。出力部15は、例えば評価音声情報を評価結果として、端末3等に出力してもよい。出力部15は、例えばI/F107を介して表示部109に評価結果を送信するほか、例えばI/F105を介して、端末3等に評価結果を送信する。
<<記憶部16>>
記憶部16は、保存部104に保存されたデータベース等の各種データを必要に応じて取出す。記憶部16は、各構成11〜15、17により取得又は生成された各種データを、必要に応じて保存部104に保存する。
<<更新部17>>
更新部17は、例えばデータベースを更新する。更新部17は、学習用音声情報と、参照情報との間の関係を新たに取得した場合には、関係を連関性に反映させる。例えば出力部15により出力された評価結果を踏まえて、ユーザ等が評価結果の精度を検討し、検討結果を評価装置1が取得した場合、更新部17は、検討結果に基づきデータベースに記憶される連関性を更新する。連関性の更新には、例えば上述した機械学習が用いられる。
<収音装置2(基準収音装置2i)>
収音装置2は、ユーザ等の音声を収音し、音声データ(又は評価用音声情報)を生成する。収音装置2として、公知のマイクロフォンが用いられ、例えばPCや携帯電話等の電子機器に予め設けられたマイクロフォン、スタンドマイク、ボーカルマイク、ワイヤレスマイク、骨伝導マイク、ヘッドセット等が用いられる。
基準収音装置2iは、参照情報として取得される音声を収音する際に用いられ、評価の基準となる音声データを生成する。このため、基準収音装置2iとして、収音装置2に比べて、音声データに対して装置起因の影響が少ない装置が用いられることが望ましい。基準収音装置2iとして、例えば収音装置2に比べて、高性能なマイクロフォンが用いられる。
<端末3>
端末3は、例えば評価システム100を利用するユーザ等が保有し、通信網4を介して評価装置1と接続される。端末3は、例えばデータベースを生成する電子機器を示してもよい。端末3は、例えばパーソナルコンピュータや、タブレット端末等の電子機器が用いられる。端末3は、例えば評価装置1の備える機能のうち、少なくとも一部の機能を備えてもよい。
<サーバ5>
サーバ5は、例えば通信網4を介して評価装置1と接続される。サーバ5は、例えば学習データ等が記憶され、必要に応じて評価装置1から各種データが送信される。サーバ5は、例えば評価装置1の備える機能のうち、少なくとも一部の機能を備えてもよく、例えば評価装置1の代わりに、データベースの生成等の少なくとも一部の処理を行ってもよい。サーバ5は、例えば評価装置1の保存部104に記憶された各種データのうち少なくとも一部が記憶され、例えば保存部104の代わりに用いられてもよい。
<通信網4>
通信網4は、例えば評価装置1が通信回路を介して接続されるインターネット網等である。通信網4は、いわゆる光ファイバ通信網で構成されてもよい。また、通信網4は、有線通信網のほか、無線通信網等の公知の通信技術で実現してもよい。
(実施形態:評価システム100の動作)
次に、本実施形態における評価システム100の動作の一例について説明する。図8は、本実施形態における評価システム100の動作の一例を示すフローチャートである。
評価システム100は、取得手段S110と、学習手段S120と、音声情報取得手段S210と、選択手段S220とを備え、例えば生成手段S230、出力手段S240、及び更新手段S250の少なくとも何れかを備えてもよい。
<取得手段S110>
取得手段S110は、収音装置2を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置2iを用いて収音したユーザの音声を含む参照情報と、を一対の学習データとして、収音装置2の種類毎に複数取得する。例えば取得部11は、予め保存部104等に保存された複数の学習データを取得するほか、上述した方法により、複数の学習データを取得する。なお、各学習データの生成されたタイミング、及び取得するタイミングは、任意である。
取得部11は、例えば準備用学習済みモデルを参照し、学習用音声情報(親音声情報)に基づき新たな学習用音声情報(子音声情報)を取得してもよい。この場合、取得部11は、例えば親音声情報に紐づける参照情報を、子音声情報にも紐づけることで、学習データとして用いてもよい。
<学習手段S120>
学習手段S120は、複数の学習データを用いた機械学習により、複数の入力手段と、複数の参照情報との間における連関性が記憶されたデータベースを生成する。例えば学習部12は、公知の機械学習により、データベースを生成する。学習部12は、例えば記憶部16を介して、生成したデータベースを保存部104に保存する。なお、生成されたデータベースは、例えばサーバ5や他の評価装置1にデータベースを保存してもよい。
<音声情報取得手段S210>
音声情報取得手段S210は、収音装置2(第1収音装置)を用いて収音されたユーザ(第1ユーザ)の音声を含む評価用音声情報を取得する。例えば取得部11は、収音装置2によって生成された評価用音声情報を取得する。取得部11は、例えばユーザ等により入力された収音装置2の特定情報を、評価用音声情報に含ませてもよい。取得部11は、例えば収音装置2や端末3等から特定情報を取得してもよい。
<選択手段S220>
選択手段S220は、データベースを参照し、複数の参照情報のうち、評価用音声情報に対する参照情報(第1参照情報)を選択する。例えば選択部13は、例えば評価用音声情報に対して最も連関度の高い参照情報を、第1参照情報として選択する。上記のほか、例えば選択部13は、予め設定された閾値以上の連関度に紐づく1以上の参照情報を、第1参照情報として選択してもよい。
これにより、本実施形態における評価システム100の動作が終了する。なお、上述した取得手段S110及び学習手段S120は、本実施形態における学習方法の備える取得ステップ及び学習ステップと同様とすることができる。また、上述した音声情報取得手段S210及び選択手段S220は、例えば本実施形態における学習方法の備える音声情報取得ステップ及び選択ステップと同様とすることができる。
<生成手段S230>
本実施形態における評価システム100は、例えば選択手段S220のあと、第1参照情報に基づく評価結果を生成してもよい(生成手段S230)。例えば生成部14は、第1参照情報に基づき、評価用音声情報に対して処理を行い、得られた処理データを含む評価結果を生成する。生成部14は、例えば評価用音声情報の一部を加工又は除去し、その処理結果を処理データとして生成する。生成部14は、例えば第1参照情報、及び評価用音声情報に基づき、想定音声情報を生成し、評価結果に含ませてもよい。
<出力手段S240>
本実施形態における評価システム100は、例えば生成手段S230のあと、評価結果を出力してもよい(出力手段S240)。例えば出力部15は、生成手段S230のあと、評価結果を端末3等に出力する。
<更新手段S250>
本実施形態における評価システム100は、例えばデータベースを更新してもよい(更新手段S250)。例えば更新部17は、評価結果に対するユーザ等の検討結果に基づき、データベースに記憶される連関性を更新する。なお、更新手段S250を行うタイミングや頻度は、任意である。
なお、上述した取得手段S110、及び学習手段S120を行う際に用いられる評価装置1は、音声情報取得手段S210、選択手段S220等を行う際に用いられる評価装置1とは異なる装置を用いてもよく、用途や状況に応じて1又は2以上の評価装置1が用いられてもよい。
(実施形態:評価システム100の動作の変形例)
次に、本実施形態における評価システム100の動作の変形例について説明する。図9(a)は、本実施形態における評価システム100の動作の第1変形例を示すフローチャートであり、図9(b)は、本実施形態における評価システム100の動作の第2変形例を示すフローチャートである。
上述した実施形態と、各変形例との主な違いは、評価用学習済みモデルを参照した評価手段S232が行われる点である。なお、上述した実施形態と同様の内容については、説明を省略する。
評価用学習済みモデルは、予め取得された過去の想定音声情報、及び参照情報の少なくとも何れかを学習データとして、機械学習により生成される。評価用学習済みモデルは、例えば上述した公知の機械学習を用いて生成される。評価用学習済みモデルは、例えばオートエンコーダを用いた機械学習により生成される。
評価用学習済みモデルを生成するために用いられた学習データ(過去の想定音声情報、及び参照情報)は、特定のユーザの音声のみを含み、例えば一人のユーザの音声のみを含む。学習データに含まれる音声の対象を絞ることで、想定音声情報に特定のユーザの音声が含まれているか否かを高精度に評価することが可能となる。なお、評価用学習済みモデルは、例えば一人のユーザの音声のみを含む学習データにより、オートエンコーダを用いた機械学習により生成されてもよい。この場合、学習データの準備を最小限に抑えることが可能となる。また、評価対象となる音声情報(想定音声情報)に、一人のユーザの音声が含まれているか否かの評価を、高精度に行うことが可能となる。
(実施形態:評価システム100の動作の第1変形例)
評価システム100の第1変形例では、例えば図9(a)に示すように、生成手段S230は、想定音声情報生成手段S231と、評価手段S232とを有する。なお、評価手段S232を行う際に用いられる評価装置1は、音声情報取得手段S210、選択手段S220等を行う際に用いられる評価装置1とは異なる装置を用いてもよく、用途や状況に応じて1又は2以上の評価装置1が用いられてもよい。
<想定音声情報生成手段S231>
想定音声情報生成手段S231では、例えば生成部14は、第1参照情報、及び評価用音声情報に基づき、想定音声情報を生成する。生成部14は、上述した内容と同様の方法により、想定音声情報を生成することができる。
<評価手段S232>
評価手段S232は、評価用学習済みモデルを参照し、想定音声情報に特定のユーザの音声が含まれているか否かを評価する。例えば生成部14は、評価用学習済みモデルを参照し、想定音声情報の音声と、特定のユーザの音声との類似度を算出することで、例えば閾値との比較による評価を行うことができる。なお、評価基準となる閾値等は、予め任意に設定することができる。生成部14は、例えば想定音声情報を含む評価結果を生成する。
その後、例えば図9(a)に示すように、評価システム100の第1変形例では、出力手段S241が行われる。出力手段S241では、例えば出力部15は、評価された内容に基づき、想定音声情報を端末3等に出力する。なお、出力部15は、例えば想定音声情報を含む評価結果を出力してもよい。
例えば評価手段S232において、想定音声情報に特定のユーザの音声が含まれていると判定された場合、出力部15は、端末3等に想定音声情報を出力する。また、評価手段S232において、想定音声情報に特定のユーザの音声が含まれていないと判定された場合、出力部15は、端末3等に想定音声情報を出力しない。このため、音声を収音した収音装置2の種類による影響を排除した状態で、必要となる想定音声情報のみを出力することができ、不要な想定音声情報の出力を防ぐことができる。
評価手段S232において、例えば生成部14は、評価用学習済みモデルを参照し、想定音声情報に対し、特定のユーザの音声以外をフィルタリングする処理を行ってもよい。この場合、生成部14は、例えば想定音声情報に対する評価や判定をせずに、フィルタリング処理された想定音声情報を、端末3等に出力してもよい。これにより、処理速度の向上を図ることが可能となる。なお、この場合におけるフィルタリングする処理方法については、公知の技術を用いることができる。
(実施形態:評価システム100の動作の第2変形例)
評価システム100の第2変形例では、例えば図9(b)に示すように、第1変形例と同様に、生成手段S230は、想定音声情報生成手段S231と、評価手段S232とを有する。また、評価システム100の第2変形例では、記憶手段S260を更に備える。なお、評価手段S232、及び記憶手段S260を行う際に用いられる評価装置1は、音声情報取得手段S210、選択手段S220等を行う際に用いられる評価装置1とは異なる装置を用いてもよく、用途や状況に応じて1又は2以上の評価装置1が用いられてもよい。
<記憶手段S260>
記憶手段S260は、例えば上述した評価手段S232のあとに行われる。記憶手段S260では、例えば記憶部16は、評価手段S232により評価された内容に基づき、想定音声情報を保存部104に記憶させる。なお、記憶部16は、例えば想定音声情報を含む評価結果を記憶させてもよい。
例えば評価手段S232において、想定音声情報に特定のユーザの音声が含まれていると判定された場合、記憶部16は、保存部104に想定音声情報を記憶させる。また、評価手段S232において、想定音声情報に特定のユーザの音声が含まれていないと判定された場合、記憶部16は、保存部104に想定音声情報を出力しない。このため、音声を収音した収音装置2の種類による影響を排除した状態で、必要となる想定音声情報のみを記憶させることができ、不要な想定音声情報を記憶させることを防ぐことができる。
本実施形態によれば、取得ステップは、学習用音声情報と、参照情報と、を一対の学習データとして、収音装置2の種類毎に複数取得する。また、学習ステップは、学習データを用いた機械学習により、複数の学習用音声情報と、複数の参照情報との間における連関性が記憶されたデータベースを生成する。このため、生成されたデータベースを参照することで、収音装置2毎に異なる特徴が作用したユーザの音声に対し、基準収音装置2iを用いてユーザの音声を収音した場合に想定される情報を示す参照情報を選択することができる。これにより、様々な種類の収音装置2に適した処理を行うことが可能となる。
また、本実施形態によれば、学習用音声情報は、収音装置2の種類を示す特定情報を含む。即ち、このため、収音装置2毎に異なる僅かな特徴の違いも踏まえた参照情報を選択することができる。これにより、参照情報を選択する際の精度を向上させることが可能となる。
また、本実施形態によれば、学習用音声情報、及び参照情報は、一人のユーザの音声のみを含む。このため、収音装置2の種類によって、学習用音声情報の特徴が僅かに異なる場合においても、容易に判別することができる。これにより、収音装置2毎に適した処理を選択する際の精度を向上させることが可能となる。また、一人のユーザの音声のみを機械学習に用いることで、機械学習に必要なデータの容量を最小限に抑えることができる。これにより、データベースを生成する際の学習データを収集する時間、及び学習時間を大幅に削減することが可能となる。
また、本実施形態によれば、準備ステップは、準備用学習済みモデルを参照し、学習用音声情報に基づき新たな学習用音声情報を取得する。このため、機械学習に必要となる膨大な数の学習用音声情報を、容易に収集することができる。これにより、データベースを生成する際の学習データ収集する時間、及び学習データを収集するためのコストを削減することが可能となる。
また、本実施形態によれば、選択部13は、データベースを参照し、評価用音声情報に対する第1参照情報を選択する。また、生成部14は、第1参照情報、及び評価用音声情報に基づき、基準収音装置2iを用いて第1ユーザの音声を収音した場合に想定される想定音声情報を生成する。このため、収音に用いられる収音装置2の種類によって異なる音声の特徴を、基準収音装置2iを用いた場合の特徴に統一することができる。これにより、様々な種類の収音装置2に適した処理を実現することが可能となる。
本実施形態によれば、学習データは、学習用音声情報と、参照情報と、を一対として含む。また、収音装置2の種類毎に複数備えられた学習データは、コンピュータの備える制御部が実行するニューラルネットワークをモデルとした機械学習により、複数の学習用音声情報と、複数の参照情報との間における連関性を含む学習済みモデルを生成するために用いられる。このため、生成された学習済みモデルを参照することで、収音装置2毎に異なる特徴が作用したユーザの音声に対し、基準収音装置2iを用いてユーザの音声を収音した場合に想定される情報を示す参照情報を選択することができる。これにより、様々な種類の収音装置2に適した処理を行うことが可能となる。
本実施形態によれば、取得手段S110は、学習用音声情報と、参照情報と、を一対の学習データとして、収音装置2の種類毎に複数取得する。また、学習手段S120は、学習データを用いた機械学習により、複数の学習用音声情報と、複数の参照情報との間における連関性が記憶されたデータベースを生成する。このため、生成されたデータベースを参照することで、収音装置2毎に異なる特徴が作用したユーザの音声に対し、基準収音装置2iを用いてユーザの音声を収音した場合に想定される情報を示す参照情報を選択することができる。これにより、様々な種類の収音装置2に適した処理を行うことが可能となる。
また、本実施形態によれば、選択手段S220は、データベースを参照し、評価用音声情報に対する第1参照情報を選択する。また、生成手段S230は、第1参照情報、及び評価用音声情報に基づき、基準収音装置2iを用いて第1ユーザの音声を収音した場合に想定される想定音声情報を生成する。このため、収音に用いられる収音装置2の種類によって異なる音声の特徴を、基準収音装置2iを用いた場合の特徴に統一することができる。これにより、様々な種類の収音装置2に適した処理を実現することが可能となる。
また、本実施形態によれば、評価手段S232は、評価用学習済みモデルを参照し、想定音声情報に特定のユーザの音声が含まれているか否かを評価する。このため、音声を収音した収音装置2の種類による影響を排除した状態で、特定のユーザの音声が含まれているか否かを評価することができる。これにより、評価精度の向上を図ることが可能となる。
また、本実施形態によれば、出力手段S240は、評価された内容に基づき、想定音声情報を出力する。このため、音声を収音した収音装置2の種類による影響を排除した状態で、必要となる想定音声情報のみを出力することができ、不要な想定音声情報の出力を防ぐことができる。これにより、評価システム100の利用状況に応じて最適な情報の出力を実現することが可能となる。
また、本実施形態によれば、記憶手段S260は、評価された内容に基づき、想定音声情報を保存部104に記憶させる。このため、音声を収音した収音装置2の種類による影響を排除した状態で、必要となる想定音声情報のみを記憶させることができ、不要な想定音声情報を記憶させることを防ぐことができる。これにより、評価システム100の利用状況に応じて最適な情報の保存を実現することが可能となる。
また、本実施形態によれば、想定音声情報、及び参照情報は、一人のユーザの音声のみを含む。このため、一人のユーザの音声のみを機械学習に用いることで、機械学習に必要なデータの容量を最小限に抑えることができる。これにより、評価用学習済みモデルを生成する際の学習データを収集する時間、及び学習時間を大幅に削減することが可能となる。
本発明の実施形態を説明したが、上述した実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。上述した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上述した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1 :評価装置
10 :筐体
11 :取得部
12 :学習部
13 :選択部
14 :生成部
15 :出力部
16 :記憶部
17 :更新部
101 :CPU
102 :ROM
103 :RAM
104 :保存部
105 :I/F
106 :I/F
107 :I/F
108 :入力部
109 :表示部
110 :内部バス
2 :収音装置
3 :端末
4 :通信網
5 :サーバ
100 :評価システム
S110 :取得手段
S120 :学習手段
S210 :音声情報取得手段
S220 :選択手段
S230 :生成手段
S240 :出力手段
S250 :更新手段
第1発明に係る学習方法は、機械学習によりデータベースを生成する学習方法であって、収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対の学習データとして、前記収音装置の種類毎に複数取得する取得ステップと、複数の前記学習データを用いた機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性が記憶された前記データベースを生成する学習ステップと、予め取得された複数の過去の学習用音声情報を学習データとして、機械学習により生成された準備用学習済みモデルと、を備え、前記取得ステップは、前記準備用学習済みモデルを参照し、前記学習用音声情報に基づき新たな学習用音声情報を取得する準備ステップを有することを特徴とする。
第4発明に係る評価装置は、機械学習により生成されたデータベースを参照し、音声データを評価する評価装置であって、収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対の学習データとして、前記収音装置の種類毎に複数取得する取得ステップと、複数の前記学習データを用いた機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性が記憶された前記データベースを生成する学習ステップと、を備えた学習方法により生成された前記データベースと、第1収音装置を用いて収音された第1ユーザの音声を含む評価用音声情報を取得する取得部と、前記データベースを参照し、複数の前記参照情報のうち、前記評価用音声情報に対する第1参照情報を選択する選択部と、前記第1参照情報、及び前記評価用音声情報に基づき、前記基準収音装置を用いて前記第1ユーザの音声を収音した場合に想定される想定音声情報を生成する生成部と、を備えることを特徴とする。
第5発明に係る評価装置は、第1発明〜第発明の何れかの学習方法により生成されたデータベースを参照し、音声データを評価する評価装置であって、第1収音装置を用いて収音された第1ユーザの音声を含む評価用音声情報を取得する取得部と、前記データベースを参照し、複数の前記参照情報のうち、前記評価用音声情報に対する第1参照情報を選択する選択部と、前記第1参照情報、及び前記評価用音声情報に基づき、前記基準収音装置を用いて前記第1ユーザの音声を収音した場合に想定される想定音声情報を生成する生成部と、を備えることを特徴とする。
発明に係る評価システムは、機械学習により生成されたデータベースを参照し、音声データを評価する評価システムであって、収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対の学習データとして、前記収音装置の種類毎に複数取得する取得手段と、複数の前記学習データを用いた機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性が記憶された前記データベースを生成する学習手段と、第1収音装置を用いて収音された第1ユーザの音声を含む評価用音声情報を取得する音声情報取得手段と、前記データベースを参照し、複数の前記参照情報のうち、前記評価用音声情報に対する第1参照情報を選択する選択手段と、前記第1参照情報、及び前記評価用音声情報に基づき、前記基準収音装置を用いて前記第1ユーザの音声を収音した場合に想定される想定音声情報を生成する生成手段と、を備えることを特徴とする。
発明に係る評価システムは、第発明において、予め取得された過去の想定音声情報、及び前記参照情報の少なくとも何れかを学習データとして、機械学習により生成された評価用学習済みモデルを更に備え、前記生成手段は、前記評価用学習済みモデルを参照し、前記想定音声情報に特定のユーザの音声が含まれているか否かを評価する評価手段を有することを特徴とする。
発明に係る評価システムは、第発明において、前記評価手段により評価された内容に基づき、前記想定音声情報を出力する出力手段を更に備えることを特徴とする。
発明に係る評価システムは、第発明において、前記評価手段により評価された内容に基づき、前記想定音声情報を保存部に記憶させる記憶手段を更に備えることを特徴とする。
10発明に係る評価システムは、第発明〜第発明の何れかにおいて、前記評価用学習済みモデルを生成するために用いられた前記過去の想定音声情報、及び前記参照情報は、一人のユーザの音声のみを含むことを特徴とする。
11発明に係る評価システムは、第発明〜第10発明の何れかにおいて、前記評価用学習済みモデルは、オートエンコーダを用いた機械学習により生成されることを特徴とする。
第1発明〜第5発明によれば、取得ステップは、学習用音声情報と、参照情報と、を一対の学習データとして、収音装置の種類毎に複数取得する。また、学習ステップは、学習データを用いた機械学習により、複数の学習用音声情報と、複数の参照情報との間における連関性が記憶されたデータベースを生成する。このため、生成されたデータベースを参照することで、収音装置毎に異なる特徴が作用したユーザの音声に対し、基準収音装置を用いてユーザの音声を収音した場合に想定される情報を示す参照情報を選択することができる。これにより、様々な種類の収音装置に適した処理を行うことが可能となる。
また、第1発明〜第3発明、第5発明によれば、準備ステップは、準備用学習済みモデルを参照し、学習用音声情報に基づき新たな学習用音声情報を取得する。このため、機械学習に必要となる膨大な数の学習用音声情報を、容易に収集することができる。これにより、データベースを生成する際の学習データ収集する時間、及び学習データを収集するためのコストを削減することが可能となる。
特に、第4発明、第5発明によれば、選択部は、データベースを参照し、評価用音声情報に対する第1参照情報を選択する。また、生成部は、第1参照情報、及び評価用音声情報に基づき、基準収音装置を用いて第1ユーザの音声を収音した場合に想定される想定音声情報を生成する。このため、収音に用いられる収音装置の種類によって異なる音声の特徴を、基準収音装置を用いた場合の特徴に統一することができる。これにより、様々な種類の収音装置に適した処理を実現することが可能となる。
発明〜第11発明によれば、取得手段は、学習用音声情報と、参照情報と、を一対の学習データとして、収音装置の種類毎に複数取得する。また、学習手段は、学習データを用いた機械学習により、複数の学習用音声情報と、複数の参照情報との間における連関性が記憶されたデータベースを生成する。このため、生成されたデータベースを参照することで、収音装置毎に異なる特徴が作用したユーザの音声に対し、基準収音装置を用いてユーザの音声を収音した場合に想定される情報を示す参照情報を選択することができる。これにより、様々な種類の収音装置に適した処理を行うことが可能となる。
また、第発明〜第11発明によれば、選択手段は、データベースを参照し、評価用音声情報に対する第1参照情報を選択する。また、生成手段は、第1参照情報、及び評価用音声情報に基づき、基準収音装置を用いて第1ユーザの音声を収音した場合に想定される想定音声情報を生成する。このため、収音に用いられる収音装置の種類によって異なる音声の特徴を、基準収音装置を用いた場合の特徴に統一することができる。これにより、様々な種類の収音装置に適した処理を実現することが可能となる。
特に、第発明によれば、評価手段は、評価用学習済みモデルを参照し、想定音声情報に特定のユーザの音声が含まれているか否かを評価する。このため、音声を収音した収音装置の種類による影響を排除した状態で、特定のユーザの音声が含まれているか否かを評価することができる。これにより、評価精度の向上を図ることが可能となる。
特に、第発明によれば、出力手段は、評価された内容に基づき、想定音声情報を出力する。このため、音声を収音した収音装置の種類による影響を排除した状態で、必要となる想定音声情報のみを出力することができ、不要な想定音声情報の出力を防ぐことができる。これにより、評価システムの利用状況に応じて最適な情報の出力を実現することが可能となる。
特に、第発明によれば、記憶手段は、評価された内容に基づき、想定音声情報を保存部に記憶させる。このため、音声を収音した収音装置の種類による影響を排除した状態で、必要となる想定音声情報のみを記憶させることができ、不要な想定音声情報を記憶させることを防ぐことができる。これにより、評価システムの利用状況に応じて最適な情報の保存を実現することが可能となる。
特に、第10発明によれば、想定音声情報、及び参照情報は、一人のユーザの音声のみを含む。このため、一人のユーザの音声のみを機械学習に用いることで、機械学習に必要なデータの容量を最小限に抑えることができる。これにより、評価用学習済みモデルを生成する際の学習データを収集する時間、及び学習時間を大幅に削減することが可能となる。

Claims (12)

  1. 機械学習によりデータベースを生成する学習方法であって、
    収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対の学習データとして、前記収音装置の種類毎に複数取得する取得ステップと、
    複数の前記学習データを用いた機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性が記憶された前記データベースを生成する学習ステップと、
    を備えること
    を特徴とする学習方法。
  2. 前記学習用音声情報は、前記収音装置の種類を示す特定情報を含むこと
    を特徴とする請求項1記載の学習方法。
  3. 前記学習用音声情報、及び前記参照情報は、一人のユーザの音声のみを含むこと
    を特徴とする請求項1又は2記載の学習方法。
  4. 予め取得された複数の過去の学習用音声情報を学習データとして、機械学習により生成された準備用学習済みモデルを更に備え、
    前記取得ステップは、前記準備用学習済みモデルを参照し、前記学習用音声情報に基づき新たな学習用音声情報を取得する準備ステップを有すること
    を特徴とする請求項1〜3の何れか1項記載の学習方法。
  5. 請求項1〜4の何れかの学習方法により生成された前記データベースを参照し、音声データを評価する評価装置であって、
    第1収音装置を用いて収音された第1ユーザの音声を含む評価用音声情報を取得する取得部と、
    前記データベースを参照し、複数の前記参照情報のうち、前記評価用音声情報に対する第1参照情報を選択する選択部と、
    前記第1参照情報、及び前記評価用音声情報に基づき、前記基準収音装置を用いて前記第1ユーザの音声を収音した場合に想定される想定音声情報を生成する生成部と、
    を備えること
    を特徴とする評価装置。
  6. 保存部及び制御部を備えるコンピュータに用いられ、前記保存部に記憶されるデータ構造であって、
    収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対として含む学習データを、前記収音装置の種類毎に複数備え、
    複数の前記学習データは、前記コンピュータの備える制御部が実行するニューラルネットワークをモデルとした機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性を含む学習済みモデルを生成するために用いられること
    を特徴とするデータ構造。
  7. 機械学習により生成されたデータベースを参照し、音声データを評価する評価システムであって、
    収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対の学習データとして、前記収音装置の種類毎に複数取得する取得手段と、
    複数の前記学習データを用いた機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性が記憶された前記データベースを生成する学習手段と、
    第1収音装置を用いて収音された第1ユーザの音声を含む評価用音声情報を取得する音声情報取得手段と、
    前記データベースを参照し、複数の前記参照情報のうち、前記評価用音声情報に対する第1参照情報を選択する選択手段と、
    前記第1参照情報、及び前記評価用音声情報に基づき、前記基準収音装置を用いて前記第1ユーザの音声を収音した場合に想定される想定音声情報を生成する生成手段と、
    を備えること
    を特徴とする評価システム。
  8. 予め取得された過去の想定音声情報、及び前記参照情報の少なくとも何れかを学習データとして、機械学習により生成された評価用学習済みモデルを更に備え、
    前記生成手段は、前記評価用学習済みモデルを参照し、前記想定音声情報に特定のユーザの音声が含まれているか否かを評価する評価手段を有すること
    を特徴とする請求項7記載の評価システム。
  9. 前記評価手段により評価された内容に基づき、前記想定音声情報を出力する出力手段を更に備えること
    を特徴とする請求項8記載の評価システム。
  10. 前記評価手段により評価された内容に基づき、前記想定音声情報を保存部に記憶させる記憶手段を更に備えること
    を特徴とする請求項8記載の評価システム。
  11. 前記評価用学習済みモデルを生成するために用いられた前記過去の想定音声情報、及び前記参照情報は、一人のユーザの音声のみを含むこと
    を特徴とする請求項8〜10の何れか1項記載の評価システム。
  12. 前記評価用学習済みモデルは、オートエンコーダを用いた機械学習により生成されること
    を特徴とする請求項8〜11の何れか1項記載の評価システム。
JP2020008229A 2020-01-22 2020-01-22 学習方法、評価装置、データ構造、及び評価システム Active JP6739828B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020008229A JP6739828B1 (ja) 2020-01-22 2020-01-22 学習方法、評価装置、データ構造、及び評価システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020008229A JP6739828B1 (ja) 2020-01-22 2020-01-22 学習方法、評価装置、データ構造、及び評価システム

Publications (2)

Publication Number Publication Date
JP6739828B1 JP6739828B1 (ja) 2020-08-12
JP2021117245A true JP2021117245A (ja) 2021-08-10

Family

ID=71949288

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020008229A Active JP6739828B1 (ja) 2020-01-22 2020-01-22 学習方法、評価装置、データ構造、及び評価システム

Country Status (1)

Country Link
JP (1) JP6739828B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021173987A (ja) * 2020-04-22 2021-11-01 ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド 声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099082A (ja) * 2001-09-21 2003-04-04 Nec Corp 音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体
JP2005196020A (ja) * 2004-01-09 2005-07-21 Nec Corp 音声処理装置と方法並びにプログラム
JP2014109601A (ja) * 2012-11-30 2014-06-12 Ntt Docomo Inc 音声処理システム、音声処理装置、音声処理方法及びプログラム
JP2016099507A (ja) * 2014-11-21 2016-05-30 日本電信電話株式会社 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム
JP2016122110A (ja) * 2014-12-25 2016-07-07 日本電信電話株式会社 音響スコア算出装置、その方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099082A (ja) * 2001-09-21 2003-04-04 Nec Corp 音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体
JP2005196020A (ja) * 2004-01-09 2005-07-21 Nec Corp 音声処理装置と方法並びにプログラム
JP2014109601A (ja) * 2012-11-30 2014-06-12 Ntt Docomo Inc 音声処理システム、音声処理装置、音声処理方法及びプログラム
JP2016099507A (ja) * 2014-11-21 2016-05-30 日本電信電話株式会社 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム
JP2016122110A (ja) * 2014-12-25 2016-07-07 日本電信電話株式会社 音響スコア算出装置、その方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021173987A (ja) * 2020-04-22 2021-11-01 ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド 声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体
JP7221258B2 (ja) 2020-04-22 2023-02-13 ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド 声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体

Also Published As

Publication number Publication date
JP6739828B1 (ja) 2020-08-12

Similar Documents

Publication Publication Date Title
US9685161B2 (en) Method for updating voiceprint feature model and terminal
JP6053847B2 (ja) 行動制御システム、システム及びプログラム
EP2678861B1 (en) Hybridized client-server speech recognition
CN108197185A (zh) 一种音乐推荐方法、终端及计算机可读存储介质
CN107097234A (zh) 机器人控制系统
WO2019242414A1 (zh) 语音处理方法、装置、存储介质及电子设备
WO2014013886A1 (ja) 情報処理装置、サーバ、情報処理方法、および情報処理システム
US8788621B2 (en) Method, device, and computer product for managing communication situation
KR20200115660A (ko) 인텔리전트 지원 방법
CN110830368A (zh) 即时通讯消息发送方法及电子设备
CN106356056B (zh) 语音识别方法和装置
CN110910898B (zh) 一种语音信息处理的方法和装置
WO2021051588A1 (zh) 一种数据处理方法、装置和用于数据处理的装置
WO2021134250A1 (zh) 情绪管理方法、设备及计算机可读存储介质
WO2020019844A1 (zh) 语音数据处理方法及相关产品
JP6739828B1 (ja) 学習方法、評価装置、データ構造、及び評価システム
CN110728983B (zh) 一种信息显示方法、装置、设备及可读存储介质
WO2016206642A1 (zh) 机器人的控制数据的生成方法及装置
CN110111795B (zh) 一种语音处理方法及终端设备
TW202223804A (zh) 電子資源推送方法及系統
JP2008113331A (ja) 電話システム、電話機、サーバ装置およびプログラム
CN109684501B (zh) 歌词信息生成方法及其装置
JP2014149571A (ja) コンテンツ検索装置
KR20200040625A (ko) 사용자의 발화를 처리하는 사용자 단말 및 그 제어 방법
US20220020368A1 (en) Output apparatus, output method and non-transitory computer-readable recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200122

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200122

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200714

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200716

R150 Certificate of patent or registration of utility model

Ref document number: 6739828

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250