JP2021117245A - 学習方法、評価装置、データ構造、及び評価システム - Google Patents
学習方法、評価装置、データ構造、及び評価システム Download PDFInfo
- Publication number
- JP2021117245A JP2021117245A JP2020008229A JP2020008229A JP2021117245A JP 2021117245 A JP2021117245 A JP 2021117245A JP 2020008229 A JP2020008229 A JP 2020008229A JP 2020008229 A JP2020008229 A JP 2020008229A JP 2021117245 A JP2021117245 A JP 2021117245A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- voice
- evaluation
- information
- voice information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
図1、及び図2を参照して、本実施形態における学習方法、評価装置1、データ構造、及び評価システム100の一例について説明する。図1は、本実施形態における評価システム100の概要の一例を示す模式図であり、図2は、本実施形態における評価システム100の動作の一例を示す模式図である。
本実施形態における評価システム100は、機械学習により生成されたデータベースを参照し、音声データを評価する場合に用いられる。評価システム100は、例えば収音装置2毎に異なる特徴が作用したユーザの音声に対し、基準となる収音装置2(基準収音装置2i)を用いて収音した場合に想定される音声を取得したい場合等に利用される。評価システム100では、例えば評価用に取得した音声データ(評価用音声情報)から、音声を収集した収音装置2の特徴を特定することもできる。これらにより、評価システム100を利用することで、様々な種類の収音装置2毎に適した音声情報の処理を行うことができる。
データベースは、例えば図3に示すように、複数の学習データを用いた機械学習により生成される。本実施形態における学習方法では、例えばニューラルネットワークをモデルとした深層学習を用いて、データベースを生成する。データベースは、例えばCNN(Convolution Neural Network)をモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。
次に、図7を参照して、本実施形態における評価装置1の一例を説明する。図7(a)は、本実施形態における評価装置1の構成の一例を示す模式図であり、図7(b)は、本実施形態における評価装置1の機能の一例を示す模式図である。
取得部11は、評価用音声情報を取得する。取得部11は、例えば収音装置2によって収音された音声に基づき生成された評価用音声情報を取得する。取得部11は、例えばユーザ等により入力された収音装置2の特定情報を、評価用音声情報に含ませてもよい。
学習部12は、例えば複数の学習データを用いた機械学習により、データベースを生成する。機械学習には、例えば上述した深層学習等が用いられる。なお、データベースを生成する際に用いる学習データの数は、任意に設定することができる。
選択部13は、データベースを参照し、複数の参照情報のうち、評価用音声情報に対する参照情報(例えば第1参照情報)を選択する。選択部13は、例えば評価用音声情報に対し、連関性の最も高い参照情報を、第1参照情報として選択するほか、例えば予め設定された閾値以上の連関度を有する複数の参照情報を、第1参照情報として選択してもよい。
生成部14は、例えば第1参照情報に基づく評価結果を生成する。生成部14は、例えば第1参照情報に基づき、評価用音声情報に対して処理を行い、得られた処理データを含む評価結果を生成する。処理データは、例えば評価用音声情報に対してノイズキャンセリングや音声の補正等の処理を行ったデータを示す。生成部14は、公知技術を用いて、評価用音声情報に対する処理を行う。
出力部15は、評価用音声情報に対する評価結果を出力する。出力部15は、例えば生成部14によって生成された評価結果を、端末3等に出力する。出力部15は、例えば評価音声情報を評価結果として、端末3等に出力してもよい。出力部15は、例えばI/F107を介して表示部109に評価結果を送信するほか、例えばI/F105を介して、端末3等に評価結果を送信する。
記憶部16は、保存部104に保存されたデータベース等の各種データを必要に応じて取出す。記憶部16は、各構成11〜15、17により取得又は生成された各種データを、必要に応じて保存部104に保存する。
更新部17は、例えばデータベースを更新する。更新部17は、学習用音声情報と、参照情報との間の関係を新たに取得した場合には、関係を連関性に反映させる。例えば出力部15により出力された評価結果を踏まえて、ユーザ等が評価結果の精度を検討し、検討結果を評価装置1が取得した場合、更新部17は、検討結果に基づきデータベースに記憶される連関性を更新する。連関性の更新には、例えば上述した機械学習が用いられる。
収音装置2は、ユーザ等の音声を収音し、音声データ(又は評価用音声情報)を生成する。収音装置2として、公知のマイクロフォンが用いられ、例えばPCや携帯電話等の電子機器に予め設けられたマイクロフォン、スタンドマイク、ボーカルマイク、ワイヤレスマイク、骨伝導マイク、ヘッドセット等が用いられる。
端末3は、例えば評価システム100を利用するユーザ等が保有し、通信網4を介して評価装置1と接続される。端末3は、例えばデータベースを生成する電子機器を示してもよい。端末3は、例えばパーソナルコンピュータや、タブレット端末等の電子機器が用いられる。端末3は、例えば評価装置1の備える機能のうち、少なくとも一部の機能を備えてもよい。
サーバ5は、例えば通信網4を介して評価装置1と接続される。サーバ5は、例えば学習データ等が記憶され、必要に応じて評価装置1から各種データが送信される。サーバ5は、例えば評価装置1の備える機能のうち、少なくとも一部の機能を備えてもよく、例えば評価装置1の代わりに、データベースの生成等の少なくとも一部の処理を行ってもよい。サーバ5は、例えば評価装置1の保存部104に記憶された各種データのうち少なくとも一部が記憶され、例えば保存部104の代わりに用いられてもよい。
通信網4は、例えば評価装置1が通信回路を介して接続されるインターネット網等である。通信網4は、いわゆる光ファイバ通信網で構成されてもよい。また、通信網4は、有線通信網のほか、無線通信網等の公知の通信技術で実現してもよい。
次に、本実施形態における評価システム100の動作の一例について説明する。図8は、本実施形態における評価システム100の動作の一例を示すフローチャートである。
取得手段S110は、収音装置2を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置2iを用いて収音したユーザの音声を含む参照情報と、を一対の学習データとして、収音装置2の種類毎に複数取得する。例えば取得部11は、予め保存部104等に保存された複数の学習データを取得するほか、上述した方法により、複数の学習データを取得する。なお、各学習データの生成されたタイミング、及び取得するタイミングは、任意である。
学習手段S120は、複数の学習データを用いた機械学習により、複数の入力手段と、複数の参照情報との間における連関性が記憶されたデータベースを生成する。例えば学習部12は、公知の機械学習により、データベースを生成する。学習部12は、例えば記憶部16を介して、生成したデータベースを保存部104に保存する。なお、生成されたデータベースは、例えばサーバ5や他の評価装置1にデータベースを保存してもよい。
音声情報取得手段S210は、収音装置2(第1収音装置)を用いて収音されたユーザ(第1ユーザ)の音声を含む評価用音声情報を取得する。例えば取得部11は、収音装置2によって生成された評価用音声情報を取得する。取得部11は、例えばユーザ等により入力された収音装置2の特定情報を、評価用音声情報に含ませてもよい。取得部11は、例えば収音装置2や端末3等から特定情報を取得してもよい。
選択手段S220は、データベースを参照し、複数の参照情報のうち、評価用音声情報に対する参照情報(第1参照情報)を選択する。例えば選択部13は、例えば評価用音声情報に対して最も連関度の高い参照情報を、第1参照情報として選択する。上記のほか、例えば選択部13は、予め設定された閾値以上の連関度に紐づく1以上の参照情報を、第1参照情報として選択してもよい。
本実施形態における評価システム100は、例えば選択手段S220のあと、第1参照情報に基づく評価結果を生成してもよい(生成手段S230)。例えば生成部14は、第1参照情報に基づき、評価用音声情報に対して処理を行い、得られた処理データを含む評価結果を生成する。生成部14は、例えば評価用音声情報の一部を加工又は除去し、その処理結果を処理データとして生成する。生成部14は、例えば第1参照情報、及び評価用音声情報に基づき、想定音声情報を生成し、評価結果に含ませてもよい。
本実施形態における評価システム100は、例えば生成手段S230のあと、評価結果を出力してもよい(出力手段S240)。例えば出力部15は、生成手段S230のあと、評価結果を端末3等に出力する。
本実施形態における評価システム100は、例えばデータベースを更新してもよい(更新手段S250)。例えば更新部17は、評価結果に対するユーザ等の検討結果に基づき、データベースに記憶される連関性を更新する。なお、更新手段S250を行うタイミングや頻度は、任意である。
次に、本実施形態における評価システム100の動作の変形例について説明する。図9(a)は、本実施形態における評価システム100の動作の第1変形例を示すフローチャートであり、図9(b)は、本実施形態における評価システム100の動作の第2変形例を示すフローチャートである。
評価システム100の第1変形例では、例えば図9(a)に示すように、生成手段S230は、想定音声情報生成手段S231と、評価手段S232とを有する。なお、評価手段S232を行う際に用いられる評価装置1は、音声情報取得手段S210、選択手段S220等を行う際に用いられる評価装置1とは異なる装置を用いてもよく、用途や状況に応じて1又は2以上の評価装置1が用いられてもよい。
想定音声情報生成手段S231では、例えば生成部14は、第1参照情報、及び評価用音声情報に基づき、想定音声情報を生成する。生成部14は、上述した内容と同様の方法により、想定音声情報を生成することができる。
評価手段S232は、評価用学習済みモデルを参照し、想定音声情報に特定のユーザの音声が含まれているか否かを評価する。例えば生成部14は、評価用学習済みモデルを参照し、想定音声情報の音声と、特定のユーザの音声との類似度を算出することで、例えば閾値との比較による評価を行うことができる。なお、評価基準となる閾値等は、予め任意に設定することができる。生成部14は、例えば想定音声情報を含む評価結果を生成する。
評価システム100の第2変形例では、例えば図9(b)に示すように、第1変形例と同様に、生成手段S230は、想定音声情報生成手段S231と、評価手段S232とを有する。また、評価システム100の第2変形例では、記憶手段S260を更に備える。なお、評価手段S232、及び記憶手段S260を行う際に用いられる評価装置1は、音声情報取得手段S210、選択手段S220等を行う際に用いられる評価装置1とは異なる装置を用いてもよく、用途や状況に応じて1又は2以上の評価装置1が用いられてもよい。
記憶手段S260は、例えば上述した評価手段S232のあとに行われる。記憶手段S260では、例えば記憶部16は、評価手段S232により評価された内容に基づき、想定音声情報を保存部104に記憶させる。なお、記憶部16は、例えば想定音声情報を含む評価結果を記憶させてもよい。
10 :筐体
11 :取得部
12 :学習部
13 :選択部
14 :生成部
15 :出力部
16 :記憶部
17 :更新部
101 :CPU
102 :ROM
103 :RAM
104 :保存部
105 :I/F
106 :I/F
107 :I/F
108 :入力部
109 :表示部
110 :内部バス
2 :収音装置
3 :端末
4 :通信網
5 :サーバ
100 :評価システム
S110 :取得手段
S120 :学習手段
S210 :音声情報取得手段
S220 :選択手段
S230 :生成手段
S240 :出力手段
S250 :更新手段
また、第1発明〜第3発明、第5発明によれば、準備ステップは、準備用学習済みモデルを参照し、学習用音声情報に基づき新たな学習用音声情報を取得する。このため、機械学習に必要となる膨大な数の学習用音声情報を、容易に収集することができる。これにより、データベースを生成する際の学習データ収集する時間、及び学習データを収集するためのコストを削減することが可能となる。
Claims (12)
- 機械学習によりデータベースを生成する学習方法であって、
収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対の学習データとして、前記収音装置の種類毎に複数取得する取得ステップと、
複数の前記学習データを用いた機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性が記憶された前記データベースを生成する学習ステップと、
を備えること
を特徴とする学習方法。 - 前記学習用音声情報は、前記収音装置の種類を示す特定情報を含むこと
を特徴とする請求項1記載の学習方法。 - 前記学習用音声情報、及び前記参照情報は、一人のユーザの音声のみを含むこと
を特徴とする請求項1又は2記載の学習方法。 - 予め取得された複数の過去の学習用音声情報を学習データとして、機械学習により生成された準備用学習済みモデルを更に備え、
前記取得ステップは、前記準備用学習済みモデルを参照し、前記学習用音声情報に基づき新たな学習用音声情報を取得する準備ステップを有すること
を特徴とする請求項1〜3の何れか1項記載の学習方法。 - 請求項1〜4の何れかの学習方法により生成された前記データベースを参照し、音声データを評価する評価装置であって、
第1収音装置を用いて収音された第1ユーザの音声を含む評価用音声情報を取得する取得部と、
前記データベースを参照し、複数の前記参照情報のうち、前記評価用音声情報に対する第1参照情報を選択する選択部と、
前記第1参照情報、及び前記評価用音声情報に基づき、前記基準収音装置を用いて前記第1ユーザの音声を収音した場合に想定される想定音声情報を生成する生成部と、
を備えること
を特徴とする評価装置。 - 保存部及び制御部を備えるコンピュータに用いられ、前記保存部に記憶されるデータ構造であって、
収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対として含む学習データを、前記収音装置の種類毎に複数備え、
複数の前記学習データは、前記コンピュータの備える制御部が実行するニューラルネットワークをモデルとした機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性を含む学習済みモデルを生成するために用いられること
を特徴とするデータ構造。 - 機械学習により生成されたデータベースを参照し、音声データを評価する評価システムであって、
収音装置を用いて収音されたユーザの音声を含む学習用音声情報と、基準収音装置を用いて収音した前記ユーザの音声を含む参照情報と、を一対の学習データとして、前記収音装置の種類毎に複数取得する取得手段と、
複数の前記学習データを用いた機械学習により、複数の前記学習用音声情報と、複数の前記参照情報との間における連関性が記憶された前記データベースを生成する学習手段と、
第1収音装置を用いて収音された第1ユーザの音声を含む評価用音声情報を取得する音声情報取得手段と、
前記データベースを参照し、複数の前記参照情報のうち、前記評価用音声情報に対する第1参照情報を選択する選択手段と、
前記第1参照情報、及び前記評価用音声情報に基づき、前記基準収音装置を用いて前記第1ユーザの音声を収音した場合に想定される想定音声情報を生成する生成手段と、
を備えること
を特徴とする評価システム。 - 予め取得された過去の想定音声情報、及び前記参照情報の少なくとも何れかを学習データとして、機械学習により生成された評価用学習済みモデルを更に備え、
前記生成手段は、前記評価用学習済みモデルを参照し、前記想定音声情報に特定のユーザの音声が含まれているか否かを評価する評価手段を有すること
を特徴とする請求項7記載の評価システム。 - 前記評価手段により評価された内容に基づき、前記想定音声情報を出力する出力手段を更に備えること
を特徴とする請求項8記載の評価システム。 - 前記評価手段により評価された内容に基づき、前記想定音声情報を保存部に記憶させる記憶手段を更に備えること
を特徴とする請求項8記載の評価システム。 - 前記評価用学習済みモデルを生成するために用いられた前記過去の想定音声情報、及び前記参照情報は、一人のユーザの音声のみを含むこと
を特徴とする請求項8〜10の何れか1項記載の評価システム。 - 前記評価用学習済みモデルは、オートエンコーダを用いた機械学習により生成されること
を特徴とする請求項8〜11の何れか1項記載の評価システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020008229A JP6739828B1 (ja) | 2020-01-22 | 2020-01-22 | 学習方法、評価装置、データ構造、及び評価システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020008229A JP6739828B1 (ja) | 2020-01-22 | 2020-01-22 | 学習方法、評価装置、データ構造、及び評価システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6739828B1 JP6739828B1 (ja) | 2020-08-12 |
JP2021117245A true JP2021117245A (ja) | 2021-08-10 |
Family
ID=71949288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020008229A Active JP6739828B1 (ja) | 2020-01-22 | 2020-01-22 | 学習方法、評価装置、データ構造、及び評価システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6739828B1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021173987A (ja) * | 2020-04-22 | 2021-11-01 | ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド | 声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003099082A (ja) * | 2001-09-21 | 2003-04-04 | Nec Corp | 音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体 |
JP2005196020A (ja) * | 2004-01-09 | 2005-07-21 | Nec Corp | 音声処理装置と方法並びにプログラム |
JP2014109601A (ja) * | 2012-11-30 | 2014-06-12 | Ntt Docomo Inc | 音声処理システム、音声処理装置、音声処理方法及びプログラム |
JP2016099507A (ja) * | 2014-11-21 | 2016-05-30 | 日本電信電話株式会社 | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム |
JP2016122110A (ja) * | 2014-12-25 | 2016-07-07 | 日本電信電話株式会社 | 音響スコア算出装置、その方法及びプログラム |
-
2020
- 2020-01-22 JP JP2020008229A patent/JP6739828B1/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003099082A (ja) * | 2001-09-21 | 2003-04-04 | Nec Corp | 音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体 |
JP2005196020A (ja) * | 2004-01-09 | 2005-07-21 | Nec Corp | 音声処理装置と方法並びにプログラム |
JP2014109601A (ja) * | 2012-11-30 | 2014-06-12 | Ntt Docomo Inc | 音声処理システム、音声処理装置、音声処理方法及びプログラム |
JP2016099507A (ja) * | 2014-11-21 | 2016-05-30 | 日本電信電話株式会社 | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム |
JP2016122110A (ja) * | 2014-12-25 | 2016-07-07 | 日本電信電話株式会社 | 音響スコア算出装置、その方法及びプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021173987A (ja) * | 2020-04-22 | 2021-11-01 | ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド | 声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体 |
JP7221258B2 (ja) | 2020-04-22 | 2023-02-13 | ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド | 声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP6739828B1 (ja) | 2020-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9685161B2 (en) | Method for updating voiceprint feature model and terminal | |
JP6053847B2 (ja) | 行動制御システム、システム及びプログラム | |
EP2678861B1 (en) | Hybridized client-server speech recognition | |
CN108197185A (zh) | 一种音乐推荐方法、终端及计算机可读存储介质 | |
CN107097234A (zh) | 机器人控制系统 | |
WO2019242414A1 (zh) | 语音处理方法、装置、存储介质及电子设备 | |
WO2014013886A1 (ja) | 情報処理装置、サーバ、情報処理方法、および情報処理システム | |
US8788621B2 (en) | Method, device, and computer product for managing communication situation | |
KR20200115660A (ko) | 인텔리전트 지원 방법 | |
CN110830368A (zh) | 即时通讯消息发送方法及电子设备 | |
CN106356056B (zh) | 语音识别方法和装置 | |
CN110910898B (zh) | 一种语音信息处理的方法和装置 | |
WO2021051588A1 (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
WO2021134250A1 (zh) | 情绪管理方法、设备及计算机可读存储介质 | |
WO2020019844A1 (zh) | 语音数据处理方法及相关产品 | |
JP6739828B1 (ja) | 学習方法、評価装置、データ構造、及び評価システム | |
CN110728983B (zh) | 一种信息显示方法、装置、设备及可读存储介质 | |
WO2016206642A1 (zh) | 机器人的控制数据的生成方法及装置 | |
CN110111795B (zh) | 一种语音处理方法及终端设备 | |
TW202223804A (zh) | 電子資源推送方法及系統 | |
JP2008113331A (ja) | 電話システム、電話機、サーバ装置およびプログラム | |
CN109684501B (zh) | 歌词信息生成方法及其装置 | |
JP2014149571A (ja) | コンテンツ検索装置 | |
KR20200040625A (ko) | 사용자의 발화를 처리하는 사용자 단말 및 그 제어 방법 | |
US20220020368A1 (en) | Output apparatus, output method and non-transitory computer-readable recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200122 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200122 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200304 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200421 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200529 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200714 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200716 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6739828 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |