JP6856697B2 - 情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラム - Google Patents

情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラム Download PDF

Info

Publication number
JP6856697B2
JP6856697B2 JP2019083226A JP2019083226A JP6856697B2 JP 6856697 B2 JP6856697 B2 JP 6856697B2 JP 2019083226 A JP2019083226 A JP 2019083226A JP 2019083226 A JP2019083226 A JP 2019083226A JP 6856697 B2 JP6856697 B2 JP 6856697B2
Authority
JP
Japan
Prior art keywords
information
voice
mixed
feature
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019083226A
Other languages
English (en)
Other versions
JP2020181060A (ja
Inventor
トラン デュング
トラン デュング
健一 磯
健一 磯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2019083226A priority Critical patent/JP6856697B2/ja
Publication of JP2020181060A publication Critical patent/JP2020181060A/ja
Application granted granted Critical
Publication of JP6856697B2 publication Critical patent/JP6856697B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

本発明は、情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラムに関する。
近年、ディープラーニング等の技術を用いて、複数の情報からなる混成情報の中から目標となる情報を抽出する技術が知られている。このような技術の一例として、自動音声認識(Automatic Speech Recognition)における精度を向上させるため、目標となる利用者の発話音声が有する特徴をあらかじめ学習したモデルを用いて、複数の利用者の発話音声が混ざった混合音声から、目標となる利用者の発話音声を抽出する技術が知られている。
"SpeakerBeam:聞きたい人の声に耳を傾けるコンピュータ――深層学習に基づく音声の選択的聴取"<インターネット>http://www.ntt.co.jp/journal/1809/files/JN20180912.pdf[平成31年4月19日検索] "Speaker-aware neural network based beamformer for speaker extraction in speech mixtures,"K. Zmolikova, M. Delcroix, K. Kinoshita, T. Higuchi, A. Ogawa, and T. Nakatani, INTERSPEECH,2017.
しかしながら、上述した技術では、容易に目標となる情報を抽出しているとは言えなかった。
例えば、上述した従来技術では、目標となる利用者の発話音声が有する特徴をあらかじめ学習する手間がかかる。また、上述した従来技術では、目標となる利用者ごとに発話音声の特徴をあらかじめ学習したモデルを作成する手間がかかる。
本願は、上記に鑑みてなされたものであって、目標となる情報の抽出を容易にすることを目標とする。
本願に係る情報処理装置は、複数の情報を含む混合情報と、当該複数の情報のうち抽出対象となる目標情報に特徴が類似する適用情報とを取得する取得部と、前記混合情報の特徴と前記適用情報の特徴とに基づいた第1特徴情報と前記混合情報の特徴に基づいた第2特徴情報とに基づいて前記混合情報から前記目標情報を抽出するための抽出情報を生成するモデルを用いて、前記取得部により取得された前記混合情報および前記適用情報から、前記抽出情報を生成する生成部と、前記生成部により生成された抽出情報を用いて、前記混合情報から前記目標情報を抽出する抽出部とを有することを特徴とする。
実施形態の一態様によれば、目標となる情報の抽出をより容易にすることができる。
図1は、実施形態に係る情報提供装置およびスマートスピーカが実行する処理の一例を示す図である。 図2は、実施形態に係る情報提供装置が生成するモデルの構成例を示す図である。 図3は、実施形態に係る情報提供装置の構成例を示す図である。 図4は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。 図5は、実施形態に係るスマートスピーカの構成例を示す図である。 図6は、実施形態に係る情報提供装置が実行する学習処理の流れの一例を示すフローチャートである。 図7は、実施形態に係るスマートスピーカが実行する情報処理の流れの一例を示すフローチャートである。 図8は、実施形態に係る情報提供装置が生成するモデルの精度の第1例を示す図である。 図9は、実施形態に係る情報提供装置が生成するモデルの精度の第2例を示す図である。 図10は、実施形態に係る情報提供装置が生成するモデルの精度の第3例を示す図である。 図11は、ハードウェア構成の一例を示す図である。
以下に、本願に係る情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.情報提供装置について〕
まず、図1を用いて、学習装置の一例である情報提供装置10と、情報処理装置の一例であるスマートスピーカ200とが実行する処理の一例について説明する。図1は、実施形態に係る情報提供装置およびスマートスピーカが実行する処理の一例を示す図である。図1では、情報提供装置10が実行する処理として、モデルの学習を行う学習処理の一例について記載し、スマートスピーカ200が実行する処理として、学習済のモデル(以下、「学習モデル」と記載する場合がある。)を用いて情報処理を実行する処理の一例について記載した。
なお、以下の説明では、学習処理を情報提供装置10が実行し、スマートスピーカ200が学習モデルを用いた情報処理を実行する例について記載するが、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、学習処理に加えて、スマートスピーカ200と同様の情報処理を実行してもよい。また、以下の説明では、情報処理の一例として、複数の利用者が発話した音声である発話音声やテレビから発せられた音声等を含む混合音声から、目標となる利用者(以下、「目標利用者」と記載する場合がある。)が発話した音声(以下、「目標音声」と記載する場合がある。)を抽出する処理の一例について記載するが、実施形態は、これに限定されるものではない。後述するように、以下に説明する学習処理および情報処理は、混合音声から目標音声を抽出する処理以外にも、任意の種別の情報に対して適用可能である。
図1に示す情報提供装置10は、情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。後述するように、情報提供装置10は、学習データを用いて、混合音声から目標音声を抽出するための抽出情報(例えば、所謂マスク)を生成するモデルの学習を行う。
また、図1に示すデータサーバ100は、各種のデータを管理しており、例えば、サーバ装置やクラウドシステム等により実現される。例えば、データサーバ100は、情報提供装置10が学習処理に用いる学習データの管理を行う。なお、データサーバ100が管理する学習データの詳細については、後述する。
スマートスピーカ200は、周囲の音を取得するマイク等の取得装置と、任意の音を出力可能なスピーカ等の出力装置とを有する入出力装置とを有する入出力装置であり、例えば、スマートスピーカと呼ばれるデバイスである。例えば、スマートスピーカ200は、出力装置を用いて、音楽の出力や音声による情報提供を実現可能な装置である。また、スマートスピーカ200は、音の入力を受付ける受付機能を有し、利用者が発した音声を取得すると、取得した音声の内容に応じた音を出力する出力機能を有する。なお、スマートスピーカ200は、スマートスピーカ以外にも、スマートフォンやタブレット等といった各種の情報処理装置であってもよい。また、スマートスピーカ200は、必ずしもスピーカ等の出力装置を有する必要はない。例えば、スマートスピーカ200は、音声に代えて、文字列等の情報を表示することで各種の情報を利用者に対して出力してもよい。
例えば、スマートスピーカ200は、利用者が所定の楽曲の曲名を示す音声を発した場合には、各種の音声解析技術により、音声が示す曲名を特定し、特定した曲名が示す楽曲のデータを、ネットワークN(例えば、図3を参照)を介して、所定の外部サーバから取得する。そして、音声デバイスは、取得した楽曲を再生する。
なお、スマートスピーカ200は、例えば、利用者Uが発した音声の内容を各種の音声解析技術により特定し、特定した内容に応じた応答を出力する機能を有する。例えば、スマートスピーカ200は、「今日の天気は?」といった利用者Uの音声を取得した場合は、外部サーバから天気や気温などといった各種の気象情報を取得し、取得した気象情報を読み上げることで、利用者Uに天気の情報を提供する。また、スマートスピーカ200は、上述した処理以外にも、例えば、電子商店街に出品された商品の注文、空調装置や照明装置等といった各種家電機器の制御、メールやスケジュールの読み上げ等といった各種の処理を実現可能な情報処理端末である。
なお、スマートスピーカ200は、外部サーバ(図示は、省略)と連携することで、音声解析を行ってもよい。例えば、スマートスピーカ200は、マイク等を用いて周囲の音声を取得し、取得した音声が所定の条件を満たした場合は、外部サーバに取得した音声を送信する。このような場合、外部サーバは、取得した音声の内容を各種の音声解析技術により特定し、特定結果をスマートスピーカ200へと送信する。その後、スマートスピーカ200は、特定結果に対応する各種の処理を実行してもよい。すなわち、スマートスピーカ200は、スタンドアローン型のスマートスピーカであってもよく、クラウド等の外部サーバと連携するスマートスピーカであってもよい。
ここで、スマートスピーカ200は、それぞれ異なる位置に取付けられた複数の取得装置(例えば、マイク等)を有し、各取得装置を介して受付けた音声を用いて、上述した各種の処理を実行してもよい。また、スマートスピーカ200は、それぞれ異なる位置に取付けられた複数の取得装置を有する装置であれば、例えば、スマートデバイスや録音装置等、任意の装置であってもよい。また、スマートスピーカ200は、物理的に離間した位置に設置された複数の取得装置と無線LAN(Local Area Network)やブルートゥース(登録商標)等の無線通信を介して接続され、各取得装置が取得した音声を収集する装置であってもよい。
〔1−1.入力音声について〕
利用者は、スマートスピーカ等を操作する場合は、所定のキーワードを発話した後で、実行させる処理を示す発話(以下、「処理発話」と記載する。)を発話する。このような場合、スマートスピーカ200は、取得した音声に所定のキーワードが含まれているか否かを判定する。そして、スマートスピーカ200は、所定のキーワードが含まれていると判定される場合は、そのキーワードに続いて利用者が発話した処理発話が含まれる音声データの区間から、音声解析により利用者の発話内容を特定する。
しかしながら、スマートスピーカ200に対して入力される音声には、キーワードを利用者が発話した音声であるキーワード発話や処理発話以外にも、各種の雑音が含まれる場合がある。例えば、スマートスピーカ200が受け付ける音声には、所定のキーワードを発話した利用者(すなわち、目標利用者)以外にも、目標利用者の周囲で発話している他の利用者の音声やテレビジョン等から発せられた音声等といった雑音が含まれる場合がある。また、このような雑音以外にも、各種の施設内放送や施設外放送、音声解析に影響を与えうる各種の音声(例えば、雨音や風の音、モスキート音等)が雑音として含まれる場合がある。
このように、スマートスピーカ200が取得する音声は、目標利用者が発話した音声(すなわち、目標音声)と、それ以外の音声(以下「雑音」と総称する。)とが混合した混合音声となる。このように雑音が含まれる混合音声が入力された場合、目標利用者の発話を適切に認識することができなくなる結果、スマートスピーカ200に実行させる処理を示す処理音声を適切に認識することができなくなり、音声を介した指示に対する適切な処理を行うことができなくなる恐れがある。
〔1−2.抽出処理の一例について〕
ここで、予め特定の利用者が発声した音声の特徴を学習しておき、入力音声のうち学習済の特徴を有する音声を強調する技術が知られている。このような技術においては、例えば、雑音が無い状況で目標利用者が発声した音声の特徴を学習し、入力音声に含まれる各種の音声のうち、目標利用者が発声した音声と特徴が類似する音声を強調するといった処理が行われる。
また、このような処理を実現するモデルとして、目標利用者が発生した音声の特徴をあらかじめ学習した補助ネットワークと、補助ネットワークが出力した情報を用いて、混合音声から目標音声を強調するためのマスクを生成する主ネットワークとを有するモデル用いる技術が知られている。例えば、このようなモデルが有する主ネットワークは、混合音声が有する複数の特徴を抽出する。一方、補助ネットワークは、目標利用者の音声が有する特徴に基づいて、主ネットワークが抽出する特徴ごとの重みを決定する。そして、主ネットワークは、抽出した各特徴に対して、補助ネットワークが出力する重みを適用し、重みを適用した各特徴に基づいてマスクの生成を行う。
しかしながら、このようなモデルは、ネットワーク規模が大きくなる傾向があり、パラメータの量が膨大となるため、学習を容易に行うことができなかった。また、このようなモデルを利用した場合、マスクの生成に対する計算コストが増大する。
また、このようなモデルを用いた場合、予め目標利用者の音声が有する特徴を学習する必要があるため、音声の特徴を学習していない利用者の音声を抽出するためのマスクを生成することができない。
〔1−3.情報処理の一例について〕
そこで、情報提供装置10は、以下に説明する構造を有するモデルMを生成し、スマートスピーカ200へと提供する。そして、スマートスピーカ200は、モデルMを用いて、混合音声から目標音声を抽出するための目標音声抽出マスクを生成し、生成した目標音声抽出マスクを用いて、混合音声から目標音声の抽出を行う。
より具体的には、情報提供装置10は、学習データとして、混合音声と、目標音声に特徴が類似する適用情報と、混合音声から目標音声を抽出するためのマスクとの組を取得する。そして、情報提供装置10は、モデルMに混合音声と適用音声とを入力した場合に、混合音声の特徴と適用音声の特徴とに基づいた第1特徴情報を生成するとともに、混合音声の特徴に基づいた第2特徴情報を生成し、生成された第1特徴情報と生成された第2特徴情報とからマスクを生成するようにモデルの学習を行う。
一方、スマートスピーカ200は、混合音声と、目標利用者が発したキーワードとを取得する。そして、スマートスピーカ200は、モデルMに対して混合音声を入力するとともに、キーワードを適用音声としてを入力することで、混合音声から適用音声と特徴が類似する音声、すなわち、目標音声を抽出するための目標音声抽出マスクを生成する。その後、スマートスピーカ200は、目標音声抽出マスクを用いて、混合音声から目標音声を抽出し、抽出した目標音声を用いた各種の情報処理を実行する。
例えば、スマートスピーカ200は、入力された音声である入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する。そして、スマートスピーカ200は、入力音声のうちキーワード音声に続く音声である後続音声から、キーワード音声と特徴が類似する音声を抽出する。例えば、スマートスピーカ200は、後続音声に含まれる音声のうち、キーワード音声と特徴が類似する音声を強調した強調音声を生成する。
例えば、スマートスピーカ200に対して何かしらの処理を実行させたい利用者は、所定のキーワードを発話した後で処理発話を発話することとなる。ここで、キーワードに含まれる音素は、利用者によらず一定なため、キーワード音声は、発話する利用者ごとの特徴だけではなく、発話する利用者によらない共通した特徴を有する。このため、スマートスピーカ200は、キーワードに含まれる音素の特徴等、発話する利用者によらず、各利用者により発話されるキーワード音声に共通した特徴に基づいて、キーワード音声の検出を行う。
一方で、キーワード音声を発声した利用者は、キーワード音声に続けて処理発話を発話すると考えられるが、このように同一の利用者が発したキーワード音声と処理発話とは、特徴が共通する音声となる。そこで、スマートスピーカ200は、検出したキーワード音声と特徴が類似する音声を後続音声から抽出する。すなわち、スマートスピーカ200は、キーワードの音素が有する特徴に基づいてキーワード発話を検出し、音の高さや周波数成分等といった利用者の声の特徴がキーワード発話と類似する音声を後続音声から抽出する。
このような処理を実行した場合、スマートスピーカ200は、キーワード音声を発声した利用者と同じ利用者が発した音声であって、キーワード音声に続けて発声した音声、すなわち、処理発話を後続音声から抽出することができる。この結果、スマートスピーカ200は、雑音が含まれる入力音声から、処理発話を適切に抽出することができるので、処理発話の認識精度を向上させることができる。
〔1−4.学習処理および情報処理の一例について〕
以下、図1を用いて、情報提供装置10が実行する学習処理およびスマートスピーカ200が実行する情報処理の一例について説明する。なお、以下の説明では、情報提供装置10が実行する学習処理を先に説明し、続いて、スマートスピーカ200が実行する情報処理について説明する。
〔1−4−1.学習処理の一例について〕
例えば、情報提供装置10は、データサーバ100から学習データを取得する(ステップS1)。より具体的な例を挙げると、情報提供装置10は、混合音声と、目標利用者が発した音声である適用音声と、混合音声から適用音声と特徴が類似する音声を抽出するためのマスク(以下、「適用音声抽出マスク」と記載する。)との組を受付ける。
ここで、適用音声は、混合音声から抽出する音声と同一であってもよく、異なる音声であってもよい。例えば、混合音声は、目標利用者の処理発話が含まれる。このような場合、適用音声は、目標利用者が発したキーワード音声や目標利用者が発した任意の音声であってもよい。また、適用音声は、スマートスピーカ200がモデルMを用いた情報処理を実行する際の目標とする目標利用者と同一の利用者の音声であってもよく、他の利用者の音声であってもよい。すなわち、情報提供装置10は、混合音声と、混合音声から抽出する音声と特徴が類似する適用音声と、混合音声から適用音声と特徴が類似する音声を抽出するための適用音声抽出マスクとの組を取得するのであれば、任意の態様の音声を学習データとして取得してもよい。
そして、情報提供装置10は、混合音声の特徴と適用音声の特徴とに基づく第1特徴情報と、混合音声の特徴に基づく第2特徴情報から、適用音声と特徴が類似する音声を混合音声から抽出するマスクである適用音声抽出マスクを生成するモデルMの学習を行う。
〔1−4−2.モデルMについて〕
例えば、情報提供装置10は、図1に示すように、適用音声特徴抽出部M1、混合音声特徴抽出部M2、適用態様決定部M3、第1ゲート部M4、第2ゲート部M5、およびマスク生成部M6を有するモデルMを生成する。そして、情報提供装置10は、適用音声特徴抽出部M1に適用音声を入力し、適用態様決定部M2と混合音声特徴抽出部M3とに混合音声を入力した場合に、マスク生成部M6が適用音声抽出マスクを出力するように、モデルMの学習を行う。
例えば、情報提供装置10は、適用音声と混合音声とを所定のフレーム単位(例えば、10ミリ秒)に分割し、各フレームに含まれる音声の周波数特定を示す情報(例えば、ベクトル等の多次元量)をモデルMに入力する。そして、情報提供装置10は、モデルMが、混合音声の各フレームから適用音声と特徴が類似する音声を強調し、他の音声を低減させるマスクを適用音声抽出マスクとして出力するように、モデルMの学習を行う。
なお、このようなモデルMの全体若しくはモデルMが有する各部M1〜M6は、例えば、DNN(Deep Neural Network)、RNN(Recurrent Neural Networks)、LSTM(Long short-term memory)、CNN(Convolutional Neural Network)等、任意の構造を有するDNNにより実現される。そして、情報提供装置10は、バックプロパゲーション等、DNN等のモデルMに対して各種情報の特徴を学習させる任意の学習手法を用いて、モデルMの学習を行う。
以下、モデルMの構成について説明する。適用音声特徴抽出部M1は、適用音声が有する特徴を抽出し、抽出した特徴を示す情報を第1ゲート部M4に出力する。例えば、適用音声特徴抽出部M1は、入力された適用音声の情報から、適用音声が有する周波数特性を示すベクトルを生成し、生成したベクトルを第1ゲート部M4へと出力する。すなわち、モデルMは、適用情報の特徴を抽出する第1抽出部としての適用音声特徴抽出部M1を有する。
混合音声特徴抽出部M2は、混合音声が有する特徴を抽出し、抽出した特徴を示す情報を第2ゲート部M5に出力する。例えば、混合音声特徴抽出部M2は、入力された混合音声の情報から、混合音声が有する周波数特性を示すベクトルを生成し、生成したベクトルを第2ゲート部M5へと出力する。すなわち、モデルMは、適用情報の特徴を抽出する第2抽出部としての混合音声特徴抽出部M1を有する。
適用態様決定部M3は、適用音声の特徴に対する重みと、混合音声の特徴に対する重みとを決定する。すなわち、適用態様決定部M3は、適用音声抽出マスクを生成する際に、適用音声の特徴の適用度合と、混合音声の特徴の適用度合とを決定する。例えば、適用態様決定部M3は、混合音声の特徴に基づいて、適用音声の特徴を示すベクトルの各次元の値と、混合音声の特徴を示すベクトルの数次元の値のうち、どの次元の値を採用するかを示すベクトルを適用度合として決定する。
なお、このような適用度合を示すベクトルは、例えば、適用音声や混合音声の特徴を示すベクトルのうち、適用音声抽出マスクの生成に用いる次元と対応する次元に「1」が格納され、それ以外に「0」が格納されたベクトルにより実現されてもよい。すなわち、モデルMは、混合音声の特徴から適用音声の特徴の適用度合を示す第1適用情報を生成する第1生成部と、混合音声の特徴から混合音声の特徴の適用度合を示す第2適用情報を生成する第2生成部とに対応する適用態様決定部M3を有する。
第1ゲート部M4は、適用音声の特徴と、混合音声の特徴に基づいた適用度合とに基づいて、第1特徴情報の生成を行う。例えば、第1ゲート部M4は、適用音声特徴抽出部M1により抽出された適用音声の特徴を示すベクトルと、適用態様決定部M3が混合音声の特徴に基づいて決定した、適用音声の特徴の適用度合を示すベクトルとのアダマール積を算出し、算出したアダマール積を第1特徴情報として出力する。
第2ゲート部M5は、混合音声の特徴と、混合音声の特徴に基づいた適用度合とに基づいて、第2特徴情報の生成を行う。例えば、第2ゲート部M5は、混合音声特徴抽出部M2により抽出された混合音声の特徴を示すベクトルと、適用態様決定部M3が混合音声の特徴に基づいて決定した、混合音声の特徴の適用度合を示すベクトルとのアダマール積を算出し、算出したアダマール積を第2特徴情報として出力する。
マスク生成部M6は、第1特徴情報と第2特徴情報とに基づいて、混合音声に含まれる音声のうち適用音声と類似する特徴を有する音声を抽出するための適用音声抽出マスクを生成する。すなわち、マスク生成部M6は、適用音声の特徴と混合音声の特徴とに基づいた第1特徴情報と、混合音声の特徴に基づいた第2特徴情報とを用いて、混合音声から特徴が適用音声と類似する音声を強調するためのベクトルを適用音声抽出マスクを生成する。すなわち、モデルMは、第1特徴情報および第2特徴情報を用いて適用音声抽出マスクを生成する第3生成部としてのマスク生成部M6を有する。
このように、情報提供装置10が学習するモデルMは、適用音声の特徴に応じた重みを混合音声の特徴に適用するのではなく、混合音声の特徴に応じたゲート機構を用いて、適用音声の特徴と混合音声の特徴とから、適用音声抽出マスクを生成する。この結果、情報提供装置10は、モデルMが有するネットワークの構成を単純化し、パラメータの数を削減することができる。
例えば、従来のモデルでは、主ネットワークと補助ネットワークとの複数のネットワークを用いて混合音声から複数の特徴を抽出し、各特徴に対して目標音声の特徴に応じた重みを適用するといった機構を有していた。しかしながら、このような構成を有するモデルにおいては、個別に動作する複数のネットワークが存在することとなるため、モデル全体としてのパラメータの数が増大する。また、補助ネットワークが出力する各特徴に対する重みは、スカラー値であるため、効率的な学習を行うことができない。
一方、モデルMは、ゲート機構を用いて、混合音声と適用音声とから、適用音声抽出モデルを生成する。より具体的には、情報提供装置10は、モデルMとして、混合音声の特徴から適用音声の特徴の適用度合を示す第1適用情報を生成する第1生成部と、混合音声の特徴から混合音声の特徴の適用度合を示す第2適用情報を生成する第2生成部とに対応する適用態様決定部M3を有する。そして、情報提供装置10は、第1適用情報と適用音声の特徴とから第1特徴情報を生成する第1ゲート部M4と、第2適用情報と混合音声の特徴とから第2特徴情報を生成する第2ゲート部M5とを有し、第1特徴情報および第2特徴情報とから、適用音声抽出マスクの生成を行う。
このようなゲート機構を有した場合、各部M1〜M6が出力する情報は、全てベクトルとなるので、情報提供装置10は、モデルMを全体として一つのモデルと見做し、学習を行うことができる。この結果、情報提供装置10は、学習対象となるパラメータの数を削減し、効率的な学習を実現することができる。
また、このような構成を有するモデルMは、あらかじめ設定された目標利用者の目標音声を抽出するのではなく、混合音声に含まれる音声のうち適用音声と特徴が類似する音声を抽出するためのマスクを生成することとなる。このような処理の結果、情報提供装置10は、あらかじめ目標利用者を定めずとも、混成音声に含まれる任意の音声を目標音声として抽出可能なモデルMを生成することができる。
〔1−4−3.モデルMの具体例について〕
続いて、図2を用いて、情報提供装置10が学習を行うモデルの具体的な構成例について説明する。図2は、実施形態に係る情報提供装置が生成するモデルの構成例を示す図である。
例えば、モデルMが有する適用音声特徴抽出部M1は、図2において「F+tanh」により示される複数の中間層と、「Ave(Average)」により示される出力層とを有するネットワークにより実現される。ここで「F+tanh」で示される中間層においては、各層のノードが全結合されており、「tanh」で示される非線形関数が入力された情報に対して適用される。また、「Ave」により示される出力層においては、前段の中間層が過去に出力した所定の数の情報の平均値が出力される。なお、図2に示す例では、混成音声特徴抽出部M2も、適用音声特徴抽出部M1と同様の構成を有するネットワークにより実現される。
また、モデルMが有する適用態様決定部M3は、「F+relu」で示される複数の中間層M31〜M33を有するネットワークにより実現される。ここで「F+relu」で示される中間層においては、各層のノードが全結合されており、「relu」で示される非線形関数が入力された情報に対して適用される。例えば、適用態様決定部M3においては、中間層M31が入力された混成音声の特徴に応じたベクトルを中間層M32および中間層M33に対して並列に入力する。また、中間層M32は、第1生成部に対応し、中間層M31が出力した混成音声の特徴に応じて適用音声の特徴に対する適用度合を決定する。また、中間層M33は、第2生成部に対応し、中間層M31が出力した混成音声の特徴に応じて混成音声の特徴に対する適用度合を決定する。
また、モデルMが有するマスク生成部M6は、「Concat」で示される中間層と、「F+relu」で示される中間層と、「F」で示される中間層とを有する。ここで、「Concat」で示される中間層においては、第1ゲート部M4が出力した第1特徴情報のベクトルと、第2ゲート部M5が出力した第2特徴情報のベクトルとを連結した連結情報を生成する。例えば、「Concat」で示される中間層では、512次元の第1特徴情報に、512次元の第2特徴情報を連結した1024次元のベクトルを生成する。また、「F」で示される中間層は、「F+relu」で示される中間層による処理が繰り返し行われた連結情報に基づいて、適用音声抽出マスクとなるベクトルを生成するための処理を実行する。
なお、図2に示すモデルMの構成は、あくまで一例であり、これに限定されるものではない。例えば、モデルMの各部M1〜M6は、任意の数の中間層を有していてもよい。なお、上述した説明における各種の音声は、人間が実際に認識可能な音声であってもよく、このような音声の特徴量であってもよい。すなわち、モデルMは、実際の音声そのものに対する各種の処理を実現してもよく、音声の特徴量を用いた処理を実現してもよい。すなわち、上述した各種の処理は、実際の音声の検出、抽出、生成等の処理に限定されるものではなく、音声の特徴量の検出、抽出、生成等の処理をも含む概念である。
〔1−4−4.情報処理の一例について〕
続いて、図1に戻り、スマートスピーカ200が実行する情報処理の一例について説明する。例えば、スマートスピーカ200は、情報提供装置10により学習が行われたモデルMの提供を受付ける(ステップS3)。続いて、スマートスピーカ200は、キーワード音声と混合音声とを受付ける(ステップS4)。
このような場合、スマートスピーカ200は、キーワード音声を適用音声として、混合音声と共にモデルMに入力し、目標音声を抽出する目標音声抽出マスクを取得する(ステップS5)。すなわち、スマートスピーカ200は、キーワード音声を発話した利用者を目標利用者とし、目標利用者が発話したキーワード音声を適用音声とする。そして、スマートスピーカ200は、適用音声と混合音声とをモデルMに入力することで、混合音声のうち適用音声と特徴が類似する音声、すなわち、目標利用者が発話した目標音声を抽出するための目標音声抽出マスクの生成を行う。
すなわち、スマートスピーカ200は、モデルMとして、混合音声と適用音声とが入力された際に、混合音声の特徴と適用音声の特徴とに基づいた第1特徴情報を生成するとともに、混合音声の特徴に基づいた第2特徴情報を生成し、入力された混合音声から入力された適用音声を抽出するための抽出情報(すなわち、目標音声抽出マスク)を第1特徴情報と第2特徴情報とから生成するように学習が行われたモデルMを用いて、目標音声抽出マスクの生成を行う。例えば、スマートスピーカ200は、利用者が発話した所定のキーワードの音声を適用音声として取得し、混合音声から所定のキーワードを発話した利用者の音声を抽出するための抽出情報を生成する。
そして、スマートスピーカ200は、目標音声抽出マスクを用いて、混合音声から目標利用者の音声を取得する(ステップS6)。すなわち、スマートスピーカ200は、混合音声から所定のキーワードを発話した利用者の音声を抽出する。例えば、スマートスピーカ200は、混合音声の各フレームに対し、目標音声抽出マスクとして得られたベクトルを適用することで、目標音声の強調を行う。そして、スマートスピーカ200は、目標音声の音声認識を実行し、音声認識の結果に応じた各種の処理を実行し、実行結果を目標利用者に対して提供する(ステップS7)。このような処理の結果、スマートスピーカ200は、容易に目標となる情報を抽出し、抽出した情報を用いた各種の情報処理を実現することができる。
〔1−4−5.モデルMが実行する処理の一例について〕
続いて、数式を用いて、図2に例示した構造を有するモデルMが実行する処理の一例を数式を用いて説明する。なお、以下の説明では、適用音声と混合音声とを複数のフレームに分割し、分割した各フレームをモデルMに入力した際に、モデルMが生成する適用音声抽出マスクの一例について説明する。
例えば、適用音声xadaptのうち、フレームtにおけるデータ(例えば、周波数特性を示すベクトル)をx adaptとし、混合音声xのうち、フレームtにおけるデータ(例えば、周波数特性を示すベクトル)をxとする。また、適用音声xadaptは、所定長(例えば、2秒〜4秒程度)のデータであり、フレーム0〜Tに分割されるものとする。一方、混合音声xは、任意長のデータであり、フレーム0〜tに分割されるものとする。
ここで、「F+tanh」で示される適用音声特徴抽出部M1の複数の中間層が適用音声に対して行う処理をgaux,sとし、「Ave」で示される適用音声特徴抽出部M1の出力層が、前段となる中間層「F+tanh」が出力した情報の履歴の平均値を出力する場合、適用音声特徴抽出部M1が出力する情報λは、以下の式(1)で示すことができる。すなわち、適用音声特徴抽出部M1は、入力された適用音声ごとにλの値を算出することとなる。
Figure 0006856697
同様に、「F+tanh」で示される混合音声特徴抽出部M2の複数の中間層が適用音声に対して行う処理をgaux,dとし、「Ave」で示される混合音声特徴抽出部M2の出力層が、前段となる中間層「F+tanh」が出力した情報の履歴の平均値を出力する場合、フレームtにおける混合音声xを入力した際に混合音声特徴抽出部M2が出力する情報λd,tは、以下の式(2)で示すことができる。
Figure 0006856697
なお、混合音声が0〜Tのフレームに分割される場合、混合音声特徴抽出部M2が出力する情報λd,tは、以下の式(3)で示されることとなる。
Figure 0006856697
また、適用態様決定部M3は、フレーム単位の混成発話の特徴量の平均を算出し、算出した特徴量の平均に基づいて、適用音声の特徴の適用度合、および混合音声の特徴の適用度合を算出する。例えば、適用態様決定部M3における各中間層において各層のノードが全結合されており、各中間層のノードと対応する非線形の活性関数をσとし、第2層における線形変換をLとし、適用態様決定部M3の入力層が混合音声xの特徴に基づいて出力する情報をxl,tとする。このような場合、適用態様決定部M3が出力する第1適用情報は、σ(L(xl,t))で示すことが出来、第2適用情報は、σ(L(xl,t))で示すことができる。この結果、第1ゲート部M4が生成する第1特徴情報x l,tは、以下の式(4)で示すことができ、第2ゲート部M5が生成する第2特徴情報x l,tは、以下の式(5)で示すことができる。
Figure 0006856697
Figure 0006856697
この結果、マスク生成部M6の「Concat」で示される中間層は、以下の式(6)に示すように、第1特徴情報x l,tおよび第2特徴情報x l,tを結合したベクトルxl+1,tを生成して出力することとなる。そして、マスク生成部M6は、このようなベクトルxl+1,tに基づいて、混合音声から適用音声と特徴が類似する音声を抽出するための適用音声抽出マスク(すなわち、目標音声抽出マスク)を生成することとなる。
Figure 0006856697
〔1−5.学習データについて〕
なお、上述したモデルMの学習を行う場合、情報提供装置10は、混合音声と適用音声と適用音声抽出マスクとの組を学習データとするのであれば、任意の学習データを用いてもよい。例えば、情報提供装置10は、利用者#1〜#3の音声を混合した混合音声と、各利用者#1〜#3のそれぞれの音声である適用音声#1〜#3と、各利用者#1〜#3の音声を抽出するための適用音声抽出マスク#1〜#3とを学習データとして取得する。このような場合、情報提供装置10は、混合音声と適用音声#1とを入力した際に適用音声抽出マスク#1を出力し、混合音声と適用音声#2とを入力した際に適用音声抽出マスク#2を出力し、混合音声と適用音声#3とを入力した際に適用音声抽出マスク#3を出力するようにモデルMの学習を行えばよい。ここで、適用音声#1〜#3が混合音声に含まれる音声であってもよく、異なる音声(例えば、個別に発話した音声)であってもよい。
また、情報提供装置10は、任意の音声が雑音として含まれる音声を混合音声としてもよい。例えば、情報提供装置10は、キーワード音声と処理音声とを所定の利用者が続けて発話した音声に対し、各種の音を雑音として合成した音声データを学習データに用いてもよい。ここで、雑音として合成される音声には、各種のノイズ音声のみならず、キーワード音声と処理音声とを発話した利用者以外の利用者による発話が含まれていてもよい。また、雑音として合成される音声には、テレビジョンTV等から出力されるであろう音声が含まれていてもよい。また、学習モデルの精度を控除した場合、情報提供装置10は、様々な種別の雑音を含む音声データを学習データとして採用するのが望ましい。
〔2.機能構成の一例〕
以下、上記した学習処理を実現する情報提供装置10が有する機能構成の一例、および、上述した情報処理を実現するスマートスピーカ200が有する機能構成の一例について説明する。
〔2−1.情報提供装置の機能構成の一例について〕
まず、図3を用いて、情報提供装置10が有する機能構成の一例を説明する。図3は、実施形態に係る情報提供装置の構成例を示す図である。図7に示すように、情報提供装置10は、通信部20、記憶部30、および制御部40を有する。
通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、例えば、スマートスピーカ200やデータサーバ100との間で情報の送受信を行う。
記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部30は、学習データデータベース31を記憶する。
学習データデータベース31は、学習データが登録される。例えば、図4は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図4に示すように、学習データデータベース31には、「学習データID(Identifier)」、「混合音声」、「利用者音声」、および「利用者音声マスク」といった項目を有する情報が登録される。
ここで、「学習データID」とは、学習データの識別子である。また、「混合音声」とは、学習データとなる混合音声の音声データである。また、「利用者音声」とは、対応付けられた混合音声に音声が含まれる利用者により発話された音声であり、適用音声として用いられる音声の音声データである。また、「利用者音声マスク」とは、対応付けられた混合音声から、対応付けられた利用者音声と同一の利用者により発話された音声を抽出するためのマスク、すなわち適用音声抽出マスクである。
例えば、図8に示す例では、学習データデータベース31には、学習データID「学習データ#1」、混合音声「混合音声#1」、利用者音声「利用者音声#1−1」、利用者音声マスク「マスク#1−1」が対応付けて登録されている。このような情報は、学習データID「学習データ#1」が示す学習データとして、混合音声「混合音声#1」から利用者音声「利用者音声#1−1」と特徴が類似する音声(すなわち、同一利用者により発話された音声)を抽出するためのマスクが利用者音声マスク「マスク#1−1」である旨を示す。
なお、図4に示す例では、「混合音声#1」、「利用者音声#1−1」、および「マスク#1−1」といった概念的な値を記載したが、実際には、学習データデータベース31には、各種形式の音声データやマスクを構成する各種の数値等が登録されることとなる。また、図4に示す情報以外にも、学習データデータベース31には、任意の情報が登録されていてよい。
図3に戻り、説明を続ける。制御部40は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、情報提供装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部40は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
図3に示すように、制御部40は、取得部41、学習部42、および提供部43を有する。取得部41は、複数の音声を含む混合音声と、複数の音声のうち抽出対象となる目標音声に特徴が類似する適用音声と、混合音声から目標音声を抽出するための適用音声抽出マスクとを取得する。例えば、取得部41は、データサーバ100から、学習データとなる各種の音声や適用音声抽出マスクを取得する。そして、取得部41は、取得した学習データを学習データデータベース31に登録する。
学習部42は、混合音声と適用音声とが入力された際に、混合音声の特徴と適用音声の特徴とに基づいた第1特徴情報を生成するとともに、混合音声の特徴に基づいた第2特徴情報を生成し、生成された第1特徴情報と生成された第2特徴情報とから適用音声抽出マスクを生成するようにモデルMの学習を行う。
例えば、学習部42は、図2に示すような構成を有するモデルMのデータを生成する。より具体的には、学習部42は、モデルMとして、適用音声の特徴を抽出する適用音声特徴抽出部M1と、混合音声の特徴を抽出する混合音声特徴抽出部M2とを有するモデルMを生成する。また、学習部42は、混合音声の特徴から適用音声の特徴の適用度合を示すベクトルである第1適用情報と、混合音声の特徴から混合音声の特徴の適用度合を示すベクトルである第2適用情報とを生成する適用態様決定部M3を有するモデルMを生成する。
また、学習部42は、第1適用情報と適用音声の特徴とからベクトルである第1特徴情報を生成する第1ゲート部M4と、第2適用情報と混合音声の特徴とからベクトルである第2特徴情報を生成する第2ゲート部M5とを有するモデルMを生成する。例えば、学習部42は、適用音声特徴抽出部M1が出力したベクトルと、適用態様決定部M3が出力したベクトルである第1適用情報とのアダマール積を第1特徴情報として出漁する第1ゲート部M4を有するモデルMを生成する。また、例えば、学習部42は、混合音声特徴抽出部M2が出力したベクトルと、適用態様決定部M3が出力したベクトルである第2適用情報とのアダマール積を第2特徴情報として出漁する第2ゲート部M5を有するモデルMを生成する。
また、学習部42は、第1特徴情報および第2特徴情報とを連結した連結情報を用いて適用音声抽出マスクを生成するマスク生成部M6とを有するモデルMを生成する。例えば、学習部42は、連結情報からベクトルである適用音声抽出マスクを生成するマスク生成部M6を有するモデルMを生成する。
そして、学習部42は、学習データデータベース31から学習データを読出し、読み出した学習データを用いて、モデルMの学習を行う。例えば、学習部42は、混合音声#1と、適用音声として用いる利用者音声#1−1と、適用音声と特徴が類似する音声を混合音声#1から抽出するためのマスクであるマスク#1−1とを取得する。そして、学習部42は、モデルMに混合音声#1と利用者音声#1−1とを入力した際に、モデルMがマスク#1−1を出力するように、各種の学習技術を用いて、モデルMのパラメータを修正する。
提供部43は、学習部42により学習が行われたマスクMを提供する。例えば、提供部43は、マスクMの各種パラメータを示すデータをスマートスピーカ200へと送信する。
〔2−2.スマートスピーカの機能構成の一例について〕
次に、図5を用いて、スマートスピーカ200が有する機能構成の一例を説明する。図5は、実施形態に係るスマートスピーカの構成例を示す図である。図5に示すように、スマートスピーカ200は、通信部210、記憶部220、制御部230、入力部240および出力部250を有する。
通信部210は、例えば、NIC等によって実現される。そして、通信部210は、ネットワークNと有線または無線で接続され、例えば、情報提供装置10、データサーバ100および情報提供装置10との間で情報の送受信を行う。
記憶部220は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部220は、情報提供装置10から配信されるモデルMのデータを学習モデル211として記憶する。
入力部240は、利用者が発話した音声等、スマートスピーカ200の周囲から発せられた音声を受付けるマイク等といった入力装置である。また、出力部250は、各種の音声を出力するためのスピーカといった、出力装置である。なお、スマートスピーカ200は、設置位置が異なる複数のマイクを入力部240として有していてもよく、複数のスピーカを出力部250として有していてもよい。また、スマートスピーカ200は、各種の情報を表示可能な画面を出力部250として有していてもよい。
制御部230は、コントローラであり、例えば、CPU、MPU等のプロセッサによって、スマートスピーカ200内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部230は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現されてもよい。
制御部230は、検出部231、生成部232、抽出部233、および処理部234を有する。ここで、学習モデルMが図2に示すモデルMの構成を有する場合、制御部230は、学習モデルを実行することで、生成部252の機能を有することとなる。なお、検出部231、抽出部233および処理部234は、それぞれ学習モデルMとは個別の各種プログラムを実行することにより実現されてもよい。
検出部141は、入力された音声である入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する。例えば、検出部141は、入力部240により取得された音声を入力音声として受付けると、受付けた入力音声からキーワード音声を検出する。より具体的な例を挙げると、検出部141は、入力音声に含まれる音声の波形や周波数特性から、キーワードを構成する各音素の特徴や各音素が出現する順番の特徴に基づいて、キーワード音声の検出を行う。換言すると、検出部141は、複数の利用者が発話したキーワード音声において共通する特徴に基づいて、キーワード音声を検出を行う。なお、このような検出は、例えば、複数の利用者が発話したキーワード音声の特徴を学習した各種のモデルにより実現されてもよく、非負値行列因子分解といった各種音声の切り分けを行う技術を用いて、キーワード音声の検出を行ってもよい。
生成部232は、複数の音声を含む混合音声と、当該複数の音声のうち抽出対象となる目標音声に特徴が類似する適用音声とを取得する。例えば、生成部232は、入力部240が取得した音声のうち、検出部231が検出したキーワード音声を適用音声として取得する。また、生成部232は、入力部240が取得した音声のうち、検出部231が検出したキーワード音声以外の音声を混合音声として取得する。
そして、生成部232は、混合音声の特徴と適用音声の特徴とに基づいた第1特徴情報と混合音声の特徴に基づいた第2特徴情報とに基づいて混合音声から目標音声を抽出するための抽出情報を生成するモデルMを用いて、取得された混合音声から、適用音声と特徴が類似する音声、すなわち、目標音声を抽出するための目標音声抽出マスクを抽出情報として生成する。例えば、生成部232は、学習モデル221を記憶部220から読み出す。そして、生成部232は、キーワード音声を適用音声として学習モデル221に入力するとともに、混合音声を学習モデル221に入力し、学習モデル221が出力したベクトルを目標音声抽出マスクとして取得する。すなわち、生成部232は、モデルMを用いて、混合音声からキーワード音声を発話した利用者(すなわち、目標利用者)の発話音声(すなわち、目標音声)を抽出するためのマスクを生成する。
抽出部233は、生成された目標音声抽出マスクを用いて、混合音声から目標音声を抽出する。例えば、抽出部233は、混合音声の各フレームに対し、フレームごとに生成された目標音声抽出マスクを適用することで、各フレームから、目標音声の強調を行う。すなわち、抽出部233は、混合音声から所定のキーワードを発話した利用者の音声を抽出する。
処理部147は、目標音声の内容に応じた処理を実行する。例えば、処理部147は、目標音声の音声認識を行い、認識結果が「今日の天気は?」で合った場合、外部サーバ等から天気予報の情報を取得する。そして、処理部147は、取得した情報を読み上げた音声を出力部250から出力する。
〔3.情報提供装置およびスマートスピーカが実行する処理の流れについて〕
次に、図6、図7を用いて、情報提供装置10およびスマートスピーカ200が実行する処理の流れの一例について説明する。図6は、実施形態に係る情報提供装置が実行する学習処理の流れの一例を示すフローチャートである。また、図7は、実施形態に係るスマートスピーカが実行する情報処理の流れの一例を示すフローチャートである。
まず、図6を用いて、学習処理の流れの一例を説明する。まず、情報提供装置10は、混合音声と適用音声と適用音声に対応するマスクとの組を学習データとして取得する(ステップS101)。そして、情報提供装置10は、混合音声の特徴と適用音声の特徴とに基づく第1特徴情報と、混合音声の特徴に基づく第2特徴情報から、適用音声の特徴を抽出するマスクを生成するモデルMの学習を行う(ステップS102)。そして、情報提供装置10は、スマートスピーカ200にモデルを提供し(ステップS103)、処理を終了する。
続いて、図7を用いて、情報処理の流れの一例を説明する。まず、スマートスピーカ200は、キーワード音声を検出したか否かを判定し(ステップS201)、検出していない場合は(ステップS201:No)、検出するまで待機する。そして、スマートスピーカ200は、キーワード音声を検出した場合は(ステップS201:Yes)、キーワード音声に続く後続の音声を取得する(ステップS202)。そして、スマートスピーカ200は、キーワード音声を適用音声とし、キーワード音声に続く後続の音声を混合音声としてモデルMに入力し、キーワード音声と特徴が類似する音声、すなわち、目標音声を抽出する目標音声抽出マスクを生成する(ステップS203)。
続いて、スマートスピーカ200は、目標音声抽出マスクを用いて混合音声から目標音声を抽出する(ステップS204)。そして、スマートスピーカ200は、目標音声の解析結果に応じた処理を実行し(ステップS205)、処理の実行結果を提供して(ステップS206)、処理を終了する。
〔4.効果の一例〕
以下、上述した学習処理によって学習が行われたモデルMを準備し、モデルMが生成するマスクの精度の一例について説明する。
例えば、図8は、実施形態に係る情報提供装置が生成するモデルの精度の第1例を示す図である。図8に示す例ではVCTK(Voice Cloning Tool Kit)コーパスを用いて学習を行った各種のモデルが出力するマスクの精度の一例を示した。ここで、図8に示す例では、従来のモデルとして、「Mixture」、「Speaker Adaptive Layer」、および「Speaker Adaptive Bias」、「Oracle mask」と呼ばれるモデルを準備した。
また、図8に示す例では、モデルMのうち混合音声特徴抽出部M2および第2ゲート部M5を有さないモデルを「Transform Static」とし、モデルMのうち混合音声特徴抽出部M2をオフラインとしたモデルを「Transform Static Dynamic−offline」とし、モデルMを「Transform Static Dynamic−online」とした。また、図8に示す例では、各モデルの性能の指標として、SDR(signal-to-distortion ratio)の改善量であるΔSDRと、PESQ(perceptual evaluation of speech quality score)とを示した。
図8に示すように、VCTKコーパスを学習データとして用いた場合、「Mixture」および「Speaker Adaptive Layer」といった従来のモデルと比較して、ΔSDRおよびPESQの値を改善させることができた。
また、図9は、実施形態に係る情報提供装置が生成するモデルの精度の第2例を示す図である。図9に示す例ではWSJ(Wall Street Journal)コーパスを用いて図8に示した各モデルの学習を行った際に、各種のモデルが出力するマスクの精度の一例を示した。図9に示すように、WSJコーパスを利用した場合においても、従来のモデルと比較して、モデルMは、ΔSDRおよびPESQの値を改善させることができた。
また、図10は、実施形態に係る情報提供装置が生成するモデルの精度の第3例を示す図である。図10に示す例ではVCTKコーパスおよびWSJコーパスを用いて図8、図9に示した各モデルの学習を行った際に、各種のモデルが出力するマスクの精度の一例を示した。図10に示すように、VCTKコーパスおよびWSJコーパスの両方を利用した場合においても、従来のモデルと比較して、モデルMは、ΔSDRおよびPESQの値を改善させることができた。
〔5.変形例〕
上記では、学習処理や情報処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10やスマートスピーカ200が実行する学習処理や情報処理のバリエーションについて説明する。
〔5−1.適用対象について〕
上述した説明では、情報提供装置10は、混合音声から目標音声を抽出するためのモデルMの学習を行い、スマートスピーカ200は、モデルMを用いて、混合音声から目標音声を抽出するマスクを生成した。しかしながら、実施形態は、これに限定されるものではない。
例えば、スマートスピーカ200は、電波望遠鏡が受信した電波を、目標となる電波とノイズからなる混合電波と見做し、混合電波から目標となる電波(例えば、予め測定された観測対象の電波や予測された電波)を適用電波として、モデルMに入力することで、混合電波から目標となる電波を抽出するためのマスクを生成してもよい。また、情報提供装置10は、このようなマスクを生成するようにモデルMの学習を行ってもよい。また、情報提供装置10は、音声や電波以外にも、複数の信号が混合した混合信号から、目標となる目標信号を抽出するためのモデルMの学習を行ってもよく、スマートスピーカ200は、このようなモデルMを用いて、混合信号から目標信号を抽出してもよい。
また、上述した各種の信号以外にも、ベクトルとして表現可能な情報であれば、任意の情報について、上述した学習処理および情報処理を実行して良い。例えば、情報提供装置10は、複数の情報を示すベクトルを混合情報と見做し、目標となる情報である目標情報のベクトル、若しくは、目標情報と類似する情報のベクトルを適用情報と見做す。そして、情報提供装置10は、混合情報と適用情報とを入力した際に、混合情報から目標情報を抽出するためのマスクを生成するように、モデルMの学習を行う。一方、スマートスピーカ200は、目標情報と所定の共通性を有する情報(例えば、目標情報と類似する他の情報や目標情報の一部、目標情報と出所が類似若しくは共通する情報等)を適用情報として混合情報と共に入力し、混合情報から目標情報を強調するためのマスクを生成する。そして、スマートスピーカ200は、マスクを用いて混合情報から目標情報を抽出すればよい。
このように、情報提供装置10およびスマートスピーカ200は、利用者が発話した音声のみならず、任意の情報について、上述した学習処理および情報処理を実行して良い。また、情報提供装置10およびスマートスピーカ200は、任意の目標について上述した学習処理および情報処理を実行して良い。例えば、動画像の中に抽出対象となる利用者が撮影されている場合や、所定の動きを行う利用者が含まれる場合、このような利用者の画像や所定の動きを行った際の画像を示すベクトルを適用情報とし、カメラが撮影した画像を示すベクトルを混合情報とすることで、所定の利用者や所定の動きを行った利用者の抽出を行うためのマスクを生成してもよい。また、例えば、情報提供装置10およびスマートスピーカ200は、データベースに格納された複数の情報を示すベクトルを混合情報とし、検索目標となる情報の一部や検索目標と類似する情報を示すベクトルを適用情報とすることで、データベースから検索目標となる情報や類似する情報を検索する手段にモデルを用いてもよい。
すなわち、情報提供装置10は、混合情報の特徴と適用情報の特徴とに基づいた第1特徴情報と混合情報の特徴に基づいた第2特徴情報とに基づいて混合情報から目標情報を抽出するための抽出情報を生成するモデルを学習するのであれば、任意の種別の情報および任意の目標に用いられるモデルを学習してよい。また、スマートスピーカ200は、このようなモデルを用いるのであれば、任意の種別の情報について任意の目標にモデルを用いてよい。
〔5−2.適用音声について〕
上述した例では、スマートスピーカ200は、キーワード音声を適用音声とし、混合音声からキーワード音声と特徴が類似する音声を抽出するためのマスクを目標音声抽出マスクとして生成した。しかしながら、実施形態は、これに限定されるものではない。スマートスピーカ200は、目標情報の一部もしくは目標情報と類似する情報を適用情報とするのであれば、任意の情報を適用情報としてもよい。
例えば、スマートスピーカ200は、予め目標となる利用者の声(例えば、2秒〜4秒程度)をあらかじめ記憶しておき、記憶しておいた利用者の声を適用情報として採用してもよい。また、スマートスピーカ200は、目標となる利用者以外にも、例えば、目標利用者が発生しているであろう文言と同一若しくは類似している文言を発声している他の利用者の声を適用情報とすることで、例えば、所定の文言若しくはそれに類似する文言を発声している利用者の声を目標音声として抽出してもよい。
〔5−3.装置構成〕
記憶部30に登録された学習データデータベース31は、外部のストレージサーバに保持されていてもよい。また、情報提供装置10とスマートスピーカ200とは、上述した学習処理および情報処理を連携して実現してもよく、いずれか一方の装置が単独で実行してもよい。
〔5−4.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔5−5.プログラム〕
また、上述した実施形態に係る情報提供装置10は、例えば図11に示すような構成のコンピュータ1000によって実現される。図11は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等により実現される。
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
例えば、コンピュータ1000が情報提供装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムまたはデータ(例えば、学習モデルM1)を実行することにより、制御部40の機能を実現する。コンピュータ1000の演算装置1030は、これらのプログラムまたはデータ(例えば、学習モデルM1)を一次記憶装置1040から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
〔6.効果〕
上述したように、スマートスピーカ200は、複数の情報を含む混合情報と、複数の情報のうち抽出対象となる目標情報に特徴が類似する適用情報とを取得する。そして、スマートスピーカ200は、混合情報の特徴と適用情報の特徴とに基づいた第1特徴情報と混合情報の特徴に基づいた第2特徴情報とに基づいて混合情報から目標情報を抽出するための抽出情報を生成するモデルMを用いて、取得された混合情報および適用情報から、抽出情報を生成する。その後、スマートスピーカ200は、生成された抽出情報を用いて、混合情報から目標情報を抽出する。このため、スマートスピーカ200は、目標となる情報の抽出を容易かつ精度良く抽出することができる。
また、スマートスピーカ200は、モデルMとして、混合情報の特徴から適用情報の特徴の適用度合を示す第1適用情報を生成する第1生成部(例えば、適用態様決定部M3)と、第1生成部により生成された第1適用情報と適用情報の特徴とから第1特徴情報を生成する第1ゲート部M4と、混合情報の特徴から混合情報の特徴の適用度合を示す第2適用情報を生成する第2生成部(例えば、適用態様決定部M3)と、第2生成部により生成された第2適用情報と混合情報の特徴とから第2特徴情報を生成する第2ゲート部M5とを有するモデルMを用いて、抽出情報を生成する。また、スマートスピーカ200は、モデルMとして、適用情報の特徴を抽出する第1抽出部(例えば、適用音声特徴抽出部M1)と、混合情報の特徴を抽出する第2抽出部(例えば、混合音声特徴抽出部M2)と、第1特徴情報および第2特徴情報を用いて抽出情報を生成する第3生成部とを有するモデルMを用いて、抽出情報を生成する。また、スマートスピーカ200は、モデルMとして、第1特徴情報と第2特徴情報とを連結した連結情報から抽出情報を生成する第3生成部(例えば、マスク生成部M6)を有するモデルMを用いて、抽出情報を生成する。このため、スマートスピーカ200は、精度良く目的情報を抽出できる。
また、スマートスピーカ200は、モデルMとして、ベクトルである第1特徴情報を生成する第1ゲート部M4と、ベクトルである第2特徴情報を生成する第2ゲート部M5とを有するモデルMを用いて、抽出情報を生成する。また、スマートスピーカ200は、モデルMとして、ベクトルである第1適用情報を生成する第1生成部(例えば、適用態様決定部M3)と、ベクトルである第2適用情報を生成する第2生成部(例えば、適用態様決定部M3)とを有するモデルMを用いて、抽出情報を生成する。また、スマートスピーカ200は、モデルMとして、第1適用情報と適用情報の特徴とのアダマール積を第1特徴情報として生成する第1ゲート部M4と、第2適用情報と混合情報の特徴とのアダマール積を第2特徴情報として生成する第2ゲート部M5とを有するモデルMを用いて、抽出情報を生成する。また、スマートスピーカ200は、モデルMとして、ベクトルである抽出情報を生成するモデルMを用いて、抽出情報を生成する。
このように、スマートスピーカ200は、ベクトルのみで処理を実行可能なモデルMを用いて、抽出情報を生成する。このようなベクトルのみで処理を実行するモデルMは、全体として単一のモデルとして学習および処理を実行可能であるので、例えば、主ネットワークと補助ネットワークとを有する従来のモデルと比較して、パラメータの数を減少させることができる。このため、スマートスピーカ200は、マスクの生成に要する計算コストを削減できる。
また、スマートスピーカ200は、モデルMとして、混合情報と適用情報とが入力された際に、混合情報の特徴と適用情報の特徴とに基づいた第1特徴情報を生成するとともに、混合情報の特徴に基づいた第2特徴情報を生成し、入力された混合情報から入力された適用情報を抽出するための抽出情報を、生成された第1特徴情報と生成された第2特徴情報とから生成するように学習が行われたモデルMを用いて、混合情報から目標情報を抽出するための抽出情報を生成する。このため、スマートスピーカ200は、精度良く目的情報を抽出できる。
また、スマートスピーカ200は、混合情報として、所定の利用者の発話音声と他の音声とを含む混合音声を取得するとともに、適用情報として、所定の利用者の発話音声とを取得する。そして、スマートスピーカ200は、モデルMを用いて、混合音声から所定の利用者の発話音声を抽出するための抽出情報を生成し、抽出情報を用いて、混合音声から所定の利用者の発話音声を抽出する。例えば、スマートスピーカ200は、適用音声として、利用者が発話した所定のキーワードの音声を取得する。そして、スマートスピーカ200は、混合音声から所定のキーワードを発話した利用者の音声を抽出するための抽出情報を生成し、混合音声から所定のキーワードを発話した利用者の音声を抽出する。このため、スマートスピーカ200は、容易に目標利用者が発した目標音声を抽出するための目標音声抽出マスクを生成することができる。
また、情報提供装置10は、複数の情報を含む混合情報と、複数の情報のうち抽出対象となる目標情報に特徴が類似する適用情報と、混合情報から目標情報を抽出するための抽出情報とを取得する。そして、情報提供装置10は、混合情報と適用情報とが入力された際に、混合情報の特徴と適用情報の特徴とに基づいた第1特徴情報を生成するとともに、混合情報の特徴に基づいた第2特徴情報を生成し、生成された第1特徴情報と生成された第2特徴情報とから抽出情報を生成するようにモデルMの学習を行う。このため、情報提供装置10は、精度良く目的情報を抽出するモデルMを容易に学習することができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、検出部は、検出手段や検出回路に読み替えることができる。
10 情報提供装置
20、210 通信部
30、220 記憶部
31 学習データデータベース
40、230 制御部
41 取得部
42 学習部
43 提供部
100 データサーバ
200 スマートスピーカ
221 学習モデル
231 検出部
232 生成部
233 抽出部
234 処理部
240 入力部
250 出力部

Claims (16)

  1. 複数の情報を含む混合情報と、当該複数の情報のうち抽出対象となる目標情報に特徴が類似する適用情報とを取得する取得部と、
    前記混合情報の特徴と前記適用情報の特徴とに基づいた第1特徴情報と前記混合情報の特徴に基づいた第2特徴情報とに基づいて前記混合情報から前記目標情報を抽出するための抽出情報を生成するモデルを用いて、前記取得部により取得された前記混合情報および前記適用情報から、前記抽出情報を生成する生成部と、
    前記生成部により生成された抽出情報を用いて、前記混合情報から前記目標情報を抽出する抽出部と
    を有することを特徴とする情報処理装置。
  2. 前記生成部は、前記モデルとして、前記混合情報の特徴から前記適用情報の特徴の適用度合を示す第1適用情報を生成する第1生成部と、第1生成部により生成された第1適用情報と前記適用情報の特徴とから前記第1特徴情報を生成する第1ゲート部と、前記混合情報の特徴から前記混合情報の特徴の適用度合を示す第2適用情報を生成する第2生成部と、第2生成部により生成された第2適用情報と前記混合情報の特徴とから前記第2特徴情報を生成する第2ゲート部とを有するモデルを用いて、前記抽出情報を生成する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記生成部は、前記モデルとして、前記適用情報の特徴を抽出する第1抽出部と、前記混合情報の特徴を抽出する第2抽出部と、前記第1特徴情報および前記第2特徴情報を用いて前記抽出情報を生成する第3生成部とを有するモデルを用いて、前記抽出情報を生成する
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記生成部は、前記モデルとして、ベクトルである第1特徴情報を生成する第1ゲート部と、ベクトルである第2特徴情報を生成する第2ゲート部とを有するモデルを用いて、前記抽出情報を生成する
    ことを特徴とする請求項3に記載の情報処理装置。
  5. 前記生成部は、前記モデルとして、前記第1特徴情報と前記第2特徴情報とを連結した連結情報から前記抽出情報を生成する第3生成部を有するモデルを用いて、前記抽出情報を生成する
    ことを特徴とする請求項4に記載の情報処理装置。
  6. 前記生成部は、前記モデルとして、ベクトルである前記第1適用情報を生成する第1生成部と、ベクトルである前記第2適用情報を生成する第2生成部とを有するモデルを用いて、前記抽出情報を生成する
    ことを特徴とする請求項5に記載の情報処理装置。
  7. 前記生成部は、前記モデルとして、前記第1適用情報と前記適用情報の特徴とのアダマール積を前記第1特徴情報として生成する第1ゲート部と、前記第2適用情報と前記混合情報の特徴とのアダマール積を前記第2特徴情報として生成する第2ゲート部とを有するモデルを用いて、前記抽出情報を生成する
    ことを特徴とする請求項6に記載の情報処理装置。
  8. 前記生成部は、前記モデルとして、ベクトルである前記抽出情報を生成するモデルを用いて、前記抽出情報を生成する
    ことを特徴とする請求項7に記載の情報処理装置。
  9. 前記生成部は、前記モデルとして、混合情報と適用情報とが入力された際に、当該混合情報の特徴と当該適用情報の特徴とに基づいた第1特徴情報を生成するとともに、当該混合情報の特徴に基づいた第2特徴情報を生成し、入力された混合情報から入力された適用情報を抽出するための抽出情報を、生成された第1特徴情報と生成された第2特徴情報とから生成するように学習が行われたモデルを用いて、前記取得部により取得された混合情報から前記目標情報を抽出するための抽出情報を生成する
    ことを特徴とする請求項1〜7のうちいずれか1つに記載の情報処理装置。
  10. 前記取得部は、前記混合情報として、所定の利用者の発話音声と他の音声とを含む混合音声を取得するとともに、前記適用情報として、前記所定の利用者の発話音声である適用音声とを取得し、
    前記生成部は、前記モデルを用いて、前記混合音声から前記所定の利用者の発話音声を抽出するための抽出情報を生成し、
    前記抽出部は、前記抽出情報を用いて、前記混合音声から前記所定の利用者の発話音声を抽出する
    ことを特徴とする請求項1〜9のうちいずれか1つに記載の情報処理装置。
  11. 前記取得部は、前記適用音声として、利用者が発話した所定のキーワードの音声を取得し、
    前記生成部は、前記混合音声から前記所定のキーワードを発話した利用者の音声を抽出するための抽出情報を生成し、
    前記抽出部は、前記混合音声から前記所定のキーワードを発話した利用者の音声を抽出する
    ことを特徴とする請求項10に記載の情報処理装置。
  12. 情報処理装置が実行する情報処理方法であって、
    複数の情報を含む混合情報と、当該複数の情報のうち抽出対象となる目標情報に特徴が類似する適用情報とを取得する取得工程と、
    前記混合情報の特徴と前記適用情報の特徴とに基づいた第1特徴情報と前記混合情報の特徴に基づいた第2特徴情報とに基づいて前記混合情報から前記目標情報を抽出するための抽出情報を生成するモデルを用いて、前記取得工程により取得された前記混合情報および前記適用情報から、前記抽出情報を生成する生成工程と、
    前記生成工程により生成された抽出情報を用いて、前記混合情報から前記目標情報を抽出する抽出工程と
    を含むことを特徴とする情報処理方法。
  13. 複数の情報を含む混合情報と、当該複数の情報のうち抽出対象となる目標情報に特徴が類似する適用情報とを取得する取得手順と、
    前記混合情報の特徴と前記適用情報の特徴とに基づいた第1特徴情報と前記混合情報の特徴に基づいた第2特徴情報とに基づいて前記混合情報から前記目標情報を抽出するための抽出情報を生成するモデルを用いて、前記取得手順により取得された前記混合情報および前記適用情報から、前記抽出情報を生成する生成手順と、
    前記生成手順により生成された抽出情報を用いて、前記混合情報から前記目標情報を抽出する抽出手順と
    をコンピュータに実行させるための情報処理プログラム。
  14. 複数の情報を含む混合情報と、当該複数の情報のうち抽出対象となる目標情報に特徴が類似する適用情報と、当該混合情報から当該目標情報を抽出するための抽出情報とを取得する取得部と、
    前記混合情報と前記適用情報とが入力された際に、当該混合情報の特徴と当該適用情報の特徴とに基づいた第1特徴情報を生成するとともに、当該混合情報の特徴に基づいた第2特徴情報を生成し、生成された第1特徴情報と生成された第2特徴情報とから前記抽出情報を生成するようにモデルの学習を行う学習部と
    を有することを特徴とする学習装置。
  15. 学習装置が実行する学習方法であって、
    複数の情報を含む混合情報と、当該複数の情報のうち抽出対象となる目標情報に特徴が類似する適用情報と、当該混合情報から当該目標情報を抽出するための抽出情報とを取得する取得工程と、
    前記混合情報と前記適用情報とが入力された際に、当該混合情報の特徴と当該適用情報の特徴とに基づいた第1特徴情報を生成するとともに、当該混合情報の特徴に基づいた第2特徴情報を生成し、生成された第1特徴情報と生成された第2特徴情報とから前記抽出情報を生成するようにモデルの学習を行う学習工程と
    を含むことを特徴とする学習方法。
  16. 複数の情報を含む混合情報と、当該複数の情報のうち抽出対象となる目標情報に特徴が類似する適用情報と、当該混合情報から当該目標情報を抽出するための抽出情報とを取得する取得手順と、
    前記混合情報と前記適用情報とが入力された際に、当該混合情報の特徴と当該適用情報の特徴とに基づいた第1特徴情報を生成するとともに、当該混合情報の特徴に基づいた第2特徴情報を生成し、生成された第1特徴情報と生成された第2特徴情報とから前記抽出情報を生成するようにモデルの学習を行う学習手順と
    をコンピュータに実行させるための学習プログラム。
JP2019083226A 2019-04-24 2019-04-24 情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラム Active JP6856697B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019083226A JP6856697B2 (ja) 2019-04-24 2019-04-24 情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019083226A JP6856697B2 (ja) 2019-04-24 2019-04-24 情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラム

Publications (2)

Publication Number Publication Date
JP2020181060A JP2020181060A (ja) 2020-11-05
JP6856697B2 true JP6856697B2 (ja) 2021-04-07

Family

ID=73023429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019083226A Active JP6856697B2 (ja) 2019-04-24 2019-04-24 情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラム

Country Status (1)

Country Link
JP (1) JP6856697B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7293162B2 (ja) * 2020-04-08 2023-06-19 日本電信電話株式会社 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム
WO2023171124A1 (ja) * 2022-03-07 2023-09-14 ソニーグループ株式会社 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815507A (zh) * 2015-11-30 2017-06-09 中兴通讯股份有限公司 语音唤醒实现方法、装置及终端
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition

Also Published As

Publication number Publication date
JP2020181060A (ja) 2020-11-05

Similar Documents

Publication Publication Date Title
JP7018659B2 (ja) 声質変換装置、声質変換方法およびプログラム
CN107195296B (zh) 一种语音识别方法、装置、终端及系统
US9451304B2 (en) Sound feature priority alignment
JP7309155B2 (ja) コンピュータプログラム、サーバ装置、端末装置及び音声信号処理方法
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP6991041B2 (ja) 生成装置、生成方法、および生成プログラム
US11367431B2 (en) Synthetic speech processing
CN112349289B (zh) 一种语音识别方法、装置、设备以及存储介质
WO2019116889A1 (ja) 信号処理装置および方法、学習装置および方法、並びにプログラム
KR20110068869A (ko) 복수의 휴먼 테스터에 기초한 음성 발화의 음성 자연성 등급 평가
JP6856697B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラム
JP2015169698A (ja) 音声検索装置、音声検索方法及びプログラム
WO2017146073A1 (ja) 声質変換装置、声質変換方法およびプログラム
US20240004606A1 (en) Audio playback method and apparatus, computer readable storage medium, and electronic device
KR20190046305A (ko) 음성데이터 마켓 시스템 및 음성데이터 마켓 시스템으로 음성을 제공하는 방법
US20210074302A1 (en) Electronic apparatus and control method thereof
JP2019056791A (ja) 音声認識装置、音声認識方法およびプログラム
JP6786065B2 (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
US11328713B1 (en) On-device contextual understanding
JP2006323008A (ja) 楽曲検索装置および楽曲検索方法
JP6998289B2 (ja) 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム
JP6748607B2 (ja) 音声合成学習装置、音声合成装置、これらの方法及びプログラム
CN113870842B (zh) 基于权重调节的语音控制方法、装置、设备及介质
JP6234134B2 (ja) 音声合成装置
US11887602B1 (en) Audio-based device locationing

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210318

R150 Certificate of patent or registration of utility model

Ref document number: 6856697

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250