JP7332024B2

JP7332024B2 - 認識装置、学習装置、それらの方法、およびプログラム

Info

Publication number: JP7332024B2
Application number: JP2022501543A
Authority: JP
Inventors: 厚志安藤; 佑樹北岸; 歩相名神山; 岳至森
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2023-08-23
Anticipated expiration: 2040-02-21
Also published as: US20230069908A1; WO2021166207A1; JPWO2021166207A1

Description

本発明は、発話から非言語・パラ言語情報を認識する技術に関する。

発話からの非言語・パラ言語情報の自動推定が求められている。非言語・パラ言語情報は、音声に含まれる情報のうち、言語情報でない情報である。非言語情報は随意的に変化させられない情報であり、身体的特徴、感情などである。パラ言語情報は、随意的に変化させられる情報であり、意図、態度などである。例えば、発話から話者の感情（平常・喜び・怒り・悲しみ）を自動推定することができれば、職場での簡易メンタルチェックなどに応用できる。また、発話から話者の眠気を自動推定することができれば、車の運転時において危険運転を防止することができる。以降では、ある発話（音声データ）を入力とし、その発話に含まれる非言語・パラ言語情報を有限個のクラス（例えば、平常・喜び・怒り・悲しみ、の４クラス）に分類する技術を非言語・パラ言語情報認識と呼ぶ。

非言語・パラ言語情報認識技術の従来技術として非特許文献１が提案されている。非特許文献１では、認識対象は感情であり、発話から4クラス分類を行う。認識装置は、発話から抽出した短時間ごとの音響特徴（例えば、Mel-Frequency Cepstral Coefficient: MFCCなど）または発話の信号波形そのものを入力とし、非言語・パラ言語情報分類モデルとして深層学習に基づく分類モデルを用いる。深層学習に基づく分類モデルは、時系列モデル層と全結合層の二つにより構成される。時系列モデル層で畳み込みニューラルネットワーク層と自己注意機構層を組み合わせることで、発話中の特定の区間の情報に着目した非言語・パラ言語情報認識を実現させている。例えば、話し終わりで極端に声が大きくなることに着目し、当該発話は怒りクラスにあたると推定することができる。

非言語・パラ言語情報分類モデルの学習には、学習用入力発話データ(学習用の音声データ)と正解ラベルの組を用いる。ただし、非言語・パラ言語情報は主観的な情報であるため、正解ラベルの定義は非常に難しい。例えば、平常・喜び・怒り・悲しみの４クラスの分類では、発話者自身に正解ラベルを付与させることは適当でない。これは、話者ごとに平常・喜び・怒り・悲しみの判断基準が異なるためである。また発話を聴取する第三者が正解ラベルを付与するとしても、第三者が変わるたびに正解ラベルが変化する恐れもある。このことから、多くの先行研究では、複数名の聴取者を用意し、最も多くの聴取者が付与した非言語・パラ言語情報ラベルである最多ラベルを正解ラベルと定義している。

Lorenzo Tarantino, Philip N. Garner , Alexandros Lazaridis, "Self-attention for Speech Emotion Recognition", INTERSPEECH, pp.2578-2582, 2019.

前述の通り、非言語・パラ言語情報ラベルの判定基準は聴取者ごとに偏りが表れることがある。例えば、ある発話を聞いた際に平常クラスと判定しやすい聴取者もいれば、喜びクラスと判定しやすい聴取者もいる。しかし、最多ラベルは多くの聴取者の非言語・パラ言語情報ラベルを統合しているため、最多ラベルの判定基準が発話ごとに異なり、複雑化している可能性がある。このため、従来技術のように最多ラベルを正解ラベルとして非言語・パラ言語情報分類モデルを学習する場合、非言語・パラ言語情報を推定することが困難となる恐れがある。

具体的な例を図１に示す。認識対象のクラスは平常・喜び・怒り・悲しみの4クラスとする。最多ラベルは発話3では喜びとなっており、聴取者A,B,C,Dの判定基準に基づいて最多ラベルが決定している。一方、最多ラベルは発話１では喜び、発話２では悲しみとなっているが、発話１では聴取者A,Bの判定基準、発話２では聴取者C,Dの判定基準に基づいて最多ラベルが決定している。つまり、発話１と発話２とでは最多ラベルの判定基準が異なる。この例では、聴取者A,Bは喜びと判定しやすいという傾向があり、聴取者内ではラベルの判定基準は規則性がある。しかし、最多ラベルは、ラベルがどの聴取者から決定されているかが発話ごとに異なり、ラベルの判定基準が複雑化している。

本発明は、複雑化した正解ラベルの利用を避け、従来より非言語・パラ言語情報を高精度に推定する認識装置、認識する際に利用するモデルを学習する学習装置、それらの方法、およびプログラムを提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、認識装置は、n番目の分類モデルを用いて認識対象の音声データの音響特徴量からn番目の聴取者が付与する非言語・パラ言語情報ラベルを推定する分類部と、N個の聴取者ごとの非言語・パラ言語情報ラベルの推定結果を統合し、認識対象の音声データに対する認識装置としての非言語・パラ言語情報推定結果を得る統合部とを含み、n番目の分類モデルは、学習用音声データと学習用音声データに対してn番目の聴取者が付与した非言語・パラ言語情報ラベルとを学習データとして学習されたものである。

上記の課題を解決するために、本発明の他の態様によれば、認識装置は、分類モデルを用いて、n番目の聴取者を示す聴取者コードと、認識対象の音声データの音響特徴量とから、n番目の聴取者が付与する非言語・パラ言語情報ラベルを推定する分類部と、N個の聴取者ごとの非言語・パラ言語情報ラベルの推定結果を統合し、認識対象の音声データに対する認識装置としての非言語・パラ言語情報推定結果を得る統合部とを含み、分類モデルは、学習用音声データとn番目の聴取者を示す聴取者コードと学習用音声データに対してn番目の聴取者が付与した非言語・パラ言語情報ラベルとを学習データとして学習されたものである。

上記の課題を解決するために、本発明の他の態様によれば、学習装置は、学習用の音声データの音響特徴系列と、聴取者nが学習用の音声データに対して付与した非言語・パラ言語情報ラベルと、聴取者nを表す情報である聴取者コードとから、聴取者コードを用いたパラ言語情報分類モデルを学習する非言語・パラ言語情報分類モデル学習部を含み、聴取者コードを用いたパラ言語情報分類モデルは、音声データに対応する音響特徴系列と聴取者コードとから、その音声データに対して聴取者コートに対応する聴取者が付与する非言語・パラ言語情報ラベルを推定するモデルである。

本発明によれば、従来より非言語・パラ言語情報を高精度に推定することができるという効果を奏する。

最多ラベルを説明するための図。第1実施形態に係る学習装置の機能ブロック図。第1、2実施形態に係る学習装置の処理フローの例を示す図。第1実施形態に係る認識装置の機能ブロック図。第1、2実施形態に係る認識装置の処理フローの例を示す図。第2実施形態に係る学習装置の機能ブロック図。聴取者コードを用いたパラ言語情報分類モデルの構造を説明するための図。第2実施形態に係る認識装置の機能ブロック図。本手法を適用するコンピュータの構成例を示す図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。

＜第1実施形態のポイント＞
本実施形態のポイントは、従来手法のように最多ラベルを直接的に推定するような、非言語・パラ言語情報分類モデルを学習するのではなく、聴取者ごとの非言語・パラ言語情報ラベルを推定するように分類モデルを学習したのち、その分類モデルの推定結果を統合して全ての聴取者の推定結果を考慮した非言語・パラ言語情報ラベルを推定する点にある。

上述の通り、同じ聴取者の中では非言語・パラ言語情報ラベルの判定基準は規則性がある。このため、聴取者ごとの非言語・パラ言語情報ラベルを推定することは、最多ラベルを推定することに比べて容易となると考えられる。このことから、聴取者ごとの非言語・パラ言語情報ラベルを推定するように非言語・パラ言語情報分類モデルを聴取者の数だけ学習させ、その聴取者ごとの分類モデルを用いて聴取者ごとの非言語・パラ言語情報ラベルを推定し、推定結果を統合させて認識装置としての非言語・パラ言語情報ラベルを推定する。このような構成により、聴取者ごとの非言語・パラ言語情報ラベルの推定精度が向上するため、直接的に最多ラベルを利用して学習した非言語・パラ言語情報分類モデルを用いて推定するよりも高精度に非言語・パラ言語情報ラベルを推定することが可能となる。

＜第1実施形態＞
非言語・パラ言語情報認識システムは、学習装置１００と認識装置２００とを含む。

学習装置１００は、学習用入力発話データと、学習用入力発話データに対応する聴取者ごとの非言語・パラ言語情報ラベル（正解ラベル）との組合せを入力とし、聴取者ごとの非言語・パラ言語情報分類モデルを学習し、出力する。以下では、聴取者の人数をNとし、N個の非言語・パラ言語情報分類モデルを学習するものとする。ただし、Nは2以上の整数の何れかとする。なお、学習に先立ち、学習用入力発話データと正解ラベルとの組合せを大量に用意しておくものとする。

認識装置２００は、認識処理に先立ち、聴取者ごとの非言語・パラ言語情報分類モデルを受け取る。認識装置２００は、認識用入力発話データ（認識対象の音声データ）を入力とし、聴取者ごとの非言語・パラ言語情報分類モデルを用いて、認識装置２００としての非言語・パラ言語情報ラベルを推定し、推定結果を出力する。

学習装置および認識装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。学習装置および認識装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。学習装置および認識装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。学習装置および認識装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。学習装置および認識装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも学習装置および認識装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、学習装置および認識装置の外部に備える構成としてもよい。

まず、学習装置１００について説明する。

＜学習装置１００＞
図２は第一実施形態に係る学習装置１００の機能ブロック図を、図３はその処理フローを示す。

学習装置１００は、音響特徴量抽出部１１０とN個の非言語・パラ言語情報分類モデル学習部１２０－ｎとを含む。ただし、n=1,2,…,Nとする。

まず、学習用入力発話データと、学習用入力発話データに対応する聴取者ごとの非言語・パラ言語情報ラベルとの組合せを大量に用意する。

次に、学習装置１００は、聴取者ごとの非言語・パラ言語情報ラベルを推定するように非言語・パラ言語情報分類モデルを聴取者の数だけ学習する。モデル学習方法は従来技術と同じであるが、従来技術は最多ラベルを正解ラベルとして学習させる一方で、本実施形態では聴取者ごとの非言語・パラ言語情報ラベルを正解ラベルとして学習させる。

以下、各部について説明する。

＜音響特徴量抽出部１１０＞
・入力：学習用入力発話データ
・出力：音響特徴系列

音響特徴量抽出部１１０は、学習用入力発話データから音響特徴系列を抽出する（Ｓ１１０）。音響特徴系列とは、発話データを短時間窓で分割し、短時間窓ごとに音響特徴を求め、その音響特徴のベクトルを時系列順に並べたものを指す。例えば、音響特徴は、対数パワースペクトル、対数メルフィルタバンク、MFCC、基本周波数、対数パワー、Harmonics-to-Noise Ratio(HNR)、音声確率、ゼロ交差数、およびこれらの一次微分または二次微分のいずれか一つ以上を含む。音声確率は、例えば事前学習した音声/非音声のGMMモデルの尤度比により求められる。HNRは例えばケプストラムに基づく手法により求められる（参考文献１）。より多くの音響特徴を利用することで、発話に含まれる様々な特徴を表現でき、感情認識精度が向上する傾向にある。
（参考文献１） Peter Murphy, Olatunji Akande, "Cepstrum-Based Harmonics-to-Noise Ratio Measurement in Voiced Speech", Lecture Notes in Artificial Intelligence, Nonlinear Speech Modeling and Applications, Vol. 3445, Springer-Verlag, 2005.

＜非言語・パラ言語情報分類モデル学習部１２０－ｎ＞
・入力：音響特徴系列、聴取者nの非言語・パラ言語情報ラベル（正解ラベル）
・出力：聴取者nの非言語・パラ言語情報分類モデル

非言語・パラ言語情報分類モデル学習部１２０－ｎは、学習用入力発話データの音響特徴系列と、学習用入力発話データに対して聴取者nが付与した非言語・パラ言語情報ラベル（正解ラベル）とを学習データとして、聴取者nの非言語・パラ言語情報分類モデルを学習する（Ｓ１２０）。聴取者nの非言語・パラ言語情報分類モデルは、発話データに対応する音響特徴系列から、その発話データに対して聴取者nが付与する非言語・パラ言語情報ラベルを推定するモデルである。聴取者nとは、n番目の聴取者を指す。本モデルの学習では、ある発話の音響特徴系列とその発話に対応する聴取者nの非言語・パラ言語情報ラベルを一組とし、その組を大量に集めたものを利用する。聴取者ごとの非言語・パラ言語情報ラベルを推定するように非言語・パラ言語情報分類モデルを聴取者の数だけ学習させる。モデル学習方法として、従来技術を用いてもよい。ただし、従来技術は最多ラベルを正解ラベルとして学習させる一方で、本発明では聴取者ごとの非言語・パラ言語情報ラベルを正解ラベルとして学習させる。

本実施形態では、従来技術と同様の深層学習に基づく分類モデルを利用してもよい。すなわち、時系列モデル層と全結合層で構成される分類モデルを用いてもよい。モデルパラメータの更新には、音響特徴系列と聴取者nの非言語・パラ言語情報ラベルの組を数発話ずつ用い、それらの損失関数に対して誤差逆伝搬法を適用する、確率的勾配降下法を用いる。

以上の構成により、N個の聴取者nの非言語・パラ言語情報分類モデルを学習し、取得する。なお、本実施形態では、認識装置２００がN個の非言語・パラ言語情報分類モデル学習部１２０－ｎを含むものとして説明しているが、1つの非言語・パラ言語情報分類モデル学習部を含み、同様の処理を行ってもよく、音響特徴系列および聴取者n(n=1,2,…,N)の非言語・パラ言語情報ラベルを入力とし、聴取者ごとに非言語・パラ言語情報分類モデルを学習すればよい。

次に、認識装置２００について説明する。

＜認識装置２００＞
図４は第一実施形態に係る認識装置２００の機能ブロック図を、図５はその処理フローを示す。

認識装置２００は、音響特徴量抽出部２１０とN個の非言語・パラ言語情報分類部２２０－ｎと推定結果統合部２３０とを含む。

認識装置２００は、認識用入力発話データを、学習装置１００で学習した全ての聴取者ごとの非言語・パラ言語情報分類モデルに入力し、聴取者ごとの非言語・パラ言語情報認識結果を得る。

次に、認識装置２００は、聴取者ごとの非言語・パラ言語情報認識結果を統合し、認識装置としての非言語・パラ言語情報認識結果を得る。統合方法は例えば非言語・パラ言語情報分類モデルが出力する、非言語・パラ言語情報ラベルの事後確率の平均値の中で最も高い値をとるクラスを非言語・パラ言語情報認識結果とみなす。

以下、各部について説明する。

＜音響特徴量抽出部２１０＞
・入力：認識用入力発話データ
・出力：音響特徴系列

音響特徴量抽出部２１０は、認識用入力発話データから音響特徴系列を抽出する（Ｓ１１０）。音響特徴量抽出部１１０と同様の抽出方法を用いればよい。

＜非言語・パラ言語情報分類部２２０－ｎ＞
・入力：音響特徴系列、聴取者nの非言語・パラ言語情報分類モデル
・出力：聴取者nの非言語・パラ言語情報ラベル推定結果

非言語・パラ言語情報分類部２２０－ｎは、聴取者nの非言語・パラ言語情報分類モデルを用いて、認識用入力発話データの音響特徴系列から聴取者nが付与する非言語・パラ言語情報ラベルを推定する（Ｓ２２０）。

例えば、聴取者nの非言語・パラ言語情報ラベル推定結果p(n)は、音響特徴系列を聴取者nの非言語・パラ言語情報分類モデルに順伝播させることで得た非言語・パラ言語情報ラベルtごとの事後確率p(n,t)を含む。p(n)=(p(n,1),p(n,2),…,p(n,T))であり、Tは非言語・パラ言語情報ラベルの種類の総数であり、t=1,2,…,Tである。

＜推定結果統合部２３０＞
・入力：N個の聴取者nの非言語・パラ言語情報ラベル推定結果
・出力：認識装置２００の非言語・パラ言語情報ラベル推定結果

推定結果統合部２３０は、N個の聴取者ごとの非言語・パラ言語情報ラベル推定結果を統合し、認識用入力発話データに対する認識装置２００の非言語・パラ言語情報ラベル推定結果を得る（Ｓ２３０）。例えば、認識装置２００の非言語・パラ言語情報ラベル推定結果は、
(1)事後確率p(n,t)を非言語・パラ言語情報ラベルtごとに平均化し、T個の平均事後確率

を求め、T個の平均事後確率p_ave(t)の中で最大となる平均事後確率に対応する非言語・パラ言語情報ラベルとして求められる、または、
(2)聴取者nごとに事後確率p(n,t)が最大であった非言語・パラ言語情報ラベル

を求め、N個のLabel_max(n)の中で最も多い非言語・パラ言語情報ラベルとして求められる。

＜効果＞
以上の構成により、判定基準を変えずに聴取者ごとに非言語・パラ言語情報ラベルを高精度で推定し、その推定結果を統合することで、従来より認識装置として非言語・パラ言語情報を高精度に推定することができる。

＜第2実施形態＞
第1実施形態と異なる部分を中心に説明する。

本実施形態では、聴取者ごとの非言語・パラ言語情報分類モデルの学習を個別に実施するのではなく、単一の非言語・パラ言語情報分類モデルで各聴取者の非言語・パラ言語情報ラベルを推定できるようにする。

音声認識や音声合成の分野において、話者に合わせた音声認識・音声合成を行うために、話者コードを深層学習に基づく分類モデルに入力する手法が提案されている（参考文献２参照）。
（参考文献２）柏木陽佑、齋藤大輔、峯松信明、広瀬啓吉、「話者コードに基づく話者正規化学習を利用したニューラルネット音響モデルの適応」、信学技報 114(365), pp. 105-110, 2014.

このアプローチと同様に、聴取者を表す情報である聴取者コードを用意し、聴取者コードを深層学習に基づく分類モデルに入力することで、聴取者1から聴取者Nまでの非言語・パラ言語情報ラベル推定結果を単一の非言語・パラ言語情報分類モデルから取得することが可能となる。

聴取者ごとに別々の分類モデルを用意するのではなく、単一の分類モデルを用意することは、分類モデルの一部を共有することに相当し、聴取者にかかわらず判定される非言語・パラ言語情報ラベル（例えば、図１の発話３）の認識精度が向上することが期待できる。

本実施形態の非言語・パラ言語情報認識システムは、学習装置３００と認識装置４００とを含む。

学習装置３００は、学習用入力発話データと、学習用入力発話データに対応する聴取者ごとの非言語・パラ言語情報ラベル（正解ラベル）との組合せを入力とし、１つの非言語・パラ言語情報分類モデルを学習し、出力する。なお、本実施形態では、学習装置３００は、聴取者ごとの非言語・パラ言語情報ラベルに対応する聴取者コードを用意し、学習用入力発話データと、学習用入力発話データに対応する聴取者ごとの非言語・パラ言語情報ラベル（正解ラベル）と聴取者コードとの組合せを非言語・パラ言語情報分類モデルの学習に用いる。

認識装置４００は、認識処理に先立ち、1つの非言語・パラ言語情報分類モデルを受け取る。認識装置４００は、認識用入力発話データを入力とし、非言語・パラ言語情報分類モデルを用いて、認識装置４００としての非言語・パラ言語情報ラベルを推定し、推定結果を出力する。

まず、学習装置３００について説明する。

＜学習装置３００＞
図６は第2実施形態に係る学習装置３００の機能ブロック図を、図３はその処理フローを示す。

学習装置３００は、音響特徴量抽出部１１０と非言語・パラ言語情報分類モデル学習部３２０とを含む。

＜非言語・パラ言語情報分類モデル学習部３２０＞
・入力：音響特徴系列、聴取者1の非言語・パラ言語情報ラベル、…、聴取者Nの非言語・パラ言語情報ラベル（正解ラベル）
・出力：聴取者コードを用いた非言語・パラ言語情報分類モデル

非言語・パラ言語情報分類モデル学習部３２０は、学習用入力発話データの音響特徴系列と、学習用入力発話データに対して聴取者1,2,…Nが付与した非言語・パラ言語情報ラベル（正解ラベル）と、聴取者コードとを学習データとして、聴取者コードを用いたパラ言語情報分類モデルを学習する（Ｓ３２０）。聴取者コードを用いたパラ言語情報分類モデルは、発話データに対応する音響特徴系列と聴取者コードとから、その発話データに対して聴取者コードに対応する聴取者が付与する非言語・パラ言語情報ラベルを推定するモデルである。

本モデルの学習では、ある発話の音響特徴系列とその発話に対応する聴取者1, …, 聴取者Nの非言語・パラ言語情報ラベルの組を大量に集めたものを利用する。以下の手順を用いて聴取者コードを用いたパラ言語情報分類モデルを学習する。

(1)非言語・パラ言語情報分類モデル学習部３２０は、大量に用意した学習用入力発話データに対応する大量の音響特徴系列の中から、ある学習用入力発話データに対応する音響特徴系列をランダムに選び、その音響特徴系列とその発話の聴取者nの非言語・パラ言語情報ラベルを選択する。ここでは、nは1からNまででランダムに選択する。

(2)非言語・パラ言語情報分類モデル学習部３２０は、聴取者nの聴取者コードを用意する。例えば、聴取者nの聴取者コードは、ベクトル長Nかつn番目のみが1となるベクトル(1-hotベクトル)とする。

(3)非言語・パラ言語情報分類モデル学習部３２０は、上述の(1)と(2)を繰り返し、音響特徴系列とランダムな聴取者の非言語・パラ言語情報ラベル、聴取者コードの組を数発話用意する。

(4)非言語・パラ言語情報分類モデル学習部３２０は、上述の(3)の音響特徴系列と聴取者コードと聴取者コードに対応する非言語・パラ言語情報ラベルとの組合せを用いて、聴取者コードに対応する非言語・パラ言語情報ラベルを教師ラベルとし、聴取者コードを用いた非言語・パラ言語情報分類モデルのモデルパラメータ更新を行う。パラメータ更新は、教師ラベルと分類モデル出力との交差エントロピーを損失関数とし、損失関数に対して誤差逆伝搬法を適用する、確率的勾配効果法を用いる。

(5)非言語・パラ言語情報分類モデル学習部３２０は、上述の(3)と(4)とを繰り返し、十分な回数(例えば10万回)のパラメータ更新を行った場合は学習を完了したものとし、聴取者コードを用いたパラ言語情報分類モデルを出力する。

また本実施形態では、聴取者コードを用いたパラ言語情報分類モデルは図７で示される構造を用いる。すなわち、従来技術のモデル構造とは全結合層を除いて同一である。本実施形態での全結合層は、聴取者コードを用いることができるようになっている。聴取者コードを用いる全結合層の出力yの計算方法は以下の通りである。
y=σ(Wx+b+Bc)
y:聴取者コードを用いる全結合層の出力。
x:聴取者コードを用いる全結合層の入力（前層の出力）。
c:聴取者ベクトル（聴取者コードを全結合層に入力したときの出力）。
σ(・):活性化関数。本実施形態ではシグモイドを用いるが、他の活性化関数でもよい。
W:聴取者コードを用いる全結合層の入力と出力の線形変換パラメータ（学習により獲得）。
b：聴取者コードを用いる全結合層と出力のバイアスパラメータ（学習により獲得）。
B:聴取者コードの線形変換パラメータ（学習により獲得）。

＜認識装置４００＞
図８は第一実施形態に係る認識装置２００の機能ブロック図を、図５はその処理フローを示す。

認識装置４００は、音響特徴量抽出部２１０と非言語・パラ言語情報分類部４２０と推定結果統合部２３０とを含む。

認識装置４００は、認識用入力発話データを、学習装置１００で学習した1つの非言語・パラ言語情報分類モデルに入力し、聴取者ごとの非言語・パラ言語情報認識結果を得る。

次に、認識装置４００は、聴取者ごとの非言語・パラ言語情報認識結果を統合し、認識装置４００としての非言語・パラ言語情報認識結果を得る。

以下、第1実施形態とは異なる非言語・パラ言語情報分類部４２０について説明する。

＜非言語・パラ言語情報分類部４２０＞
・入力：音響特徴系列、聴取者コードを用いた非言語・パラ言語情報分類モデル
・出力：聴取者n(n=1,2,…,N)の非言語・パラ言語情報ラベル推定結果

非言語・パラ言語情報分類部４２０は、聴取者nの聴取者コードを用意する。

非言語・パラ言語情報分類部４２０は、音響特徴系列と聴取者コードとから、聴取者コードを用いた非言語・パラ言語情報分類モデルを用いて、認識用入力発話データの音響特徴系列から聴取者n(n=1, …, N)が付与する非言語・パラ言語情報ラベルを推定する（Ｓ４２０）。聴取者nの非言語・パラ言語情報ラベル推定結果は、聴取者コードを用いた非言語・パラ言語情報分類モデルに音響特徴系列と聴取者nの聴取者コードを入力し、順伝播させることで得た非言語・パラ言語情報ラベルごとの事後確率を含む。このとき、聴取者nの聴取者コードは、非言語・パラ言語情報分類モデル学習部３２０で学習時に用いた聴取者コードと同様であり、例えば、ベクトル長Nかつn番目のみが1となるベクトル(1-hotベクトル)である。

＜効果＞
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、聴取者にかかわらず判定される非言語・パラ言語情報ラベルの認識精度が向上することが期待できる。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
上述の各種の処理は、図９に示すコンピュータの記憶部２０２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０などに動作させることで実施できる。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

n=1,2,…,Nとし、n番目の分類モデルを用いて認識対象の音声データの音響特徴量からn番目の聴取者が付与する非言語・パラ言語情報ラベルを推定する分類部と、
N個の聴取者ごとの非言語・パラ言語情報ラベルの推定結果を統合し、前記認識対象の音声データに対する認識装置としての非言語・パラ言語情報推定結果を得る統合部とを含み、
前記n番目の分類モデルは、学習用音声データと前記学習用音声データに対してn番目の聴取者が付与した非言語・パラ言語情報ラベルとを学習データとして学習されたものである、
認識装置。
n=1,2,…,Nとし、分類モデルを用いて、n番目の聴取者を示す聴取者コードと、認識対象の音声データの音響特徴量とから、前記n番目の聴取者が付与する非言語・パラ言語情報ラベルを推定する分類部と、
N個の聴取者ごとの非言語・パラ言語情報ラベルの推定結果を統合し、前記認識対象の音声データに対する認識装置としての非言語・パラ言語情報推定結果を得る統合部とを含み、
前記分類モデルは、学習用音声データとn番目の聴取者を示す聴取者コードと前記学習用音声データに対してn番目の聴取者が付与した非言語・パラ言語情報ラベルとを学習データとして学習されたものである、
認識装置。
学習用の音声データの音響特徴系列と、聴取者nが前記学習用の音声データに対して付与した非言語・パラ言語情報ラベルと、聴取者nを表す情報である聴取者コードとから、聴取者コードを用いたパラ言語情報分類モデルを学習する非言語・パラ言語情報分類モデル学習部を含み、
前記聴取者コードを用いたパラ言語情報分類モデルは、音声データに対応する音響特徴系列と聴取者コードとから、その音声データに対して聴取者コートに対応する聴取者が付与する非言語・パラ言語情報ラベルを推定するモデルである、
学習装置。
認識装置を用いた、認識対象の音声データの非言語・パラ言語情報を認識する認識方法であって、
n=1,2,…,Nとし、n番目の分類モデルを用いて認識対象の音声データの音響特徴量からn番目の聴取者が付与する非言語・パラ言語情報ラベルを推定する分類ステップと、
N個の聴取者ごとの非言語・パラ言語情報ラベルの推定結果を統合し、前記認識対象の音声データに対する認識装置としての非言語・パラ言語情報推定結果を得る統合ステップとを含み、
前記n番目の分類モデルは、学習用音声データと前記学習用音声データに対してn番目の聴取者が付与した非言語・パラ言語情報ラベルとを学習データとして学習されたものである、
認識方法。
認識装置を用いた、認識対象の音声データの非言語・パラ言語情報を認識する認識方法であって、
n=1,2,…,Nとし、分類モデルを用いて、n番目の聴取者を示す聴取者コードと、認識対象の音声データの音響特徴量とから、前記n番目の聴取者が付与する非言語・パラ言語情報ラベルを推定する分類ステップと、
N個の聴取者ごとの非言語・パラ言語情報ラベルの推定結果を統合し、前記認識対象の音声データに対する認識装置としての非言語・パラ言語情報推定結果を得る統合ステップとを含み、
前記分類モデルは、学習用音声データとn番目の聴取者を示す聴取者コードと前記学習用音声データに対してn番目の聴取者が付与した非言語・パラ言語情報ラベルとを学習データとして学習されたものである、
認識方法。
学習装置を用いた、非言語・パラ言語情報分類モデルの学習方法であって、
学習用の音声データの音響特徴系列と、聴取者nが前記学習用の音声データに対して付与した非言語・パラ言語情報ラベルと、聴取者nを表す情報である聴取者コードとから、聴取者コードを用いたパラ言語情報分類モデルを学習する非言語・パラ言語情報分類モデル学習ステップを含み、
前記聴取者コードを用いたパラ言語情報分類モデルは、音声データに対応する音響特徴系列と聴取者コードとから、その音声データに対して聴取者コートに対応する聴取者が付与する非言語・パラ言語情報ラベルを推定するモデルである、
学習方法。
請求項１もしくは請求項２の認識装置、または、請求項３の学習装置としてコンピュータを機能させるためのプログラム。