JP7508333B2 - 計算機システム及び学習方法 - Google Patents

計算機システム及び学習方法 Download PDF

Info

Publication number
JP7508333B2
JP7508333B2 JP2020173802A JP2020173802A JP7508333B2 JP 7508333 B2 JP7508333 B2 JP 7508333B2 JP 2020173802 A JP2020173802 A JP 2020173802A JP 2020173802 A JP2020173802 A JP 2020173802A JP 7508333 B2 JP7508333 B2 JP 7508333B2
Authority
JP
Japan
Prior art keywords
segment
emotion
speech
voice
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020173802A
Other languages
English (en)
Other versions
JP2022065309A (ja
Inventor
拓也 藤岡
健 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020173802A priority Critical patent/JP7508333B2/ja
Publication of JP2022065309A publication Critical patent/JP2022065309A/ja
Application granted granted Critical
Publication of JP7508333B2 publication Critical patent/JP7508333B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声から人の感情を推定する感情認識技術に関する。
マイク等の集音装置を用いて取得された音声から発話者の感情を推定する技術のことを音声感情認識と呼ぶ。音声感情認識を実現するための手段として、ニューラルネットワークを用いた手法が近年多く提案されている(例えば、特許文献1を参照)。
特許文献1には、「第1発話を聴取した聴取者が複数の感情クラスC,…,Cから第1発話の発話者の感情の正解値として選択した正解感情クラスを入力とし、正解感情クラスとして感情クラスCが選択された回数nを得、回数n,…,nの総和に対する回数nの割合または当該割合の平滑化値を、第1発話に対応する正解感情ソフトラベルt (s)として得る」ラベル生成装置が記載されている。
国際公開第2019/102884号
マイクが集音した音声は音声波形として入力される。発話から人の感情を推定するシステムでは、音声波形を発話単位で区切る処理が必要となる。発話単位の音声波形の区切りが誤っていた場合、感情の推定結果も誤った結果となる。そこで、マイクが集音した音声波形を発話単位より小さい時間長の音声波形(音声セグメント)に区切り、音声セグメントから人の感情を推定するシステムを考える。このシステムでは、発話の区切りを特定する処理が必要ないため、前述のような問題は発生しない。
前述のシステムを実現するための感情認識モデルの学習には、音声セグメントと感情の正解値とを対応づけた学習データが必要となる。この場合、音声セグメントに手動で感情の正解値を設定する必要がある。しかし、前述の作業には多大なコストを要する。また、短い単位で音声波形が区切られるため、人の感情が表れない又は人の感情が曖昧な音声セグメントが多く発生する。そのため、本来、人の感情が表れない音声セグメントに感情の正解値を対応付けた学習データは感情認識モデルの推論精度の向上を阻害する可能性がある。
本発明は、学習に要するコストを抑えつつ、音声セグメントから人の感情を高い精度で推定する感情認識モデルを生成するための学習方法を提供する。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、所定の時間長の音声である音声セグメントを入力として受け付け、発話者の感情の推定結果として感情確率を出力する音声セグメント感情認識モデルを学習する計算機システムであって、演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続される接続インタフェースを有する計算機を少なくとも一つ備え、前記記憶装置は、前記音声セグメント及び正解音声セグメント感情確率を含むセグメントサンプルを複数含むセグメント学習データと、前記音声セグメント感情認識モデルを定義する第1モデルパラメータとを格納し、前記演算装置は、前記音声セグメント感情認識モデルに前記音声セグメントを入力して得られた推定音声セグメント感情確率と、前記音声セグメント感情認識モデルに入力した前記音声セグメントに対応付けられる前記正解音声セグメント感情確率と、前記音声セグメント感情認識モデルに入力した前記音声セグメントを含む前記セグメントサンプルの学習への寄与の度合いを示す第1寄与度とに基づいて第1損失関数を算出し、前記第1損失関数を用いた学習アルゴリズムに基づいて、前記第1モデルパラメータと、前記音声セグメント感情認識モデルに入力した前記音声セグメントに対応付けられる前記正解音声セグメント感情確率とを、学習対象パラメータとして更新する。
本発明によれば、学習に要するコストを抑えつつ、音声セグメントから人の感情を高い精度で推定する感情認識モデルを生成できる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
実施例1の音声セグメント感情認識モデルの学習及び音声セグメント感情認識モデルを用いた推定を行うシステムの構成例を示す図である。 実施例1の音声セグメント感情認識モデルの学習及び音声セグメント感情認識モデルを用いた推定を行うシステムの構成例を示す図である。 実施例1の端末が実行する学習処理及び推定処理のイメージを示す図である。 実施例1の学習器の動作イメージを示す図である。 実施例1の学習器が実行する学習処理を説明するフローチャートである。 実施例2の端末が実行する学習処理及び推定処理のイメージを示す図である。 実施例2の学習器の動作イメージを示す図である。 実施例2の学習器が実行する学習処理を説明するフローチャートである。 実施例3の端末が実行する学習処理及び推定処理のイメージを示す図である。 実施例3の学習器の動作イメージを示す図である。 実施例3の学習器が実行する学習処理を説明するフローチャートである。
以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施例の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。
本明細書等における「第1」、「第2」、「第3」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。
実施例1では、発話単位の音声と感情の正解値とを対応づけたサンプルから構成される学習データを用いて、所定の時間長単位の音声から発話者の感情を推定する音声セグメント感情認識モデルの学習について説明する。ここで、所定の時間長は一般的な発話の時間より短い時間長であり、例えば、1秒である。当該時間長は固定されているものとする。
本明細書では、所定の時間長をセグメントと記載し、所定の時間長単位の音声を音声セグメントと記載する。
図1及び図2は、実施例1の音声セグメント感情認識モデルの学習及び音声セグメント感情認識モデルを用いた推定を行うシステムの構成例を示す図である。
図1のシステムは一つの端末100から構成される。
端末100は、例えば、パーソナルコンピュータ、スマートフォン、及びタブレット端末等である。端末100は、音声セグメント感情認識モデルを学習し、また、音声セグメント感情認識モデルを用いて、音声セグメントから人の感情を推定する。
端末100は、CPU101、メモリ102、音声入力I/F103、音声出力I/F104、画像出力I/F105、及びコマンド入力I/F106を有する。各構成要素はバス108を介して互いに接続される。
CPU101は、メモリ102に格納されるプログラムを実行する。CPU101がプログラムにしたがって処理を実行することによって、特定の機能を実現するモジュールとして動作する。以下の説明では、モジュールを主語に処理を説明する場合、CPU101が当該モジュールを実現するプログラムを実行していることを示す。
メモリ102は、CPU101が実行するプログラム及びプログラムが使用する情報を格納する。また、メモリ102は、プログラムが一時的に使用するワークエリアとしても用いられる。
実施例1のメモリ102は、学習器110及び感情識別器120を実現するプログラムを格納する。また、メモリ102は、発話音声と正解発話感情確率とを対応づけたサンプル群から構成される学習データ(図示省略)を格納する。学習データは、あらかじめメモリ102に格納されてもよいし、音声入力I/F103及びコマンド入力I/F106を用いて入力されてもよい。
学習器110は音声セグメント感情認識モデルを学習する。感情識別器120は、学習器110によって学習された音声セグメント感情認識モデルを用いて、音声セグメントから人の感情を推定する。
音声入力I/F103は、マイク等、音声を入力するインタフェースである。音声出力I/F104は、スピーカ等、音声を出力するインタフェースである。画像出力I/F105は、ディスプレイ等、画像を出力するインタフェースである。コマンド入力I/F106は、キーボード、マウス、及びタッチパネル等、コマンドを入力するインタフェースである。
図2のシステムは、サーバ200及び複数の端末100から構成される。サーバ200と各端末100とは、LAN(Local Area Network)及びWAN(Wide Area Network)等のネットワーク210を介して互いに接続される。なお、端末100の数は一つでもよい。
図2のシステムでは、端末100がサーバ200に音声を送信し、サーバ200が音声セグメントの感情を推定し、その推定結果を端末100に送信する。
サーバ200は、音声セグメント感情認識モデルを学習し、また、音声セグメント感情認識モデルを用いて、音声セグメントから人の感情を推定する。サーバ200は、CPU201、メモリ202、記憶装置203、及び通信I/F204を有する。各構成要素はバス205を介して互いに接続される。
CPU201及びメモリ202は、CPU101及びメモリ102と同一のハードウェアである。記憶装置203は、HDD(Hard Disk Drive)及びSSD(Solid State Drive)等、永続的に情報を格納する。通信I/F204は、外部装置と通信するインタフェースである。
メモリ202は、学習器110及び感情識別器120を実現するプログラムを格納する。メモリ202及び記憶装置203のいずれかには学習データ(図示省略)が格納される。学習データは、あらかじめメモリ202に格納されてもよいし、通信I/F204を介して端末100等から入力されてもよい。
端末100は、サーバ200に音声を送信し、サーバ200から受信した、人の感情の推定結果を出力する。端末100は、CPU101、メモリ102、音声入力I/F103、音声出力I/F104、画像出力I/F105、コマンド入力I/F106、及び通信I/F107を有する。各構成要素はバス108を介して互いに接続される。通信I/F107は、通信I/F204と同一のハードウェアである。
実施例1では図1のシステムを一例として説明する。
図3は、実施例1の端末100が実行する学習処理及び推定処理のイメージを示す図である。点線で囲まれた部分が各処理の入出力を示す。
学習処理では、学習器110は、学習データに含まれる、一つのサンプルに含まれる発話音声をセグメント単位に分割することによって、音声セグメントを生成する。学習器110は、音声セグメントに正解音声セグメント感情確率t及び音声セグメント寄与度wを対応付けたセグメントサンプルを複数含むセグメント学習データを生成する。本実施例では、セグメントサンプルは独立したデータとして扱われる。
正解音声セグメント感情確率tは、セグメントサンプルに含まれる音声セグメントに対する感情の推定結果の正解値を表す。本実施例では、正解音声セグメント感情確率tは確率分布として与えられる。また、音声セグメント寄与度wは、セグメントサンプルの学習への寄与の度合いを表す。音声セグメント寄与度wが小さいセグメントサンプルは学習において重要視されない。本実施例では、音声セグメント寄与度wを最適化することによって、学習に悪影響を与えるセグメントサンプルを間引くように制御している。すなわち、人の感情が表れない音声セグメントを含むセグメントサンプルは音声セグメント寄与度wが小さくなり、人の感情をよく表している音声セグメントを含むセグメントサンプルは音声セグメント寄与度wが大きくなるように最適化される。
学習器110は、音声セグメント感情認識モデルを定義するセグメントモデルパラメータθの初期値を設定する。音声セグメント感情認識モデルは、例えば、ニューラルネットワーク等の機械学習モデルである。
学習器110は、セグメント学習データを用いて音声セグメント感情認識モデルを学習する。具体的には、学習器110は、音声セグメント300と、音声セグメントに対応付けられる正解音声セグメント感情確率t及び音声セグメント寄与度wと、を入力として受け付け、後述する演算を実行することによって、セグメントモデルパラメータθ、正解音声セグメント感情確率t、及び音声セグメント寄与度wを更新する。学習器110は、前述の処理を複数回実行する。学習器110は、学習処理の結果として、感情識別器120にセグメントモデルパラメータθを出力する。
学習器110が実行する学習処理の詳細については図4及び図5を用いて説明する。
推論処理では、感情識別器120は、音声セグメント310の入力を受け付けた場合、セグメントモデルパラメータθにて定義される音声セグメント感情認識モデルを用いて、出力音声セグメント感情確率yを出力する。
図4は、実施例1の学習器110の動作イメージを示す図である。図5は、実施例1の学習器110が実行する学習処理を説明するフローチャートである。
図4に示すように、学習器110は、音声セグメント感情識別部400、損失関数算出部401、及び更新部402を含む。
学習器110は、イベントを検知した場合、以下で説明する学習処理を開始する。イベントは、実行指示の受信及び学習データの入力等である。
学習器110は、発話音声と感情の正解値とを対応づけたサンプルを複数含む学習データ(図示省略)を用いて、セグメント学習データを生成する(ステップS101)。具体的には、以下のような処理が実行される。
(S101-1)学習器110は、学習データから一つのサンプルを選択する。
(S101-2)学習器110は、選択したサンプルに含まれる発話音声を所定の時間長で分割して、複数の音声セグメント300を生成する。
(S101-3)学習器110は、各音声セグメント300に正解音声セグメント感情確率t及び音声セグメント寄与度wを設定する。例えば、学習器110は、選択したサンプルに含まれる正解発話感情確率を、正解音声セグメント感情確率tとして設定する。また、学習器110は、あらかじめ決められた値を音声セグメント寄与度wとして設定する。
(S101-4)学習器110は、音声セグメント300に、正解音声セグメント感情確率t及び音声セグメント寄与度wを対応付けたセグメントサンプルを生成する。一つのサンプルからは複数のセグメントサンプルが生成される。生成されたセグメントサンプルはセグメント学習データとしてメモリ102に格納される。
(S101-5)学習データの全てのサンプルについて処理が完了していない場合、学習器110は、S101-1に戻り、同様の処理を実行する。学習データの全てのサンプルについて処理が完了した場合、学習器110はステップS101の処理を終了する。
なお、セグメント学習データを生成するために使用するサンプルはあらかじめ指定されてもよい。なお、セグメント学習データは、学習処理が開始される前に生成されてもよい。この場合、ステップS101の処理は省略できる。
なお、学習器110は、S101-3の時点では音声セグメント寄与度wを算出せず、ステップS101-5において算出してもよい。この場合、学習器110は、正解音声セグメント感情確率tにより定まる感情ラベルに属する音声セグメントの数の逆数を、各セグメントサンプルの音声セグメント寄与度wとして算出する。
次に、学習器110は、セグメントモデルパラメータθを初期化する(ステップS102)。
次に、学習器110は、セグメント学習データから一つのセグメントサンプルを読み出し、当該セグメントサンプルに含まれる音声セグメントから推定音声セグメント感情確率yを算出する(ステップS103)。
具体的には、音声セグメント感情識別部400は、セグメントモデルパラメータθによって定義される音声セグメント感情認識モデルに、音声セグメント300を入力することによって推定音声セグメント感情確率yを算出する。音声セグメント感情識別部400は、損失関数算出部401に推定音声セグメント感情確率yを出力する。推定音声セグメント感情確率yは確率分布として与えられる。
なお、学習器110は、ランダムにセグメントサンプルを読み出してもよいし、あらかじめ設定されたポリシに基づいてセグメントサンプルを読み出してもよい。
次に、学習器110は損失関数Lを算出する(ステップS104)。
具体的には、損失関数算出部401は、正解音声セグメント感情確率t、音声セグメント寄与度w、及び推定音声セグメント感情確率yを用いて損失関数Lを算出する。実施例1では、下式(1)に示すような損失関数Lが算出される。
Figure 0007508333000001
ここで、関数fは、クロスエントロピー誤差等、確率分布tと確率分布yとの誤差を表す関数である。式(1)に示すように音声セグメント寄与度wが小さい場合、損失関数Lも小さくなる。したがって、音声セグメント寄与度wが小さいセグメントサンプルの学習への寄与は小さい。
次に、学習器110は、損失関数Lを用いて、学習対象パラメータを更新する(ステップS105)。
具体的には、更新部402は、バックプロパゲーション等の公知の学習アルゴリズムに基づいて、セグメントモデルパラメータθ、正解音声セグメント感情確率t、及び音声セグメント寄与度wを最適化する。更新部402は、最適化されたセグメントモデルパラメータθを音声セグメント感情識別部400に反映し、また、更新された正解音声セグメント感情確率t及び音声セグメント寄与度wをセグメントサンプルに反映する。
なお、全ての学習対象パラメータは同時に最適化してもよいし、各学習対象パラメータを一つずつ順番に最適化してもよい。また、学習対象パラメータの組合せを設定し、学習対象パラメータの組合せを任意の順番で最適化してもよい。例えば、セグメントモデルパラメータθを更新する処理を所定回数実行し、その後、正解音声セグメント感情確率t及び音声セグメント寄与度wを更新する処理を所定回数実行する最適化が考えられる。
次に、学習器110は学習処理を終了するか否かを判定する(ステップS106)。
例えば、学習回数が閾値より大きい場合、学習器110は学習処理を終了すると判定する。また、学習器110は、評価用のセグメントサンプルを用いた音声セグメント感情識別部400の識別精度が閾値より大きい場合、学習処理を終了すると判定する。
学習処理を終了しないと判定された場合、学習器110はステップS103に戻り、同様の処理を実行する。
学習処理を終了すると判定された場合、学習器110は、感情識別器120にセグメントモデルパラメータθを出力し(ステップS107)、その後、学習処理を終了する。
実施例1の学習方法によれば、あらかじめ音声セグメントに感情確率の正解値(正解音声セグメント感情確率)を設定する必要がない。そのため、学習に要するコストを抑えることができる。感情確率の正解値も学習対象パラメータとして最適化することによって、音声セグメント感情認識モデルの推論精度を落とすことなく、セグメントモデルパラメータθを最適化できる。
また、実施例1の学習方法によれば、音声セグメント寄与度wを用いて、セグメントサンプルの学習への寄与の大きさを調整できる。そのため、音声セグメント感情認識モデルの推論精度を落とすことなく、効率的にセグメントモデルパラメータθを最適化できる。さらに、音声セグメント寄与度wも学習対象パラメータとして最適化することによって、より音声セグメント感情認識モデルの推論精度を高めることができる。
実施例2の学習器110は、セグメントサンプルの生成元のサンプルも用いて音声セグメント感情認識モデルを学習する。音声セグメントから推論される感情は、音声セグメントの元となった発話音声から推論される感情と相関が高いと考えられる。したがって、発話音声に対する推論結果等を活用して音声セグメント感情認識モデルを学習することによって、音声セグメント感情認識モデルの推論精度の向上が期待できる。そこで、実施例2では、発話感情認識モデル及び音声セグメント感情認識モデルを一緒に学習する。以下、実施例1との差異を中心に実施例2について説明する。
実施例2のシステムの構成は実施例1と同一であるため説明を省略する。実施例2では図1のシステムを一例として説明する。
図6は、実施例2の端末100が実行する学習処理及び推定処理のイメージを示す図である。点線で囲まれた部分が各処理の入出力を示す。
学習処理では、学習器110は、学習データに含まれる、一つのサンプルに寄与度wを設定する。寄与度wはサンプルの学習への寄与の度合いを表す。また、学習器110は、学習データに含まれる、一つのサンプルに含まれる発話音声をセグメント単位に分割することによって、音声セグメントを生成する。学習器110は、音声セグメントに正解音声セグメント感情確率t及び音声セグメント寄与度wを対応付けたセグメントサンプルを複数含むセグメント学習データを生成する。本実施例では、セグメントサンプルは、セグメントサンプルの生成元となるサンプルと対応付けて管理される。
学習器110は、発話音声から発話者の感情を推定する発話感情認識モデルを定義するモデルパラメータθの初期値を設定する。また、学習器110は、音声セグメント感情認識モデルを定義するセグメントモデルパラメータθの初期値を設定する。発話感情認識モデル及び音声セグメント感情認識モデルは、例えば、ニューラルネットワーク等の機械学習モデルである。
学習器110は、学習データ及びセグメント学習データを用いて各モデルを学習する。具体的には、学習器110は、発話音声600と、発話音声600に対応付けられる正解発話感情確率t及び寄与度wと、発話音声600から生成された音声セグメント300と、音声セグメント300に対応付けられる正解音声セグメント感情確率t及び音声セグメント寄与度wと、を入力として受け付け、後述する演算を実行することによって、モデルパラメータθ、正解発話感情確率t、寄与度w、セグメントモデルパラメータθ、正解音声セグメント感情確率t、及び音声セグメント寄与度wを更新する。学習器110は、前述の処理を複数回実行する。学習器110は、学習処理の結果として、感情識別器120にセグメントモデルパラメータθを出力する。
学習器110が実行する学習処理の詳細については図7及び図8を用いて説明する。
推論処理では、感情識別器120は、音声セグメント310の入力を受け付けた場合、セグメントモデルパラメータθにて定義される音声セグメント感情認識モデルを用いて、出力音声セグメント感情確率yを出力する。
図7は、実施例2の学習器110の動作イメージを示す図である。図8は、実施例2の学習器110が実行する学習処理を説明するフローチャートである。
図7に示すように、学習器110は、音声セグメント感情識別部400、第1損失関数算出部700、発話感情識別部701、第2損失関数算出部702、第3損失関数算出部703、及び更新部704を含む。
学習器110は、サンプルの正解発話感情確率t及び寄与度wを初期化する(ステップS201)。
例えば、学習器110は、サンプルに含まれる正解発話感情確率を正解発話感情確率tとして設定する。また、学習器110は、あらかじめ決められた値を、又は、正解発話感情確率により定まる感情ラベルに属する発話音声の数の逆数を、寄与度wとして設定する。
次に、学習器110は、モデルパラメータθを初期化する(ステップS202)。
次に、学習器110は、学習データを用いてセグメント学習データを生成する(ステップS203)。ステップS203の処理はステップS101の処理と同一である。
次に、学習器110は、セグメントモデルパラメータθを初期化する(ステップS204)。ステップS204の処理はステップS102の処理と同一である。
次に、学習器110は、セグメント学習データから一つのセグメントサンプルを読み出し、当該セグメントサンプルに含まれる音声セグメント300から推定音声セグメント感情確率yを算出する(ステップS205)。
具体的には、音声セグメント感情識別部400は、セグメントモデルパラメータθによって定義される音声セグメント感情認識モデルに、音声セグメント300を入力することによって推定音声セグメント感情確率yを算出する。音声セグメント感情識別部400は、第1損失関数算出部700に推定音声セグメント感情確率yを出力する。推定音声セグメント感情確率yは確率分布として与えられる。
なお、学習器110は、ランダムにセグメントサンプルを読み出してもよいし、あらかじめ設定されたポリシに基づいてセグメントサンプルを読み出してもよい。
次に、学習器110は、学習データから、ステップS205において選択されたセグメントサンプルの生成元の発話音声600を含むサンプルを読み出し、当該サンプルに含まれる発話音声600から推定発話感情確率yを算出する(ステップS206)。
具体的には、発話感情識別部701は、モデルパラメータθによって定義される発話感情認識モデルに、発話音声600を入力することによって推定発話感情確率yを算出する。発話感情識別部701は、第2損失関数算出部702に推定発話感情確率yを出力する。推定発話感情確率yは確率分布として与えられる。
次に、学習器110は第1損失関数Lを算出する(ステップS207)。
具体的には、第1損失関数算出部700は、正解音声セグメント感情確率t、音声セグメント寄与度w、及び推定音声セグメント感情確率yを用いて第1損失関数Lを算出する。第1損失関数算出部700は第1損失関数Lを第3損失関数算出部703に出力する。実施例2では、下式(2)に示すような第1損失関数Lが算出される。
Figure 0007508333000002
ここで、関数fは、クロスエントロピー誤差等、確率分布tと確率分布yとの誤差を表す関数である。式(2)に示すように音声セグメント寄与度wが小さい場合、第1損失関数Lも小さくなる。したがって、音声セグメント寄与度wが小さいセグメントサンプルの学習への寄与は小さい。
次に、学習器110は第2損失関数Lを算出する(ステップS208)。
具体的には、第2損失関数算出部702は、正解発話感情確率t、寄与度w、音声セグメント寄与度w、及び推定発話感情確率yを用いて第2損失関数Lを算出する。第2損失関数算出部702は第2損失関数Lを第3損失関数算出部703に出力する。実施例2では、下式(3)に示すような第2損失関数Lが算出される。
Figure 0007508333000003
ここで、関数fは、クロスエントロピー誤差等、確率分布tと確率分布yとの誤差を表す関数である。関数hは、乗算等、寄与度w及び音声セグメント寄与度wの相乗効果を表すような関数である。寄与度w及び音声セグメント寄与度wの少なくともいずれかが小さい場合、第2損失関数Lも小さくなる。したがって、サンプルの学習への寄与は小さい。
次に、学習器110は、第1損失関数L及び第2損失関数Lを用いて、第3損失関数Lを算出する(ステップS209)。
具体的には、第3損失関数算出部703は、第1損失関数L及び第2損失関数Lを用いて、第3損失関数Lを算出する。実施例2では、下式(4)に示すような第3損失関数Lが算出される。
Figure 0007508333000004
次に、学習器110は、第3損失関数Lを用いて、学習対象パラメータを更新する(ステップS210)。
具体的には、更新部704は、バックプロパゲーション等の公知の学習アルゴリズムに基づいて、正解発話感情確率t、寄与度w、モデルパラメータθ、正解音声セグメント感情確率t、音声セグメント寄与度w、及びセグメントモデルパラメータθを最適化する。更新部704は、最適化されたモデルパラメータθを発話感情識別部701に反映し、また、最適化された正解発話感情確率t及び寄与度wをサンプルに反映する。また、更新部704は、最適化されたセグメントモデルパラメータθを音声セグメント感情識別部400に反映し、また、最適化された正解音声セグメント感情確率t及び音声セグメント寄与度wをセグメントサンプルに反映する。
なお、全ての学習対象パラメータは同時に最適化してもよいし、各学習対象パラメータを一つずつ順番に最適化してもよい。また、学習対象パラメータの組合せを設定し、学習対象パラメータの組合せを任意の順番で最適化してもよい。例えば、更新部704は、正解発話感情確率t、寄与度w、及びモデルパラメータθを最適化した後、正解音声セグメント感情確率t、音声セグメント寄与度w、及びセグメントモデルパラメータθを最適化する。
次に、学習器110は学習処理を終了するか否かを判定する(ステップS211)。ステップS211の処理はステップS106の処理と同一である。
学習処理を終了しないと判定された場合、学習器110は、ステップS205に戻り、同様の処理を実行する。
学習処理を終了すると判定された場合、学習器110は、感情識別器120にセグメントモデルパラメータθを出力し(ステップS212)、その後、学習処理を終了する。
実施例2で説明した学習処理では、発話音声の推論結果等、音声セグメント感情認識モデルの学習に使用するデータの確度を向上させるために、音声セグメント感情認識モデルとともに発話感情認識モデルが学習される。しかし、音声セグメント感情認識モデルの学習に使用するデータの確度が十分高い場合、発話感情認識モデルの学習は行わなくてもよい。この場合、発話感情認識モデル及びサンプルの値を用いて、音声セグメント感情認識モデルが学習される。
実施例2の学習方法によれば、実施例1の学習方法と同様に、あらかじめ音声セグメントに正解音声セグメント感情確率を設定する必要がない。そのため、学習に要するコストを抑えることができる。感情確率の正解値も学習対象パラメータとして最適化することによって、音声セグメント感情認識モデルの推論精度を落とすことなく、セグメントモデルパラメータθを最適化できる。
また、実施例2の学習方法によれば、発話音声に対する推論結果等を活用して音声セグメント感情認識モデルを学習することによって、音声セグメント感情認識モデルの推論精度をより向上できる。
また、実施例2の学習方法によれば、音声セグメント寄与度w及び寄与度wを用いて、セグメントサンプル及びサンプルの学習への寄与の大きさを調整できる。そのため、音声セグメント感情認識モデルの推論精度を落とすことなく、効率的にセグメントモデルパラメータθを最適化できる。さらに、音声セグメント寄与度wも学習対象パラメータとして最適化することによって、より音声セグメント感情認識モデルの推論精度を高めることができる。
実施例3の学習器110は、発話感情認識モデルから得られる中間出力に基づいて音声セグメント寄与度wを算出する。以下、実施例1及び実施例2との差異を中心に実施例3について説明する。
実施例3のシステムの構成は実施例1と同一であるため説明を省略する。実施例3では図1のシステムを一例として説明する。
図9は、実施例3の端末100が実行する学習処理及び推定処理のイメージを示す図である。点線で囲まれた部分が各処理の入出力を示す。
学習処理では、学習器110は、学習データに含まれる、一つのサンプルに寄与度wを設定する。また、学習器110は、学習データに含まれる、一つのサンプルをセグメント単位に分割することによって、音声セグメントを生成する。学習器110は、音声セグメントに正解音声セグメント感情確率tを対応付けたセグメントサンプルを複数含むセグメント学習データを生成する。本実施例では、セグメントサンプルは、セグメントサンプルの生成元となるサンプルと対応付けて管理される。
実施例3では、音声セグメント感情認識モデルの中間出力に基づいて音声セグメント寄与度wが算出されるため、セグメントサンプルには音声セグメント寄与度wが対応付けられていない。
学習器110は、発話感情認識モデルを定義するモデルパラメータθの初期値を設定する。また、音声セグメント感情認識モデルを定義するセグメントモデルパラメータθの初期値を設定する。発話感情認識モデル及び音声セグメント感情認識モデルは、例えば、ニューラルネットワーク等の機械学習モデルである。なお、発話感情認識モデルは、注意機構を持つ機械学習モデルであるものとする。
学習器110は、学習データ及びセグメント学習データを用いて学習処理を実行する。具体的には、学習器110は、発話音声600と、発話音声600に対応付けられる正解発話感情確率t及び寄与度wと、発話音声600から生成された音声セグメント300と、音声セグメント300に対応付けられる正解音声セグメント感情確率tと、を入力として受け付け、後述する演算を実行することによって、モデルパラメータθ、正解発話感情確率t、寄与度w、セグメントモデルパラメータθ、及び正解音声セグメント感情確率tを更新する。学習器110は、前述の処理を複数回実行する。学習器110は、学習処理の結果として、感情識別器120にセグメントモデルパラメータθを出力する。
学習器110が実行する学習処理の詳細については図10及び図11を用いて説明する。
推論処理では、感情識別器120は、音声セグメント310の入力を受け付けた場合、セグメントモデルパラメータθにて定義される音声セグメント感情認識モデルを用いて、出力音声セグメント感情確率yを出力する。
図10は、実施例3の学習器110の動作イメージを示す図である。図11は、実施例3の学習器110が実行する学習処理を説明するフローチャートである。
図10に示すように、学習器110は、音声セグメント感情識別部400、第1損失関数算出部700、発話感情識別部701、第2損失関数算出部702、第3損失関数算出部703、及び更新部704を含む。
学習器110は、サンプルの正解発話感情確率t及び寄与度wを初期化する(ステップS301)。ステップS301の処理はステップS201の処理と同一である。
次に、学習器110は、モデルパラメータθを初期化する(ステップS302)。ステップS302の処理はステップS202の処理と同一である。
次に、学習器110は、学習データを用いてセグメント学習データを生成する(ステップS303)。ステップS303の処理はステップS101の処理とほぼ同一であるが、音声セグメント寄与度wが設定されない点が異なる。
次に、学習器110は、セグメントモデルパラメータθを初期化する(ステップS304)。ステップS304の処理はステップS102の処理と同一である。
次に、学習器110は、セグメント学習データから一つのセグメントサンプルを読み出し、当該セグメントサンプルに含まれる音声セグメント300から推定音声セグメント感情確率yを算出する(ステップS305)。ステップS305の処理はステップS205の処理と同一である。
次に、学習器110は、学習データから、ステップS305において選択されたセグメントサンプルの生成元の発話音声600を含むサンプルを読み出し、当該サンプルに含まれる発話音声600から推定発話感情確率yを算出し(ステップS306)、また、発話感情認識モデルの中間出力からセグメントサンプルの音声セグメント寄与度wを算出する(ステップS307)。
推定発話感情確率yの算出方法はステップS205で説明した算出方法と同一の方法である。中間出力は、例えば、注意機構のattention重みである。学習器110は、音声セグメントと同じ単位でのattention重みの平均値を、セグメントサンプルの音声セグメント寄与度wとして算出する。
次に、学習器110は第1損失関数Lを算出する(ステップS308)。ステップS308の処理はステップS207の処理と同一である。
次に、学習器110は第2損失関数Lを算出する(ステップS309)。ステップS309の処理はステップS208の処理と同一である。
次に、学習器110は、第1損失関数L及び第2損失関数Lを用いて、第3損失関数Lを算出する(ステップS310)。ステップS310の処理はステップS209の処理と同一である。
次に、学習器110は、第3損失関数Lを用いて、学習対象パラメータを更新する(ステップS311)。実施例3では、音声セグメント寄与度wは学習対象パラメータとして扱われない。
具体的には、更新部704は、バックプロパゲーション等の公知の学習アルゴリズムに基づいて、正解発話感情確率t、寄与度w、モデルパラメータθ、正解音声セグメント感情確率t、及びセグメントモデルパラメータθを最適化する。更新部704は、最適化されたモデルパラメータθを発話感情識別部701に反映し、また、最適化された正解発話感情確率t及び寄与度wをサンプルに反映する。また、更新部704は、最適化されたセグメントモデルパラメータθを音声セグメント感情識別部400に反映し、また、最適化された正解音声セグメント感情確率tをセグメントサンプルに反映する。
なお、全ての学習対象パラメータは同時に最適化してもよいし、各学習対象パラメータを一つずつ順番に最適化してもよい。また、学習対象パラメータの組合せを設定し、学習対象パラメータの組合せを任意の順番で最適化してもよい。例えば、更新部704は、正解発話感情確率t、寄与度w、及びモデルパラメータθを最適化した後、正解音声セグメント感情確率t、音声セグメント寄与度w、及びセグメントモデルパラメータθを最適化する。
次に、学習器110は学習処理を終了するか否かを判定する(ステップS312)。ステップS312の処理はステップS106の処理と同一である。
学習処理を終了しないと判定された場合、学習器110は、ステップS305に戻り、同様の処理を実行する。
学習処理を終了すると判定された場合、学習器110は、感情識別器120にセグメントモデルパラメータθを出力し(ステップS313)、その後、学習処理を終了する。
実施例3の学習方法によれば、実施例2の学習方法と同様の効果を奏する。また、実施例3の学習方法によれば、学習対象パラメータの数が削減されるため、効率的に、推論精度の高い音声セグメント感情認識モデルを学習できる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Python、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
100 端末
200 サーバ
101、201 CPU
102、202 メモリ
103 音声入力I/F
104 音声出力I/F
105 画像出力I/F
106 コマンド入力I/F
107 通信I/F
108 バス
203 記憶装置
204 通信I/F
205 バス
210 ネットワーク
110 学習器
120 感情識別器
300 音声セグメント
310 音声セグメント
400 音声セグメント感情識別部
401 損失関数算出部
402、704 更新部
600 発話音声
700 第1損失関数算出部
701 発話感情識別部
702 第2損失関数算出部
703 第3損失関数算出部

Claims (15)

  1. 所定の時間長の音声である音声セグメントを入力として受け付け、発話者の感情の推定結果として感情確率を出力する音声セグメント感情認識モデルを学習する計算機システムであって、
    演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続される接続インタフェースを有する計算機を少なくとも一つ備え、
    前記記憶装置は、前記音声セグメント及び正解音声セグメント感情確率を含むセグメントサンプルを複数含むセグメント学習データと、前記音声セグメント感情認識モデルを定義する第1モデルパラメータとを格納し、
    前記演算装置は、
    前記音声セグメント感情認識モデルに前記音声セグメントを入力して得られた推定音声セグメント感情確率と、前記音声セグメント感情認識モデルに入力した前記音声セグメントに対応付けられる前記正解音声セグメント感情確率と、前記音声セグメント感情認識モデルに入力した前記音声セグメントを含む前記セグメントサンプルの学習への寄与の度合いを示す第1寄与度とに基づいて第1損失関数を算出し、
    前記第1損失関数を用いた学習アルゴリズムに基づいて、前記第1モデルパラメータと、前記音声セグメント感情認識モデルに入力した前記音声セグメントに対応付けられる前記正解音声セグメント感情確率とを、学習対象パラメータとして更新することを特徴とする計算機システム。
  2. 請求項1に記載の計算機システムであって、
    前記記憶装置は、発話音声及び正解発話感情確率を含むサンプルを複数含む学習データを格納し、
    前記演算装置は、
    前記学習データから一つの前記サンプルを選択し、当該サンプルに含まれる前記発話音声を所定の時間長で分割することにって、複数の音声セグメントを生成し、
    前記選択されたサンプルの前記正解発話感情確率に基づいて、前記複数の音声セグメントの各々の前記正解音声セグメント感情確率を算出し、
    前記音声セグメント及び前記正解音声セグメント感情確率を対応付けた前記セグメントサンプルを生成することを特徴とする計算機システム。
  3. 請求項2に記載の計算機システムであって、
    前記演算装置は、
    前記セグメントサンプルの生成時に、前記セグメントサンプルの前記第1寄与度を算出し、
    前記音声セグメント、前記第1寄与度、及び前記正解音声セグメント感情確率を対応付けた前記セグメントサンプルを生成することを特徴とする計算機システム。
  4. 請求項3に記載の計算機システムであって、
    前記演算装置は、前記第1損失関数を用いた学習アルゴリズムに基づいて、前記第1モデルパラメータと、前記音声セグメント感情認識モデルに入力した前記音声セグメントに対応付けられる前記正解音声セグメント感情確率及び前記第1寄与度とを、学習対象パラメータとして更新することを特徴とする計算機システム。
  5. 請求項3に記載の計算機システムであって、
    前記記憶装置は、前記発話音声を入力として受け付け、発話者の感情の推定結果として感情確率を出力する発話感情認識モデルを定義する第2モデルパラメータを格納し、
    前記サンプルは、前記サンプルの学習への寄与の度合いを示す第2寄与度を含み、
    前記演算装置は、
    前記音声セグメントを前記音声セグメント感情認識モデルに入力することによって、前記推定音声セグメント感情確率を算出し、
    前記音声セグメント感情認識モデルに入力した前記音声セグメントの生成元の前記発話音声を前記発話感情認識モデルに入力することによって、推定発話感情確率を算出し、
    前記正解発話感情確率と、前記推定発話感情確率と、前記発話感情認識モデルに入力した前記発話音声に対応付けられる前記第2寄与度と、前記音声セグメント感情認識モデルに入力した前記音声セグメントに対応付けられる前記第1寄与度とに基づいて、第2損失関数を算出し、
    前記第1損失関数及び前記第2損失関数に基づいて、第3損失関数を算出し、
    前記第3損失関数を用いた学習アルゴリズムに基づいて、前記第1モデルパラメータと、前記音声セグメント感情認識モデルに入力した前記音声セグメントに対応付けられる前記正解音声セグメント感情確率及び前記第1寄与度と、を学習対象パラメータとして更新することを特徴とする計算機システム。
  6. 請求項2に記載の計算機システムであって、
    前記記憶装置は、前記発話音声を入力として受け付け、発話者の感情の推定結果として感情確率を出力する発話感情認識モデルを定義する第2モデルパラメータを格納し、
    前記サンプルは、前記サンプルの学習への寄与の度合いを示す第2寄与度を含み、
    前記演算装置は、
    前記音声セグメントを前記音声セグメント感情認識モデルに入力することによって、前記推定音声セグメント感情確率を算出し、
    前記音声セグメント感情認識モデルに入力した前記音声セグメントの生成元の前記発話音声を前記発話感情認識モデルに入力することによって、推定発話感情確率と、前記音声セグメント感情認識モデルに入力した前記音声セグメントに対応付けられる前記第1寄与度と、を算出し、
    前記正解発話感情確率と、前記推定発話感情確率と、前記発話感情認識モデルに入力した前記発話音声に対応付けられる前記第2寄与度と、前記音声セグメント感情認識モデルに入力した前記音声セグメントに対応付けられる前記第1寄与度とに基づいて、第2損失関数を算出し、
    前記第1損失関数及び前記第2損失関数に基づいて、第3損失関数を算出し、
    前記第3損失関数を用いた学習アルゴリズムに基づいて、前記第1モデルパラメータと、前記音声セグメント感情認識モデルに入力した前記音声セグメントに対応付けられる前記正解音声セグメント感情確率と、を学習対象パラメータとして更新することを特徴とする計算機システム。
  7. 請求項4から請求項6のいずれか一項に記載の計算機システムであって、
    前記演算装置は、前記学習対象パラメータが複数存在する場合、前記複数の学習対象パラメータを同時に更新する処理、前記学習対象パラメータの組を生成し、前記組の更新順を決定し、前記更新順に前記学習対象パラメータを更新する処理、又は、順次、前記複数の学習対象パラメータを更新する処理のいずれかを実行することを特徴とする計算機システム。
  8. 請求項5又は請求項6に記載の計算機システムであって、
    前記演算装置は、前記第3損失関数を用いた学習アルゴリズムに基づいて、前記第2モデルパラメータと、前記発話感情認識モデルに入力した前記発話音声に対応付けられる前記正解発話感情確率及び前記第2寄与度とを更新することを特徴とする計算機システム。
  9. 少なくとも一つの計算機を備える計算機システムが実行する学習方法であって、
    前記少なくとも一つの計算機は、演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続される接続インタフェースを有し、
    前記計算機システムは、
    所定の時間長の音声である音声セグメント及び正解音声セグメント感情確率を含むセグメントサンプルを複数含むセグメント学習データと、
    前記音声セグメントを入力として受け付け、発話者の感情の推定結果として感情確率を出力する音声セグメント感情認識モデルを定義する第1モデルパラメータと、を管理し、
    前記学習方法は、
    前記演算装置が、前記音声セグメント感情認識モデルに前記音声セグメントを入力して得られた推定音声セグメント感情確率と、前記音声セグメント感情認識モデルに入力した前記音声セグメントに対応付けられる前記正解音声セグメント感情確率と、前記音声セグメント感情認識モデルに入力した前記音声セグメントを含む前記セグメントサンプルの学習への寄与の度合いを示す第1寄与度とに基づいて第1損失関数を算出する第1のステップと、
    前記演算装置が、前記第1損失関数を用いた学習アルゴリズムに基づいて、前記第1モデルパラメータと、前記音声セグメント感情認識モデルに入力した前記音声セグメントに対応付けられる前記正解音声セグメント感情確率とを、学習対象パラメータとして更新する第2のステップと、を含むことを特徴とする学習方法。
  10. 請求項9に記載の学習方法であって、
    前記計算機システムは、発話音声及び正解発話感情確率を含むサンプルを複数含む学習データを管理し、
    前記学習方法は、
    前記演算装置が、前記学習データから一つの前記サンプルを選択し、当該サンプルに含まれる前記発話音声を所定の時間長で分割することにって、複数の音声セグメントを生成する第3のステップと、
    前記演算装置が、前記選択されたサンプルの前記正解発話感情確率に基づいて、前記複数の音声セグメントの各々の前記正解音声セグメント感情確率を算出する第4のステップと、
    前記演算装置が、前記音声セグメント及び前記正解音声セグメント感情確率を対応付けた前記セグメントサンプルを生成する第5のステップと、を含むことを特徴とする学習方法。
  11. 請求項10に記載の学習方法であって、
    前記第のステップは、
    前記演算装置が、前記セグメントサンプルの前記第1寄与度を算出するステップと、
    前記演算装置が、前記音声セグメント、前記第1寄与度、及び前記正解音声セグメント感情確率を対応付けた前記セグメントサンプルを生成するステップと、を含むことを特徴とする学習方法。
  12. 請求項11に記載の学習方法であって、
    前記第2のステップは、前記演算装置が、前記第1損失関数を用いた学習アルゴリズムに基づいて、前記第1モデルパラメータと、前記音声セグメント感情認識モデルに入力した前記音声セグメントに対応付けられる前記正解音声セグメント感情確率及び前記第1寄与度とを、学習対象パラメータとして更新するステップを含むことを特徴とする学習方法。
  13. 請求項11に記載の学習方法であって、
    前記計算機システムは、前記発話音声を入力として受け付け、発話者の感情の推定結果として感情確率を出力する発話感情認識モデルを定義する第2モデルパラメータを管理し、
    前記サンプルは、前記サンプルの学習への寄与の度合いを示す第2寄与度を含み、
    前記第1のステップは、
    前記演算装置が、前記音声セグメントを前記音声セグメント感情認識モデルに入力することによって、前記推定音声セグメント感情確率を算出するステップと、
    前記演算装置が、前記音声セグメント感情認識モデルに入力した前記音声セグメントの生成元の前記発話音声を前記発話感情認識モデルに入力することによって、推定発話感情確率を算出するステップと、
    前記演算装置が、前記正解発話感情確率と、前記推定発話感情確率と、前記発話感情認識モデルに入力した前記発話音声に対応付けられる前記第2寄与度と、前記音声セグメント感情認識モデルに入力した前記音声セグメントに対応付けられる前記第1寄与度とに基づいて、第2損失関数を算出するステップと、
    前記演算装置が、前記第1損失関数及び前記第2損失関数に基づいて、第3損失関数を算出するステップと、を含み、
    前記第2のステップは、前記演算装置が、前記第3損失関数を用いた学習アルゴリズムに基づいて、前記第1モデルパラメータと、前記音声セグメント感情認識モデルに入力した前記音声セグメントに対応付けられる前記正解音声セグメント感情確率及び前記第1寄与度と、を学習対象パラメータとして更新するステップを含むことを特徴とする学習方法。
  14. 請求項10に記載の学習方法であって、
    前記計算機システムは、前記発話音声を入力として受け付け、発話者の感情の推定結果として感情確率を出力する発話感情認識モデルを定義する第2モデルパラメータを管理し、
    前記サンプルは、前記サンプルの学習への寄与の度合いを示す第2寄与度を含み、
    前記第1のステップは、
    前記演算装置が、前記音声セグメントを前記音声セグメント感情認識モデルに入力することによって、前記推定音声セグメント感情確率を算出するステップと、
    前記演算装置が、前記音声セグメント感情認識モデルに入力した前記音声セグメントの生成元の前記発話音声を前記発話感情認識モデルに入力することによって、推定発話感情確率と、前記音声セグメント感情認識モデルに入力した前記音声セグメントに対応付けられる前記第1寄与度と、を算出するステップと、
    前記演算装置が、前記正解発話感情確率と、前記推定発話感情確率と、前記発話感情認識モデルに入力した前記発話音声に対応付けられる前記第2寄与度と、前記音声セグメント感情認識モデルに入力した前記音声セグメントに対応付けられる前記第1寄与度とに基づいて、第2損失関数を算出するステップと、
    前記演算装置が、前記第1損失関数及び前記第2損失関数に基づいて、第3損失関数を算出するステップと、を含み、
    前記第2のステップは、前記演算装置が、前記第3損失関数を用いた学習アルゴリズムに基づいて、前記第1モデルパラメータと、前記音声セグメント感情認識モデルに入力した前記音声セグメントに対応付けられる前記正解音声セグメント感情確率と、を学習対象パラメータとして更新するステップを含むことを特徴とする学習方法。
  15. 請求項12から請求項14のいずれか一項に記載の学習方法であって、
    前記第2のステップでは、前記演算装置が、前記学習対象パラメータが複数存在する場合、前記複数の学習対象パラメータを同時に更新する処理、前記学習対象パラメータの組を生成し、前記組の更新順を決定し、前記更新順に前記学習対象パラメータを更新する処理、又は、順次、前記複数の学習対象パラメータを更新する処理のいずれかを実行することを特徴とする学習方法。
JP2020173802A 2020-10-15 計算機システム及び学習方法 Active JP7508333B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020173802A JP7508333B2 (ja) 2020-10-15 計算機システム及び学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020173802A JP7508333B2 (ja) 2020-10-15 計算機システム及び学習方法

Publications (2)

Publication Number Publication Date
JP2022065309A JP2022065309A (ja) 2022-04-27
JP7508333B2 true JP7508333B2 (ja) 2024-07-01

Family

ID=

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018163279A1 (ja) 2017-03-07 2018-09-13 日本電気株式会社 音声処理装置、音声処理方法、および音声処理プログラム
JP2018180334A (ja) 2017-04-14 2018-11-15 岩崎通信機株式会社 感情認識装置、方法およびプログラム
WO2019102884A1 (ja) 2017-11-21 2019-05-31 日本電信電話株式会社 ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018163279A1 (ja) 2017-03-07 2018-09-13 日本電気株式会社 音声処理装置、音声処理方法、および音声処理プログラム
JP2018180334A (ja) 2017-04-14 2018-11-15 岩崎通信機株式会社 感情認識装置、方法およびプログラム
WO2019102884A1 (ja) 2017-11-21 2019-05-31 日本電信電話株式会社 ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体

Similar Documents

Publication Publication Date Title
JP6671020B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
JP6538779B2 (ja) 音声対話システム、音声対話方法、および音声対話システムを適合させる方法
JP6933264B2 (ja) ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体
CN106688034B (zh) 具有情感内容的文字至语音转换
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
JP7268711B2 (ja) 信号処理システム、信号処理装置、信号処理方法、およびプログラム
EP1557823A2 (en) Method of setting posterior probability parameters for a switching state space model and method of speech recognition
CN112420014A (zh) 虚拟人脸构建方法、装置、计算机设备及计算机可读介质
JP6823809B2 (ja) 対話行為推定方法、対話行為推定装置およびプログラム
US11955026B2 (en) Multimodal neural network for public speaking guidance
CN111081230A (zh) 语音识别方法和设备
JP2015187684A (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
CN110335608B (zh) 声纹验证方法、装置、设备及存储介质
JP2022526876A (ja) モデルをトレーニングするためのトレーニング・データ修正
CN113674733A (zh) 用于说话时间估计的方法和设备
JP6810580B2 (ja) 言語モデル学習装置およびそのプログラム
CN114424209A (zh) 序列到序列神经模型中的结构保留关注机制
JP2009086581A (ja) 音声認識の話者モデルを作成する装置およびプログラム
WO2021229643A1 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
JP7508333B2 (ja) 計算機システム及び学習方法
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
EP4207192A1 (en) Electronic device and method for controlling same
EP4218007A1 (en) Fast emit low-latency streaming asr with sequence-level emission regularization
JP2019078857A (ja) 音響モデルの学習方法及びコンピュータプログラム
JP7028203B2 (ja) 音声認識装置、音声認識方法、プログラム